La Préparation des données du Hackaviz 2023

Une aventure aussi passionnante que le concours

Le thème des données

Le thème des données


L’idée émerge en septembre 2022


  • l’agglomération toulousaine vient de passer en ZFE
  • la tension est très forte sur le marché du gaz naturel
  • le prix de l’électricité est indexé sur le prix du gaz
  • le pétrole itou

Le thème des données


L’idée émerge en septembre 2022 :



Si on doit changer de voiture bientôt,
quel sera le meilleur carburant ?

Moteur à combustion ou électrique ?
Essence ou Diesel… ?


Il nous faut un jeu de données !

L’aventure des bornes de recharges

L’aventure des bornes de recharges

Il y a de nombreuses applications qui les cartographient :

Il doit être facile de trouver un jeu de données publiques

L’aventure des bornes de recharges

  • Les applications sont extrêmement protégées en extraction de données
  • Nous prenons contact avec un broker de données…

L’explosion des bornes de recharges

Au final, les bornes de recharges

── Résumé des données───────────────────
                           Values 
Nom                        charge
Nombre de lignes           50936  
Nombre de colonnes         26     
_________________________________           
Fréquence des variables par type:            
  Chaîne de caractères     8      
  Date                     2      
  Booléen                  9      
  Numérique                6      
  Horodatage               1     
  
── Variable type: chaîne ────────────────────────────────────────────────────────────────────────────────────────────────
  skim_variable        complete_rate n_unique
1 nom_operateur                0.932      233
2 nom_enseigne                 1         1476
3 nom_station                  1        15423
4 implantation_station         1            5
5 adresse_station              1        16399
6 code_insee_commune           0.720     5238
7 horaires                     1          510
8 accessibilite_pmr            1            4

── Variable type: Date ─────────────────────────────────────────────────────────────────────────────────────────────────────
  skim_variable         min        max        median     n_unique
1 date_mise_en_service  1970-01-01 2023-03-24 2021-04-22     2247
2 date_maj              2012-09-10 2023-02-28 2022-12-24      631

── Variable type: Booléen ──────────────────────────────────────────────────────────────────────────────────────────────────
  skim_variable        complete_rate   mean 
1 prise_type_ef                0.972 0.701  
2 prise_type_2                 0.973 0.849  
3 prise_type_combo_ccs         0.972 0.101  
4 prise_type_chademo           0.972 0.0567 
5 prise_type_autre             0.972 0.0690 
6 gratuit                      0.973 0.150  
7 paiement_acte                0.973 0.810  
8 paiement_cb                  0.973 0.477  
9 paiement_autre               0.851 0.879  

── Variable type: Numérique ──────────────────────────────────────────────────────────────────────────────────────────────────
  skim_variable          complete_rate    mean      sd     p0    p50  p100 hist 
1 nbre_pdc                      1       10.7    52.5      1    2     505   ▇▁▁▁▁
2 puissance_nominale            1       28.9    44.1      0   22     400   ▇▁▁▁▁
3 consolidated_longitude        1        2.53    5.14  -150.   2.35  166.  ▁▁▇▁▁
4 consolidated_latitude         1       46.7     4.78   -22.2 47.7    51.1 ▁▁▁▁▇
5 prix_kWh                      0.825    0.310   0.254    0    0.272  20   ▇▁▁▁▁
6 prix_session                  0.0825   0.783   0.744    0    0.6     8   ▇▁▁▁▁
── Variable type: POSIXct ──────────────────────────────────────────────────────────────────────────────────────────────────
  skim_variable    min                 max                 median             
1 last_modified    2023-02-26 08:49:17 2023-02-27 01:50:25 2023-02-26 08:53:12

Les stations-essence

Les stations-essence

Une application du ministère de l’économie, avec les données historiques accessibles :

l'application prix-carburants.gouv.fr

l’application prix-carburants.gouv.fr

La qualité de données d’une application en ligne

Si l’application est en ligne, les données sont de qualité…

La correction des problèmes

  • La série temporelle est irrégulière (les instants des changements de prix) et est trop volumineuse. C’est un format trop difficile à utiliser.
  • Il y a des duplications dans les données (2 variations au même instant dans une station).
  • Il y a des stations dont le prix ne bouge pas pendant un certain temps, cela crée des trous dans la série régulière. Il faut les boucher
  • le nombre de lignes dépasse la limite acceptable par la norme xlsx.

Les bugs remontés par les candidat.e.s

  • Quelques latitudes sont interverties avec des longitudes.
  • Quelques latitudes / longitudes n’ont pas la bonne échelle.
  • Les stations-service qui changent d’identifiant peuvent perdre leur latitude / longitude
  • Il y a des stations en fermeture temporaire sans jamais ré-ouvrir

Au final, les stations-essence

essence_mensuel.csv

── Résumé des données───────────────────
                           Values 
Nom                        essence_mensuel
Nombre de lignes           484055  
Nombre de colonnes         6     
_________________________________           
Fréquence des variables par type:            
  Chaîne de caractères     3      
  Numérique                3            
________________________                
Group variables            None         

── Variable type: character ───────────────────────────────
  skim_variable n_missing min max empty n_unique whitespace
1 id_pompe              0   7   8     0     9849          0
2 nom_carburant         0   3   6     0        6          0
3 mois                  0   8  10     0       15          0

── Variable type: numeric ─────────────────────────────────
  skim_variable n_missing  mean    sd    p0 p100 hist 
1 prix_min              0  1.67 0.359 0.001 10.0 ▇▁▁▁▁
2 prix_moyen            0  1.73 0.369 0.473 10.0 ▇▁▁▁▁
3 prix_max              0  1.80 0.400 0.502 10.0 ▇▁▁▁▁

essence_hebdomadaire.csv

── Résumé des données───────────────────
                           Values 
Nom                        essence_hebdomadaire
Nombre de lignes           2000271  
Nombre de colonnes         6     
_________________________________           
Fréquence des variables par type:            
  Chaîne de caractères     3      
  Numérique                3   
  
── Variable type: character ───────────────────────────────
  skim_variable n_missing min max empty n_unique whitespace
1 id_pompe              0   7   8     0     9849          0
2 nom_carburant         0   3   6     0        6          0
3 semaine               0   8   8     0       63          0
── Variable type: numeric ─────────────────────────────────
  skim_variable n_missing mean    sd    p0 p100 hist 
1 prix_min              0 1.71 0.373 0.001 10.0 ▇▁▁▁▁
2 prix_moyen            0 1.73 0.376 0.045 10.0 ▇▁▁▁▁
3 prix_max              0 1.75 0.384 0.045 10.0 ▇▂▁▁▁

Essence/prix_stations.csv

── Résumé des données───────────────────
                           Values 
Nom                        prix_stations
Nombre de lignes           5962597  
Nombre de colonnes         5     
_________________________________           
Fréquence des variables par type:            
  Chaîne de caractères     2      
  Numérique                2      
  Horodatage               1