La Préparation des données du Hackaviz 2023
Une aventure aussi passionnante que le concours
Le thème des données
Le thème des données
L’idée émerge en septembre 2022
Le thème des données
L’idée émerge en septembre 2022 :
Si on doit changer de voiture bientôt,
quel sera le meilleur carburant ?
Moteur à combustion ou électrique ?
Essence ou Diesel… ?
Il nous faut un jeu de données !
L’aventure des bornes de recharges
Il y a de nombreuses applications qui les cartographient :
Il doit être facile de trouver un jeu de données publiques
── Résumé des données───────────────────
Values
Nom charge
Nombre de lignes 50936
Nombre de colonnes 26
_________________________________
Fréquence des variables par type:
Chaîne de caractères 8
Date 2
Booléen 9
Numérique 6
Horodatage 1
── Variable type: chaîne ────────────────────────────────────────────────────────────────────────────────────────────────
skim_variable complete_rate n_unique
1 nom_operateur 0.932 233
2 nom_enseigne 1 1476
3 nom_station 1 15423
4 implantation_station 1 5
5 adresse_station 1 16399
6 code_insee_commune 0.720 5238
7 horaires 1 510
8 accessibilite_pmr 1 4
── Variable type: Date ─────────────────────────────────────────────────────────────────────────────────────────────────────
skim_variable min max median n_unique
1 date_mise_en_service 1970-01-01 2023-03-24 2021-04-22 2247
2 date_maj 2012-09-10 2023-02-28 2022-12-24 631
── Variable type: Booléen ──────────────────────────────────────────────────────────────────────────────────────────────────
skim_variable complete_rate mean
1 prise_type_ef 0.972 0.701
2 prise_type_2 0.973 0.849
3 prise_type_combo_ccs 0.972 0.101
4 prise_type_chademo 0.972 0.0567
5 prise_type_autre 0.972 0.0690
6 gratuit 0.973 0.150
7 paiement_acte 0.973 0.810
8 paiement_cb 0.973 0.477
9 paiement_autre 0.851 0.879
── Variable type: Numérique ──────────────────────────────────────────────────────────────────────────────────────────────────
skim_variable complete_rate mean sd p0 p50 p100 hist
1 nbre_pdc 1 10.7 52.5 1 2 505 ▇▁▁▁▁
2 puissance_nominale 1 28.9 44.1 0 22 400 ▇▁▁▁▁
3 consolidated_longitude 1 2.53 5.14 -150. 2.35 166. ▁▁▇▁▁
4 consolidated_latitude 1 46.7 4.78 -22.2 47.7 51.1 ▁▁▁▁▇
5 prix_kWh 0.825 0.310 0.254 0 0.272 20 ▇▁▁▁▁
6 prix_session 0.0825 0.783 0.744 0 0.6 8 ▇▁▁▁▁
── Variable type: POSIXct ──────────────────────────────────────────────────────────────────────────────────────────────────
skim_variable min max median
1 last_modified 2023-02-26 08:49:17 2023-02-27 01:50:25 2023-02-26 08:53:12
Les stations-essence
Une application du ministère de l’économie, avec les données historiques accessibles :
Si l’application est en ligne, les données sont de qualité…
xlsx
.essence_mensuel.csv
── Résumé des données───────────────────
Values
Nom essence_mensuel
Nombre de lignes 484055
Nombre de colonnes 6
_________________________________
Fréquence des variables par type:
Chaîne de caractères 3
Numérique 3
________________________
Group variables None
── Variable type: character ───────────────────────────────
skim_variable n_missing min max empty n_unique whitespace
1 id_pompe 0 7 8 0 9849 0
2 nom_carburant 0 3 6 0 6 0
3 mois 0 8 10 0 15 0
── Variable type: numeric ─────────────────────────────────
skim_variable n_missing mean sd p0 p100 hist
1 prix_min 0 1.67 0.359 0.001 10.0 ▇▁▁▁▁
2 prix_moyen 0 1.73 0.369 0.473 10.0 ▇▁▁▁▁
3 prix_max 0 1.80 0.400 0.502 10.0 ▇▁▁▁▁
essence_hebdomadaire.csv
── Résumé des données───────────────────
Values
Nom essence_hebdomadaire
Nombre de lignes 2000271
Nombre de colonnes 6
_________________________________
Fréquence des variables par type:
Chaîne de caractères 3
Numérique 3
── Variable type: character ───────────────────────────────
skim_variable n_missing min max empty n_unique whitespace
1 id_pompe 0 7 8 0 9849 0
2 nom_carburant 0 3 6 0 6 0
3 semaine 0 8 8 0 63 0
── Variable type: numeric ─────────────────────────────────
skim_variable n_missing mean sd p0 p100 hist
1 prix_min 0 1.71 0.373 0.001 10.0 ▇▁▁▁▁
2 prix_moyen 0 1.73 0.376 0.045 10.0 ▇▁▁▁▁
3 prix_max 0 1.75 0.384 0.045 10.0 ▇▂▁▁▁
Essence/prix_stations.csv
── Résumé des données───────────────────
Values
Nom prix_stations
Nombre de lignes 5962597
Nombre de colonnes 5
_________________________________
Fréquence des variables par type:
Chaîne de caractères 2
Numérique 2
Horodatage 1