# Vente de voitures

L'industrie automobile est un secteur d'activité economique traditionellement fort en France. La France se place au troisième rang des pays européens pour le nombre d'immatriculations de voitures neuves et plus de la moitié de ces immatriculations concernent des voitures de marque francaises (PSA Peugeot Citroen & Renault).
Curieusement, les ventes de véhicules sont corrélés à la consommation privée et sont a ce titre un bon indicateur de l'acivitée économique du pays.

## 2. Les différents modèles de voitures vendues en France

A partir de la liste des marques vendue en France (29), nous avons récupéré (scraping) les caractéristiques techniques de chaque modèle de voitures produites par marque. Ces données sont disponibles sur [cars-data](http://www.cars-data.com/fr/). 
[Scrapy](https://scrapy.org/) est un framework Python qui permet de développer des web crawlers. Nous avons développé un crawler pour le site [cars-data](http://www.cars-data.com/fr/) qui a servi à télécharger l'ensemble des modèles de voitures vendues en France (44970).
Ces données semi-structurées ont été stockées au format [json](https://fr.wikipedia.org/wiki/JavaScript_Object_Notation): `carsdata.json`

In [1]:
import pandas as pd
cars_data = pd.read_json("E:\\notebooks\\cars-data\\carsdata\\carsdata.json")

In [2]:
cars_data.head()

Unnamed: 0,ABS,accoudoir_central,airbag_conducteur,airbag_lateraux,airbag_passager,airbag_tete_rideau,alesage_course_piston,allumage_auto_feux,antipatinage,appuis_tete_arriere,...,vitesse_4eme,vitesse_max,vitres_electriques,vitres_teintees,voie_arriere,voie_avant,volant_cuir,volant_reglable,volume_coffre,zero_100
0,YES,NO,YES,YES(front),YES,YES(front),"86,0 x 86,0 mm",NO,YES,YES,...,"0,98:1",220 km/h,YES(front & rear),YES,1479 mm,1462 mm,YES,YES(height & depth),150-1700 l,"8,2 s"
1,YES,NO,YES,YES(front),YES,NO,"72,2 x 73,1 mm",NO,YES,YES,...,"0,90:1",175 km/h,YES(front),YES,1476 mm,1493 mm,€ 295,YES,320-1200 l,"11,1 s"
2,YES,YES(front & rear),YES,YES(front),YES,NO,"89,9 x 100,0 mm",NO,YES (since 4/2005),YES,...,"0,69:1",176 km/h,YES(front & rear),YES,1530 mm,1530 mm,YES,YES,410-1841 l,"11,1 s"
3,YES,NO,YES,YES(front),YES,NO,,YES,YES,YES,...,,135 km/h,YES(front & rear),YES,1510 mm,1511 mm,YES,YES(height & depth),338-1225 l,"13,5 s"
4,YES,YES(front),YES,YES(front),YES,YES(front & rear),"77,0 x 85,44 mm",YES,YES,YES,...,"1,39:1",180 km/h,YES(front & rear),YES,1551 mm,1547 mm,YES,YES(height & depth),440-1486 l,"11,5 s"


In [3]:
cars_data.columns.values.tolist()

[u'ABS',
 u'accoudoir_central',
 u'airbag_conducteur',
 u'airbag_lateraux',
 u'airbag_passager',
 u'airbag_tete_rideau',
 u'alesage_course_piston',
 u'allumage_auto_feux',
 u'antipatinage',
 u'appuis_tete_arriere',
 u'assistant_freinage',
 u'banquette_arriere_rabattable',
 u'blocage_differentiel',
 u'bluetooth',
 u'capacite_charge_max',
 u'capacite_moteur',
 u'capteur_stationnement',
 u'capteur_temp_liquide_refroidissement',
 u'carburant',
 u'catalyseur',
 u'clim_bizone',
 u'climatisation',
 u'commande_audio_volant',
 u'compteur_jours',
 u'conso_extra_urbaine',
 u'conso_extra_urbaine_km',
 u'conso_mixte',
 u'conso_mixte_km',
 u'conso_urbaine',
 u'conso_urbaine_km',
 u'couple_max',
 u'couple_max_tr_min',
 u'cylindres',
 u'date_fin',
 u'date_sortie',
 u'dehors_thermometre',
 u'direction_assistee',
 u'eclairage_miroir_maquillage',
 u'eclairage_tdb_reglable',
 u'electro_stabilisateur_prog',
 u'emission_co2',
 u'empattement',
 u'entretien',
 u'essai_collision',
 u'essuie_glace_auto',
 u'fer

In [4]:
df = pd.DataFrame()
#update pandas to 0.19 to get int instead of float results
df['NO_ABS'] = pd.get_dummies(cars_data.ABS, prefix='ABS').iloc[:,0]

In [5]:
df['NO_accoudoir_central'] = pd.get_dummies(cars_data.accoudoir_central).iloc[:,0]

In [6]:
df['NO_airbag_conducteur'] = pd.get_dummies(cars_data.airbag_conducteur).iloc[:,0]
df['NO_airbag_lateraux'] = pd.get_dummies(cars_data.airbag_lateraux).iloc[:,0]
df['NO_airbag_passager'] = pd.get_dummies(cars_data.airbag_passager).iloc[:,0]
df['NO_airbag_tete_rideau'] = pd.get_dummies(cars_data.airbag_tete_rideau).iloc[:,0]

In [7]:
cars_data.alesage_course_piston.head(20)

0      86,0 x 86,0 mm
1      72,2 x 73,1 mm
2     89,9 x 100,0 mm
3                 NaN
4     77,0 x 85,44 mm
5      94,0 x 89,0 mm
6      82,5 x 92,8 mm
7      92,5 x 93,0 mm
8      88,9 x 80,0 mm
9      77,0 x 85,8 mm
10     94,0 x 79,5 mm
11     66,5 x 67,0 mm
12     93,0 x 85,8 mm
13     83,0 x 88,0 mm
14     81,0 x 80,5 mm
15                NaN
16     80,5 x 67,4 mm
17     80,5 x 63,9 mm
18     82,6 x 79,2 mm
19     86,4 x 63,9 mm
Name: alesage_course_piston, dtype: object

In [8]:
al_course = cars_data.alesage_course_piston.str.replace(',','.').str.replace(' mm','').str.split(' x ')

In [9]:
df['alesage_mm'] = al_course.str[0]

In [10]:
df['course_piston_mm'] = al_course.str[-1]

In [11]:
df['NO_allumage_auto_feux'] = pd.get_dummies(cars_data.allumage_auto_feux).iloc[:,0]

In [12]:
df['NO_antipatinage'] = pd.get_dummies(cars_data.antipatinage).iloc[:,0]

In [13]:
df['NO_appuis_tete_arriere'] = pd.get_dummies(cars_data.appuis_tete_arriere).iloc[:,0]

In [14]:
df['NO_assistant_freinage'] = pd.get_dummies(cars_data.assistant_freinage).iloc[:,0]

In [15]:
df['NO_banquette_arriere_rabattable'] = pd.get_dummies(cars_data.banquette_arriere_rabattable).iloc[:,0]

In [16]:
df['NO_blocage_differentiel'] = pd.get_dummies(cars_data['blocage_differentiel']).iloc[:,0]

In [17]:
df['NO_bluetooth'] = pd.get_dummies(cars_data['bluetooth']).iloc[:,0]

In [18]:
df['capacite_charge_max_kg'] = pd.to_numeric(cars_data.capacite_charge_max.str.strip(' kg'))

In [19]:
df['capacite_moteur_cc'] = pd.to_numeric(cars_data.capacite_moteur.str.strip(' cc'))

In [20]:
df['NO_capteur_stationnement'] = pd.get_dummies(cars_data.capteur_stationnement).iloc[:,0]

In [21]:
df['NO_capteur_temp_liquide_refroidissement'] = pd.get_dummies(cars_data.capteur_temp_liquide_refroidissement).iloc[:,0]

In [22]:
df['LPG_carburant'] = pd.get_dummies(cars_data.carburant).iloc[:,0]
df['bio_ethanol_carburant'] = pd.get_dummies(cars_data.carburant).iloc[:,1]
df['diesel_carburant'] = pd.get_dummies(cars_data.carburant).iloc[:,2]
df['natural_gas_carburant'] = pd.get_dummies(cars_data.carburant).iloc[:,3]

In [23]:
df['catalyseur_onregular'] =pd.get_dummies(cars_data.catalyseur).iloc[:,1]
df['catalyseur_part_filter'] =pd.get_dummies(cars_data.catalyseur).iloc[:,2]
df['catalyseur_egular'] =pd.get_dummies(cars_data.catalyseur).iloc[:,3]


In [24]:
df['No_clim_bizone'] = pd.get_dummies(cars_data['clim_bizone']).iloc[:,0]

In [25]:
df['NO_climatisation'] =pd.get_dummies(cars_data.climatisation.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [26]:
df['NO_commande_audio_volant'] = pd.get_dummies(cars_data.commande_audio_volant.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [27]:
df['compteur_jours'] = pd.get_dummies(cars_data.compteur_jours).iloc[:,1]

In [28]:
df['conso_extra_urbaine_l_par_100km'] = pd.to_numeric(cars_data.conso_extra_urbaine.str.replace(',','.').str.replace(' l/100km',''))

In [29]:
df['conso_extra_urbaine_km_par_l'] = pd.to_numeric(cars_data.conso_extra_urbaine_km.str.replace(',','.').str.split('1 op ').str[-1])

In [30]:
df['conso_mixte_l_par_100km'] = pd.to_numeric(cars_data.conso_mixte.str.replace(',','.').str.replace(' l/100km',''))

In [31]:
df['conso_mixte_km_par_l'] = pd.to_numeric(cars_data.conso_mixte_km.str.replace(',','.').str.split('1 op ').str[-1])

In [32]:
df['conso_urbaine_l_par_100km'] = pd.to_numeric(cars_data.conso_urbaine.str.replace(',','.').str.replace(' l/100km',''))

In [33]:
df['conso_urbaine_km_par_l'] = pd.to_numeric(cars_data.conso_urbaine_km.str.replace(',','.').str.split('1 op ').str[-1])

In [34]:
df['couple_max'] = pd.to_numeric(cars_data.couple_max.str.strip(' Nm').str.strip('-'))

In [35]:
df['couple_max_tr_min'] = pd.to_numeric(cars_data.couple_max_tr_min.str.strip(' rpm'))

In [36]:
df['nb_cylindres'] = pd.to_numeric(cars_data.cylindres.str.split(', ').str[0])

In [37]:
df['cylindres_boxer'] = pd.get_dummies(cars_data.cylindres.str.split(', ').str[1]).iloc[:,0]
df['cylindres_en_V'] = pd.get_dummies(cars_data.cylindres.str.split(', ').str[1]).iloc[:,1]
df['cylindres_en_W'] = pd.get_dummies(cars_data.cylindres.str.split(', ').str[1]).iloc[:,2]

In [38]:
df['date_fin'] = pd.to_numeric(cars_data.date_fin.str.replace('present',''))

In [39]:
df['date_sortie'] = cars_data.date_sortie

In [40]:
df['NO_thermometre_exterieur'] = pd.get_dummies(cars_data.dehors_thermometre.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [41]:
df['NO_direction_assistee'] = pd.get_dummies(cars_data.direction_assistee.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [42]:
df['NO_eclairage_miroir_maquillage'] = pd.get_dummies(cars_data.eclairage_miroir_maquillage.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [43]:
df['NO_eclairage_tdb_reglable'] = pd.get_dummies(cars_data.eclairage_tdb_reglable.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [44]:
df['NO_electro_stabilisateur_prog'] = pd.get_dummies(cars_data.electro_stabilisateur_prog.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [45]:
df['emission_co2_g_par_km'] = pd.to_numeric(cars_data.emission_co2.str.replace(' g/km',''))

In [46]:
df['empattement'] = pd.to_numeric(cars_data.empattement.str.replace('mm',''))

In [47]:
df['intervale_km_entretien'] =pd.to_numeric(cars_data.entretien.str.replace('.','').str.split(' km / ').str[0], errors='coerce')

In [48]:
df['intervale_annees_entretien'] = pd.to_numeric(cars_data.entretien.str.split(' km / ').str[1].str.split().str[0])

In [49]:
#essai collision non informatif
cars_data.essai_collision.head(10)

0           NaN
1           NaN
2           NaN
3           NaN
4           NaN
5    not tested
6    not tested
7    not tested
8    not tested
9           NaN
Name: essai_collision, dtype: object

In [50]:
df['NO_essuie_glace_auto'] = pd.get_dummies(cars_data.essuie_glace_auto).iloc[:,0]

In [51]:
df['NO_fermeture_portes_centrallisee'] = pd.get_dummies(cars_data.fermeture_portes_centrallisee.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [52]:
df['NO_feux_anti_brouillard'] = pd.get_dummies(cars_data.feux_anti_brouillard.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [53]:
df['NO_feux_circulation_diurnes'] = pd.get_dummies(cars_data.feux_circulation_diurnes.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [54]:
df['freins_arriere_type_trommels'] = pd.get_dummies(cars_data.freins_arriere.str.split(',').str[0]).iloc[:,1]
df['freins_arriere_type_ventilated_disc'] = pd.get_dummies(cars_data.freins_arriere.str.split(',').str[0]).iloc[:,2]


In [55]:
df['freins_arriere_diametre_disc'] = pd.to_numeric(cars_data.freins_arriere.str.split(',').str[1].str.replace(' mm',''))

In [56]:
df['freins_avant_type_trommels'] = pd.get_dummies(cars_data.freins_avant.str.split(',').str[0]).iloc[:,1]
df['freins_avant_type_ventilated_disc'] = pd.get_dummies(cars_data.freins_avant.str.split(',').str[0]).iloc[:,2]
df['freins_avant_diametre_disc'] = pd.to_numeric(cars_data.freins_avant.str.split(',').str[1].str.replace(' mm',''))

In [57]:
df['duree_garantie_carroserie'] = pd.to_numeric(cars_data.garantie_carroserie.str.split().str[0], errors='coerce')

In [58]:
df['garantie_generale_annees'] = pd.to_numeric(cars_data.garantie_generale.str.split().str[0], errors='coerce')

In [59]:
df['garantie_generale_km'] = pd.to_numeric(cars_data.garantie_generale.str.split().str[2], errors='coerce')

In [60]:
df['hauteur_mm'] = pd.to_numeric(cars_data.hauteur.str.split().str[0], errors='coerce')

In [61]:
df['NO_jantes_alliage'] = pd.get_dummies(cars_data.jantes_alliage.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [62]:
df['largeur_mm'] = pd.to_numeric(cars_data.largeur.str.split().str[0], errors='coerce')

In [63]:
df['NO_lave_phares'] = pd.get_dummies(cars_data.lave_phares.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [64]:
 df['NO_liseuse'] = pd.get_dummies(cars_data.liseuse.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [65]:
df['longueur_mm'] = pd.to_numeric(cars_data.longueur.str.split().str[0], errors='coerce')

In [66]:
df['longueur_coffre_min'] = pd.to_numeric(cars_data.longueur_min_max.str.split("mm /").str[0])

In [67]:
df['longueur_coffre_max'] = pd.to_numeric(cars_data.longueur_min_max.str.split("mm /").str[1], errors='coerce')

In [68]:
df['ratio_marche_arriere'] = pd.to_numeric(cars_data.marche_arriere.str.replace(',','.').str.split(':').str[0])

In [69]:
df['masse_admissible_max'] = pd.to_numeric(cars_data.masse_admissible_max.str.split().str[0], errors='coerce')

In [70]:
df['masse_max_frein_avec_remorque'] = pd.to_numeric(cars_data.masse_max_frein_avec_remorque.str.split().str[0], errors='coerce')

In [71]:
df['masse_max_frein_sans_remorque'] = pd.to_numeric(cars_data.masse_max_frein_sans_remorque.str.split().str[0], errors='coerce')

In [72]:
df['masse_vide'] = pd.to_numeric(cars_data.masse_vide.str.split().str[0], errors='coerce')

In [73]:
df['max_boule_presse'] = pd.to_numeric(cars_data.max_boule_presse.str.split().str[0], errors='coerce')

In [74]:
df['max_charge_toit'] = pd.to_numeric(cars_data.max_charge_toit.str.split().str[0], errors='coerce')

In [75]:
df['niveau_energie_B'] = pd.get_dummies(cars_data.niveau_energie).iloc[:,1]
df['niveau_energie_C'] = pd.get_dummies(cars_data.niveau_energie).iloc[:,2]
df['niveau_energie_D'] = pd.get_dummies(cars_data.niveau_energie).iloc[:,3]
df['niveau_energie_E'] = pd.get_dummies(cars_data.niveau_energie).iloc[:,4]
df['niveau_energie_F'] = pd.get_dummies(cars_data.niveau_energie).iloc[:,5]
df['niveau_energie_G'] = pd.get_dummies(cars_data.niveau_energie).iloc[:,6]

In [76]:
cars_data.nom.head(10)

0               Opel Zafira OPC Turbo 2.0  2003 - 2005
1           Dacia Sandero Tce 90 Laureate  2012 - 2015
2    Nissan X-Trail 2.5 4WD Sport Outdoor  2003 - 2006
3                      Renault Zoe Zen  2013 - present
4     Kia Venga 1.6 CVVT ExecutiveLine  2015 - present
5                                  BMW Z8  2000 - 2003
6    Audi TTS Roadster 2.0 TFSI quattro Pro Line + ...
7    Land Rover Range Rover Sport V8 5.0 Supercharg...
8                        Ford Windstar SX  2000 - 2001
9         Mini Roadster John Cooper Works  2012 - 2015
Name: nom, dtype: object

In [77]:
df['marque'] = cars_data.nom.str.split().str[0].str.replace('Land','Land Rover').str.replace('Alfa','Alfa Romeo').str.replace('Mercedes','Mercedes Benz')

In [78]:
x = cars_data.nom.str.replace('Land Rover','Land-Rover').str.replace('Alfa Romeo','Alfa-Romeo').str.replace('Mercedes Benz','Mercedes-Benz')
df['modele'] = x.str.split().str[1]

In [79]:
x = cars_data.nom.str.replace('Land Rover','Land-Rover').str.replace('Alfa Romeo','Alfa-Romeo').str.replace('Mercedes Benz','Mercedes-Benz')
df['version'] = x.str.split().str[2:-3].str.join(sep='_')


In [80]:
df['nombre_portes'] = cars_data.nombre_portes

In [81]:
df['nombre_sieges'] = pd.to_numeric(cars_data.nombre_sieges.str.replace('-\d',''))

In [82]:
df['prix'] = pd.to_numeric(cars_data.nouveau_prix.str.replace('.','').str.split().str[-1], errors='coerce')

In [83]:
df['NO_ordinateur_bord'] = pd.get_dummies(cars_data.ordinateur_bord.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [84]:
 df['NO_panorama'] = pd.get_dummies(cars_data.panorama.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [85]:
df['NO_pare_chocs_peints'] = pd.get_dummies(cars_data.pare_chocs_peints.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [86]:
df['NO_peinture_metalisee'] = pd.get_dummies(cars_data.peinture_metalisee.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [87]:
df['NO_phares_xenon'] = pd.get_dummies(cars_data.phares_xenon.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [88]:
df['pneus_largeur'] = pd.to_numeric(cars_data.pneus.str.split('/').str[0], errors='coerce')

In [89]:
df['pneus_hauteur'] = pd.to_numeric(cars_data.pneus.str.split('/').str[1].str.extract('(\d{2})\w\d+'),errors='coerce')

  if __name__ == '__main__':


In [90]:
df['pneus_type'] = pd.to_numeric(cars_data.pneus.str.split('/').str[1].str.extract('\d{2}(\w)\d+'),errors='coerce')

  if __name__ == '__main__':


In [91]:
df['pneus_diametre'] = pd.to_numeric(cars_data.pneus.str.split('/').str[1].str.extract('\d{2}\w(\d{2})'),errors='coerce')

  if __name__ == '__main__':


In [92]:
df['puissance_max_kW'] = pd.to_numeric(cars_data.puissance_max.str.split().str[0],errors='coerce')

In [93]:
df['puissance_max_HP'] = pd.to_numeric(cars_data.puissance_max.str.split().str[2].str.extract('(\d+)'),errors='coerce')

  if __name__ == '__main__':


In [94]:
df['puissance_max_tr_min'] = pd.to_numeric(cars_data.puissance_max_tr_min.str.split().str[0],errors='coerce').head()

In [95]:
df['NO_rails_toit'] = pd.get_dummies(cars_data.rails_toit.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [96]:
df['rayon_virage'] = pd.to_numeric(cars_data.rayon_virage.str.replace(',','.').str.split().str[0],errors='coerce')

In [97]:
df['NO_reg_electrique_sieges'] = pd.get_dummies(cars_data.reg_electrique_sieges.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [98]:
df['NO_reg_vitesse'] = pd.get_dummies(cars_data.reg_vitesse.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [99]:
df['NO_repartiteur_elect_freinage'] = pd.get_dummies(cars_data.repartiteur_elect_freinage).iloc[:,0]

In [100]:
df['reservoir_carburant'] = pd.to_numeric(cars_data.reservoir_carburant.str.split().str[0],errors='coerce')

In [101]:
df['NO_retros_clignotant'] = pd.get_dummies(cars_data.retros_clignotant.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [102]:
df['NO_retros_electriques'] = pd.get_dummies(cars_data.retros_electriques.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [103]:
df['NO_retros_electrochrome'] = pd.get_dummies(cars_data.retros_electrochrome.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [104]:
df['NO_retros_ext_rabatable'] = pd.get_dummies(cars_data.retros_ext_rabatable.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [105]:
df['NO_retros_gradation_auto'] = pd.get_dummies(cars_data.retros_gradation_auto.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [106]:
df['roues_motrices_avant_arriere'] = pd.get_dummies(cars_data.roues_motrices).iloc[:,1]
df['roues_motrices_arriere'] = pd.get_dummies(cars_data.roues_motrices).iloc[:,2]


In [107]:
df['NO_siege_chauffant'] = pd.get_dummies(cars_data.siege_chauffant.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [108]:
df['NO_siege_cuir'] = pd.get_dummies(cars_data.siege_cuir.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [109]:
df['NO_siege_reglable_hauteur'] = pd.get_dummies(cars_data.siege_reglable_hauteur.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [110]:
df['NO_siege_reglage_lombaire'] = pd.get_dummies(cars_data.siege_reglage_lombaire.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [111]:
df['NO_siege_sport'] = pd.get_dummies(cars_data.siege_sport.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [112]:
df['soupapes_par_cylindre'] = cars_data.soupapes_par_cylindre

In [113]:
df['stabilisatrice_arriere'] = pd.get_dummies(cars_data.stabilisatrice_arriere).iloc[:,1]

In [114]:
df['stabilisatrice_avant'] = pd.get_dummies(cars_data.stabilisatrice_avant).iloc[:,1]

In [115]:
df['suspension_arriere_de_dion'] = pd.get_dummies(cars_data.suspension_arriere).iloc[:,0]
df['suspension_arriere_independent_double_wishbone'] = pd.get_dummies(cars_data.suspension_arriere).iloc[:,1]
df['suspension_arriere_independent_long_arm'] = pd.get_dummies(cars_data.suspension_arriere).iloc[:,2]
df['suspension_independent_wishbone'] = pd.get_dummies(cars_data.suspension_arriere).iloc[:,3]
df['suspension_arriere_multilink'] = pd.get_dummies(cars_data.suspension_arriere).iloc[:,4]
df['suspension_arriere_rigid'] = pd.get_dummies(cars_data.suspension_arriere).iloc[:,6]
df['suspension_arriere_semi_independant'] = pd.get_dummies(cars_data.suspension_arriere).iloc[:,7]

In [116]:
df['suspension_avant_independent_McPherson'] = pd.get_dummies(cars_data.suspension_avant).iloc[:,0]
df['suspension_avant_independent_double_wishbone'] = pd.get_dummies(cars_data.suspension_avant).iloc[:,1]
df['suspension_avant_independent_long_arm'] = pd.get_dummies(cars_data.suspension_avant).iloc[:,2]
df['suspension_avant_independent_wishbone'] = pd.get_dummies(cars_data.suspension_avant).iloc[:,3]
df['suspension_avant_independent_multilink'] = pd.get_dummies(cars_data.suspension_avant).iloc[:,4]

In [117]:
df['NO_sys_alarme'] = pd.get_dummies(cars_data.sys_alarme.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [118]:
df['NO_sys_audio'] = pd.get_dummies(cars_data.sys_audio.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [119]:
x = cars_data.sys_carburant.str.replace('common rail', 'direct injection').str.replace('multijet', 'direct injection')
x = x.str.replace('injection pump', 'direct injection').str.replace('^direct injection$','injection')
df['sys_carburant_indirect_injection'] = pd.get_dummies(x).iloc[:,1]
df['sys_carburant_direct_injection'] = pd.get_dummies(x).iloc[:,2]
df['sys_carburant_multipoint_injection'] = pd.get_dummies(x).iloc[:,3]
df['sys_carburant_singlepoint_injection'] = pd.get_dummies(x).iloc[:,4]


In [122]:
df['sys_entrainement_electric'] = pd.get_dummies(cars_data.sys_entrainement).iloc[:,0]
df['sys_entrainement_hybrid'] = pd.get_dummies(cars_data.sys_entrainement).iloc[:,2]
df['sys_entrainement_plugin_hybrid'] = pd.get_dummies(cars_data.sys_entrainement).iloc[:,3]

In [126]:
df['NO_sys_navigation'] = pd.get_dummies(cars_data.sys_navigation.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [128]:
df['NO_sys_stop_start'] = pd.get_dummies(cars_data.sys_stop_start).iloc[:,0]

In [131]:
df['NO_tachymetre'] = pd.get_dummies(cars_data.tachymetre.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [137]:
df['taux_compression'] = pd.to_numeric(cars_data.taux_compression.str.replace(',','.').str.split().str[0],errors='coerce')

In [140]:
df['NO_teledeverrouillage'] = pd.get_dummies(cars_data.teledeverrouillage.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [142]:
df['NO_toit_ouvrant_glissant'] = pd.get_dummies(cars_data.toit_ouvrant_glissant.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]

In [146]:
df['tr_min_120_kmh'] = pd.to_numeric(cars_data.tr_min_120_kmh.str.replace('.','').str.split().str[0])

In [149]:
df['transmission_automatic'] = pd.get_dummies(cars_data.transmission).iloc[:,0]
df['transmission_semi_automatic'] = pd.get_dummies(cars_data.transmission).iloc[:,2]
df['transmission_sequential_automatic'] = pd.get_dummies(cars_data.transmission).iloc[:,3]

In [154]:
df['transmission_finale'] = pd.to_numeric(cars_data.transmission_finale.str.replace(',','.').str.split(':').str[0],errors='coerce')

In [157]:
df['supercharger'] = pd.get_dummies(cars_data.turbo).iloc[:,0]
df['turbocharger'] = pd.get_dummies(cars_data.turbo).iloc[:,2]
df['twincharger'] = pd.get_dummies(cars_data.turbo).iloc[:,3]
df['turbocharger_w_intercooler'] = pd.get_dummies(cars_data.turbo).iloc[:,4]

In [160]:
df['bus'] = pd.get_dummies(cars_data.type_carrosserie).iloc[:,1]
df['cabriolet'] = pd.get_dummies(cars_data.type_carrosserie).iloc[:,2]
df['coupe'] = pd.get_dummies(cars_data.type_carrosserie).iloc[:,3]
df['hatchback'] = pd.get_dummies(cars_data.type_carrosserie).iloc[:,4]
df['mpv'] = pd.get_dummies(cars_data.type_carrosserie).iloc[:,5]
df['pickup'] = pd.get_dummies(cars_data.type_carrosserie).iloc[:,6]
df['sedan'] = pd.get_dummies(cars_data.type_carrosserie).iloc[:,7]
df['stationwagon'] = pd.get_dummies(cars_data.type_carrosserie).iloc[:,8]
df['suv_crossover'] = pd.get_dummies(cars_data.type_carrosserie).iloc[:,9]


In [163]:
df['electromagnetic_synchronous_motor'] = pd.get_dummies(cars_data.type_moteur).iloc[:,1]
df['valvetrain_ohc'] = pd.get_dummies(cars_data.type_moteur).iloc[:,2]
df['valvetrain_ohv'] = pd.get_dummies(cars_data.type_moteur).iloc[:,3]
df['permanent_magnet_synchronous_motor'] = pd.get_dummies(cars_data.type_moteur).iloc[:,4]

In [166]:
df['NO_verre_intim_arriere'] = pd.get_dummies(cars_data.verre_intim_arriere.str.replace('\W+ \d+.\d+', 'NO')).iloc[:,0]