# Consigne

Vous disposez du jeu de donnée suivant sur les voiture.
Un data scientist souhaite créer un modèle pour estimer le prix d'une voiture.
N'ayant pas beaucoup de temps, il vous embauche pour faire le nettoyage de données car il n'a pas de temps pour s'occuper de cette tâche.
Il vous donne son entière confiance pour cette tâche fastidieuse.

Voici ce que contiennent les données: 

- id
- company: marque de la voiture
- color: couleur de la voiture:
- wheel-base-style-circum-diam: diamètre de la roue (cm)
- length: distance entre les roues avants et les roues arrières (cm)
- nbSeats: adresse email du propriétaire
- num-of-cylinders: nombre de cylindres
- horsepower: pussance de chevaux
- average-mileage: nombre de kilomètres parcourus
- price: le prix en euros



Questions:

1. Trouver et lister tous les problèmes dans ce jeu de données
2. Mettre en oeuvre toutes les méthodes de nettoyage pour obtenir le dataset le plus propre possible
3. Exporter sous format .csv le nouveau dataset clean


Questions Bonus (uniquement si vous avez finit les 3 premières questions):

1. Afficher le détail de toutes les voitures de marque Toyota
2. Si je possédais toutes les voitures estimables de ce dataset, à combien s'estimerait mon patrimoine automobile ?
3. Quelle est la couleur la plus répandue ?
4. Afficher le nom de la compagnie, le nombre de chevaux ainsi que le prix de la voiture la plus chère
5. Afficher le nombre de voitures par compagnie
6. Afficher pour chaque compagnie le prix de la voiture le plus élevé
8. Trier toutes les voitures par prix

In [279]:
import pandas as pd
import numpy as np
from numpy.random import choice

In [280]:
df = pd.read_csv('Automobiles.csv')

In [281]:
df.count()/df.shape[0]*100

id                              100.0
company                         100.0
color                            93.2
wheel-base-style-circum-diam     93.2
length                           97.9
nbSeats                         100.0
num-of-cylinders                100.0
horsepower                      100.0
average-mileage                   7.4
price                            95.6
dtype: float64

### Liste des problèmes par colonne

color :
  - préfixe 'color-' inutile
  - il manque le 'k' à 'black'
  - 6.8 % de valeurs manquantes

wheel-base-style-circum-diam :
  - 6.8 % de valeurs manquantes (les mêmes que pour color)
  - unité invraissemblable
  - colonne à renommer

length :
  - 2.1% de valeurs manquantes
  - colonne à renommer
  - arrondir à un chiffre après la virgule

nbSeats :
  - colonne à renommer

num-of-cylinders :
  - convertir en int les chiffres écrits en lettres
  - valeurs manquantes écrites 'BuG'

average-mileage :
  - 92.6 % de valeurs manquantes : la colonne peut-être supprimée

price:
  - 4.4% de valeurs manquantes


In [282]:
# Removing potential duplicate rows

df = df.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

In [283]:
# Renaming columns

df.rename(columns={'wheel-base-style-circum-diam' : 'wheel_base', 'nbSeats' : 'owner_email', 'num-of-cylinders' : 'nb_cylinders'}, inplace=True)
df

Unnamed: 0,id,company,color,wheel_base,length,owner_email,nb_cylinders,horsepower,average-mileage,price
0,1,Pontiac,,,153.631977,msparks0@nsw.gov.au,twelve,162,,19534.0
1,2,MINI,color-blac,117.73,159.984454,ikluger1@t-online.de,three,76,,35105.0
2,3,Scion,color-red,117.33,207.675552,afinn2@intel.com,five5,83,,42705.0
3,4,Geo,color-blac,115.90,142.106958,mscala3@va.gov,twelve,100,,17601.0
4,5,Lexus,,,166.500507,vhinckley4@desdev.cn,six6,93,,39170.0
...,...,...,...,...,...,...,...,...,...,...
995,996,Suzuki,color-blac,101.40,140.052939,clitterickrn@ihg.com,five5,50,,32948.0
996,997,Mitsubishi,color-blac,113.17,151.916724,gwimesro@hibu.com,five5,177,,37206.0
997,998,Mitsubishi,color-blue,118.03,164.733839,jbonnetrp@usnews.com,six6,182,,23850.0
998,999,Toyota,color-red,103.30,203.818638,jtrunbyrq@apache.org,eight,146,,23414.0


In [284]:
# Cleaning 'color' column

def color(str):
    if type(str) == float: return np.nan
    if str[6:] != 'blac': return str[6:]
    else: return str[6:] + 'k'

df['color'] = df['color'].apply(color)
df

Unnamed: 0,id,company,color,wheel_base,length,owner_email,nb_cylinders,horsepower,average-mileage,price
0,1,Pontiac,,,153.631977,msparks0@nsw.gov.au,twelve,162,,19534.0
1,2,MINI,black,117.73,159.984454,ikluger1@t-online.de,three,76,,35105.0
2,3,Scion,red,117.33,207.675552,afinn2@intel.com,five5,83,,42705.0
3,4,Geo,black,115.90,142.106958,mscala3@va.gov,twelve,100,,17601.0
4,5,Lexus,,,166.500507,vhinckley4@desdev.cn,six6,93,,39170.0
...,...,...,...,...,...,...,...,...,...,...
995,996,Suzuki,black,101.40,140.052939,clitterickrn@ihg.com,five5,50,,32948.0
996,997,Mitsubishi,black,113.17,151.916724,gwimesro@hibu.com,five5,177,,37206.0
997,998,Mitsubishi,blue,118.03,164.733839,jbonnetrp@usnews.com,six6,182,,23850.0
998,999,Toyota,red,103.30,203.818638,jtrunbyrq@apache.org,eight,146,,23414.0


In [285]:
# Cleaning 'length' column

df['length'] = df['length'].apply(lambda x: round(x, 1))
df

Unnamed: 0,id,company,color,wheel_base,length,owner_email,nb_cylinders,horsepower,average-mileage,price
0,1,Pontiac,,,153.6,msparks0@nsw.gov.au,twelve,162,,19534.0
1,2,MINI,black,117.73,160.0,ikluger1@t-online.de,three,76,,35105.0
2,3,Scion,red,117.33,207.7,afinn2@intel.com,five5,83,,42705.0
3,4,Geo,black,115.90,142.1,mscala3@va.gov,twelve,100,,17601.0
4,5,Lexus,,,166.5,vhinckley4@desdev.cn,six6,93,,39170.0
...,...,...,...,...,...,...,...,...,...,...
995,996,Suzuki,black,101.40,140.1,clitterickrn@ihg.com,five5,50,,32948.0
996,997,Mitsubishi,black,113.17,151.9,gwimesro@hibu.com,five5,177,,37206.0
997,998,Mitsubishi,blue,118.03,164.7,jbonnetrp@usnews.com,six6,182,,23850.0
998,999,Toyota,red,103.30,203.8,jtrunbyrq@apache.org,eight,146,,23414.0


In [286]:
# Cleaning 'nb_cylinders' column

numbers = {
    'BuG' : np.nan,
    'two' : 2,
    'three' : 3,
    '[four4' :4,
    'five5' : 5,
    'six6' : 6,
    'eight' : 8,
    'twelve' : 12
}

df['nb_cylinders'] = df['nb_cylinders'].apply(lambda x: numbers[x])
df

Unnamed: 0,id,company,color,wheel_base,length,owner_email,nb_cylinders,horsepower,average-mileage,price
0,1,Pontiac,,,153.6,msparks0@nsw.gov.au,12.0,162,,19534.0
1,2,MINI,black,117.73,160.0,ikluger1@t-online.de,3.0,76,,35105.0
2,3,Scion,red,117.33,207.7,afinn2@intel.com,5.0,83,,42705.0
3,4,Geo,black,115.90,142.1,mscala3@va.gov,12.0,100,,17601.0
4,5,Lexus,,,166.5,vhinckley4@desdev.cn,6.0,93,,39170.0
...,...,...,...,...,...,...,...,...,...,...
995,996,Suzuki,black,101.40,140.1,clitterickrn@ihg.com,5.0,50,,32948.0
996,997,Mitsubishi,black,113.17,151.9,gwimesro@hibu.com,5.0,177,,37206.0
997,998,Mitsubishi,blue,118.03,164.7,jbonnetrp@usnews.com,6.0,182,,23850.0
998,999,Toyota,red,103.30,203.8,jtrunbyrq@apache.org,8.0,146,,23414.0


In [287]:
# Removing the 'average-mileage' column

df.drop('average-mileage', axis=1, inplace=True)
df

Unnamed: 0,id,company,color,wheel_base,length,owner_email,nb_cylinders,horsepower,price
0,1,Pontiac,,,153.6,msparks0@nsw.gov.au,12.0,162,19534.0
1,2,MINI,black,117.73,160.0,ikluger1@t-online.de,3.0,76,35105.0
2,3,Scion,red,117.33,207.7,afinn2@intel.com,5.0,83,42705.0
3,4,Geo,black,115.90,142.1,mscala3@va.gov,12.0,100,17601.0
4,5,Lexus,,,166.5,vhinckley4@desdev.cn,6.0,93,39170.0
...,...,...,...,...,...,...,...,...,...
995,996,Suzuki,black,101.40,140.1,clitterickrn@ihg.com,5.0,50,32948.0
996,997,Mitsubishi,black,113.17,151.9,gwimesro@hibu.com,5.0,177,37206.0
997,998,Mitsubishi,blue,118.03,164.7,jbonnetrp@usnews.com,6.0,182,23850.0
998,999,Toyota,red,103.30,203.8,jtrunbyrq@apache.org,8.0,146,23414.0


In [288]:
# Filling in missing data

In [289]:
# Exporting clean data set as a csv file

df.to_csv('au.csv', sep=';', index=False)

In [290]:
# Printing all lines where the company is 'Toyota'

df[df['company']=='Toyota']

Unnamed: 0,id,company,color,wheel_base,length,owner_email,nb_cylinders,horsepower,price
19,20,Toyota,red,119.02,168.2,mbusenj@techcrunch.com,4.0,212,23350.0
30,31,Toyota,red,89.29,176.5,jhaddyu@apple.com,6.0,119,13339.0
54,55,Toyota,black,113.13,168.3,jspanton1i@google.com.au,6.0,216,37735.0
58,59,Toyota,black,96.99,173.6,bantonelli1m@cbc.ca,5.0,213,29106.0
91,92,Toyota,yellow,113.75,164.2,dgabitis2j@posterous.com,12.0,188,44528.0
93,94,Toyota,blue,92.45,154.6,crubega2l@dell.com,8.0,141,5435.0
143,144,Toyota,,,162.1,rcaulket3z@elegantthemes.com,4.0,177,25267.0
223,224,Toyota,red,104.35,142.8,mdando67@time.com,2.0,164,20065.0
232,233,Toyota,red,94.83,173.2,gbourgaize6g@gnu.org,4.0,221,9548.0
237,238,Toyota,blue,106.93,144.9,brawdall6l@desdev.cn,6.0,63,36751.0


In [291]:
# Printing the sum of all values in the 'price' column

print('Estimation du patrimoine automobile :', df['price'].sum(), '€')

Estimation du patrimoine automobile : 24000598.0 €


In [292]:
# Printing the most common color

print('The most common color is', df['color'].value_counts().idxmax())

The most common color is red


In [293]:
# Printing the company, hoursepower and price of the most expensive vehicle

df.loc[[df['price'].idxmax()], ['company', 'horsepower', 'price']]

Unnamed: 0,company,horsepower,price
873,Land Rover,198,44945.0


In [294]:
# Printing the number of vehicles by company

df['company'].value_counts()

Ford             85
Chevrolet        79
Mitsubishi       50
Dodge            50
Toyota           50
GMC              48
Pontiac          37
Volkswagen       36
Nissan           35
Mercedes-Benz    34
Mazda            31
BMW              28
Buick            26
Audi             23
Mercury          22
Lexus            22
Kia              21
Cadillac         20
Volvo            20
Honda            17
Chrysler         16
Porsche          16
Suzuki           16
Acura            15
Lincoln          14
Infiniti         13
Jeep             13
Hyundai          13
Plymouth         12
Subaru           12
Saturn           11
Saab             11
Maserati          9
Isuzu             8
Oldsmobile        7
Land Rover        7
Bentley           7
Scion             7
Lamborghini       7
Maybach           6
MINI              5
Jaguar            5
Lotus             4
Spyker            4
Aston Martin      4
Geo               4
Daewoo            3
Rolls-Royce       2
Eagle             2
Panoz             2


In [295]:
# Printing the price of the most expensive car per company

for company in df['company'].tolist():
    print('La voiture au prix le plus élevé de', company, 'coute', df[df['company']==company]['price'].max())

La voiture au prix le plus élevé de Pontiac coute 44509.0
La voiture au prix le plus élevé de MINI coute 42123.0
La voiture au prix le plus élevé de Scion coute 42705.0
La voiture au prix le plus élevé de Geo coute 32638.0
La voiture au prix le plus élevé de Lexus coute 44864.0
La voiture au prix le plus élevé de Porsche coute 43859.0
La voiture au prix le plus élevé de Mazda coute 44742.0
La voiture au prix le plus élevé de Audi coute 44116.0
La voiture au prix le plus élevé de Plymouth coute 44886.0
La voiture au prix le plus élevé de Maserati coute 35764.0
La voiture au prix le plus élevé de Honda coute 43190.0
La voiture au prix le plus élevé de Chrysler coute 44244.0
La voiture au prix le plus élevé de Acura coute 42018.0
La voiture au prix le plus élevé de Kia coute 42785.0
La voiture au prix le plus élevé de Audi coute 44116.0
La voiture au prix le plus élevé de Jaguar coute 37084.0
La voiture au prix le plus élevé de Chevrolet coute 44085.0
La voiture au prix le plus élevé de A

In [296]:
# Sorting the dataframe by price

df.sort_values(by=['price'], ascending=False)

Unnamed: 0,id,company,color,wheel_base,length,owner_email,nb_cylinders,horsepower,price
873,874,Land Rover,yellow,107.54,158.5,idenfordo9@arizona.edu,6.0,198,44945.0
936,937,Plymouth,red,101.85,187.1,kchanceq0@eventbrite.com,3.0,205,44886.0
725,726,Lotus,red,109.14,202.4,rhullandk5@infoseek.co.jp,12.0,241,44879.0
293,294,Lexus,red,91.00,178.7,dtosh85@virginia.edu,12.0,224,44864.0
333,334,Volvo,blue,89.56,175.9,jpaur99@smugmug.com,3.0,239,44863.0
...,...,...,...,...,...,...,...,...,...
905,906,Acura,,,196.0,wbardnamp5@apache.org,3.0,166,
927,928,Mitsubishi,,,148.3,costlerpr@about.com,5.0,119,
930,931,Buick,yellow,107.59,146.8,sgriegerpu@mayoclinic.com,8.0,151,
951,952,Buick,blue,118.63,200.3,ppancoustqf@boston.com,4.0,179,
