# 2. Introduction à Pandas

<img align="center" src="https://habrastorage.org/files/10c/15f/f3d/10c15ff3dcb14abdbabdac53fed6d825.jpg"/>
<br>

**[Pandas](http://pandas.pydata.org)** est une librairire Python permettant l'analyse de données, elle est fréquemment utilisée par les data scientist pour lire et manipuler des données dans des formats tabulaires tel que `.csv`, `.tsv`, or `.xlsx`. Avec l'aide de `Matplotlib` et `Seaborn`, Pandas fournit des méthodes d'epxloration visuelles des données tabulaires.

## 2.1 DataFrame

Les structures de données principale de Pandas sont les **Series** et les **DataFrame**. La première est un tableau à une dimension contenant des données d'un type précis. La deuxième est une structure à deux dimensions, i.e. : un tableau à deux dimensions (ou encore une matrice), dont chaque colonne contient des données d'un type précis. Dans une `DataFrame` les lignes correspondent à des individus (objets, observations ...) et les colonnes à des attributs (features).

Nous commencons par les imports nécessaire pour que Pandas soit disponible dans notre environnement d'exécution :

In [1]:
import numpy as np
import pandas as pd
# we don't like warnings
# you can comment the following 2 lines if you'd like to
import warnings
warnings.filterwarnings('ignore')

Puis nous créons une DataFrame depuis un dictionnaire :

In [2]:
cars = {'make': ['Ford', 'Honda', 'Toyota', 'Tesla'],
       'model': ['Taurus', 'Accord', 'Camry', 'Model S'],
       'MSRP': [27595, 23570, 23495, 68000]}          
df = pd.DataFrame(cars)   # creating DataFrame from dictionary
df                     # display the table

Unnamed: 0,make,model,MSRP
0,Ford,Taurus,27595
1,Honda,Accord,23570
2,Toyota,Camry,23495
3,Tesla,Model S,68000


In [3]:
print(df.index)       # print the row indices
print(df.columns)     # print the column indices

RangeIndex(start=0, stop=4, step=1)
Index(['make', 'model', 'MSRP'], dtype='object')


In [4]:
df['year'] = 2018    # add column with same value
# add a column with a different value for each row:
df['dealership'] = ['Courtesy Ford','Capital Honda','Spartan Toyota',None]
df

Unnamed: 0,make,model,MSRP,year,dealership
0,Ford,Taurus,27595,2018,Courtesy Ford
1,Honda,Accord,23570,2018,Capital Honda
2,Toyota,Camry,23495,2018,Spartan Toyota
3,Tesla,Model S,68000,2018,


Les éléments d'une DataFrame peuvent être accéder de différentes manières :

In [5]:
# accessing an entire column will return a Series object

print(type(df['make']))
print(df['make'])    # returns the make column

<class 'pandas.core.series.Series'>
0      Ford
1     Honda
2    Toyota
3     Tesla
Name: make, dtype: object


In [6]:
# accessing an entire row will return a Series object

print(type(df.iloc[2]))
print(df.iloc[2])       # returns the 3rd row of DataFrame

<class 'pandas.core.series.Series'>
make                  Toyota
model                  Camry
MSRP                   23495
year                    2018
dealership    Spartan Toyota
Name: 2, dtype: object


In [7]:
# accessing a specific element of the DataFrame

print(df.iloc[1,2])    # retrieving second row, third column
print(df.loc[1,'MSRP'])    # retrieving second row, column named 'MSRP'
df.loc[1]['MSRP']    # retrieving second row, column named 'MSRP'

23570
23570


23570

In [8]:
# accessing a slice of the DataFrame

df.iloc[1:3,1:3]

Unnamed: 0,model,MSRP
1,Accord,23570
2,Camry,23495


Les attributs shape et size permettent de connaitre le nombre de lignes et colonnes ainsi que le nombre d'élements :

In [9]:
print('df.shape =', df.shape)    # shape returns a tuple (number of rows, number of columns)
print('df.size =', df.size)

df.shape = (4, 5)
df.size = 20


Nombre d'individus dans la DataFrame 

## 2.2 Filtrage d'une DataFrame

La sélection d'une ou plusieurs lignes peut se faire en appliquant un filtre booléen :

In [72]:
df[df.MSRP > 25000]

Unnamed: 0,make,model,MSRP,year,dealership
0,Ford,Taurus,27595,2018,Courtesy Ford
3,Tesla,Model S,68000,2018,


Le filtre est simplement constitué d'une Series contenant une valeur booléenne pour chaque ligne de notre DataFrame qui sera ensuite appliqué comme masque de sélection sur la DataFrame:

In [73]:
df.MSRP > 25000

0     True
1    False
2    False
3     True
Name: MSRP, dtype: bool

Il existe plusieurs méthodes utiles permettant de filtrer les DataFrames :

In [74]:
df[df.dealership.isna()]    # retrieving rows with a null value on the dealership column

Unnamed: 0,make,model,MSRP,year,dealership
3,Tesla,Model S,68000,2018,


In [75]:
df[df.MSRP.between(23000, 24000)]    # retrieving rows with MSRP between 23k and 24k

Unnamed: 0,make,model,MSRP,year,dealership
1,Honda,Accord,23570,2018,Capital Honda
2,Toyota,Camry,23495,2018,Spartan Toyota


Les conditions dans un filtre peuvent être combinées avec les opérateurs `&` (ET booléen) et `|` (ou booléen) :

In [76]:
# retrieving rows with MSRP < 30k and the model name contains an o
df[
    (df['MSRP'] < 30000) & df.model.str.contains('o')
]

Unnamed: 0,make,model,MSRP,year,dealership
1,Honda,Accord,23570,2018,Capital Honda


Modification d'une colonne pour un individu :

In [14]:
df.loc[1, 'dealership'] = 42
df

Unnamed: 0,make,model,MSRP,year,dealership
0,Ford,Taurus,27595,2018,Courtesy Ford
1,Honda,Accord,23570,2018,42
2,Toyota,Camry,23495,2018,Spartan Toyota
3,Tesla,Model S,68000,2018,


La comparaison d'une colonne contenant des chaines de caractères avec une valeur entière renverra une erreur :

In [15]:
df.dealership < 200

TypeError: '<' not supported between instances of 'str' and 'int'

## 2.3 Opérations arithmétiques

Pour illustrer ces opérations nous allons créer une DataFrame contenant des données numériques synthétiques à l'aide de numpy (numerical python):

In [None]:
npdata = np.random.randn(5,3)  # create a 5 by 3 random matrix
columnNames = ['x1','x2','x3']
data = pd.DataFrame(npdata, columns=columnNames)
data

In [None]:
print(data)

print('Data transpose operation:')
print(data.T)    # transpose operation

print('Addition:')
print(data + 4)    # addition operation

print('Multiplication:')
print(data * 10)   # multiplication operation

In [None]:
print('data =')
print(data)

columnNames = ['x1','x2','x3']
data2 = pd.DataFrame(np.random.randn(5,3), columns=columnNames)
print('\ndata2 =')
print(data2)

print('\ndata + data2 = ')
print(data.add(data2))

print('\ndata * data2 = ')
print(data.mul(data2))

In [None]:
print(data.abs())    # get the absolute value for each element

print('\nMaximum value per column:')
print(data.max())    # get maximum value for each column

print('\nMinimum value per row:')
print(data.min(axis=1))    # get minimum value for each row

print('\nSum of values per column:')
print(data.sum())    # get sum of values for each column

print('\nAverage value per row:')
print(data.mean(axis=1))    # get average value for each row

print('\nCalculate max - min per column')
f = lambda x: x.max() - x.min()
print(data.apply(f))

print('\nCalculate max - min per row')
f = lambda x: x.max() - x.min()
print(data.apply(f, axis=1))

In [None]:
# add a max minus min column
def get_max_minus_min(x):
    print(type(x))
    print(x)
    return x.max() - x.min()
data['max_minus_min'] = data.apply(get_max_minus_min, axis=1)


data['max_minus_min'] = data.apply(
    lambda x: x.max() - x.min(),
    axis=1
)
data

## 2.4 Exercice

Nous reprennons le fichier `CO2_Emissions_Canada.csv`. Pour lire un fichier CSV nous pouvons utiliser la méthode `read_csv` de Pandas (la méthode `head()` affiche les 5 première lignes de notre DataFrame).

La description accompagnant ce dataset est la suivante :

**Model**
* 4WD/4X4 = Four-wheel drive
* AWD = All-wheel drive
* FFV = Flexible-fuel vehicle
* SWB = Short wheelbase
* LWB = Long wheelbase
* EWB = Extended wheelbase

**Transmission**
* A = Automatic
* AM = Automated manual
* AS = Automatic with select shift
* AV = Continuously variable
* M = Manual
* 3 - 10 = Number of gears

**Fuel type**
* X = Regular gasoline
* Z = Premium gasoline
* D = Diesel
* E = Ethanol (E85)
* N = Natural gas

**Fuel Consumption**

City and highway fuel consumption ratings are shown in litres per 100 kilometres (L/100 km) - the combined rating (55% city, 45% hwy) is shown in L/100 km and in miles per gallon (mpg)

**CO2 Emissions**

The tailpipe emissions of carbon dioxide (in grams per kilometre) for combined city and highway driving

In [113]:
df = pd.read_csv('/data/CO2_Emissions_Canada.csv')
df.head()

Unnamed: 0,Make,Model,Vehicle Class,Engine Size(L),Cylinders,Transmission,Fuel Type,Fuel Consumption City (L/100 km),Fuel Consumption Hwy (L/100 km),Fuel Consumption Comb (L/100 km),Fuel Consumption Comb (mpg),CO2 Emissions(g/km)
0,ACURA,ILX,COMPACT,2.0,4,AS5,Z,9.9,6.7,8.5,33,196
1,ACURA,ILX,COMPACT,2.4,4,M6,Z,11.2,7.7,9.6,29,221
2,ACURA,ILX HYBRID,COMPACT,1.5,4,AV7,Z,6.0,5.8,5.9,48,136
3,ACURA,MDX 4WD,SUV - SMALL,3.5,6,AS6,Z,12.7,9.1,11.1,25,255
4,ACURA,RDX AWD,SUV - SMALL,3.5,6,AS6,Z,12.1,8.7,10.6,27,244


Affichons les dimensions de notre dataset, le nom des features et leurs types :

In [114]:
print(df.shape)

(7385, 12)


Le dataset contient 7385 lignes et 12 attributs.

Ses colonnes (i.e. : attributs ou features) sont :

In [115]:
print(df.columns)

Index(['Make', 'Model', 'Vehicle Class', 'Engine Size(L)', 'Cylinders',
       'Transmission', 'Fuel Type', 'Fuel Consumption City (L/100 km)',
       'Fuel Consumption Hwy (L/100 km)', 'Fuel Consumption Comb (L/100 km)',
       'Fuel Consumption Comb (mpg)', 'CO2 Emissions(g/km)'],
      dtype='object')


Nous pouvons utiliser la méthode `info()` pour obtenir des informations générales sur notre dataframe :

In [116]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7385 entries, 0 to 7384
Data columns (total 12 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Make                              7385 non-null   object 
 1   Model                             7385 non-null   object 
 2   Vehicle Class                     7385 non-null   object 
 3   Engine Size(L)                    7385 non-null   float64
 4   Cylinders                         7385 non-null   int64  
 5   Transmission                      7385 non-null   object 
 6   Fuel Type                         7385 non-null   object 
 7   Fuel Consumption City (L/100 km)  7385 non-null   float64
 8   Fuel Consumption Hwy (L/100 km)   7385 non-null   float64
 9   Fuel Consumption Comb (L/100 km)  7385 non-null   float64
 10  Fuel Consumption Comb (mpg)       7385 non-null   int64  
 11  CO2 Emissions(g/km)               7385 non-null   int64  
dtypes: flo

In [117]:
df['CO2 Emissions(g/km)']

0       196
1       221
2       136
3       255
4       244
       ... 
7380    219
7381    232
7382    240
7383    232
7384    248
Name: CO2 Emissions(g/km), Length: 7385, dtype: int64

`int64`, `float64` et `object` sont les types de nos features. Nous n'avons aucune valeur manquante.

Nous pouvons changer le type d'une colonnes avec la méthode `astype` comme nous l'avons fait avec un cast `int(variable)` précédement.

La méthode `describe` affiche un ensemble de statistiques pour chaque feature numériques (`int64` et `float64`): nombre de valeurs non manquantes, moyenne, variance, médiane, min, max, quartiles.

In [118]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Engine Size(L),7385.0,3.160068,1.35417,0.9,2.0,3.0,3.7,8.4
Cylinders,7385.0,5.61503,1.828307,3.0,4.0,6.0,6.0,16.0
Fuel Consumption City (L/100 km),7385.0,12.556534,3.500274,4.2,10.1,12.1,14.6,30.6
Fuel Consumption Hwy (L/100 km),7385.0,9.041706,2.224456,4.0,7.5,8.7,10.2,20.6
Fuel Consumption Comb (L/100 km),7385.0,10.975071,2.892506,4.1,8.9,10.6,12.6,26.1
Fuel Consumption Comb (mpg),7385.0,27.481652,7.231879,11.0,22.0,27.0,32.0,69.0
CO2 Emissions(g/km),7385.0,250.584699,58.512679,96.0,208.0,246.0,288.0,522.0


Répondez aux questions suivantes :
* Combien de ligne le fichier contient-il ?
* Quel est le CO2 maximum émis par km par un véhicule ?
* Combien de véhicules émettent une tel quantité de CO2 par km ?
* Combien de CO2 les véhicules émettent en moyenne ?
* Quels sont les 5 véhicules qui émettent le moins de CO2 par km (vous pouvez utiliser la méthode [`sort_values`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)) ?
* Y-a-t'il des doublons dans ce dataset et si oui, combien (vous pouvez utiliser la méthode [`duplicated`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html)) ?
* Quelles sont les fabricants qui produisent les véhicules les plus polluants en moyenne (vous pouvez utiliser la méthode [`groupby`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) - voir aussi [l'introduction tutorial de Pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/06_calculate_statistics.html#aggregating-statistics-grouped-by-category)) ?

Nombre de lignes du fichier :

In [119]:
print(len(df))
print(len(df.index))
df.shape[0]

7385
7385


7385

Recherche du véhicule avec le maximum d'émissions de CO2 par km :

In [120]:
max_co2 = df['CO2 Emissions(g/km)'].max()
df[df['CO2 Emissions(g/km)'] == max_co2]

Unnamed: 0,Make,Model,Vehicle Class,Engine Size(L),Cylinders,Transmission,Fuel Type,Fuel Consumption City (L/100 km),Fuel Consumption Hwy (L/100 km),Fuel Consumption Comb (L/100 km),Fuel Consumption Comb (mpg),CO2 Emissions(g/km)
4509,BUGATTI,CHIRON,TWO-SEATER,8.0,16,AM7,Z,26.8,16.6,22.2,13,522
5575,BUGATTI,Chiron,TWO-SEATER,8.0,16,AM7,Z,26.8,16.6,22.2,13,522
6640,BUGATTI,Chiron,TWO-SEATER,8.0,16,AM7,Z,26.8,16.6,22.2,13,522


Calcul de la moyenne des émissions de CO2 par km :

In [121]:
df['CO2 Emissions(g/km)'].mean()

250.58469871360867

Recherche des 5 véhicules émettant le moins de CO2 par km (deux méthodes possibles) :

In [122]:
#df.sort_values(by='CO2 Emissions(g/km)', ascending=False).head(10)
df.nsmallest(5, ['CO2 Emissions(g/km)'])

Unnamed: 0,Make,Model,Vehicle Class,Engine Size(L),Cylinders,Transmission,Fuel Type,Fuel Consumption City (L/100 km),Fuel Consumption Hwy (L/100 km),Fuel Consumption Comb (L/100 km),Fuel Consumption Comb (mpg),CO2 Emissions(g/km)
3824,HYUNDAI,IONIQ BLUE,FULL-SIZE,1.6,4,AM6,X,4.2,4.0,4.1,69,96
4900,HYUNDAI,IONIQ BLUE,FULL-SIZE,1.6,4,AM6,X,4.2,4.0,4.1,69,96
5931,HYUNDAI,IONIQ Blue,FULL-SIZE,1.6,4,AM6,X,4.2,4.0,4.1,69,96
6950,HYUNDAI,IONIQ Blue,FULL-SIZE,1.6,4,AM6,X,4.2,4.0,4.1,69,96
6949,HYUNDAI,IONIQ,FULL-SIZE,1.6,4,AM6,X,4.2,4.2,4.2,67,99


Nombre de doublons avec ou sans remise :

In [123]:
len(df[df.duplicated(keep=False)]), len(df[df.duplicated()])

(2102, 1103)

Suppression des doublons :

In [124]:
df.drop_duplicates(inplace=True)

In [125]:
df

Unnamed: 0,Make,Model,Vehicle Class,Engine Size(L),Cylinders,Transmission,Fuel Type,Fuel Consumption City (L/100 km),Fuel Consumption Hwy (L/100 km),Fuel Consumption Comb (L/100 km),Fuel Consumption Comb (mpg),CO2 Emissions(g/km)
0,ACURA,ILX,COMPACT,2.0,4,AS5,Z,9.9,6.7,8.5,33,196
1,ACURA,ILX,COMPACT,2.4,4,M6,Z,11.2,7.7,9.6,29,221
2,ACURA,ILX HYBRID,COMPACT,1.5,4,AV7,Z,6.0,5.8,5.9,48,136
3,ACURA,MDX 4WD,SUV - SMALL,3.5,6,AS6,Z,12.7,9.1,11.1,25,255
4,ACURA,RDX AWD,SUV - SMALL,3.5,6,AS6,Z,12.1,8.7,10.6,27,244
...,...,...,...,...,...,...,...,...,...,...,...,...
7380,VOLVO,XC40 T5 AWD,SUV - SMALL,2.0,4,AS8,Z,10.7,7.7,9.4,30,219
7381,VOLVO,XC60 T5 AWD,SUV - SMALL,2.0,4,AS8,Z,11.2,8.3,9.9,29,232
7382,VOLVO,XC60 T6 AWD,SUV - SMALL,2.0,4,AS8,Z,11.7,8.6,10.3,27,240
7383,VOLVO,XC90 T5 AWD,SUV - STANDARD,2.0,4,AS8,Z,11.2,8.3,9.9,29,232


Calcul de la moyenne des émissions de CO2 par km après suppression des doublons :

In [126]:
df['CO2 Emissions(g/km)'].mean()

251.1577523081821

Modification de l'attribut `Model` pour passer toutes les valeurs en majuscule :

In [127]:
df['Model'] = df.Model.str.upper()

Suppression des doublons après modification de l'attribut `Model` puis calcul de la moyenne de C02 par km :

In [129]:
df.drop_duplicates(inplace=True)

In [130]:
df['CO2 Emissions(g/km)'].mean()

251.63812385244535

Agrégation des véhicules par fabricant et trie des fabricant par émissions de CO2 par km :

In [131]:
df_grouped = df.groupby('Make').mean()
df_grouped.sort_values('CO2 Emissions(g/km)')

Unnamed: 0_level_0,Engine Size(L),Cylinders,Fuel Consumption City (L/100 km),Fuel Consumption Hwy (L/100 km),Fuel Consumption Comb (L/100 km),Fuel Consumption Comb (mpg),CO2 Emissions(g/km)
Make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
SMART,0.957143,3.0,7.057143,6.042857,6.614286,42.571429,151.428571
HONDA,2.204167,4.472222,9.184028,7.002083,8.20625,35.993056,190.923611
FIAT,1.490741,4.0,9.216667,7.107407,8.281481,34.277778,192.518519
MAZDA,2.2944,4.048,9.2632,7.0472,8.26,34.632,192.68
MINI,1.731551,3.775401,9.516578,7.12139,8.437433,33.631016,196.165775
MITSUBISHI,2.033803,4.0,9.570423,7.461972,8.623944,33.732394,199.704225
SCION,2.114286,4.0,9.714286,7.457143,8.690476,33.047619,200.809524
VOLKSWAGEN,2.063889,4.227778,10.114444,7.428333,8.910556,32.411111,209.933333
HYUNDAI,2.216279,4.348837,10.122674,7.610465,8.991279,33.104651,210.122093
KIA,2.256044,4.395604,10.404945,7.785165,9.228571,31.785714,215.445055


## 2.5 Jointure

Nous pouvons fusionner (join) notre dataset à un autre dataset contenant les pays d'appartenance des fabricants. Pour cela nous utilisons le fichier `data/Make_countries.csv` :

In [132]:
!head '/data/Make_countries.csv'

Make,Country
ACURA,Japan
ALFA ROMEO,Italy
ASTON MARTIN,UK
AUDI,Germany
BENTLEY,UK
BMW,Germany
BUGATTI,France
BUICK,US
CADILLAC,US


In [133]:
df_maker_countries = pd.read_csv('/data/Make_countries.csv')
df_maker_countries.head()

Unnamed: 0,Make,Country
0,ACURA,Japan
1,ALFA ROMEO,Italy
2,ASTON MARTIN,UK
3,AUDI,Germany
4,BENTLEY,UK


Appliquons une jointure sur nos deux datasets, nous avons finalement rajouté une colonne indiquant le pays d'appartenance d'un véhicule donné (issue de son fabricant) :

In [134]:
df_merged = pd.merge(df, df_maker_countries, on='Make')
df_merged.head()

Unnamed: 0,Make,Model,Vehicle Class,Engine Size(L),Cylinders,Transmission,Fuel Type,Fuel Consumption City (L/100 km),Fuel Consumption Hwy (L/100 km),Fuel Consumption Comb (L/100 km),Fuel Consumption Comb (mpg),CO2 Emissions(g/km),Country
0,ACURA,ILX,COMPACT,2.0,4,AS5,Z,9.9,6.7,8.5,33,196,Japan
1,ACURA,ILX,COMPACT,2.4,4,M6,Z,11.2,7.7,9.6,29,221,Japan
2,ACURA,ILX HYBRID,COMPACT,1.5,4,AV7,Z,6.0,5.8,5.9,48,136,Japan
3,ACURA,MDX 4WD,SUV - SMALL,3.5,6,AS6,Z,12.7,9.1,11.1,25,255,Japan
4,ACURA,RDX AWD,SUV - SMALL,3.5,6,AS6,Z,12.1,8.7,10.6,27,244,Japan


Nous pouvons ensuite regrouper nos véhicules par pays et trier les lignes par émissions de CO2 par km :

In [136]:
df_grouped = df_merged.groupby('Country').mean()
df_grouped.sort_values('CO2 Emissions(g/km)')

Unnamed: 0_level_0,Engine Size(L),Cylinders,Fuel Consumption City (L/100 km),Fuel Consumption Hwy (L/100 km),Fuel Consumption Comb (L/100 km),Fuel Consumption Comb (mpg),CO2 Emissions(g/km)
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
South Korea,2.287772,4.440217,10.40788,7.771739,9.222826,32.097826,215.51087
Japan,2.759272,4.894157,10.600931,8.091025,9.469009,31.662997,220.281964
Sweden,2.261864,4.5,11.328814,8.157627,9.902542,28.813559,229.949153
Germany,3.159987,5.951344,12.567926,8.876184,10.908963,26.848271,254.761844
UK,3.328197,6.485246,13.157705,8.999344,11.284262,27.613115,262.518033
US,3.558318,5.827538,13.977444,9.956532,12.169314,24.781485,267.544643
India,3.537143,6.32,14.230286,10.050857,12.351429,23.782857,280.525714
Italy,3.21634,6.601307,14.344444,9.905882,12.346405,25.202614,287.673203
France,8.0,16.0,26.8,16.6,22.2,13.0,522.0


Attention : le nombre de véhicules par pays n'est pas représentatif, ce dataset ne concerne qu'une partie du marché canadien. Aussi les émissions de CO2 par km pour la France, par exemple, sont faussé par le fait que le seul fabricant français soit Bugatti.

In [138]:
df_count_per_countries = pd.DataFrame(
    [df_merged.Country.value_counts(), df_maker_countries.Country.value_counts()]
).T
df_count_per_countries.columns = ['number of vehicules', 'number of maker']
df_count_per_countries

Unnamed: 0,number of vehicules,number of maker
US,2128,11
Germany,1562,6
Japan,1181,10
South Korea,368,3
UK,305,4
India,175,2
Italy,153,4
Sweden,118,1
France,1,1


## 2.7 Visualisation

Nous pouvons visualiser les données en utilisant directement les méthodes disponibles dans Pandas (qui utilisent la librairie matplotlib) :

In [None]:
df['CO2 Emissions(g/km)'].hist(bins=100)    # distribution of CO2 emissions 

In [None]:
df['Make'].value_counts().hist()    # number of vehicules per make

Ou la librairire Plotly (il est peut-être nécessaire de l'installer avant) :

In [None]:
!pip  install plotly

In [None]:
import plotly.express as px
fig = px.histogram(df, x="CO2 Emissions(g/km)")
fig.show()

In [None]:
fig = px.histogram(df, x="Make").update_xaxes(categoryorder="total descending")
fig.show()

In [None]:
fig = px.box(df, x="Make", y="CO2 Emissions(g/km)")
fig.show()

## 2.8 Excercice

* Afficher un box plot des émissions de CO2 par km par type de véhicule
* Afficher un [scatter plot](https://plotly.com/python/line-and-scatter/) des émissions de CO2 par km en fonction de la consommation de carburant
* Quel est le facteur qui explique les différentes modalités de cette relation ?

Box plot des émissions de CO2 par km par type (class) de véhicule :

In [None]:
fig = px.box(df, x="Vehicle Class", y="CO2 Emissions(g/km)")
fig.show()

Scatter plot des émissions de CO2 par km en fonction de la consommation de carburant, le type de carburant explique les différentes modalités de cette relation :

In [None]:
fig = px.scatter(df, x='Fuel Consumption Comb (L/100 km)', y='CO2 Emissions(g/km)', color='Fuel Type')
fig.show()