# 2. Introduction à Pandas

<img align="center" src="https://habrastorage.org/files/10c/15f/f3d/10c15ff3dcb14abdbabdac53fed6d825.jpg"/>
<br>

**[Pandas](http://pandas.pydata.org)** est une librairire Python permettant l'analyse de données, elle est fréquemment utilisée par les data scientist pour lire et manipuler des données dans des formats tabulaires tel que `.csv`, `.tsv`, or `.xlsx`. Avec l'aide de `Matplotlib` et `Seaborn`, Pandas fournit des méthodes d'epxloration visuelles des données tabulaires.

## 2.1 DataFrame

Les structures de données principale de Pandas sont les **Series** et les **DataFrame**. La première est un tableau à une dimension contenant des données d'un type précis. La deuxième est une structure à deux dimensions, i.e. : un tableau à deux dimensions (ou encore une matrice), dont chaque colonne contient des données d'un type précis. Dans une `DataFrame` les lignes correspondent à des individus (objets, observations ...) et les colonnes à des attributs (features).

Nous commencons par les imports nécessaire pour que Pandas soit disponible dans notre environnement d'exécution :

In [None]:
import numpy as np
import pandas as pd
# we don't like warnings
# you can comment the following 2 lines if you'd like to
import warnings
warnings.filterwarnings('ignore')

Puis nous créons une DataFrame depuis un dictionnaire :

In [None]:
cars = {'make': ['Ford', 'Honda', 'Toyota', 'Tesla'],
       'model': ['Taurus', 'Accord', 'Camry', 'Model S'],
       'MSRP': [27595, 23570, 23495, 68000]}          
df = pd.DataFrame(cars)   # creating DataFrame from dictionary
df                     # display the table

In [None]:
display(df)

In [None]:
print(df)

In [None]:
#df.to_markdown()

In [None]:
print(df.index)       # print the row indices
print(df.columns)     # print the column indices

In [None]:
df['year'] = 2018    # add column with same value
# add a column with a different value for each row:
df['dealership'] = ['Courtesy Ford','Capital Honda','Spartan Toyota',None]
df

Les éléments d'une DataFrame peuvent être accéder de différentes manières :

In [None]:
# accessing an entire column will return a Series object

print(type(df['make']))
print(df['make'])    # returns the make column

In [None]:
# accessing an entire row will return a Series object

print(type(df.iloc[2]))
print(df.iloc[2])       # returns the 3rd row of DataFrame

In [None]:
# accessing a specific element of the DataFrame

print(df.iloc[1,2])    # retrieving second row, third column
print(df.loc[1,'MSRP'])    # retrieving second row, column named 'MSRP'
df.loc[1]['MSRP']    # retrieving second row, column named 'MSRP'

In [None]:
# accessing a slice of the DataFrame

df.iloc[1:3,1:3]

Les attributs shape et size permettent de connaitre le nombre de lignes et colonnes ainsi que le nombre d'élements :

In [None]:
print('df.shape =', df.shape)    # shape returns a tuple (number of rows, number of columns)
print('df.size =', df.size)

Nombre d'individus dans la DataFrame 

## 2.2 Filtrage d'une DataFrame

La sélection d'une ou plusieurs lignes peut se faire en appliquant un filtre booléen :

In [None]:
df[df.MSRP > 25000]

Le filtre est simplement constitué d'une Series contenant une valeur booléenne pour chaque ligne de notre DataFrame qui sera ensuite appliqué comme masque de sélection sur la DataFrame:

In [None]:
df.MSRP > 25000

Il existe plusieurs méthodes utiles permettant de filtrer les DataFrames :

In [None]:
df[df.dealership.isna()]    # retrieving rows with a null value on the dealership column

In [None]:
df[df.MSRP.between(23000, 24000)]    # retrieving rows with MSRP between 23k and 24k

Les conditions dans un filtre peuvent être combinées avec les opérateurs `&` (ET booléen) et `|` (ou booléen) :

In [None]:
# retrieving rows with MSRP < 30k and the model name contains an o
df[
    (df['MSRP'] < 30000) & df.model.str.contains('o')
]

Modification d'une colonne pour un individu :

In [None]:
df.loc[1, 'dealership'] = 42
df

La comparaison d'une colonne contenant des chaines de caractères avec une valeur entière renverra une erreur :

In [None]:
df.dealership < 200

## 2.3 Opérations arithmétiques

Pour illustrer ces opérations nous allons créer une DataFrame contenant des données numériques synthétiques à l'aide de numpy (numerical python):

In [None]:
npdata = np.random.randn(5,3)  # create a 5 by 3 random matrix
columnNames = ['x1','x2','x3']
data = pd.DataFrame(npdata, columns=columnNames)
data

In [None]:
print(data)

print('Data transpose operation:')
print(data.T)    # transpose operation

print('Addition:')
print(data + 4)    # addition operation

print('Multiplication:')
print(data * 10)   # multiplication operation

In [None]:
print('data =')
print(data)

columnNames = ['x1','x2','x3']
data2 = pd.DataFrame(np.random.randn(5,3), columns=columnNames)
print('\ndata2 =')
print(data2)

print('\ndata + data2 = ')
print(data.add(data2))

print('\ndata * data2 = ')
print(data.mul(data2))

In [None]:
print(data.abs())    # get the absolute value for each element

print('\nMaximum value per column:')
print(data.max())    # get maximum value for each column

print('\nMinimum value per row:')
print(data.min(axis=1))    # get minimum value for each row

print('\nSum of values per column:')
print(data.sum())    # get sum of values for each column

print('\nAverage value per row:')
print(data.mean(axis=1))    # get average value for each row

print('\nCalculate max - min per column')
f = lambda x: x.max() - x.min()
print(data.apply(f))

print('\nCalculate max - min per row')
f = lambda x: x.max() - x.min()
print(data.apply(f, axis=1))

In [None]:
# add a max minus min column
def get_max_minus_min(x):
    print(type(x))
    print(x)
    return x.max() - x.min()
data['max_minus_min'] = data.apply(get_max_minus_min, axis=1)


data['max_minus_min'] = data.apply(
    lambda x: x.max() - x.min(),
    axis=1
)
data

## 2.4 Exercice

Nous reprennons le fichier `CO2_Emissions_Canada.csv`. Pour lire un fichier CSV nous pouvons utiliser la méthode `read_csv` de Pandas (la méthode `head()` affiche les 5 première lignes de notre DataFrame).

La description accompagnant ce dataset est la suivante :

**Model**
* 4WD/4X4 = Four-wheel drive
* AWD = All-wheel drive
* FFV = Flexible-fuel vehicle
* SWB = Short wheelbase
* LWB = Long wheelbase
* EWB = Extended wheelbase

**Transmission**
* A = Automatic
* AM = Automated manual
* AS = Automatic with select shift
* AV = Continuously variable
* M = Manual
* 3 - 10 = Number of gears

**Fuel type**
* X = Regular gasoline
* Z = Premium gasoline
* D = Diesel
* E = Ethanol (E85)
* N = Natural gas

**Fuel Consumption**

City and highway fuel consumption ratings are shown in litres per 100 kilometres (L/100 km) - the combined rating (55% city, 45% hwy) is shown in L/100 km and in miles per gallon (mpg)

**CO2 Emissions**

The tailpipe emissions of carbon dioxide (in grams per kilometre) for combined city and highway driving

In [None]:
df = pd.read_csv('/data/CO2_Emissions_Canada.csv')
df.head()

Affichons les dimensions de notre dataset, le nom des features et leurs types :

In [None]:
print(df.shape)

Le dataset contient 7385 lignes et 12 attributs.

Ses colonnes (i.e. : attributs ou features) sont :

In [None]:
print(df.columns)

Nous pouvons utiliser la méthode `info()` pour obtenir des informations générales sur notre dataframe :

In [None]:
print(df.info())

In [None]:
df['CO2 Emissions(g/km)']

`int64`, `float64` et `object` sont les types de nos features. Nous n'avons aucune valeur manquante.

Nous pouvons changer le type d'une colonnes avec la méthode `astype` comme nous l'avons fait avec un cast `int(variable)` précédement.

La méthode `describe` affiche un ensemble de statistiques pour chaque feature numériques (`int64` et `float64`): nombre de valeurs non manquantes, moyenne, variance, médiane, min, max, quartiles.

In [None]:
df.describe().T

Répondez aux questions suivantes :
* Combien de ligne le fichier contient-il ?
* Quel est le CO2 maximum émis par km par un véhicule ?
* Combien de véhicules émettent une tel quantité de CO2 par km ?
* Combien de CO2 les véhicules émettent en moyenne ?
* Quels sont les 5 véhicules qui émettent le moins de CO2 par km (vous pouvez utiliser la méthode [`sort_values`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)) ?
* Y-a-t'il des doublons dans ce dataset et si oui, combien (vous pouvez utiliser la méthode [`duplicated`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html)) ?
* Quelles sont les fabricants qui produisent les véhicules les plus polluants en moyenne (vous pouvez utiliser la méthode [`groupby`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) - voir aussi [l'introduction tutorial de Pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/06_calculate_statistics.html#aggregating-statistics-grouped-by-category)) ?

Nombre de lignes du fichier :

In [None]:
print(len(df))
print(len(df.index))
df.shape[0]

Recherche du véhicule avec le maximum d'émissions de CO2 par km :

In [None]:
max_co2 = df['CO2 Emissions(g/km)'].max()
df[df['CO2 Emissions(g/km)'] == max_co2]

Calcul de la moyenne des émissions de CO2 par km :

In [None]:
df['CO2 Emissions(g/km)'].mean()

Recherche des 5 véhicules émettant le moins de CO2 par km (deux méthodes possibles) :

In [None]:
#df.sort_values(by='CO2 Emissions(g/km)', ascending=False).head(10)
df.nsmallest(5, ['CO2 Emissions(g/km)'])

Nombre de doublons avec ou sans remise :

In [None]:
len(df[df.duplicated(keep=False)]), len(df[df.duplicated()])
df.duplicated().sum()

Suppression des doublons :

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
df

Calcul de la moyenne des émissions de CO2 par km après suppression des doublons :

In [None]:
df['CO2 Emissions(g/km)'].mean()

Modification de l'attribut `Model` pour passer toutes les valeurs en majuscule :

In [None]:
df['Model'] = df.Model.str.upper()

Suppression des doublons après modification de l'attribut `Model` puis calcul de la moyenne de C02 par km :

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
df['CO2 Emissions(g/km)'].mean()

Agrégation des véhicules par fabricant et trie des fabricant par émissions de CO2 par km :

In [None]:
df_grouped = df.groupby('Make').mean()
df_grouped.sort_values('CO2 Emissions(g/km)')

## 2.5 Jointure

Nous pouvons fusionner (join) notre dataset à un autre dataset contenant les pays d'appartenance des fabricants. Pour cela nous utilisons le fichier `data/Make_countries.csv` :

In [None]:
!head '/data/Make_countries.csv'

In [None]:
df_maker_countries = pd.read_csv('/data/Make_countries.csv')
df_maker_countries.head()

Appliquons une jointure sur nos deux datasets, nous avons finalement rajouté une colonne indiquant le pays d'appartenance d'un véhicule donné (issue de son fabricant) :

In [None]:
df_merged = pd.merge(df, df_maker_countries, on='Make')
df_merged.head()

Nous pouvons ensuite regrouper nos véhicules par pays et trier les lignes par émissions de CO2 par km :

In [None]:
df_grouped = df_merged.groupby('Country').mean()
df_grouped.sort_values('CO2 Emissions(g/km)')

Attention : le nombre de véhicules par pays n'est pas représentatif, ce dataset ne concerne qu'une partie du marché canadien. Aussi les émissions de CO2 par km pour la France, par exemple, sont faussé par le fait que le seul fabricant français soit Bugatti.

In [None]:
df_count_per_countries = pd.DataFrame(
    [df_merged.Country.value_counts(), df_maker_countries.Country.value_counts()]
).T
df_count_per_countries.columns = ['number of vehicules', 'number of maker']
df_count_per_countries

## 2.7 Visualisation

Nous pouvons visualiser les données en utilisant directement les méthodes disponibles dans Pandas (qui utilisent la librairie matplotlib) :

In [None]:
df['CO2 Emissions(g/km)'].hist(bins=100)    # distribution of CO2 emissions 

In [None]:
df['Make'].value_counts().hist()    # number of vehicules per make

Ou la librairire Plotly (il est peut-être nécessaire de l'installer avant) :

In [None]:
!pip  install plotly

In [None]:
import plotly.express as px
fig = px.histogram(df, x="CO2 Emissions(g/km)")
fig.show()

In [None]:
fig = px.histogram(df, x="Make").update_xaxes(categoryorder="total descending")
fig.show()

In [None]:
fig = px.box(df, x="Make", y="CO2 Emissions(g/km)")
fig.show()

## 2.8 Excercice

* Afficher un box plot des émissions de CO2 par km par type de véhicule
* Afficher un [scatter plot](https://plotly.com/python/line-and-scatter/) des émissions de CO2 par km en fonction de la consommation de carburant
* Quel est le facteur qui explique les différentes modalités de cette relation ?

Box plot des émissions de CO2 par km par type (class) de véhicule :

In [None]:
fig = px.box(df, x="Vehicle Class", y="CO2 Emissions(g/km)")
fig.show()

Scatter plot des émissions de CO2 par km en fonction de la consommation de carburant, le type de carburant explique les différentes modalités de cette relation :

In [None]:
fig = px.scatter(df, x='Fuel Consumption Comb (L/100 km)', y='CO2 Emissions(g/km)', color='Fuel Type')
fig.show()