# 2. Introduction à Pandas

<img align="center" src="https://habrastorage.org/files/10c/15f/f3d/10c15ff3dcb14abdbabdac53fed6d825.jpg"/>
<br>

**[Pandas](http://pandas.pydata.org)** est une librairire Python permettant l'analyse de données, elle est fréquemment utilisée par les data scientist pour lire et manipuler des données dans des formats tabulaires tel que `.csv`, `.tsv`, or `.xlsx`. Avec l'aide de `Matplotlib` et `Seaborn`, Pandas fournit des méthodes d'epxloration visuelles des données tabulaires.

## 2.1 DataFrame

Les structures de données principale de Pandas sont les **Series** et les **DataFrame**. La première est un tableau à une dimension contenant des données d'un type précis. La deuxième est une structure à deux dimensions, i.e. : un tableau à deux dimensions (ou encore une matrice), dont chaque colonne contient des données d'un type précis. Dans une `DataFrame` les lignes correspondent à des individus (objets, observations ...) et les colonnes à des attributs (features).

Nous commencons par les imports nécessaire pour que Pandas soit disponible dans notre environnement d'exécution :

In [None]:
import numpy as np
import pandas as pd
# we don't like warnings
# you can comment the following 2 lines if you'd like to
import warnings
warnings.filterwarnings('ignore')

Puis nous créons une DataFrame depuis un dictionnaire :

In [None]:
cars = {'make': ['Ford', 'Honda', 'Toyota', 'Tesla'],
       'model': ['Taurus', 'Accord', 'Camry', 'Model S'],
       'MSRP': [27595, 23570, 23495, 68000]}          
df = pd.DataFrame(cars)   # creating DataFrame from dictionary
df                     # display the table

In [None]:
print(df.index)       # print the row indices
print(df.columns)     # print the column indices

In [None]:
df['year'] = 2018    # add column with same value
df['dealership'] = ['Courtesy Ford','Capital Honda','Spartan Toyota','N/A']
df

Les éléments d'une DataFrame peuvent être accéder de différentes manières :

In [None]:
# accessing an entire column will return a Series object

print(df['make'])
print(type(df['make']))

In [None]:
# accessing an entire row will return a Series object

print('Row 3 of data table:')
print(df.iloc[2])       # returns the 3rd row of DataFrame
print(type(df.iloc[2]))

In [None]:
# accessing a specific element of the DataFrame

print(df.iloc[1,2])      # retrieving second row, third column
df.loc[1,'model'] # retrieving second row, column named 'model'

In [None]:
# accessing a slice of the DataFrame

df.iloc[1:3,1:3]

Les attributs shape et size permettent de connaitre le nombre de lignes et colonnes ainsi que le nombre d'élements :

In [None]:
print('df.shape =', df.shape)
print('df.size =', df.size)

La sélection d'une ou plusieurs lignes peut se faire en appliquant un filtre booléen :

In [None]:
df[df.MSRP > 25000]

Le filtre (ou masque) est simplement constitué d'une Series contenant une valeur booléenne pour chaque ligne de notre DataFrame:

In [None]:
df.MSRP > 25000

## 2.2 Opérations arithmétiques

Pour illustrer ces opérations nous allons créer une DataFrame contenant des données numériques synthétiques à l'aide de numpy (numerical python):

In [None]:
npdata = np.random.randn(5,3)  # create a 5 by 3 random matrix
columnNames = ['x1','x2','x3']
data = pd.DataFrame(npdata, columns=columnNames)
data

In [None]:
print(data)

print('Data transpose operation:')
print(data.T)    # transpose operation

print('Addition:')
print(data + 4)    # addition operation

print('Multiplication:')
print(data * 10)   # multiplication operation

In [None]:
print('data =')
print(data)

columnNames = ['x1','x2','x3']
data2 = pd.DataFrame(np.random.randn(5,3), columns=columnNames)
print('\ndata2 =')
print(data2)

print('\ndata + data2 = ')
print(data.add(data2))

print('\ndata * data2 = ')
print(data.mul(data2))

In [None]:
print(data.abs())    # get the absolute value for each element

print('\nMaximum value per column:')
print(data.max())    # get maximum value for each column

print('\nMinimum value per row:')
print(data.min(axis=1))    # get minimum value for each row

print('\nSum of values per column:')
print(data.sum())    # get sum of values for each column

print('\nAverage value per row:')
print(data.mean(axis=1))    # get average value for each row

print('\nCalculate max - min per column')
f = lambda x: x.max() - x.min()
print(data.apply(f))

print('\nCalculate max - min per row')
f = lambda x: x.max() - x.min()
print(data.apply(f, axis=1))

## 2.3 Exercice

Reprennez le fichier `CO2 Emissions_Canada.csv` répondez au mêmes questions que le notebook précédent en utilisant Pandas :
* Combien de ligne le fichier contient-il ?
* Quel est le CO2 maximum émis par km par un véhicule ? (et quel est ce véhicule ?)
* Combien de CO2 les véhicules émettent en moyenne ?

Pour lire un fichier CSV nous pouvons utiliser la méthode `read_csv` de Pandas (la méthode `head()` affiche les 5 première lignes de notre DataFrame) :

In [None]:
df = pd.read_csv('data/CO2 Emissions_Canada.csv')
df.head()

Affichons les dimensions de notre dataset, le nom des features et leurs types :

In [None]:
print(df.shape)

Le dataset contient 7385 lignes et 12 attributs.

Ses colonnes (i.e. : attributs ou features) sont :

In [None]:
print(df.columns)

Nous pouvons utiliser la méthode `info()` pour obtenir des informations générales sur notre dataframe :

In [None]:
print(df.info())

`int64`, `float64` et `object` sont les types de nos features. Nous n'avons aucune valeur manquante.

Nous pouvons changer le type d'une colonnes avec la méthode `astype` comme nous l'avons fait avec un cast `int(variable)` précédement.

La méthode `describe` affiche un ensemble de statistiques pour chaque feature numériques (`int64` et `float64`): nombre de valeurs non manquantes, moyenne, variance, médiane, min, max, quartiles.

In [None]:
df.describe()