## Lire un fichier CSV avec Pandas (session de travail "typique" en Data Science)


Vous pouvez consulter la documentation sur le fonction [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) de Pandas qui permet d'importer des fichiers csv.

### ***Importation des données***

On va utiliser un ensemble de données disponible dans la librairie Seaborn. Il s'agit des données sur les survivants du naufrage du Titanic :

In [1]:
# Importation de la librairie seaborn
import pandas as pd
import seaborn as sns

# Chargement des données du titanic à partir de la librairie seaborn
titanic = sns.load_dataset('titanic')

La première chose à faire est de jeter un rapide coup d'oeil à notre dataframe en affichant ses premières lignes.


In [2]:
# Methode head(n) par defaut = 5
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [4]:
titanic.head(3)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True


La méthode ***.tail()*** affiche les derniers éléments de la DataFrame (Par défaut, ce sont les 5 dernières lignes qui sont affichées).


In [5]:
# Mehode .tail(n)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [7]:
titanic.tail(3)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


On peut aussi regarder un mélange de n lignes d'un tableau de données :


In [8]:
# Echantillons aleatoire de la Dataframe
titanic.sample(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
851,0,3,male,74.0,0,0,7.775,S,Third,man,True,,Southampton,no,True
239,0,2,male,33.0,0,0,12.275,S,Second,man,True,,Southampton,no,True
873,0,3,male,47.0,0,0,9.0,S,Third,man,True,,Southampton,no,True
624,0,3,male,21.0,0,0,16.1,S,Third,man,True,,Southampton,no,True
451,0,3,male,,1,0,19.9667,S,Third,man,True,,Southampton,no,False


Jetons un coup d'oeil aux lieux d'embarquation dans le bateau. La fonction ***unique()*** renvoie les valeurs uniques présentes dans une structure de données Pandas.

In [9]:
# Modalité distinct d'une variable
titanic['embark_town'].unique()

array(['Southampton', 'Cherbourg', 'Queenstown', nan], dtype=object)

Mentionnons aussi l'excellente fonction  ***describe()*** . Elle donne des statistiques diverses (moyenne, maximum, minimum, etc.) sur les données contenues dans chaque colonne:

In [10]:
# Statistique sur les variables numériques
titanic.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


Par défaut, cette fonction génère des statistiques descriptives des variables quantitatives. L' argument *include="all"* sert à inclure les colonnes non-numérique dans l'analyse. Cette fonction nous fournit pleins de données très utiles sur la répartition de nos données (minimum, maximum, moyenne, etc.)

In [11]:
# Statistiques sur toutes les variables
titanic.describe(include = 'all')

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
count,891.0,891.0,891,714.0,891.0,891.0,891.0,889,891,891,891,203,889,891,891
unique,,,2,,,,,3,3,3,2,7,3,2,2
top,,,male,,,,,S,Third,man,True,C,Southampton,no,True
freq,,,577,,,,,644,491,537,537,59,644,549,537
mean,0.383838,2.308642,,29.699118,0.523008,0.381594,32.204208,,,,,,,,
std,0.486592,0.836071,,14.526497,1.102743,0.806057,49.693429,,,,,,,,
min,0.0,1.0,,0.42,0.0,0.0,0.0,,,,,,,,
25%,0.0,2.0,,20.125,0.0,0.0,7.9104,,,,,,,,
50%,0.0,3.0,,28.0,0.0,0.0,14.4542,,,,,,,,
75%,1.0,3.0,,38.0,1.0,0.0,31.0,,,,,,,,


### ***Traitement des valeurs manquantes***


NaN est une valeur définie pour représenter quelque chose qui n'est pas un nombre (Not a Number) alors que son type l'exige. Par exemple, on obtient NaN si on demande à Pandas de calculer la moyenne d'une colonne de texte. 


On va voir deux opérations à appliquer aux NaN.

La première consiste à remplacer les NaN par d'autres valeurs. Cette opération s'effectue grâce à la fonction  fillna  . 

Mais avant, voyons comment déterminer le nombre de valeurs manquantes par colonne :

In [12]:
# Determination des colonnes avec valeurs manquantes
titanic.isna().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [15]:
titanic_age.isna().sum()

survived         0
pclass           0
sex              0
age              0
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [16]:
# Remplacement des valeurs manquantes dans la colonne  "age"
titanic_age2 = titanic.fillna(value = {'age':titanic['age'].mean()})

In [17]:
titanic_age2.isna().sum()

survived         0
pclass           0
sex              0
age              0
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

Enfin, la fonction  dropna  permet de supprimer les axes (colonnes ou lignes) qui contiennent des NaN. Par défaut, elle supprime les lignes concernées:

In [20]:
# Suppression de toutes les lignes présentant des valeurs manquantes
titanic_sans_nan = titanic.dropna()
titanic_sans_nan.isna().sum()

survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
deck           0
embark_town    0
alive          0
alone          0
dtype: int64

In [21]:
# On es passé a combien de ligne
titanic_sans_nan.shape

(182, 15)

In [22]:
titanic.shape

(891, 15)

Mais on peut aussi lui demander de supprimer les colonnes présentant de valeurs manquantes. Si on connait le nom de ces colonnes, on peut écrire :

In [24]:
# Suppression des colonnes présentant des valeurs manquantes
titanic_colonne_sans_na =  titanic.drop(['age','embarked','deck','embark_town'], axis = 1)

In [26]:
# Vérification
titanic_colonne_sans_na.columns

Index(['survived', 'pclass', 'sex', 'sibsp', 'parch', 'fare', 'class', 'who',
       'adult_male', 'alive', 'alone'],
      dtype='object')

Si on ne connait le nom des colonnes présentant des valeurs manquantes, on peut écrire :


In [27]:
# Suppression
titanic_colonne_sans_na2 = titanic.dropna(axis = 1)

In [28]:
# Vérification
titanic_colonne_sans_na2.columns

Index(['survived', 'pclass', 'sex', 'sibsp', 'parch', 'fare', 'class', 'who',
       'adult_male', 'alive', 'alone'],
      dtype='object')

In [29]:
titanic_colonne_sans_na2.isna().sum()

survived      0
pclass        0
sex           0
sibsp         0
parch         0
fare          0
class         0
who           0
adult_male    0
alive         0
alone         0
dtype: int64

## Renommer une colonne


La fonction rename permet de renommer les colonnes ou les lignes d'un DataFrame. 

In [30]:
# Renommmé la colonne 'sex' en 'sexe'
titanic.rename(columns = {'sex': 'sexe'}, inplace = True)

In [31]:
titanic.head()

Unnamed: 0,survived,pclass,sexe,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## Supprimer des axes


La fonction  drop  permet de supprimer des axes (colonnes ou lignes) d'un DataFrame. Son utilisation est plutôt simple.

In [34]:
# Pour supprimer la ligne dont l'index est égal à 0
titanic.drop(0).head()

Unnamed: 0,survived,pclass,sexe,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True


In [35]:
# Pour supprimer la colonne âge
titanic.drop('age', axis=1).head()

Unnamed: 0,survived,pclass,sexe,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [36]:
# Pour supprimer 2 element dans la colonne 
titanic.drop(['age','parch'],axis = 1).head()

Unnamed: 0,survived,pclass,sexe,sibsp,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,1,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,1,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,1,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,0,8.05,S,Third,man,True,,Southampton,no,True


## Aggrégation


In [37]:
# Exemple d'aggrégation
titanic.groupby('pclass')['age'].mean()

pclass
1    38.233441
2    29.877630
3    25.140620
Name: age, dtype: float64

In [38]:
# Exemple d'aggrégation 
titanic.groupby('pclass')['age'].agg(['mean','median'])

Unnamed: 0_level_0,mean,median
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,38.233441,37.0
2,29.87763,29.0
3,25.14062,24.0


In [39]:
titanic.groupby(['pclass','sexe'])['age'].agg(['mean','median'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,median
pclass,sexe,Unnamed: 2_level_1,Unnamed: 3_level_1
1,female,34.611765,35.0
1,male,41.281386,40.0
2,female,28.722973,28.0
2,male,30.740707,30.0
3,female,21.75,21.5
3,male,26.507589,25.0
