# Introduction

In [1]:
import numpy as np
import pandas as pd

> Le module `pandas` a été développé pour apporter à Python les outils nécessaires pour manipuler de gros volumes de données. Ce module a pour objectif de devenir le meilleur outil de manipulation de données : à la fois performant, facile d'utilisation et flexible. Le module existe depuis 2008 mais son développement s'est fortement accéléré avec la publication de la version 0.3 en février 2011. Pandas est aujourd'hui le module le plus utilisé pour gérer des bases de données sous Python.
>
> Les principales fonctionnalités de pandas sont la récupération des données depuis des fichiers (CSV, tableaux Excel, des pages web, HDF5, etc..) et la manipulation de ces données (grouper, découper, alléger, déplacer,...). Pandas introduit la notion de data frame à Python, qui est un concept central en analyse de données moderne.

> Les Data Frames sont des objets présents dans la plupart des logiciels de traitements de données. Avec pandas, ils se sont imposés en Python pour tout ce qui relève de la manipulation de données. Ils se présentent sous forme de matrices indicées sur les lignes et les colonnes, où chaque colonne est une série de même type, mais ou les colonnes peuvent être de types différents entre elles.
>
> Il est possible de créer directement un Data Frame, grâce à la fonction `DataFrame()`, à partir d'un numpy array, mais ce n'est pas très pratique et le type des données est le même pour toutes les colonnes.
>
> Exemple :

In [2]:
ar = np.array([[1, 2, 3, 4], [7, 10, 5.2, 7], [1.5, 9, 1.5, 15]])
df = pd.DataFrame(ar, index = ['i1', 'i2', 'i3'], columns = ['A', 'B', 'C', 'D'])
display(df)

Unnamed: 0,A,B,C,D
i1,1.0,2.0,3.0,4.0
i2,7.0,10.0,5.2,7.0
i3,1.5,9.0,1.5,15.0


> La méthode la plus répandue pour créer un dataframe est d'utiliser un dictionnaire. Exemple:

In [3]:
df = pd.DataFrame({'A': [1, 7, 1.5], 'B': [2, 10, 9], 'C': [3, 5.2, 1.5], 'D': [4, 7, 15]},
                      index = ['i1', 'i2', 'i3'])
display(df)

Unnamed: 0,A,B,C,D
i1,1.0,2,3.0,4
i2,7.0,10,5.2,7
i3,1.5,9,1.5,15


> L'avantage d'utiliser le module pandas est qu'il permet de charger des données directement dans une structure DataFrame.
>
> Le fichier que nous allons utiliser dans la suite de l'exercice contient des données au format CSV. Nous utiliserons donc, pour récupérer ces données, la fonction `read_csv()` incluse dans le module pandas.
>
> Cette fonction s'utilise ainsi: pd.read_csv(filepath_or_buffer , sep ... )`
> - L'argument `filepath_or_buffer` contient le chemin d'accès aux données entre guillemets (path interne ou URL).
> - L'argument `sep` permet de définir un séparateur entre les différentes colonnes.
> - L'argument `header` détermine le numéro de la ligne qui contient les noms des variables ; par défaut, `header=0` mais il faut parfois effectuer un décalage.
> - L'argument `index_col` permet de définir une colonne comme index ; nous détaillerons son utilisation plus bas.

- Charger, dans un tableau nommé `titanic`, les données situées dans le fichier `titanic_train.csv` présent dans le même répertoire que le notebook. Les colonnes sont séparées par une virgule.

In [4]:
import pandas as pd
titanic = pd.read_csv('titanic_train.csv')

> La structure `DataFrame` s'est très largement répandue, cela est essentiellement dû aux nombreuses méthodes qui lui sont associées. Ce qu'il se faisait en une ou deux boucles sur tableaux ou listes se fait maintenant grâce à une seule méthode ou fonction. Cette section présente brièvement les principales méthodes qui vont nous permettre de faire une rapide analyse de notre DataFrame.
>
> Il est possible d'avoir un aperçu d'un jeu de données en affichant seulement les premières lignes du DataFrame.
> Pour cela, il convient d'utiliser la méthode `head()` en lui spécifiant en argument le nombre de lignes que l'on souhaite observer (par défaut 5).
> 
> Exemple : `nom_dataFrame.head(n)`.
>
> Il est aussi possible d'avoir un aperçu des dernières lignes en utilisant la méthode `tail()`.

- Afficher les 10 premières lignes de `titanic`.

In [5]:
titanic.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


> Il est possible de changer l'index des lignes d'un DataFrame. Dans notre jeu de données, la variable `PassengerId` pourrait parfaitement jouer le rôle d'index.
> 
> Pour changer d'index, le module `pandas` contient la méthode `set_index` qui prend en paramètre le nom de la variable qui servira d'index. 
>
> Exemple: `mon_df = mon_df.set_index('Client')` pour utiliser la colonne `Client` comme indices des lignes de `mon_df`.

- Définir les valeurs de la variable `PassengerId` comme indices des lignes de `titanic`.

In [6]:
titanic.set_index('PassengerId', inplace=True)
titanic.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


> Deux attributs importants sont disponibles au sein des DataFrames :
>
> - `shape` renvoie un tuple contenant les dimensions du DataFrame.
> - `columns` renvoie le nom des différentes variables de notre DataFrame.
> 
> On accède à un attribut en le plaçant après un point en suffixe du DataFrame : `mon_df.shape` 

- Enregistrer, dans des variables nommées respectivement `n` et `p`, le nombre de lignes et le nombre de colonnes de `titanic`.
- Afficher `n` et `p`.

In [7]:
n,p = titanic.shape
print(n,p)

891 11


> - La méthode `info` permet de connaître rapidement la catégorie des variables étudiées.
> - La méthode `describe` permet d’en savoir un peu plus sur les colonnes numériques d'un tableau. Elle retourne un résumé statistique des données numériques (min, max, moyenne, quantiles,..). C'est donc un outil très utile et fortement conseillé pour une première visualisation de la distribution des variables.

- Appliquer la méthode `describe` à `titanic`.
- Quelle est la proportion de survivants?
- Quelle est l'âge moyen des passagers?
- Combien a coûté la place la plus chère (variable `Fare`)?

In [8]:
titanic.describe()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


> Pour accéder à une seule colonne d'un DataFrame, grâce à son nom, deux possibilités:
>
> - Utiliser le nom de la colonne entre guillement comme indice: `df['ma_colonne']`.
> - Utiliser le nom de la colonne précédé d'un point, simplement comme ceci : `df.ma_colonne`.
>
> La méthode `describe()` ne décrit que les variables numériques. Pour analyser les autres variables, il est souvent intéressant de commencer par utiliser `value_counts()` qui, appliquée à une variable, renvoie le nombre d'occurrences pour chaque valeur unique.
>
> NB: L'ajout de l'argument `normalize=True` dans la fonction `value_counts()` permet de renvoyer les fréquences à la place du nombre d'occurence.`

- Afficher les effectifs de la variable `Embarked` de `titanic`.

In [9]:
titanic['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

> L'extraction des données d'un tableau est assez similaire à l'extraction de données d'une liste. On désigne généralement une colonne ou variable par son nom. Les lignes n'ayant souvent pas de noms, elles peuvent être désignées par un entier.
>
> Pour extraire une ou plusieurs colonnes, il suffit de mettre entre crochets la liste des colonnes à extraire .
> 
> Exemple : `df[['Name', 'Sex']]` permet d'extraire les colonnes `Name` et `Sex` du DataFrame `df`.
>
> Pour extraire une ou plusieurs lignes, on utilise les méthodes `loc` et `iloc`.
>
> La première permet l'extraction de lignes ou colonnes, en utilisant les indices des lignes et le nom des colonnes. La seconde ne permet d'utiliser que des nombres entiers correspondant au numéros des lignes et colonnes.
>
> Exemples :
> - `df.loc[2]` permet d'extraire la ligne d'indice 2 de `df`.
> - `df.loc[(44,90), 'Name']` permet d'extraire les valeur de la colonne `Name` sur les lignes d'indice 44 et 90 de `df`.
> - `df.iloc[2,5]` permet d'extraire l'élément de la 3ème ligne et 6ème colonne de `df`.
> - `df.iloc[[0,9,14]]` permet d'extraire la première, dixième et quinzième ligne de `df`.
>
> Le symbole `:` désigne une plage de valeurs entre deux nombres. Contrairement aux autres fonctions habituelles de slicing en Python, avec `loc`, le début et la fin de la plage sont inclus. Pour `iloc`, seule le nombre de départ est inclus.
>
> Exemples :
> - `df.loc[1:20,'Price']` permet d'extraire la colonne `Price` sur les 20 lignes d'indices 1 à 20.
> - `df.iloc[:50]` permet d'extraire les 50 premières lignes de `df` (de 0 à 49).

- Afficher les 10 premières lignes des variables `Survived`, `Pclass` et `Name`.

In [10]:
titanic.loc[:10,['Survived', 'Pclass', 'Name']]

Unnamed: 0_level_0,Survived,Pclass,Name
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,3,"Braund, Mr. Owen Harris"
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
3,1,3,"Heikkinen, Miss. Laina"
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
5,0,3,"Allen, Mr. William Henry"
6,0,3,"Moran, Mr. James"
7,0,1,"McCarthy, Mr. Timothy J"
8,0,3,"Palsson, Master. Gosta Leonard"
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)"
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)"
