# Statistiques descriptives et découverte des données
## _Business Intelligence, Data analysis and vizualization_

Bienvenue sur **Jupyter Notebook** ! Avant de commencer, veillez à bien lire le document qui accompagne ce tutoriel. 

Le but de cette séance va être de découvrir ce nouvel environnement de travail et de l'appliquer à votre Projet décisonnel. Le tutoriel sera réalisé en Python 🐍   mais ne nécessite pas de connaissances avancées du langage. 

Ce tutoriel a pour but de:

- Vous aider à charger des données et apprendre à les manipuler afin de réaliser des pré-traitements. 
- Dresser des statistiques descriptives simples, de premier niveau, qui serviront à la compréhension métier mais aussi à vérifier la qualité de vos données. 

_Il s'agit d'une introduction pour vous aider dans la mise en place des données dans le cadre de votre projet décisionnel. Une séance plus complète dédiée à la manipulation, l'analyse statistique et la production de moyens de visualisation sera effectuée en TP de Statistiques._

## Sommaire

[1. Les dataframes](#1)
>
> [1.1 Chargement des données](#1-1)
>
> [1.2 Premières manipulation](#1-2)
>
> [1.3 Manipulation de table](#1-3)
>
[2. Statistiques élémentaires](#2)
>
> [2.1 Typage des données](#2-1)
> 
> [2.2 Premières analyses univariées](#2-3)
> 
> [2.3 Premières analyses bivariées](#2-3)

# Les dataframes<a class="anchor" id="1"></a>

## Chargement des données<a class="anchor" id="1-1"></a>

_**Il vous est conseillé, si vous le pouvez, d'utiliser lors de cette séance vos sources de données de Projet. Si vous n'en disposez pas, vous pouvez utiliser le fichier .csv disponible**_ `titanic.csv`.

Si vous êtes sur **Google Colab**, vous pouvez stocker vos sources de données [https://gist.github.com/](https://gist.github.com/) puis les importer avec la commande suivante:

`!wget __lien_fichier__  -O __nom_du_fichier_ -q --show-progress`

In [None]:
!wget https://gist.githubusercontent.com/Hector-Plasma/93a8d2618622efff14fda3776cf70ecd/raw/c846e14b311d990e2c8f156a3ee2ba3c20379379/titanic.csv  -O titanic.csv -q --show-progress #LEGACY

Le fichier `titanic.csv` répertorie différents passagers à bord du célèbre paquebot lors du drame de la nuit du 14 Avril 1912. 

Les colonnes possèdent la description suivante:

|Colonne|Description|Value|
|-------|-----------|-----|
|`PassengerId`|Id du passager|Int|
|`Survived`|Boolean si le passager a survécu au naufrage|{0,1}|
|`Pclass`|Classe du passager (1er = 1, ...) |{1,2,3}|
|`Name`|Identité du passager|String|
|`Sex`|Sexe du passager|{male, female}|
|`Age`|Âge du passager|Double|
|`SibSp`|Nombre de frères, soeurs ou conjoint à bord|Int|
|`Parch`|Nombre d'enfants ou parents à bord|Int|
|`Ticket`|Numéro de ticket|Int|
|`Fare`|Prix du ticket|Double|
|`Cabin`|Numéro de cabine|String|
|`Embarked`|Port d'embarquement (C = Cherbourg; Q = Queenstown; S = Southampton)|{C,Q,S}|

In [None]:
# Importations
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
from statsmodels.graphics.mosaicplot import mosaic

In [None]:
# path = ""
path = './'
df = pd.read_csv(path + 'titanic.csv')
df

Si la table a été modifiée et que l'on souhaite conserver les nouvelles données, on peut exporter le dataframe au format `.csv` à l'aide de la commande `df.to_csv(r"_path_", index=False)`.

## Premières manipulations<a class="anchor" id="1-2"></a>

Soit `df` un dataframe donné, on donne la liste des commandes élémentaires suivantes:

- Nombre de ligne et colonnes: `df.shape[0]` (nb lignes) ; `df.shape[1]` (nb colonnes) 
- Noms des colonnes: `df.columns.values`


- **Accès aux données**: 
    + Accès à la ligne $i$: `df.iloc[i,:]`
    + Accès à la colonne $j$: `df.iloc[:,j]`
    + Accès à la ligne $i$, colonne $j$: `df.iloc[i,j]`
    + Accès à la colonne de nom $n$: `df['n']` ou `df.n`
    + Accès à la colonne de nom $n$, ligne $i$: `df['n'][i]` ou `df.n[i]`
    
    
- Tri de la colonne $n$: `df['n'].sort_values()`
- Tri du dataframe selon la colonne $n$: `df.sort_values(by='n')`

#### Exercices

Tester les commandes suivantes sur le fichier `titanic.csv` et décrire leur fonctionnement.

In [None]:
df[['Sex','Age']].head()

In [None]:
df['Survived'][1:3]

In [None]:
df.iloc[-1,0]

In [None]:
df.iloc[df.shape[0]-1,0]

In [None]:
df.iloc[0:5,:]

In [None]:
df.iloc[0:5,[0,2,4]]

- Supression la ligne $i$: `df.drop([i])`
- Supression la colonne $j$: `df.drop([j], axis = 1)`
- Supression des lignes avec des valeurs nulles: `df.dropna()`

- Filtrage selon une condition $\varphi$: `df.loc[df[phi, :]]`

    Où $\varphi$ est une formule logique exprimée sur les colonnes de `df` à l'aide des opérateurs booléens `&`(ET), `|` (OU) et `~` (NON). 
    
#### Exemples

In [None]:
# Liste des Femmes sur pacquebot

df.loc[df['Sex']=="female", :]

In [None]:
# Liste des Hommes de plus de 30 ans sur le pacquebot de 1er et 2nd classes

# On retient les Colonnes Survived, Pclass, Name, Sex, Age
colonnes = ['Survived', 'Pclass', 'Name', 'Sex', 'Age']

df.loc[(df['Sex']=="male") & (df['Age'] >= 30) & (df['Pclass'].isin([1,2])), colonnes]

## Manipulation de tables <a class="anchor" id="1-3"></a>

La modification d'une valeur au sein d'un dataframe se fait simplement par ré-affectation comme on pourrait le faire au sein d'une liste ou d'un tableau. 

#### Exercice

Supposons le dataframe `T` crée par la commande suivante:

In [None]:
T = pd.DataFrame({'A': range(1,7), 'B': [2, 10, 9, 0, np.nan, 1], 'C': [1,np.nan]*3})

T

Unnamed: 0,A,B,C
0,1,2.0,1.0
1,2,10.0,
2,3,9.0,1.0
3,4,0.0,
4,5,,1.0
5,6,1.0,


1. Modifier la valeur située dernière ligne, colonne 1 de `T` par la valeur 10. 

2. On peut détecter si une valeur possède la valeur nulle grâce à la commande `np.isnan()`. Afficher uniquement les lignes de `T` qui ne contiennent pas de valeur nulles `NaN` dans la colonne **C**.

3. La commande `np.where(phi, x, y)` permet de retourner une liste numpy composée de `x` et `y` selon la condition $\varphi$ évaluée. 
    
    Par exemple, `np.where((T['A'] % 2) == 1, 0, T['A'])` retourne `[0, 2, 0, 4, 0, 6]`. 

    Dans la colonne **B**, remplacer toutes les valeurs $\geq$ 5 par la valeur 20.

4. Écrire une fonction permettant de remplacer toutes les valeurs `NaN` de `T` par la valeur 0.

On désire ajouter une nouvelle `D` colonne à notre dataframe. Pourvu que l'on dispose de la liste (numpy ou liste Python classique) `L` correspondante à la colonne, celle-ci peut être rajoutée simplement comme suit: 

`T[D] = L`

Ceci est particulièrement pratique par exemple pour discrétiser des colonnes numériques. 

5. Écrire le code permettant d'ajouter la colonne `D`, où chaque ligne correspond à la moyenne des précédentes colonnes. Par exemple, la première ligne de `D` sera égale à $(1 + 2 + 1)/ 3 = 4/3 = 1.333...$.

On pourra s'aider de la commande `np.mean(L)` qui donne la moyenne d'une liste `L` de nombres.  

# Statistiques élémentaires<a class="anchor" id="2"></a>

## Typage des données<a class="anchor" id="2-1"></a>

La librairie _Pandas_ qui gère les dataframes permet d'établir rapidement des statistiques de préliminaires (moyenne, écart-type, mediane, quantile, fréquence) sur les tableaux de données. 
Pour se faire, on utilise la commande `describe`. 

In [None]:
df.describe(include='all')

Comme vous pouvez le remarquer, Python a mal inféré le type de certaines colonnes: `PassengerId`, `Survived` et `Pclass` sont des variables qualitatives et non quantitatives et ne doivent pas être interprêtées comme des nombres ! 

**_Il est vivement recommandé de bien affecter les bons types à chaque variable ne serait-ce que pour éviter de faire des opérations douteuses, par exemple arithmétiques sur des id ou des modalités non numériques._**

On va ré-attribuer ici les bons types à chaque colonne de notre dataframe. 

In [None]:
df['PassengerId']=pd.Categorical(df["PassengerId"],ordered=False)
df["Survived"]=pd.Categorical(df["Survived"],ordered=False)
df["Pclass"]=pd.Categorical(df["Pclass"],ordered=True, categories=[1, 2, 3])
df.dtypes

Également, on peut doter une variable qualitative (ou catégorielle)  d'une relation d'ordre indiquant une certaine hiérarchie entre les éléments. C'est le cas par exemple des classes de voyage de la colonne `Pclass`.

In [None]:
# Vérification des types et informations sur le dataframe
df.info()

La commande précédente permet d'obtenir une vue macroscopique des données. On peut également obtenir la fréquence éléments des variables qualitatives à l'aide de la commande. `value_counts()`. 

In [None]:
# Obtention de la fréquence des modalités de `Survived`, on dépose les résultats dans un dictionnaire
df.Survived.value_counts().to_dict()

Si l'on souhaite l'analyse en fonction des valeurs des variables, on utilisera la commande `groupby` qui permet d'accéder aux sous-DataFrame associés à chaque item de la variable de regroupement.
Il est dès lors possible d'appliquer explicitement d'autres traitements sur ces sous-ensembles de données.

In [None]:
g = df.groupby('Pclass')

g[['Age','Fare']].agg([pd.Series.mean,pd.Series.std])

## Premières analyses univariées <a class="anchor" id="2-2"></a>

Un des premiers réflexes lors de l'analyse de données consiste à observer la **distribution des valeurs** de chaque  variable. 

Pour se faire, on utilise classiquement un _histogramme_ pour les variables numériques (quantitatives) et des _graphiques à barres_ pour les variables qualitatives. 

In [None]:
df.hist(column='Age')

# Estimation par noyau gaussien
# df['Age'].plot.kde() 

On peut également définir des variables d'agrégation pour obtenir plusieurs graphiques.  

In [None]:
df.hist(column='Age', by='Pclass')

Et même faire des boîtes à moustaches ! 

In [None]:
df.boxplot(column='Fare', by='Survived')

Ou des diagrammes en barres. 

In [None]:
df['Pclass'].sort_values().value_counts().plot.bar()

#### Exercice


Pour chaque question, donner un moyen de représentation de la variable étudiée et commenter les résultats. 

1. Dresser la distribution des âges des survivants au naufrage. 

2. Combien de passagers ont embarqué dans chacun des ports ? 

3. Quel est le prix moyen et l'écart-type d'un billet à bord du Titanic ? Dans chacune des classes ? Donner aussi le maximum et le minimum

4. Quelles sont les proportions hommes/femmes avant et après le naufrage ? 

On visualisera ces proportions à l'aide d'un diagramme empilé produit grâce au code donné ci-dessous:

In [None]:
def stackplot(df, groupVar) : 
    df.assign(dummy = 1).groupby(
      ['dummy',groupVar]
    ).size().groupby(level=0).apply(
    lambda x: 100 * x / x.sum()
    ).to_frame().unstack().plot(kind='bar',stacked=True,legend=True)

    # Pour ne pas imprimer la variable dummy
    plt.xlabel(groupVar)

    # Désactive l'axe des x
    plt.xticks([])

    _, correct_labels = plt.gca().get_legend_handles_labels()
    correct_labels = [t[t.index(', ') + 1:len(t)-1] for t in correct_labels]
    plt.legend(correct_labels)

    plt.gca().yaxis.set_major_formatter(mtick.PercentFormatter())

    plt.show()

Où `df` est le dataframe considéré et `groupVar` la variable de groupement dont les valeurs sont empilées. 

5. Donner le nombre de passagers dans chaque classe avant et après le naufrage. 

## Premières analyses bivariées <a class="anchor" id="2-3"></a>

Les précédentes analyses mises en place se sont concentrées sur l'étude de 1 variable à la fois. 

Les analyses bivariées étudient 2 variables conjointement. En fonction de leur nature (quantitative / qualitative), on utilisera différents moyens de visualisation (graphique à points, tableau de contingence, boîtes à moustaches). 

On commence par l'étude de deux variables quantitatives. Une étude classique effectuée est la recherche de corrélation entre ces deux variables ; nous reviendrons sur ces considérations plus en détails lors du cours de Statistiques. 
Une méthode simple pour observer une corrélation entre variables et de visualiser le nuage de points correspondant et de regarder qui ceux-ci s'ajustent autour d'une droite. 

In [None]:
df.plot(kind="scatter",x="Age", y="Fare")

Ici, la corrélation entre les variable `Fare` et `Age` semble très faible, voire absente.

On peut ajouter également une couleur aux points pour plus d'information. Par exemple la variable `Survived`. 

In [None]:
code_survie = df['Survived'].astype('int')

df.plot(kind="scatter", x="Age", y="Fare", c=pd.Series(['blue','green'])[code_survie])

Lorsque les points se chevauchent beaucoup, on peut utiliser un pavage de Kohonen.

On peut aussi régler les axes pour faire un zoom sur une portion du graphique à l'aide des commandes `xlim` et `ylim`. 

In [None]:
df.plot.hexbin(x="Age", y="Fare",xlim = [0, 70], ylim =[0, 200], gridsize=25)

Pour croiser deux variables quantitatives, on utilise les tables de contingence. 

In [None]:
table = pd.crosstab(df["Survived"],df["Pclass"])
print(table)

Une telle table peut ensuite être visualisée à l'aide d'un diagramme mosaïque comme suit:

In [None]:
from statsmodels.graphics.mosaicplot import mosaic

mosaic(df,["Survived","Pclass"], gap=0.05)
plt.show()

- La largeur d'une case donne la proportion de la variable en $X$ (ici 0 ou 1). 

- La hauteur d'une case donnent la proportion des modalités de $Y$ sachant les modalités de $X$. 

- La surface des cases de ce graphique donnent la proportion d'observations conjointes des modalités des variables $X$ et $Y$ considérées. 