# Statistiques descriptives et d√©couverte des donn√©es
## _Business Intelligence, Data analysis and vizualization_

Bienvenue sur **Jupyter Notebook** ! Avant de commencer, veillez √† bien lire le document qui accompagne ce tutoriel. 

Le but de cette s√©ance va √™tre de d√©couvrir ce nouvel environnement de travail et de l'appliquer √† votre Projet d√©cisonnel. Le tutoriel sera r√©alis√© en Python üêç   mais ne n√©cessite pas de connaissances avanc√©es du langage. 

Ce tutoriel a pour but de:

- Vous aider √† charger des donn√©es et apprendre √† les manipuler afin de r√©aliser des pr√©-traitements. 
- Dresser des statistiques descriptives simples, de premier niveau, qui serviront √† la compr√©hension m√©tier mais aussi √† v√©rifier la qualit√© de vos donn√©es. 

_Il s'agit d'une introduction pour vous aider dans la mise en place des donn√©es dans le cadre de votre projet d√©cisionnel. Une s√©ance plus compl√®te d√©di√©e √† la manipulation, l'analyse statistique et la production de moyens de visualisation sera effectu√©e en TP de Statistiques._

## Sommaire

[1. Les dataframes](#1)
>
> [1.1 Chargement des donn√©es](#1-1)
>
> [1.2 Premi√®res manipulation](#1-2)
>
> [1.3 Manipulation de table](#1-3)
>
[2. Statistiques √©l√©mentaires](#2)
>
> [2.1 Typage des donn√©es](#2-1)
> 
> [2.2 Premi√®res analyses univari√©es](#2-3)
> 
> [2.3 Premi√®res analyses bivari√©es](#2-3)

# Les dataframes<a class="anchor" id="1"></a>

## Chargement des donn√©es<a class="anchor" id="1-1"></a>

_**Il vous est conseill√©, si vous le pouvez, d'utiliser lors de cette s√©ance vos sources de donn√©es de Projet. Si vous n'en disposez pas, vous pouvez utiliser le fichier .csv disponible**_ `titanic.csv`.

Si vous √™tes sur **Google Colab**, vous pouvez stocker vos sources de donn√©es [https://gist.github.com/](https://gist.github.com/) puis les importer avec la commande suivante:

`!wget __lien_fichier__  -O __nom_du_fichier_ -q --show-progress`

In [None]:
!wget https://gist.githubusercontent.com/Hector-Plasma/93a8d2618622efff14fda3776cf70ecd/raw/c846e14b311d990e2c8f156a3ee2ba3c20379379/titanic.csv  -O titanic.csv -q --show-progress #LEGACY

Le fichier `titanic.csv` r√©pertorie diff√©rents passagers √† bord du c√©l√®bre paquebot lors du drame de la nuit du 14 Avril 1912. 

Les colonnes poss√®dent la description suivante:

|Colonne|Description|Value|
|-------|-----------|-----|
|`PassengerId`|Id du passager|Int|
|`Survived`|Boolean si le passager a surv√©cu au naufrage|{0,1}|
|`Pclass`|Classe du passager (1er = 1, ...) |{1,2,3}|
|`Name`|Identit√© du passager|String|
|`Sex`|Sexe du passager|{male, female}|
|`Age`|√Çge du passager|Double|
|`SibSp`|Nombre de fr√®res, soeurs ou conjoint √† bord|Int|
|`Parch`|Nombre d'enfants ou parents √† bord|Int|
|`Ticket`|Num√©ro de ticket|Int|
|`Fare`|Prix du ticket|Double|
|`Cabin`|Num√©ro de cabine|String|
|`Embarked`|Port d'embarquement (C = Cherbourg; Q = Queenstown; S = Southampton)|{C,Q,S}|

In [None]:
# Importations
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
from statsmodels.graphics.mosaicplot import mosaic

In [None]:
# path = ""
path = './'
df = pd.read_csv(path + 'titanic.csv')
df

Si la table a √©t√© modifi√©e et que l'on souhaite conserver les nouvelles donn√©es, on peut exporter le dataframe au format `.csv` √† l'aide de la commande `df.to_csv(r"_path_", index=False)`.

## Premi√®res manipulations<a class="anchor" id="1-2"></a>

Soit `df` un dataframe donn√©, on donne la liste des commandes √©l√©mentaires suivantes:

- Nombre de ligne et colonnes: `df.shape[0]` (nb lignes) ; `df.shape[1]` (nb colonnes) 
- Noms des colonnes: `df.columns.values`


- **Acc√®s aux donn√©es**: 
    + Acc√®s √† la ligne $i$: `df.iloc[i,:]`
    + Acc√®s √† la colonne $j$: `df.iloc[:,j]`
    + Acc√®s √† la ligne $i$, colonne $j$: `df.iloc[i,j]`
    + Acc√®s √† la colonne de nom $n$: `df['n']` ou `df.n`
    + Acc√®s √† la colonne de nom $n$, ligne $i$: `df['n'][i]` ou `df.n[i]`
    
    
- Tri de la colonne $n$: `df['n'].sort_values()`
- Tri du dataframe selon la colonne $n$: `df.sort_values(by='n')`

#### Exercices

Tester les commandes suivantes sur le fichier `titanic.csv` et d√©crire leur fonctionnement.

In [None]:
df[['Sex','Age']].head()

In [None]:
df['Survived'][1:3]

In [None]:
df.iloc[-1,0]

In [None]:
df.iloc[df.shape[0]-1,0]

In [None]:
df.iloc[0:5,:]

In [None]:
df.iloc[0:5,[0,2,4]]

- Supression la ligne $i$: `df.drop([i])`
- Supression la colonne $j$: `df.drop([j], axis = 1)`
- Supression des lignes avec des valeurs nulles: `df.dropna()`

- Filtrage selon une condition $\varphi$: `df.loc[df[phi, :]]`

    O√π $\varphi$ est une formule logique exprim√©e sur les colonnes de `df` √† l'aide des op√©rateurs bool√©ens `&`(ET), `|` (OU) et `~` (NON). 
    
#### Exemples

In [None]:
# Liste des Femmes sur pacquebot

df.loc[df['Sex']=="female", :]

In [None]:
# Liste des Hommes de plus de 30 ans sur le pacquebot de 1er et 2nd classes

# On retient les Colonnes Survived, Pclass, Name, Sex, Age
colonnes = ['Survived', 'Pclass', 'Name', 'Sex', 'Age']

df.loc[(df['Sex']=="male") & (df['Age'] >= 30) & (df['Pclass'].isin([1,2])), colonnes]

## Manipulation de tables <a class="anchor" id="1-3"></a>

La modification d'une valeur au sein d'un dataframe se fait simplement par r√©-affectation comme on pourrait le faire au sein d'une liste ou d'un tableau. 

#### Exercice

Supposons le dataframe `T` cr√©e par la commande suivante:

In [None]:
T = pd.DataFrame({'A': range(1,7), 'B': [2, 10, 9, 0, np.nan, 1], 'C': [1,np.nan]*3})

T

Unnamed: 0,A,B,C
0,1,2.0,1.0
1,2,10.0,
2,3,9.0,1.0
3,4,0.0,
4,5,,1.0
5,6,1.0,


1. Modifier la valeur situeÃÅe derni√®re ligne, colonne 1 de `T` par la valeur 10. 

2. On peut deÃÅtecter si une valeur posseÃÄde la valeur nulle graÃÇce aÃÄ la commande `np.isnan()`. Afficher uniquement les lignes de `T` qui ne contiennent pas de valeur nulles `NaN` dans la colonne **C**.

3. La commande `np.where(phi, x, y)` permet de retourner une liste numpy compos√©e de `x` et `y` selon la condition $\varphi$ √©valu√©e. 
    
    Par exemple, `np.where((T['A'] % 2) == 1, 0, T['A'])` retourne `[0, 2, 0, 4, 0, 6]`. 

    Dans la colonne **B**, remplacer toutes les valeurs $\geq$ 5 par la valeur 20.

4. √âcrire une fonction permettant de remplacer toutes les valeurs `NaN` de `T` par la valeur 0.

On d√©sire ajouter une nouvelle `D` colonne √† notre dataframe. Pourvu que l'on dispose de la liste (numpy ou liste Python classique) `L` correspondante √† la colonne, celle-ci peut √™tre rajout√©e simplement comme suit: 

`T[D] = L`

Ceci est particuli√®rement pratique par exemple pour discr√©tiser des colonnes num√©riques. 

5. √âcrire le code permettant d'ajouter la colonne `D`, o√π chaque ligne correspond √† la moyenne des pr√©c√©dentes colonnes. Par exemple, la premi√®re ligne de `D` sera √©gale √† $(1 + 2 + 1)/ 3 = 4/3 = 1.333...$.

On pourra s'aider de la commande `np.mean(L)` qui donne la moyenne d'une liste `L` de nombres.  

# Statistiques √©l√©mentaires<a class="anchor" id="2"></a>

## Typage des donn√©es<a class="anchor" id="2-1"></a>

La librairie _Pandas_ qui g√®re les dataframes permet d'√©tablir rapidement des statistiques de pr√©liminaires (moyenne, √©cart-type, mediane, quantile, fr√©quence) sur les tableaux de donn√©es. 
Pour se faire, on utilise la commande `describe`. 

In [None]:
df.describe(include='all')

Comme vous pouvez le remarquer, Python a mal inf√©r√© le type de certaines colonnes: `PassengerId`, `Survived` et `Pclass` sont des variables qualitatives et non quantitatives et ne doivent pas √™tre interpr√™t√©es comme des nombres ! 

**_Il est vivement recommand√© de bien affecter les bons types √† chaque variable ne serait-ce que pour √©viter de faire des op√©rations douteuses, par exemple arithm√©tiques sur des id ou des modalit√©s non num√©riques._**

On va r√©-attribuer ici les bons types √† chaque colonne de notre dataframe. 

In [None]:
df['PassengerId']=pd.Categorical(df["PassengerId"],ordered=False)
df["Survived"]=pd.Categorical(df["Survived"],ordered=False)
df["Pclass"]=pd.Categorical(df["Pclass"],ordered=True, categories=[1, 2, 3])
df.dtypes

√âgalement, on peut doter une variable qualitative (ou cat√©gorielle)  d'une relation d'ordre indiquant une certaine hi√©rarchie entre les √©l√©ments. C'est le cas par exemple des classes de voyage de la colonne `Pclass`.

In [None]:
# V√©rification des types et informations sur le dataframe
df.info()

La commande pr√©c√©dente permet d'obtenir une vue macroscopique des donn√©es. On peut √©galement obtenir la fr√©quence √©l√©ments des variables qualitatives √† l'aide de la commande. `value_counts()`. 

In [None]:
# Obtention de la fr√©quence des modalit√©s de `Survived`, on d√©pose les r√©sultats dans un dictionnaire
df.Survived.value_counts().to_dict()

Si l'on souhaite l'analyse en fonction des valeurs des variables, on utilisera la commande `groupby` qui permet d'acc√©der aux sous-DataFrame associ√©s √† chaque item de la variable de regroupement.
Il est d√®s lors possible d'appliquer explicitement d'autres traitements sur ces sous-ensembles de donn√©es.

In [None]:
g = df.groupby('Pclass')

g[['Age','Fare']].agg([pd.Series.mean,pd.Series.std])

## Premi√®res analyses univari√©es <a class="anchor" id="2-2"></a>

Un des premiers r√©flexes lors de l'analyse de donn√©es consiste √† observer la **distribution des valeurs** de chaque  variable. 

Pour se faire, on utilise classiquement un _histogramme_ pour les variables num√©riques (quantitatives) et des _graphiques √† barres_ pour les variables qualitatives. 

In [None]:
df.hist(column='Age')

# Estimation par noyau gaussien
# df['Age'].plot.kde() 

On peut √©galement d√©finir des variables d'agr√©gation pour obtenir plusieurs graphiques.  

In [None]:
df.hist(column='Age', by='Pclass')

Et m√™me faire des bo√Ætes √† moustaches ! 

In [None]:
df.boxplot(column='Fare', by='Survived')

Ou des diagrammes en barres. 

In [None]:
df['Pclass'].sort_values().value_counts().plot.bar()

#### Exercice


Pour chaque question, donner un moyen de repr√©sentation de la variable √©tudi√©e et commenter les r√©sultats. 

1. Dresser la distribution des √¢ges des survivants au naufrage. 

2. Combien de passagers ont embarqu√© dans chacun des ports ? 

3. Quel est le prix moyen et l'√©cart-type d'un billet √† bord du Titanic ? Dans chacune des classes ? Donner aussi le maximum et le minimum

4. Quelles sont les proportions hommes/femmes avant et apr√®s le naufrage ? 

On visualisera ces proportions √† l'aide d'un diagramme empil√© produit gr√¢ce au code donn√© ci-dessous:

In [None]:
def stackplot(df, groupVar) : 
    df.assign(dummy = 1).groupby(
      ['dummy',groupVar]
    ).size().groupby(level=0).apply(
    lambda x: 100 * x / x.sum()
    ).to_frame().unstack().plot(kind='bar',stacked=True,legend=True)

    # Pour ne pas imprimer la variable dummy
    plt.xlabel(groupVar)

    # D√©sactive l'axe des x
    plt.xticks([])

    _, correct_labels = plt.gca().get_legend_handles_labels()
    correct_labels = [t[t.index(', ') + 1:len(t)-1] for t in correct_labels]
    plt.legend(correct_labels)

    plt.gca().yaxis.set_major_formatter(mtick.PercentFormatter())

    plt.show()

O√π `df` est le dataframe consid√©r√© et `groupVar` la variable de groupement dont les valeurs sont empil√©es. 

5. Donner le nombre de passagers dans chaque classe avant et apr√®s le naufrage. 

## Premi√®res analyses bivari√©es <a class="anchor" id="2-3"></a>

Les pr√©c√©dentes analyses mises en place se sont concentr√©es sur l'√©tude de 1 variable √† la fois. 

Les analyses bivari√©es √©tudient 2 variables conjointement. En fonction de leur nature (quantitative / qualitative), on utilisera diff√©rents moyens de visualisation (graphique √† points, tableau de contingence, bo√Ætes √† moustaches). 

On commence par l'√©tude de deux variables quantitatives. Une √©tude classique effectu√©e est la recherche de corr√©lation entre ces deux variables ; nous reviendrons sur ces consid√©rations plus en d√©tails lors du cours de Statistiques. 
Une m√©thode simple pour observer une corr√©lation entre variables et de visualiser le nuage de points correspondant et de regarder qui ceux-ci s'ajustent autour d'une droite. 

In [None]:
df.plot(kind="scatter",x="Age", y="Fare")

Ici, la corr√©lation entre les variable `Fare` et `Age` semble tr√®s faible, voire absente.

On peut ajouter √©galement une couleur aux points pour plus d'information. Par exemple la variable `Survived`. 

In [None]:
code_survie = df['Survived'].astype('int')

df.plot(kind="scatter", x="Age", y="Fare", c=pd.Series(['blue','green'])[code_survie])

Lorsque les points se chevauchent beaucoup, on peut utiliser un pavage de Kohonen.

On peut aussi r√©gler les axes pour faire un zoom sur une portion du graphique √† l'aide des commandes `xlim` et `ylim`. 

In [None]:
df.plot.hexbin(x="Age", y="Fare",xlim = [0, 70], ylim =[0, 200], gridsize=25)

Pour croiser deux variables quantitatives, on utilise les tables de contingence. 

In [None]:
table = pd.crosstab(df["Survived"],df["Pclass"])
print(table)

Une telle table peut ensuite √™tre visualis√©e √† l'aide d'un diagramme mosa√Øque comme suit:

In [None]:
from statsmodels.graphics.mosaicplot import mosaic

mosaic(df,["Survived","Pclass"], gap=0.05)
plt.show()

- La largeur d'une case donne la proportion de la variable en $X$ (ici 0 ou 1). 

- La hauteur d'une case donnent la proportion des modalit√©s de $Y$ sachant les modalit√©s de $X$. 

- La surface des cases de ce graphique donnent la proportion d'observations conjointes des modalit√©s des variables $X$ et $Y$ consid√©r√©es. 