# Statistiques descriptives


In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

1. **Statistique descriptive** : 
    1. but
        - Résume et décrit les données (via des mesures et des graphiques visuels)
        - Permet de détecter de potentiel "outlier" (valeurs aberrantes)
        - Prépare aux "data cleaning"
        - Prépare aux modèles inférentiels
    <br><br>
    2. comment chiffrer:
        -  "chiffres"/"données"/"information" = statistiques
        - mesure de tendance centrale
        - mesure de dispersion/variation
    <br><br>
    4. distributions
        - fréquences et effectifs
        - graphiques: barplot, histogrammes, nuage de points, etc.
        - représentation graphique des statistiques "tabulaires"/"chiffres"
    <br><br>
    
    1. ***Statistique descriptive univariée*** fournit les outils statistiques pour organiser, présenter et synthétiser l’information issue de l’analyse d’une variable indépendamment des autres
        -  nominale
            - mode, fréquences
            - pie, bar
        -  ordinale
            - mode, médiane & IQR, fréquences
            - pie, bar, boxplot
        -  discrète
            - mode, médiane & IQR, moyenne et écart-type, fréquences(*)
            - histogramme, boxplot, ecdf
        -  continue
            - médiane & IQR, moyenne et écart-type, fréquence(*)
            - histogramme, boxplot, ecdf
    <br><br>

    2. ***Statistique descriptive bivariée*** a pour objet d’étudier conjointement deux variables X et Y sur une même population
        - catégories vs catégories
            - fréquences, mode
        - catégories vs numérique
            - comme numérique, mais ventilation par catégories
        - numérique vs numérique
            - covariance, corrélation
            - nuage de points
    <br><br>

    3. ***Statistique descriptive multivariée*** vise à étudier plusieurs variables simultanément

## Tendence centrale
- ou ce situe le centre des données ?
- quelle est la valeur la plus représentative du dataset?

In [2]:
d1 = pd.read_csv("demo/d1_scores.csv")
display(d1.head())
d1.info()

Unnamed: 0,math,eng,gender,class
0,15.8,13.7,M,A
1,13.6,12.0,M,C
2,14.2,11.0,M,A
3,14.8,12.0,M,A
4,12.2,8.1,M,B


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   math    10000 non-null  float64
 1   eng     10000 non-null  float64
 2   gender  10000 non-null  object 
 3   class   10000 non-null  object 
dtypes: float64(2), object(2)
memory usage: 312.6+ KB


### moyenne (arithmétique)
- applicable pour les numériques (discrète et continue)
- EN: mean,average

$ \text{mean}(X) = \bar{x} = \frac{\sum_{i=1}^{N} x_i}{N} = \frac{1}{N} \left(x_0 + x_1 + ... + x_n\right)
$

ce n'est pas une mesure robuste car elle est sensible aux valeurs extrèmes


Dans les statistiques infrérentiels on va utiliser le symbole grec "mu" $\mu$ pour désigner la moyenne de la population (la valeur fondamentale/théorique). En lien avec cette valeur, on peut retrouver l'expression suivante:

$\hat{\mu} = \bar{x} = \frac{\sum_{i=1}^{N} x_i}{N} $  

Cela signifie qu'on peut estimer (=une approximation maitrisé de) cette valeur $\mu$ avec la moyenne $\bar{x}$.

In [3]:
list = [0,1,1,2,3,5,8]
list_extr = list + [100]

print(np.mean(list))
print(np.mean(list_extr))

2.857142857142857
15.0


In [4]:
avg_math = d1["math"].mean()
display(avg_math)

11.98138

### Mediane
- applicable pour les données ordinales et numériques
- EN: median, 2nd quartile, 50-percentile

on trie les données (d'une manière croissante), et on prend la valeur du milieu de cette liste trié.

- si elle est de longeur impaire -> pas d'embiguité sur la valeur du milieu
- si la liste est de longeur paire-> la moyenne des 2 valeur du milieu

c'est une mesure robuste:
- elle n'est pas sensible au valeur extrèmes

In [5]:
list_sorted = [0,1,1,2,3,5,8]
median = list_sorted[int(len(list_sorted)/2)]
median

2

In [6]:
list_ext_sorted = list_extr.copy()
low = int(len(list_ext_sorted)/2)-1
high = int(len(list_ext_sorted)/2)
median = 0.5*(list_ext_sorted[low]+list_ext_sorted[high])
print(low)
print(high)
median

3
4


2.5

In [7]:
median = d1.math.median()
median

11.8

### Mode
- applicable pour les catégories (nominales, ordinales) est les discrètes
- EN: mode

c'est la valeur qui revient le plus souvent

In [8]:
list_sorted = [0,1,1,2,3,5,8]
mode = 1

In [9]:
d1["class"].mode()

0    A
Name: class, dtype: object

### moyenne tronquée
$\bar{x}_{tr} = \frac{\sum_{i=p}^{N-p} x_i}{N-2p}$

on élimine un nombre $p$ de valeurs les plus basses et plus élevées avant de faire la moyenne

### moyenne pondérée
$\bar{x} = \frac{\sum_{i=1}^{N} w_i \cdot x_i}{\sum_{i=1}^{N} w_i}$

chaque valeur possible $x_i$ a un poids $w_i$, on tient compte de ce poids dans la moyenne:
- à noter que quand tout les poids sont identiques <br>
( par  exemple $w_i=1$ ) ,<br> on retrouve la moyenne (arithmétique) 

## Mesures de dispersion
- dispersion=variation
- quelle est la variation des données ?

les mesures de tendances centrales ne sont pas du tout suffisantes pour bien résumer le data en statistiques !

In [10]:
list_highvar = [-100,2,4,8,100]
print(np.mean(list))
print(np.mean(list_highvar)) ## moyenne similaire

2.857142857142857
2.8


### Amplitude
- Amplitude ou Etendue
- EN: range
- applicable quand mediane est applicable

c'est la distance entre la valeur maximum et minimum 

$\text{range}(X) = \max(X) - \min(X)$

In [11]:
print(np.max(list) - np.min(list))
print(np.max(list_highvar) - np.min(list_highvar))

8
200


### Déviation absolue moyenne
- mean absolute deviation
- applicable quand la moyenne est applicable

cette mesure est moins sensible au valeurs extrèmes

$ \text{mad}(X) = \frac{\sum_{i=1}^{N} |x_i-\bar{x}|}{N}$


In [12]:
(d1.math - d1.math.mean()).abs().mean()

2.25056072

In [13]:
m_ = np.mean(list)
np.mean([np.abs(x-m_) for x in list])

2.1224489795918364

In [14]:
m_ = np.mean(list_highvar)
np.mean([np.abs(x-m_) for x in list])

2.1142857142857143

### Variance et écart-type
- variance and standard deviation
- applicable quand la moyenne est applicable

cette valeur est tres sensible au valeurs extrèmes

$\text{var}_\text{population}(X) = \sigma^2= \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}$

$\text{var}_\text{sample}(X)= s^2 = \frac{\sum_{i=1}^{N} (x_i - \bar{x})^2}{N-1}$



[facteur de correction](https://en.wikipedia.org/wiki/Bessel%27s_correction) $N-1$ de Bessel :
- à utiliser quand on calcule la variance en utilisant la moyenne observée $\bar{x}$ d'un echantillon (=une estimation/observé), à la place de la vraie moyenne $\mu$ (= valeur fondamentale/théorique de la population).

Cette correction n'est vraiement importante que quand on a peu de données (<20), donc en pratique (commercial/industriel N>1000) cette nuance n'a pas d'impact significatif.

On reviendra sur la différences et les liens probabilités (=inférentiel) et statistiques (=descriptive)

Notez que la formule/definition correspond à la ***moyenne des distance*** Euclidienne (au carré) entre:
- les données $x_i$
- et la moyenne (de population/théorique) $\mu$ :

$\text{var}_\text{population}(X) = \frac{1}{N} ||X - \mu||^2 =\frac{1}{N} (X-\mu)^T \cdot (X-\mu) $
    $ = \frac{1}{N}\begin{bmatrix}
    (x_1 - \mu) & (x_2 - \mu) & ... & (x_N - \mu)
\end{bmatrix} \cdot \newline
\begin{bmatrix}
    (x_1 - \mu) \\ (x_2 - \mu) \\ ... \\ (x_N - \mu)
\end{bmatrix}
= \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}$

In [15]:
print(np.var(list))
print(np.var(list_highvar))

6.693877551020407
4008.9600000000005


Si les données ont comme unité "metre" "$m$", la variance a des unité "mètre carré" "$m^2$".
Ceci complique l'interprétation des résultat, car peu intuitif. C'est pour cela qu'on préfèrera utiliser les écarts-types (standard deviation).



$\text{std}_\text{pop}(X) = \sigma = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}}$ 

$\text{std}_\text{sample}(X) = s = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \bar{x})^2}{N-1}}$ (*)

(*): une correction de 1.5 au lieu de 1 serait plus [exacte](https://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation), pour avoir une estimation non-biaisé de l'écart-type fondamental/théorique "$\sigma$"

Comme pour la variance, en pratique, les nuance entre "$\sigma$" et "$s$" sont négligable ($N>1000$). 

In [16]:
print(np.std(list,ddof=0))
print(np.std(list_highvar, ddof=0))

2.58725289661069
63.31634859971002


### Quartiles et écart interquartile
- EN: quartiles and interquartile range (IQR)
- applicable quand mediane est applicable

Q1 = la mediane entre :
- le mininum
- et la mediane

Q2 = la mediane

Q3 = la mediane entre:
- la mediane
- et le maximum

Par construction/définition :
- on a 25% du nombre des données entre (min,Q1),(Q1,Q2),(Q2,Q3),(Q3,max)

- on a 75% des valeurs qui se trouve entre le Q1 et max
- on a 50% des valeurs entre Q1 et Q3




IQR c'est la distance entre Q3 et Q1

on a des définitions similaire avec 
- decile = tranche de  10%
- pourcentile = tranche de 1% 

In [17]:
Q1 = d1.math.quantile(q=0.25)
Q2 = d1.math.quantile(q=0.5)
Q3 = d1.math.quantile(q=0.75)

print(Q2 == d1.math.median())
print("-"*50)
print(Q1,Q2,Q3)

True
--------------------------------------------------
9.9 11.8 14.0


In [18]:
IQR = Q3-Q2
print(IQR)

2.1999999999999993



### Pour une distribution normale
- =courbe de Gauss, (distribution paramétrique)
- EN: normal distribution, Gauss curve

**Règle de J.tuckey**: une donnée peut être appelée valeur (potentiellement) aberrante/extrème si elle s'écarte d'une
distance d'au moins 1,5xIQR au dessus du Q3 ou en dessous du Q1.

**Cela permet de separer/identifier les données "standards" des données potentiellement "aberants"**, et de faire un analyse générale/global pour l'un et sur mesure pour l'autre. 

![](repos/boxplot-gauss.png)




### Covariance
- EN: Covariance
- applicable quand la moyenne est applicable (sur les deux variables)
- c'est une extension de la variance
- permet de faire une analyse sur 2 variables (=bivarié)
C'est une mesure qui quantifie comment deux variables $X$ et $Y$ varient ensemble quand on parcours toutes les données d'un dataset


$\text{covar}_\text{pop}(X,Y) = \frac{\sum_{i=1}^{N} (x_i - \mu_x)\cdot (y_i - \mu_y)}{N}$

$\text{covar}_\text{sample}(X,Y) = \frac{\sum_{i=1}^{N} (x_i - \bar{x})\cdot (y_i - \bar{y})}{N-1}$

### Coëfficient de correlation 
- EN: correlation coefficient
- permet de faire une analyse sur 2 variables (=bivarié)

#### [Pearson](https://en.wikipedia.org/wiki/Pearson_correlation_coefficient)
- applicable quand la moyenne est applicable aux deux variables $X$ et $Y$
- ceci représente la "force" d'association (linéaire) entre deux variables:
    - exemple : quand je fait variér les valeurs de $X$  d'une valeur basse à haute, est-ce que les valeurs de la variable $Y$ on tendance à changer avec les même direction: également un changement de bas à haut ?
        - si $\rho \approx 1$: elle vont dans le même sens 
        - si $\rho \approx -1$: dans sens opposé
        - si $\rho \approx 0$: le changement d'une variable n'impacte pas l'autre

$\rho(X,Y) = \frac{\text{covar}(X,Y)}{\text{std}(X) \cdot \text{std}(Y)} $

$-1 \leq \rho(X,Y) \leq 1$


In [20]:
d1[["math","eng"]].corr(method='pearson')

Unnamed: 0,math,eng
math,1.0,-0.32474
eng,-0.32474,1.0


#### [Spearman](https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient)
- applicable quand la mediane est applicable aux deux variables $X$ et $Y$
- ceci représente la "force" d'association (de rang/ordre) entre deux variables (*):
- exemple avec $\rho \approx 1$:
    - quand on prends les lignes qui sont dans le top/bottom 10 des $X$, pour ces même lignes on a également le top/bottom 10 des $Y$

$-1 \leq \rho(X,Y) \leq 1$

(*): plus exactement: si la relation décrit une fonction [monotone](https://en.wikipedia.org/wiki/Monotonic_function)

In [21]:
d1[["math","eng"]].corr(method='spearman')

Unnamed: 0,math,eng
math,1.0,-0.385255
eng,-0.385255,1.0


### Effectifs, fréquences et distributions
- EN: frequencies, relative frequencies and distributions
- l'idée ici c'est avoir un apperçu des valeurs possibles et à quelle point ces valeurs sont répétées
    - on ne résume plus avec un ou deux chiffre
    - on fait des "group by" = tableau de contingence = table pivot = tableau croisé dynamique
    - EN: "group by", contingency table, pivot table 



1. Effectif $F$ = nombre d’apparition d’une modalité pour une variable donnée

2. Fréquence $f$ = fréquence d’apparition d’une modalité pour une variable donnée $f_i = F_i/N_\text{tot}$

3. Distribution marginale somme des effectifs pour une colonne ou ligne particulière

In [46]:
contingency = d1[["class"]].groupby(by=["class"],as_index=False).agg(F=("class","count"))

display(contingency)

Unnamed: 0,class,F
0,A,3345
1,B,3333
2,C,3322


In [47]:
contingency["f"] = contingency["F"]/contingency["F"].sum()

print(contingency["f"].sum())
display(contingency)

1.0


Unnamed: 0,class,F,f
0,A,3345,0.3345
1,B,3333,0.3333
2,C,3322,0.3322


In [56]:
d1["id"] = d1.index
pivot = d1.pivot_table(index="class",values='id',aggfunc='count',margins=True,)
pivot["f"] = pivot["id"]/pivot.at["All","id"]
display(pivot)

Unnamed: 0_level_0,id,f
class,Unnamed: 1_level_1,Unnamed: 2_level_1
A,3345,0.3345
B,3333,0.3333
C,3322,0.3322
All,10000,1.0
