# Les fondamentaux de la statistiques avec Python

L'apprentissage est basé sur le cours : https://realpython.com/python-statistics/

## Motivations
Présence de plus en plus importante des données dans le quotidien. Il devient essentiel de savoir, à minima, les décrire, les résumer et les représenter. Python propose ses propres fonctionnalités pour faire des statistiques.

## Objectifs 
- Quels indicateurs statistiques utiliser ?
- Comment décrire des quantités ?
- Etude de variables quantitatives.

## Comprendre les statistiques descriptives
Les statistiques descriptives ont deux objectifs :
- décrire les données quantitativement,
- représenter graphiquement les données pour faire de l'analyse visuelle (tendances visibles, permet de faire des suppositions).

### Type de mesures
- Les indicateurs de tendances centrales (indicateurs de position) : moyenne, médiane, min, max.
- Les indicateurs de variabilité : variance, écart-type.
- Corrélation ou variabilité jointe : coefficient de [corrélation](https://realpython.com/numpy-scipy-pandas-correlation-python/), co-variance. On s'intéresse à deux variables en même temps :quel est le comportement de l'une par rapport à l'autre ?

On réalise des études sur des échantillons. Un échantillon est une "partie" de la population totale qu'on étudie. L'échantillon **doit garder les caractéristiques statistiques de sa population d'origine**.

### Les outliers
Il n'y a pas de définition précise des outliers. Les outliers sont des valeurs qui sont très extrêmes par rapport au reste de la distribution. Les outliers peuvent avoir pluiseurs origines : erreur de saisie, erreur de calcul, méthode de calcul etc. Le comportement qu'on peut avoir avec ces données va varier en fonction des besoins et de l'expérience. Dans certains cas, les outliers sont des variations naturelles de la donnée.

## Choisir les modules python pour travailler
Il en existe de nombreux. Parmi les plus connus :
- le core de python : statistics. Mais pas très performant.
- NumPy : très utilisé et très performant. Il répond à la plupart des besoins. La structure de donnée associée est le ndarray. NumPy contient des **routines statistiques**. Numpy possède des concepts qui lui sont propres mais qui sont reprises par d'autre module. Numpy est interopérable, on peut le faire passer dans d'autres structrues de données Python. [Ici un lien vers les concepts numpy](https://numpy.org/doc/stable/reference/)
- [SciPy](https://realpython.com/python-scipy-cluster-optimize/) : basé sur NumPy, il en constitue une extension quasiment. Il permet d'optimiser les traitements de NumPy.
- Des modules de représentation (matplotlib) et de manipulation (pandas/geopandas) de données, mais ils sont très sommaires !

![image.png](attachment:image.png)

## Avant de commencer, quelques points importants ...
Comme ce sont des statistiques, il faut aussi représenter les données, les manipuler etc. Le site offre des liens vers des formations gratuites, des tutos etc.
- Tutoriel pour regarder l'anatomie de matplotlib : https://github.com/matplotlib/AnatomyOfMatplotlibs
- Retourner sur le site pour la suite des formations ...

En somme, il faut savoir au moins : représenter des données, les manipuler et avoir des notions de base en statistiques.

---

## Notions de base
### Les types de mesures dans les statistiques descriptives
- tendance centrale : moyenne, médiane et mode. Ce sont les valeurs centrales.
- La variabilité : comment s'étend un jeu de données. On utilise la variance et l'écart-type (abrégé en std).
- Corrélation/variabilité jointe : informer sur la relation entre une pair de variables dans un jeu de données. Les mesures les plus utiles sont **la covariance** et le **[coefficient de corrélation]**(https://realpython.com/numpy-scipy-pandas-correlation-python/)

### Population et échantillon
La population est généralement trop vaste pour être étudiée. On se repose alors sur des échantillons représentatifs. De ces échantillons, on peut faire remonter une conclusion sur la population globale.

### Outliers
: un point qui se différencie significativement de la majorité du jeu de données (que ça soit la population ou l'échantillon). Il existe plusieurs causes de ces écarts, par exemple :
- variation naturelle,
- changement de comportement dans le système observé,
- erreur de saisie.
Le plus souvent, c'est dans la saisie que se trouve l'erreur : instrument peu précis, matériel défectueux ou encore, la cause peut être humaine.
**Mais pas de définition mathématique de ces points d'écarts**. Ils sont déterminés par l'expérience, la connaissance, le sujet etc.

## Choisir une librairie pour les statistiques
- statistics : une librairie intégrée au python de base. OK pour les petits jeux de données ou quand on peut pas importer autre chose.
- numpy : librairie optimisée pour le calcul sur des tableaux unidimensionnel ou multi-dimensionnel. Sa structure de donnée de base est le **ndarray**. Contient des "routines" pour l'analyse statistiques.
- scipy : basé et enrichi numpy. Contient le module scipy.stats pour l'analyse statistique.
- pandas
- matplotlib : fonctionne bien avec numpy, scipy et pandas, pour la représentation de données.

**Dans de nombreux cas, les objets Series et DataFrame peuvent être utilisés à la place des tableaux NumPy. Souvent, on les passe simplement à une fonction statistique NumPy ou SciPy. En outre, on peut avoir les données non étiquetées d'une série ou d'un cadre de données sous la forme d'un objet np.ndarray en appelant .values ou .to_numpy().**

## Démarrer avec les modules statistiques de Python
**statistics** : si on est limité au Python pure. Implémente des fonctions rudimentaires pour la statistique. Mais pas très puissant. Il convient pour des bases.

**Numpy** : bibliothèque de calcul par excellence. Possède ses propres structures de données. Pour les assimiler, se rendre sur la documentation, qui est une source fiable et détaillée. On utilisera des tutoriels pour manipuler ces structures de données de manière plus approfondies. Mais la documentation est essentielle pour comprendre les structures de données Numpy. Pour ce cours, [le référentiel Numpy](https://docs.scipy.org/doc/numpy/reference/) peut servir à se rafraîchir la mémoire, sinon à comprendre de manière rudimentaire. Une [section statistiques de Numpy](https://numpy.org/doc/stable/reference/routines.statistics.html) permet d'approfondir les notions abordées ici.
**scipy** : extension de Numpy, on va aborder ses fonctionnalités ici. Aller [sur la documentation de scipy.stats](https://docs.scipy.org/doc/scipy/reference/stats.html) pour les comprendre.

En somme, dans cette formation, on va manipuler à la fois numpy, scipy et statistics en même temps. ça va nous permette de les confronter.

Quelques liens pour plus tard :

**Manipuler et préparer ses données** :
- [Boucles et tableau Numpy](https://realpython.com/numpy-array-programming/).
- [Nettoyer ses données avec Numpy et Pandas](https://realpython.com/python-data-cleaning-numpy-pandas/)
- [numpy.arange()](https://realpython.com/how-to-use-numpy-arange/)
- [Nettoyer et explorer vos données avec Pandas](https://realpython.com/pandas-python-explore-dataset/)
- [Pandas dataframe 101](https://realpython.com/courses/pandas-dataframes-101/)
- [Trucs et astuces de Pandas](https://realpython.com/courses/idiomatic-pandas-tricks-features-you-may-not-know/)

**Performer dans le nettoyage de données** :
- [Accélérer ses projets avec Pandas](https://realpython.com/fast-flexible-pandas/)

**Visualiser ses données** :
- [Afficher ses données avec Pandas](https://realpython.com/pandas-plot-python/)
- [Comprendre le fond de matplotlib](https://github.com/matplotlib/AnatomyOfMatplotlib), mais pour ce cours, [les bases de la documentation](https://matplotlib.org/users/index.html) suffisent.
- [Guide de matplotlin](https://realpython.com/python-matplotlib-guide/)

**Aller plus loin dans la dataviz...** :
- [... avec plotly](https://realpython.com/python-data-visualization-bokeh/)

## Calculer des statistiques descriptives

### Importer les modules

In [3]:
## Traitement
import math
import statistics
import numpy
import scipy.stats

## Manipulation de données
import pandas

In [4]:
## Créer des données fictives pour s'entraîner :
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

In [5]:
x

[8.0, 1, 2.5, 4, 28.0]

In [6]:
x_with_nan

[8.0, 1, 2.5, nan, 4, 28.0]

On a deux liste de données. Sensiblement pareil. On a des NAN pour bien comprendre qu'il existe des comportements particuliers dans les routines Python.

In [7]:
## Pour créer des NAN :
numpy.nan ; float("nan") ; math.nan ## les trois sont équivalents
## NAN == NAN = False

nan

In [8]:
## Mtn, avec chacun des objets créées précédemment, on va crée une serie et un ndarray :
y, y_with_nan = numpy.array(x), numpy.array(x_with_nan)
z, z_with_nan = pandas.Series(x), pandas.Series(x_with_nan)

### Mesure des tendances centrales
Il existe plusieurs mesures centrales dans une distribution. Elles sont centrales en fonction de la distribution. Nous on va voir :
- la moyenne,
- la moyenne pondérée,
- la moyenne géométrique,
- la moyenne harmonisée,
- la médiane,
- le mode

#### La moyenne arithmétique

In [9]:
## en numpy :
numpy.nanmean(y_with_nan) ## permet de ne pas tenir compte des NA.
## Là on voit qu'on tient pas compte de ces NA mais on ne les supprime pas du dataset.
numpy.mean(y)

8.7

#### La moyenne pondérée 
Permet de tenir compte du poids de chaque individu dans le résultat final. Le poids est la part que représente la variable. Par exemple, si on avait : 30% de 4, 2% de 10, 60% de 5 et 8% de 7, on calculerait alors :

In [10]:
4 * 0.3 + 10 * 0.02 + 5 * 0.6 + 0.08 * 7

4.960000000000001

In [11]:
## Manuellement ça pourrait prendre beaucoup de temps.
## Numpy implémente ce genre de calcul :
x = [8.0, 1, 2.5, 4, 28.0]
w = [0.1, 0.2, 0.3, 0.25, 0.15]
y, z, w = numpy.array(x), pandas.Series(x), numpy.array(w)
wmean = numpy.average(y, weights=w)
wmean

## Son équivalent :
wmean = numpy.average(z, weights=w)
wmean

6.95

#### La moyenne harmonisée
C'est une moyenne où on divise le nombre d'items n par la somme des inverses des items. Autrement dit :
n / somme ( 1 / xi ), avec xi un item de X.

In [12]:
## En python :
hmean = len(x) / sum(1 / item for item in x)
hmean

2.7613412228796843

In [13]:
## Avec statistics :
hmean = statistics.harmonic_mean(x)
hmean

2.7613412228796843

Cette méthode de calcul implique plusieurs résultats, selon le contenu :
- Si au moins un NAN => retourne un NAN,
- Si au moins un 0 => retourne 0,
- S'il y a au moins une valeur négative => retourne une erreur

In [14]:
## On peut également utiliser scipy :
scipy.stats.hmean(x) ## même condition que pour statistics.harmonic_mean()

2.7613412228796843

Pour rappel, scipy est une extension de Numpy.  
**Note** : Est-ce que ça vaut la peine de charger scipy dans un projet ?  
**Note** : Dans quelle mesure appeler Scipy ou Numpy ?

#### Moyenne géométrique
Correspond à la n-ième racine du produit de tous les n éléments xi du dataset x.

Comparaison des résultats des différentes moyennes :

![image.png](attachment:image.png)

In [15]:
## implémentation :
statistics.geometric_mean(x)

4.67788567485604

### A la fin de cette partie, je sais
- définir les différents paramètres de position,
- calculer une moyenne, une moyenne pondérée, une moyenne géométrique et une moyenne harmonisée.
- Je sais comparer les différentes moyennes citées ci-dessus.

## Mesure de variabilité
La mesure des tendances centrales doit être accompagnée d'une mesure de variabilité. Celle-ci exprime comment les données s'étendent les uns par rapport aux autres. Nous on va s'intéresser principalement à :
- Variance
- Standard deviation : écart-type
- Skewness : asymétrie
- Percentiles : quantiles
- Ranges

### Variance
Définition : la variation mesure la dispersion des données par rapport à la moyenne.
**Note** : en soit, elle a pas d'importance.
Formule de la variance (s²) :
![image.png](attachment:image.png)

avec x, l'ensemble des variables et xi une valeur de x, n l'effectif total.
Le principe est de retrancher à chaque xi la moyenne de x et de sommer ces soustractions. Ensuite, on calcule la division de la somme par (n-1). On calcule alors la moyenne des écarts à la moyenne. La variance nous donne ainsi une indication sur la dispersion des données. Dans ce cas, on peut comparer deux jeux de données et étudier leur variance pour savoir quel groupe est plus homogène qu'un autre, par rapport à la moyenne.On utilise "n - 1" lorsqu'on calcule la variance sur un échantillon.

En savoir plus sur la formule : https://en.wikipedia.org/wiki/Bessel%27s_correction

**On commence par calculer la variance sur un échantillon**:

In [17]:
## Calculer la variance en python pure :
## on commence par calculer la moyenne :
m_ = sum(x) / len(x)
## ensuite, pour chaque x, on retranche la moyenne :
res = sum([ (xi - m_)**2 for xi in x ]) / (len(x) - 1)

res

123.19999999999999

In [19]:
## avec les packages :
## statistics :
v_ = statistics.variance(x)
print(v_)

## faciliter le calcul de statistics.variance en lui indiquant la moyenne

123.2


In [20]:
## mais si on a des nan_values :
statistics.variance(x_with_nan) ## return nan

nan

In [21]:
## numpy permet d'avoir plus de précision
## on peut lui indiquer le degré de liberté (ddl) :
numpy.var(x, ddof=1) ## ddof : ddl, 1 pour / n - 1 !

123.19999999999999

In [23]:
## Pour ne pas tenir compte des nan :
numpy.nanvar(y_with_nan, ddof=1)

123.19999999999999

In [27]:
## pandas peut également calculer la variance :
z.var(ddof=1) ## ici ddof est optionnel. Par défaut == 1.

123.19999999999999

**Puis on calcule la variance sur la population totale**

In [30]:
## Exemples 
## - avec statistics :
statistics.pvariance(x)

## - avec numpy :
numpy.var(x, ddof=0)

98.55999999999999

### Standard deviation
L'écart-type (std) est complémentaire à la variance. On utilise plus souvent l'écarte-type que la variance, d'une part il correspond à la racine carrée de la variance, d'autre part, il est dans la même unité que les données pris en paramètres. Il est donc plus simple à interpréter. Dans un premier temps, on va calculer la std sur un échantillon.

In [38]:
## On peut calculer en pure python :
v_ ** 0.5 ## puissance 0.5 revient à mettre à la racine carrée,
## attendu :11.10

## sinon on peut utiliser statistics:
statistics.stdev(x) ## attendu :11.10

## Numpy :
numpy.std(y, ddof=1) ## attendu :11.10

11.099549540409285

On peut voir que la logique de statistics est appliquée à toutes les méthodes de son package. Et aussi, numpy demande le ddof. Par défaut, son ddof n'est pas égale à 1, à l'inverse de statistics. Le paramètre **ddof** indique le degré de liberté. On vient de calculer la std pour une liste de valeur non null. Dans le cas des valeurs nulles des **fonctions dédiées sont implémentées en Numpy et statistics**. Les fonctions abordées ici sont dédiées aux échantillons. Il existe des fonctions dédiées aux populations complètes en statistics, numpy et pandas.

![image.png](attachment:image.png)

**Note** : on voit peu de référence à Pandas dans le calcul de statistiques. Préférer Numpy dans ce cas, en attendant d'en savoir plus.

### Skewness
C'est une mesure de l'asymétrie. Concerne la distribution. Ci-dessous, la formule et quelques explications :
![image.png](attachment:image.png)

Graphiquement, on peut proposer cette représentation de l'asymétrie :
![image-2.png](attachment:image-2.png)

On voit que la médiane et la moyenne ne sont ni proches, ni confondues. Dans ce cas, on peut parler d'asymétrie.
Le skewness nous permet de conclure sur la forme de la distribution, plus précisement, par où elle est étirée (sk = skewness):
- sk < 0 : la queue de la distribution est à gauche.
- sk > 0 : la queue de la distribution est à droite.
- sk == 0 : symétrie de la distribution.
Evidemment, il n'existe pas souvent de cas parfait où sk == 0. Dans ce cas, on ne peut que "comparer" les sk des différentes transformations. Pour voir les différentes transformations des distributions possibles, au moins en géographie, alors sur le [site de Vincent Godard](http://www.ipt.univ-paris8.fr/vgodard/enseigne/dea/memodea/mem01mas.htm).

In [53]:
## Calculer le skewness en python pure :  Σᵢ(𝑥ᵢ − mean(𝑥))³ 𝑛 / ((𝑛 − 1)(𝑛 − 2)𝑠³)
x = [8.0, 1, 2.5, 4, 28.0]

## n : le nombre d'élément de l'échantillon/population :
n = len(x)

## et s le std :
m_ = sum(x) / len(x) ## la moyenne
## ensuite, pour chaque x, on retranche la moyenne :
var_ = sum( (xi - m_)**2 for xi in x ) / (len(x) - 1) ## calcul sur un échantillon !

std_ = var_ ** 0.5

ee = sum( (elt - m_)**3 for elt in x )
res = (ee * n) / ((n - 1) * (n - 2) * std_**3)
print(round(res, 2))

1.95


In [56]:
## Avec scipy :
y, y_with_nan = numpy.array(x), numpy.array(x_with_nan)
scipy.stats.skew(y, bias=False)
scipy.stats.skew(y_with_nan, bias=False)

nan

le paramètre **bias** gère les biais. Il prend ici False pour corriger les biais.  
La méthode scipy.stats.skew() prend auss un paramètre **nan_policy** qui permet de gérer les NAN.

### Percentiles : quantiles

### Ranges