# Les fondamentaux de la statistiques avec Python

L'apprentissage est basé sur le cours : https://realpython.com/python-statistics/

## Motivations
Présence de plus en plus importante des données dans le quotidien. Il devient essentiel de savoir, à minima, les décrire, les résumer et les représenter. Python propose ses propres fonctionnalités pour faire des statistiques.

## Objectifs 
- Quels indicateurs statistiques utiliser ?
- Comment décrire des quantités ?
- Etude de variables quantitatives.

## Comprendre les statistiques descriptives
Les statistiques descriptives ont deux objectifs :
- décrire les données quantitativement,
- représenter graphiquement les données pour faire de l'analyse visuelle (tendances visibles, permet de faire des suppositions).

### Type de mesures
- Les indicateurs de tendances centrales (indicateurs de position) : moyenne, médiane, min, max.
- Les indicateurs de variabilité : variance, écart-type.
- Corrélation ou variabilité jointe : coefficient de [corrélation](https://realpython.com/numpy-scipy-pandas-correlation-python/), co-variance. On s'intéresse à deux variables en même temps :quel est le comportement de l'une par rapport à l'autre ?

On réalise des études sur des échantillons. Un échantillon est une "partie" de la population totale qu'on étudie. L'échantillon **doit garder les caractéristiques statistiques de sa population d'origine**.

### Les outliers
Il n'y a pas de définition précise des outliers. Les outliers sont des valeurs qui sont très extrêmes par rapport au reste de la distribution. Les outliers peuvent avoir pluiseurs origines : erreur de saisie, erreur de calcul, méthode de calcul etc. Le comportement qu'on peut avoir avec ces données va varier en fonction des besoins et de l'expérience. Dans certains cas, les outliers sont des variations naturelles de la donnée.

## Choisir les modules python pour travailler
Il en existe de nombreux. Parmi les plus connus :
- le core de python : statistics. Mais pas très performant.
- NumPy : très utilisé et très performant. Il répond à la plupart des besoins. La structure de donnée associée est le ndarray. NumPy contient des **routines statistiques**. Numpy possède des concepts qui lui sont propres mais qui sont reprises par d'autre module. Numpy est interopérable, on peut le faire passer dans d'autres structrues de données Python. [Ici un lien vers les concepts numpy](https://numpy.org/doc/stable/reference/)
- [SciPy](https://realpython.com/python-scipy-cluster-optimize/) : basé sur NumPy, il en constitue une extension quasiment. Il permet d'optimiser les traitements de NumPy.
- Des modules de représentation (matplotlib) et de manipulation (pandas/geopandas) de données, mais ils sont très sommaires !

![image.png](attachment:image.png)

## Avant de commencer, quelques points importants ...
Comme ce sont des statistiques, il faut aussi représenter les données, les manipuler etc. Le site offre des liens vers des formations gratuites, des tutos etc.
- Tutoriel pour regarder l'anatomie de matplotlib : https://github.com/matplotlib/AnatomyOfMatplotlibs
- Retourner sur le site pour la suite des formations ...

En somme, il faut savoir au moins : représenter des données, les manipuler et avoir des notions de base en statistiques.

## Calculer des statistiques descriptives

### Importer les modules

In [9]:
## Traitement
import math
import statistics
import numpy
import scipy.stats

## Manipulation de données
import pandas

In [2]:
## Créer des données fictives pour s'entraîner :
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

In [3]:
x

[8.0, 1, 2.5, 4, 28.0]

In [4]:
x_with_nan

[8.0, 1, 2.5, nan, 4, 28.0]

On a deux liste de données. Sensiblement pareil. On a des NAN pour bien comprendre qu'il existe des comportements particuliers dans les routines Python.

In [None]:
## Pour créer des NAN :
numpy.nan ; float("nan") ; math.nan ## les trois sont équivalents
## NAN == NAN = False

In [10]:
## Mtn, avec chacun des objets créées précédemment, on va crée une serie et un ndarray :
y, y_with_nan = numpy.array(x), numpy.array(x_with_nan)
z, z_with_nan = pandas.Series(x), pandas.Series(x_with_nan)

### Mesure des tendances centrales
Il existe plusieurs mesures centrales dans une distribution. Elles sont centrales en fonction de la distribution. Nous on va voir :
- la moyenne,
- la moyenne pondérée,
- la moyenne géométrique,
- la moyenne harmonisée,
- la médiane,
- le mode

#### La moyenne arithmétique

In [13]:
## en numpy :
numpy.nanmean(y_with_nan) ## permet de ne pas tenir compte des NA.
## Là on voit qu'on tient pas compte de ces NA mais on ne les supprime pas du dataset.
numpy.mean(y)

8.7

#### La moyenne pondérée 
Permet de tenir compte du poids de chaque individu dans le résultat final. Le poids est la part que représente la variable. Par exemple, si on avait : 30% de 4, 2% de 10, 60% de 5 et 8% de 7, on calculerait alors :

In [14]:
4 * 0.3 + 10 * 0.02 + 5 * 0.6 + 0.08 * 7

4.960000000000001

In [16]:
## Manuellement ça pourrait prendre beaucoup de temps.
## Numpy implémente ce genre de calcul :
x = [8.0, 1, 2.5, 4, 28.0]
w = [0.1, 0.2, 0.3, 0.25, 0.15]
y, z, w = numpy.array(x), pandas.Series(x), numpy.array(w)
wmean = numpy.average(y, weights=w)
wmean

## Son équivalent :
wmean = numpy.average(z, weights=w)
wmean

6.95

#### La moyenne harmonisée
C'est une moyenne où on divise le nombre d'items n par la somme des inverses des items. Autrement dit :
n / somme ( 1 / xi ), avec xi un item de X.

In [18]:
## En python :
hmean = len(x) / sum(1 / item for item in x)
hmean

2.7613412228796843

In [19]:
## Avec statistics :
hmean = statistics.harmonic_mean(x)
hmean

2.7613412228796843

Cette méthode implique plusieurs résultats, selon le contenu :
- Si au moins un NAN => retourne un NAN,
- Si au moins un 0 => retourne 0,
- S'il y a au moins une valeur négative => retourne une erreur

In [20]:
## On peut également utiliser scipy :
scipy.stats.hmean(x) ## même condition que pour statistics.harmonic_mean()

2.7613412228796843

#### Moyenne géométrique
Correspond à la n-ième racine du produit de tous les n éléments xi du dataset x.

Comparaison des résultats des différentes moyennes :

![image.png](attachment:image.png)

In [21]:
## implémentation :
statistics.geometric_mean(x)

4.67788567485604

### A la fin de cette partie, je sais
- définir les différents paramètres de position,
- calculer une moyenne, une moyenne pondérée, une moyenne géométrique et une moyenne harmonisée.
- Je sais comparer les différentes moyennes citées ci-dessus.

## Mesure de variabilité