# Statistique et vocabulaire en Data Science 


## Introduction 
La statistique est une branche des mathématiques qui consiste à étudier des phénomènes par la collecte de données, leur traitement, leur analyse, l'interprétation des résultats et leur présentation afin de rendre les données compréhensibles par tous. C'est à la fois une science, une méthode et un ensemble de techniques.

Elle possède une composante théorique ainsi qu'une composante appliquée. La composante théorique s'appuie sur la théorie des probabilités et forme avec cette dernière, les sciences de l'aléatoire. La statistique appliquée est utilisée dans presque tous les domaines de l'activité humaine : ingénierie, management, économie, biologie, informatique, etc. 

**« Parmi les thèmes à propos desquels les statisticiens ne sont pas d'accord, se trouve la définition de leur science.»**
, *Maurice Kendall* 



## Vocabulaire 

Avant de se lancer directement dans l’exploitation des résultats, nous devons fixer quelques mots de vocabulaire. En effet, nous allons avoir beaucoup d’informations et plusieurs types de variables. Il est donc nécessaire de bien formaliser tout ceci au début.

Ensemble des techniques du statisticien pour décrire, numériquement, les populations.

#### La population et les individus  
La population est l’ensemble des individus (ou unités statistiques) auxquels on décide de sintériser. Sa taille, habituellement désignée par N, est grande, ou même infinie. Le choix de la population étudiée dépend du problème qui est à l’origine de la démarche statistique, et de la façon dont on décide de le traiter.

#### Univers des possibles  
L’univers des possibles est un ensemble d’événements futurs, possibles, mais dont la réalisation ne peut pas être prédite, associés à une action appelée épreuve. L’épreuve est aléatoire quand la vraisemblance de la réalisation de chacun des événements futurs possibles associés peut être exprimée par un nombre appelé probabilité. 
Cette épreuve doit alors nécessairement pouvoir être répétée à l’identique. Alors, quand le nombre de répétitions à l’identique tend vers l’infini, la fréquence de réalisation d’un événement tend vers sa probabilité.
On ne peut donc jamais mesurer une probabilité, seulement la calculer, ou l’estimer.

In [2]:
from IPython.display import Math

#### Fréquence  
Rapport d’un effectif particulier d’individus à la taille de la population. (Excel confond parfois fréquence et effectif).

#### Statistique (ou paramètre statistique)  
Tout nombre, calculé à propos d’une population, et qui contribue à décrire un aspect de cette population, est une statistique. Fréquences, médianes, quartiles, déciles, moyennes, variances, etc. sont des statistiques.

#### Les variables 
Une variable est une information dont on recueille (ou observe ou mesure) la valeur sur chaque individu. On parle de variable parce que la valeur de l’information n’est pas la même d’un individu à l’autre. C’est à partir des valeurs observées que le statisticien construit ses classements d’individus. Il existe deux types de variables, les unes à valeurs numériques, et les autres à valeurs ordinales.
- Les variables **quantitatives**, qui sont des variables à valeurs numériques, pour lesquelles les opérations arithmétiques ont un sens. Par exemple, un âge, une distance, un volume, etc.
- Les variables **qualitatives**, où les valeurs possibles sont codées par des modalités (ou catégories). Par exemple, la couleur des yeux, le département, ou tout autre codage où les opérations arithmétiques ne sont pas correctement définies.

#### Médiane, quartiles,déciles, centiles (Seulement pour une variable ordinale ou quantitative)
Ce sont les valeurs de la variable qui correspondent respectivement à 50%, 25% 50% et 75%, 10% à 90%, 1% à 99% de l’effectif des individus rangés par valeurs croissantes.

#### Variance, et sa racine carrée, l’écart-type 
Seulement pour une variable quantitative. Indicateurs de la dispersion des valeurs des individus autour de la moyenne. La variance est la moyenne des carrés des écarts à la moyenne. L’écart-type est sa racine carrée. Ce sont des statistiques de dispersion.

In [9]:
Math(r"{\sigma(X_i)}=\frac1n\sum_{i=1}^n(x_i-m)^2") 

<IPython.core.display.Math object>

#### Loi de distribution de probabilités (d’une variable aléatoire uniquement) 
Cas particulier ou les probabilités sont calculées par une fonction mathématique des valeurs (exemples de la loi binomiale et de la loi de Gauss).

#### Corrélation 
Étudier la corrélation entre deux (X et Y) ou plusieurs variables aléatoires ou statistiques numériques, c’est étudier l'intensité de la liaison qui peut exister entre ces variables.
Le type le plus simple de liaison est la relation affine. Dans le cas de deux variables numériques, elle se calcule à travers une régression linéaire. 

In [4]:
Math(r"cor(X_i, X_j) = \frac{cov(X_i, Y_i)}{\sigma(X_i)\sigma(X_j)}") 

<IPython.core.display.Math object>

#### Espérance mathématique
En théorie des probabilités, l'espérance mathématique d'une variable aléatoire réelle est, intuitivement, la valeur que l'on s'attend à trouver, en moyenne, si l'on répète un grand nombre de fois la même expérience aléatoire. Elle se note pour une variable X : 

In [13]:
Math(r'\operatorname{E(X)}')

<IPython.core.display.Math object>

#### Covariance 
La covariance entre deux variables aléatoires est un nombre permettant de quantifier leurs écarts conjoints par rapport à leurs espérances respectives. Elle s’utilise également pour deux séries de données numériques (écarts par rapport aux moyennes). La covariance est une extension de la notion de variance. La corrélation est une forme normalisée de la covariance (la dimension de la covariance entre deux variables est le produit de leurs dimensions, alors que la corrélation est une grandeur adimensionnelle). *La covariance de deux variables aléatoires indépendantes est nulle, bien que la réciproque ne soit pas toujours vraie.*

In [14]:
Math(r'\operatorname{Cov}(X,Y)\equiv \operatorname{E}[(X-\operatorname{E}[X])\,(Y-\operatorname{E}[Y])]')

<IPython.core.display.Math object>

#### Intervalle de confiance (I.C.) et niveau de confiance a)  
Intervalle de valeurs d’une variable quantitative dont la probabilité (niveau de confiance, a) est forte (par exemple 95%). L’intervalle est "Bilatéral" s’il est symétrique (les probabilités des intervalles à gauche et à droite de l’I.C. sont égales à a/2), "unilatéral" s’il est "cadré" à gauche ou à droite de l’étendue des valeurs.

#### Prévision  
Information concernant le futur. En statistique, ordre de grandeur pour la valeur future, donc inconnue, d’une statistique d’échantillon aléatoire, calculée à partir de valeurs statistiques connues de la population dont il est extrait.

#### Test statistique 
Procédure pour juger de la vraisemblance de la valeur d’une statistique hypothétique d’une population. On compare la valeur observée pour une statistique d’échantillon au hasard dans cette population, à celles attendues en supposant l’hypothèse vraie. On juge l’hypothèse fausse, si l’écart observé est supérieur à un seuil, fixé en fonction d’un risque d’erreur.

## Pour aller plus loin 
Pour plus de détail *google it* ! Plus sérieusement vous pouvez consulter <https://fr.wikipedia.org>, généralement on y trouve de très bon éléments de vulgarisation. En ce qui concerne la statistique descriptive à une dimension vous pouvez aussi jeter un oeil au cours en ligne de Maxime <https://zestedesavoir.com/tutoriels/1669/statistique-descriptive-a-une-dimension/>. 

## Régression
La régression est un ensemble de méthodes statistiques très utilisées pour analyser la relation d'une variable par rapport à une ou plusieurs autres. Il existe beaucoup de modèles de régression, le modèle le plus connu est le modèle de régression linéaire, très pratique et implémenté dans tous les logiciels de calculs. 
**Lorsque le modèle n'est pas linéaire, on peut effectuer une régression approchée par des algorithmes itératifs, on parle de régression non linéaire.**

### Quelques modèles de régression 
- Régression linéaire multiple
- Régression polynomiale
- Régression logistique
- Modèle linéaire généralisé
- Régression non paramétrique
- Modèles de régression multiple postulés et non postulés
- Régression circulaire
- Régression elliptique
- Régression locale

### Exemple 
Voir Atelier3. 