# <center> <h1> Titre </h1> </center>

<img src="./images/example.png" width="200">

# Quand doit-on échantillonner ?

## A/ Impossible d'utiliser toutes les données

Il est parfois impossible ou trop coûteux d'utiliser toutes les données.

__Données difficile à rassembler__
Les données ne sont pas toujours toutes disponibles : 
* certaines sont détruites régulièrement ;
* d'autres sont inexistantes.

__Traitements trop coûteux__
Il est parfois très coûteux en temps et/ou en argent :
* de les traiter toutes ensembles ;
* de les récupérer (stockage décentralisé, formats hétérogènes).

Dans tous ces cas il peut être utile de procéder à un échantillonnage pour réduire le coût de récupération et de traitement des données.

<img src="./images/warning.png" width="100">
Lorsque l'on peut travailler sur toutes les données c'est toujours mieux !

## B/ Améliorer les performances

Dans certains cas l'échantillonnage est une technique qui peut être répéter pour :
* améliorer les performances d'un algorithme de machine learning : bootstraping ;
* vérifier la stabilité d'un modèle et éventuellemnt en réduire la variance.

## Limites

# Comment échantillonner ?

## A/ L'aléa au coeur de l'échantillonnage

Le principe général est de procéder de manière la plus aléatoire possible. Ceci vient du fait que l'aléatoire pur permet d'éviter les biais. C'est donc une condition essentielle pour que l'échantillon soit représentatif de l'ensemble des données.

__Les quotas__

On __choisit__ des individus dans une liste en fonction de leurs caractéristiques pour coller aux caractéristiques principales de l'ensemble des données (population générale).

Cette méthode introduit plusieurs biais :
* les mêmes personnes sont souvent interrogées (il est moins chers d'interroger des meilleurs répondants) ;
* souvent peu d'individus représentent toutes leur catégorie.

La méthode des quotas présente égakement l'incovénient d'empêcher de calculer sérieuseument les erreurs que l'on va avoir sur les résultats.

__Le tirage aléatiore pur__

Cette méthode est la plus simple et permet une bonne représentation non biaisée de l'ensemble des données, à condition d'avoir un échantillon de taille suffisante.

Dans la suite nous verrons comment calculer la taille de l'échantillon.

_TODO : ajouter l'illustration_

__L'échantillonnage par strat__

On réalise un tirage aléatoire au sein de chaque strat en proportion de la strat dans la population total (i.e dans l'ensemble des données).

Les strates doivent constituer une partition des données. C'est-à-dire que chaque individu à appartient à une et une seule strate.

Cette méthode est meilleure qu'un tirage aléatoire simple (au sens de la variance de la variable observée) si la variance intra-strate est faible.

_TODO : ajouter la formule + illustration_

Cette méthode nécessite d'avoir un minimum d'information sur l'ensemble des données pour pouvoir réaliser le partitionnement.

__L'échantillonnage par grappe__

L'échantillonnage par grappe consiste à réaliser un tirage aléatoire de groupes d'individus et de retenir dans l'échantillon tous les individus des groupes échantillonnés.

Cette méthode est moins bonne mais a l'avantage parfois d'être très économique.

TODO : ajouter une illustration

__Le principe du boostrap__

_Problème_

Dans l'idéal on souhaite tirer un grand nombre d'échantillons pour :
* estimer un intervalle de confiance de manière empirique ;
* vérifier la stabilité de résultats ;
* améliorer des algorithmes en utilisant la technique du bagging (sous certaines conditions), comme dans le random forest.

Le problème est qu'il est parfois coûteux voire impossible de tirer plusieurs échantillons.

_Solution_

La solution est de tirer des échantillons, dits bootstrappés, à partir de l'échantillon de départ et non dans l'ensemble des données.

Le bootstrap s'effectue en trois étapes : 
* d'abord on tire $m$ échantillons de même taille $n$ que l'échantillon initial. Les tirages se font avec remises car sinon on obtient $m$ fois le même échantillon ;
* ensuite on calcule les résultats sur chacun des sous échantillons ;
* enfin on aggrège les résultats (en utilisant la moyenne ou la majorité des résultats dans le cas d'une classification).

#### Exemple du calcul d'un intervalle de confiance autour d'une moyenne

In [309]:
import numpy as np
mean = 0
var = 1
sample_size = 1000
sample = np.random.normal(mean, var, size=sample_size)

In [310]:
def bootstrap_mean(sample, boot_size = 1000):
    n = len(sample)
    mean_boot = []
    for ii in range(boot_size) :
        sample_boot = np.random.choice(sample, n, replace=True)
        mean_boot.append(np.mean(sample_boot))
    return mean_boot

In [311]:
boot_mean = bootstrap_mean(sample, boot_size = 5000)

In [313]:
np.mean(sample)

-0.0029865712001975525

In [314]:
np.quantile(boot_mean, q=[0.025,0.975])

array([-0.064094  ,  0.05952682])

# Pratique

##### Imports

In [2]:
get_ipython().magic(u'matplotlib inline')
%run -i ./utils/credentials.py
%run -i ./utils/imports.py
%run -i ./utils/plots.py
%run -i ./utils/stats.py

<center> <h1>Take away</h1> </center>

<img src="./images/coffee.png" width="200">


__Expresso__ : 

* point 1
* point 2

__Sugar Story__ :

* point 1
* point 2

# Get more on my github <img src="./images/github.png" width="100">
https://github.com/JohanJublancPerso/datascience_statistics_tools