# Objectifs

Les objectifs de la lecon sont les suivants:
* Enoncer H0 et H1 pour chaque test
* Calculer en Python les p-valeurs
* Interpréter les résultats

# Importer les librairies

In [None]:
import pandas as pd
from scipy import stats

# Data
from sklearn import datasets

# Visualisation
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Loader les données
iris = datasets.load_iris()

# Obtenir les features
features = pd.DataFrame(
    data=iris.data,
    columns=iris.feature_names
)
# Obtenir la target
target = pd.DataFrame(
    data=iris.target,
    columns=["species"]
)
def target_converter(sp):
    """Apply strings to integers for the targets."""
    if sp == 0:
        return "setosa"
    elif sp == 1:
        return "versicolor"
    else:
        return "virginica"
target["species"] = target["species"].apply(target_converter)

# Concaténer les features et la target dans une meme dataframe
data = pd.concat([features, target], axis=1)

data

In [None]:
# Split les data
setosa = data[data["species"] == "setosa"]
versicolor = data[data["species"] == "versicolor"]
virginica = data[data["species"] == "virginica"]

# EDA rapide

In [None]:
# Quelques statistiques
print("Setosa:")
display(setosa.describe())

print("Versicolor:")
display(versicolor.describe())

print("Virginica:")
display(virginica.describe())

In [None]:
# Quelques visualisations
for col in data.drop(columns=["species"]):
    sns.displot(
        data=data,
        x=col,
        hue="species",
        kind="kde"
    )
    plt.show()

# Two-sample t-test

Rappel de la formule pour calculer la statistique t pour 2 échantillons:
$$ t = \frac{(\bar{X_1} - \bar{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{s_{1}^2}{n_1} + \frac{s_{2}^2}{n_2}}} $$
et les *degrés de libertés* de la loi $t$ de Student sont le plus petit de $n_{1}-1$ et $n_{2}-1$ 

La fonction [`stats.ttest_ind`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html) de SciPy permet de faire ce t-test de façon automatique en une ligne.

## Hypothèse 1: La longueur de sépale moyenne de la versicolor est égale à la longueur de sépale moyenne de la virginica

$H_0: \mu_{\text{longueur_moyenne_sepale_versicolor}} = \mu_{\text{longueur_moyenne_sepale_virginica}}$, $H_1: \mu_{\text{longueur_moyenne_sepale_versicolor}} \ne \mu_{\text{longueur_moyenne_sepale_virginica}}$

In [None]:
# On set le seuil
alpha = 0.05

# On calcule la statistique t et la p-valeur
t, p_valeur = stats.ttest_ind(
    versicolor["sepal length (cm)"],
    virginica["sepal length (cm)"],
    alternative="two-sided",
    equal_var=False
)

print("La statistique t est de : " + str(t))
print("La p-valeur associée est de : " + str(p_valeur))

# Si p-valeur < alpha, on rejète l'hypothèse nulle
if p_valeur < alpha:
    print("Avec un seuil alpha", str(alpha), "on rejète l'hypothèse nulle.")
    
# Si p-valeur > alpha, on ne rejète pas l'hypothèse nulle
else:
    print("Avec un seuil alpha", str(alpha), "on ne rejète pas l'hypothèse nulle.")

## Hypothèse 2: La largeur de sépale moyenne de la versicolor est égale à la largeur de sépale moyenne de la virginica

$H_0: \mu_{\text{largeur_moyenne_sepale_versicolor}} = \mu_{\text{largeur_moyenne_sepale_virginica}}$, $H_1: \mu_{\text{largeur_moyenne_sepale_versicolor}} \ne \mu_{\text{largeur_moyenne_sepale_virginica}}$

In [None]:
# On set le seuil
alpha = 0.05

# On calcule la statistique t et la p-valeur
t, p_valeur = stats.ttest_ind(
    versicolor["sepal width (cm)"],
    virginica["sepal width (cm)"],
    alternative="two-sided",
    equal_var=False
)

print("La statistique t est de : " + str(t))
print("La p-valeur associée est de : " + str(p_valeur))

# Si p-valeur < alpha, on rejète l'hypothèse nulle
if p_valeur < alpha:
    print("Avec un seuil alpha", str(alpha), "on rejète l'hypothèse nulle.")
    
# Si p-valeur > alpha, on ne rejète pas l'hypothèse nulle
else:
    print("Avec un seuil alpha", str(alpha), "on ne rejète pas l'hypothèse nulle.")