# Longueur des poissons d'un lac

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

## Le dataset
#### On a pesé tous les poissons d'un lac. Il y a 10000 poissons dans le lac : 60% de perches et 40% de brochets.

In [None]:
# Générer un dataset aléatoire de mesures de longueurs de poissons

data1 = np.random.normal(30, 7, 6000)  # perches
data2 = np.random.normal(75, 15, 4000) # brochets
data = np.concatenate((data1,data2))
plt.figure(figsize=(15,8))
plt.hist(data, bins=100, density=True, alpha=0.7, color='b')
plt.show()

## Les grandeurs statistiques de la population totale

In [None]:
N = len(data)            # N la taille de la population totale
mean_tot = data.mean()   # mean_pop la moyenne de la population totale
std_tot = data.std()     # std_pop l'écart-type de la population totale

print(f'Taille de la population : N = {N}\nMoyenne de la population : mean_tot = {round(mean_tot,2)}cm\nEcart-type de la population : std_tot = {round(std_tot,2)}cm')

## On mesure la taille d'un échantillon aléatoire de taille n = 500

In [None]:
n = 500
sample = np.random.choice(data, n, replace=True)
plt.figure(figsize=(15,8))
plt.hist(sample, bins=50, density=True, alpha=0.7, color='b')
plt.show()

In [None]:
mean_sample_500 = sample.mean()  # mean_sample_500 la moyenne de l'échantillon
std_sample_500 = sample.std()    # std_sample_500 l'écart-type de l'échantillon

print(f'Taille de la population : n = {n}\nMoyenne de la population : mean_sample_500 = {round(mean_sample_500,2)}cm\nEcart-type de la population : std_sample_500 = {round(std_sample_500,2)}cm')

#### Si on n'avait pas les données de la population totale, on pourrait donner la valeur moyenne des poissons estimée à partir de l'échantillon précédent en donnant une incertitude à l'aide de l'erreur standard : $ste = \frac{std}{\sqrt N}$.

In [None]:
ste_sample_500 = std_sample_500/N**.5

print(f'La longueur moyenne des poissons pour la population totale est de {round(mean_sample_500, 2)}cm +- {round(ste_sample_500, 2)}cm avec un intervalle de confiance de 68%')
print(f'La longueur moyenne des poissons pour la population totale est de {round(mean_sample_500, 2)}cm +- {round(ste_sample_500*2, 2)}cm avec un intervalle de confiance de 95%')
print(f'La longueur moyenne des poissons pour la population totale est de {round(mean_sample_500, 2)}cm +- {round(ste_sample_500*3, 2)}cm avec un intervalle de confiance de 99,7%')
print(f'La moyenne réelle est de {round(mean_tot,2)}cm')

## On refait la même chose pour un échantillon de taille 50

In [None]:
n = 50
sample = np.random.choice(data, n, replace=True)
plt.figure(figsize=(15,8))
plt.hist(sample, bins=15, density=True, alpha=0.7, color='b')
plt.show()

In [None]:
n = 50
mean_sample_50 = sample.mean()
std_sample_50 = sample.std()
ste_sample_50 = std_sample_50/n**.5

print(f'La longueur moyenne des poissons pour la population totale est de {round(mean_sample_50,2)}cm +- {round(ste_sample_50,2)}cm avec un intervalle de confiance de 68%')
print(f'La longueur moyenne des poissons pour la population totale est de {round(mean_sample_50,2)}cm +- {round(ste_sample_50*2,2)}cm avec un intervalle de confiance de 95%')
print(f'La longueur moyenne des poissons pour la population totale est de {round(mean_sample_50,2)}cm +- {round(ste_sample_50*3,2)}cm avec un intervalle de confiance de 99,7%')
print(f'La moyenne réelle est de {round(mean_tot,2)}cm')

## Evolution de l'erreur standard en fonction de la taille de l'échantillon

In [None]:
sample_lens = np.arange(50, 500, 1)
ste_est, ste_sample = [], []
for i in sample_lens:
    sample = np.random.choice(data, i, replace=True)
    ste_sample.append(sample.std()/i**.5)
    means = []
    for y in range(1000):
        sample = np.random.choice(data, i, replace=True)
        means.append(sample.mean())
    ste_est.append(np.array(means).std())

In [None]:
plt.figure(figsize=(15,8), dpi=300)
plt.plot(sample_lens, ste_est, label='Est', linewidth=2)
plt.plot(sample_lens, ste_sample, label='Sample', linewidth=2)
plt.plot(sample_lens, std_tot/sample_lens**.5, label='fit', linewidth=2)
plt.xticks(np.arange(50, 500, 50))
plt.yticks(np.arange(1, 3.5, 0.25))
plt.xlabel('n')
plt.ylabel('ste (cm)')
plt.legend()
plt.grid()
plt.show()

In [None]:
std_Xplier = np.arange(0.01, 3, 0.01)

def Xplier_effect(a):
    list_s_mean, list_s_std, prob_distrib = [], [], []
    for i in range(5000):
        sample = np.random.choice(data, a, replace=True)
        list_s_mean.append(sample.mean())
        list_s_std.append(sample.std())
    list_s_ste = list(map(lambda x: x/np.sqrt(a), list_s_std))
    for i in std_Xplier:
        count = 0
        for j in range(len(list_s_mean)):
            if mean_tot <= (list_s_mean[j]+list_s_ste[j]*i) and mean_tot >= (list_s_mean[j]-list_s_ste[j]*i): count += 1
        prob_distrib.append((count/len(list_s_mean))*100)
    return prob_distrib

prob_distrib_n200 = Xplier_effect(200)
prob_distrib_n50 = Xplier_effect(50)
prob_distrib_n30 = Xplier_effect(30)
prob_distrib_n20 = Xplier_effect(20)
prob_distrib_n10 = Xplier_effect(10)
prob_distrib_n5 = Xplier_effect(5)
prob_distrib_n3 = Xplier_effect(3)

In [None]:
plt.figure(figsize = (15,8))
plt.plot(np.array(std_Xplier), np.array(prob_distrib_n200), label = 'n200')
plt.plot(np.array(std_Xplier), np.array(prob_distrib_n50), label = 'n50')
plt.plot(np.array(std_Xplier), np.array(prob_distrib_n30), label = 'n30')
plt.plot(np.array(std_Xplier), np.array(prob_distrib_n20), label = 'n20')
plt.plot(np.array(std_Xplier), np.array(prob_distrib_n10), label = 'n10')
plt.plot(np.array(std_Xplier), np.array(prob_distrib_n5), label = 'n5')
plt.plot(np.array(std_Xplier), np.array(prob_distrib_n3), label = 'n3')
plt.plot([0,3], [95,95], label = 'alpha = 0.95', c = 'black', linestyle = 'dotted')
plt.plot([0,3], [66,66], label = 'alpha = 0.66', c = 'black', linestyle = 'dotted')
plt.title('\nEstimated confidence intervals using different STD multipliers (10000 simulations)\n', fontsize=15)
plt.xlabel('STD * Xplier', fontsize=12)
plt.ylabel('%age of values found in the interval', fontsize=12)
plt.legend(fontsize=12)
plt.show()

In [None]:
f"Taille moyenne d'une perche : {data1.mean()}cm, L'écart type : {data1.std()}cm, L'erreur standard : {data1.std() / np.sqrt(len(data1))}cm"

# La p-value

La P-value (valeur P, en français) permet de connaitre la densité de probabilité en fonction de la population.

**Process**: Validant ou invalidant l'hypothèse nulle. 

Nous allons maintenant pêcher 100 perches dans le lac de tchernobyl pour prouver que les perches qui vivent dans un lac irradié n'ont pas la même taille que les perches pechés dans de l'eau non irradiée.

**Hypothèse nulle**: Les radiations dans l'eau n'influent pas sur la taille des perches.

**H0 est vérifié si :**
- La moyenne doit être de **30,14cm**
- L'écart type doit être de **7cm**
- L'erreur standard doit être de **0.09cm**

On génère aléatoirement 100 perches pêchés dans le lac de tchernobyl

In [None]:
data_tche = np.random.normal(45, 25, 1000)
plt.hist(data_tche)
tche_mean = data_tche.mean()
tche_mean

In [None]:
ste_tche = data_tche.std() / np.sqrt(len(data_tche))

f"Erreur standart : {ste_tche}"

In [None]:
N = len(data_tche)
moy = data_tche.mean()
num_bins = 100
plt.figure(figsize=(15,10))
x = np.linspace((data1.min() + 1), (data1.max() + 1), 100)

b = np.sin(x)
bin_width = (data1.max() - data1.min()) / num_bins
p = norm.cdf(x, data1.mean(), data1.std())#* N * bin_width
p2 = norm.cdf(x, data_tche.mean(), data_tche.std() / np.sqrt(100))


plt.plot(x, p, 'k', linewidth=3, label='Population total', color="red")
plt.plot(x, p2, 'k', linewidth=3, label='Population tchernobyl', color="blue")
plt.axvline(x=tche_mean, label="Moyenne tchernobyl", linestyle='dashed', color="blue")
plt.legend(fontsize=15)
plt.show()

In [None]:
p = norm.cdf(tche_mean, data1.mean(), data1.std())

In [None]:
f'p-value = {round(((1 - p)*2)*100,2)}%'

# Probabilité cumulée

Permet de connaitre la probabilité que des perches soient comprises entre des valeurs définies.

- On connait la valeur d'un écart type
- On connait la règle des 68 - 95 - 99,7
- Donc on sait définir la probabilité sur la population choisie

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Standard_deviation_diagram.svg/1920px-Standard_deviation_diagram.svg.png" width="50%" height="auto" />

1. Nous récupérons le dataset des perche (data1) puis on l'affiche sous forme de graphique pour vérifier que nous sommes sur une représentation de la courbe de Gauss

2. Nous visualisons également la ligne des 40 cm. Notre réponse est l'aire sous la courbe à droite de cette ligne.

In [None]:
N = len(data1)
moy = data1.mean()
num_bins = 100
plt.figure(figsize=(15,10))
x = np.linspace((data1.min() + 1), (data1.max() + 1), 100)

b = np.sin(x)
bin_width = (data1.max() - data1.min()) / num_bins
p = norm.pdf(x, data1.mean(), data1.std())#* N * bin_width
plt.plot(x, p, 'k', linewidth=3)
plt.axvline(x=40, linewidth=7, color="blue")
plt.axvline(x=moy, linewidth=1, color="black", label=f"µ: {np.round(moy, 2)} ", linestyle="dashed")
plt.fill_between(x, p, 0, where = (x >= 40), color='blue', label="Nombre de poissons > 40cm", alpha=.5)
plt.legend(fontsize=15)
plt.show()

Dans l'objectif d'avoir quelque chose de plus lisible et pouvoir faire une première estimation (non précise), nous allons réaliser un graph de probabilité cumulée.

In [None]:
plt.figure(figsize=(15,10))
bin_width = (data1.max() - data1.min()) / num_bins
p = norm.cdf(x, data1.mean(), data1.std()) #* N * bin_width
plt.plot(x, p, 'k')
plt.axvline(x=40, linewidth=7, color='blue')
plt.axvline(x=moy, linewidth=1, color="black", label=f"µ: {np.round(moy, 2)} ", linestyle="dashed")
plt.fill_between(x, p, 1, where = (x >= 40), color='blue', label="% Poissons > 40cm (p)", alpha=.5)
plt.legend(fontsize=15)
plt.show()

In [None]:
np.round((40-data1.mean())/data1.std(), 2)

On récupère la moyenne et les écarts types pour savoir à combien d'écart type se trouve la valeur 40 par rapport à la moyenne.

In [None]:
pmin = norm(data1.mean(), data1.std()).cdf(40)
f'{np.round(pmin*100, 2)}% des poissons font moins de 40cm de long'

In [None]:
f'{np.round((1-pmin)*100, 2)}% des poisson ont une taille > 40cm'