# Projet 05 : Tests complémentaires

---

## <font color=blue>Sommaire</font>

[1. Tests complémentaires : 11 variables - 8 clusters](#1_0)   
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[1.1. Test de normalité](#1_1)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[1.2. Comparaison des clusters 2 et 3](#1_2)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[1.3. Comparaison des clusters 5 et 7](#1_3)  
  
[2. Curiosité : le test de Kolmogorov-Smirnov sur de petits échantillons](#2_0)  
  


**Importation des librairies et des données**

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import sf_classification_acp as sfca
import sf_stats_inferentielles as sfsi

In [2]:
v11c8 = pd.read_csv("11variables_8clusters.csv", index_col=0)

---

<a id="1_0"></a>

## <font color=blue>1. Tests complémentaires : 11 variables - 8 clusters</font>

<a id="1_1"></a>

### <font color=blue>1.1. Test de normalité</font>

Je cherche parmi mes 11 variables celles qui ont une distribution normale. Ma population est de 174 pays, soit moins de 5000 individus. Donc j'utilise le test de Shapiro.

In [3]:
data = v11c8.iloc[:,:-1]
for col in data.columns:
    data_continue = sfsi.OneSample(data[col])
    comment = data_continue.comment_test_normalite(alpha=0.05, short_comment=False)
    print("Variable {}\n{}\n".format(col, comment))

Variable croissance_population
Test de normalité de Shapiro-Wilk pour l'échantillon de taille 174.
La statistique testée est W = 0.839
La p_value 0.000 est inférieure à alpha 0.050. L'hypothèse que la distribution de l'échantillon suit une loi normale est rejetée avec un niveau de risque de 5.00%. Le test conclut que la distribution de l'échantillon ne suit pas une loi normale.

Variable food_proportion_animal_protein
Test de normalité de Shapiro-Wilk pour l'échantillon de taille 174.
La statistique testée est W = 0.959
La p_value 0.000 est inférieure à alpha 0.050. L'hypothèse que la distribution de l'échantillon suit une loi normale est rejetée avec un niveau de risque de 5.00%. Le test conclut que la distribution de l'échantillon ne suit pas une loi normale.

Variable food_protein_g_capita_day
Test de normalité de Shapiro-Wilk pour l'échantillon de taille 174.
La statistique testée est W = 0.982
La p_value 0.021 est inférieure à alpha 0.050. L'hypothèse que la distribution de l'écha

Aucune variable ne suit une distribution normale au niveau de test 5%. Je relance les tests au niveau de 2.5%.

In [4]:
for col in data.columns:
    data_continue = sfsi.OneSample(data[col])
    comment = data_continue.comment_test_normalite(alpha=0.025, short_comment=False)
    print("Variable {}\n{}\n".format(col, comment))

Variable croissance_population
Test de normalité de Shapiro-Wilk pour l'échantillon de taille 174.
La statistique testée est W = 0.839
La p_value 0.000 est inférieure à alpha 0.025. L'hypothèse que la distribution de l'échantillon suit une loi normale est rejetée avec un niveau de risque de 2.50%. Le test conclut que la distribution de l'échantillon ne suit pas une loi normale.

Variable food_proportion_animal_protein
Test de normalité de Shapiro-Wilk pour l'échantillon de taille 174.
La statistique testée est W = 0.959
La p_value 0.000 est inférieure à alpha 0.025. L'hypothèse que la distribution de l'échantillon suit une loi normale est rejetée avec un niveau de risque de 2.50%. Le test conclut que la distribution de l'échantillon ne suit pas une loi normale.

Variable food_protein_g_capita_day
Test de normalité de Shapiro-Wilk pour l'échantillon de taille 174.
La statistique testée est W = 0.982
La p_value 0.021 est inférieure à alpha 0.025. L'hypothèse que la distribution de l'écha

Avec un risque de première espèce fixé à apha=2.5%, l'hypothèse que la variable food_supply_kcal_capita_day suit une loi normale est acceptée. Cette variable impacte surtout le premier axe d'inertie. Je sélectionne les clusters que je vais comparer à la vue de leur similarité sur ce premier axe d'inertie.

<a id="1_2"></a>

### <font color=blue>1.2. Comparaison des clusters 2 et 3</font>

Je compare pour cette variable les échantillons des clusters 2 et 3, qui comportent deux groupes de pays développés.

In [5]:
x = v11c8[v11c8.cluster == 2].food_supply_kcal_capita_day
y = v11c8[v11c8.cluster == 3].food_supply_kcal_capita_day
data_comparaison = sfsi.TwoSamples(x,y)
comment = data_comparaison.comment_variance_ratio_fishertest()
print(comment)

Test F de Fisher pour comparer les variances de deux échantillons de taille 21 et 5.
On teste la statistique F = 0.27675429617122715 avec la loi de Fisher à 20 et 4 degrés de liberté.
Le ratio des deux variances est estimé à 0.27675429617122715 et est compris dans l'intervalle (0.032331323949649965, 0.9727069858872431) avec un niveau de confiance de 95.00%.
La p_value 0.045 est inférieure à alpha 0.050. L'hypothèse H0 que la variance de x est égale à la variance de y est rejetée avec un niveau de risque de 5.00%. Le test conclut que la variance de x est différente de la variance de y.


In [6]:
data_comparaison.change_var_equal(False)
comment = data_comparaison.comment_mean_difference_ttest()
print(comment)

Méthode = test t de Welch pour comparer les moyennes de deux échantillons avec des variances différentes.
On teste la statistique T = 1.2828520354001935 avec la loi de Student à 4.54 degrés de liberté.
La différence entre les moyennes de x et de y est estimée à 248.81904761904752 et est comprise dans l'intervalle (-265.32758973370875, 762.9656849718037) avec un niveau de confiance de 95.00%.
La p_value 0.261 est supérieure à alpha 0.050. L'hypothèse H0 que la moyenne de x est égale à la moyenne de y est acceptée au niveau de test de 5.00% (contre l'hypothèse alternative que la moyenne de x est différente de la moyenne de y).


Les variables food_supply_kcal_capita_day des clusters 2 et 3 ont une moyenne similaire mais une variance différente.

<a id="1_3"></a>

### <font color=blue>1.3. Comparaison des clusters 5 et 7</font>

La projection sur le premier plan factoriel montre également que les points des clusters 5 et 7 semblent assez proches. Effectuons les mêmes tests sur la même variable mais pour ces clusters 5 et 7.

In [7]:
x = v11c8[v11c8.cluster == 5].food_supply_kcal_capita_day
y = v11c8[v11c8.cluster == 7].food_supply_kcal_capita_day
data_comparaison = sfsi.TwoSamples(x,y)
comment = data_comparaison.comment_variance_ratio_fishertest()
print(comment)

Test F de Fisher pour comparer les variances de deux échantillons de taille 6 et 15.
On teste la statistique F = 0.6592016589795354 avec la loi de Fisher à 5 et 14 degrés de liberté.
Le ratio des deux variances est estimé à 0.6592016589795354 et est compris dans l'intervalle (0.17994144778510526, 4.255558773014904) avec un niveau de confiance de 95.00%.
La p_value 0.680 est supérieure à alpha 0.050. L'hypothèse H0 que la variance de x est égale à la variance de y est acceptée au niveau de test de 5.00% (contre l'hypothèse alternative que la variance de x est différente de la variance de y).


In [8]:
data_comparaison.change_var_equal(True)
comment = data_comparaison.comment_mean_difference_ttest()
print(comment)

Méthode = test t de student pour comparer les moyennes de deux échantillons avec la même variance.
On teste la statistique T = 4.812856829778862 avec la loi de Student à 19.00 degrés de liberté.
La différence entre les moyennes de x et de y est estimée à 437.2999999999997 et est comprise dans l'intervalle (247.12616949468057, 627.4738305053189) avec un niveau de confiance de 95.00%.
La p_value 0.000 est inférieure à alpha 0.050. L'hypothèse H0 que la moyenne de x est égale à la moyenne de y est rejetée avec un niveau de risque de 5.00%. Le test conclut que la moyenne de x est différente de la moyenne de y.


Pour les clusters 5 et 7, nous arrivons à la conclusion inverse : ils ont la même variance mais une moyenne différente.

---

<a id="2_0"></a>

## <font color=blue>2. Curiosité : le test de Kolmogorov-Smirnov sur de petits échantillons</font>

Par curiosité, je teste la normalité des variables avec le test de Kolmogorov-Smirnov.

In [9]:
for col in data.columns:
    data_continue = sfsi.OneSample(data[col])
    comment = data_continue.comment_test_loi_continue_ks(alpha=0.05, short_comment=False)
    print("Variable {}\n{}\n".format(col, comment))

Variable croissance_population
Test de Kolmogorov-Smirnov de la loi de distribution norm pour l'échantillon de taille 174.
ATTENTION, pour tester la normalité d'un échantillon de moins de 5000 individus, il est conseillé d'utiliser le test de Shapiro-Wilk.
La statistique testée est D = 0.112
La p_value 0.024 est inférieure à alpha 0.050. L'hypothèse que la distribution de l'échantillon suit une loi norm est rejetée avec un niveau de risque de 5.00%. Le test conclut que la distribution de l'échantillon ne suit pas une loi norm.

Variable food_proportion_animal_protein
Test de Kolmogorov-Smirnov de la loi de distribution norm pour l'échantillon de taille 174.
ATTENTION, pour tester la normalité d'un échantillon de moins de 5000 individus, il est conseillé d'utiliser le test de Shapiro-Wilk.
La statistique testée est D = 0.092
La p_value 0.097 est supérieure à alpha 0.050. L'hypothèse que la distribution de l'échantillon suit une loi norm est acceptée au niveau de test de 5.00%.

Variable

Cet exemple illustre le fait que le test de Kolmogorov-Smirnov n'est pas très fiable pour les petits échantillons : il accepte l'hypothèse de normalité au niveau de test de 5% pour 7 variables, là où le test de Shapiro n'accepte cette hypothèse à ce niveau de test pour aucune des variables.