
# üìä S√©ance 4 ‚Äì Statistiques descriptives & tests

Dans cette s√©ance, nous allons explorer les relations entre certaines variables de notre dataset `df_clean` √† l'aide de tests statistiques. Nous allons aussi v√©rifier les conditions de validit√© de chaque test.

# **1. Les basiques**

In [None]:
# üì¶ Chargement des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# T√©l√©charger le fichier CSV directement depuis GitHub
!wget https://raw.githubusercontent.com/bidoscar/AFRICITIZEN-ACDS-Coding/main/Seance_4_Statistiques_Descriptive_Tests_Hypotheses/Datasets/df_amazon_clean.csv

In [None]:
## 1. Chargement et aper√ßu des donn√©es

df = pd.read_csv("df_amazon_clean.csv")
df.head()

# **2. Statistiques descriptives**

In [None]:
# Croiser les variables num√©riques entre elles
sns.pairplot(df, hue= 'rating_level')

In [None]:
# Croiser les variables num√©riques entre elles
sns.pairplot(df, hue= 'category_level_1')

In [None]:
df.describe()

In [None]:
df['rating_level'].value_counts()

In [None]:
df['category_level_1'].value_counts()

# **3: Analyse des relations**

## **3.1 Prix (`discounted_price`) ~ Note (`rating`)**

In [None]:
# Verifions si la variable est normalement distribuee
sns.histplot(df['discounted_price'], kde=True, color='green')
plt.show()

üß™ **Test de normalit√© ‚Äì Shapiro-Wilk**

But : V√©rifier si une variable suit une distribution normale (gaussienne).

‚û§ Pourquoi c‚Äôest important ?
Certains tests statistiques (comme le test de Pearson ou l‚ÄôANOVA) pr√©sument que les donn√©es sont normalement distribu√©es. Si cette hypoth√®se est viol√©e, il faut alors utiliser des tests non param√©triques (comme Spearman ou Kruskal-Wallis).

‚û§ Le test :
H‚ÇÄ (hypoth√®se nulle) : Les donn√©es suivent une distribution normale.

H‚ÇÅ : Les donn√©es ne suivent pas une distribution normale.

Si la p-value < 0.05, on rejette H‚ÇÄ ‚Üí les donn√©es ne sont pas normales.

In [None]:
# Verifions la normalit√©
from scipy.stats import shapiro

In [None]:
stat, p = shapiro(df['discounted_price'])
print('stat=%.3f, p=%.3f' % (stat, p))

In [None]:
# V√©rifions le relation
from scipy.stats import pearsonr, spearmanr

**1. pearsonr() ‚Äì Corr√©lation de Pearson**

But : Mesurer la relation lin√©aire entre deux variables quantitatives continues.

‚úÖ Conditions d'application :
* Les deux variables doivent suivre une distribution normale (test Shapiro-Wilk recommand√©).

* La relation entre les variables doit √™tre lin√©aire.

‚öôÔ∏è Comment √ßa marche ?
Calcule un coefficient r ‚àà [-1, 1]

* r ‚âà 1 : forte corr√©lation positive

* r ‚âà -1 : forte corr√©lation n√©gative

* r ‚âà 0 : pas de corr√©lation lin√©aire

Retourne aussi une p-value pour tester si cette corr√©lation est significative.

In [None]:
pearsonr(df['discounted_price'], df['rating'])  # seulement si normalit√©

**2. spearmanr() ‚Äì Corr√©lation de Spearman**

But : Mesurer la relation monotone (pas forc√©ment lin√©aire) entre deux variables ordinales ou quantitatives.

‚úÖ Quand l‚Äôutiliser ?
* Quand les donn√©es ne suivent pas une distribution normale.

* Quand la relation semble non lin√©aire

* Quand les donn√©es contiennent des valeurs extr√™mes ou aberrantes.

‚öôÔ∏è Comment √ßa marche ?
* Retourne aussi une p-value.

In [None]:
spearmanr(df['discounted_price'], df['rating']) # si non-normalit√©

**Et la m√©thode df.corr() ?**

In [None]:
df[['discounted_price','rating']].corr()

df.corr() utilise par d√©faut la corr√©lation de Pearson, sans v√©rification de normalit√©, sans p-value, et sans possibilit√© de traiter les valeurs manquantes avec autant de finesse.

Elle donne un aper√ßu rapide mais pas suffisant pour une analyse statistique rigoureuse.

## **3.2 Prix ~ Classe de note (`rating_level`)**

L‚ÄôANOVA permet de comparer les moyennes de plusieurs groupes pour voir s‚Äôil existe au moins une diff√©rence significative.

üìå Hypoth√®ses de base
* Les observations dans chaque groupe doivent √™tre ind√©pendantes les unes des autres.
* Les donn√©es de chaque groupe doivent suivre une distribution normale.
* Les variances des groupes doivent √™tre √©gales.

üß™ **Test d‚Äôhomog√©n√©it√© des variances ‚Äì Levene**

But : V√©rifier si plusieurs groupes ont des variances similaires.

‚û§ Pourquoi c‚Äôest important ?
L‚ÄôANOVA (test de comparaison des moyennes entre plusieurs groupes) suppose que les groupes compar√©s ont la m√™me variance. Si ce n‚Äôest pas le cas, on doit utiliser un test plus robuste comme Kruskal-Wallis.

‚û§ Le test :
H‚ÇÄ : Les variances sont √©gales entre les groupes.

H‚ÇÅ : Au moins un groupe a une variance diff√©rente.

Si p-value < 0.05, on rejette H‚ÇÄ ‚Üí variances diff√©rentes.

In [None]:
from scipy.stats import levene
# stat, p = levene(*groups)
# print('stat=%.3f, p=%.3f' % (stat, p))

In [None]:
# Supposons 2 groupes
g1 = df[df['rating_level'] == 'High']['discounted_price']
g2 = df[df['rating_level'] == 'Medium']['discounted_price']

In [None]:
# Normalit√©
print("Normalit√© g1:", shapiro(g1).pvalue)
print("Normalit√© g2:", shapiro(g2).pvalue)

In [None]:
# Homog√©n√©it√© des variances
stat, p = levene(g1, g2)
print('stat=%.3f, p=%.3f' % (stat, p))


In [None]:
# On ne peut pas faire ANOVA
from scipy.stats import kruskal

# Hypoth√®se nulle H‚ÇÄ	"Toutes les moyennes sont √©gales"
# Hypoth√®se alternative H‚ÇÅ	"Au moins une moyenne est diff√©rente"

stat, p = kruskal(g1, g2)

print('stat=%.3f, p=%.3f' % (stat, p))

In [None]:
# Mais si on devrait faire ANOVA
from scipy.stats import f_oneway


# Hypoth√®se nulle H‚ÇÄ	"Toutes les moyennes sont √©gales"
# Hypoth√®se alternative H‚ÇÅ	"Au moins une moyenne est diff√©rente"

stat, p = f_oneway(g1, g2)
print('stat=%.3f, p=%.3f' % (stat, p))

## **3.3 Classe de note ~ Cat√©gorie**

**Test du Khi¬≤ d‚Äôind√©pendance (chi2_contingency)**

üìå Objectif :
* Tester s‚Äôil existe une relation entre deux variables qualitatives (cat√©gorielles).

Hypoth√®ses :
* H‚ÇÄ (nulle)	Les deux variables sont ind√©pendantes
* H‚ÇÅ (alternative)	Il existe une d√©pendance entre les deux variables

Conditions d'application
* Les variables doivent √™tre cat√©gorielles (nominales ou ordinales)

* L‚Äô√©chantillon doit √™tre assez grand (chaque cellule attendue ‚â• 5 si possible)

* Les observations doivent √™tre ind√©pendantes

In [None]:
pd.crosstab(df['rating_level'], df['category_level_1'])

Utiliser un test exact : test de Fisher
* Si la table est 2x2, tu peux utiliser

Fusionner les cat√©gories rares
* Si possible, regroupe les petites cat√©gories (par exemple, combiner officeproducts&other avec une autre cat√©gorie ou cr√©er une cat√©gorie "Autres")

In [None]:
df['category_level_new'] = df['category_level_1'].replace(
    {'officeproducts&other': 'computers&accessories'})

In [None]:
pd.crosstab(df['rating_level'], df['category_level_new'])

In [None]:
from scipy.stats import chi2_contingency
stat, p, dof, expected_freq = chi2_contingency(pd.crosstab(df['rating_level'], df['category_level_new']))
print('stat=%.3f, p=%.3f' % (stat, p))
print(expected_freq)