# üß™ S√©ance de Coding : EDA & Visualisation avec Pandas/Seaborn
üìÖ Date : 18 July 2025

Ce notebook permet d'explorer une base de donn√©es issue d'Amazon. On y applique les √©tapes d'analyse exploratoire des donn√©es (EDA) et de visualisation avec Python.

## üìå Objectifs p√©dagogiques
- Manipuler des donn√©es r√©elles
- Visualiser les distributions, les corr√©lations
- R√©pondre √† des questions analytiques concr√®tes


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# T√©l√©charger le fichier CSV directement depuis GitHub
!wget https://raw.githubusercontent.com/bidoscar/AFRICITIZEN-ACDS-Coding/main/Seance_1/Datasets/amazon.csv

In [None]:
# Chargement du fichier CSV
df = pd.read_csv('amazon.csv')
df.head()

In [None]:
df.info()

# **üßº √âtape 1 : Nettoyage minimal pour EDA**

In [None]:
# Cr√©ons d'abord une copie de notre jeu de donn√©es
df1 = df.copy()

In [None]:
# On a remarqu√© la pr√©sence de | dans la colonne rating
# Essayons de le remplacer par une value manquant (on peut aussi d√©cider de le remplacer avec la m√©diane ou la moyenne)
df1['rating'] = df1['rating'].replace('|', np.nan)

In [None]:
# Enlevons le symbol de devise et le d√©limitateur de millier
df1['discounted_price'] = df1['discounted_price'].str.replace("‚Çπ", "").str.replace(",", "").astype(float)
df1['actual_price'] = df1['actual_price'].str.replace("‚Çπ", "").str.replace(",", "").astype(float)
df1['rating'] = df1['rating'].str.replace(",", "").astype(float)
df1['rating_count'] = df1['rating_count'].str.replace(",", "").astype(float)

In [None]:
# Changeons le type de donn√©e et ramenons le pourcentage en proportion (entre 0 et 1) dans discount_Percentage
df1['discount_percentage'] = df1['discount_percentage'].str.replace('%','').astype('float64')
df1['discount_percentage'] = df1['discount_percentage'] / 100

# **Etape 2 : R√©sum√© statistique & infos g√©n√©rales**

In [None]:
df1.describe()

In [None]:
df.describe()

In [None]:
df1.describe(include="all")

In [None]:
df.isnull().sum()

In [None]:
df.dropna(axis=0, inplace=True)

# **üß™ Etape 3 : Analyse Univari√©e Enrichie en Python**
üìÖ S√©ance du 18 July 2025

Dans ce notebook enrichi, nous allons approfondir l'analyse univari√©e :
- Variable **continue** : `rating`
- Variable **cat√©gorielle** : `category`
Nous aborderons :
- Statistiques descriptives
- Densit√©, Boxplot, ECDF, Skewness/Kurtosis
- Visualisations matplotlib & seaborn
- Interpr√©tations

## üìä 3.1 Analyse d'une variable continue : `rating`

In [None]:
df1['rating'].describe()

In [None]:
sns.boxplot(x=df1['rating'], color='lightcoral')
plt.title('Boxplot des √©valuations (seaborn)')
plt.show()

In [None]:
# √©cart interquartile, skewness, kurtosis
q1 = df1['rating'].quantile(0.25)
q3 = df1['rating'].quantile(0.75)
iqr = q3 - q1
skew = df1['rating'].skew()
kurt = df1['rating'].kurtosis()
iqr, skew, kurt

In [None]:
plt.hist(df1['rating'], bins=30, color='skyblue', edgecolor='black')
plt.title('Histogramme des √©valuations (matplotlib)')
plt.xlabel('Evaluation')
plt.ylabel('Fr√©quence')
plt.show()

In [None]:
sns.histplot(df1['rating'], kde=True, color='green')
plt.title('Histogramme avec densit√© (seaborn)')
plt.xlabel('Evaluation')
plt.show()

In [None]:
sns.ecdfplot(df1['rating'])
plt.title('Fonction de r√©partition empirique (ECDF)')
plt.xlabel('Evaluation')
plt.ylabel('Proportion cumul√©e')
#xticks = np.linspace(df1['rating'].min(), df1['rating'].max(), 6)  # ou un nombre plus petit
plt.xticks(rotation=45)
#plt.tight_layout()
plt.show()

In [None]:
sns.ecdfplot(df1['discounted_price'])
plt.title('Fonction de r√©partition empirique (ECDF)')
plt.xlabel('Prix r√©duit')
plt.ylabel('Proportion cumul√©e')
#xticks = np.linspace(df1['rating'].min(), df1['rating'].max(), 6)  # ou un nombre plus petit
#plt.xticks(rotation=45)
#plt.tight_layout()
plt.show()

## üìä 3.2 Analyse d'une variable cat√©gorielle : `category`

In [None]:
df1['category'].nunique()

In [None]:
df1['category'].mode()[0]

In [None]:
df1['category'].value_counts().head(5)

In [None]:
(df1['category'].value_counts(normalize=True)*100).head(5)

In [None]:
top10 = df1['category'].value_counts().head(10)
top10.plot(kind='barh', color='orange')
plt.title('Top 10 cat√©gories (matplotlib)')
plt.xlabel('Nombre de produits')
plt.show()

In [None]:
top5 = df1['category'].value_counts().head(5)
top5.plot(kind='pie', autopct='%1.1f%%')
plt.title('R√©partition des 5 premi√®res cat√©gories')
plt.ylabel('')
plt.show()

## üìä 3.3 Analyse d'une variable cat√©gorielle : `rating_level`

In [None]:
# Une copy de notre jeu de donn√©es
df2 = df1.copy()

In [None]:
# Create a new categorical variable from rating
def classify_rating(r):
    if r <= 2.5:
        return "Low"
    elif r <= 3.9:
        return "Medium"
    else:
        return "High"

df2['rating_level'] = df2['rating'].apply(classify_rating)

In [None]:
df2['rating_level'].value_counts()

In [None]:
# Create a new categorical variable from rating
def classify_rating(r):
    if r <= 3.9:
        return "Medium"
    else:
        return "High"

df2['rating_level'] = df2['rating'].apply(classify_rating)

In [None]:
df2['rating_level'].value_counts()

In [None]:
rating_classes = df2['rating_level'].value_counts()
rating_classes.plot(kind='barh', color='orange')
plt.title('Evaluations (regroup√©es en classes)')
plt.xlabel('Nombre de produits')
plt.show()

In [None]:
rating_classes.plot(kind='pie', autopct='%1.1f%%')
plt.title('Regroupement des √©valuations')
plt.ylabel('')
plt.show()

# üîó **Etape 4 : Analyse Bivari√©e en Python**

Dans cette partie, nous allons explorer **l'analyse bivari√©e**, c‚Äôest-√†-dire l‚Äô√©tude de la relation entre deux variables.

Nous allons couvrir trois cas classiques :
1. Deux variables **continues**
2. Deux variables **cat√©gorielles**
3. Une variable **continue** et une **cat√©gorielle**

## **La vue d'ensemble**

In [None]:
# Croiser les variables num√©riques entre elles
sns.pairplot(df2)

In [None]:
# Croiser les variables num√©riques entre elles
sns.pairplot(df2, hue= 'rating_level')

In [None]:
# S√©lection des colonnes num√©riques
numeric_df = df2.select_dtypes(include='number')

# Calcul de la matrice de corr√©lation
correlation_matrix = numeric_df.corr()

# Affichage de la heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.995)
plt.title("Heatmap des corr√©lations entre variables num√©riques")
plt.show()

## 1Ô∏è‚É£ Analyse entre deux variables continues : `rating` vs `discounted_price`

In [None]:
# Corr√©lation
correlation = df2[['rating', 'discounted_price']].corr()
correlation

In [None]:
plt.scatter(df2['rating'], df2['discounted_price'], alpha=0.25)
plt.title('Scatterplot - Rating vs Prix r√©duit (matplotlib)')
plt.xlabel('Note')
plt.ylabel('Prix r√©duit')

plt.show()

In [None]:
plt.scatter(df2['rating'], df2['discounted_price'], alpha=0.25)
plt.yscale('log')
plt.title('Scatterplot - Rating vs Prix r√©duit (√©chelle log)')
plt.xlabel('Note')
plt.ylabel('Prix r√©duit (log)')

plt.tight_layout()
plt.show()

In [None]:
sns.regplot(x='rating', y='discounted_price', data=df2, scatter_kws={'alpha':0.3})
plt.title('Relation entre rating et prix r√©duit (seaborn)')
plt.show()

## 2Ô∏è‚É£ Analyse entre deux variables cat√©gorielles : `category` vs `rating_level`

In [None]:
# Tableau crois√©
crosstab = pd.crosstab(df2['category'], df2['rating_level'])
crosstab.head()

In [None]:
# On s√©lectionne les 10 cat√©gories les plus fr√©quentes pour meilleure lisibilit√©
top_cats = df2['category'].value_counts().head(10).index
subset = df2[df2['category'].isin(top_cats)]
pivot = pd.crosstab(subset['category'], subset['rating_level'])
pivot

In [None]:
sns.heatmap(pivot, annot=True, cmap='Blues', fmt='d')
plt.title('R√©partition des niveaux de rating par cat√©gorie')
plt.show()

In [None]:
sns.countplot(data=subset, x='rating_level', hue='category')
plt.title('Rating level par cat√©gorie (seaborn)')
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

## 3Ô∏è‚É£ Analyse entre une variable continue et une variable cat√©gorielle : `discounted_price` selon `rating_level`

In [None]:
df2['discounted_price'].describe()

In [None]:
df2.groupby('rating_level')['discounted_price'].describe()

In [None]:
sns.boxplot(x='rating_level', y='discounted_price', data=df2, palette='Set2')
plt.title('Boxplot du prix r√©duit par niveau de rating')
plt.show()

# **Etape 4 : Questions**

## üîé Question 1 : Quels produits ont le meilleur rapport qualit√©-prix ?

In [None]:
# une autre copie de notre donn√©es
df3 = df2.copy()

In [None]:
df3['rapport_qualit√©_prix'] = df3['rating'] / df3['discounted_price']
df3[['product_name', 'discounted_price', 'rating', 'rapport_qualit√©_prix', 'category']].sort_values(by='rapport_qualit√©_prix', ascending=False).head(10)

## üîé Question 2 : Les produits tr√®s remis√©s seraient-ils per√ßus comme de moins bonne qualit√© ?

In [None]:
corr = df3[['discount_percentage', 'rating']].corr().iloc[0, 1]
print('Corr√©lation entre remise et note moyenne :', corr)

# Visualisation
sns.scatterplot(data=df1, x='discount_percentage', y='rating')
plt.title('Lien entre remise (%) et note')
plt.show()

## üîé Question 3 : Les produits les mieux not√©s viennent-ils d‚Äôune m√™me cat√©gorie ?

On veut savoir si les produits qui ont les meilleures notes (rating) appartiennent tous ou majoritairement √† une seule et m√™me cat√©gorie, ou s‚Äôils sont r√©partis sur plusieurs.

In [None]:
# En utilisant la variable "rating level"
df2.groupby('rating_level')['category'].value_counts()

On peut aussi le faire en identifiant les 100 produits ayant les plus grandes notes

In [None]:
# √âtape 1 : Trier les produits selon leur note
# On commence par identifier les produits les mieux not√©s dans l‚Äôensemble du dataset.

top_rated_products = df3[['product_name', 'category', 'rating']] \
    .sort_values(by='rating', ascending=False) \
    .head(100)


In [None]:
# √âtape 2 : Extraire la cat√©gorie de ces produits
# Une fois qu‚Äôon a les meilleurs produits, on regarde leur colonne category

top_categories = top_rated_products['category']

In [None]:
# √âtape 3 : Compter les cat√©gories
# On utilise .value_counts() pour voir combien de fois chaque cat√©gorie revient parmi les produits les mieux not√©s.

category_counts = top_categories.value_counts()
print(category_counts)

## üîé Question 4 : Quelles cat√©gories dominent les ventes en nombre de produits ?

In [None]:
top_categories = df3['category'].value_counts().head(10)
print(top_categories)

# Visualisation
top_categories.plot(kind='barh', title='Cat√©gories avec le plus de produits')
plt.xlabel('Nombre de produits')
plt.show()

## **Quiz 0 : Le produits les mieux not√©s sont-ils les plus chers ?**

## **Quiz 1 : Quel est le top 5 des cat√©gories avec le meilleur rapport qualit√©-prix**

## **Quiz 2 : Les produits les mieux not√©s (ayant une note sup√©rieure √† 4) viennent-ils d‚Äôune m√™me cat√©gorie ?**