# 🧪 Séance de Coding : EDA & Visualisation avec Pandas/Seaborn
📅 Date : 18 July 2025

Ce notebook permet d'explorer une base de données issue d'Amazon. On y applique les étapes d'analyse exploratoire des données (EDA) et de visualisation avec Python.

## 📌 Objectifs pédagogiques
- Manipuler des données réelles
- Visualiser les distributions, les corrélations
- Répondre à des questions analytiques concrètes


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Télécharger le fichier CSV directement depuis GitHub
!wget https://raw.githubusercontent.com/bidoscar/AFRICITIZEN-ACDS-Coding/main/Seance_1/Datasets/amazon.csv

In [None]:
# Chargement du fichier CSV
df = pd.read_csv('amazon.csv')
df.head()

In [None]:
df.info()

# **🧼 Étape 1 : Nettoyage minimal pour EDA**

In [None]:
# Créons d'abord une copie de notre jeu de données
df1 = df.copy()

In [None]:
# On a remarqué la présence de | dans la colonne rating
# Essayons de le remplacer par une value manquant (on peut aussi décider de le remplacer avec la médiane ou la moyenne)
df1['rating'] = df1['rating'].replace('|', np.nan)

In [None]:
# Enlevons le symbol de devise et le délimitateur de millier
df1['discounted_price'] = df1['discounted_price'].str.replace("₹", "").str.replace(",", "").astype(float)
df1['actual_price'] = df1['actual_price'].str.replace("₹", "").str.replace(",", "").astype(float)
df1['rating'] = df1['rating'].str.replace(",", "").astype(float)
df1['rating_count'] = df1['rating_count'].str.replace(",", "").astype(float)

In [None]:
# Changeons le type de donnée et ramenons le pourcentage en proportion (entre 0 et 1) dans discount_Percentage
df1['discount_percentage'] = df1['discount_percentage'].str.replace('%','').astype('float64')
df1['discount_percentage'] = df1['discount_percentage'] / 100

# **Etape 2 : Résumé statistique & infos générales**

In [None]:
df1.describe()

In [None]:
df.describe()

In [None]:
df1.describe(include="all")

In [None]:
df.isnull().sum()

In [None]:
df.dropna(axis=0, inplace=True)

# **🧪 Etape 3 : Analyse Univariée Enrichie en Python**
📅 Séance du 18 July 2025

Dans ce notebook enrichi, nous allons approfondir l'analyse univariée :
- Variable **continue** : `rating`
- Variable **catégorielle** : `category`
Nous aborderons :
- Statistiques descriptives
- Densité, Boxplot, ECDF, Skewness/Kurtosis
- Visualisations matplotlib & seaborn
- Interprétations

## 📊 3.1 Analyse d'une variable continue : `rating`

In [None]:
df1['rating'].describe()

In [None]:
sns.boxplot(x=df1['rating'], color='lightcoral')
plt.title('Boxplot des évaluations (seaborn)')
plt.show()

In [None]:
# écart interquartile, skewness, kurtosis
q1 = df1['rating'].quantile(0.25)
q3 = df1['rating'].quantile(0.75)
iqr = q3 - q1
skew = df1['rating'].skew()
kurt = df1['rating'].kurtosis()
iqr, skew, kurt

In [None]:
plt.hist(df1['rating'], bins=30, color='skyblue', edgecolor='black')
plt.title('Histogramme des évaluations (matplotlib)')
plt.xlabel('Evaluation')
plt.ylabel('Fréquence')
plt.show()

In [None]:
sns.histplot(df1['rating'], kde=True, color='green')
plt.title('Histogramme avec densité (seaborn)')
plt.xlabel('Evaluation')
plt.show()

In [None]:
sns.ecdfplot(df1['rating'])
plt.title('Fonction de répartition empirique (ECDF)')
plt.xlabel('Evaluation')
plt.ylabel('Proportion cumulée')
#xticks = np.linspace(df1['rating'].min(), df1['rating'].max(), 6)  # ou un nombre plus petit
plt.xticks(rotation=45)
#plt.tight_layout()
plt.show()

In [None]:
sns.ecdfplot(df1['discounted_price'])
plt.title('Fonction de répartition empirique (ECDF)')
plt.xlabel('Prix réduit')
plt.ylabel('Proportion cumulée')
#xticks = np.linspace(df1['rating'].min(), df1['rating'].max(), 6)  # ou un nombre plus petit
#plt.xticks(rotation=45)
#plt.tight_layout()
plt.show()

## 📊 3.2 Analyse d'une variable catégorielle : `category`

In [None]:
df1['category'].nunique()

In [None]:
df1['category'].mode()[0]

In [None]:
df1['category'].value_counts().head(5)

In [None]:
(df1['category'].value_counts(normalize=True)*100).head(5)

In [None]:
top10 = df1['category'].value_counts().head(10)
top10.plot(kind='barh', color='orange')
plt.title('Top 10 catégories (matplotlib)')
plt.xlabel('Nombre de produits')
plt.show()

In [None]:
top5 = df1['category'].value_counts().head(5)
top5.plot(kind='pie', autopct='%1.1f%%')
plt.title('Répartition des 5 premières catégories')
plt.ylabel('')
plt.show()

## 📊 3.3 Analyse d'une variable catégorielle : `rating_level`

In [None]:
# Une copy de notre jeu de données
df2 = df1.copy()

In [None]:
# Create a new categorical variable from rating
def classify_rating(r):
    if r <= 2.5:
        return "Low"
    elif r <= 3.9:
        return "Medium"
    else:
        return "High"

df2['rating_level'] = df2['rating'].apply(classify_rating)

In [None]:
df2['rating_level'].value_counts()

In [None]:
# Create a new categorical variable from rating
def classify_rating(r):
    if r <= 3.9:
        return "Medium"
    else:
        return "High"

df2['rating_level'] = df2['rating'].apply(classify_rating)

In [None]:
df2['rating_level'].value_counts()

In [None]:
rating_classes = df2['rating_level'].value_counts()
rating_classes.plot(kind='barh', color='orange')
plt.title('Evaluations (regroupées en classes)')
plt.xlabel('Nombre de produits')
plt.show()

In [None]:
rating_classes.plot(kind='pie', autopct='%1.1f%%')
plt.title('Regroupement des évaluations')
plt.ylabel('')
plt.show()

# 🔗 **Etape 4 : Analyse Bivariée en Python**

Dans cette partie, nous allons explorer **l'analyse bivariée**, c’est-à-dire l’étude de la relation entre deux variables.

Nous allons couvrir trois cas classiques :
1. Deux variables **continues**
2. Deux variables **catégorielles**
3. Une variable **continue** et une **catégorielle**

## **La vue d'ensemble**

In [None]:
# Croiser les variables numériques entre elles
sns.pairplot(df2)

In [None]:
# Croiser les variables numériques entre elles
sns.pairplot(df2, hue= 'rating_level')

In [None]:
# Sélection des colonnes numériques
numeric_df = df2.select_dtypes(include='number')

# Calcul de la matrice de corrélation
correlation_matrix = numeric_df.corr()

# Affichage de la heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.995)
plt.title("Heatmap des corrélations entre variables numériques")
plt.show()

## 1️⃣ Analyse entre deux variables continues : `rating` vs `discounted_price`

In [None]:
# Corrélation
correlation = df2[['rating', 'discounted_price']].corr()
correlation

In [None]:
plt.scatter(df2['rating'], df2['discounted_price'], alpha=0.25)
plt.title('Scatterplot - Rating vs Prix réduit (matplotlib)')
plt.xlabel('Note')
plt.ylabel('Prix réduit')

plt.show()

In [None]:
plt.scatter(df2['rating'], df2['discounted_price'], alpha=0.25)
plt.yscale('log')
plt.title('Scatterplot - Rating vs Prix réduit (échelle log)')
plt.xlabel('Note')
plt.ylabel('Prix réduit (log)')

plt.tight_layout()
plt.show()

In [None]:
sns.regplot(x='rating', y='discounted_price', data=df2, scatter_kws={'alpha':0.3})
plt.title('Relation entre rating et prix réduit (seaborn)')
plt.show()

## 2️⃣ Analyse entre deux variables catégorielles : `category` vs `rating_level`

In [None]:
# Tableau croisé
crosstab = pd.crosstab(df2['category'], df2['rating_level'])
crosstab.head()

In [None]:
# On sélectionne les 10 catégories les plus fréquentes pour meilleure lisibilité
top_cats = df2['category'].value_counts().head(10).index
subset = df2[df2['category'].isin(top_cats)]
pivot = pd.crosstab(subset['category'], subset['rating_level'])
pivot

In [None]:
sns.heatmap(pivot, annot=True, cmap='Blues', fmt='d')
plt.title('Répartition des niveaux de rating par catégorie')
plt.show()

In [None]:
sns.countplot(data=subset, x='rating_level', hue='category')
plt.title('Rating level par catégorie (seaborn)')
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

## 3️⃣ Analyse entre une variable continue et une variable catégorielle : `discounted_price` selon `rating_level`

In [None]:
df2['discounted_price'].describe()

In [None]:
df2.groupby('rating_level')['discounted_price'].describe()

In [None]:
sns.boxplot(x='rating_level', y='discounted_price', data=df2, palette='Set2')
plt.title('Boxplot du prix réduit par niveau de rating')
plt.show()

# **Etape 4 : Questions**

## 🔎 Question 1 : Quels produits ont le meilleur rapport qualité-prix ?

In [None]:
# une autre copie de notre données
df3 = df2.copy()

In [None]:
df3['rapport_qualité_prix'] = df3['rating'] / df3['discounted_price']
df3[['product_name', 'discounted_price', 'rating', 'rapport_qualité_prix', 'category']].sort_values(by='rapport_qualité_prix', ascending=False).head(10)

## 🔎 Question 2 : Les produits très remisés seraient-ils perçus comme de moins bonne qualité ?

In [None]:
corr = df3[['discount_percentage', 'rating']].corr().iloc[0, 1]
print('Corrélation entre remise et note moyenne :', corr)

# Visualisation
sns.scatterplot(data=df1, x='discount_percentage', y='rating')
plt.title('Lien entre remise (%) et note')
plt.show()

## 🔎 Question 3 : Les produits les mieux notés viennent-ils d’une même catégorie ?

On veut savoir si les produits qui ont les meilleures notes (rating) appartiennent tous ou majoritairement à une seule et même catégorie, ou s’ils sont répartis sur plusieurs.

In [None]:
# En utilisant la variable "rating level"
df2.groupby('rating_level')['category'].value_counts()

On peut aussi le faire en identifiant les 100 produits ayant les plus grandes notes

In [None]:
# Étape 1 : Trier les produits selon leur note
# On commence par identifier les produits les mieux notés dans l’ensemble du dataset.

top_rated_products = df3[['product_name', 'category', 'rating']] \
    .sort_values(by='rating', ascending=False) \
    .head(100)


In [None]:
# Étape 2 : Extraire la catégorie de ces produits
# Une fois qu’on a les meilleurs produits, on regarde leur colonne category

top_categories = top_rated_products['category']

In [None]:
# Étape 3 : Compter les catégories
# On utilise .value_counts() pour voir combien de fois chaque catégorie revient parmi les produits les mieux notés.

category_counts = top_categories.value_counts()
print(category_counts)

## 🔎 Question 4 : Quelles catégories dominent les ventes en nombre de produits ?

In [None]:
top_categories = df3['category'].value_counts().head(10)
print(top_categories)

# Visualisation
top_categories.plot(kind='barh', title='Catégories avec le plus de produits')
plt.xlabel('Nombre de produits')
plt.show()

## **Quiz 0 : Le produits les mieux notés sont-ils les plus chers ?**

## **Quiz 1 : Quel est le top 5 des catégories avec le meilleur rapport qualité-prix**

## **Quiz 2 : Les produits les mieux notés (ayant une note supérieure à 4) viennent-ils d’une même catégorie ?**