In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

1. Lecture et fusion de tous les CSV

 1.1.Lecture de tous les CSV dans un dossier

In [None]:
sns.set(style="whitegrid")
folder_path = "/Users/cyrileopposite/Desktop/Python/machine_learning/projet/categories"
csv_files = [f for f in os.listdir(folder_path) if f.endswith(".csv")]
df_list = []
for file in csv_files:
    file_path = os.path.join(folder_path, file)
    temp_df = pd.read_csv(file_path)
    df_list.append(temp_df)

df_combined = pd.concat(df_list, axis=0, ignore_index=True)
print(df_combined.info())
print(df_combined.head())

2. Nettoyage et transformation (prétraitement)

2.1. Suppression d'une colonne inutile

In [None]:
# Supprimer la colonne "Unnamed: 0"
if "Unnamed: 0" in df_combined.columns:
    df_combined = df_combined.drop(columns=["Unnamed: 0"])

2.2. Conversion et nettoyage des colonnes numériques

In [None]:
# Nettoyage des colonnes de prix
def nettoyer_prix(x):
    try:
        # Enlève le symbole ₹, les virgules et les espaces superflus
        x = x.replace('₹', '').replace(',', '').strip()
        return float(x)
    except:
        return np.nan

df_combined['discount_price'] = df_combined['discount_price'].astype(str).apply(nettoyer_prix)
df_combined['actual_price'] = df_combined['actual_price'].astype(str).apply(nettoyer_prix)

df_combined['ratings'] = pd.to_numeric(df_combined['ratings'], errors='coerce')
df_combined['no_of_ratings'] = pd.to_numeric(df_combined['no_of_ratings'], errors='coerce')

print(df_combined[['discount_price', 'actual_price', 'ratings', 'no_of_ratings']].head())

2.3. Calcule du pourcentage de réduction

In [None]:
# Calcule la réduction en pourcentage à partir de actual_price et discount_price
df_combined['reduction_percent'] = ((df_combined['actual_price'] - df_combined['discount_price']) / df_combined['actual_price']) * 100
print(df_combined[['actual_price', 'discount_price', 'reduction_percent']].head())

3. Analyse statistique descriptive


3.1. Affichage de statistiques descriptives

In [None]:
# Statistiques descriptives pour les colonnes numériques importantes
print(df_combined[['actual_price', 'discount_price', 'reduction_percent', 'ratings', 'no_of_ratings']].describe())

3.2. Distribution des prix et du pourcentage de réduction

In [None]:
sns.set(style="whitegrid")

# Distribution du prix réel (actual_price)
plt.figure(figsize=(10, 5))
sns.histplot(df_combined['actual_price'].dropna(), bins=50, kde=True)
plt.title("Distribution du Prix Réel (actual_price)")
plt.xlabel("Prix réel")
plt.ylabel("Fréquence")
plt.show()

# Distribution du pourcentage de réduction (reduction_percent)
plt.figure(figsize=(10, 5))
sns.histplot(df_combined['reduction_percent'].dropna(), bins=50, kde=True, color='coral')
plt.title("Distribution du Pourcentage de Réduction")
plt.xlabel("Pourcentage de réduction")
plt.ylabel("Fréquence")
plt.show()