Exploration & Visualisation, EDA (Exploratory Data Analysis) / AED (analyse exploratoire des données)

In [None]:
# 1er Dataset : Tendances des avis clients et décisions d'achat
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

data_path = "../data/raw/Customer_Review (1).csv" # ! Attention au nom du fichier
df_reviews = pd.read_csv(data_path)

#Aperçu des données
df_reviews.head()
df_reviews.info()  # Vérifier les types de données
df_reviews.describe()

# Changement des types de données pour plus d’efficacité mémoire 
# et faciliter les visualisations
cols_to_convert = ['Gender', 'Education', 'Purchased']
df_reviews[cols_to_convert] = df_reviews[cols_to_convert].astype('category')

df_reviews.dtypes


# Nombre de doublons
duplicates = df_reviews.duplicated().sum()
print(f"Nombre de doublons : {duplicates}")

# Supprimer si nécessaire
df_reviews = df_reviews.drop_duplicates()


# Détection des incohérences dans les données
# Vérification des genres
# df_reviews['Gender'] = df_reviews['Gender'].str.strip().str.capitalize()
df_reviews['Gender'].value_counts()


# Vérification des niveaux d'éducation
df_reviews['Education'].value_counts()

# Vérification des valeurs dans la colonne 'Purchased'
df_reviews['Purchased'].value_counts()


# Vérification de la cohérence numérique des valeurs dans la colonne 'Age'
# Les ages seront présentés sous forme de statistiques descriptives
print(df_reviews['Age'].describe())

# Afficher directement les valeurs 
df_reviews["Age"].head()

# Sauvegarde du DataFrame nettoyé
df_reviews.to_csv('../data/processed/customer_reviews_cleaned.csv', index=False)


#Ou les visualiser graphiquement :
sns.histplot(df_reviews["Age"], kde=True, bins=10)
plt.title("Distribution de l'âge des clients")
plt.show()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Serial Number  100 non-null    int64 
 1   Age            100 non-null    int64 
 2   Gender         100 non-null    object
 3   Review         100 non-null    object
 4   Education      100 non-null    object
 5   Purchased      100 non-null    object
dtypes: int64(2), object(4)
memory usage: 4.8+ KB
Nombre de doublons : 0
count    100.000000
mean      37.910000
std       12.219454
min       18.000000
25%       26.750000
50%       38.000000
75%       46.250000
max       59.000000
Name: Age, dtype: float64


'\n#Ou les visualiser graphiquement :\nsns.histplot(df_reviews["Age"], kde=True, bins=10)\nplt.title("Distribution de l\'âge des clients")\nplt.show()\n'

In [None]:
# Autre version 
# 1er Dataset : Tendances des avis clients et décisions d'achat
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

data_path = "../data/raw/Customer_Review (1).csv"  # Vérifier le nom exact du fichier

# Chargement du dataset
df_reviews = pd.read_csv(data_path)

# --- Aperçu des données ---
df_reviews.head()
df_reviews.info()
df_reviews.describe()

# --- Conversion des types pour optimiser la mémoire et faciliter les visualisations ---
cols_to_convert = ['Gender', 'Education', 'Purchased']
df_reviews[cols_to_convert] = df_reviews[cols_to_convert].astype('category')

# --- Vérification et suppression des doublons ---
duplicates = df_reviews.duplicated().sum()
print(f"Nombre de doublons : {duplicates}")
df_reviews = df_reviews.drop_duplicates()

# --- Nettoyage des chaînes de caractères et standardisation ---
df_reviews['Gender'] = df_reviews['Gender'].str.strip().str.capitalize()  # Standardiser les genres
df_reviews['Education'] = df_reviews['Education'].str.strip().str.title()  # Standardiser l'éducation

# --- Vérification des valeurs uniques pour cohérence ---
print("Valeurs de Gender :", df_reviews['Gender'].value_counts())
print("Valeurs de Education :", df_reviews['Education'].value_counts())
print("Valeurs de Purchased :", df_reviews['Purchased'].value_counts())

# --- Gestion des valeurs manquantes ---
# Si tu veux remplacer les NaN, par exemple :
# df_reviews['Age'] = df_reviews['Age'].fillna(df_reviews['Age'].median())
# df_reviews['Gender'] = df_reviews['Gender'].fillna('Unknown')
# df_reviews['Education'] = df_reviews['Education'].fillna('Unknown')
# df_reviews['Purchased'] = df_reviews['Purchased'].fillna('No')

# --- Vérification des valeurs numériques ---
print(df_reviews['Age'].describe())

# --- Réinitialisation de l'index après suppression des doublons ---
df_reviews = df_reviews.reset_index(drop=True)

# --- Vérification finale ---
df_reviews.info()
df_reviews.head()


In [23]:
# 2ème Dataset : Analyse de la personnalité du client 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

data_path = "../data/raw/marketing_campaign.csv"

# Lecture du fichier avec espace comme séparateur (plus sûr pour future version pandas)
df = pd.read_csv(data_path, sep='\s+', on_bad_lines='skip')

# Aperçu des données
df.head()
df.info()
df.describe()

# --- Conversion des types ---
df['Income'] = pd.to_numeric(df['Income'], errors='coerce')        # Income en float
df['Teenhome'] = pd.to_numeric(df['Teenhome'], errors='coerce')    # Teenhome en int
df['Dt_Customer'] = pd.to_datetime(df['Dt_Customer'], errors='coerce')  # Date

# --- Suppression des doublons ---
df = df.drop_duplicates(subset='ID')

# --- Gestion des valeurs manquantes ---
df['Income'] = df['Income'].fillna(df['Income'].median())
df['Teenhome'] = df['Teenhome'].fillna(0)
df['Response'] = df['Response'].fillna(0)   # ou laisser NaN si nécessaire
df['Dt_Customer'] = df['Dt_Customer'].ffill()  # remplissage vers l'avant

# --- Filtrage des valeurs aberrantes ---
df = df[(df['Year_Birth'] >= 1900) & (df['Year_Birth'] <= 2025)]   # âges cohérents
df = df[df['Income'] >= 0]                                         # income positif

# --- Standardisation des catégories de Marital_Status ---
valid_status = ['Married', 'Together', 'Single', 'Divorced', 'Widow']
df['Marital_Status'] = df['Marital_Status'].apply(lambda x: x if x in valid_status else 'Other')

# --- Conversion finale ---
df['Teenhome'] = df['Teenhome'].astype(int)

# --- Vérification finale ---
print(df.info())
print(df.describe())
print(df['Marital_Status'].value_counts())

# Réinitialisation de l'index après nettoyage
df = df.reset_index(drop=True)

# Sauvegarde du fichier nettoyé
df.to_csv('../data/processed/marketing_campaign_cleaned.csv', index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2040 entries, 0 to 2039
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2040 non-null   int64  
 1   Year_Birth           2040 non-null   int64  
 2   Education            2040 non-null   object 
 3   Marital_Status       2040 non-null   object 
 4   Income               2040 non-null   object 
 5   Kidhome              2040 non-null   int64  
 6   Teenhome             2040 non-null   object 
 7   Dt_Customer          2040 non-null   object 
 8   Recency              2040 non-null   int64  
 9   MntWines             2040 non-null   int64  
 10  MntFruits            2040 non-null   int64  
 11  MntMeatProducts      2040 non-null   int64  
 12  MntFishProducts      2040 non-null   int64  
 13  MntSweetProducts     2040 non-null   int64  
 14  MntGoldProds         2040 non-null   int64  
 15  NumDealsPurchases    2040 non-null   i