# Analyse Exploratoire du Dataset - Mini Projet IA
Ce notebook contient une analyse exploratoire complète du dataset `dataset_revenu_marocains.csv`.

In [19]:
# Installer les bibliothèques manquantes
%pip install pandas numpy matplotlib seaborn sweetviz scipy

# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sweetviz as sv
from scipy import stats

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [20]:
# Configuration pour les visualisations
plt.style.use('seaborn-v0_8-whitegrid')
sns.set(font_scale=1.2)
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['axes.titlesize'] = 16

In [21]:
# Chargement du dataset
df = pd.read_csv('dataset_revenu_marocains.csv')

## 1. Aperçu des données

In [22]:
print("Dimensions du dataset :", df.shape)
print("Aperçu des 10 premières lignes :")
display(df.head(10))

Dimensions du dataset : (40000, 18)
Aperçu des 10 premières lignes :


Unnamed: 0,user_id,age,categorie_age,date_naissance,sexe,zone,niveau_education,annees_experience,etat_matrimonial,nombre_enfants,possede_voiture,possede_logement,possede_terrain,categorie_socioprofessionnelle,secteur_activite,heures_travail_hebdo,couleur_preferee,revenu_annuel
0,USER_00000,73,Âgé,1952-11-04,Homme,Urbain,Sans niveau,35.0,Marié,4,0.0,1.0,0.0,Groupe 3: Retraités/Rentiers/Inactifs,Sans emploi,0.0,Vert,7051
1,USER_00001,38,Adulte,1987-01-24,Homme,Rural,Secondaire,9.0,Marié,1,0.0,1.0,1.0,Groupe 3: Retraités/Rentiers/Inactifs,Privé informel,72.0,Blanc,14682
2,USER_00002,18,Jeune,2007-05-08,Femme,Rural,Supérieur,0.0,,0,1.0,0.0,0.0,Groupe 3: Retraités/Rentiers/Inactifs,Privé informel,31.0,Bleu,10350
3,USER_00003,69,Âgé,1956-04-05,Femme,Urbain,Secondaire,29.0,Marié,3,0.0,0.0,0.0,Groupe 2: Cadres moyens/Employés/Commerçants,Public,30.0,Blanc,135678
4,USER_00004,20,Jeune,2005-12-04,Femme,Urbain,Sans niveau,1.0,Célibataire,0,,1.0,0.0,Groupe 4: Exploitants agricoles/Pêcheurs,Public,44.0,Orange,10485
5,USER_00005,30,Adulte,1995-11-24,Femme,Urbain,Fondamental,4.0,Divorcé,2,0.0,,1.0,Groupe 3: Retraités/Rentiers/Inactifs,Sans emploi,0.0,Vert,6166
6,USER_00006,24,Jeune,2001-09-03,Homme,Urbain,Fondamental,6.0,Célibataire,0,0.0,0.0,1.0,Groupe 4: Exploitants agricoles/Pêcheurs,Privé informel,60.0,Noir,14730
7,USER_00007,23,Jeune,2002-10-14,Femme,Rural,Secondaire,4.0,Célibataire,0,0.0,0.0,0.0,Groupe 6: Manœuvres/Petits métiers/Chômeurs,Privé formel,47.0,Rouge,5082
8,USER_00008,80,Âgé,1945-01-01,Homme,Rural,Secondaire,31.0,,0,0.0,,0.0,Groupe 5: Artisans/Ouvriers qualifiés,Public,42.0,Violet,50846
9,USER_00009,23,Jeune,2002-02-07,Femme,Rural,Fondamental,5.0,Célibataire,0,1.0,0.0,0.0,Groupe 2: Cadres moyens/Employés/Commerçants,Privé formel,50.0,Noir,10572


In [15]:
# Informations sur les types de données
print("Types de données et valeurs non-nulles :")
display(df.info())

Types de données et valeurs non-nulles :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 18 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   user_id                         40000 non-null  object 
 1   age                             40000 non-null  int64  
 2   categorie_age                   40000 non-null  object 
 3   date_naissance                  40000 non-null  object 
 4   sexe                            40000 non-null  object 
 5   zone                            40000 non-null  object 
 6   niveau_education                37986 non-null  object 
 7   annees_experience               37966 non-null  float64
 8   etat_matrimonial                37947 non-null  object 
 9   nombre_enfants                  40000 non-null  int64  
 10  possede_voiture                 38008 non-null  float64
 11  possede_logement                38008 non-null  floa

None

In [17]:
# 2. STATISTIQUES DESCRIPTIVES
print("\nStatistiques descriptives des variables numériques :")
display(df.describe())


Statistiques descriptives des variables numériques :


Unnamed: 0,age,annees_experience,nombre_enfants,possede_voiture,possede_logement,possede_terrain,heures_travail_hebdo,revenu_annuel
count,40000.0,37966.0,40000.0,38008.0,38008.0,37947.0,38047.0,40000.0
mean,49.669875,14.740952,1.75515,0.299832,0.399363,0.149261,36.952743,54496.75
std,19.532677,13.070607,1.683573,0.45819,0.489774,0.35635,23.756382,309231.0
min,18.0,0.0,0.0,0.0,0.0,0.0,0.0,3000.0
25%,34.0,4.0,0.0,0.0,0.0,0.0,28.0,6306.0
50%,49.0,11.0,2.0,0.0,0.0,0.0,41.0,12803.0
75%,65.0,23.0,3.0,1.0,1.0,0.0,50.0,29161.75
max,149.0,153.0,6.0,1.0,1.0,1.0,167.0,4982162.0


In [None]:
# Statistiques descriptives des variables catégorielles
print("\nDistribution des variables catégorielles :")
for col in df.select_dtypes(include=['object']).columns:
    print(f"\n{col}:")
    display(df[col].value_counts(dropna=False).reset_index().rename(
        columns={'index': col, col: 'Count'}))
    print(f"Pourcentage de valeurs manquantes: {df[col].isna().mean()*100:.2f}%")

In [None]:
# 3. ANALYSE DE LA VARIABLE CIBLE (REVENU ANNUEL)
plt.figure(figsize=(12, 8))
sns.histplot(df['revenu_annuel'], kde=True, bins=50)
plt.title('Distribution du revenu annuel')
plt.xlabel('Revenu annuel (DH)')
plt.ylabel('Fréquence')
plt.axvline(df['revenu_annuel'].mean(), color='red', linestyle='--', 
            label=f'Moyenne: {df["revenu_annuel"].mean():.2f} DH')
plt.axvline(df['revenu_annuel'].median(), color='green', linestyle='--', 
            label=f'Médiane: {df["revenu_annuel"].median():.2f} DH')
plt.legend()
plt.show()

In [None]:
# Statistiques du revenu par zone (urbain/rural)
print("\nStatistiques du revenu par zone :")
display(df.groupby('zone')['revenu_annuel'].agg(['count', 'mean', 'median', 'std', 'min', 'max']))
# Pourcentage des revenus inférieurs à la moyenne
mean_revenue = df['revenu_annuel'].mean()
below_mean_total = (df['revenu_annuel'] < mean_revenue).mean() * 100
below_mean_urban = (df[df['zone'] == 'Urbain']['revenu_annuel'] < mean_revenue).mean() * 100
below_mean_rural = (df[df['zone'] == 'Rural']['revenu_annuel'] < mean_revenue).mean() * 100

print(f"\nPourcentage des revenus < moyenne générale ({mean_revenue:.2f} DH) :")
print(f"Global: {below_mean_total:.1f}%")
print(f"Urbain: {below_mean_urban:.1f}%")
print(f"Rural: {below_mean_rural:.1f}%")

In [None]:
# 4. ANALYSE DES RELATIONS ENTRE VARIABLES


In [None]:
# Matrice de corrélation pour les variables numériques
plt.figure(figsize=(14, 10))
numeric_cols = df.select_dtypes(include=['number']).columns
correlation_matrix = df[numeric_cols].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Matrice de corrélation des variables numériques')
plt.tight_layout()
plt.show()

In [None]:
# Relation entre les variables catégorielles et le revenu
categorical_cols = ['zone', 'sexe', 'niveau_education', 'etat_matrimonial', 
                    'categorie_socioprofessionnelle', 'secteur_activite']

fig, axes = plt.subplots(3, 2, figsize=(18, 24))
axes = axes.flatten()

for i, col in enumerate(categorical_cols):
    sns.boxplot(x=col, y='revenu_annuel', data=df, ax=axes[i])
    axes[i].set_title(f'Revenu annuel par {col}')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Revenu annuel (DH)')
    axes[i].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

In [None]:
## 5. DÉTECTION DES VALEURS MANQUANTES
plt.figure(figsize=(12, 8))
missing_data = df.isnull().sum().sort_values(ascending=False)
missing_data = missing_data[missing_data > 0]
missing_percent = (missing_data / len(df)) * 100

missing_df = pd.DataFrame({
    'Nombre de valeurs manquantes': missing_data,
    'Pourcentage (%)': missing_percent
})

print("\nAnalyse des valeurs manquantes :")
display(missing_df)

if len(missing_data) > 0:
    plt.figure(figsize=(12, 8))
    sns.barplot(x=missing_percent.index, y=missing_percent.values)
    plt.title('Pourcentage de valeurs manquantes par variable')
    plt.xlabel('Variables')
    plt.ylabel('Pourcentage de valeurs manquantes (%)')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

In [None]:
# 6. DÉTECTION DES VALEURS ABERRANTES (OUTLIERS)
# Boxplot pour les variables numériques principales
numeric_cols_for_outliers = ['age', 'annees_experience', 'nombre_enfants', 
                            'heures_travail_hebdo', 'revenu_annuel']

fig, axes = plt.subplots(len(numeric_cols_for_outliers), 1, figsize=(14, 5*len(numeric_cols_for_outliers)))

for i, col in enumerate(numeric_cols_for_outliers):
    sns.boxplot(x=df[col], ax=axes[i])
    axes[i].set_title(f'Boxplot de {col}')
    axes[i].set_xlabel(col)

plt.tight_layout()
plt.show()


In [None]:
# Calculer et afficher les outliers selon la méthode IQR
print("\nDétection des valeurs aberrantes (méthode IQR) :")
for col in numeric_cols_for_outliers:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)][col]
    print(f"\nVariable: {col}")
    print(f"Nombre d'outliers: {len(outliers)} ({len(outliers)/len(df)*100:.2f}%)")
    print(f"Bornes: [{lower_bound:.2f}, {upper_bound:.2f}]")
    if len(outliers) > 0:
        print(f"Min outlier: {outliers.min():.2f}, Max outlier: {outliers.max():.2f}")


In [None]:
# 7. VÉRIFICATION DES DOUBLONS
duplicates = df.duplicated()
print(f"\nNombre de doublons: {duplicates.sum()} ({duplicates.mean()*100:.2f}%)")


In [None]:
import warnings
import numpy as np

# Désactiver les warnings liés à NumPy (si nécessaire)
if not hasattr(np, 'VisibleDeprecationWarning'):
    np.VisibleDeprecationWarning = DeprecationWarning  # "Fake" le warning manquant

warnings.filterwarnings("ignore", category=DeprecationWarning)
warnings.filterwarnings("ignore", category=UserWarning)
warnings.filterwarnings("ignore", category=FutureWarning)

# Générer le rapport Sweetviz
import sweetviz as sv

try:
    report = sv.analyze(df)
    report.show_html('rapport_analyse_exploratoire.html')
    print("✅ Rapport Sweetviz généré avec succès !")
except Exception as e:
    print(f"❌ Erreur : {e}")

In [None]:
# 9. VÉRIFICATION DE LA COHÉRENCE DES DONNÉES
# Vérifier si l'expérience > âge - 18 (incohérence)
incoherence_exp = df[df['annees_experience'] > (df['age'] - 18)]
print(f"\nNombre d'incohérences (expérience > âge-18): {len(incoherence_exp)} ({len(incoherence_exp)/len(df)*100:.2f}%)")


In [None]:
# Vérifier si l'âge correspond à la catégorie d'âge
def check_age_category(row):
    age = row['age']
    cat = row['categorie_age']
    
    if age < 30 and cat != 'Jeune':
        return False
    elif 30 <= age < 50 and cat != 'Adulte':
        return False
    elif 50 <= age < 65 and cat != 'Senior':
        return False
    elif age >= 65 and cat != 'Âgé':
        return False
    return True

age_cat_coherence = df.apply(check_age_category, axis=1)
print(f"Cohérence âge/catégorie d'âge: {age_cat_coherence.mean()*100:.2f}% des données sont cohérentes")


In [None]:
# 10. CONCLUSION DE L'ANALYSE EXPLORATOIRE
print("\n=== RÉSUMÉ DE L'ANALYSE EXPLORATOIRE ===")
print(f"Nombre total d'observations: {len(df)}")
print(f"Nombre total de variables: {len(df.columns)}")
print(f"Variables avec valeurs manquantes: {len(missing_data)}")
print(f"Nombre de doublons: {duplicates.sum()}")
print(f"Revenu annuel moyen: {df['revenu_annuel'].mean():.2f} DH")
print(f"Pourcentage de revenus inférieurs à la moyenne: {below_mean_total:.1f}%")

In [None]:
# Identification des problèmes à corriger
print("\nPROBLÈMES À CORRIGER DANS LA PHASE DE NETTOYAGE :")
print("1. Traiter les valeurs manquantes")
print("2. Gérer les valeurs aberrantes (outliers)")
print("3. Corriger les incohérences de données (ex: expérience > âge-18)")
if duplicates.sum() > 0:
    print("4. Supprimer les doublons")
print("5. Évaluer la pertinence des variables pour le modèle (ex: couleur_preferee, user_id)")

In [None]:
# Nettoyage des données

In [None]:
# # Installer scikit-learn si nécessaire
# %pip install scikit-learn

# Traitement des valeurs manquantes
from sklearn.impute import SimpleImputer # type: ignore

# Définir les colonnes numériques et catégorielles
numerical_cols = df.select_dtypes(include=['number']).columns
categorical_cols = df.select_dtypes(include=['object']).columns

# Pour les variables numériques
num_imputer = SimpleImputer(strategy='median')
df[numerical_cols] = num_imputer.fit_transform(df[numerical_cols])

# Pour les variables catégorielles
cat_imputer = SimpleImputer(strategy='most_frequent')
df[categorical_cols] = cat_imputer.fit_transform(df[categorical_cols])

# Traitement des valeurs aberrantes (exemple pour 'revenu_annuel')
Q1 = df['revenu_annuel'].quantile(0.25)
Q3 = df['revenu_annuel'].quantile(0.75)
IQR = Q3 - Q1
df = df[~((df['revenu_annuel'] < (Q1 - 1.5 * IQR)) | (df['revenu_annuel'] > (Q3 + 1.5 * IQR)))]

# Suppression des doublons
df = df.drop_duplicates()

In [None]:
#Transformation des données
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Sélection des colonnes
features = df.drop(['revenu_annuel', 'user_id', 'date_naissance'], axis=1)
target = df['revenu_annuel']

# Séparation des types de variables
numerical_cols = features.select_dtypes(include=['int64', 'float64']).columns
categorical_cols = features.select_dtypes(include=['object']).columns

# Création du pipeline de transformation
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_cols),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_cols)
    ])

# Affichage des données transformées
transformed_data = preprocessor.fit_transform(features)

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np

# 1. Chargement des données
df = pd.read_csv('dataset_revenu_marocains.csv')

# 2. Séparation des features et de la target
features = df.drop(['revenu_annuel', 'user_id', 'date_naissance'], axis=1)
target = df['revenu_annuel']

# 3. Identification des colonnes par type
numerical_cols = features.select_dtypes(include=['int64', 'float64']).columns
categorical_cols = features.select_dtypes(include=['object']).columns

# 4. Création du préprocesseur
numerical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_cols),
        ('cat', categorical_transformer, categorical_cols)
    ])

# 5. Séparation des données
X_train, X_test, y_train, y_test = train_test_split(
    features, target, test_size=0.3, random_state=42)

# 6. Définition des modèles et hyperparamètres
models = {
    'LinearRegression': {
        'model': Pipeline(steps=[
            ('preprocessor', preprocessor),
            ('regressor', LinearRegression())
        ]),
        'params': {}
    },
    'DecisionTree': {
        'model': Pipeline(steps=[
            ('preprocessor', preprocessor),
            ('regressor', DecisionTreeRegressor())
        ]),
        'params': {
            'regressor__criterion': ['squared_error', 'absolute_error'],
            'regressor__max_depth': [None, 5, 6, 7, 10],
            'regressor__min_samples_split': [2, 3, 4, 5, 10]
        }
    },
    'RandomForest': {
        'model': Pipeline(steps=[
            ('preprocessor', preprocessor),
            ('regressor', RandomForestRegressor())
        ]),
        'params': {
            'regressor__n_estimators': [50, 100, 150, 200],
            'regressor__criterion': ['squared_error', 'absolute_error'],
            'regressor__max_depth': [None, 5, 10, 15, 20]
        }
    },
    'GradientBoosting': {
        'model': Pipeline(steps=[
            ('preprocessor', preprocessor),
            ('regressor', GradientBoostingRegressor())
        ]),
        'params': {
            'regressor__loss': ['squared_error', 'absolute_error'],
            'regressor__learning_rate': [0.01, 0.1, 0.2],
            'regressor__n_estimators': [100, 200, 300],
            'regressor__subsample': [0.5, 0.8, 1]
        }
    },
    'MLP': {
        'model': Pipeline(steps=[
            ('preprocessor', preprocessor),
            ('regressor', MLPRegressor())
        ]),
        'params': {
            'regressor__hidden_layer_sizes': [(50,), (100,), (100, 50), (100, 100)],
            'regressor__activation': ['relu', 'tanh', 'logistic'],
            'regressor__solver': ['adam', 'sgd'],
            'regressor__alpha': [0.0001, 0.001, 0.01],
            'regressor__learning_rate': ['constant', 'invscaling', 'adaptive'],
            'regressor__learning_rate_init': [0.001, 0.01, 0.1],
            'regressor__max_iter': [100, 200, 300]
        }
    }
}

# 7. Évaluation des modèles
results = []
for name, config in models.items():
    print(f"Entraînement du modèle {name}...")
    
    try:
        gs = GridSearchCV(config['model'], 
                         config['params'], 
                         cv=5, 
                         scoring='neg_mean_squared_error',
                         n_jobs=-1,
                         verbose=1)
        gs.fit(X_train, y_train)
        
        # Prédictions
        y_pred = gs.best_estimator_.predict(X_test)
        
        # Métriques
        mae = mean_absolute_error(y_test, y_pred)
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))
        r2 = r2_score(y_test, y_pred)
        
        results.append({
            'model': name,
            'best_params': gs.best_params_,
            'mae': mae,
            'rmse': rmse,
            'r2': r2
        })
        
        print(f"{name} terminé avec succès.")
    except Exception as e:
        print(f"Erreur avec {name}: {str(e)}")
        continue

# 8. Affichage des résultats
results_df = pd.DataFrame(results)
print("\nRésultats finaux:")
print(results_df)