# Adult Income Classification Project

Le projet vise √† analyser le jeu de donn√©es Adult Income afin d‚Äôidentifier les diff√©rents facteurs qui influencent le niveau de revenu d'une personne et de construire un mod√®le capable de pr√©dire si une personne gagne plus ou moins de 50 000 dollars par an. 

Le dataset, disponible dans plusieurs versions (UCI, OpenML, variantes nettoy√©es ou simplifi√©es), est ici utilis√© dans sa version OpenML, qui offre un format homog√®ne et des variables √† la fois num√©riques et cat√©gorielles. Notre probl√®me sera approch√© sous la forme d'une classification binaire (+ ou - de 50k$/an de revenus) car le dataset ne contient pas la valeur exacte du revenu, qu'une cat√©gorie.

Ce notebook sera articul√© en trois grandes parties :

1. **Exploration des donn√©es (EDA) et analyses non supervis√©es**
2. **Pr√©processing des donn√©es et s√©paration des jeux d'apprentissage/test**
3. **Mod√©lisation supervis√©e (baseline vs ensembles) et comparaison des performances**

Chaque section inclut des explications d√©taill√©es pour assurer la reproductibilit√© de l'analyse.


Avant de commencer, voici tous les imports de librairie dont nous auront besoin pour lancer les cellules ci-dessous.

In [None]:
import warnings
warnings.filterwarnings("ignore")

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import classification_report, accuracy_score, f1_score, confusion_matrix

sns.set_theme(style="whitegrid", context="notebook")
plt.rcParams["figure.figsize"] = (10, 5)

DATA_PATH = "adult.csv"


# 1 - Exploration de donn√©es et analyse non supervis√©e

## Caract√©ristiques du dataset

In [None]:
df = pd.read_csv(DATA_PATH)
print("Shape:", df.shape)
df.head()


**Nombre d'instances :** Le dataset complet contient 48 842 entr√©es. C'est un volume suffisant pour entra√Æner un mod√®le robuste.

**Nombre de features :** Il y a 14 variables explicatives + 1 variable cible (income).

In [None]:
print("\nTypes de donn√©es:")
print(df.info())


**Types de variables :**

- **Num√©riques :** age, fnlwgt (= final weight), education-num, capital-gain, capital-loss, hours-per-week.

- **Cat√©gorielles :** workclass, education, marital-status, occupation, relationship, race, sex, native-country.

## Analyse et gestion des valeurs manquantes


In [None]:
print("\nValeurs manquantes par colonne:")
missing_counts = df.isna().sum()
print(missing_counts[missing_counts > 0] if missing_counts.sum() > 0 else "Aucune valeur manquante d√©tect√©e")

# D√©tecter les '?' comme valeurs manquantes
print("\n--- D√©tection des '?' comme valeurs manquantes ---")
for col in df.columns:
    if df[col].dtype == 'object':
        question_count = (df[col] == '?').sum()
        if question_count > 0:
            print(f"{col}: {question_count} valeurs manquantes ('?')")



### Interpr√©tation des valeurs manquantes

Les points d'interrogation ('?') observ√©s dans le dataset repr√©sentent des **valeurs manquantes** (donn√©es non disponibles ou non renseign√©es). Ces valeurs peuvent affecter la qualit√© de nos pr√©dictions et doivent √™tre trait√©es.

In [None]:
df = df.replace('?', np.nan)

missing_summary = pd.DataFrame({
    'Colonne': df.columns,
    'Manquantes': df.isna().sum(),
    'Pourcentage': (df.isna().sum() / len(df) * 100).round(2)
})
missing_summary = missing_summary[missing_summary['Manquantes'] > 0].sort_values('Manquantes', ascending=False)
print(missing_summary.to_string(index=False))


In [None]:
df_temp = df.copy()
df_temp = df_temp.replace('?', np.nan)
rows_with_missing = df_temp.isna().any(axis=1).sum()

total_rows = len(df)
percentage_lost = (rows_with_missing / total_rows) * 100

print(f"   - Nombre total de lignes: {total_rows:,}")
print(f"   - Lignes contenant au moins un '?': {rows_with_missing:,}")
print(f"   - Pourcentage de donn√©es PERDUES: {percentage_lost:.2f}%")

Notre analyse pr√©liminaire montre que la suppression des lignes contenant au moins une valeur manquante entra√Ænerait une perte de donn√©es sup√©rieure √† 5%. Nous craignons que r√©duire la taille du jeu d'entra√Ænement d'autant de valeurs puisse nuire √† la capacit√© du mod√®le √† g√©n√©raliser.

### Strat√©gie choisie pour ce projet

Nous n'avons que des variables cat√©gorielles √† imputer, nous avons donc fait le choix de faire une imputation par mode.

In [None]:
# Application de l'imputation par mode (most_frequent) sur les variables cat√©gorielles
print("=== Avant imputation ===")
print(f"Valeurs manquantes totales : {df.isna().sum().sum()}")
print("\nD√©tail par colonne :")
print(df.isna().sum()[df.isna().sum() > 0])

# Imputation des variables cat√©gorielles avec la valeur la plus fr√©quente (mode)
categorical_cols = df.select_dtypes(include=['object']).columns
for col in categorical_cols:
    if df[col].isna().sum() > 0:
        mode_value = df[col].mode()[0]  # R√©cup√©ration du mode
        df[col].fillna(mode_value, inplace=True)
        print(f"\n - {col} : imput√© avec '{mode_value}'")

print("\n=== Apr√®s imputation ===")
print(f"Valeurs manquantes totales : {df.isna().sum().sum()}")


## Analyse des distributions

Cette section examine la r√©partition des valeurs pour chaque variable du dataset, ce qui permet de :
- Comprendre la forme des distributions
- Identifier les d√©s√©quilibres dans les variables cat√©gorielles
- D√©tecter d'√©ventuels patterns ou anomalies dans les donn√©es

### Distribution des variables num√©riques

In [None]:
# Histogrammes des variables num√©riques
numeric_cols = df.select_dtypes(include=["int64", "float64"]).columns
fig, axes = plt.subplots(2, 3, figsize=(16, 10))
axes = axes.flatten()

for idx, col in enumerate(numeric_cols):
    axes[idx].hist(df[col], bins=50, color='steelblue', edgecolor='black', alpha=0.7)
    axes[idx].set_title(f"Distribution de {col}", fontsize=12, fontweight='bold')
    axes[idx].set_xlabel(col)
    axes[idx].set_ylabel("Fr√©quence")
    axes[idx].grid(alpha=0.3)

plt.tight_layout()
plt.show()



**Observations :**
- **age** : Distribution uniforme, pic 30-40 ans (population active)
- **fnlwgt** : Poids d√©mographique Census (~200k). Candidate √† la suppression (pond√©ration statistique, non pr√©dictive)
- **educational-num** : Concentr√© 9-10 (HS-grad/Some-college)
- **capital-gain/loss** : ~95% de z√©ros, valeurs √©lev√©es rares ‚Üí discriminant pour hauts revenus
- **hours-per-week** : Pic √† 40h (temps plein), quelques extr√™mes (>60h)

### Distribution des variables cat√©gorielles

In [None]:
# S√©lection des principales variables cat√©gorielles √† visualiser
categorical_cols = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'gender']

fig, axes = plt.subplots(4, 2, figsize=(16, 14))
axes = axes.flatten()

for idx, col in enumerate(categorical_cols):
    value_counts = df[col].value_counts()
    axes[idx].barh(value_counts.index, value_counts.values, color='coral', edgecolor='black')
    axes[idx].set_title(f"Distribution de {col}", fontsize=12, fontweight='bold')
    axes[idx].set_xlabel("Fr√©quence")
    axes[idx].invert_yaxis()
    
    # Afficher les pourcentages
    for i, v in enumerate(value_counts.values):
        axes[idx].text(v + max(value_counts.values)*0.01, i, f'{v} ({v/len(df)*100:.1f}%)', 
                       va='center', fontsize=9)

# Masquer le dernier subplot s'il est vide
if len(categorical_cols) < len(axes):
    axes[-1].axis('off')

plt.tight_layout()
plt.show()

**Observations :**
- **workclass** : Private dominant (~75%), Self-employed ~10%, secteur public ~15%
- **education** : HS-grad et Some-college majoritaires, Bachelors ~16%, Masters ~5%
- **marital-status** : Married-civ-spouse ~45%, Never-married ~35% ‚Üí tr√®s pr√©dictif (doubles revenus)
- **occupation** : Distribution √©quilibr√©e, Prof-specialty et Craft-repair dominants
- **relationship** : Husband ~40%, Not-in-family ~26% ‚Üí Risque colin√©arit√© avec marital-status
- **race** : White ~85%, Black ~10% ‚Üí Variable sensible (biais potentiels)
- **gender** : Male ~67%, Female ~33% ‚Üí Variable sensible (biais de genre)

## Distributions, Outliers & Pr√©paration

**Variables "tail-heavy" (asym√©trie forte) :**
- capital-gain/loss : ~95% z√©ros, valeurs √©lev√©es rares (>20k$)
- fnlwgt : Longue queue droite
- hours-per-week : Centr√©e 40h, extr√™mes >80h

**√âchelles h√©t√©rog√®nes :**
- fnlwgt : 10k-1M (x100) | capital-gain/loss : 0-100k$ (x1000) | age : 17-90

‚Üí N√©cessite normalisation pour √©viter domination artificielle dans les algorithmes √† distance/gradient.

### D√©tection des Outliers : Isolation Forest

**Choix :** Isolation Forest pour d√©tecter anomalies multidimensionnelles
- Adapt√© aux distributions asym√©triques
- Aucune hypoth√®se sur la distribution

In [None]:
from sklearn.ensemble import IsolationForest

# S√©lection des variables num√©riques pour la d√©tection d'outliers
numeric_cols_for_outliers = ['age', 'fnlwgt', 'educational-num', 
                              'capital-gain', 'capital-loss', 'hours-per-week']

# Cr√©ation d'un subset sans valeurs manquantes pour l'analyse
df_numeric = df[numeric_cols_for_outliers].copy()

# Remplacement des '?' par NaN si pr√©sents (bien que peu probable pour les num√©riques)
# Supprimer les lignes avec NaN pour Isolation Forest
df_numeric_clean = df_numeric.dropna()

print(f"Dataset pour d√©tection d'outliers: {df_numeric_clean.shape[0]} observations")

# Isolation Forest avec contamination=0.05 (on estime 5% d'outliers)
iso_forest = IsolationForest(contamination=0.05, random_state=42, n_jobs=-1)
outlier_predictions = iso_forest.fit_predict(df_numeric_clean)

# -1 = outlier, 1 = inlier
n_outliers = (outlier_predictions == -1).sum()
outlier_percentage = (n_outliers / len(outlier_predictions)) * 100

print(f"\nüìä R√©sultats de la d√©tection d'outliers:")
print(f"   - Outliers d√©tect√©s: {n_outliers} ({outlier_percentage:.2f}%)")
print(f"   - Inliers (normaux): {(outlier_predictions == 1).sum()} ({100-outlier_percentage:.2f}%)")

# Analyse des caract√©ristiques des outliers
df_numeric_clean['is_outlier'] = outlier_predictions == -1
outlier_summary = df_numeric_clean.groupby('is_outlier')[numeric_cols_for_outliers].mean()

print("\nüìà Comparaison Inliers vs Outliers (moyennes):")
print(outlier_summary.round(2))

**Interpr√©tation des moyennes :**

Les outliers pr√©sentent des profils distincts r√©v√©lant leur nature :
- **Age +9 ans** (47 vs 38) ‚Üí Population plus mature
- **capital-gain x26** (12,440$ vs 480$) ‚Üí Revenus de capitaux √©lev√©s
- **capital-loss x44** (1,221$ vs 28$) ‚Üí Pertes en capital significatives
- **hours-per-week +5h** (45 vs 40) ‚Üí Plus d'heures travaill√©es

Cependant, ces outliers repr√©sentent des profils r√©els (cadres seniors, investisseurs) et non des erreurs de mesure.

**M√©thode de gestion : Conservation + Double att√©nuation**

1. **Pas de suppression** : Profils l√©gitimes, informations utiles pour le mod√®le
2. **Att√©nuation automatique via StandardScaler** : Ram√®ne valeurs extr√™mes vers 0, r√©duit leur influence
3. **Robustesse intrins√®que** : Random Forest/Gradient Boosting tol√®rent naturellement les outliers (splits binaires, pas de calculs de distances)

### Distribution de la variable cible (Target)

In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(data=df, x="income")
plt.title("R√©partition de la variable cible (income)")
plt.show()

income_ratio = df["income"].value_counts(normalize=True)
print("R√©partition proportionnelle:\n", income_ratio)


In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14, 5))
sns.boxplot(data=df, x="income", y="age", ax=axes[0])
axes[0].set_title("Distribution de l'√¢ge selon le revenu")

education_order = df["education"].value_counts().index
sns.countplot(data=df, y="education", hue="income", order=education_order, ax=axes[1])
axes[1].set_title("R√©partition de l'income par niveau d'√©ducation")
plt.tight_layout()
plt.show()


In [None]:
numeric_cols = df.select_dtypes(include=["int64", "float64"]).columns
corr_matrix = df[numeric_cols].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap="coolwarm", square=True)
plt.title("Heatmap des corr√©lations (variables num√©riques)")
plt.show()


In [None]:
scaler = StandardScaler()
pca = PCA(n_components=2, random_state=42)

numeric_data = df[numeric_cols].copy()
numeric_scaled = scaler.fit_transform(numeric_data)
pca_components = pca.fit_transform(numeric_scaled)

pca_df = pd.DataFrame(pca_components, columns=["PC1", "PC2"])
pca_df["income"] = df["income"].values

plt.figure(figsize=(8, 6))
sns.scatterplot(data=pca_df, x="PC1", y="PC2", hue="income", alpha=0.5)
plt.title("PCA (2 composantes) color√©e par income")
plt.show()

explained_var = pca.explained_variance_ratio_
print(f"Variance expliqu√©e par PC1+PC2: {explained_var.sum():.2%}")


In [None]:
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
clusters = kmeans.fit_predict(numeric_scaled)

cluster_df = pd.DataFrame(pca_components, columns=["PC1", "PC2"])
cluster_df["cluster"] = clusters.astype(str)

plt.figure(figsize=(8, 6))
sns.scatterplot(data=cluster_df, x="PC1", y="PC2", hue="cluster", palette="tab10", alpha=0.6)
plt.title("Clusters K-Means projet√©s sur les composantes PCA")
plt.show()

cluster_target = pd.crosstab(clusters, df["income"], normalize="index")
print("Distribution de income par cluster:")
print(cluster_target)


# Pr√©paration des donn√©es & D√©coupage Train/Test

Nous encodons la cible, s√©parons features/cible, puis construisons un pipeline de pr√©traitement combinant imputations, standardisation des num√©riques et encodage one-hot des variables cat√©gorielles.


In [None]:
target_col = "income"
label_encoder = LabelEncoder()
df["income_encoded"] = label_encoder.fit_transform(df[target_col])

y = df["income_encoded"]
X = df.drop(columns=[target_col, "income_encoded"])


In [None]:
numeric_features = [
    "age",
    "fnlwgt",
    "educational-num",
    "capital-gain",
    "capital-loss",
    "hours-per-week",
]

categorical_features = [col for col in X.columns if col not in numeric_features]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

numeric_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler()),
])

categorical_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("onehot", OneHotEncoder(handle_unknown="ignore")),
])

preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features),
    ]
)

print(f"Variables num√©riques ({len(numeric_features)}): {numeric_features}")
print(f"Variables cat√©gorielles ({len(categorical_features)}): {categorical_features}")


# 3 - Mod√©lisation : Baseline vs Ensembles

Entra√Ænement de 3 mod√®les (Logistic Regression, Random Forest, Gradient Boosting) avec pipeline complet. Comparaison Accuracy/F1 et matrice de confusion du meilleur.

In [None]:
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Random Forest": RandomForestClassifier(n_estimators=300, random_state=42, n_jobs=-1),
    "Gradient Boosting": GradientBoostingClassifier(random_state=42),
}

trained_pipelines = {}
metrics_records = []

for name, estimator in models.items():
    clf = Pipeline(steps=[
        ("preprocessor", preprocessor),
        ("model", estimator),
    ])
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)

    acc = accuracy_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    metrics_records.append({"Model": name, "Accuracy": acc, "F1-Score": f1})
    trained_pipelines[name] = clf

    print(f"===== {name} =====")
    print(classification_report(y_test, y_pred, target_names=label_encoder.classes_))

metrics_df = pd.DataFrame(metrics_records).sort_values(by="F1-Score", ascending=False)
metrics_df


In [None]:
best_model_name = metrics_df.iloc[0]["Model"]
best_pipeline = trained_pipelines[best_model_name]
y_pred_best = best_pipeline.predict(X_test)

cm = confusion_matrix(y_test, y_pred_best)
plt.figure(figsize=(5, 4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=label_encoder.classes_, yticklabels=label_encoder.classes_)
plt.xlabel("Pr√©dictions")
plt.ylabel("V√©rit√© terrain")
plt.title(f"Matrice de confusion ¬∑ {best_model_name}")
plt.show()

print(f"Meilleur mod√®le selon F1: {best_model_name}")


### Conclusion

Mod√®les d'ensemble (RF, GB) surpassent Logistic Regression. Base solide pour it√©rations futures (hyperparam√®tres, d√©s√©quilibre, interpr√©tabilit√©).