# Étape 1: Importation des packages nécessaires
Ce Notebook contient un projet de classification supervisée conçu pour analyser les données d'un recensement américain.
L'objectif est de prédire si le revenu annuel d'un adulte dépasse ou non 50 000 $.

Nous allons suivre les étapes suivantes:
1. Compréhension des données
2. Nettoyage des données
3. Transformation des données
4. Création et validation des modèles
5. Comparaison et évaluation des modèles

Importation des bibliothèques nécessaires pour la manipulation des données, la visualisation, et le machine learning.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Packages pour les algorithmes de machine learning.

In [2]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier

## Étape 1: Compréhension des données
Dans cette étape, nous allons charger et explorer l'ensemble des données pour comprendre sa structure et ses caractéristiques.

In [3]:
# Chargement de l'ensemble des données depuis le fichier CSV
df = pd.read_csv('chemin/vers/adult.csv')

# Affichage des 10 premières lignes pour un aperçu initial
print("Aperçu initial des 10 premières lignes:")
print(df.head(10))

# Affichage des statistiques descriptives
print("Statistiques descriptives:")
print(df.describe())

# Affichage des types de données et des valeurs manquantes
print("Types de données et valeurs manquantes:")
df.info()
print(df.isnull().sum())


Aperçu initial des 10 premières lignes:
   age         workclass  fnlwgt     education  educational-num  \
0   25           Private  226802          11th                7   
1   38           Private   89814       HS-grad                9   
2   28         Local-gov  336951    Assoc-acdm               12   
3   44           Private  160323  Some-college               10   
4   18                 ?  103497  Some-college               10   
5   34           Private  198693          10th                6   
6   29                 ?  227026       HS-grad                9   
7   63  Self-emp-not-inc  104626   Prof-school               15   
8   24           Private  369667  Some-college               10   
9   55           Private  104996       7th-8th                4   

       marital-status         occupation   relationship   race  gender  \
0       Never-married  Machine-op-inspct      Own-child  Black    Male   
1  Married-civ-spouse    Farming-fishing        Husband  White    Male   


## Étape 2: Nettoyage des données
Dans cette section, nous allons traiter les valeurs manquantes pour garantir la qualité de nos données.


In [4]:
# Suppression des lignes contenant des valeurs manquantes
df.dropna(inplace=True)

In [5]:
# Remplissage des valeurs manquantes pour 'educational-num' avec sa médiane
df['educational-num'] = df['educational-num'].fillna(df['educational-num'].median())

### Étape 4: Transformation des données
Nous allons encoder les variables catégorielles en numériques et normaliser les colonnes pour préparer les données à l'entraînement des modèles.

In [6]:
# Encodage des variables catégorielles
le = LabelEncoder()
df['workclass'] = le.fit_transform(df['workclass'])
df['income'] = le.fit_transform(df['income'])
# Normalisation des colonnes numériques
scaler = StandardScaler()
df[['age', 'fnlwgt', 'capital-gain', 'capital-loss', 'hours-per-week']] = scaler.fit_transform(df[['age', 'fnlwgt', 'capital-gain', 'capital-loss', 'hours-per-week']])


## Étape 3: Transformation des données
Ici, nous allons préparer les données pour l'entraînement en encodant les variables catégorielles et en normalisant les colonnes numériques.

In [7]:
# Identifier les colonnes catégorielles
categorical_cols = df.select_dtypes(include=['object']).columns

# Afficher les colonnes catégorielles
print("Colonnes catégorielles:", categorical_cols)

# Appliquer l'encodage pour toutes les colonnes catégorielles restantes
le = LabelEncoder()
for col in categorical_cols:
    df[col] = le.fit_transform(df[col])

# Vérifier les types de données pour s'assurer que toutes les colonnes sont numériques
df.info()



Colonnes catégorielles: Index(['education', 'marital-status', 'occupation', 'relationship', 'race',
       'gender', 'native-country'],
      dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   age              48842 non-null  float64
 1   workclass        48842 non-null  int32  
 2   fnlwgt           48842 non-null  float64
 3   education        48842 non-null  int32  
 4   educational-num  48842 non-null  int64  
 5   marital-status   48842 non-null  int32  
 6   occupation       48842 non-null  int32  
 7   relationship     48842 non-null  int32  
 8   race             48842 non-null  int32  
 9   gender           48842 non-null  int32  
 10  capital-gain     48842 non-null  float64
 11  capital-loss     48842 non-null  float64
 12  hours-per-week   48842 non-null  float64
 13  native-country   48842 non-null  int32

## Étape 4: Création et entraînement des modèles
Nous allons créer et entraîner trois modèles de classification : k-NN, Arbre de décision, et MLP.

In [134]:
# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(df.drop('income', axis=1), df['income'], test_size=0.2, random_state=42)

# Création et entraînement du modèle k-NN
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

# Création et entraînement de l'arbre de décision
tree = DecisionTreeClassifier(random_state=42)
tree.fit(X_train, y_train)

mlp = MLPClassifier(random_state=42, max_iter=500, learning_rate_init=0.01)
mlp.fit(X_train, y_train)

# Évaluation des modèles
print("Évaluation du modèle k-NN:")
print(classification_report(y_test, knn.predict(X_test)))

print("Évaluation de l'arbre de décision:")
print(classification_report(y_test, tree.predict(X_test)))

# Évaluation du modèle MLP après ajustements
print("Évaluation du MLP après ajustements :")
print(classification_report(y_test, mlp.predict(X_test)))




Évaluation du modèle k-NN:
              precision    recall  f1-score   support

           0       0.88      0.90      0.89      7479
           1       0.65      0.58      0.61      2290

    accuracy                           0.83      9769
   macro avg       0.76      0.74      0.75      9769
weighted avg       0.82      0.83      0.82      9769

Évaluation de l'arbre de décision:
              precision    recall  f1-score   support

           0       0.88      0.87      0.88      7479
           1       0.60      0.62      0.61      2290

    accuracy                           0.82      9769
   macro avg       0.74      0.75      0.75      9769
weighted avg       0.82      0.82      0.82      9769

Évaluation du MLP après ajustements :
              precision    recall  f1-score   support

           0       0.87      0.95      0.91      7479
           1       0.78      0.54      0.64      2290

    accuracy                           0.86      9769
   macro avg       0.82     

## Étape 5: Comparaison et évaluation des modèles
Nous allons comparer les performances des différents modèles et choisir le meilleur pour notre application.


In [135]:
# Importation des métriques nécessaires
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Évaluation du modèle k-NN
knn_predictions = knn.predict(X_test)
print("Évaluation du modèle k-NN:")
print(classification_report(y_test, knn_predictions))
print("Matrice de confusion:")
print(confusion_matrix(y_test, knn_predictions))

# Évaluation de l'arbre de décision
tree_predictions = tree.predict(X_test)
print("Évaluation de l'arbre de décision:")
print(classification_report(y_test, tree_predictions))
print("Matrice de confusion:")
print(confusion_matrix(y_test, tree_predictions))

# Évaluation du MLP
mlp_predictions = mlp.predict(X_test)
print("Évaluation du MLP:")
print(classification_report(y_test, mlp_predictions))
print("Matrice de confusion:")
print(confusion_matrix(y_test, mlp_predictions))

# Comparaison des précisions
knn_accuracy = accuracy_score(y_test, knn_predictions)
tree_accuracy = accuracy_score(y_test, tree_predictions)
mlp_accuracy = accuracy_score(y_test, mlp_predictions)

print("Précision du modèle k-NN:", knn_accuracy)
print("Précision de l'arbre de décision:", tree_accuracy)
print("Précision du MLP:", mlp_accuracy)

# Choix du meilleur modèle
best_model = max(knn_accuracy, tree_accuracy, mlp_accuracy)
if best_model == knn_accuracy:
    print("Le meilleur modèle est k-NN avec une précision de", knn_accuracy)
elif best_model == tree_accuracy:
    print("Le meilleur modèle est l'Arbre de décision avec une précision de", tree_accuracy)
else:
    print("Le meilleur modèle est MLP avec une précision de", mlp_accuracy)


Évaluation du modèle k-NN:
              precision    recall  f1-score   support

           0       0.88      0.90      0.89      7479
           1       0.65      0.58      0.61      2290

    accuracy                           0.83      9769
   macro avg       0.76      0.74      0.75      9769
weighted avg       0.82      0.83      0.82      9769

Matrice de confusion:
[[6752  727]
 [ 961 1329]]
Évaluation de l'arbre de décision:
              precision    recall  f1-score   support

           0       0.88      0.87      0.88      7479
           1       0.60      0.62      0.61      2290

    accuracy                           0.82      9769
   macro avg       0.74      0.75      0.75      9769
weighted avg       0.82      0.82      0.82      9769

Matrice de confusion:
[[6542  937]
 [ 866 1424]]
Évaluation du MLP:
              precision    recall  f1-score   support

           0       0.87      0.95      0.91      7479
           1       0.78      0.54      0.64      2290

   