In [3]:
# 1. Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import joblib


In [4]:
from google.colab import drive
drive.mount('/content/drive')

ModuleNotFoundError: No module named 'google'

In [5]:
df = pd.read_csv('augmented_data.csv')

In [6]:
# Vérification des premières lignes pour s'assurer que le fichier est bien chargé
print("Aperçu du dataset :")
print(df.head())

Aperçu du dataset :
       Sexe  Age_Bac Serie_Bac                        Etablissement  \
0  Masculin       18         C  Lycée Martin Luther King de Bouaké    
1  Masculin       17         D   COLLEGE LES PHALENES 2 DE YOPOUGON   
2   Féminin       17         D  Lycée Mamie Adjoua de Yamoussoukro    
3  Masculin       18         D                  Lycée Moderne Tanda   
4  Masculin       18         C             Lycée Houphouët boingny    

  Lieu_Habitation_Bac                              Matieres_Preferees  \
0             Bouaké             Mathematiques, SVT, Science Physique   
1            YOPOUGON  Mathematiques, SVT, Science Physique, Français   
2              Cocody            Mathematiques, SVT, Science Physique   
3               TANDA            Mathematiques, SVT, Science Physique   
4            Korhogo   Mathematiques, Science Physique, Français, EPS   

            Secteur_Desire Competences_Techniques  Note_Maths  \
0  Informatique / Télécoms                    Non

In [7]:
# 3. Séparation des caractéristiques (X) et la cible (y)
X = df.drop(columns=['Secteur_Activite'])  # Colonnes caractéristiques
y = df['Secteur_Activite']                # Colonne cible

In [8]:
# 4. Sélection des colonnes catégorielles
categorical_columns = X.select_dtypes(include=['object']).columns

In [9]:
# 5. Création du transformateur pour encoder les variables catégorielles
# Utilisation OneHotEncoder pour les variables nominales
# Ajout de handle_unknown='ignore' pour éviter les erreurs de catégories inconnues dans les données de test
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_columns),  # Pour les variables catégorielles
        ('num', 'passthrough', X.select_dtypes(exclude=['object']).columns)  # Pass-through pour les colonnes numériques
    ])


In [10]:

# 6. Création du pipeline avec prétraitement et modèle RandomForest
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))  # Modèle Random Forest
])


In [11]:
# 7. Division les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)


In [12]:
# 8. Entraînement le modèle Random Forest
pipeline.fit(X_train, y_train)

In [13]:

# 9. Génération des prédictions
y_pred = pipeline.predict(X_test)

In [14]:
print("\nRapport de classification :")
print(classification_report(y_test, y_pred))


Rapport de classification :
                                 precision    recall  f1-score   support

                           Arts       1.00      1.00      1.00        22
BTP / Matériaux de construction       1.00      1.00      1.00        21
   Banque / Assurance /Finances       1.00      1.00      1.00        22
        Informatique / Télécoms       1.00      1.00      1.00        22
     Électronique / Électricité       1.00      1.00      1.00        21

                       accuracy                           1.00       108
                      macro avg       1.00      1.00      1.00       108
                   weighted avg       1.00      1.00      1.00       108



In [15]:
joblib.dump(pipeline, "random_forest_pipeline.joblib")


['random_forest_pipeline.joblib']

In [16]:
from google.colab import files
files.download("random_forest_pipeline.joblib")


ModuleNotFoundError: No module named 'google'