## Importation des librairies

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.metrics import classification_report

In [None]:
# Chargement du dataset
file_path = 'Dataset.csv'
df = pd.read_csv(file_path, sep=';', encoding='utf-8-sig')

# Afficher les premières lignes pour vérifier
df.head()

Unnamed: 0,Nom,Prénom,Adresse Email,Numéro de Téléphone,Âge,Sexe,Filière,Année d'étude,Compétences Techniques,Compétences Personnelles,Poste,Motivation pour le Poste,Idées ou Projets,Heures par Semaine,Disponibilité Réunions,Année de Candidature,A Occupé le Poste
0,Charles,Pierre,zacharievincent@bouygtel.fr,03 51 20 05 83,27,Homme,Génie électrique,3ème année,"Communication orale et écrite, Design et créat...","Résolution de problèmes, Créativité, Travail e...",Head Cell Competitive Programming,Je souhaite utiliser mes compétences pour réso...,Introduire des outils numériques pour la gesti...,8,Non,1976,1
1,Duval,Cécile,rduval@bonnin.fr,+33 4 55 15 02 46,21,Femme,Management,2ème année,"Communication orale et écrite, Analyse de données","Leadership, Résolution de problèmes, Travail e...",Secrétaire Général,Je souhaite renforcer ma créativité et mes com...,Mettre en place des partenariats avec d'autres...,5,Non,1981,1
2,Bouvet,Sylvie,frederique96@dupuis.org,+33 5 26 84 61 91,20,Homme,Génie électrique,2ème année,"Cybersécurité, Design et création de contenu, ...","Travail en équipe, Résolution de problèmes",Sponsoring Cell,Je veux aider à intégrer de nouvelles technolo...,Lancer un blog pour partager les expériences d...,20,Oui,1992,1
3,Lacombe,Guy,eleonore05@roy.com,173083162,29,Femme,Management,2ème année,"IA ou Data Science, Gestion de projets, Design...","Résolution de problèmes, Créativité",Co-Head Cell CyberSecurity,Je souhaite participer à l'organisation d'évén...,Collaborer avec des entreprises locales pour d...,16,Non,1988,1
4,Lefebvre,Josette,revrard@free.fr,469835562,20,Femme,Informatique,2ème année,"Cybersécurité, Programmation, Compétition algo...","Leadership, Créativité",Président,Mon objectif est de développer mes compétences...,Organiser un hackathon pour les membres du club.,16,Oui,2022,1


In [None]:
# Vérification des valeurs manquantes
print(df.isnull().sum())

Nom                         0
Prénom                      0
Adresse Email               0
Numéro de Téléphone         0
Âge                         0
Sexe                        0
Filière                     0
Année d'étude               0
Compétences Techniques      0
Compétences Personnelles    0
Poste                       0
Motivation pour le Poste    0
Idées ou Projets            0
Heures par Semaine          0
Disponibilité Réunions      0
Année de Candidature        0
A Occupé le Poste           0
dtype: int64


In [None]:
# Step 1: Encode categorical features
categorical_columns = ['Poste', 'Filière', 'Sexe', "Année d'étude"]
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')  # Use sparse_output instead of sparse
encoded_categorical = encoder.fit_transform(df[categorical_columns])
encoded_categorical_df = pd.DataFrame(encoded_categorical, columns=encoder.get_feature_names_out(categorical_columns))

In [None]:
# Step 2: Scale numerical features
numerical_columns = ['Âge', 'Heures par Semaine']
scaler = StandardScaler()
scaled_numerical = scaler.fit_transform(df[numerical_columns])
scaled_numerical_df = pd.DataFrame(scaled_numerical, columns=numerical_columns)

In [None]:
# Step 3: Combine processed data
processed_df = pd.concat([scaled_numerical_df, encoded_categorical_df], axis=1)
processed_df['A Occupé le Poste'] = df['A Occupé le Poste']

In [None]:
# Step 4: Split data into train and test sets
X = processed_df.drop(columns=['A Occupé le Poste'])
y = processed_df['A Occupé le Poste']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Step 5: Train the model
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

In [None]:
# Initialize models
models = {
    "Random Forest": RandomForestClassifier(random_state=42),
    "Logistic Regression": LogisticRegression(max_iter=1000, random_state=42),
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Gradient Boosting": GradientBoostingClassifier(random_state=42),
    "Support Vector Machine": SVC(probability=True, random_state=42)
}

# Evaluate each model
results = {}
for model_name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    results[model_name] = classification_report(y_test, y_pred, output_dict=True)
    print(f"Results for {model_name}:\n")
    print(classification_report(y_test, y_pred))

Results for Random Forest:

              precision    recall  f1-score   support

           0       0.53      0.64      0.58       110
           1       0.42      0.32      0.36        90

    accuracy                           0.49       200
   macro avg       0.48      0.48      0.47       200
weighted avg       0.48      0.49      0.48       200

Results for Logistic Regression:

              precision    recall  f1-score   support

           0       0.57      0.80      0.67       110
           1       0.52      0.27      0.35        90

    accuracy                           0.56       200
   macro avg       0.55      0.53      0.51       200
weighted avg       0.55      0.56      0.53       200

Results for Decision Tree:

              precision    recall  f1-score   support

           0       0.57      0.56      0.57       110
           1       0.47      0.48      0.48        90

    accuracy                           0.53       200
   macro avg       0.52      0.52     

In [None]:
import joblib

# Save the Logistic Regression model to a .pkl file
logistic_model = models["Logistic Regression"]
model_path = "model.pkl"
joblib.dump(logistic_model, model_path)
joblib.dump(encoder, 'encoder.pkl')
joblib.dump(scaler, 'scaler.pkl')
model_path

'model.pkl'

In [None]:
import pandas as pd
import joblib
from sklearn.preprocessing import OneHotEncoder, StandardScaler

# Charger le dataset
dataset_path = 'Dataset.csv'
df = pd.read_csv(dataset_path, sep=';', encoding='utf-8-sig')

# Encoder les variables catégorielles
categorical_columns = ['Poste', 'Filière', 'Sexe', "Année d'étude"]
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
encoded_categorical = encoder.fit_transform(df[categorical_columns])

# Créer un DataFrame avec les colonnes encodées
encoded_categorical_df = pd.DataFrame(encoded_categorical, columns=encoder.get_feature_names_out(categorical_columns))

# Mettre à l'échelle les variables numériques
numerical_columns = ['Âge', 'Heures par Semaine']
scaler = StandardScaler()
scaled_numerical = scaler.fit_transform(df[numerical_columns])
scaled_numerical_df = pd.DataFrame(scaled_numerical, columns=numerical_columns)

# Fusionner les données traitées
processed_df = pd.concat([scaled_numerical_df, encoded_categorical_df], axis=1)
processed_df['A Occupé le Poste'] = df['A Occupé le Poste']

# Charger le modèle sauvegardé depuis le fichier .pkl
model_path = 'model.pkl'
loaded_model = joblib.load(model_path)

# Sélectionner un exemple de données à tester
example_data = processed_df.iloc[0:1]  # Utiliser la première ligne du dataset comme exemple

# Effectuer une prédiction avec le modèle
prediction = loaded_model.predict(example_data.drop(columns=['A Occupé le Poste']))

# Afficher la prédiction
print("Prédiction pour l'exemple donné :", prediction)


Prédiction pour l'exemple donné : [0]
