In [4]:
#importation
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import joblib
import numpy as np


In [5]:
# Charger les données
data = pd.read_csv('job.csv')

# Utiliser les descriptions d'emploi comme entrée et les compétences comme cible
X = data['Description']
y = data['Skills']
vectorizer = TfidfVectorizer()
X_vect = vectorizer.fit_transform(X)

# Encodage des compétences
encoder = LabelEncoder()
y_encoded = encoder.fit_transform(y)
# Séparation en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X_vect, y_encoded, test_size=0.2, random_state=42)

# Entraînement du modèle de régression logistique
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Précision du modèle: {accuracy}')
joblib.dump(model, 'job_model2.joblib')
joblib.dump(vectorizer, 'job_vectorizer2.joblib')
joblib.dump(encoder, 'job_encoder2.joblib')

def predict_top_5_skills(description):
    description_vect = vectorizer.transform([description])
    probabilities = model.predict_proba(description_vect)[0]
    
    # Obtenir les indices des 5 meilleures probabilités
    top_5_indices = np.argsort(probabilities)[-5:]
    
    # Récupérer les compétences correspondantes
    top_5_skills = encoder.inverse_transform(top_5_indices)
    
    return top_5_skills

# Test de la fonction de prédiction
new_description = "Développeur web maîtrisant JavaScript, React et Node.js pour créer des applications dynamiques."
predicted_skills = predict_top_5_skills(new_description)
print(f'Les 5 compétences prédites pour la nouvelle description sont : {predicted_skills}')

Précision du modèle: 1.0
Les 5 compétences prédites pour la nouvelle description sont : ['SQL, MySQL, Oracle, DBMS' 'Support client, Dépannage, Windows OS'
 'AWS, Azure, Cloud Computing, Docker, Kubernetes'
 'JavaScript, React, Node.js, HTML, CSS'
 'Python, R, Machine Learning, Statistiques, SQL']
