In [None]:
import pandas as pd
import re
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
import spacy
import joblib

df = pd.read_csv('Candidature.csv', encoding='utf-8')

def preprocess_text(text):
    # Convert to lowercase
    text = text.lower()
    # Remove punctuation and special characters
    text = re.sub(r'[^\w\s]', '', text)
    # Remove extra whitespace
    text = re.sub(r'\s+', ' ', text).strip()
    # Tokenization
    return text

for text in df['Contenu']:
    preprocessed_text = preprocess_text(text)
    df['Contenu'] = df['Contenu'].replace(text, preprocessed_text)

nlp = spacy.load("fr_core_news_sm")

def spacy_tokenizer(text):
    doc = nlp(text.lower())
    return " ".join([token.text for token in doc if not token.is_stop and not token.is_punct])

df["Contenu_Lemmatise"] = df["Contenu"].apply(spacy_tokenizer)

X = df["Contenu_Lemmatise"]
y = df["Réponse"]

X_train, X_test, y_train, y_test =X[8:], X[:8],y[8:], y[:8] 

vectorizer = TfidfVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

model = LogisticRegression()
model.fit(X_train_vec, y_train)

y_pred = model.predict(X_test_vec)

text = ["Merci pour votre candidature. Nous souhaiterions vous rencontrer pour un entretien afin d'échanger davantage sur votre profil. Merci de nous indiquer vos disponibilités cette semaine.",
  "Après examen de votre candidature, nous avons le regret de vous informer que votre profil n’a pas été retenu pour ce poste.Nous vous remercions pour l'intérêt porté à notre entreprise.",
  "Suite à nos échanges et votre entretien, nous sommes heureux de vous proposer le poste de Data Analyst Junior. Vous trouverez ci-joint les documents nécessaires à la suite du processus.Au plaisir de vous compter parmi nous",
"Nous vous remercions pour votre candidature. Vous êtes convié(e) à un entretien technique le [date/heure], en visioconférence. Merci de confirmer votre présence.",
"Nous avons bien reçu votre candidature. Après analyse, nous avons décidé de ne pas donner suite à votre profil pour ce poste.Nous vous souhaitons une bonne continuation.",
"Nous vous remercions pour le temps consacré à nos échanges. Nous avons le plaisir de vous informer que vous êtes retenu(e) pour la prochaine étape du processus de recrutement.",
"Malgré l’intérêt que présente votre profil, nous avons décidé de poursuivre avec d’autres candidatures. Nous vous remercions pour votre démarche et restons disponibles pour un retour.",
"Nous avons le plaisir de vous annoncer que vous avez été sélectionné(e) pour rejoindre notre équipe en tant que Data Scientist Junior. Merci de bien vouloir confirmer votre acceptation avant le [date].",
"Votre candidature a retenu notre attention. Nous souhaitons organiser un entretien RH afin d’échanger sur vos motivations et votre parcours. Merci de nous proposer vos disponibilités.",
]

In [12]:
import time
text = ["Merci pour votre candidature. Nous souhaiterions vous rencontrer pour un entretien afin d'échanger davantage sur votre profil. Merci de nous indiquer vos disponibilités cette semaine."]

In [16]:
text = ["Merci pour votre candidature. Nous souhaiterions vous rencontrer pour un entretien afin d'échanger davantage sur votre profil. Merci de nous indiquer vos disponibilités cette semaine."]

results = []

start_time  = time.time()
for t in text:
    preprocessed = preprocess_text(t)
    lemmatized = spacy_tokenizer(preprocessed)
    vectorized = vectorizer.transform([lemmatized])
    prediction = model.predict(vectorized)[0]
    results.append((t, prediction))

for original_text, prediction in results:
    print(f"Texte : {original_text}\n➡️ Prédiction : {prediction}\n{'-'*80}")

end_time  = time.time()

print(f"Temps d'exécution : {end_time - start_time:.2f} secondes")


Texte : Merci pour votre candidature. Nous souhaiterions vous rencontrer pour un entretien afin d'échanger davantage sur votre profil. Merci de nous indiquer vos disponibilités cette semaine.
➡️ Prédiction : En cours
--------------------------------------------------------------------------------
Temps d'exécution : 0.02 secondes
