In [9]:
import pandas as pd
import re
from sklearn.feature_extraction.text import TfidfVectorizer

# Charger le dataset
file_path = "/kaggle/input/resume/resume.csv"
df = pd.read_csv(file_path)

# Afficher les premières lignes du dataset
print("Dataset initial :")
print(df.head())

# Liste personnalisée de stop words (en anglais)
custom_stop_words = set([
    "a", "an", "the", "and", "or", "but", "if", "in", "on", "with", "as", "by", "for", "of", "at", "to", "from", "up", "down", "out", "over", "under", "again", "further", "then", "once"
])

# Fonction pour nettoyer le texte
def clean_text(text):
    # Supprimer les caractères spéciaux, les chiffres et la ponctuation
    text = re.sub(r'[^a-zA-Z\s]', '', text)  # Garde uniquement les lettres et les espaces
    return text

# Fonction pour convertir en minuscules
def to_lowercase(text):
    return text.lower()

# Fonction pour tokeniser le texte
def tokenize_text(text):
    return text.split()  # Diviser le texte en mots

# Fonction pour supprimer les stop words
def remove_stopwords(tokens):
    return [word for word in tokens if word not in custom_stop_words]

# Appliquer le prétraitement
def preprocess_text(text):
    text = clean_text(text)
    text = to_lowercase(text)
    tokens = tokenize_text(text)
    tokens = remove_stopwords(tokens)
    return ' '.join(tokens)  # Rejoindre les tokens en une seule chaîne de caractères

# Appliquer le prétraitement à la colonne 'resume'
df['cleaned_text'] = df['resume'].apply(preprocess_text)

# Afficher les premières lignes après prétraitement
print("\nDataset après prétraitement :")
print(df[['resume', 'cleaned_text']].head())

# Vectorisation avec TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['cleaned_text'])

# Afficher la forme de la matrice TF-IDF
print("\nShape de la matrice TF-IDF :", X.shape)

# Afficher les premiers vecteurs TF-IDF
print("\nPremiers vecteurs TF-IDF :")
print(X.toarray()[:5])

# Sauvegarder les données prétraitées (optionnel)
output_path = "/kaggle/working/cleaned_resumes.csv"
df.to_csv(output_path, index=False)
print(f"\nDonnées prétraitées sauvegardées dans : {output_path}")

Dataset initial :
   label                                             resume
0      0  \n\nSUMMARY\n\nAround 7 years of experience in...
1      0  \n\nSUMMARY\n\nOver 8+ years of experience in ...
2      0  \n\nSUMMARY\n\nPossess 5 years of work experie...
3      0  \n\nSUMMARY\n\n7+ years of experience in SDLC ...
4      0  \n\nSUMMARY\n\nAround 9 years of professional ...

Dataset après prétraitement :
                                              resume  \
0  \n\nSUMMARY\n\nAround 7 years of experience in...   
1  \n\nSUMMARY\n\nOver 8+ years of experience in ...   
2  \n\nSUMMARY\n\nPossess 5 years of work experie...   
3  \n\nSUMMARY\n\n7+ years of experience in SDLC ...   
4  \n\nSUMMARY\n\nAround 9 years of professional ...   

                                        cleaned_text  
0  summary around years experience it industry al...  
1  summary years experience designing developing ...  
2  summary possess years work experience net tech...  
3  summary years experience sdlc i