In [3]:
# src/data_load.py

import pandas as pd
from pathlib import Path

def load_cv_data(file_name: str = "dataset_cv.csv", raw_data_dir: str = "../data/raw/") -> pd.DataFrame:
    
    file_path = Path(raw_data_dir) / file_name
    
    if not file_path.exists():
        raise FileNotFoundError(f"Le fichier {file_path} n'existe pas.")
    
    # Charger le CSV
    df = pd.read_csv(file_path)
    
    # Vérifier les colonnes importantes
    expected_columns = ["cv_text", "job_domain", "experience_level", "skills"]  # à adapter selon ton CSV
    for col in expected_columns:
        if col not in df.columns:
            raise ValueError(f"La colonne attendue '{col}' est manquante dans le fichier CSV.")
    
    # Supprimer les doublons
    df = df.drop_duplicates()
    
    # Supprimer les lignes vides
    df = df.dropna(subset=expected_columns)
    
    df.reset_index(drop=True, inplace=True)
    
    return df


if __name__ == "__main__":
    # Test rapide
    data = load_cv_data()
    print(f"Nombre de CV chargés : {len(data)}")
    print(data.head())


Nombre de CV chargés : 1000
       id                                            cv_text  \
0  CV0001  Indiquer colline puis. Moindre spectacle leque...   
1  CV0002  Vers brusquement mer rang avis venir froid. Dr...   
2  CV0003  Réclamer meilleur hier plante mari extraordina...   
3  CV0004  Résistance parler sept. Paupière emmener vendr...   
4  CV0005  Pouvoir rompre chacun trente dormir. Coucher a...   

               job_domain experience_level  \
0              Hôtellerie           Expert   
1              Hôtellerie           Expert   
2  Finance & Comptabilité           Senior   
3            Informatique    Intermédiaire   
4            Informatique           Junior   

                                              skills  
0  Compétence_Hôt_1;Compétence_Hôt_2;Compétence_H...  
1  Compétence_Hôt_1;Compétence_Hôt_5;Compétence_H...  
2  Compétence_Fin_7;Compétence_Fin_3;Compétence_F...  
3  Compétence_Inf_7;Compétence_Inf_6;Compétence_I...  
4  Compétence_Inf_3;Compétence_Inf_