In [None]:
import pandas as pd
from openai import OpenAI
import re
import unicodedata
from referentiels import referentiels
import numpy as np
import json
from dotenv import load_dotenv
import os

# Charger les variables depuis le fichier .env
load_dotenv()

# R√©cup√©rer la cl√©
api_key = os.getenv('OPENAI_API_KEY')

# Cl√© API OpenAI

client = OpenAI(api_key = api_key)


def load_data(filepath="data/besoins_24_25.csv"):
    import os
    import pandas as pd

    try:
        if not os.path.exists(filepath):
            raise FileNotFoundError(f"Le fichier {filepath} n'existe pas")
        df = pd.read_csv(filepath, encoding="utf-8", sep=",")
        if df.empty:
            raise pd.errors.EmptyDataError("Le fichier CSV est vide")
        return df
    except UnicodeDecodeError:
        raise ValueError(f"Erreur d'encodage du fichier {filepath}")
    except pd.errors.ParserError:
        raise ValueError(f"Format de fichier invalide: {filepath}")

# ==================== UTILS ====================

def nettoyage_general(df):
    """
    Nettoyage standard du DataFrame
    - Suppression des doublons
    - Suppression des espaces inutiles dans les colonnes texte
    - Nettoyage des points de suspension
    - Conversion des types (si possible)
    - Uniformisation des NaN
    """
    print("üîé Nettoyage g√©n√©ral en cours...")

    # 1. Retrait des doublons
    df = df.drop_duplicates()

    # 2. Nettoyage des colonnes texte
    for col in df.select_dtypes(include='object').columns:
        df[col] = (
            df[col]
            .astype(str)
            .str.strip()
            .str.replace(r'\.{3,}', '', regex=True)  # suppression des "....."
            .replace('', np.nan)  # remplace les vides par NaN apr√®s nettoyage
            .str.replace(r"[^\w\s√Ä-√ø',-]", "", regex=True)  # suppression caract√®res sp√©ciaux
        )


    # 3. Conversion num√©rique si possible
    for col in df.columns:
        try:
            df[col] = pd.to_numeric(df[col])
        except (ValueError, TypeError):
            pass  # colonne non convertible

    # 4. Uniformisation des valeurs manquantes
    df.replace(['None', 'nan', 'NaN', 'N/A', '', ' '], np.nan, inplace=True)

    print("‚úÖ Nettoyage g√©n√©ral termin√©")
    return df


def normalize(text):
    return unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode().lower().strip()

def nettoyer_valeur(val):
    val = val.strip()
    val = re.sub(r'\s+', ' ', val)
    return val

def clean_theme(theme):
    theme = re.sub(r'^Aucun th√®me.*?["‚Äú‚Äù]', '', theme)
    theme = re.sub(r'["‚Äú‚Äù]', '', theme)
    return theme.strip().capitalize()

def theme_existe(theme, referentiel):
    theme_norm = normalize(theme)
    for officiel in referentiel:
        if normalize(officiel) == theme_norm:
            return officiel
    return None

# ==================== CLASSIFICATION GPT ====================

def classifier_avec_gpt(val, col, referentiels):
    liste = referentiels.get(col, [])

    prompt = f"""
Tu travailles pour le r√©seau OSUI - Mission La√Øque Fran√ßaise.

Voici les r√©ponses officielles possibles pour la question "{col}" :
{chr(10).join(f"- {v}" for v in liste) if liste else "(aucune liste connue)"}

Voici la r√©ponse libre d'un enseignant : "{val}"

Ta t√¢che :
1. Si cette r√©ponse correspond √† un des th√®mes officiels (m√™me si l'orthographe, les majuscules ou l'ordre des mots sont diff√©rents), retourne exactement ce th√®me officiel.
2. Sinon, propose un nouveau th√®me court et pertinent.
3. Si la r√©ponse est vide, hors sujet ou incompr√©hensible, retourne : **Autre (√† clarifier)**

Ne donne qu'un seul th√®me. Aucune explication.
"""

    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[
            {"role": "system", "content": "Tu es un expert en classification p√©dagogique."},
            {"role": "user", "content": prompt}
        ],
        temperature=0.1
    )

    theme_propose = response.choices[0].message.content.strip()
    theme_propre = clean_theme(theme_propose)

    officiel = theme_existe(theme_propre, liste)
    if officiel:
        return officiel

    INTERDITS = ["nouveau theme", "aucun theme", "veuillez fournir", "n/a", "non renseign√©", "rien"]
    if any(bad in normalize(theme_propre) for bad in INTERDITS):
        return "Autre (√† clarifier)"

    return theme_propre

# ==================== MAPPING ====================

def appliquer_mapping(text, mapping):
    if pd.isna(text):
        return ""
    result = set()
    for val in text.split(','):
        val = nettoyer_valeur(val)
        if val in mapping:
            result.add(mapping[val])
        elif normalize(val) in [normalize(v) for v in mapping]:
            for k in mapping:
                if normalize(k) == normalize(val):
                    result.add(mapping[k])
        else:
            result.add(val)
    return ",".join(result)

# ==================== TRAITEMENT ====================

def reponses_hors_referentiel(df, col, referentiels):
    hors_ref = set()
    referentiel_normalise = {normalize(r) for r in referentiels}
    for ligne in df[col].dropna().astype(str):
        for val in ligne.split(','):
            val = nettoyer_valeur(val)
            if val and normalize(val) not in referentiel_normalise:
                hors_ref.add(val)
    return hors_ref


def traiter_colonne_multichoix(df, col, referentiels):
    print(f"\nüîß Traitement : {col}")
    valeurs = reponses_hors_referentiel(df, col, referentiels[col])
    print(f"üßπ {len(valeurs)} r√©ponses hors r√©f√©rentiel d√©tect√©es")

    themes_col = {}

    for val in sorted(valeurs):
        theme = classifier_avec_gpt(val, col, referentiels)
        print(f"‚û°Ô∏è {val} ‚Üí {theme}")
        themes_col[val] = theme

    nouveaux = set(themes_col.values())
    for t in nouveaux:
        if not theme_existe(t, referentiels[col]) and t != "Autre (√† clarifier)":
            referentiels[col].append(t)

    df[col + '_themes'] = df[col].apply(lambda x: appliquer_mapping(x, themes_col))

    dummies = df[col + '_themes'].str.get_dummies(sep=',')
    dummies.columns = [f"{col}_theme_{c.strip().lower().replace(' ', '_')}" for c in dummies.columns]

    print(f"‚úÖ {len(themes_col)} nouvelles valeurs mapp√©es pour {col}")
    return df, dummies, themes_col

# ==================== SAUVEGARDE ====================

def sauvegarder_referentiel(referentiels, path="referentiels.py"):
    with open(path, "w", encoding="utf-8") as f:
        f.write("# R√©f√©rentiel enrichi automatiquement\n")
        f.write("referentiels = ")
        json.dump(referentiels, f, ensure_ascii=False, indent=4)
    print(f"\n‚úÖ R√©f√©rentiel sauvegard√© dans : {path}")


In [None]:
# ==================== CONFIG ====================
# Liste des colonnes √† traiter
multi_cols = [
    'certifications_educatives',
    'responsabilites_complementaires',
    'matieres_niveaux_actuels',
    'objectifs_outils_numeriques',
    'competences_dev_formations',
    'freins_formation_continue',
    'contenus_autoformation',
    'evaluations_alternatives'
]

# ==================== PIPELINE ====================
def run_pipeline(filepath, new_column_names, referentiels, multi_cols):
    """
    Pipeline complet de traitement :
    - Chargement des donn√©es
    - Renommage des colonnes
    - Nettoyage g√©n√©ral
    - Traitement multichoix
    - Sauvegarde du r√©f√©rentiel enrichi et du dataframe propre
    """
    print("\nüöÄ D√©marrage du pipeline de traitement...\n")

    # Chargement
    df = load_data(filepath)
    df.rename(columns=new_column_names, inplace=True)

    # Nettoyage
    df = nettoyage_general(df)

    # Traitement multi-choix
    all_dummies = []
    all_themes = {}
    for col in multi_cols:
        df, dummies, themes = traiter_colonne_multichoix(df, col, referentiels)
        all_dummies.append(dummies)
        all_themes[col] = themes

    # Fusion
    df = pd.concat([df] + all_dummies, axis=1)

    # üî• Nettoyage final
    df = nettoyage_general(df)

    # Sauvegarde
    df.to_csv("data/cleaned_data.csv", index=False)
    sauvegarder_referentiel(referentiels, path="referentiels.py")

    print("\n‚úÖ Pipeline termin√© avec succ√®s.")
    return df, all_themes


In [18]:
from referentiels import referentiels  # ton fichier enrichi
from new_column_names import new_column_names  # ton fichier de renommage

# Param√®tres
filepath = "data/besoins_24_25.csv"

# Lancement du pipeline
df_clean, all_themes = run_pipeline(filepath, new_column_names, referentiels, multi_cols)



üöÄ D√©marrage du pipeline de traitement...

üîé Nettoyage g√©n√©ral en cours...
‚úÖ Nettoyage g√©n√©ral termin√©

üîß Traitement : certifications_educatives
üßπ 40 r√©ponses hors r√©f√©rentiel d√©tect√©es
‚û°Ô∏è BAFA ‚Üí Aucune certification d√©clar√©e
‚û°Ô∏è BNNSA ‚Üí **autre (√† clarifier)**
‚û°Ô∏è Brevet d'√©tat d'√©ducateur sportif ‚Üí Dipl√¥me sportif
‚û°Ô∏è C2i2e enseignant ‚Üí **autre (√† clarifier)**
‚û°Ô∏è CAPES ‚Üí Aucune certification d√©clar√©e
‚û°Ô∏è CPS Maroc ‚Üí **autre (√† clarifier)**
‚û°Ô∏è Certificat FLE Master ‚Üí FLE
‚û°Ô∏è Certification de praticienne en psychoth√©rapie ‚Üí **autre (√† clarifier)**
‚û°Ô∏è DAEFLE dipl√¥me d'aptitudes √† l'enseignement du FLE Alliance fran√ßaise ‚Üí FLE
‚û°Ô∏è DESA ‚Üí **autre (√† clarifier)**
‚û°Ô∏è DU ‚Üí Dipl√¥me universitaire (DU)
‚û°Ô∏è Diplome de formateur PSC secourisme ‚Üí Secourisme
‚û°Ô∏è Dipl√¥me national marocain ‚Üí Aucune certification d√©clar√©e
‚û°Ô∏è Discipline positive ‚Üí **autre (√† clarifier)**
‚û°Ô∏è Ense