# Classification de tweets avec un LLM (Ollama + Mistral)

Dans ce notebook, on va :

1. Charger un fichier CSV de tweets nettoy√©s.
2. Pr√©parer un prompt avec quelques exemples (few-shot).
3. Appeler un mod√®le LLM local (Ollama, mod√®le *mistral*) pour classer chaque tweet.
4. R√©cup√©rer la r√©ponse du mod√®le en JSON et la parser proprement.
5. Normaliser les r√©sultats (topics, sentiment, incident, etc.).
6. Fusionner les pr√©dictions avec le CSV d‚Äôorigine et sauvegarder le r√©sultat.

Ce notebook reprend la logique du script Python, mais de mani√®re plus p√©dagogique et √©tape par √©tape.


In [None]:
# Imports des biblioth√®ques n√©cessaires

import requests          # pour appeler l'API HTTP d'Ollama
import pandas as pd      # pour lire/√©crire les CSV
import orjson           # pour parser le JSON renvoy√© par le mod√®le
import time             # pour faire des pauses entre les retries
import sys              # pour quitter proprement (utile si fichier manquant)
from pathlib import Path # pour travailler proprement avec les chemins de fichiers

# ====== CONFIG GENERALE ======

MODEL = "mistral"                                 # Nom du mod√®le Ollama
SOURCE_CSV = "../data/free_tweet_export.cleaned.llm.csv"  # Fichier des tweets nettoy√©s
OUTPUT_CSV = "../data/free_tweet_classified_clean.csv"    # Fichier de sortie avec les pr√©dictions
TEXT_COL = "text_clean_llm"                       # Nom de la colonne texte dans le CSV

# Param√®tres pour √©ventuellement limiter le nombre de lignes (pour debug) :
SAMPLE_N = None        # par ex: 200 pour tester uniquement sur 200 lignes
SAVE_SAMPLE_AS = None  # ex: "echantillon.csv" pour sauvegarder l'√©chantillon

# Param√®tres d'appel √† l'API
API_URL = "http://localhost:11434/api/chat"
BATCH_SIZE = 20        # nombre de tweets √† traiter par batch
HTTP_TIMEOUT = 300     # timeout HTTP en secondes
MAX_RETRIES = 3        # nombre de tentatives en cas d'erreur
BACKOFFS = [1, 3, 7]   # temps d'attente entre tentatives

# Session HTTP r√©utilis√©e pour optimiser les appels r√©seau
SESSION = requests.Session()


## Chargement des donn√©es

Dans cette partie, on va :

- V√©rifier que le fichier CSV source existe.
- Charger le CSV dans un DataFrame `df_full`.
- V√©rifier que la colonne texte choisie (`TEXT_COL`) est bien pr√©sente.
- (Optionnel) Prendre seulement un √©chantillon des donn√©es si `SAMPLE_N` est d√©fini.


In [None]:
# V√©rification de l'existence du fichier
if not Path(SOURCE_CSV).exists():
    print(f"Fichier introuvable: {SOURCE_CSV}")
    sys.exit(1)

# Lecture du fichier CSV complet
df_full = pd.read_csv(SOURCE_CSV, engine="python")
print(f"Colonnes trouv√©es dans le CSV : {list(df_full.columns)}")

# V√©rification de la pr√©sence de la colonne texte
if TEXT_COL not in df_full.columns:
    raise SystemExit(f"Colonne {TEXT_COL} introuvable dans {SOURCE_CSV}")

# Gestion de l'√©chantillonnage
if SAMPLE_N is not None:
    df = df_full.head(int(SAMPLE_N)).copy()
    if SAVE_SAMPLE_AS:
        df.to_csv(SAVE_SAMPLE_AS, index=False, encoding="utf-8")
        print(f"üíæ √âchantillon sauvegard√© dans {SAVE_SAMPLE_AS} ({len(df)} lignes)")
    else:
        print(f"üîé √âchantillon en m√©moire: {len(df)} lignes (non sauvegard√©)")
else:
    df = df_full.copy()
    print(f"üîé Traitement de tout le fichier: {len(df)} lignes")

df.head()


## D√©finition du prompt et des exemples (few-shot)

Ici, on pr√©pare :

- Le *prompt syst√®me* (contexte global) lu depuis un fichier `prompt_tweets_free.txt`.
- Un template de message utilisateur qui contient le tweet et un exemple de JSON attendu.
- Une liste d'exemples `FEW_SHOTS` (tweet ‚Üí r√©ponse JSON) pour montrer au mod√®le le format voulu.
- La variable `BASE_MESSAGES` qui contient :
  - le message syst√®me
  - les exemples few-shot

Cette base sera r√©utilis√©e pour chaque appel au mod√®le.


In [None]:
# Lecture du prompt syst√®me depuis un fichier texte
with open("prompt_tweets_free.txt", "r", encoding="utf-8") as f:
    SYSTEM_PROMPT = f.read()

# Template du message utilisateur (on y ins√©rera chaque tweet)
USER_TEMPLATE = """Tweet:
{tweet}

R√©ponds en JSON (une seule ligne), exemple:
{{"is_claim":1,"topics":["fibre"],"sentiment":"neg","urgence":"haute","incident":"incident_reseau","confidence":0.82}}"""

# Exemples few-shot (tweet -> JSON attendu)
FEW_SHOTS = [ 
    ("rt @free: d√©couvrez la nouvelle cha√Æne imearth en 4k !",
     '{"is_claim":0,"topics":["tv"],"sentiment":"neu","urgence":"basse","incident":"information","confidence":0.9}'),
    ("@free panne fibre √† cergy depuis 7h, impossible de bosser",
     '{"is_claim":1,"topics":["fibre"],"sentiment":"neg","urgence":"haute","incident":"incident_reseau","confidence":0.9}'),
    ("@freebox non mais vous r√©pondez trois jours apr√®s... super le service apr√®s vente",
     '{"is_claim":1,"topics":["autre"],"sentiment":"neg","urgence":"moyenne","incident":"processus_sav","confidence":0.85}')
]

# Pr√©paration de la base de messages commune : system + few-shot
BASE_MESSAGES = [{"role": "system", "content": SYSTEM_PROMPT}]
for u_text, y_json in FEW_SHOTS:
    BASE_MESSAGES.append({"role": "user", "content": u_text})
    BASE_MESSAGES.append({"role": "assistant", "content": y_json})

print("Prompt syst√®me et few-shots initialis√©s.")


## Fonctions utilitaires

Nous allons d√©finir trois fonctions importantes :

1. `chat_ollama_batch(model, prompts)`  
   ‚Üí envoie les prompts au mod√®le Ollama (un par un), avec gestion des erreurs et retries.

2. `_norm_incident(x)`  
   ‚Üí normalise la variable `incident` pour la ramener √† un petit set de valeurs autoris√©es
   (ex. "r√©seau", "sav", "support" ‚Üí cat√©gories standard).

3. `parse_json_line(s)`  
   ‚Üí essaie de parser proprement la r√©ponse du LLM en JSON,
   m√™me si la r√©ponse est entour√©e de ```json ... ``` ou contient du texte en plus.


In [None]:
def chat_ollama_batch(model: str, prompts: list[str]) -> list[str]:
    """
    Appelle Ollama (API chat) de mani√®re s√©quentielle avec retries/backoff.
    - `prompts` : liste de textes (un par tweet)
    - Retour : liste de r√©ponses brutes (strings), une par prompt
    """
    out: list[str] = []

    for p in prompts:
        # messages = system + few-shots + message utilisateur
        messages = BASE_MESSAGES + [{"role": "user", "content": p}]
        payload = {
            "model": model,
            "messages": messages,
            "stream": False,
            "options": {"temperature": 0.1}
        }

        last_err = None
        for attempt in range(1, MAX_RETRIES + 1):
            try:
                r = SESSION.post(API_URL, json=payload, timeout=HTTP_TIMEOUT)
                r.raise_for_status()
                data = r.json()
                content = data.get("message", {}).get("content", "").strip()
                if content:
                    out.append(content)
                    break
                else:
                    last_err = "empty_content"
                    raise RuntimeError("Empty content from model")
            except Exception as e:
                last_err = str(e)
                # si erreur, on attend un peu avant de retenter
                if attempt < MAX_RETRIES:
                    time.sleep(BACKOFFS[min(attempt-1, len(BACKOFFS)-1)])
                else:
                    # si toutes les tentatives √©chouent, on renvoie un JSON d'erreur minimal
                    safe_err = last_err.replace('"', "'") if last_err else "unknown_error"
                    out.append(
                        '{"is_claim":0,"topics":["autre"],"sentiment":"neu","urgence":"basse","incident":"autre","confidence":0.0,"_error":"%s"}'
                        % safe_err
                    )
    return out


def _norm_incident(x: str) -> str:
    """
    Normalise la valeur 'incident' vers un set de valeurs autoris√©es,
    en g√©rant quelques alias courants.
    """
    allowed = {"facturation", "incident_reseau", "livraison", "information", "processus_sav", "autre"}
    s = str(x).strip().lower().replace(" ", "_")

    aliases = {
        "reseau": "incident_reseau",
        "r√©seau": "incident_reseau",
        "incident": "incident_reseau",
        "sav": "processus_sav",
        "service_apres_vente": "processus_sav",
        "service_apr√®s_vente": "processus_sav",
        "support": "processus_sav",
        "facture": "facturation",
        "info": "information",
        "livraisons": "livraison"
    }

    s = aliases.get(s, s)
    return s if s in allowed else "autre"


def parse_json_line(s: str) -> dict:
    """
    Parse robuste de la ligne JSON renvoy√©e par le LLM.
    - G√®re les blocs ```json ... ```
    - Essaie d'extraire la partie entre { et }
    - Renvoie un dict par d√©faut si tout √©choue
    """
    s = str(s).strip()

    # Gestion des blocs ```json ... ```
    if s.startswith("```"):
        lines = s.splitlines()
        if len(lines) >= 3 and lines[0].startswith("```") and lines[-1].startswith("```"):
            s = "\n".join(lines[1:-1]).strip()
        else:
            # fallback : on enl√®ve les backticks et un √©ventuel 'json'
            s = s.strip("`").strip()
            if s.lower().startswith("json"):
                s = s[4:].strip()

    # Premi√®re tentative : parse direct
    try:
        return orjson.loads(s)
    except Exception:
        pass

    # Deuxi√®me tentative : on isole le premier { et le dernier }
    try:
        start = s.find("{")
        end = s.rfind("}")
        if start != -1 and end != -1 and end > start:
            return orjson.loads(s[start:end+1])
    except Exception:
        pass

    # Fallback : objet par d√©faut
    return {
        "is_claim": 0,
        "topics": ["autre"],
        "sentiment": "neu",
        "urgence": "basse",
        "incident": "autre",
        "confidence": 0.0,
        "_parse_error": True
    }

print("Fonctions utilitaires pr√™tes.")
