# Classification de tweets avec un LLM (Ollama + Mistral)

Dans ce notebook, on va :

1. Charger un fichier CSV de tweets nettoy√©s.
2. Pr√©parer un prompt avec quelques exemples (few-shot).
3. Appeler un mod√®le LLM local (Ollama, mod√®le *mistral*) pour classer chaque tweet.
4. R√©cup√©rer la r√©ponse du mod√®le en JSON et la parser proprement.
5. Normaliser les r√©sultats (topics, sentiment, incident, etc.).
6. Fusionner les pr√©dictions avec le CSV d‚Äôorigine et sauvegarder le r√©sultat.

Ce notebook reprend la logique du script Python, mais de mani√®re plus p√©dagogique et √©tape par √©tape.


In [3]:
# Imports des biblioth√®ques n√©cessaires

import requests          # pour appeler l'API HTTP d'Ollama
import pandas as pd      # pour lire/√©crire les CSV
import orjson           # pour parser le JSON renvoy√© par le mod√®le
import time             # pour faire des pauses entre les retries
import sys              # pour quitter proprement (utile si fichier manquant)
from pathlib import Path # pour travailler proprement avec les chemins de fichiers
import os

# ====== CONFIG GENERALE ======

MODEL = "mistral"                                 # Nom du mod√®le Ollama

TEXT_COL = "text_clean_llm"                       # Nom de la colonne texte dans le CSV

# Dossier du projet = parent du dossier o√π est le notebook
PROJECT_ROOT = Path().resolve().parent
DATA_DIR = PROJECT_ROOT / "data"

#SOURCE_CSV = DATA_DIR / "free_tweet_export.cleaned.llm.csv"     #Fichier des tweets nettoy√©s
#OUTPUT_CSV = DATA_DIR / "free_tweet_classified_clean.csv"       #Fichier de sortie avec les pr√©dictions

SOURCE_CSV = DATA_DIR / "echantillion_5_tweets.csv"              # √©chantillion de 5 tweets pour tester le code(prend moin du temps)
OUTPUT_CSV = DATA_DIR / "resultat_classification_echantillion_5_tweets.csv" # Fichier de test de sortie avec les pr√©dictions

print("Chemin complet CSV :", SOURCE_CSV)

if not SOURCE_CSV.exists():
    print(f"Fichier introuvable: {SOURCE_CSV}")
else:
    df_full = pd.read_csv(SOURCE_CSV, engine="python")
    print(df_full.head())


# Param√®tres pour √©ventuellement limiter le nombre de lignes (pour debug) :
SAMPLE_N = None        # par ex: 200 pour tester uniquement sur 200 lignes
SAVE_SAMPLE_AS = None  # ex: "echantillon.csv" pour sauvegarder l'√©chantillon

# Param√®tres d'appel √† l'API
API_URL = "http://localhost:11434/api/chat"
BATCH_SIZE = 20        # nombre de tweets √† traiter par batch
HTTP_TIMEOUT = 300     # timeout HTTP en secondes
MAX_RETRIES = 3        # nombre de tentatives en cas d'erreur
BACKOFFS = [1, 3, 7]   # temps d'attente entre tentatives

# Session HTTP r√©utilis√©e pour optimiser les appels r√©seau
SESSION = requests.Session()


Chemin complet CSV : C:\Users\HP\Desktop\projet\data\echantillion_5_tweets.csv
                    id                  created_at  \
0  1343458257915031553  2020-12-28 08:26:23 +01:00   
1  1480465391424053249  2022-01-10 10:03:49 +01:00   
2  1485331097844129798  2022-01-23 20:18:24 +01:00   
3  1694675653205860558  2023-08-24 13:38:55 +02:00   
4  1695912123824546156  2023-08-27 23:32:13 +02:00   

                                           full_text  \
0  üí© √† @free parce-que D√©bit Tr√®s instable, ‚Ä¶ \n\...   
1  üéÇ @free c√©l√®bre aujourd'hui 10 ans de r√©voluti...   
2  Et vous √ßa se passe comment la fibre ?\n@Sosh_...   
3  Dans la lutte contre les installations sauvage...   
4  Hello @free, @Freebox et @orange je crois que ...   

                                               media   screen_name  \
0                                                 []      m_annuel   
1  [{"type":"video","url":"https://t.co/c1e4svvex...   GroupeIliad   
2  [{"type":"photo","url":"https:/

## Chargement des donn√©es

Dans cette partie, on va :

- V√©rifier que le fichier CSV source existe.
- Charger le CSV dans un DataFrame `df_full`.
- V√©rifier que la colonne texte choisie (`TEXT_COL`) est bien pr√©sente.
- (Optionnel) Prendre seulement un √©chantillon des donn√©es si `SAMPLE_N` est d√©fini.


In [4]:
# V√©rification de l'existence du fichier
if not Path(SOURCE_CSV).exists():
    print(f"Fichier introuvable: {SOURCE_CSV}")
    sys.exit(1)

# Lecture du fichier CSV complet
df_full = pd.read_csv(SOURCE_CSV, engine="python")
print(f"Colonnes trouv√©es dans le CSV : {list(df_full.columns)}")

# V√©rification de la pr√©sence de la colonne texte
if TEXT_COL not in df_full.columns:
    raise SystemExit(f"Colonne {TEXT_COL} introuvable dans {SOURCE_CSV}")

# Gestion de l'√©chantillonnage
if SAMPLE_N is not None:
    df = df_full.head(int(SAMPLE_N)).copy()
    if SAVE_SAMPLE_AS:
        df.to_csv(SAVE_SAMPLE_AS, index=False, encoding="utf-8")
        print(f"üíæ √âchantillon sauvegard√© dans {SAVE_SAMPLE_AS} ({len(df)} lignes)")
    else:
        print(f"üîé √âchantillon en m√©moire: {len(df)} lignes (non sauvegard√©)")
else:
    df = df_full.copy()
    print(f"üîé Traitement de tout le fichier: {len(df)} lignes")

df.head()


Colonnes trouv√©es dans le CSV : ['id', 'created_at', 'full_text', 'media', 'screen_name', 'name', 'profile_image_url', 'user_id', 'in_reply_to', 'retweeted_status', 'quoted_status', 'media_tags', 'favorite_count', 'retweet_count', 'bookmark_count', 'quote_count', 'reply_count', 'views_count', 'favorited', 'retweeted', 'bookmarked', 'url', 'text_raw', 'is_retweet', 'hashtags_list', 'text_clean_llm', 'lost_hashtags_count']
üîé Traitement de tout le fichier: 5 lignes


Unnamed: 0,id,created_at,full_text,media,screen_name,name,profile_image_url,user_id,in_reply_to,retweeted_status,...,views_count,favorited,retweeted,bookmarked,url,text_raw,is_retweet,hashtags_list,text_clean_llm,lost_hashtags_count
0,1343458257915031553,2020-12-28 08:26:23 +01:00,"üí© √† @free parce-que D√©bit Tr√®s instable, ‚Ä¶ \n\...",[],m_annuel,M Annuel,https://abs.twimg.com/sticky/default_profile_i...,1104790986801250304,,,...,,False,False,False,https://twitter.com/m_annuel/status/1343458257...,"üí© √† @free parce-que D√©bit Tr√®s instable, ‚Ä¶ F...",False,"['#fing', '#internet', '#Free']","üí© √† @free parce-que d√©bit tr√®s instable, ‚Ä¶ fre...",0
1,1480465391424053249,2022-01-10 10:03:49 +01:00,üéÇ @free c√©l√®bre aujourd'hui 10 ans de r√©voluti...,"[{""type"":""video"",""url"":""https://t.co/c1e4svvex...",GroupeIliad,Groupe iliad,https://pbs.twimg.com/profile_images/127365768...,3157961111,,,...,,False,False,False,https://twitter.com/GroupeIliad/status/1480465...,üéÇ @free c√©l√®bre aujourd'hui 10 ans de r√©voluti...,False,[],üéÇ @free c√©l√®bre aujourd'hui 10 ans de r√©voluti...,0
2,1485331097844129798,2022-01-23 20:18:24 +01:00,Et vous √ßa se passe comment la fibre ?\n@Sosh_...,"[{""type"":""photo"",""url"":""https://t.co/I41UXroh0...",MitchelMcPat,MitchelMcPat,https://pbs.twimg.com/profile_images/177199285...,906220646492983296,,,...,,False,False,False,https://twitter.com/MitchelMcPat/status/148533...,Et vous √ßa se passe comment la fibre ? @Sosh_f...,False,[],et vous √ßa se passe comment la fibre ? @sosh_f...,0
3,1694675653205860558,2023-08-24 13:38:55 +02:00,Dans la lutte contre les installations sauvage...,"[{""type"":""photo"",""url"":""https://t.co/nKKA40veR...",jnbarrot,Jean-No√´l Barrot,https://pbs.twimg.com/profile_images/191299208...,865482011523166209,,,...,9127.0,False,False,False,https://twitter.com/jnbarrot/status/1694675653...,Dans la lutte contre les installations sauvage...,False,[],dans la lutte contre les installations sauvage...,0
4,1695912123824546156,2023-08-27 23:32:13 +02:00,"Hello @free, @Freebox et @orange je crois que ...","[{""type"":""photo"",""url"":""https://t.co/IreryVRyF...",rgaidot,…πÀàeÕ°…™…°…™z,https://pbs.twimg.com/profile_images/156717273...,1245801,,,...,778.0,False,False,False,https://twitter.com/rgaidot/status/16959121238...,"Hello @free, @Freebox et @orange je crois que ...",False,[],"hello @free, @freebox et @orange je crois que ...",0


## D√©finition du prompt et des exemples (few-shot)

Ici, on pr√©pare :

- Le *prompt syst√®me* (contexte global) lu depuis un fichier `prompt_tweets_free.txt`.
- Un template de message utilisateur qui contient le tweet et un exemple de JSON attendu.
- Une liste d'exemples `FEW_SHOTS` (tweet ‚Üí r√©ponse JSON) pour montrer au mod√®le le format voulu.
- La variable `BASE_MESSAGES` qui contient :
  - le message syst√®me
  - les exemples few-shot

Cette base sera r√©utilis√©e pour chaque appel au mod√®le.


In [5]:
# Lecture du prompt syst√®me depuis un fichier texte
with open("prompt_tweets_free.txt", "r", encoding="utf-8") as f:
    SYSTEM_PROMPT = f.read()

# Template du message utilisateur (on y ins√©rera chaque tweet)
USER_TEMPLATE = """Tweet:
{tweet}

R√©ponds en JSON (une seule ligne), exemple:
{{"is_claim":1,"topics":["fibre"],"sentiment":"neg","urgence":"haute","incident":"incident_reseau","confidence":0.82}}"""

# Exemples few-shot (tweet -> JSON attendu)
FEW_SHOTS = [ 
    ("rt @free: d√©couvrez la nouvelle cha√Æne imearth en 4k !",
     '{"is_claim":0,"topics":["tv"],"sentiment":"neu","urgence":"basse","incident":"information","confidence":0.9}'),
    ("@free panne fibre √† cergy depuis 7h, impossible de bosser",
     '{"is_claim":1,"topics":["fibre"],"sentiment":"neg","urgence":"haute","incident":"incident_reseau","confidence":0.9}'),
    ("@freebox non mais vous r√©pondez trois jours apr√®s... super le service apr√®s vente",
     '{"is_claim":1,"topics":["autre"],"sentiment":"neg","urgence":"moyenne","incident":"processus_sav","confidence":0.85}')
]

# Pr√©paration de la base de messages commune : system + few-shot
BASE_MESSAGES = [{"role": "system", "content": SYSTEM_PROMPT}]
for u_text, y_json in FEW_SHOTS:
    BASE_MESSAGES.append({"role": "user", "content": u_text})
    BASE_MESSAGES.append({"role": "assistant", "content": y_json})

print("Prompt syst√®me et few-shots initialis√©s.")


Prompt syst√®me et few-shots initialis√©s.


## Fonctions utilitaires

Nous allons d√©finir trois fonctions importantes :

1. `chat_ollama_batch(model, prompts)`  
   ‚Üí envoie les prompts au mod√®le Ollama (un par un), avec gestion des erreurs et retries.

2. `_norm_incident(x)`  
   ‚Üí normalise la variable `incident` pour la ramener √† un petit set de valeurs autoris√©es
   (ex. "r√©seau", "sav", "support" ‚Üí cat√©gories standard).

3. `parse_json_line(s)`  
   ‚Üí essaie de parser proprement la r√©ponse du LLM en JSON,
   m√™me si la r√©ponse est entour√©e de ```json ... ``` ou contient du texte en plus.


In [6]:
def chat_ollama_batch(model: str, prompts: list[str]) -> list[str]:
    """
    Appelle Ollama (API chat) de mani√®re s√©quentielle avec retries/backoff.
    - `prompts` : liste de textes (un par tweet)
    - Retour : liste de r√©ponses brutes (strings), une par prompt
    """
    out: list[str] = []

    for p in prompts:
        # messages = system + few-shots + message utilisateur
        messages = BASE_MESSAGES + [{"role": "user", "content": p}]
        payload = {
            "model": model,
            "messages": messages,
            "stream": False,
            "options": {"temperature": 0.1}
        }

        last_err = None
        for attempt in range(1, MAX_RETRIES + 1):
            try:
                r = SESSION.post(API_URL, json=payload, timeout=HTTP_TIMEOUT)
                r.raise_for_status()
                data = r.json()
                content = data.get("message", {}).get("content", "").strip()
                if content:
                    out.append(content)
                    break
                else:
                    last_err = "empty_content"
                    raise RuntimeError("Empty content from model")
            except Exception as e:
                last_err = str(e)
                # si erreur, on attend un peu avant de retenter
                if attempt < MAX_RETRIES:
                    time.sleep(BACKOFFS[min(attempt-1, len(BACKOFFS)-1)])
                else:
                    # si toutes les tentatives √©chouent, on renvoie un JSON d'erreur minimal
                    safe_err = last_err.replace('"', "'") if last_err else "unknown_error"
                    out.append(
                        '{"is_claim":0,"topics":["autre"],"sentiment":"neu","urgence":"basse","incident":"autre","confidence":0.0,"_error":"%s"}'
                        % safe_err
                    )
    return out


def _norm_incident(x: str) -> str:
    """
    Normalise la valeur 'incident' vers un set de valeurs autoris√©es,
    en g√©rant quelques alias courants.
    """
    allowed = {"facturation", "incident_reseau", "livraison", "information", "processus_sav", "autre"}
    s = str(x).strip().lower().replace(" ", "_")

    aliases = {
        "reseau": "incident_reseau",
        "r√©seau": "incident_reseau",
        "incident": "incident_reseau",
        "sav": "processus_sav",
        "service_apres_vente": "processus_sav",
        "service_apr√®s_vente": "processus_sav",
        "support": "processus_sav",
        "facture": "facturation",
        "info": "information",
        "livraisons": "livraison"
    }

    s = aliases.get(s, s)
    return s if s in allowed else "autre"


def parse_json_line(s: str) -> dict:
    """
    Parse robuste de la ligne JSON renvoy√©e par le LLM.
    - G√®re les blocs ```json ... ```
    - Essaie d'extraire la partie entre { et }
    - Renvoie un dict par d√©faut si tout √©choue
    """
    s = str(s).strip()

    # Gestion des blocs ```json ... ```
    if s.startswith("```"):
        lines = s.splitlines()
        if len(lines) >= 3 and lines[0].startswith("```") and lines[-1].startswith("```"):
            s = "\n".join(lines[1:-1]).strip()
        else:
            # fallback : on enl√®ve les backticks et un √©ventuel 'json'
            s = s.strip("`").strip()
            if s.lower().startswith("json"):
                s = s[4:].strip()

    # Premi√®re tentative : parse direct
    try:
        return orjson.loads(s)
    except Exception:
        pass

    # Deuxi√®me tentative : on isole le premier { et le dernier }
    try:
        start = s.find("{")
        end = s.rfind("}")
        if start != -1 and end != -1 and end > start:
            return orjson.loads(s[start:end+1])
    except Exception:
        pass

    # Fallback : objet par d√©faut
    return {
        "is_claim": 0,
        "topics": ["autre"],
        "sentiment": "neu",
        "urgence": "basse",
        "incident": "autre",
        "confidence": 0.0,
        "_parse_error": True
    }

print("Fonctions utilitaires pr√™tes.")


Fonctions utilitaires pr√™tes.


## Pr√©paration des textes √† envoyer au mod√®le

On va maintenant :

- Extraire la colonne de texte `TEXT_COL` du DataFrame `df`.
- La convertir en liste de cha√Ænes de caract√®res (`texts`).
- V√©rifier rapidement le contenu (quelques premiers tweets).


In [7]:
# Extraction de la colonne texte :
texts = df[TEXT_COL].astype(str).tolist()

print(f"Nombre de tweets √† traiter : {len(texts)}")
print("Exemples de tweets :")
for t in texts[:5]:
    print("-", t)


Nombre de tweets √† traiter : 5
Exemples de tweets :
- üí© √† @free parce-que d√©bit tr√®s instable, ‚Ä¶ free en france: vitesse, performances, pannes et commentaires des utilisateurs üëâ #fing #internet #free via @fingapp @outagedetect
- üéÇ @free c√©l√®bre aujourd'hui 10 ans de r√©volution mobile ! notre cp üëâ
- et vous √ßa se passe comment la fibre ? @sosh_fr @covageidf_ouest c‚Äôest la mis√®re vraiment jpp
- dans la lutte contre les installations sauvages et les infrastructures d√©grad√©es, la bonne formation des techniciens qui d√©ploient la fibre est essentielle. j'√©tais ce matin aux c√¥t√©s d'idriss, formateur au centre de formation technique @free √† argenteuil, dans le val-d'oise.
- hello @free, @freebox et @orange je crois que nous allons avoir prochainement un gros probl√®me de fibre / pboe


## Application du mod√®le par batch

Dans cette √©tape, on :

1. Parcourt la liste des tweets par batch de taille `BATCH_SIZE`.
2. Pour chaque batch :
   - On g√©n√®re les prompts √† partir du `USER_TEMPLATE`.
   - On appelle `chat_ollama_batch` pour obtenir les r√©ponses du LLM.
   - On parse chaque r√©ponse JSON avec `parse_json_line`.
   - On normalise les champs (`topics`, `sentiment`, `urgence`, `incident`, `is_claim`, `confidence`).
3. On stocke toutes les pr√©dictions dans une liste `results` (une entr√©e par tweet).


In [8]:
results: list[dict] = []

for i in range(0, len(texts), BATCH_SIZE):
    batch = texts[i:i + BATCH_SIZE]
    
    # Cr√©ation des prompts pour chaque tweet du batch
    prompts = [USER_TEMPLATE.format(tweet=t) for t in batch]
    
    # Appel au mod√®le LLM via Ollama
    responses = chat_ollama_batch(MODEL, prompts)
    
    # Traitement de chaque r√©ponse brute
    for raw in responses:
        obj = parse_json_line(raw)

        # ---- Normalisation des topics ----
        topics_val = obj.get("topics", [])
        if isinstance(topics_val, str):
            topics = [topics_val.lower()]
        else:
            try:
                topics = [str(t).lower() for t in topics_val]
            except TypeError:
                topics = [str(topics_val).lower()]
        obj["topics"] = topics

        # ---- Normalisation des autres champs ----
        obj["sentiment"] = str(obj.get("sentiment", "neu")).lower()
        obj["urgence"]   = str(obj.get("urgence", "basse")).lower()
        obj["incident"]  = _norm_incident(obj.get("incident", "autre"))

        # Cast de is_claim en int
        try:
            obj["is_claim"] = int(obj.get("is_claim", 0))
        except Exception:
            obj["is_claim"] = 0

        # Cast de confidence en float
        try:
            obj["confidence"] = float(obj.get("confidence", 0.0))
        except Exception:
            obj["confidence"] = 0.0

        results.append(obj)
    
    print(f"Trait√©s: {min(i + BATCH_SIZE, len(texts))}/{len(texts)}")

print("Classification termin√©e.")


Trait√©s: 5/5
Classification termin√©e.


## Fusion des r√©sultats avec les donn√©es d'origine et sauvegarde

Maintenant que nous avons :

- `df` : le DataFrame original (tweets + colonnes d'origine)
- `results` : une liste de dictionnaires contenant les pr√©dictions du LLM

Nous allons :

1. V√©rifier que le nombre de pr√©dictions == nombre de lignes dans `df`.
2. Transformer `results` en DataFrame `df_pred`.
3. Concat√©ner `df` et `df_pred` horizontalement.
4. Sauvegarder le r√©sultat final dans `OUTPUT_CSV`.
5. Calculer quelques statistiques simples (ex. taux de r√©clamations).


In [9]:
# V√©rification de coh√©rence :
if len(results) != len(df):
    raise RuntimeError(
        f"Nombre de r√©sultats ({len(results)}) diff√©rent du nombre de lignes ({len(df)})"
    )

# Transformation en DataFrame
df_pred = pd.DataFrame(results)

# Concat√©nation avec les donn√©es originales
out_df = pd.concat([df.reset_index(drop=True), df_pred.reset_index(drop=True)], axis=1)

# Sauvegarde dans un CSV
out_df.to_csv(OUTPUT_CSV, index=False, encoding="utf-8")
print(f"‚úÖ Fichier de r√©sultats √©crit dans : {OUTPUT_CSV}")

# Affichage de quelques stats
if "is_claim" in out_df.columns:
    rate = (out_df["is_claim"] == 1).mean()
    print(f"R√©clamations d√©tect√©es: {rate:.1%}")

out_df.head()


‚úÖ Fichier de r√©sultats √©crit dans : C:\Users\HP\Desktop\projet\data\resultat_classification_echantillion_5_tweets.csv
R√©clamations d√©tect√©es: 60.0%


Unnamed: 0,id,created_at,full_text,media,screen_name,name,profile_image_url,user_id,in_reply_to,retweeted_status,...,is_retweet,hashtags_list,text_clean_llm,lost_hashtags_count,is_claim,topics,sentiment,urgence,incident,confidence
0,1343458257915031553,2020-12-28 08:26:23 +01:00,"üí© √† @free parce-que D√©bit Tr√®s instable, ‚Ä¶ \n\...",[],m_annuel,M Annuel,https://abs.twimg.com/sticky/default_profile_i...,1104790986801250304,,,...,False,"['#fing', '#internet', '#Free']","üí© √† @free parce-que d√©bit tr√®s instable, ‚Ä¶ fre...",0,1,[wifi],neg,moyenne,incident_reseau,0.95
1,1480465391424053249,2022-01-10 10:03:49 +01:00,üéÇ @free c√©l√®bre aujourd'hui 10 ans de r√©voluti...,"[{""type"":""video"",""url"":""https://t.co/c1e4svvex...",GroupeIliad,Groupe iliad,https://pbs.twimg.com/profile_images/127365768...,3157961111,,,...,False,[],üéÇ @free c√©l√®bre aujourd'hui 10 ans de r√©voluti...,0,0,[autre],pos,basse,information,1.0
2,1485331097844129798,2022-01-23 20:18:24 +01:00,Et vous √ßa se passe comment la fibre ?\n@Sosh_...,"[{""type"":""photo"",""url"":""https://t.co/I41UXroh0...",MitchelMcPat,MitchelMcPat,https://pbs.twimg.com/profile_images/177199285...,906220646492983296,,,...,False,[],et vous √ßa se passe comment la fibre ? @sosh_f...,0,1,[fibre],neg,haute,incident_reseau,0.95
3,1694675653205860558,2023-08-24 13:38:55 +02:00,Dans la lutte contre les installations sauvage...,"[{""type"":""photo"",""url"":""https://t.co/nKKA40veR...",jnbarrot,Jean-No√´l Barrot,https://pbs.twimg.com/profile_images/191299208...,865482011523166209,,,...,False,[],dans la lutte contre les installations sauvage...,0,0,[autre],neu,basse,information,0.95
4,1695912123824546156,2023-08-27 23:32:13 +02:00,"Hello @free, @Freebox et @orange je crois que ...","[{""type"":""photo"",""url"":""https://t.co/IreryVRyF...",rgaidot,…πÀàeÕ°…™…°…™z,https://pbs.twimg.com/profile_images/156717273...,1245801,,,...,False,[],"hello @free, @freebox et @orange je crois que ...",0,1,[fibre],neg,haute,incident_reseau,0.9
