In [81]:
import pandas as pd
import json
import re

# Charger le DataFrame
df = pd.read_csv(r"C:\Users\Harrison\Challenge48\data\cleaned_tweets_with_sentiment.csv")

# Fonction pour extraire les valeurs des cl√©s "Inconfort", "Sentiment", "Urgence"
def extract_json_values(json_str):
    try:
        # Isoler la partie JSON avant "Explication" ou autre texte ajout√©
        json_part = re.search(r'\{.*?\}', json_str, re.S).group(0)

        # Nettoyer et parser le JSON
        cleaned_str = json_part.replace('\r\n', '').replace("'", '"')
        json_dict = json.loads(cleaned_str)

        # Renvoyer les valeurs des cl√©s
        return json_dict.get("Inconfort"), json_dict.get("Sentiment"), json_dict.get("Urgence")
    except (json.JSONDecodeError, TypeError, AttributeError):
        return None, None, None

# Appliquer l'extraction sur la colonne 'sentiment'
df['Inconfort'], df['Sentiment'], df['Urgence'] = zip(*df['sentiment'].apply(extract_json_values))

# Supprimer l'ancienne colonne 'sentiment'
df.drop(columns=['sentiment', 'hour'], inplace=True)

# Fonction pour s√©parer la date et l'heure
def split_date_time(datetime_str):
    try:
        date_part, time_part = datetime_str.split(' ')
        time_part = time_part.replace('+00:00', '')  # Supprimer le d√©calage horaire
        return date_part, time_part
    except Exception:
        return None, None

# Appliquer la s√©paration sur la colonne 'date'
df['date'], df['Hours'] = zip(*df['date'].apply(split_date_time))

# Convertir les colonnes au bon format
df['date'] = pd.to_datetime(df['date'], errors='coerce')  # Convertir en datetime
df['Hours'] = pd.to_datetime(df['Hours'], format='%H:%M:%S', errors='coerce').dt.time  # Convertir en time

# Convertir 'user_id' en cha√Æne de caract√®res et enlever les z√©ros inutiles
df['user_id'] = df['user_id'].apply(lambda x: str(int(x)) if pd.notna(x) else None)

# Afficher un aper√ßu du DataFrame
df.head()


Unnamed: 0,user_id,screen_name,name,date,tweet_text,tweet_length,criticite,Inconfort,Sentiment,Urgence,Hours
0,189684000000000011534336,lescausesjustes,AInnovation,2025-03-04,"@ENGIEgroup @ENGIEpartFR pour l'amour du ciel,...",113,1,90.0,N√©gatif,True,08:09:58
1,18967000000000000262144,Leoletonneau,Tigre & Dragon üêØ üêâ,2025-03-03,"@ENGIEpartFR vraiment des escrocs, des montant...",131,1,100.0,N√©gatif,True,23:25:45
2,189662999999999998164992,SouareFirst,So First,2025-03-03,@ENGIEpartFR bonjour engie les voleurs ! Atten...,184,1,100.0,N√©gatif,True,18:47:06
3,189661999999999987941376,julien_ducerf,Julien Ducerf,2025-03-03,@ENGIEpartFR c'est du harc√®lement pour augment...,167,2,85.0,N√©gatif,False,17:50:42
4,189658000000000014155776,djofthp,jojodamido,2025-03-03,@ENGIEpartFR on vous parle,26,1,20.0,Neutre,False,15:24:10


In [82]:
import pandas as pd
import time
from mistralai import Mistral

# Initialisation du client avec la cl√© API
client = Mistral(api_key="QU9joTThl5C9C8Waz8dgk2Mu9mFT7TaZ")

# Filtrer les tweets n√©gatifs
df_negatifs = df[df['Sentiment'] == 'N√©gatif'].copy()

# Fonction pour analyser chaque tweet avec gestion des erreurs
def analyse_tweet_with_retry(tweet, retries=3, delay=5):
    attempt = 0
    while attempt < retries:
        try:
            response = client.agents.complete(
                agent_id="ag:f685da10:20250310:untitled-agent:5d68c6b9",  # Remplace par ton ID d'agent
                messages=[{
                    "role": "user",
                    "content": tweet
                }]
            )
            return response.choices[0].message.content.strip()
        except Exception as e:
            if "429" in str(e):  # Si l'erreur est un d√©passement de quota
                print(f"Rate limit exceeded, waiting for {delay} seconds...")
                time.sleep(delay)  # Attente avant de r√©essayer
                attempt += 1
            else:
                print(f"Une erreur est survenue: {e}")
                raise  # Si l'erreur est autre, relancer l'exception
    return None  # Si toutes les tentatives √©chouent

# Appliquer la fonction d'analyse avec un d√©lai et gestion des erreurs sur chaque tweet du DataFrame
def apply_analysis_with_delay_and_retry(row):
    result = analyse_tweet_with_retry(row['tweet_text'])
    # Attendre quelques secondes entre les requ√™tes (par exemple, 5 secondes)
    time.sleep(5)  # Ajuste la dur√©e en fonction de la limite de l'API
    return result

# Appliquer la fonction d'analyse avec un d√©lai sur les tweets n√©gatifs
df_negatifs['sentiment_analysis'] = df_negatifs.apply(apply_analysis_with_delay_and_retry, axis=1)

# Fusionner les r√©sultats dans le DataFrame original `df` en ajoutant la colonne `sentiment_analysis`
df = df.merge(df_negatifs[['tweet_text', 'sentiment_analysis']], on='tweet_text', how='left')


KeyboardInterrupt: 

In [68]:
import re

def extract_reason(text):
    # Si le texte est manquant (NaN ou vide), retourne NaN
    if pd.isna(text):
        return text
    
    # 1. Chercher le motif entre guillemets (ex: "D√©ception totale")
    match = re.search(r'"(.*?)"', text)
    if match:
        return match.group(1)
    
    # 2. Chercher le motif entre ast√©risques (ex: **Service m√©diocre**)
    match = re.search(r'\*\*(.*?)\*\*', text)
    if match:
        return match.group(1)
    
    # 3. Si aucun motif trouv√©, r√©cup√©rer apr√®s le dernier ':' (si existe)
    if ':' in text:
        return text.split(':')[-1].strip()

    # 4. Sinon, retourner le texte brut (au cas o√π aucun motif ne s'applique)
    return text.strip()

# Appliquer la fonction d'extraction sur la colonne 'sentiment_analysis'
df["sentiment_analysis"] = df["sentiment_analysis"].apply(extract_reason)