# Phase 3 - Business Intelligence : Visualisation et Dashboard

Ce notebook pr√©sente les visualisations finales de l'analyse de sentiment :
- Graphique camembert des sentiments
- WordCloud des tweets n√©gatifs
- Histogrammes temporels
- Analyse des tweets probl√©matiques



In [None]:
# Importation des biblioth√®ques
import sys
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
import plotly.express as px
import plotly.graph_objects as go
from datetime import datetime

sys.path.append(os.path.join(os.path.dirname(os.getcwd()), 'src'))

from src.analyze_tesla_sentiment import TeslaSentimentAnalyzer

print("‚úÖ Biblioth√®ques import√©es")



## √âtape 1 : Chargement des donn√©es analys√©es


In [None]:
# Charger les r√©sultats d'analyse
df = pd.read_csv("../data/tesla_sentiment_results.csv")

# Convertir la date en datetime
if 'date' in df.columns:
    df['date'] = pd.to_datetime(df['date'])

print(f"üìä {len(df)} tweets analys√©s charg√©s")

# Statistiques rapides
print(f"\nüìà Distribution des sentiments :")
print(df['sentiment'].value_counts())



## √âtape 2 : Graphique Camembert (Pie Chart) des Sentiments


In [None]:
# Cr√©er un graphique camembert
sentiment_counts = df['sentiment'].value_counts()

# Couleurs personnalis√©es
colors = {'positive': '#2E7D32', 'negative': '#C62828', 'neutral': '#757575'}
color_list = [colors.get(sent.lower(), '#757575') for sent in sentiment_counts.index]

fig = go.Figure(data=[go.Pie(
    labels=sentiment_counts.index.str.title(),
    values=sentiment_counts.values,
    hole=0.4,  # Donut chart
    marker_colors=color_list,
    textinfo='label+percent',
    textfont_size=14
)])

fig.update_layout(
    title={
        'text': 'Distribution des Sentiments',
        'x': 0.5,
        'xanchor': 'center',
        'font': {'size': 20}
    },
    height=500
)

fig.show()



## √âtape 3 : WordCloud des Tweets N√©gatifs


In [None]:
# Filtrer les tweets n√©gatifs
negative_tweets = df[df['sentiment'] == 'negative']['text_cleaned'].dropna()

if len(negative_tweets) > 0:
    # Combiner tous les tweets n√©gatifs
    text = ' '.join(negative_tweets.astype(str))
    
    # Cr√©er le WordCloud
    wordcloud = WordCloud(
        width=800,
        height=400,
        background_color='white',
        colormap='Reds',
        max_words=100,
        relative_scaling=0.5,
        collocations=False
    ).generate(text)
    
    # Afficher
    plt.figure(figsize=(12, 6))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.title('Mots les plus fr√©quents dans les tweets n√©gatifs', 
              fontsize=16, fontweight='bold', pad=20)
    plt.tight_layout()
    plt.show()
else:
    print("Aucun tweet n√©gatif disponible")



## √âtape 4 : Histogramme Temporel


In [None]:
# Histogramme par date
if 'date' in df.columns:
    df['date_only'] = df['date'].dt.date
    tweets_by_date = df.groupby('date_only').size().reset_index(name='count')
    
    fig = px.bar(
        tweets_by_date,
        x='date_only',
        y='count',
        labels={'date_only': 'Date', 'count': 'Nombre de tweets'},
        color='count',
        color_continuous_scale='Reds',
        title='Volume de tweets par jour'
    )
    
    fig.update_layout(
        xaxis_title="Date",
        yaxis_title="Nombre de tweets",
        height=400,
        showlegend=False
    )
    
    fig.show()



In [None]:
# Histogramme par heure de la journ√©e
if 'date' in df.columns:
    df['hour'] = df['date'].dt.hour
    tweets_by_hour = df.groupby('hour').size().reset_index(name='count')
    
    fig = px.bar(
        tweets_by_hour,
        x='hour',
        y='count',
        labels={'hour': 'Heure de la journ√©e', 'count': 'Nombre de tweets'},
        color='count',
        color_continuous_scale='Blues',
        title='Volume de tweets par heure de la journ√©e'
    )
    
    fig.update_layout(
        xaxis_title="Heure",
        yaxis_title="Nombre de tweets",
        height=400,
        showlegend=False
    )
    
    fig.show()



## √âtape 5 : Analyse des Tweets les Plus N√©gatifs


In [None]:
# Obtenir les 5 tweets les plus n√©gatifs
analyzer = TeslaSentimentAnalyzer()
top_negative = analyzer.get_top_negative_tweets(df, n=5)

print("üî¥ Top 5 tweets les plus n√©gatifs :\n")
for idx, (_, row) in enumerate(top_negative.iterrows(), 1):
    print(f"{'='*80}")
    print(f"Tweet #{idx}")
    print(f"Polarit√©: {row['polarity']:.3f} | Score n√©gatif VADER: {row['vader_neg']:.3f}")
    print(f"Likes: {row.get('likes', 0)} | RT: {row.get('retweets', 0)}")
    print(f"\nTexte original:\n{row['text']}")
    
    # D√©tecter le sarcasme
    sarcasm_indicators = analyzer.detect_sarcasm_indicators(row['text'])
    if sarcasm_indicators:
        print(f"\n‚ö†Ô∏è  Indicateurs de sarcasme d√©tect√©s: {', '.join(sarcasm_indicators)}")
    print()



## √âtape 6 : Visualisations Compl√©mentaires


In [None]:
# Distribution des polarit√©s par sentiment
fig, ax = plt.subplots(figsize=(12, 6))

for sentiment in df['sentiment'].unique():
    subset = df[df['sentiment'] == sentiment]
    ax.hist(subset['polarity'], bins=30, alpha=0.6, label=sentiment.title(), 
           color=colors.get(sentiment.lower(), 'gray'))

ax.axvline(x=0.1, color='green', linestyle='--', alpha=0.5, label='Seuil positif')
ax.axvline(x=-0.1, color='red', linestyle='--', alpha=0.5, label='Seuil n√©gatif')
ax.set_xlabel('Polarit√©', fontsize=12)
ax.set_ylabel('Fr√©quence', fontsize=12)
ax.set_title('Distribution des Polarit√©s par Sentiment', fontsize=16, fontweight='bold')
ax.legend()
ax.grid(alpha=0.3)
plt.tight_layout()
plt.show()



In [None]:
# Analyse des interactions (Likes, RT) par sentiment
if 'likes' in df.columns and 'retweets' in df.columns:
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))
    
    # Boxplot des likes par sentiment
    df.boxplot(column='likes', by='sentiment', ax=ax1)
    ax1.set_title('Distribution des Likes par Sentiment', fontweight='bold')
    ax1.set_xlabel('Sentiment')
    ax1.set_ylabel('Nombre de Likes')
    
    # Boxplot des retweets par sentiment
    df.boxplot(column='retweets', by='sentiment', ax=ax2)
    ax2.set_title('Distribution des Retweets par Sentiment', fontweight='bold')
    ax2.set_xlabel('Sentiment')
    ax2.set_ylabel('Nombre de Retweets')
    
    plt.suptitle('')
    plt.tight_layout()
    plt.show()



## Conclusion

‚úÖ **Visualisations cr√©√©es avec succ√®s !**

Toutes les visualisations ont √©t√© g√©n√©r√©es :
- ‚úÖ Graphique camembert des sentiments
- ‚úÖ WordCloud des tweets n√©gatifs
- ‚úÖ Histogrammes temporels (par jour et par heure)
- ‚úÖ Analyse des tweets les plus n√©gatifs
- ‚úÖ Visualisations compl√©mentaires

**Pour un dashboard interactif**, ex√©cutez :
```bash
streamlit run src/tesla_dashboard.py
```

