# Phase 1 - Data Engineering : Collecte de Tweets Tesla

Ce notebook d√©montre la collecte de tweets sur Tesla en utilisant l'API Twitter v2 avec Tweepy.

## Objectifs :
- Se connecter √† l'API Twitter
- Collecter 500 tweets r√©cents sur Tesla
- Sauvegarder les donn√©es brutes en CSV
- Visualiser les donn√©es collect√©es



In [None]:
# Importation des biblioth√®ques n√©cessaires
import sys
import os
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime

# Ajouter le r√©pertoire parent au path pour importer les modules
sys.path.append(os.path.join(os.path.dirname(os.getcwd()), 'src'))

from src.collect_tesla_tweets import TeslaTweetCollector

print("‚úÖ Biblioth√®ques import√©es avec succ√®s")



## √âtape 1 : Initialisation du collecteur

Le collecteur utilise le Bearer Token pour s'authentifier √† l'API Twitter v2.
Les credentials doivent √™tre d√©finis dans un fichier `.env` √† la racine du projet.


In [None]:
# Initialiser le collecteur
# Le token sera charg√© depuis le fichier .env
collector = TeslaTweetCollector()

# Tester la connexion √† l'API
if collector.test_connection():
    print("‚úÖ Connexion r√©ussie !")
else:
    print("‚ùå √âchec de la connexion. V√©rifiez vos credentials.")



## √âtape 2 : Collecte des tweets

Nous allons collecter 500 tweets r√©cents sur Tesla. La requ√™te inclut :
- Mots-cl√©s : Tesla, TSLA, @Tesla, "Elon Musk"
- Exclusion des retweets
- Langue : anglais

**Note** : L'API Twitter Essential (gratuite) a des limites de rate limit qui sont g√©r√©es automatiquement par Tweepy avec `wait_on_rate_limit=True`.


In [None]:
# Collecter 500 tweets
# Cela peut prendre quelques minutes selon les rate limits
df_tweets = collector.collect_tweets(max_tweets=500, output_file="../data/tesla_tweets_raw.csv")

# Afficher un aper√ßu
print(f"\nüìä {len(df_tweets)} tweets collect√©s")
df_tweets.head()



## √âtape 3 : Analyse exploratoire des donn√©es brutes

Analysons les donn√©es collect√©es pour comprendre leur structure et qualit√©.


In [None]:
# Informations sur le DataFrame
print("üìã Informations du DataFrame :")
print(f"   Nombre de lignes : {len(df_tweets)}")
print(f"   Nombre de colonnes : {len(df_tweets.columns)}")
print(f"\nüìä Colonnes disponibles :")
print(df_tweets.columns.tolist())

# Statistiques descriptives
print("\nüìà Statistiques descriptives :")
df_tweets.describe()



In [None]:
# V√©rifier les dates (p√©riode de collecte)
if 'date' in df_tweets.columns:
    df_tweets['date'] = pd.to_datetime(df_tweets['date'])
    print(f"üìÖ P√©riode de collecte :")
    print(f"   Date la plus ancienne : {df_tweets['date'].min()}")
    print(f"   Date la plus r√©cente : {df_tweets['date'].max()}")
    print(f"   P√©riode couverte : {(df_tweets['date'].max() - df_tweets['date'].min()).days} jours")



In [None]:
# Visualisation : Distribution temporelle des tweets
if 'date' in df_tweets.columns:
    plt.figure(figsize=(12, 6))
    df_tweets['date'].hist(bins=30, edgecolor='black')
    plt.title('Distribution temporelle des tweets collect√©s', fontsize=14, fontweight='bold')
    plt.xlabel('Date', fontsize=12)
    plt.ylabel('Nombre de tweets', fontsize=12)
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()



In [None]:
# Visualisation : Top 10 utilisateurs par nombre de tweets
if 'user' in df_tweets.columns:
    top_users = df_tweets['user'].value_counts().head(10)
    
    plt.figure(figsize=(10, 6))
    top_users.plot(kind='barh', color='#E31937')
    plt.title('Top 10 utilisateurs par nombre de tweets', fontsize=14, fontweight='bold')
    plt.xlabel('Nombre de tweets', fontsize=12)
    plt.ylabel('Utilisateur', fontsize=12)
    plt.gca().invert_yaxis()
    plt.tight_layout()
    plt.show()



## √âtape 4 : Exemples de tweets collect√©s

Examinons quelques exemples de tweets pour v√©rifier la qualit√© des donn√©es.


In [None]:
# Afficher quelques exemples de tweets
print("üìù Exemples de tweets collect√©s :\n")
for idx, row in df_tweets.head(5).iterrows():
    print(f"Tweet #{idx+1}:")
    print(f"  Utilisateur: @{row.get('user', 'unknown')}")
    print(f"  Date: {row.get('date', 'N/A')}")
    print(f"  Likes: {row.get('likes', 0)} | RT: {row.get('retweets', 0)}")
    print(f"  Texte: {row['text'][:150]}...")
    print("-" * 80)



: 

## Conclusion

‚úÖ **Donn√©es collect√©es avec succ√®s !**

Les tweets bruts ont √©t√© sauvegard√©s dans `../data/tesla_tweets_raw.csv`.

**Prochaine √©tape** : Passer au notebook `2_preprocess_analyze.ipynb` pour nettoyer et analyser ces donn√©es.

