# Rapport du projet de programmation

## Introduction

Le projet de programmation que nous avons entrepris se veut proposer des formes d'analyses et de réponses au sujet des thématiques et problématiques qui touchent l'utilisation des réseaux sociaux à des fins d'information, notamment Twitter. En effet, la construction de véritables empires médiatiques est croissante et tend à se normaliser. Le choix de s'intéresser directement à ce qui se passe sur un des réseaux sociaux les plus utilisés au monde nous a donc semblé pertinent dans la mesure où Twitter est sujet à de multiples controverses. **comment ça se fait que quand tu viens de créer un compte tu tombes sur une page de trump ou de elon musk fin bon pas à moi (en vrai jsuis chaud qu'on en parle)** Dans les événements récents, de nombreuses personnalités ont notamment appelé à quitter Twitter (de grands journaux tels que le *Guardian*, des journalistes ainsi que des personnalités politiques). Mais qu'en est-il des utilisateurs ? Quelle attitude adoptent-ils face à cela ?

Les enjeux de ce projet portent ainsi concrètement sur le niveau de prises de position, qu'elles aillent dans un sens favorable ou défavorable à ce que nous disons être une main mise d'Elon Musk sur Twitter. De fait, ce projet interroge aussi une forme d'éveil citoyen et politique des utilisateurs face aux informations qu'ils reçoivent, mais aussi le niveau d'implication et de mobilisation dans ce type de discussions.
Ainsi, ce projet suit une ligne directrice orientée, car nous partons effectivement du principe que les utilisateurs se posent la question et réagissent à la mouvance qui consiste à quitter Twitter (nous-même partons du fait que nous identifions un problème de désinformation sur Twitter).

**présentation du plan d'action**
Concrètement, nous avons décidé de scrapper Twitter pour obtenir une base de données qui remonte jusqu'à.... : nous avons ainsi collecté le nom d'utilisateur, la date, le contenu du tweet, le nombre de likes, de réponses, de retweets et de vues.

Pour analyser les tweets, nous avons mis en place du NLP pour tenter d'obtenir une information supplémentaire sur les contenus des tweets, et ne pas seulement s'en tenir à des informations très descriptives reflétées par le nombre de likes, réponses, retweets et vues.

On commence par installer les différentes bibliothèques qui seront nécessaires à l'exécution du code :

In [None]:
!pip install pandas
!pip install matplotlib
!pip install datetime
!pip install openpyxl

Une fois ceci fait, la première étape va consister à scrapper Twitter. La façon dont nous avons procédé a été la suivante :

- Tout d'abord nous avons installé le framework Selenium, afin de naviguer automatiquement sur le site de Twitter et faire défiler les tweets sur la page qui nous intéressait. En effet nous souhaitions récolter les tweets dans leur ordre de publication, c'est-à-dire dans l'onglet "Récents" de la page de recherche de Twitter. 
- Pour cela, nous avons créé un compte Twitter : l'utilisateur et le mot de passe sont remplis lors de l'exécution du code. Dans la barre de recherche nous avons donc entré les mots clés que nous voulions voir ressortir dans les tweets (les mots liés au fait de quitter Twitter et le mot "Musk"), de janvier 2024 à décembre 2024. 
- Afin de récupérer les tweets et les stocker dans un dataframe, nous avons identifié l'auteur, le contenu, la date, le nombre de vues, de likes, de reposts et de commentaires de chaque tweet en trouvant l'emplacement de ces éléments dans la structure HTML de la page web, puis avons placé chacun d'eux dans une liste. Cela nous a permis d'obtenir un tableau mis sous format Excel.

**ATTENTION : Le code met du temps à tourner, nous avons donc fourni directement les bases de données dont nous nous servons sous format Excel**

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import time
import pandas as pd

driver = webdriver.Chrome()
driver.get('https://x.com/i/flow/login')
time.sleep(10)

# Connexion
username_input = driver.find_element('name', 'text')
username_input.send_keys('philipa.seilles@ensae.fr')
username_input.send_keys(Keys.RETURN)
time.sleep(5)

webdriver.ActionChains(driver).send_keys('car_pelet').perform()
webdriver.ActionChains(driver).send_keys(Keys.RETURN).perform()
time.sleep(5)

password_input = driver.find_element('name', 'password')
password_input.send_keys('w7a4731O')
password_input.send_keys(Keys.RETURN)
time.sleep(5)

# Navigue vers la recherche
explore_button = driver.find_element(By.XPATH, "//a[@href='/explore']")
explore_button.click()
time.sleep(5)

search_bar = driver.find_element(By.XPATH, "//input[@aria-label='Search query']")
search_bar.send_keys("(leaving OR leave OR quitting) twitter musk until:2024-12-03 since:2024-01-01")
search_bar.send_keys(Keys.RETURN)
time.sleep(7)

link = driver.find_element(By.XPATH, "(//div[@class='css-175oi2r r-18u37iz r-16y2uox r-1wbh5a2 r-tzz3ar r-1pi2tsx r-buy8e9 r-mfh4gg r-2eszeu r-10m9thr r-lltvgl']//a)[2]")
link.click()
time.sleep(6)

# Listes pour stocker les données des tweets
usernames = []
dates = []
contents = []
comments = []
repost = []
likes = []
views = []

# Ensemble pour vérifier l'unicité des tweets
tweets_seen = set()


# Fonction pour collecter des tweets
def collect_tweets():
    new_tweets_found = False 
    tweet_elements = driver.find_elements(By.XPATH, "(//div[contains(@class, 'css-175oi2r r-1igl3o0 r-qklmqi r-1adg3ll r-1ny4l3l')])")
    for element in tweet_elements:
        try:
            username_recup = element.find_element(By.XPATH, ".//a[contains(@class, 'css-175oi2r r-1wbh5a2 r-dnmrzs r-1ny4l3l r-1loqt21')]").text
            date_recup = element.find_element(By.XPATH, ".//div[contains(@class, 'css-175oi2r r-18u37iz r-1q142lx')]").text
            content_recup = element.find_element(By.XPATH, ".//div[contains(@class, 'css-146c3p1 r-8akbws r-krxsd3 r-dnmrzs r-1udh08x r-bcqeeo r-1ttztb7 r-qvutc0 r-37j5jr r-a023e6 r-rjixqe r-16dba41 r-bnwqim')]").text
            stats_recup = element.find_elements(By.XPATH, ".//div[contains(@class, 'css-175oi2r r-xoduu5 r-1udh08x')]")
            comments_recup = stats_recup[0].text
            repost_recup = stats_recup[1].text
            likes_recup = stats_recup[2].text
            views_recup = stats_recup[3].text
            tweet_tuple = (username_recup, date_recup, content_recup)
            
            # Vérifier si le tweet a déjà été vu
            if tweet_tuple not in tweets_seen:
                tweets_seen.add(tweet_tuple) 
                usernames.append(username_recup)
                dates.append(date_recup)
                contents.append(content_recup)
                comments.append(comments_recup)
                repost.append(repost_recup)
                likes.append(likes_recup)
                views.append(views_recup)
                new_tweets_found = True  # Détecter un nouveau tweet

        except Exception as e:
            continue
    return new_tweets_found  # Retourne True si de nouveaux tweets ont été ajoutés


# Boucle pour défiler et collecter jusqu'à obtenir 10 000 tweets
max_no_new_tweets = 5  # Nombre maximal de tentatives sans nouveaux tweets avant de s'arrêter
no_new_tweets_count = 0  # Compteur pour les tentatives sans nouveaux tweets

while len(usernames) < 10000 and no_new_tweets_count < max_no_new_tweets:
    if collect_tweets(): 
        no_new_tweets_count = 0  # Réinitialiser le compteur si des tweets ont été collectés
    else:
        no_new_tweets_count += 1  # Si aucun tweet n'est collecté, incrémenter le compteur

    # Scrolling pour charger davantage de tweets si aucun nouveau tweet n'est trouvé
    for _ in range(5):  # Défiler 5 fois
        driver.execute_script("window.scrollBy(0, window.innerHeight);")  # Défiler de la hauteur de la fenêtre
        time.sleep(1)  # Attendre le chargement des nouveaux tweets        
        # Récupérer des nouveaux tweets après chaque défilement
        if collect_tweets():  # Si de nouveaux tweets sont trouvés après le défilement
            no_new_tweets_count = 0  # Réinitialiser le compteur
            break  # Sort de la boucle si de nouveaux tweets sont trouvés

    if no_new_tweets_count >= max_no_new_tweets:  # Si le nombre de tentatives sans nouveaux tweets est trop élevé
        print("Aucun nouveau tweet trouvé après plusieurs tentatives, arrêt.")
        break

print(f"Total des tweets récupérés : {len(usernames)}")
driver.quit()

# Créer un DataFrame et enregistrer les données dans un fichier Excel
data = {
    'Username': usernames,
    'Date': dates,
    'Content': contents,
    'Comments': comments,
    'Repost': repost,
    'Likes': likes,
    'Views': views
}

df = pd.DataFrame(data)
df.to_excel("tweets_leave.xlsx", index=False)
print("Fichier tweets_leave.xlsx créé avec succès.")

Nous exécutons le code plusieurs fois en changeant les mots clefs : **rajouter les mots clefs**:
- quit twitter musk
- leave or leaving toussa
- remain blabla
Nous allons garder plusieurs tables :
- une table avec les mots clefs "quit" et "leave" : nous gardons ici de façon générale les personnes qui disent quitter Twitter
- une table qui regroupe les personnes qui disent rester sur Twitter (mots clefs "remain on", "still on")
- une table qui regroupe ces deux tables, qui réunit donc les personnes qui *s'expriment* sur le sujet, et qui se posent donc la question de rester ou non sur Twitter.

Pour regrouper les tables, nous les ajoutons les unes aux autres, convertissons le tout dans un format date qui permet ensuite de trier et de réarranger la table dans le bon ordre temporel.

Nous ajoutons à cela une phase de nettoyage de ces tables : les cases vides susceptibles d'apparaître dans les colonnes "Likes", "Views", etc... sont remplacées par des 0 (il n'y a eu en effet aucun like par exemple).
 **Nettoyer la table ? quelles dates on garde ? mettre des 0 là où y a des trous => mieux si philipa s'en charge?**. Nous avons ainsi en colonnes blablabla. **présenter une sortie du tableau excel ?**

Ci-dessous nous présentons une sortie de notre table **mettre le nom de la table**

In [10]:
import pandas as pd

# Modifier les paramètres pour afficher plus de contenu dans chaque cellule
pd.set_option('display.max_colwidth', None)  # Affiche tout le contenu des colonnes
pd.set_option('display.max_columns', None)  # Affiche toutes les colonnes
pd.set_option('display.width', 1000)  # Ajuste la largeur totale de l'affichage

# Charger et afficher le fichier Excel
df = pd.read_excel('tweets_macron_ecologie.xlsx')
df.head(15)


Unnamed: 0,Username,Date,Content
0,HBHANTI Macron Verts Gauches Woke !,6m,Et dépenser moins en évitant sans cesse les taxes et impôts c'est possible aussi à Bordeaux sans cette écologie punitive ??
1,Titube,1h,"Vous pourriez respecter le vote des électeurs américains. Les français ont voté Macron . On ne peut donc pas se permettre de donner des leçons de démocratie, d'ecologie, de justice ou d'économie."
2,Lisa Sister,2h,Vous êtes en parfaite connexion avec Macron qui applaudit l'élection de Trump. C'est très affligeant mais cela confirme la personne politique que vous êtes. Mais bien entendu l'écologie que vous représentez n'est pas celle de la majorité des écologistes.\nVive Marine Tondelier
3,Foudroyeur2Naine,6h,Je vais te faire un exemple pour ton petit cervelet (comme à l’école) : \nMacron est climatosceptique (Ici Trump)\nAntoine Armand (Ici Elon musk) ne l’est pas. Oui ? Donc ? \nMinistre de l’économie quel est le rapport avec l’écologie ?
4,Nathalie BIHET,7h,"Sache que je ne vote que lorsque le parti animaliste est représenté, je n'ai jamais voté Macron. Trump déteste l'écologie et les animaux, et étant végan j'ai beaucoup de mal avec lui tout comme avez Macron. Enfin bref chacun ses idées"
5,Florence Regnier,8h,"Non, pas de la montée. De sa présence au 2nd tour. et de ce fait de la réélection de Macron, pour lequel vous avez revoté. LFI n'a pas attendu les écolos pour faire de l'écologie."
6,Zodiaquue,10h,"Qu'est ce que tu es con et haineux qvec ton mépris imminde. Tu as fait réélire Macron et tu nous parles de débilité, tu as jamais lu un programme de ta vie, tu fais tellement pitié.\nSinon,l'écologie c'est une priorité pour Musk qui était bridé par le gouvernement Biden."
7,jeffe50,11h,"Vivement 2027 qu’on dégage LFI et toutes la bande à Macron, avec leur putain d’écologie ils on détruit l’industrie européenne, mis la France en faillite, mais ils ont de la merde dans les yeux, mais ils croient toujours que l’avenir c’est eux"
8,FreeGaet,12h,"Oui.\nFaut arrêter de croire que Macron est de droite.\n\nTrump veut retirer tous les droits aux migrants sauf celui de rentrer chez eux, il veut supprimer les subventions aux universités US gangrenées par le wokisme et n'a pas la moindre considération pour l'écologie."
9,Xedo,13h,"Même si son passage a l’écologie n’est pas glorieux, elle ne porte pas en tant que ministre la déroute du nucléaire français, imputable AUSSI aux présidents de droite, Chirac Sarko, Hollande, politique de droite et Macron qui est incapable de corriger le tir..,"


Voilà à quoi ressemble notre sortie : l'étape d'après est le NLP.

## NLP

## Visualisation
Une fois la base de données nettoyée après avoir été obtenue par scrapping, l'objectif est de l'organiser et de créer les variables nécessaires à la création d'indices, eux-mêmes nécessaires à la réalisation de statistiques descriptives et d'analyses.

### Rajout d'une colonne YearWeek
Les dates que nous obtenons directement après avoir scrappé ne sont pas dans un format "date" qui simplifie les calculs. Nous utilisons donc le module *datetime* de Python, notamment la fonction *datetime.strptime* pour convertir une chaîne de caractères représentant une date ou une heure en un objet datetime. En effet, nous avons été particulièrement vigilants au fait que notre code devait faire en sorte d'assigner la bonne date aux dates apparaissant sous le format "6mn", "1h" : dans notre code, nous faisons en sorte de prendre en compte la date suivant la précédente. Ainsi, nous avons pu régler des problèmes de date d'exécution du code.
Nous avons choisi d'analyser nos données en les groupant par semaine, ce qui permet d'avoir une analyse assez fine des tendances sans être trop exposés aux fluctuations journalières.

Dans le code suivant, nous avons créé une nouvelle table avec un rajout de la colonne yearweek. 


code 0_rap_convertdate

## Premiers graphiques
Une fois ceci fait, nous pouvons sortir nos premiers graphiques :
- d'abord le **nombre de tweets par semaine**, ce qui permet de relever certaines tendances
- puis sur un autre graphique nous représentons le **nombre de likes, de retweets et de réponses par semaine** en **valeur absolue** puis en **valeur pondérée** par le nombre de tweets.

In [None]:
code 1_rap_nbrtweets
code 2_rap_nbrlikes

CONCLUSION de ces premiers éléments


- ensuite, nous avons décidé de **créer différents indices** pour aborder autrement les données. 
1. un taux d'engagement égal à la somme de likes, de retweets, de réponses le tout sur le nombre de vues, exprimé en pourcentages. Nous mettons en place un taux d'engagement par semaine. 
2. un taux de croissance des interactions : nous nous sommes ici restreints à la variation de likes d'une semaine à l'autre
**PONDERER PAR LE NOMBRE DE TWEETS**

In [None]:
code 3_rap_indices

Une fois ces indices créés, nous les représentons sur un même graphique :

In [None]:
4_graph_indices