# Nettoyage des données

Après avoir scrappé, il nous faut tenir compte de plusieurs choses pour nettoyer les bases de données et les fusionner :
- dans un premier temps, on convertit les dates dans un format date permettant ensuite de trier et de réarranger la table dans le bon ordre temporel.
- les cases vides susceptibles d'apparaître dans les colonnes "Likes", "Views", etc... sont remplacées par des 0 (il n'y a eu en effet aucun like par exemple).
- on fusionne les tables et on les trie par date
- enfin, on supprime les bots, définis dans notre code par une répétition de 4 tweets faisant moins de 1000 vues (car certains tweets qui se répètent peuvent être des titres d'article)


In [1]:
!pip install pandas 
!pip install datetime

Collecting datetime
  Downloading DateTime-5.5-py3-none-any.whl.metadata (33 kB)
Collecting zope.interface (from datetime)
  Downloading zope.interface-7.2-cp312-cp312-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (44 kB)
Downloading DateTime-5.5-py3-none-any.whl (52 kB)
Downloading zope.interface-7.2-cp312-cp312-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (264 kB)
Installing collected packages: zope.interface, datetime
Successfully installed datetime-5.5 zope.interface-7.2


## 1. Convertir les dates en format date

Dans le code suivant, nous cherchons d'une part à remplacer les 2.3K par 2300, à convertir les dates dans un format *datetime*.

Nous avons fait le choix d'ajouter deux colonnes :
- une colonne YearWeek sous format 2024-1 pour la première semaine de 2024
- une colonne YearMonth sous format 2024-10 pour le mois d'octobre 2024

Nous avons décidé de nous restreindre à l'année 2024, en excluant le mois de décembre (car pas complet) : en effet, les fluctuations de 2023 étaient relativement similaires à celles de début de début 2024.

In [1]:
import pandas as pd
import os
from datetime import datetime, timedelta

In [3]:
# Fonction 1 : Nettoyer les données numériques
def convertir_en_nombre(valeur):
    """
    Convertit les chaînes de caractères (ex: '1.2K') en nombres.
    Remplace NaN par 0.
    """
    if pd.isna(valeur):  # Si la valeur est NaN, retourne 0
        return 0
    if isinstance(valeur, str):  # Vérifie si la valeur est une chaîne de caractères
        valeur = valeur.strip()  # Supprime les espaces inutiles
        if 'K' in valeur:  # Si la valeur contient 'K', multiplier par 1 000
            return float(valeur.replace('K', '')) * 1000
        elif 'M' in valeur:  # Si la valeur contient 'M', multiplier par 1 000 000
            return float(valeur.replace('M', '')) * 1000000
    try:
        return float(valeur)  # Sinon, convertir directement en nombre
    except ValueError:
        return 0  # Si la conversion échoue, retourner 0

# Fonction 2 : Conversion des dates
def convert_date(value, previous_date):
    """
    Convertit les valeurs de date relative ou absolue en objets datetime.
    """
    try:
        value = str(value).strip()  # S'assurer que la valeur est une chaîne
        
        # Cas 1 : Format "Nov 5" (pas d'année explicite)
        if len(value.split()) == 2:
            value_with_year = value + " 2024"  # Ajouter l'année par défaut
            return datetime.strptime(value_with_year, '%b %d %Y')
        
        # Cas 2 : Format complet "Nov 5, 2023"
        elif len(value.split()) == 3:
            return datetime.strptime(value, '%b %d, %Y')
        
        # Cas 3 : Valeur non reconnue
        else:
            return pd.NaT
    except Exception as e:
        print(f"Erreur lors de la conversion de la date : {value} -> {e}")
        return pd.NaT  # Retourne NaT si la conversion échoue

# Fonction 3 : Nettoyer et transformer un fichier
def process_file(file_path):
    """
    Nettoie et transforme un fichier Excel, en ajoutant des colonnes converties
    et en générant deux fichiers de sortie :
    1. Toutes les données transformées.
    2. Données filtrées avant une date spécifique.
    """
    print(f"Traitement du fichier : {file_path}")
    # Charger les données
    df = pd.read_excel(file_path)
    
    # Nettoyer les colonnes numériques
    colonnes_a_nettoyer = ['Comments', 'Repost', 'Likes', 'Views']
    for colonne in colonnes_a_nettoyer:
        if colonne in df.columns:
            df[colonne] = df[colonne].apply(convertir_en_nombre)
    
    # Convertir les dates
    converted_dates = []
    previous_date = None
    for value in df['Date']:
        if previous_date is None:  # La première ligne doit être une date absolue
            converted_date = convert_date(value, datetime(2024, 1, 1))  # Supposition du début
        else:
            converted_date = convert_date(value, previous_date)
        converted_dates.append(converted_date)
        if pd.notna(converted_date):  # Mettre à jour la référence seulement si la conversion a réussi
            previous_date = converted_date
    
    # Ajouter les colonnes converties
    df['ConvertedDate'] = converted_dates
    df['YearWeek'] = df['ConvertedDate'].dt.strftime('%Y-%U')
    df['YearMonth'] = df['ConvertedDate'].dt.strftime('%Y-%m')
    
    # Filtrer les données pour garder uniquement les dates entre le 1er janv et le 1er décembre 2024
    # Définir les bornes de la période
    start_date = datetime(2024, 1, 1)  # 1er janvier 2024 inclus
    end_date = datetime(2024, 11, 30)  # 30 novembre 2024 inclus

    # Appliquer le filtre pour garder les dates entre ces bornes
    df_filtered = df[(df['ConvertedDate'] >= start_date) & (df['ConvertedDate'] <= end_date)]


    # Chemin vers le nouveau dossier
    output_folder = '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye'

    # Générer le chemin du fichier de sortie : on renomme les fichiers en ajoutant _date à la fin
    base_filename = os.path.basename(file_path).replace('.xlsx', '_date.xlsx')
    output_file_filtered = os.path.join(output_folder, base_filename)
        
    # Sauvegarder les données filtrées 
    df_filtered.to_excel(output_file_filtered, index=False)


# Liste des fichiers Excel à traiter
files = ['/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_stay_1.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_exode_1.xlsx',
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_exode_2.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last_2.xlsx',
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last_3.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last_4.xlsx',
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last_5.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last_6.xlsx', 
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_leave_p1.xlsx', 
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_quit.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/bluesky.xlsx']

# Boucle principale pour traiter chaque fichier
for file in files:
    process_file(file)



Traitement du fichier : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_stay_1.xlsx
Traitement du fichier : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_exode_1.xlsx
Traitement du fichier : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_exode_2.xlsx
Traitement du fichier : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last_2.xlsx
Traitement du fichier : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last_3.xlsx
Traitement du fichier : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last_4.xlsx
Traitement du fichier : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last_5.xlsx
Traitement du fichier : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last_6.xlsx
Traitement du fichier : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_scrap/tweets_last.xlsx
Traitement du fichier : /hom

BadZipFile: File is not a zip file

## 2. Fusion des tables et tri par date

On fusionne les tables et on trie par date : on obtient finalement la base **tweets_fusionnes.xlsx**.

In [None]:
file_list = [
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_stay_1_date.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_exode_1_date.xlsx',
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_exode_2_date.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_last_2_date.xlsx',
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_last_3_date.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_last_4_date.xlsx',
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_last_5_date.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_last_6_date.xlsx', 
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_last_date.xlsx', '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_leave_p1_date.xlsx', 
'/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_nettoye/tweets_quit_date.xlsx'
   
]

# Charger et fusionner tous les fichiers
dataframes = []  # Liste pour stocker les DataFrames
for file in file_list:
    df = pd.read_excel(file)  # Charger chaque fichier
    dataframes.append(df)  # Ajouter le DataFrame à la liste

# Fusionner tous les DataFrames en un seul
merged_df = pd.concat(dataframes, ignore_index=True)

## 3. Suppression des bots

Nous nous sommes rendus compte que certains tweets revenaient plusieurs fois, après avoir réfléchi et testé plusieurs façons de supprimer les bots, nous nous sommes arrêtés à la définition d'un bot comme un tweet identique qui revient 4 fois ou plus, et qui fait moins de 1000 vues. 

In [None]:
df = merged_df

# Compter les occurrences de chaque tweet
content_counts = df['Content'].value_counts()

# Filtrer les contenus apparaissant au moins 4 fois
repeated_contents = content_counts[content_counts >= 4].index

# Identifier les tweets répétitifs
repeated_tweets = df[df['Content'].isin(repeated_contents)]

# Identifier les groupes où un tweet a plus de 1000 vues
to_keep = repeated_tweets.groupby('Content')['Views'].max()  # Max des vues pour chaque groupe
valid_tweets = to_keep[to_keep > 1000].index  # Conserver les groupes avec au moins un tweet > 1000 vues

# Séparer les tweets répétitifs en deux groupes
# Tweets à conserver (au moins 1 tweet > 1000 vues dans le groupe)
tweets_to_keep = repeated_tweets[repeated_tweets['Content'].isin(valid_tweets)]

# Tweets à supprimer (aucun tweet > 1000 vues dans le groupe)
tweets_to_remove = repeated_tweets[~repeated_tweets['Content'].isin(valid_tweets)]

# Retirer explicitement les tweets à supprimer de la base originale
df_cleaned = df[~df['Content'].isin(tweets_to_remove['Content'])]

# Sauvegarder les tweets répétitifs supprimés
#tweets_to_remove.to_excel('removed_repeated_tweets.xlsx', index=False)

# Sauvegarder la base nettoyée
df_cleaned.to_excel('/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/data_fin/tweets_fusionnes.xlsx', index=False)


Nettoyage terminé et fichiers sauvegardés.


In [5]:
# Fonction pour nettoyer la base de données
def clean_tweets(df, output_cleaned):

    # Compter les occurrences de chaque tweet
    content_counts = df['Content'].value_counts()

    # Filtrer les contenus apparaissant au moins 4 fois
    repeated_contents = content_counts[content_counts >= 4].index

    # Identifier les tweets répétitifs
    repeated_tweets = df[df['Content'].isin(repeated_contents)]

    # Identifier les groupes où un tweet a plus de 1000 vues
    to_keep = repeated_tweets.groupby('Content')['Views'].max()  # Max des vues pour chaque groupe
    valid_tweets = to_keep[to_keep > 1000].index  # Conserver les groupes avec au moins un tweet > 1000 vues

    # Séparer les tweets répétitifs en deux groupes
    # Tweets à conserver (au moins 1 tweet > 1000 vues dans le groupe)
    tweets_to_keep = repeated_tweets[repeated_tweets['Content'].isin(valid_tweets)]

    # Tweets à supprimer (aucun tweet > 1000 vues dans le groupe)
    tweets_to_remove = repeated_tweets[~repeated_tweets['Content'].isin(valid_tweets)]

    # Retirer explicitement les tweets à supprimer de la base originale
    df_cleaned = df[~df['Content'].isin(tweets_to_remove['Content'])]

    # Sauvegarder les tweets supprimés
    #tweets_to_remove.to_excel(output_removed, index=False)

    # Sauvegarder la base nettoyée
    df_cleaned.to_excel(output_cleaned, index=False)

# Charger les deux bases de données
df1 = pd.read_excel('/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/data_fin/tweets_fusionnes.xlsx')  
df2 = pd.read_excel('/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/bluesky_nettoye.xlsx')  

# Appliquer le nettoyage sur la première base
clean_tweets(
    df1,
    output_cleaned='/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/data_fin/tweets_fusionnes.xlsx'
)

# Appliquer le nettoyage sur la deuxième base
clean_tweets(
    df2,
    output_cleaned='/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/data_fin/bluesky_nettoye.xlsx'
)


On trie toute la table nettoyée sans les bots par date pour avoir la base finale :

In [23]:
# Vérifier que la colonne 'ConvertedDate' est bien en format datetime
if not pd.api.types.is_datetime64_any_dtype(merged_df['ConvertedDate']):
    merged_df['ConvertedDate'] = pd.to_datetime(merged_df['ConvertedDate'])

# Trier par date décroissante
merged_df = merged_df.sort_values(by='ConvertedDate', ascending=False)

# Sauvegarder la table fusionnée et triée
output_file = '/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_fusionnes.xlsx'
merged_df.to_excel(output_file, index=False)

In [None]:
# Fonction pour trier et sauvegarder une base
def sort_and_save_by_date(df, date_column, output_file):

    # Vérifier que la colonne de date est bien au format datetime
    if not pd.api.types.is_datetime64_any_dtype(df[date_column]):
        df[date_column] = pd.to_datetime(df[date_column])

    # Trier par date décroissante
    df_sorted = df.sort_values(by=date_column, ascending=False)

    # Sauvegarder la table triée
    df_sorted.to_excel(output_file, index=False)

# Charger les deux bases de données
df1 = pd.read_excel('/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/data_fin/tweets_fusionnes.xlsx')  
df2 = pd.read_excel('/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/data_fin/bluesky_nettoye.xlsx') 

# Appliquer le tri et sauvegarder la première base
sort_and_save_by_date(
    df1,
    date_column='ConvertedDate',
    output_file='/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/data_fin/tweets_fusionnes.xlsx'
)

# Appliquer le tri et sauvegarder la deuxième base
sort_and_save_by_date(
    df2,
    date_column='ConvertedDate',
    output_file='/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/data_fin/bluesky_nettoye.xlsx'
)

Base triée sauvegardée dans : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/data_fin/tweets_fusionnes.xlsx
Base triée sauvegardée dans : /home/onyxia/work/Scrapping_tweets/Scrapping_tweets/data_fin/bluesky_nettoye.xlsx


## 4. Apparence de la base de données

In [11]:
# on modifie les paramètres pour afficher plus de contenu dans chaque cellule
pd.set_option('display.max_colwidth', None)  # Affiche tout le contenu des colonnes
pd.set_option('display.max_columns', None)  # Affiche toutes les colonnes
pd.set_option('display.width', 1000)  # Ajuste la largeur totale de l'affichage

# on charge et affiche le fichier Excel
df = pd.read_excel('tweets_fusionnes.xlsx')
display(df.head(7))

Unnamed: 0,Username,Date,Content,Comments,Repost,Likes,Views,ConvertedDate,YearWeek,YearMonth
0,𝐇𝐎𝐓𝐄𝐏 悪いバナー,Nov 30,"The left have become so dependent on Twitter that they're forced with two options:\n\n1) Leave Twitter and leave behind the one platform that they feel grants them so much power.\n\n2) Stay on Twitter but deal with Musk, MAGA, Trump, etc.",1,0,0,49,2024-11-30,2024-47,2024-11
1,StraitjacketEnjoyer,Nov 30,Have not noticed anything out of the ordinary since Musk bought Twitter.\n\nSome people are annoying but you can always just block them.\n\nAny specific reason you will leave Twitter or is it just that you don't like the platform owner?,0,0,0,47,2024-11-30,2024-47,2024-11
2,Juan Sánchez Villa-Lobos Ramírez,Nov 30,Change to Twitter Suggests Elon Musk Is Panicking Over Users Leaving for Bluesky,0,0,0,17,2024-11-30,2024-47,2024-11
3,MercadoMagico.com USA,Nov 30,Change to Twitter Suggests Elon Musk Is Panicking Over Users Leaving for #Bluesky,0,2,0,43,2024-11-30,2024-47,2024-11
4,Donel Adams,Nov 30,Change to Twitter Suggests Elon Musk Is Panicking Over Users Leaving for Bluesky,0,0,0,22,2024-11-30,2024-47,2024-11
5,Stop That. @stopthatgirl7@famichiki.jp,Nov 30,Change to Twitter Suggests Elon Musk Is Panicking Over Users Leaving for Bluesky,1,0,2,44,2024-11-30,2024-47,2024-11
6,Maliah Well known (Gone/Left),Nov 30,"I am Leaving Twitter Forever. But I'll be on Bluesky, it's way better than twitter. So to my friends or anyone who's following me, I'll only be active on Bluesky. I will never support Donald Trump, I despise that Fascist including Elon Musk. Goodbye Forever ""Twitter"". Hi Bluesky",0,0,0,39,2024-11-30,2024-47,2024-11


## 4. Nettoyage des tweets sur le sujet "Bluesky"

Après avoir récupéré les tweets sur le sujet "Bluesky" dans un tableau de données, on va simplement supprimer les tweets qui ne mentionnent pas directement le terme "bluesky" (ce dernier peut en effet faire partie du nom d'utilisateur et donc avoir été récupéré sans pour autant être en rapport avec le sujet)