# Nettoyage des données

Après avoir scrappé, il nous faut tenir compte de plusieurs choses pour nettoyer les bases de données et les fusionner :
- dans un premier temps, on convertit les dates dans un format date permettant ensuite de trier et de réarranger la table dans le bon ordre temporel.
- les cases vides susceptibles d'apparaître dans les colonnes "Likes", "Views", etc... sont remplacées par des 0 (il n'y a eu en effet aucun like par exemple).
- on fusionne les tables et on les trie par date
- enfin, on supprime les bots, définis dans notre code par une répétition de 4 tweets faisant moins de 1000 vues (car certains tweets qui se répètent peuvent être des titres d'article)


Nettoyage : mettre des 0 et des colonnes par mois et semaine

In [None]:
!pip install pandas
!pip install datetime

In [None]:
import pandas as pd
from datetime import datetime, timedelta

# Fonction 1 : Nettoyer les données numériques
def convertir_en_nombre(valeur):
    """
    Convertit les chaînes de caractères (ex: '1.2K') en nombres.
    Remplace NaN par 0.
    """
    if pd.isna(valeur):  # Si la valeur est NaN, retourne 0
        return 0
    if isinstance(valeur, str):  # Vérifie si la valeur est une chaîne de caractères
        valeur = valeur.strip()  # Supprime les espaces inutiles
        if 'K' in valeur:  # Si la valeur contient 'K', multiplier par 1 000
            return float(valeur.replace('K', '')) * 1000
        elif 'M' in valeur:  # Si la valeur contient 'M', multiplier par 1 000 000
            return float(valeur.replace('M', '')) * 1000000
    try:
        return float(valeur)  # Sinon, convertir directement en nombre
    except ValueError:
        return 0  # Si la conversion échoue, retourner 0

# Fonction 2 : Conversion des dates
def convert_date(value, previous_date):
    """
    Convertit les valeurs de date relative ou absolue en objets datetime.
    """
    try:
        value = str(value).strip()  # S'assurer que la valeur est une chaîne
        
        # Cas 1 : Format "Nov 5" (pas d'année explicite)
        elif len(value.split()) == 2:
            value_with_year = value + " 2024"  # Ajouter l'année par défaut
            return datetime.strptime(value_with_year, '%b %d %Y')
        
        # Cas 2 : Format complet "Nov 5, 2023"
        elif len(value.split()) == 3:
            return datetime.strptime(value, '%b %d, %Y')
        
        # Cas 3 : Valeur non reconnue
        else:
            return pd.NaT
    except Exception as e:
        print(f"Erreur lors de la conversion de la date : {value} -> {e}")
        return pd.NaT  # Retourne NaT si la conversion échoue

# Fonction 3 : Nettoyer et transformer un fichier
def process_file(file_path):
    """
    Nettoie et transforme un fichier Excel, en ajoutant des colonnes converties
    et en générant deux fichiers de sortie :
    1. Toutes les données transformées.
    2. Données filtrées avant une date spécifique.
    """
    print(f"Traitement du fichier : {file_path}")
    # Charger les données
    df = pd.read_excel(file_path)
    
    # Nettoyer les colonnes numériques
    colonnes_a_nettoyer = ['Comments', 'Repost', 'Likes', 'Views']
    for colonne in colonnes_a_nettoyer:
        if colonne in df.columns:
            df[colonne] = df[colonne].apply(convertir_en_nombre)
    
    # Convertir les dates
    converted_dates = []
    previous_date = None
    for value in df['Date']:
        if previous_date is None:  # La première ligne doit être une date absolue
            converted_date = convert_date(value, datetime(2024, 1, 1))  # Supposition du début
        else:
            converted_date = convert_date(value, previous_date)
        converted_dates.append(converted_date)
        if pd.notna(converted_date):  # Mettre à jour la référence seulement si la conversion a réussi
            previous_date = converted_date
    
    # Ajouter les colonnes converties
    df['ConvertedDate'] = converted_dates
    df['YearWeek'] = df['ConvertedDate'].dt.strftime('%Y-%U')
    df['YearMonth'] = df['ConvertedDate'].dt.strftime('%Y-%m')
    

    # Filtrer les données pour garder uniquement les dates avant le 1er décembre 2024
    cutoff_date = datetime(2024, 12, 1)
    df_filtered = df[df['ConvertedDate'] < cutoff_date]
    
    # Sauvegarder les données filtrées
    output_file_filtered = file_path.replace('.xlsx', '_nettoye.xlsx')
    df_filtered.to_excel(output_file_filtered, index=False)
    print(f"Fichier avec les données filtrées sauvegardé : {output_file_filtered}")

# Liste des fichiers Excel à traiter
files = ['/home/onyxia/work/Scrapping_tweets/Scrapping_tweets/tweets_stay_1.xlsx', 'tweets_group_stay.xlsx']

# Boucle principale pour traiter chaque fichier
for file in files:
    process_file(file)



Tri après fusion des tables

In [None]:
import pandas as pd

# Charger les deux fichiers filtrés
file_1 = 'tweets_group_leave_nettoye.xlsx'
file_2 = 'tweets_group_stay_nettoye.xlsx'

# Charger les données des deux fichiers
df1 = pd.read_excel(file_1)
df2 = pd.read_excel(file_2)

# Fusionner les deux tables
merged_df = pd.concat([df1, df2], ignore_index=True)

# Vérifier que la colonne 'ConvertedDate' est bien en format datetime
if not pd.api.types.is_datetime64_any_dtype(merged_df['ConvertedDate']):
    merged_df['ConvertedDate'] = pd.to_datetime(merged_df['ConvertedDate'])

# Trier par date décroissante
merged_df = merged_df.sort_values(by='ConvertedDate', ascending=False)

# Sauvegarder la table fusionnée et triée
output_file = 'tweets_fusionnes.xlsx'
merged_df.to_excel(output_file, index=False)


Supprimer les bots

In [None]:
df = pd.read_excel('tweets_fusionnes')

# Vérifier que les colonnes nécessaires existent
if 'Content' not in df.columns or 'Views' not in df.columns:
    raise ValueError("Les colonnes 'Content' et 'Views' sont nécessaires pour ce traitement.")

# Compter les occurrences de chaque tweet
content_counts = df['Content'].value_counts()

# Filtrer les contenus apparaissant au moins 4 fois
repeated_contents = content_counts[content_counts >= 4].index

# Identifier les tweets répétitifs
repeated_tweets = df[df['Content'].isin(repeated_contents)]

# Identifier les groupes où un tweet a plus de 1000 vues
to_keep = repeated_tweets.groupby('Content')['Views'].max()  # Max des vues pour chaque groupe
valid_tweets = to_keep[to_keep > 1000].index  # Conserver les groupes avec au moins un tweet > 1000 vues

# Séparer les tweets répétitifs en deux groupes
# Tweets à conserver (au moins 1 tweet > 1000 vues dans le groupe)
tweets_to_keep = repeated_tweets[repeated_tweets['Content'].isin(valid_tweets)]

# Tweets à supprimer (aucun tweet > 1000 vues dans le groupe)
tweets_to_remove = repeated_tweets[~repeated_tweets['Content'].isin(valid_tweets)]

# Combiner les données finales
#df_cleaned = pd.concat([df[~df['Content'].isin(repeated_contents)], tweets_to_keep])

# Sauvegarder les tweets répétitifs supprimés
# tweets_to_remove.to_excel('removed_repeated_tweets.xlsx', index=False)

# Sauvegarder la base nettoyée
#df_cleaned.to_excel('cleaned_tweets.xlsx', index=False)