# Notebook de nettoyage des données du dataset X

**Objectifs :**

- Nettoyer les données pour obtenir un seul fichier contenant l'échantillon qui sera utilisée.
- Vérifier la présence de valeurs manquantes ou erronées.
- S'assurer de réunir uniquement les données nécessaires pour la base de données.
- Vérifier le typage des données correspondant à la base de données prévue.

In [103]:
from rich import print
from tqdm import tqdm
import pandas as pd
import glob
import os

### Récupération de la liste des fichiers du dataset disponible dans le dossier origin

Pour avoir le dataset complet prêt pour le traitement :
```bash
$ mkdir origin
$ git clone https://github.com/sinking8/usc-x-24-us-election.git origin
```

In [None]:
def get_csv_list(part_number):
    csv_files = []
    if part_number is list:
        for part in part_number:
            csv_files += glob.glob(f"./origin/part_{part}/*.csv")
    else:
        csv_files = glob.glob(f"./origin/part_{part_number}/*.csv")
    return csv_files

### Création des DataFrames finaux vides, avec typage

In [None]:
x_post_df = pd.DataFrame(
    {
        "post_id": pd.Series(dtype="int"),
        "user_id": pd.Series(dtype="int"),
        "lang": pd.Series(dtype="str"),
        "text": pd.Series(dtype="str"),
        "date": pd.Series(dtype="datetime64[ns]"),
        "like_count": pd.Series(dtype="int"),
        "reply_count": pd.Series(dtype="int"),
        "retweet_count": pd.Series(dtype="int"),
        "quote_count": pd.Series(dtype="int"),
    }
)

print(x_post_df.dtypes)
x_post_df.to_parquet("./data/x_post.parquet", index=False)

x_user_df = pd.DataFrame(
    {
        "user_id": pd.Series(dtype="int"),
        "name": pd.Series(dtype="str"),
        "bio": pd.Series(dtype="str"),
        "followers_count": pd.Series(dtype="int"),
        "follows_count": pd.Series(dtype="int"),
    }
)

print(x_user_df.dtypes)
x_user_df.to_parquet("./data/x_user.parquet", index=False)

### Fonction de nettoyage

- entrée : chemin du csv a ajouter, les dataframe originaux
- sortie : les dataframe avec les nouvelles lignes ajoutées

In [117]:
def clean_file(path, x_post_df, x_user_df):
    current_df = pd.read_csv(path)
    for i, row in tqdm(
        current_df.iterrows(),
        total=len(current_df),
        desc=f"Processing {os.path.basename(path)}",
    ):
        try:
            # Vérification des données
            # Nous voulons :
            # - Les lignes sans valeurs nulles
            # - Les tweets en français
            # - Sans retweets ni citation de tweets.
            required_columns = [
                "id",
                "lang",
                "text",
                "date",
                "likeCount",
                "replyCount",
                "retweetCount",
                "quoteCount",
                "user",
            ]
            if any(col not in row or pd.isna(row[col]) for col in required_columns):
                continue
            if row["lang"] != "fr":  # Choisir language voulu
                continue
            if row["quotedTweet"]:
                continue
            if row["retweetedTweet"]:
                continue

            ######### USER PART #########
            import datetime  # Import datetime pour évaluer directement le dictionnaire "user"

            user_dict = eval(row["user"])  # Evaluer la ligne
            user_id = int(user_dict["id"])
            user_name = user_dict["username"]
            user_bio = user_dict["rawDescription"]
            user_followers_count = int(user_dict["followersCount"])
            user_follows_count = int(user_dict["friendsCount"])

            ######### POST PART #########

            post_id = int(row["id"])
            lang = str(row["lang"])
            text = str(row["text"])
            date = str(row["date"])
            like_count = int(row["likeCount"])
            reply_count = int(row["replyCount"])
            retweet_count = int(row["retweetCount"])
            quote_count = int(row["quoteCount"])

            ######### AJOUT PART #########

            # Vérification si le tweet existe déjà dans le DataFrame
            if x_post_df["post_id"].eq(post_id).any():
                continue
            else:
                new_row_tweet = pd.DataFrame(
                    {
                        "post_id": [post_id],
                        "user_id": [user_id],
                        "lang": [lang],
                        "text": [text],
                        "date": [pd.to_datetime(date)],
                        "like_count": [like_count],
                        "reply_count": [reply_count],
                        "retweet_count": [retweet_count],
                        "quote_count": [quote_count],
                    }
                )
                x_post_df = pd.concat([x_post_df, new_row_tweet], ignore_index=True)

            # Vérification si l'utilisateur existe déjà dans le DataFrame
            if x_user_df["user_id"].eq(user_id).any():
                continue
            else:
                new_row_user = pd.DataFrame(
                    {
                        "user_id": [user_id],
                        "name": [user_name],
                        "bio": [user_bio],
                        "followers_count": [user_followers_count],
                        "follows_count": [user_follows_count],
                    }
                )
                x_user_df = pd.concat([x_user_df, new_row_user], ignore_index=True)

        except Exception as e:
            print(
                f"Error processing row {i} from file {os.path.basename(path)}: {str(e)}"
            )
            continue

    return (x_post_df, x_user_df)

### Cellule principale de traitement progressif des données 

Le jeu de données a, depuis sa première publication, reçu des mises à jour. Ces changements ont corrigés des erreurs. Mais les mises à jour ont aussi intégré de nouvelles périodes, couvrant jusqu'à la fin de 2024. 

- Pour la version à date de publication mettre `[i for i in range(1, 23)]` et avoir le git du dataset complet dans le dossier racine.
- Pour une autre sélection, remplacer la variables PARTIES par une liste de numéro de fichier à traiter.

In [None]:
x_post_df = pd.read_parquet("./data/x_post.parquet")
x_user_df = pd.read_parquet("./data/x_user.parquet")

PARTIES = [
    1 # Pour tester la partie 1 intégrée dans le git
    ]

for path in get_csv_list(
    PARTIES
):
    x_post_df, x_user_df = clean_file(path, x_post_df, x_user_df)

# x_post confirmation
print("[bold yellow]x_post_df describe:[/bold yellow]")
print(x_post_df.describe())
print(x_post_df.shape)
print("[bold yellow]x_post_df head(5):[/bold yellow]")
print(x_post_df.head())
x_post_df.to_parquet("./data/x_post.parquet", index=False)
print("[bold yellow]Sucessfuly saved to x_post.parquet[/bold yellow]")
# x_user confirmation
print("[bold yellow]x_user_df describe:[/bold yellow]")
print(x_user_df.describe())
print(x_user_df.shape)
print("[bold yellow]x_user_df head(5):[/bold yellow]")
print(x_user_df.head())
x_user_df.to_parquet("./data/x_user.parquet", index=False)
print("[bold yellow]Sucessfuly saved to x_user.parquet[/bold yellow]")

Processing may_july_chunk_365.csv: 100%|██████████| 50000/50000 [00:05<00:00, 9626.49it/s] 
  current_df = pd.read_csv(path)
Processing may_july_chunk_362.csv: 100%|██████████| 49998/49998 [00:05<00:00, 8914.92it/s] 
Processing may_july_chunk_370.csv: 100%|██████████| 50000/50000 [00:05<00:00, 8918.87it/s] 
Processing may_july_chunk_372.csv: 100%|██████████| 50000/50000 [00:05<00:00, 9777.13it/s] 
Processing may_july_chunk_366.csv: 100%|██████████| 49998/49998 [00:06<00:00, 7977.61it/s] 
Processing may_july_chunk_361.csv: 100%|██████████| 50000/50000 [00:07<00:00, 6542.40it/s]
Processing may_july_chunk_374.csv: 100%|██████████| 50000/50000 [00:04<00:00, 12313.34it/s]
Processing may_july_chunk_373.csv: 100%|██████████| 50000/50000 [00:04<00:00, 11761.33it/s]
Processing may_july_chunk_364.csv: 100%|██████████| 50000/50000 [00:04<00:00, 10874.39it/s]
Processing may_july_chunk_375.csv: 100%|██████████| 50000/50000 [00:03<00:00, 13692.06it/s]
Processing may_july_chunk_371.csv: 100%|████████