File to prepare the data properly

In [1]:
import pandas as pd
import numpy as np

def shuffle_dataset_column(input_path, output_path, column_index, sep=',', has_header=True):
    """
    Lit un fichier, mélange une colonne spécifique et sauvegarde le résultat.
    
    Args:
        input_path (str): Chemin vers le fichier original.
        output_path (str): Chemin où sauvegarder le fichier modifié.
        column_index (int): L'index de la colonne à mélanger (0, 1 ou 2).
        sep (str): Le séparateur des données (ex: ',' ou '\t' ou ' '). 
        has_header (bool): Mettre True si la première ligne contient les noms des colonnes.
    """
    
    # 1. Chargement des données
    # 'header=None' signifie qu'on traite la 1ère ligne comme des données, pas des titres
    header_setting = 0 if has_header else None
    df = pd.read_csv(input_path, sep=sep, header=header_setting)
    
    print(f"Chargement terminé. {len(df)} lignes trouvées.")
    
    # 2. Mélange (Shuffle)
    # On extrait les valeurs de la colonne cible
    col_values = df.iloc[:, column_index].values
    
    # On les mélange de manière aléatoire
    np.random.shuffle(col_values)
    
    # On remet les valeurs mélangées dans la colonne
    df.iloc[:, column_index] = col_values
    
    # 3. Sauvegarde
    # On garde le même format (pas d'index pandas ajouté)
    df.to_csv(output_path, sep=sep, index=False, header=has_header)
    
    print(f"Succès ! La colonne {column_index} a été mélangée.")
    print(f"Fichier sauvegardé ici : {output_path}")
    

Twitter dataset

In [2]:
shuffle_dataset_column('./original_data/twitter_cross_platform.csv','./data/twitter/random_video.csv',4)
shuffle_dataset_column('./original_data/twitter_cross_platform.csv','./data/twitter/random_time.csv',2)

#video and time 
shuffle_dataset_column('./original_data/twitter_cross_platform.csv','./data/twitter/random.csv',4)
shuffle_dataset_column('./data/twitter/random.csv','./data/twitter/random_video&time.csv',2)

Chargement terminé. 14942 lignes trouvées.
Succès ! La colonne 4 a été mélangée.
Fichier sauvegardé ici : ./data/twitter/random_video.csv
Chargement terminé. 14942 lignes trouvées.
Succès ! La colonne 2 a été mélangée.
Fichier sauvegardé ici : ./data/twitter/random_time.csv
Chargement terminé. 14942 lignes trouvées.
Succès ! La colonne 4 a été mélangée.
Fichier sauvegardé ici : ./data/twitter/random.csv
Chargement terminé. 14942 lignes trouvées.
Succès ! La colonne 2 a été mélangée.
Fichier sauvegardé ici : ./data/twitter/random_video&time.csv


Facebook dataset

In [3]:
shuffle_dataset_column('./original_data/facebook_cross_platform.csv','./data/facebook/random_video.csv',4)
shuffle_dataset_column('./original_data/facebook_cross_platform.csv','./data/facebook/random_time.csv',2)

#video and time 
shuffle_dataset_column('./original_data/facebook_cross_platform.csv','./data/facebook/random.csv',4)
shuffle_dataset_column('./data/facebook/random.csv','./data/facebook/random_video&time.csv',2)

Chargement terminé. 1080 lignes trouvées.
Succès ! La colonne 4 a été mélangée.
Fichier sauvegardé ici : ./data/facebook/random_video.csv
Chargement terminé. 1080 lignes trouvées.
Succès ! La colonne 2 a été mélangée.
Fichier sauvegardé ici : ./data/facebook/random_time.csv
Chargement terminé. 1080 lignes trouvées.
Succès ! La colonne 4 a été mélangée.
Fichier sauvegardé ici : ./data/facebook/random.csv
Chargement terminé. 1080 lignes trouvées.
Succès ! La colonne 2 a été mélangée.
Fichier sauvegardé ici : ./data/facebook/random_video&time.csv
