# ETL : Projet Applications of Big Data
## Kaci Bouaouli - Abel Boudaib - Nadjib Khammar - DE1

### 1) Fusion des plusieurs fichiers CSV en un seul + Ajout d'une colonne "username" en utilisant le nom du fichier d'origine

In [6]:
import pandas as pd
import os

input_folder = './dataset'
output_file = './dataset/data_transformed.csv'

all_data = []

if not os.path.exists(input_folder):
    print(f"Le dossier spécifié n'existe pas : {input_folder}")
else:
    for filename in os.listdir(input_folder):
        if filename.endswith('.csv'):
            file_path = os.path.join(input_folder, filename)
            print(f"Traitement du fichier : {filename}")

            username = os.path.basename(file_path).replace('.csv', '')

            try:
                df = pd.read_csv(file_path, header=None, names=["Artist", "Album", "Track", "Date"])
                df['username'] = username
                all_data.append(df)
            except Exception as e:
                print(f"Erreur lors du chargement de {filename}: {e}")

if all_data:
    combined_data = pd.concat(all_data, ignore_index=True)

    combined_data.to_csv(output_file, index=False)
    print(f'Tous les fichiers combinés ont été enregistrés dans : {output_file}')
else:
    print("Aucun fichier CSV valide trouvé ou chargé.")

Traitement du fichier : AkaGambit.csv
Traitement du fichier : alexlray.csv
Traitement du fichier : animefreekben.csv
Traitement du fichier : apatel158.csv
Traitement du fichier : artangelo.csv
Traitement du fichier : AscendingNode.csv
Traitement du fichier : avarthar.csv
Traitement du fichier : axoaxoaxo.csv
Traitement du fichier : Champignonette.csv
Traitement du fichier : codycollett.csv
Traitement du fichier : crimetays.csv
Traitement du fichier : czarrep13.csv
Traitement du fichier : d0ras.csv
Traitement du fichier : DuckDAWorld.csv
Traitement du fichier : fl6stringer.csv
Traitement du fichier : Guigt77.csv
Traitement du fichier : Hanhvunt2002.csv
Traitement du fichier : HeyDottore.csv
Traitement du fichier : ibprivat.csv
Traitement du fichier : inmyprime.csv
Traitement du fichier : ivanshello.csv
Traitement du fichier : JBloom91.csv
Traitement du fichier : Jes_Jungkook97.csv
Traitement du fichier : jon1wt.csv
Traitement du fichier : kamui-69.csv
Traitement du fichier : Kleber_Fp17

### 2) Conversion de la colonne date en version datetime utilisable par PowerBI

In [11]:
import pandas as pd

input_file = './dataset/data_transformed.csv'
output_file = './dataset/data_transformed_datetime.csv'

df = pd.read_csv(input_file)

df['Date'] = pd.to_datetime(df['Date'], format='%d %b %Y %H:%M')

df.to_csv(output_file, index=False)
print(f'Le fichier avec la colonne Date convertie a été enregistré : {output_file}')

Le fichier avec la colonne Date convertie a été enregistré : ./dataset/data_transformed_datetime.csv


In [15]:
import pandas as pd
import os

input_file = './dataset/data_transformed.csv'
output_folder = './dataset/divided_files/'

os.makedirs(output_folder, exist_ok=True)

df = pd.read_csv(input_file)

num_parts = 5

chunk_size = len(df) // num_parts

for i in range(num_parts):
    start_idx = i * chunk_size
    end_idx = (i + 1) * chunk_size if i < num_parts - 1 else len(df)
    
    chunk = df.iloc[start_idx:end_idx]
    output_file = os.path.join(output_folder, f"data_part_{i+1}.csv")

    chunk.to_csv(output_file, index=False)
    print(f"Fichier {output_file} créé avec {len(chunk)} lignes.")

print("Les fichiers ont été divisés avec succès.")

Fichier ./dataset/divided_files/data_part_1.csv créé avec 986336 lignes.
Fichier ./dataset/divided_files/data_part_2.csv créé avec 986336 lignes.
Fichier ./dataset/divided_files/data_part_3.csv créé avec 986336 lignes.
Fichier ./dataset/divided_files/data_part_4.csv créé avec 986336 lignes.
Fichier ./dataset/divided_files/data_part_5.csv créé avec 986338 lignes.
Les fichiers ont été divisés avec succès.
