In [1]:
import pandas as pd
import json
import sqlite3
import random

- import pandas as pd: Ici, nous importons la bibliothèque pandas, qui est utilisée pour la manipulation et l'analyse des données. Elle fournit des structures de données puissantes pour travailler avec des données tabulaires, comme les DataFrames. En l'important sous l'alias pd, nous pouvons l'utiliser plus facilement dans notre code en utilisant pd.nom_de_la_methode.

- import json: Nous importons également le module json, qui fournit des méthodes pour travailler avec le format JSON (JavaScript Object Notation). JSON est un format de données couramment utilisé pour échanger des données entre serveurs et clients, ou pour sauvegarder des données dans un format lisible par l'homme.

- import sqlite3: Ici, nous importons le module sqlite3, qui est intégré à Python et permet de travailler avec des bases de données SQLite. SQLite est un système de gestion de base de données relationnelles léger, intégré dans Python et ne nécessitant aucune configuration de serveur.

- import random: Le module random est utilisé pour générer des nombres aléatoires. Nous l'utilisons ici pour mélanger les lignes de données du fichier CSV afin d'assurer une répartition aléatoire des données.

In [2]:
# Chargement du fichier csv
def load_data_from_csv(csv_file):
    data = pd.read_csv(csv_file)
    return data


- load_data_from_csv(csv_file): C'est une fonction définie par l'utilisateur qui prend le nom du fichier CSV en argument (csv_file). Elle utilise la fonction pd.read_csv de pandas pour charger les données du fichier CSV dans un DataFrame. Un DataFrame est une structure de données de pandas qui permet de manipuler facilement les données tabulaires.

In [3]:
# Melange
def shuffle_data(data):
    shuffled_data = data.sample(frac=1, random_state=42)
    return shuffled_data


- shuffle_data(data): C'est une autre fonction définie par l'utilisateur qui prend le DataFrame (data) en argument. Cette fonction mélange les lignes du DataFrame en utilisant la méthode sample de pandas. Nous fixons random_state=42 pour obtenir des résultats reproductibles (toujours le même mélange), ce qui peut être utile pour le débogage. La fonction renvoie le DataFrame mélangé.

In [4]:
# Sauvegarde sous format .json
def save_to_json(data, json_file):
    data.to_json(json_file, orient='records', lines=True)
    

- save_to_json(data, json_file): Cette fonction prend le DataFrame (data) et le nom du fichier JSON (json_file) en arguments. Elle utilise la méthode to_json de pandas pour sauvegarder les données du DataFrame dans un fichier JSON. L'argument orient='records' indique que chaque ligne du DataFrame est une entrée distincte dans le fichier JSON. L'argument lines=True permet d'écrire chaque ligne dans le fichier JSON sur une nouvelle ligne pour une meilleure lisibilité.

In [5]:
# Sauvegarde sous format .csv
def save_to_csv(data, csv_file):
    data.to_csv(csv_file, index=False)
    

- save_to_csv(data, csv_file): Cette fonction prend le DataFrame (data) et le nom du fichier CSV (csv_file) en arguments. Elle utilise la méthode to_csv de pandas pour sauvegarder les données du DataFrame dans un fichier CSV. L'argument index=False est utilisé pour ne pas inclure l'index du DataFrame dans le fichier CSV, car cela n'est généralement pas nécessaire pour les données sauvegardées.

In [6]:
# Sauvegarde dans une base de données
def save_to_database(data, table_name, db_name):
    conn = sqlite3.connect(db_name)
    data.to_sql(table_name, conn, index=False, if_exists='replace')
    conn.close()
    

- save_to_database(data, table_name, db_name): Cette fonction prend le DataFrame (data), le nom de la table (table_name) et le nom de la base de données SQLite (db_name) en arguments. Elle utilise le module sqlite3 pour établir une connexion à la base de données SQLite spécifiée. Ensuite, elle utilise la méthode to_sql de pandas pour transférer les données du DataFrame dans la table spécifiée dans la base de données. L'argument if_exists='replace' est utilisé pour remplacer la table si elle existe déjà.

In [7]:
import time

def display_with_delay(text, delay):
    time.sleep(delay)
    print(text)

display_with_delay("*******************************      DATA SPLITTER       *********************************************", 2)
display_with_delay("BIENVENUE ! Nous vous aiderons à stocker vos données sous trois formats: .json, .csv et une base de données !", 3)
display_with_delay("Veuillez nous remplir les informations suivantes", 3)


# Intéraction avec l'utilisateur
database = input("Veuillez entrer le nom de la base: ")
table = input("Veuillez entrer le nom de la table: ")
json_percent = int(input("Veuillez entrer le pourcentage de fichier json: "))
db_percent = int(input("Veuillez entrer le pourcentage de la base: "))
f_json = input("Veuillez entrer le nom du fichier JSON de sortie (ex: output.json): ")
f_csv = input("Veuillez entrer le nom du fichier CSV de sortie (ex: output.csv): ")

print()
print("-------------------------------------------------------------------")
print(f"Vous avez nommé votre base de données: {database}")
print(f"Vous souhaitez insérer dans la table: {table}")
print(f"Vous voulez insérer {json_percent}% dans un fichier JSON et {db_percent}% dans la base de données")
print("-------------------------------------------------------------------")
print()

response = input("Souhaitez-vous apporter une modification ?(y/n): ")

if response == "y":
    print("Que souhaitez-vous modifier ?")
    choice = int(input("Tape 1 pour modifier la base de données\nTape 2 pour modifier la table\Tape 3 pour modifier le pourcentage de json\Tape 4 pour modifier le pourcentage de base de données."))
    if choice == 1:
        database = input("Veuillez entrer le nom de la base: ")
    elif choice == 2:
        table = input("Veuillez entrer le nom de la table: ")
    elif choice == 3:
        json_percent = int(input("Veuillez entrer le pourcentage de fichier json: "))
    elif choice == 4:
        db_percent = int(input("Veuillez entrer le pourcentage de la base: "))
    else:
        print("Veuillez:\nTaper 1 pour modifier la base de données\nTaper 2 pour modifier la table\nTaper 3 pour modifier le pourcentage de json\nTaper 4 pour modifier le pourcentage de base de données")
elif response == "n":
    print("très bien ! Veuillez patienter un instant !")
else:
   response = input("Souhaitez-vous apporter une modification ?(y/n): ") 

              
# Set desired arguments here
csv_file = "ecommerce-data.csv"
json_file = f_json + ".json"
csv_destination = f_csv + ".csv"
db_name = database
table_name = table
json_percentage = json_percent
db_percentage = 25

# Load and Shuffle
data = load_data_from_csv(csv_file)
shuffled_data = shuffle_data(data)

# Lines Calculis
total_rows = len(shuffled_data)
json_rows = int(json_percentage / 100 * total_rows)
db_rows = int(db_percentage / 100 * total_rows)
csv_rows = total_rows - json_rows - db_rows

# Sauvegarde dans le fichier JSON
json_data = shuffled_data[:json_rows]
save_to_json(json_data, json_file)

# Sauvegarde dans le fichier CSV
csv_data = shuffled_data[json_rows:json_rows + csv_rows]
save_to_csv(csv_data, csv_destination)

# Sauvegarde dans la base de données
db_data = shuffled_data[json_rows + csv_rows:]
save_to_database(db_data, table_name, db_name)

display_with_delay("Le traitement est terminé !", 2)
display_with_delay(f"Retrouvez {json_file}, {csv_destination} et {database} dans votre repertoire courant !", 2)
display_with_delay("Ravi de vous avoir aidé!", 2)
display_with_delay("A la prochaine !", 2)
display_with_delay("Et n'oubliez pas de prendre soin de vous!", 2)
print("Vous etes une personne formidable !")



*******************************      DATA SPLITTER       *********************************************
BIENVENUE ! Nous vous aiderons à stocker vos données sous trois formats: .json, .csv et une base de données !
Veuillez nous remplir les informations suivantes
Veuillez entrer le nom de la base: eComDW
Veuillez entrer le nom de la table: table
Veuillez entrer le pourcentage de fichier json: 40
Veuillez entrer le pourcentage de la base: 0
Veuillez entrer le nom du fichier JSON de sortie (ex: output.json): eval
Veuillez entrer le nom du fichier CSV de sortie (ex: output.csv): eval

-------------------------------------------------------------------
Vous avez nommé votre base de données: eComDW
Vous souhaitez insérer dans la table: table
Vous voulez insérer 40% dans un fichier JSON et 0% dans la base de données
-------------------------------------------------------------------

Souhaitez-vous apporter une modification ?(y/n): n
très bien ! Veuillez patienter un instant !
Le traitement es

- Set desired arguments here

Dans cette partie, nous définissons les arguments souhaités pour exécuter le script. Ces valeurs définissent les noms de fichiers d'entrée et de sortie ainsi que les pourcentages de répartition pour chaque destination (JSON, base de données et CSV). Vous pouvez personnaliser ces valeurs en fonction de vos besoins.

- Load & Shuffle


Nous chargeons les données à partir du fichier CSV spécifié (csv_file) en utilisant la fonction load_data_from_csv, puis nous mélangeons les lignes des données en utilisant la fonction shuffle_data. Cela nous permet d'assurer une répartition aléatoire des lignes du fichier CSV.

- Lines Calculis

Nous calculons le nombre de lignes nécessaires pour chaque destination en fonction des pourcentages spécifiés. json_percentage et db_percentage représentent les pourcentages que vous avez définis dans les arguments. Nous utilisons int(...) pour convertir les pourcentages en nombre entier de lignes.

- Sauvegarde dans les fichiers JSON, CSV et dans la base de données