In [2]:
import csv
import random

def generer_csv_n_bits(n, d, fichier_csv, has_header=True):
    """
    Génère un fichier CSV avec une seule colonne et 2^n éléments de d bits.
    
    Chaque valeur est dans [0, 2^d-1].
    - n : l'exposant (nombre d'éléments = 2^n)
    - d : nombre de bits de chaque valeur
    - fichier_csv : chemin du fichier à générer
    - has_header : True pour ajouter un en-tête
    """
    nb_elements = 2 ** n
    max_value = 2 ** d - 1
    with open(fichier_csv, mode="w", newline="") as f:
        writer = csv.writer(f)
        if has_header:
            writer.writerow(['label'])
        for _ in range(nb_elements):
            val = random.randint(0, max_value)
            writer.writerow([val])

# Exemple d'utilisation :
# generer_csv_n_bits(5, 3, "test.csv")  # Génère test.csv avec 32 éléments à 3 bits (0-7) sur une seule colonne



In [3]:
# generer_csv_n_bits(33, 1, "1GB_data.csv")

In [3]:
import pyarrow as pa
import pyarrow.parquet as pq
import random

def generer_parquet_n_bits(n, d, fichier_parquet):
    """
    Génère un fichier Parquet avec une seule colonne et 2^n éléments de d bits.
    
    Chaque valeur est dans [0, 2^d-1].
    - n : l'exposant (nombre d'éléments = 2^n)
    - d : nombre de bits de chaque valeur
    - fichier_parquet : chemin du fichier à générer
    """
    nb_elements = 2 ** n
    max_value = 2 ** d - 1
    
    # Générer les données
    valeurs = [random.randint(0, max_value) for _ in range(nb_elements)]
    
    # Créer un tableau PyArrow
    tableau = pa.table({
        'label': valeurs
    })
    
    # Écrire le fichier Parquet
    pq.write_table(tableau, fichier_parquet)

# Exemple d'utilisation :
# generer_parquet_n_bits(5, 3, "test.parquet")  # Génère test.parquet avec 32 éléments à 3 bits (0-7) sur une seule colonne


In [4]:
generer_parquet_n_bits(10, 1, "data.parquet") 