In [3]:
import pandas as pd
import random
from faker import Faker
from tqdm import tqdm

fake = Faker('fr_FR')
Faker.seed(42)
random.seed(42)

# Paramètres
N = 500_000
villes = ['Paris', 'Lyon', 'Marseille', 'Toulouse', 'Bordeaux', 'Nice', 'Nantes', 'Strasbourg']
genres = ['homme', 'femme', 'non-binaire']
preferences = ['cocktails', 'dîner romantique', 'fête intense', 'ambiance chill', 'vue panoramique', 'soirée entre amis']
types = ['bar', 'restaurant', 'boîte de nuit', 'café', 'rooftop', 'pub']

# Règles de correspondance entre préférences et types
mapping = {
    'cocktails': ['bar', 'rooftop'],
    'dîner romantique': ['restaurant'],
    'fête intense': ['boîte de nuit'],
    'ambiance chill': ['café', 'bar'],
    'vue panoramique': ['rooftop'],
    'soirée entre amis': ['pub', 'bar']
}

data = []

print("Génération du dataset synthétique...")
for _ in tqdm(range(N)):
    age = random.randint(18, 65)
    genre = random.choice(genres)
    ville = random.choice(villes)
    preference = random.choice(preferences)

    # Déterminer le type en fonction de la préférence
    possible_types = mapping.get(preference, types)
    type_lieu = random.choice(possible_types)

    # Générer un nom de lieu réaliste
    nom_lieu = fake.company() + " " + type_lieu.capitalize()

    # Générer une note moyenne réaliste
    note_moyenne = round(random.uniform(3.0, 5.0), 1)

    data.append({
        'age': age,
        'genre': genre,
        'ville': ville,
        'preference': preference,
        'type': type_lieu,
        'nom_lieu': nom_lieu,
        'note_moyenne': note_moyenne
    })

# Création du DataFrame
df = pd.DataFrame(data)

# Sauvegarde en CSV
df.to_csv("/Users/nathanserfaty/Desktop/soirée_ml/project_root/data/dataset_sorties_500k.csv", index=False)
print("✅ Dataset généré et sauvegardé dans 'data/dataset_sorties_500k.csv'")


Génération du dataset synthétique...


100%|██████████| 500000/500000 [00:03<00:00, 142061.12it/s]


✅ Dataset généré et sauvegardé dans 'data/dataset_sorties_500k.csv'
