In [18]:
import pandas as pd
import numpy as np
from faker import Faker

# Initialisation
fake = Faker("fr_FR")
np.random.seed(42)
n = 1000

In [19]:
# Génération des données
noms_complets = [f"{fake.first_name()} {fake.last_name()}" for _ in range(n)]
ages = np.random.randint(18, 65, size=n)
villes = np.random.choice(["Paris", "Lyon", "Marseille", "Bordeaux", "Lille"], size=n)
salaires = np.random.randint(20000, 80000, size=n)
statuts = np.random.choice(["Célibataire", "Marié(e)", "Divorcé(e)"], size=n)

# Création du DataFrame
df = pd.DataFrame({
    "Nom_complet": noms_complets,
    "Age": ages,
    "Ville": villes,
    "Salaire": salaires,
    "Statut": statuts
})

# Sauvegarde
df.to_csv("employees.csv", index=False)

In [20]:
# Génération des données avec des valeurs manquantes
noms_complets = [f"{fake.first_name()} {fake.last_name()}" for _ in range(n)]
ages = np.random.randint(18, 65, size=n)
villes = np.random.choice(["Paris", "Lyon", "Marseille", "Bordeaux", "Lille"], size=n)
salaires = np.random.randint(20000, 80000, size=n)
statuts = np.random.choice(["Célibataire", "Marié(e)", "Divorcé(e)"], size=n)

# Création du DataFrame
df = pd.DataFrame({
    "Nom_complet": noms_complets,
    "Age": ages,
    "Ville": villes,
    "Salaire": salaires,
    "Statut": statuts
})

# Introduire 5 % de valeurs manquantes dans plusieurs colonnes
def insert_null_values(df, proportion=0.05):
    total_vals = df.size
    n_nulls = int(total_vals * proportion)
    for _ in range(n_nulls):
        i = np.random.randint(0, df.shape[0])
        j = np.random.randint(0, df.shape[1])
        df.iat[i, j] = np.nan
    return df

df = insert_null_values(df, proportion=0.05)

# Sauvegarde
df.to_csv("employees_nulls.csv", index=False)

In [21]:
# ------------ Datasets pour démo FUSION VERTICALE ----------------------
for i in range(1, 10):
    sales = pd.DataFrame({
        "Date": pd.date_range(start=f"2024-0{i}-01", periods=5, freq="D"),
        "Produit": np.random.choice(["A", "B", "C", "D", "E", "F"], size=5),
        "Quantité": np.random.randint(1, 10, size=5)
    })
    sales.to_csv(f"sales_{i}.csv", index=False)

In [None]:

# ------------ Datasets pour exercice FUSION HORIZONTALE -------------------

# Étudiants
students = pd.DataFrame({
    "ID": range(1, 6),
    "Nom": [fake.name() for _ in range(5)],
    "Cursus": np.random.choice(["Data Science", "Informatique", "Mathématiques"], size=5)
})
students.to_csv("students.csv", index=False)

# Notes (certains étudiants peuvent être absents, d'autres apparaître plusieurs fois)
notes = pd.DataFrame({
    "Etudiant_ID": [1, 2, 1, 5, 6],  # 6 n'existe pas dans etudiants
    "Note": np.random.randint(50, 100, size=5)
})
notes.to_csv("notes.csv", index=False)


# ------------ Datasets pour exercice FUSION VERTICALE ----------------------
for i in range(1, 10):
    sessions = pd.DataFrame({
        "Date": pd.date_range(start="2024-03-01", periods=5, freq="D"),
        "Thème": np.random.choice(["IA", "Python", "Maths"], size=5),
        "Participant": [fake.name() for _ in range(5)]
    })
    sessions.to_csv(f"sessions_{i}.csv", index=False)

