In [1]:
from evaluations2 import compute_kl, compute_mmd, compute_wasserstein, compute_random_forest

In [5]:
import numpy as np

def generate_dummy_data(n_samples: int = 100, seed: int = 42) -> tuple[np.ndarray, np.ndarray]:
    """
    Génère deux matrices NumPy (Original et Generated) de taille (n_samples, 3)
    avec des relations polynomiales et du bruit.

    Args:
        n_samples: Nombre d'observations (lignes).
        seed: Graine pour la reproductibilité.

    Returns:
        Un tuple contenant (Original_data, Generated_data).
    """
    np.random.seed(seed)

    # --- 1. Génération des données de base (Original) ---
    # Création d'une variable de base x (de 0 à 10 pour l'exemple)
    x = np.linspace(0, 10, n_samples)

    # Définition des 3 features (relations polynomiales)
    feature_1 = x                 # F1: Linéaire (x)
    feature_2 = x**2              # F2: Quadratique (x^2)
    feature_3 = x**3              # F3: Cubique (x^3)

    # Assemblage de la matrice Original (sans ordre)
    original_data_ordered = np.column_stack((feature_1, feature_2, feature_3))

    # Mélange des lignes (observations) pour casser l'ordre initial
    # np.random.permutation renvoie un nouvel ordre d'indices
    shuffle_indices = np.random.permutation(n_samples)
    Original = original_data_ordered[shuffle_indices]


    # --- 2. Génération des données bruitées (Generated) ---
    # On reprend les données Original (ordonnées) pour s'assurer que le bruit est appliqué
    # sur la même base
    Generated_base = original_data_ordered.copy()

    # Ajout du bruit (Gaussien) pour simuler la génération/transformation
    # L'échelle du bruit est ajustée pour être pertinente par rapport aux données
    scale_f1 = np.std(feature_1) * 0.3  # 10% de l'écart-type de F1
    scale_f2 = np.std(feature_2) * 0.4  # 10% de l'écart-type de F2
    scale_f3 = np.std(feature_3) * 0.1 # 5% de l'écart-type de F3 (car x^3 est plus grand)

    # Ajout du bruit différent pour chaque colonne
    noise_f1 = np.random.normal(0, scale_f1, n_samples)
    noise_f2 = np.random.normal(0, scale_f2, n_samples)
    noise_f3 = np.random.normal(0, scale_f3, n_samples)

    Generated_base[:, 0] += noise_f1
    Generated_base[:, 1] += noise_f2
    Generated_base[:, 2] += noise_f3

    # Mélange des lignes de Generated (en utilisant les mêmes indices pour la cohérence,
    # mais n'est pas strictement nécessaire pour la mesure des métriques)
    Generated = Generated_base[shuffle_indices]

    print(f"Original matrix shape: {Original.shape}")
    print(f"Generated matrix shape: {Generated.shape}")
    
    return Original, Generated

# --- Exécution ---
Original_data, Generated_data = generate_dummy_data(n_samples=100)

Original matrix shape: (100, 3)
Generated matrix shape: (100, 3)


In [8]:
compute_random_forest(
    original=Original_data,
    generated=Generated_data,
    output_path="./",
    figure_name="roc_curve.png")

  return fn(*args_all, **kw)


TypeError: unhashable type: 'numpy.ndarray'

In [9]:
compute_kl(original=Original_data, generated=Generated_data)

array(0.00285076)

In [10]:
compute_wasserstein(original=Original_data, generated=Generated_data)

19.40526869043339

In [11]:
compute_mmd(original=Original_data, generated=Generated_data)

array(0.02836536)