# Mini-projet Probabilit√©s ‚Äî Test du GCL **RANDU**


## Introduction

Ce notebook teste le g√©n√©rateur congruentiel lin√©aire (GCL) **RANDU** avec les param√®tres suivants :
- $x_{n+1} \equiv (65539 \times x_n) \mod 2^{31}$
- $x_0 = 12345$

Nous allons tester ce g√©n√©rateur avec trois tailles d'√©chantillons :
- 30 000 donn√©es
- 90 000 donn√©es
- 300 000 donn√©es

Les tests appliqu√©s sont :
1. **Test du khi-deux** (seuil de confiance √† 1%)
2. **Test spectral 2D** (sur des doublets)
3. **Test spectral 3D** (sur des triplets)

## 1. Importation des biblioth√®ques

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns

sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 8)

## 2. Impl√©mentation du g√©n√©rateur RANDU

In [16]:
#1.√Ä partir de ce GCL g√©n√©rer une suite de nombre dans l‚Äôintervalle [0,1].

def randu(n, x0=12345):
    a = 65539
    m = 2**31
    x = x0
    liste = []
    for i in range(n):
        x = (a * x) % m         
        liste.append(x / m)       
    return liste

valeurs = randu(5)
print(valeurs)



[0.37675674771890044, 0.2604887490160763, 0.17212176462635398, 0.6883318466134369, 0.5808951980434358]


## 3. Test du Khi-deux (œá¬≤)

Le test du khi-deux v√©rifie si la distribution des nombres g√©n√©r√©s suit une distribution uniforme.
En outre est-ce que les valeurs sont bien r√©parties entre 0 et 1 ?

Pour un seuil de confiance de 1% (Œ± = 0.01), on rejette l'hypoth√®se nulle si la statistique œá¬≤ est sup√©rieure √† la valeur critique.

In [None]:
# --- Test du khi-deux ---
def test_khi2(data):
    N = len(data)          # nombre total de valeurs
    k = 10             # nombre d'intervalles
    counts, bins = np.histogram(data, bins=10) # compte combien de valeurs dans chaque case - Observ√© Oi
    nbAttendu = N / k        # ce qu'on devrait avoir dans chaque case si uniforme - Ei = N/k
    
    khi2 = np.sum((counts - nbAttendu)**2 / nbAttendu)# Calcul de la statistique du khi-deux

    # Valeur critique √† 1% pour 9 degr√©s de libert√© (voir la table du khi2)
    seuil = 21.666

    print("----- Test du Khi-Deux -----")
    print(f"Nombre de valeurs : {N}")
    print(f"Statistique Khi¬≤ = {khi2:.2f}")
    print(f"Valeur critique (1%) = {seuil}")
    if khi2 < seuil:
        print("Test r√©ussi : r√©partition uniforme")
    else:
        print("Test √©chou√© : r√©partition non uniforme")
    print("-----------------------------")

# --- Ex√©cution du test ---
valeurs = randu(30000)
test_khi2(valeurs)


----- Test du Khi-Deux -----
Nombre de valeurs : 300000
Statistique Khi¬≤ = 5.49
Valeur critique (1%) = 21.666
Test r√©ussi : r√©partition uniforme
-----------------------------


## 4. Test spectral 2D (doublets)

Le test spectral 2D analyse les corr√©lations entre paires de nombres cons√©cutifs en les visualisant dans un plan 2D.
En outre est-ce que les couples (ùë¢ùëõ,ùë¢ùëõ+1) forment un nuage al√©atoire

In [None]:
def spectral_test_2d(data, num_points_to_plot=5000):
    """
    Test spectral 2D sur des doublets
    
    Parameters:
    -----------
    data : array-like
        S√©quence de nombres al√©atoires
    num_points_to_plot : int
        Nombre de points √† afficher sur le graphique
    
    Returns:
    --------
    dict : R√©sultats incluant corr√©lation et graphique
    """
    # Cr√©er des doublets (x_i, x_{i+1})
    x = data[:-1]
    y = data[1:]
    
    # Calculer la corr√©lation
    correlation = np.corrcoef(x, y)[0, 1]
    
    # Visualisation
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
    
    # Plot des doublets
    n_plot = min(num_points_to_plot, len(x))
    ax1.scatter(x[:n_plot], y[:n_plot], alpha=0.3, s=1)
    ax1.set_xlabel('$x_i$')
    ax1.set_ylabel('$x_{i+1}$')
    ax1.set_title(f'Test spectral 2D - Doublets\n(n={len(data)}, corr√©lation={correlation:.6f})')
    ax1.grid(True, alpha=0.3)
    ax1.set_xlim(0, 1)
    ax1.set_ylim(0, 1)
    
    # Heatmap 2D
    h = ax2.hist2d(x, y, bins=50, cmap='YlOrRd')
    ax2.set_xlabel('$x_i$')
    ax2.set_ylabel('$x_{i+1}$')
    ax2.set_title('Densit√© des doublets')
    plt.colorbar(h[3], ax=ax2)
    
    plt.tight_layout()
    
    return {
        'correlation': correlation,
        'n_pairs': len(x),
        'figure': fig
    }

def evaluate_2d_test(correlation, threshold=0.1):
    """
    √âvalue le r√©sultat du test spectral 2D
    Une corr√©lation proche de 0 est attendue pour un bon g√©n√©rateur
    """
    print(f"Corr√©lation entre doublets : {correlation:.6f}")
    
    if abs(correlation) < threshold:
        print(f"‚úÖ Le g√©n√©rateur PASSE le test spectral 2D (|corr√©lation| < {threshold})")
        return True
    else:
        print(f"‚ùå Le g√©n√©rateur NE PASSE PAS le test spectral 2D (|corr√©lation| >= {threshold})")
        return False

## 5. Test spectral 3D (triplets)

Le test spectral 3D analyse les corr√©lations entre triplets de nombres cons√©cutifs en les visualisant dans un espace 3D. C'est un test particuli√®rement r√©v√©lateur pour RANDU, qui est connu pour avoir des structures en plans parall√®les.
En outre est-ce que les triplets (ùë¢ùëõ,ùë¢ùëõ+1,un+2) forment un nuage al√©atoire

In [None]:
def spectral_test_3d(data, num_points_to_plot=5000):
    """
    Test spectral 3D sur des triplets
    
    Parameters:
    -----------
    data : array-like
        S√©quence de nombres al√©atoires
    num_points_to_plot : int
        Nombre de points √† afficher sur le graphique 3D
    
    Returns:
    --------
    dict : R√©sultats incluant les triplets et graphique
    """
    # Cr√©er des triplets (x_i, x_{i+1}, x_{i+2})
    x = data[:-2]
    y = data[1:-1]
    z = data[2:]
    
    # Calculer les corr√©lations
    corr_xy = np.corrcoef(x, y)[0, 1]
    corr_xz = np.corrcoef(x, z)[0, 1]
    corr_yz = np.corrcoef(y, z)[0, 1]
    
    # Visualisation 3D
    fig = plt.figure(figsize=(16, 12))
    
    # Vue 3D principale
    ax1 = fig.add_subplot(2, 2, 1, projection='3d')
    n_plot = min(num_points_to_plot, len(x))
    ax1.scatter(x[:n_plot], y[:n_plot], z[:n_plot], 
                c=z[:n_plot], cmap='viridis', alpha=0.4, s=1)
    ax1.set_xlabel('$x_i$')
    ax1.set_ylabel('$x_{i+1}$')
    ax1.set_zlabel('$x_{i+2}$')
    ax1.set_title(f'Test spectral 3D - Triplets (n={len(data)})')
    
    # Projections 2D
    ax2 = fig.add_subplot(2, 2, 2)
    ax2.scatter(x[:n_plot], y[:n_plot], alpha=0.3, s=1)
    ax2.set_xlabel('$x_i$')
    ax2.set_ylabel('$x_{i+1}$')
    ax2.set_title(f'Projection XY (corr={corr_xy:.4f})')
    ax2.grid(True, alpha=0.3)
    
    ax3 = fig.add_subplot(2, 2, 3)
    ax3.scatter(x[:n_plot], z[:n_plot], alpha=0.3, s=1)
    ax3.set_xlabel('$x_i$')
    ax3.set_ylabel('$x_{i+2}$')
    ax3.set_title(f'Projection XZ (corr={corr_xz:.4f})')
    ax3.grid(True, alpha=0.3)
    
    ax4 = fig.add_subplot(2, 2, 4)
    ax4.scatter(y[:n_plot], z[:n_plot], alpha=0.3, s=1)
    ax4.set_xlabel('$x_{i+1}$')
    ax4.set_ylabel('$x_{i+2}$')
    ax4.set_title(f'Projection YZ (corr={corr_yz:.4f})')
    ax4.grid(True, alpha=0.3)
    
    plt.tight_layout()
    
    return {
        'n_triplets': len(x),
        'corr_xy': corr_xy,
        'corr_xz': corr_xz,
        'corr_yz': corr_yz,
        'figure': fig
    }

def evaluate_3d_test(results, threshold=0.1):
    """
    √âvalue le r√©sultat du test spectral 3D
    """
    print(f"Corr√©lations entre triplets :")
    print(f"  - (x_i, x_{{i+1}}) : {results['corr_xy']:.6f}")
    print(f"  - (x_i, x_{{i+2}}) : {results['corr_xz']:.6f}")
    print(f"  - (x_{{i+1}}, x_{{i+2}}) : {results['corr_yz']:.6f}")
    
    max_corr = max(abs(results['corr_xy']), abs(results['corr_xz']), abs(results['corr_yz']))
    
    if max_corr < threshold:
        print(f"‚úÖ Le g√©n√©rateur PASSE le test spectral 3D (max|corr√©lation| < {threshold})")
        return True
    else:
        print(f"‚ùå Le g√©n√©rateur NE PASSE PAS le test spectral 3D (max|corr√©lation| >= {threshold})")
        return False

## 6. Tests sur 30 000 donn√©es

In [3]:
print("="*70)
print("TESTS AVEC 30 000 DONN√âES")
print("="*70)

# G√©n√©ration des donn√©es
data_30k = randu_generator(12345, 30000)

print(f"\n‚úì G√©n√©r√© {len(data_30k)} nombres")
print(f"  Min: {data_30k.min():.6f}, Max: {data_30k.max():.6f}")
print(f"  Moyenne: {data_30k.mean():.6f} (attendu: 0.5)")
print(f"  √âcart-type: {data_30k.std():.6f} (attendu: {1/np.sqrt(12):.6f})")

TESTS AVEC 30 000 DONN√âES


NameError: name 'randu_generator' is not defined

### 6.1. Test du Khi-deux (30 000 donn√©es)

In [4]:
print("\n" + "-"*70)
print("TEST DU KHI-DEUX (30 000 donn√©es)")
print("-"*70 + "\n")

results_chi2_30k = chi_square_test(data_30k, num_bins=100, alpha=0.01)
print_chi_square_results(results_chi2_30k)

# Visualisation de la distribution
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.hist(data_30k, bins=50, density=True, alpha=0.7, edgecolor='black')
plt.axhline(y=1, color='r', linestyle='--', label='Uniforme th√©orique')
plt.xlabel('Valeur')
plt.ylabel('Densit√©')
plt.title('Distribution des 30 000 donn√©es')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
observed, bins = np.histogram(data_30k, bins=100, range=(0, 1))
expected = len(data_30k) / 100
plt.bar(range(100), observed, alpha=0.7, label='Observ√©')
plt.axhline(y=expected, color='r', linestyle='--', label='Attendu')
plt.xlabel('Classe')
plt.ylabel('Fr√©quence')
plt.title('Fr√©quences observ√©es vs attendues')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


----------------------------------------------------------------------
TEST DU KHI-DEUX (30 000 donn√©es)
----------------------------------------------------------------------



NameError: name 'data_30k' is not defined

### 6.2. Test spectral 2D (30 000 donn√©es)

In [None]:
print("\n" + "-"*70)
print("TEST SPECTRAL 2D (30 000 donn√©es)")
print("-"*70 + "\n")

results_2d_30k = spectral_test_2d(data_30k, num_points_to_plot=5000)
evaluate_2d_test(results_2d_30k['correlation'])
plt.show()

### 6.3. Test spectral 3D (30 000 donn√©es)

In [None]:
print("\n" + "-"*70)
print("TEST SPECTRAL 3D (30 000 donn√©es)")
print("-"*70 + "\n")

results_3d_30k = spectral_test_3d(data_30k, num_points_to_plot=5000)
evaluate_3d_test(results_3d_30k)
plt.show()

## 7. Tests sur 90 000 donn√©es

In [None]:
print("\n\n" + "="*70)
print("TESTS AVEC 90 000 DONN√âES")
print("="*70)

# G√©n√©ration des donn√©es
data_90k = randu_generator(12345, 90000)

print(f"\n‚úì G√©n√©r√© {len(data_90k)} nombres")
print(f"  Min: {data_90k.min():.6f}, Max: {data_90k.max():.6f}")
print(f"  Moyenne: {data_90k.mean():.6f} (attendu: 0.5)")
print(f"  √âcart-type: {data_90k.std():.6f} (attendu: {1/np.sqrt(12):.6f})")

### 7.1. Test du Khi-deux (90 000 donn√©es)

In [None]:
print("\n" + "-"*70)
print("TEST DU KHI-DEUX (90 000 donn√©es)")
print("-"*70 + "\n")

results_chi2_90k = chi_square_test(data_90k, num_bins=100, alpha=0.01)
print_chi_square_results(results_chi2_90k)

# Visualisation de la distribution
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.hist(data_90k, bins=50, density=True, alpha=0.7, edgecolor='black')
plt.axhline(y=1, color='r', linestyle='--', label='Uniforme th√©orique')
plt.xlabel('Valeur')
plt.ylabel('Densit√©')
plt.title('Distribution des 90 000 donn√©es')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
observed, bins = np.histogram(data_90k, bins=100, range=(0, 1))
expected = len(data_90k) / 100
plt.bar(range(100), observed, alpha=0.7, label='Observ√©')
plt.axhline(y=expected, color='r', linestyle='--', label='Attendu')
plt.xlabel('Classe')
plt.ylabel('Fr√©quence')
plt.title('Fr√©quences observ√©es vs attendues')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

### 7.2. Test spectral 2D (90 000 donn√©es)

In [None]:
print("\n" + "-"*70)
print("TEST SPECTRAL 2D (90 000 donn√©es)")
print("-"*70 + "\n")

results_2d_90k = spectral_test_2d(data_90k, num_points_to_plot=5000)
evaluate_2d_test(results_2d_90k['correlation'])
plt.show()

### 7.3. Test spectral 3D (90 000 donn√©es)

In [None]:
print("\n" + "-"*70)
print("TEST SPECTRAL 3D (90 000 donn√©es)")
print("-"*70 + "\n")

results_3d_90k = spectral_test_3d(data_90k, num_points_to_plot=5000)
evaluate_3d_test(results_3d_90k)
plt.show()

## 8. Tests sur 300 000 donn√©es

In [None]:
print("\n\n" + "="*70)
print("TESTS AVEC 300 000 DONN√âES")
print("="*70)

# G√©n√©ration des donn√©es
data_300k = randu_generator(12345, 300000)

print(f"\n‚úì G√©n√©r√© {len(data_300k)} nombres")
print(f"  Min: {data_300k.min():.6f}, Max: {data_300k.max():.6f}")
print(f"  Moyenne: {data_300k.mean():.6f} (attendu: 0.5)")
print(f"  √âcart-type: {data_300k.std():.6f} (attendu: {1/np.sqrt(12):.6f})")

### 8.1. Test du Khi-deux (300 000 donn√©es)

In [None]:
print("\n" + "-"*70)
print("TEST DU KHI-DEUX (300 000 donn√©es)")
print("-"*70 + "\n")

results_chi2_300k = chi_square_test(data_300k, num_bins=100, alpha=0.01)
print_chi_square_results(results_chi2_300k)

# Visualisation de la distribution
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.hist(data_300k, bins=50, density=True, alpha=0.7, edgecolor='black')
plt.axhline(y=1, color='r', linestyle='--', label='Uniforme th√©orique')
plt.xlabel('Valeur')
plt.ylabel('Densit√©')
plt.title('Distribution des 300 000 donn√©es')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
observed, bins = np.histogram(data_300k, bins=100, range=(0, 1))
expected = len(data_300k) / 100
plt.bar(range(100), observed, alpha=0.7, label='Observ√©')
plt.axhline(y=expected, color='r', linestyle='--', label='Attendu')
plt.xlabel('Classe')
plt.ylabel('Fr√©quence')
plt.title('Fr√©quences observ√©es vs attendues')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

### 8.2. Test spectral 2D (300 000 donn√©es)

In [None]:
print("\n" + "-"*70)
print("TEST SPECTRAL 2D (300 000 donn√©es)")
print("-"*70 + "\n")

results_2d_300k = spectral_test_2d(data_300k, num_points_to_plot=5000)
evaluate_2d_test(results_2d_300k['correlation'])
plt.show()

### 8.3. Test spectral 3D (300 000 donn√©es)

In [None]:
print("\n" + "-"*70)
print("TEST SPECTRAL 3D (300 000 donn√©es)")
print("-"*70 + "\n")

results_3d_300k = spectral_test_3d(data_300k, num_points_to_plot=5000)
evaluate_3d_test(results_3d_300k)
plt.show()

## 9. Synth√®se des r√©sultats

In [None]:
import pandas as pd

print("\n\n" + "="*70)
print("SYNTH√àSE DES R√âSULTATS")
print("="*70 + "\n")

# Cr√©er un tableau de synth√®se
results_summary = pd.DataFrame({
    'Taille √©chantillon': ['30 000', '90 000', '300 000'],
    'Test œá¬≤ (pass√©)': [
        '‚úÖ' if not results_chi2_30k['reject_null'] else '‚ùå',
        '‚úÖ' if not results_chi2_90k['reject_null'] else '‚ùå',
        '‚úÖ' if not results_chi2_300k['reject_null'] else '‚ùå'
    ],
    'œá¬≤ stat': [
        f"{results_chi2_30k['chi2_stat']:.2f}",
        f"{results_chi2_90k['chi2_stat']:.2f}",
        f"{results_chi2_300k['chi2_stat']:.2f}"
    ],
    'P-value œá¬≤': [
        f"{results_chi2_30k['p_value']:.4f}",
        f"{results_chi2_90k['p_value']:.4f}",
        f"{results_chi2_300k['p_value']:.4f}"
    ],
    'Corr 2D': [
        f"{results_2d_30k['correlation']:.6f}",
        f"{results_2d_90k['correlation']:.6f}",
        f"{results_2d_300k['correlation']:.6f}"
    ],
    'Test 2D (pass√©)': [
        '‚úÖ' if abs(results_2d_30k['correlation']) < 0.1 else '‚ùå',
        '‚úÖ' if abs(results_2d_90k['correlation']) < 0.1 else '‚ùå',
        '‚úÖ' if abs(results_2d_300k['correlation']) < 0.1 else '‚ùå'
    ],
    'Corr 3D (max)': [
        f"{max(abs(results_3d_30k['corr_xy']), abs(results_3d_30k['corr_xz']), abs(results_3d_30k['corr_yz'])):.6f}",
        f"{max(abs(results_3d_90k['corr_xy']), abs(results_3d_90k['corr_xz']), abs(results_3d_90k['corr_yz'])):.6f}",
        f"{max(abs(results_3d_300k['corr_xy']), abs(results_3d_300k['corr_xz']), abs(results_3d_300k['corr_yz'])):.6f}"
    ],
    'Test 3D (pass√©)': [
        '‚úÖ' if max(abs(results_3d_30k['corr_xy']), abs(results_3d_30k['corr_xz']), abs(results_3d_30k['corr_yz'])) < 0.1 else '‚ùå',
        '‚úÖ' if max(abs(results_3d_90k['corr_xy']), abs(results_3d_90k['corr_xz']), abs(results_3d_90k['corr_yz'])) < 0.1 else '‚ùå',
        '‚úÖ' if max(abs(results_3d_300k['corr_xy']), abs(results_3d_300k['corr_xz']), abs(results_3d_300k['corr_yz'])) < 0.1 else '‚ùå'
    ]
})

print(results_summary.to_string(index=False))

print("\n\n" + "-"*70)
print("CONCLUSION")
print("-"*70)
print("""
Le g√©n√©rateur RANDU est un g√©n√©rateur congruentiel lin√©aire historiquement 
d√©faillant, particuli√®rement connu pour ses d√©fauts dans le test spectral 3D.

Les triplets de nombres g√©n√©r√©s par RANDU se trouvent sur seulement 15 plans 
parall√®les dans l'espace 3D, ce qui r√©v√®le une structure tr√®s r√©guli√®re et 
non al√©atoire.

Ce g√©n√©rateur peut passer le test du khi-deux (qui teste uniquement la 
distribution marginale), mais √©choue aux tests spectraux qui r√©v√®lent les 
corr√©lations entre valeurs successives.

‚ö†Ô∏è RANDU ne doit JAMAIS √™tre utilis√© dans des applications r√©elles n√©cessitant
des nombres pseudo-al√©atoires de qualit√©.
""")

## 10. Comparaison avec un g√©n√©rateur de r√©f√©rence (bonus)

Pour mieux comprendre les d√©fauts de RANDU, comparons-le avec le g√©n√©rateur de NumPy (Mersenne Twister / PCG64).

In [None]:
print("="*70)
print("COMPARAISON: RANDU vs NumPy (g√©n√©rateur de r√©f√©rence)")
print("="*70)

# G√©n√©rer des donn√©es avec NumPy
np.random.seed(12345)
data_numpy = np.random.random(30000)

# Test spectral 3D
fig = plt.figure(figsize=(16, 6))

# RANDU
ax1 = fig.add_subplot(1, 2, 1, projection='3d')
n = 5000
ax1.scatter(data_30k[:-2][:n], data_30k[1:-1][:n], data_30k[2:][:n], 
            c=data_30k[2:][:n], cmap='viridis', alpha=0.4, s=1)
ax1.set_xlabel('$x_i$')
ax1.set_ylabel('$x_{i+1}$')
ax1.set_zlabel('$x_{i+2}$')
ax1.set_title('RANDU - Structure en plans parall√®les\n(g√©n√©rateur D√âFAILLANT)')

# NumPy
ax2 = fig.add_subplot(1, 2, 2, projection='3d')
ax2.scatter(data_numpy[:-2][:n], data_numpy[1:-1][:n], data_numpy[2:][:n], 
            c=data_numpy[2:][:n], cmap='viridis', alpha=0.4, s=1)
ax2.set_xlabel('$x_i$')
ax2.set_ylabel('$x_{i+1}$')
ax2.set_zlabel('$x_{i+2}$')
ax2.set_title('NumPy - R√©partition homog√®ne\n(g√©n√©rateur de QUALIT√â)')

plt.tight_layout()
plt.show()

print("\n‚úì Diff√©rence visible: RANDU montre des plans parall√®les √©vidents,")
print("  tandis que NumPy produit une distribution uniforme dans l'espace 3D.")