# Applications au Machine Learning et Continuité
## Illustrations et Applications Pratiques

Ce notebook illustre les applications des concepts mathématiques au machine learning et les propriétés de continuité des fonctions.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns
from sklearn.linear_model import Ridge, Lasso, LinearRegression
from sklearn.datasets import make_regression
from scipy.optimize import minimize
import warnings
warnings.filterwarnings('ignore')

# Configuration pour de meilleurs graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

np.random.seed(42)

## PARTIE 1 : APPLICATIONS AU MACHINE LEARNING

## 1. Espaces de Paramètres et Convergence des Algorithmes

In [None]:
# Définir une fonction objectif convexe
def fonction_perte(theta, X, y):
    """Fonction de perte MSE : L(θ) = (1/2n)||Xθ - y||²"""
    predictions = X @ theta
    return 0.5 * np.mean((y - predictions)**2)

def gradient_perte(theta, X, y):
    """Gradient : ∇L(θ) = -(1/n)X^T(y - Xθ)"""
    predictions = X @ theta
    return -(1/len(y)) * X.T @ (y - predictions)

def descente_gradient(X, y, alpha, n_iterations, theta_init=None):
    """Descente de gradient : θ^(k+1) = θ^(k) - α∇f(θ^(k))"""
    n, p = X.shape
    
    if theta_init is None:
        theta = np.zeros(p)
    else:
        theta = theta_init.copy()
    
    historique_theta = [theta.copy()]
    historique_perte = [fonction_perte(theta, X, y)]
    historique_gradient = [np.linalg.norm(gradient_perte(theta, X, y))]
    
    for k in range(n_iterations):
        grad = gradient_perte(theta, X, y)
        theta = theta - alpha * grad
        
        historique_theta.append(theta.copy())
        historique_perte.append(fonction_perte(theta, X, y))
        historique_gradient.append(np.linalg.norm(grad))
    
    return np.array(historique_theta), historique_perte, historique_gradient

# Générer des données synthétiques
np.random.seed(42)
n_samples = 100
n_features = 2

X = np.random.randn(n_samples, n_features)
theta_true = np.array([3.0, -2.0])
y = X @ theta_true + np.random.randn(n_samples) * 0.5

# Solution analytique (optimum)
theta_star = np.linalg.lstsq(X, y, rcond=None)[0]

# Exécuter la descente de gradient
alpha = 0.1
n_iter = 100
theta_init = np.array([0.0, 0.0])

hist_theta, hist_perte, hist_grad = descente_gradient(X, y, alpha, n_iter, theta_init)

print("=== Convergence de la Descente de Gradient ===")
print(f"\nThéorème : Si f est convexe, différentiable, avec gradients Lipschitz")
print(f"           et pas α bien choisi, alors θ^(k) → θ* (minimum global)")
print(f"\nParamètres vrais    : θ_true = {theta_true}")
print(f"Optimum théorique   : θ* = {theta_star}")
print(f"Point initial       : θ^(0) = {theta_init}")
print(f"Taux d'apprentissage: α = {alpha}")
print(f"\nRésultats après {n_iter} itérations :")
print(f"θ^({n_iter}) = {hist_theta[-1]}")
print(f"Distance à l'optimum : ||θ^({n_iter}) - θ*|| = {np.linalg.norm(hist_theta[-1] - theta_star):.6f}")

# Critères de convergence
epsilon = 1e-4
k_conv_param = np.where(np.linalg.norm(np.diff(hist_theta, axis=0), axis=1) < epsilon)[0]
k_conv_grad = np.where(np.array(hist_grad) < epsilon)[0]

print(f"\n=== Critères Pratiques de Convergence ===")
print(f"\n1. Critère sur les paramètres : ||θ^(k+1) - θ^(k)|| < ε = {epsilon}")
if len(k_conv_param) > 0:
    print(f"   Convergence atteinte à l'itération k = {k_conv_param[0]}")
else:
    print(f"   Convergence non atteinte avec ce critère")

print(f"\n2. Critère sur le gradient : ||∇f(θ^(k))|| < ε = {epsilon}")
if len(k_conv_grad) > 0:
    print(f"   Convergence atteinte à l'itération k = {k_conv_grad[0]}")
else:
    print(f"   Convergence non atteinte avec ce critère")

In [None]:
# Visualisation de la convergence
fig = plt.figure(figsize=(18, 5))

# Graphique 1: Trajectoire dans l'espace des paramètres
ax1 = fig.add_subplot(131)
ax1.plot(hist_theta[:, 0], hist_theta[:, 1], 'b-', linewidth=2, marker='o', 
         markersize=4, alpha=0.6, markevery=5, label='Trajectoire θ^(k)')
ax1.scatter(*theta_init, c='green', s=200, marker='o', 
           edgecolors='black', linewidth=2, label='θ^(0) (initial)', zorder=5)
ax1.scatter(*theta_star, c='red', s=300, marker='*', 
           edgecolors='black', linewidth=2, label='θ* (optimum)', zorder=5)

# Contours de la fonction de perte
theta1_range = np.linspace(theta_star[0] - 2, theta_star[0] + 2, 100)
theta2_range = np.linspace(theta_star[1] - 2, theta_star[1] + 2, 100)
T1, T2 = np.meshgrid(theta1_range, theta2_range)
Z = np.zeros_like(T1)
for i in range(T1.shape[0]):
    for j in range(T1.shape[1]):
        theta_temp = np.array([T1[i,j], T2[i,j]])
        Z[i,j] = fonction_perte(theta_temp, X, y)

contours = ax1.contour(T1, T2, Z, levels=20, alpha=0.4, cmap='viridis')
ax1.clabel(contours, inline=True, fontsize=8)

ax1.set_xlabel('θ₁', fontweight='bold', fontsize=12)
ax1.set_ylabel('θ₂', fontweight='bold', fontsize=12)
ax1.set_title('Convergence dans l\'Espace des Paramètres', fontweight='bold', fontsize=14)
ax1.legend()
ax1.grid(True, alpha=0.3)

# Graphique 2: Décroissance de la fonction de perte
ax2 = fig.add_subplot(132)
ax2.semilogy(range(len(hist_perte)), hist_perte, 'b-', linewidth=2)
ax2.axhline(y=hist_perte[-1], color='r', linestyle='--', linewidth=1, 
           label=f'L(θ*) ≈ {hist_perte[-1]:.4f}')
ax2.set_xlabel('Itération k', fontweight='bold', fontsize=12)
ax2.set_ylabel('L(θ^(k))', fontweight='bold', fontsize=12)
ax2.set_title('Décroissance de la Fonction de Perte\n(échelle log)', fontweight='bold', fontsize=14)
ax2.legend()
ax2.grid(True, alpha=0.3)

# Graphique 3: Norme du gradient
ax3 = fig.add_subplot(133)
ax3.semilogy(range(len(hist_grad)), hist_grad, 'g-', linewidth=2)
ax3.axhline(y=epsilon, color='r', linestyle='--', linewidth=2, 
           label=f'Seuil ε = {epsilon}')
ax3.set_xlabel('Itération k', fontweight='bold', fontsize=12)
ax3.set_ylabel('||∇L(θ^(k))||', fontweight='bold', fontsize=12)
ax3.set_title('Norme du Gradient\n(critère de convergence)', fontweight='bold', fontsize=14)
ax3.legend()
ax3.grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('/mnt/user-data/outputs/convergence_ml.png', dpi=300, bbox_inches='tight')
plt.show()

## 2. Régularisation : L1 (LASSO) vs L2 (Ridge)

In [None]:
# Générer des données avec beaucoup de features (certaines non pertinentes)
np.random.seed(42)
n_samples = 100
n_features = 50
n_informative = 10  # Seulement 10 features sont vraiment pertinentes

X, y = make_regression(n_samples=n_samples, n_features=n_features, 
                       n_informative=n_informative, noise=10, random_state=42)

# Standardiser les données
X = (X - X.mean(axis=0)) / X.std(axis=0)
y = (y - y.mean()) / y.std()

# Entraîner différents modèles
lambda_val = 0.1

# Sans régularisation
model_ols = LinearRegression()
model_ols.fit(X, y)
coef_ols = model_ols.coef_

# Régularisation L2 (Ridge): min L(θ) + λ||θ||₂²
model_ridge = Ridge(alpha=lambda_val)
model_ridge.fit(X, y)
coef_ridge = model_ridge.coef_

# Régularisation L1 (LASSO): min L(θ) + λ||θ||₁
model_lasso = Lasso(alpha=lambda_val)
model_lasso.fit(X, y)
coef_lasso = model_lasso.coef_

print("=== Régularisation et Normes ===")
print(f"\nProblème d'optimisation régularisé :")
print(f"  min_θ [L(θ) + λR(θ)]")
print(f"\nDonnées : {n_samples} échantillons, {n_features} features (dont {n_informative} pertinentes)")
print(f"Coefficient de régularisation : λ = {lambda_val}\n")

print("1. SANS RÉGULARISATION (OLS)")
print(f"   Nombre de coefficients non nuls : {np.sum(np.abs(coef_ols) > 0.01)}")
print(f"   ||θ||₁ = {np.linalg.norm(coef_ols, ord=1):.4f}")
print(f"   ||θ||₂ = {np.linalg.norm(coef_ols, ord=2):.4f}")

print(f"\n2. RÉGULARISATION L2 - RIDGE : R(θ) = ||θ||₂²")
print(f"   Favorise des paramètres PETITS, solution STABLE")
print(f"   Nombre de coefficients non nuls : {np.sum(np.abs(coef_ridge) > 0.01)}")
print(f"   ||θ||₁ = {np.linalg.norm(coef_ridge, ord=1):.4f}")
print(f"   ||θ||₂ = {np.linalg.norm(coef_ridge, ord=2):.4f}")
print(f"   → Tous les coefficients RÉDUITS uniformément")

print(f"\n3. RÉGULARISATION L1 - LASSO : R(θ) = ||θ||₁")
print(f"   Favorise la PARCIMONIE (sélection de features)")
print(f"   Nombre de coefficients non nuls : {np.sum(np.abs(coef_lasso) > 0.01)}")
print(f"   ||θ||₁ = {np.linalg.norm(coef_lasso, ord=1):.4f}")
print(f"   ||θ||₂ = {np.linalg.norm(coef_lasso, ord=2):.4f}")
print(f"   → SEULEMENT {np.sum(np.abs(coef_lasso) > 0.01)} features sélectionnées!")

# Application 1.8 : Sélection de variables en finance
print("\n=== Application 1.8 : Sélection de Variables en Finance ===")
print("\nProblème : Prédire le rendement d'une action à partir de 100 indicateurs")
print("\nAvec régularisation L1 (LASSO) :")
print("  → Le modèle sélectionne automatiquement les 5-10 indicateurs les plus pertinents")
print("  → Met les autres coefficients à ZÉRO")
print("  → Modèle plus INTERPRÉTABLE et moins sujet au SURAPPRENTISSAGE")

In [None]:
# Visualisation des coefficients
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# Sans régularisation
axes[0].bar(range(n_features), coef_ols, alpha=0.7, edgecolor='black')
axes[0].axhline(y=0, color='k', linewidth=0.8)
axes[0].set_xlabel('Feature', fontweight='bold', fontsize=12)
axes[0].set_ylabel('Coefficient', fontweight='bold', fontsize=12)
axes[0].set_title(f'Sans Régularisation (OLS)\n{np.sum(np.abs(coef_ols) > 0.01)} coefficients non nuls',
                 fontweight='bold', fontsize=14)
axes[0].grid(True, alpha=0.3, axis='y')

# Régularisation L2 (Ridge)
axes[1].bar(range(n_features), coef_ridge, alpha=0.7, color='blue', edgecolor='black')
axes[1].axhline(y=0, color='k', linewidth=0.8)
axes[1].set_xlabel('Feature', fontweight='bold', fontsize=12)
axes[1].set_ylabel('Coefficient', fontweight='bold', fontsize=12)
axes[1].set_title(f'Régularisation L² (Ridge)\nλ={lambda_val}\nTous réduits uniformément',
                 fontweight='bold', fontsize=14, color='blue')
axes[1].grid(True, alpha=0.3, axis='y')

# Régularisation L1 (LASSO)
colors = ['red' if abs(c) > 0.01 else 'lightgray' for c in coef_lasso]
axes[2].bar(range(n_features), coef_lasso, alpha=0.7, color=colors, edgecolor='black')
axes[2].axhline(y=0, color='k', linewidth=0.8)
axes[2].set_xlabel('Feature', fontweight='bold', fontsize=12)
axes[2].set_ylabel('Coefficient', fontweight='bold', fontsize=12)
axes[2].set_title(f'Régularisation L¹ (LASSO)\nλ={lambda_val}\nPARCIMONIE : {np.sum(np.abs(coef_lasso) > 0.01)} features sélectionnées',
                 fontweight='bold', fontsize=14, color='red')
axes[2].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.savefig('/mnt/user-data/outputs/regularisation_ml.png', dpi=300, bbox_inches='tight')
plt.show()

## 3. Distances et Similarité de Modèles

In [None]:
# Comparer plusieurs modèles
lambdas = [0.01, 0.1, 0.5, 1.0, 5.0]
modeles = {}

for lam in lambdas:
    model = Ridge(alpha=lam)
    model.fit(X, y)
    modeles[lam] = model.coef_

print("=== Distances entre Modèles ===")
print("\nDistance entre deux modèles : d(θ₁, θ₂) = ||θ₁ - θ₂||₂\n")

# Calculer la matrice de distances
n_models = len(lambdas)
distance_matrix = np.zeros((n_models, n_models))

for i, lam1 in enumerate(lambdas):
    for j, lam2 in enumerate(lambdas):
        distance_matrix[i, j] = np.linalg.norm(modeles[lam1] - modeles[lam2])

print("Matrice des distances entre modèles Ridge avec différents λ :")
print(f"\n{'λ':>8}", end="")
for lam in lambdas:
    print(f"{lam:>8.2f}", end="")
print()
print("-" * (8 * (n_models + 1)))

for i, lam1 in enumerate(lambdas):
    print(f"{lam1:>8.2f}", end="")
    for j in range(n_models):
        print(f"{distance_matrix[i, j]:>8.4f}", end="")
    print()

print("\nObservation : Plus λ est différent, plus les modèles sont éloignés")

# Distance entre prédictions
print("\n=== Distance entre Prédictions ===")
print("\nPour évaluer la qualité : Erreur = ||y - ŷ||₂\n")

for lam in lambdas[:3]:
    model = Ridge(alpha=lam)
    model.fit(X, y)
    y_pred = model.predict(X)
    erreur = np.linalg.norm(y - y_pred)
    rmse = erreur / np.sqrt(len(y))
    print(f"λ = {lam:5.2f} : Erreur = ||y - ŷ||₂ = {erreur:.4f}, RMSE = {rmse:.4f}")

In [None]:
# Visualisation de l'évolution des coefficients avec λ
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Graphique 1: Heatmap des distances
im = ax1.imshow(distance_matrix, cmap='YlOrRd', aspect='auto')
ax1.set_xticks(range(n_models))
ax1.set_yticks(range(n_models))
ax1.set_xticklabels([f'{lam:.2f}' for lam in lambdas])
ax1.set_yticklabels([f'{lam:.2f}' for lam in lambdas])
ax1.set_xlabel('λ₂', fontweight='bold', fontsize=12)
ax1.set_ylabel('λ₁', fontweight='bold', fontsize=12)
ax1.set_title('Distances entre Modèles Ridge\nd(θ_λ₁, θ_λ₂) = ||θ_λ₁ - θ_λ₂||₂', 
             fontweight='bold', fontsize=14)

# Ajouter les valeurs dans les cellules
for i in range(n_models):
    for j in range(n_models):
        text = ax1.text(j, i, f'{distance_matrix[i, j]:.2f}',
                       ha="center", va="center", color="black", fontsize=10)

plt.colorbar(im, ax=ax1, label='Distance')

# Graphique 2: Évolution des normes avec λ
normes_l1 = [np.linalg.norm(modeles[lam], ord=1) for lam in lambdas]
normes_l2 = [np.linalg.norm(modeles[lam], ord=2) for lam in lambdas]

ax2.plot(lambdas, normes_l1, 'o-', linewidth=2, markersize=8, label='||θ||₁')
ax2.plot(lambdas, normes_l2, 's-', linewidth=2, markersize=8, label='||θ||₂')
ax2.set_xlabel('λ (coefficient de régularisation)', fontweight='bold', fontsize=12)
ax2.set_ylabel('Norme des paramètres', fontweight='bold', fontsize=12)
ax2.set_title('Effet de la Régularisation\nsur la Norme des Paramètres', 
             fontweight='bold', fontsize=14)
ax2.legend(fontsize=12)
ax2.grid(True, alpha=0.3)
ax2.set_xscale('log')

plt.tight_layout()
plt.savefig('/mnt/user-data/outputs/distances_modeles.png', dpi=300, bbox_inches='tight')
plt.show()

print("\nConclusion : Plus λ augmente, plus les paramètres sont petits (shrinkage)")

## PARTIE 2 : CONTINUITÉ ET LIMITES

## 4. Définition de la Continuité

In [None]:
# Exemples de fonctions continues et discontinues

def fonction_continue(x):
    """Fonction polynomiale : f(x) = x² - 2x + 1"""
    return x**2 - 2*x + 1

def fonction_heaviside(x):
    """Fonction de Heaviside (discontinue en 0)"""
    return np.where(x >= 0, 1, 0)

def valeur_absolue(x):
    """Fonction valeur absolue (continue mais non différentiable en 0)"""
    return np.abs(x)

print("=== Définition de la Continuité ===")
print("\nf est continue en x₀ si :")
print("  ∀ε > 0, ∃δ > 0, ∀x : |x - x₀| < δ ⟹ |f(x) - f(x₀)| < ε")
print("\nFormulation séquentielle :")
print("  xₙ → x₀ ⟹ f(xₙ) → f(x₀)")
print("\nInterprétation : Petites variations de l'entrée → Petites variations de la sortie")

# Test de continuité
x0 = 0
epsilon = 0.5

print(f"\n=== Exemples ===")
print(f"\n1. Fonction CONTINUE : f(x) = x² - 2x + 1")
print(f"   • Polynomiale → continue partout")
print(f"   • f(0) = {fonction_continue(0)}")

print(f"\n2. Fonction DISCONTINUE : H(x) = Heaviside")
print(f"   • H(x) = 0 si x < 0, H(x) = 1 si x ≥ 0")
print(f"   • Saut brutal en x = 0")
print(f"   • lim_(x→0⁻) H(x) = 0 ≠ 1 = H(0)")

print(f"\n3. Fonction CONTINUE mais NON DIFFÉRENTIABLE : f(x) = |x|")
print(f"   • Continue en x = 0 (pas de saut)")
print(f"   • Mais pas de dérivée en x = 0 (point anguleux)")

# Visualisation
x = np.linspace(-3, 3, 1000)

fig, axes = plt.subplots(1, 3, figsize=(16, 5))

# Fonction continue
axes[0].plot(x, fonction_continue(x), 'b-', linewidth=2.5)
axes[0].scatter([x0], [fonction_continue(x0)], c='red', s=200, zorder=5, 
               edgecolors='black', linewidth=2)
axes[0].set_xlabel('x', fontweight='bold', fontsize=12)
axes[0].set_ylabel('f(x)', fontweight='bold', fontsize=12)
axes[0].set_title('Fonction Continue\nf(x) = x² - 2x + 1', 
                 fontweight='bold', fontsize=14, color='green')
axes[0].grid(True, alpha=0.3)
axes[0].axhline(y=0, color='k', linewidth=0.5)
axes[0].axvline(x=0, color='k', linewidth=0.5)

# Fonction de Heaviside
x_heavy = np.linspace(-3, 3, 1000)
axes[1].plot(x_heavy[x_heavy < 0], fonction_heaviside(x_heavy[x_heavy < 0]), 
            'b-', linewidth=2.5)
axes[1].plot(x_heavy[x_heavy >= 0], fonction_heaviside(x_heavy[x_heavy >= 0]), 
            'b-', linewidth=2.5)
axes[1].scatter([0], [0], c='blue', s=100, zorder=5, facecolors='none', 
               edgecolors='blue', linewidth=3)
axes[1].scatter([0], [1], c='blue', s=100, zorder=5, edgecolors='black', linewidth=2)
axes[1].plot([0, 0], [0, 1], 'r--', linewidth=2, alpha=0.7, label='Discontinuité')
axes[1].set_xlabel('x', fontweight='bold', fontsize=12)
axes[1].set_ylabel('H(x)', fontweight='bold', fontsize=12)
axes[1].set_title('Fonction DISCONTINUE\nH(x) = Heaviside', 
                 fontweight='bold', fontsize=14, color='red')
axes[1].set_ylim([-0.5, 1.5])
axes[1].legend()
axes[1].grid(True, alpha=0.3)
axes[1].axhline(y=0, color='k', linewidth=0.5)
axes[1].axvline(x=0, color='k', linewidth=0.5)

# Valeur absolue
axes[2].plot(x, valeur_absolue(x), 'b-', linewidth=2.5)
axes[2].scatter([0], [0], c='red', s=200, zorder=5, edgecolors='black', linewidth=2)
axes[2].annotate('Point anguleux\n(non différentiable)', xy=(0, 0), 
                xytext=(0.8, 1), fontsize=11, color='red',
                arrowprops=dict(arrowstyle='->', color='red', lw=2),
                bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))
axes[2].set_xlabel('x', fontweight='bold', fontsize=12)
axes[2].set_ylabel('|x|', fontweight='bold', fontsize=12)
axes[2].set_title('Continue mais NON Différentiable\nf(x) = |x|', 
                 fontweight='bold', fontsize=14, color='orange')
axes[2].grid(True, alpha=0.3)
axes[2].axhline(y=0, color='k', linewidth=0.5)
axes[2].axvline(x=0, color='k', linewidth=0.5)

plt.tight_layout()
plt.savefig('/mnt/user-data/outputs/continuite_fonctions.png', dpi=300, bbox_inches='tight')
plt.show()

## 5. Continuité des Fonctions de Perte en ML

In [None]:
# Fonctions de perte communes en ML

def mse_loss(y_true, y_pred):
    """Mean Squared Error : L = (1/n)Σ(y - ŷ)²"""
    return np.mean((y_true - y_pred)**2)

def mae_loss(y_true, y_pred):
    """Mean Absolute Error : L = (1/n)Σ|y - ŷ|"""
    return np.mean(np.abs(y_true - y_pred))

def log_loss(y_true, y_pred_prob):
    """Binary Cross-Entropy : L = -Σ[y log(p) + (1-y)log(1-p)]"""
    epsilon = 1e-15
    y_pred_prob = np.clip(y_pred_prob, epsilon, 1 - epsilon)
    return -np.mean(y_true * np.log(y_pred_prob) + (1 - y_true) * np.log(1 - y_pred_prob))

print("=== Application 1.9 : Continuité des Fonctions de Perte ===")
print("\nLa plupart des fonctions de perte en ML sont CONTINUES")
print("\n1. Mean Squared Error (MSE) :")
print("   L(θ) = (1/n)Σ(yᵢ - f_θ(xᵢ))²")
print("   → Continue si f_θ est continue en θ")
print("\n2. Cross-Entropy :")
print("   L(θ) = -Σyᵢ log(p_θ(xᵢ))")
print("   → Continue si p_θ(x) > 0 pour tout x")
print("\nImportance : La continuité garantit qu'on peut optimiser par descente de gradient")

# Générer des données de test
y_true_reg = np.array([1, 2, 3, 4, 5])
predictions = np.linspace(0, 6, 100)

# Calculer les pertes pour différentes prédictions
mse_values = [mse_loss(y_true_reg, pred * np.ones_like(y_true_reg)) for pred in predictions]
mae_values = [mae_loss(y_true_reg, pred * np.ones_like(y_true_reg)) for pred in predictions]

# Pour cross-entropy (classification binaire)
y_true_class = np.array([0, 0, 1, 1, 1])
probs = np.linspace(0.01, 0.99, 100)
ce_values = [log_loss(y_true_class, p * np.ones_like(y_true_class)) for p in probs]

# Visualisation
fig, axes = plt.subplots(1, 3, figsize=(16, 5))

# MSE
axes[0].plot(predictions, mse_values, 'b-', linewidth=2.5)
min_idx = np.argmin(mse_values)
axes[0].scatter([predictions[min_idx]], [mse_values[min_idx]], 
               c='red', s=200, zorder=5, edgecolors='black', linewidth=2,
               label=f'Minimum en ŷ={predictions[min_idx]:.2f}')
axes[0].set_xlabel('Prédiction ŷ', fontweight='bold', fontsize=12)
axes[0].set_ylabel('MSE Loss', fontweight='bold', fontsize=12)
axes[0].set_title('Mean Squared Error\n(Continue et Convexe)', 
                 fontweight='bold', fontsize=14)
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# MAE
axes[1].plot(predictions, mae_values, 'g-', linewidth=2.5)
min_idx = np.argmin(mae_values)
axes[1].scatter([predictions[min_idx]], [mae_values[min_idx]], 
               c='red', s=200, zorder=5, edgecolors='black', linewidth=2,
               label=f'Minimum en ŷ={predictions[min_idx]:.2f}')
axes[1].set_xlabel('Prédiction ŷ', fontweight='bold', fontsize=12)
axes[1].set_ylabel('MAE Loss', fontweight='bold', fontsize=12)
axes[1].set_title('Mean Absolute Error\n(Continue mais non lisse)', 
                 fontweight='bold', fontsize=14)
axes[1].legend()
axes[1].grid(True, alpha=0.3)

# Cross-Entropy
axes[2].plot(probs, ce_values, 'r-', linewidth=2.5)
axes[2].set_xlabel('Probabilité prédite p', fontweight='bold', fontsize=12)
axes[2].set_ylabel('Cross-Entropy Loss', fontweight='bold', fontsize=12)
axes[2].set_title('Binary Cross-Entropy\n(Continue pour p ∈ (0,1))', 
                 fontweight='bold', fontsize=14)
axes[2].grid(True, alpha=0.3)
axes[2].set_ylim([0, 3])

plt.tight_layout()
plt.savefig('/mnt/user-data/outputs/fonctions_perte.png', dpi=300, bbox_inches='tight')
plt.show()

## 6. Théorème des Valeurs Intermédiaires (TVI)

In [None]:
def algorithme_dichotomie(f, a, b, tolerance=1e-6, max_iter=100):
    """
    Algorithme de dichotomie pour trouver un zéro de f dans [a,b]
    Suppose que f(a) et f(b) sont de signes opposés
    """
    if f(a) * f(b) > 0:
        print("Erreur: f(a) et f(b) doivent être de signes opposés")
        return None
    
    historique = [(a, b, (a+b)/2, f((a+b)/2))]
    
    for i in range(max_iter):
        c = (a + b) / 2
        fc = f(c)
        
        if abs(fc) < tolerance or (b - a) < tolerance:
            return c, historique
        
        if f(a) * fc < 0:
            b = c
        else:
            a = c
        
        historique.append((a, b, c, fc))
    
    return (a + b) / 2, historique

# Exemple : Trouver la racine de f(x) = x² - 2 (pour trouver √2)
def fonction_test(x):
    return x**2 - 2

print("=== Théorème des Valeurs Intermédiaires ===")
print("\nThéorème (TVI) :")
print("  Si f : [a,b] → ℝ est continue et f(a)·f(b) < 0")
print("  alors ∃c ∈ (a,b) tel que f(c) = 0")
print("\nInterprétation : Une fonction continue ne peut pas 'sauter'")
print("                 par-dessus zéro sans le traverser")

# Application 1.10 : Algorithme de dichotomie
print("\n=== Application 1.10 : Algorithme de Dichotomie ===")
print("\nProblème : Trouver √2 en résolvant f(x) = x² - 2 = 0")

a, b = 0, 2
tolerance = 1e-6

print(f"\nIntervalle initial : [{a}, {b}]")
print(f"f({a}) = {fonction_test(a):.4f}")
print(f"f({b}) = {fonction_test(b):.4f}")
print(f"f(a)·f(b) = {fonction_test(a) * fonction_test(b):.4f} < 0 ✓")

racine, historique = algorithme_dichotomie(fonction_test, a, b, tolerance)

print(f"\nTolérance : {tolerance}")
print(f"Nombre d'itérations : {len(historique)}")
print(f"Racine trouvée : x* = {racine:.10f}")
print(f"√2 (référence) :     {np.sqrt(2):.10f}")
print(f"Erreur : {abs(racine - np.sqrt(2)):.2e}")
print(f"\nComplexité : O(log(1/ε)) = O(log(1/{tolerance})) = {np.log2(1/tolerance):.1f} itérations théoriques")

# Quelques itérations
print("\nPremières itérations :")
print(f"{'k':>3} {'a':>12} {'b':>12} {'c':>12} {'f(c)':>12} {'b-a':>12}")
print("-" * 75)
for i, (a_k, b_k, c_k, fc_k) in enumerate(historique[:10]):
    print(f"{i:3d} {a_k:12.8f} {b_k:12.8f} {c_k:12.8f} {fc_k:12.8f} {b_k-a_k:12.8f}")
if len(historique) > 10:
    print("...")
    i, (a_k, b_k, c_k, fc_k) = len(historique)-1, historique[-1]
    print(f"{i:3d} {a_k:12.8f} {b_k:12.8f} {c_k:12.8f} {fc_k:12.8f} {b_k-a_k:12.8f}")

In [None]:
# Visualisation de la dichotomie
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))

# Graphique 1: Fonction et intervalles successifs
x = np.linspace(-0.5, 2.5, 1000)
y = fonction_test(x)

ax1.plot(x, y, 'b-', linewidth=2.5, label='f(x) = x² - 2')
ax1.axhline(y=0, color='k', linewidth=1)
ax1.axvline(x=np.sqrt(2), color='r', linestyle='--', linewidth=2, 
           label=f'Racine = √2 ≈ {np.sqrt(2):.6f}')

# Montrer quelques itérations
colors = plt.cm.rainbow(np.linspace(0, 1, min(6, len(historique))))
for i, (a_k, b_k, c_k, fc_k) in enumerate(historique[:6]):
    ax1.plot([a_k, b_k], [0, 0], 'o-', color=colors[i], linewidth=3, 
            markersize=8, alpha=0.6, label=f'Iter {i}: [{a_k:.3f}, {b_k:.3f}]')

ax1.set_xlabel('x', fontweight='bold', fontsize=12)
ax1.set_ylabel('f(x)', fontweight='bold', fontsize=12)
ax1.set_title('Algorithme de Dichotomie\nRéduction de l\'intervalle', 
             fontweight='bold', fontsize=14)
ax1.legend(loc='upper left', fontsize=9)
ax1.grid(True, alpha=0.3)
ax1.set_ylim([-2.5, 4])

# Graphique 2: Convergence
erreurs = [abs(c_k - np.sqrt(2)) for (_, _, c_k, _) in historique]
largeurs = [b_k - a_k for (a_k, b_k, _, _) in historique]

ax2.semilogy(range(len(erreurs)), erreurs, 'ro-', linewidth=2, 
            markersize=6, label='Erreur |c - √2|')
ax2.semilogy(range(len(largeurs)), largeurs, 'bs-', linewidth=2, 
            markersize=6, label='Largeur intervalle b-a')
ax2.axhline(y=tolerance, color='g', linestyle='--', linewidth=2, 
           label=f'Tolérance = {tolerance}')
ax2.set_xlabel('Itération k', fontweight='bold', fontsize=12)
ax2.set_ylabel('Erreur / Largeur (échelle log)', fontweight='bold', fontsize=12)
ax2.set_title('Convergence Exponentielle\nde la Dichotomie', 
             fontweight='bold', fontsize=14)
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('/mnt/user-data/outputs/dichotomie.png', dpi=300, bbox_inches='tight')
plt.show()

# Application 1.11 : Point fixe
print("\n=== Application 1.11 : Point Fixe et Équilibre ===")
print("\nDéfinition : x* est un point fixe de f si f(x*) = x*")
print("\nPour trouver un point fixe, on résout g(x) = f(x) - x = 0")
print("Si g est continue avec g(a) < 0 et g(b) > 0,")
print("alors ∃ point fixe dans [a,b] (par TVI)")
print("\nApplication financière : Prix d'équilibre où offre = demande")

## 7. Théorème des Bornes Atteintes (Weierstrass)

In [None]:
print("=== Théorème des Bornes Atteintes (Weierstrass) ===")
print("\nThéorème :")
print("  Si f : K → ℝ est continue sur un compact K,")
print("  alors f est bornée et ATTEINT ses bornes")
print("\nConséquence MAJEURE :")
print("  Sur un compact, min f(x) EXISTE TOUJOURS si f est continue")
print("                  x∈K")

# Exemple : fonction sur compact vs non-compact
def f_compact(x):
    """Fonction sur compact [0, 2π]"""
    return np.sin(x) + 0.1 * x

def f_non_compact(x):
    """Fonction sur [0, +∞) : inf existe mais n'est pas atteint"""
    return np.exp(-x)

# Cas 1: Compact
x_compact = np.linspace(0, 2*np.pi, 1000)
y_compact = f_compact(x_compact)
min_idx = np.argmin(y_compact)
max_idx = np.argmax(y_compact)

print("\n=== Exemple 1 : Fonction sur Compact [0, 2π] ===")
print(f"f(x) = sin(x) + 0.1x sur [0, 2π]")
print(f"\nMinimum ATTEINT en x = {x_compact[min_idx]:.4f}, f(x) = {y_compact[min_idx]:.4f}")
print(f"Maximum ATTEINT en x = {x_compact[max_idx]:.4f}, f(x) = {y_compact[max_idx]:.4f}")

# Cas 2: Non-compact
x_non_compact = np.linspace(0, 10, 1000)
y_non_compact = f_non_compact(x_non_compact)

print("\n=== Exemple 2 : Fonction sur [0, +∞) (NON compact) ===")
print(f"f(x) = e^(-x) sur [0, +∞)")
print(f"\nMaximum ATTEINT en x = 0, f(0) = {f_non_compact(0):.4f}")
print(f"Infimum = 0 mais JAMAIS ATTEINT (pas de x tel que e^(-x) = 0)")
print(f"f(10) = {f_non_compact(10):.6f} (proche de 0 mais ≠ 0)")

# Visualisation
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))

# Compact
ax1.plot(x_compact, y_compact, 'b-', linewidth=2.5)
ax1.scatter([x_compact[min_idx]], [y_compact[min_idx]], 
           c='red', s=300, zorder=5, marker='v', edgecolors='black', linewidth=2,
           label=f'Minimum ATTEINT\nx={x_compact[min_idx]:.3f}')
ax1.scatter([x_compact[max_idx]], [y_compact[max_idx]], 
           c='green', s=300, zorder=5, marker='^', edgecolors='black', linewidth=2,
           label=f'Maximum ATTEINT\nx={x_compact[max_idx]:.3f}')
ax1.axvline(x=0, color='purple', linestyle='--', alpha=0.5, linewidth=2)
ax1.axvline(x=2*np.pi, color='purple', linestyle='--', alpha=0.5, linewidth=2)
ax1.fill_between([0, 2*np.pi], -2, 2, alpha=0.1, color='purple', 
                label='Compact K = [0, 2π]')
ax1.set_xlabel('x', fontweight='bold', fontsize=12)
ax1.set_ylabel('f(x)', fontweight='bold', fontsize=12)
ax1.set_title('Sur un COMPACT\nles bornes sont ATTEINTES', 
             fontweight='bold', fontsize=14, color='green')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Non-compact
ax2.plot(x_non_compact, y_non_compact, 'r-', linewidth=2.5)
ax2.scatter([0], [f_non_compact(0)], c='green', s=300, zorder=5, 
           marker='^', edgecolors='black', linewidth=2,
           label='Maximum ATTEINT\nx=0, f(0)=1')
ax2.axhline(y=0, color='blue', linestyle='--', linewidth=2, 
           label='Infimum = 0\n(NON ATTEINT!)')
ax2.annotate('Tend vers 0\nmais ne l\'atteint jamais', 
            xy=(7, f_non_compact(7)), xytext=(5, 0.3),
            arrowprops=dict(arrowstyle='->', color='red', lw=2),
            fontsize=11, color='red',
            bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))
ax2.set_xlabel('x', fontweight='bold', fontsize=12)
ax2.set_ylabel('f(x) = e^(-x)', fontweight='bold', fontsize=12)
ax2.set_title('Sur [0,+∞) (NON COMPACT)\ninfimum NON ATTEINT', 
             fontweight='bold', fontsize=14, color='red')
ax2.legend()
ax2.grid(True, alpha=0.3)
ax2.set_ylim([-0.1, 1.2])

plt.tight_layout()
plt.savefig('/mnt/user-data/outputs/weierstrass.png', dpi=300, bbox_inches='tight')
plt.show()

## 8. Application 1.12 : Optimisation de Portefeuille (Markowitz)

In [None]:
print("=== Application 1.12 : Optimisation de Portefeuille (Markowitz) ===")
print("\nProblème :")
print("  min w^T Σ w")
print("  s.t. Σwᵢ = 1, wᵢ ≥ 0")
print("\nAnalyse :")
print("  • L'ensemble des contraintes est COMPACT")
print("    (fermé et borné dans ℝⁿ : c'est un simplexe)")
print("  • La fonction objectif w ↦ w^T Σ w est CONTINUE")
print("  • Par le théorème de Weierstrass : le minimum EXISTE")

# Exemple avec 3 actifs
np.random.seed(42)
n_assets = 3

# Matrice de covariance (définie positive)
A = np.random.randn(n_assets, n_assets)
Sigma = A.T @ A / 10 + np.eye(n_assets) * 0.1

print(f"\n=== Exemple avec {n_assets} actifs ===")
print(f"\nMatrice de covariance Σ :")
print(Sigma)

# Définir la fonction objectif
def risque_portefeuille(w):
    return w @ Sigma @ w

# Contraintes
from scipy.optimize import minimize

constraints = (
    {'type': 'eq', 'fun': lambda w: np.sum(w) - 1},  # Σwᵢ = 1
)
bounds = [(0, 1) for _ in range(n_assets)]  # wᵢ ≥ 0

# Point initial
w0 = np.ones(n_assets) / n_assets  # Équipondéré

# Optimisation
result = minimize(risque_portefeuille, w0, method='SLSQP', 
                 bounds=bounds, constraints=constraints)

w_optimal = result.x
risque_optimal = result.fun

print(f"\nPortefeuille équipondéré (point initial) :")
print(f"  w₀ = {w0}")
print(f"  Risque = {risque_portefeuille(w0):.6f}")

print(f"\nPortefeuille optimal (minimum de variance) :")
print(f"  w* = {w_optimal}")
print(f"  Risque = {risque_optimal:.6f}")
print(f"  Réduction du risque : {(1 - risque_optimal/risque_portefeuille(w0))*100:.1f}%")

print(f"\nVérification des contraintes :")
print(f"  Σwᵢ = {np.sum(w_optimal):.10f} (doit être = 1)")
print(f"  min(wᵢ) = {np.min(w_optimal):.6f} (doit être ≥ 0)")
print(f"\n✓ Le minimum EXISTE et EST ATTEINT (grâce au théorème de Weierstrass)")

In [None]:
# Visualisation du portefeuille optimal
fig = plt.figure(figsize=(14, 6))

# Graphique 1: Comparaison des portefeuilles
ax1 = fig.add_subplot(121)
x = np.arange(n_assets)
width = 0.35

ax1.bar(x - width/2, w0, width, label='Équipondéré', alpha=0.8, edgecolor='black')
ax1.bar(x + width/2, w_optimal, width, label='Optimal (min variance)', 
       alpha=0.8, color='green', edgecolor='black')
ax1.set_xlabel('Actif', fontweight='bold', fontsize=12)
ax1.set_ylabel('Poids', fontweight='bold', fontsize=12)
ax1.set_title('Portefeuilles\nÉquipondéré vs Optimal', fontweight='bold', fontsize=14)
ax1.set_xticks(x)
ax1.set_xticklabels([f'Actif {i+1}' for i in range(n_assets)])
ax1.legend()
ax1.grid(True, alpha=0.3, axis='y')

# Graphique 2: Frontière efficiente (pour 2 actifs)
if n_assets >= 2:
    ax2 = fig.add_subplot(122)
    
    # Explorer différentes allocations
    n_points = 100
    w1_range = np.linspace(0, 1, n_points)
    risques = []
    
    for w1 in w1_range:
        if n_assets == 2:
            w = np.array([w1, 1-w1])
        else:
            # Pour 3 actifs, on fixe w1 et optimise sur w2, w3
            w_temp = np.array([w1, (1-w1)/2, (1-w1)/2])
            w = w_temp
        
        if np.all(w >= 0) and np.abs(np.sum(w) - 1) < 1e-6:
            risques.append(risque_portefeuille(w))
        else:
            risques.append(np.nan)
    
    ax2.plot(w1_range, risques, 'b-', linewidth=2, label='Risque du portefeuille')
    ax2.scatter([w_optimal[0]], [risque_optimal], c='red', s=300, 
               marker='*', edgecolors='black', linewidth=2, zorder=5,
               label=f'Optimal: w₁={w_optimal[0]:.3f}')
    ax2.scatter([w0[0]], [risque_portefeuille(w0)], c='green', s=200, 
               marker='o', edgecolors='black', linewidth=2, zorder=5,
               label=f'Équipondéré: w₁={w0[0]:.3f}')
    
    ax2.set_xlabel('Poids du premier actif (w₁)', fontweight='bold', fontsize=12)
    ax2.set_ylabel('Risque (w^T Σ w)', fontweight='bold', fontsize=12)
    ax2.set_title('Fonction de Risque\nMinimum ATTEINT', fontweight='bold', fontsize=14)
    ax2.legend()
    ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('/mnt/user-data/outputs/markowitz.png', dpi=300, bbox_inches='tight')
plt.show()

## 9. Synthèse Finale

In [None]:
print("="*80)
print("SYNTHÈSE : APPLICATIONS ML ET CONTINUITÉ")
print("="*80)

print("\n" + "="*80)
print("PARTIE 1 : APPLICATIONS AU MACHINE LEARNING")
print("="*80)

print("\n1. ESPACES DE PARAMÈTRES")
print("   • Modèle ML → paramètres θ ∈ ℝᵐ")
print("   • Exemples : coefficients régression, poids réseaux neurones")

print("\n2. CONVERGENCE DES ALGORITHMES")
print("   • Descente de gradient : θ^(k+1) = θ^(k) - α∇f(θ^(k))")
print("   • Théorème : Si f convexe, gradients Lipschitz, pas bien choisi")
print("                → θ^(k) → θ* (minimum global)")
print("   • Critères pratiques :")
print("     - ||θ^(k+1) - θ^(k)|| < ε (variation paramètres)")
print("     - ||∇f(θ^(k))|| < ε (gradient proche de 0)")

print("\n3. RÉGULARISATION")
print("   • Problème : min_θ [L(θ) + λR(θ)]")
print("   • L2 (Ridge) : R(θ) = ||θ||₂²")
print("     → Paramètres petits, solution stable")
print("   • L1 (LASSO) : R(θ) = ||θ||₁")
print("     → PARCIMONIE, sélection automatique de features")
print("   • Application finance : Sélectionner 5-10 indicateurs sur 100")

print("\n4. DISTANCES ET SIMILARITÉ")
print("   • Distance entre modèles : d(θ₁, θ₂) = ||θ₁ - θ₂||₂")
print("   • Distance entre prédictions : Erreur = ||y - ŷ||₂")

print("\n" + "="*80)
print("PARTIE 2 : CONTINUITÉ ET THÉORÈMES FONDAMENTAUX")
print("="*80)

print("\n5. DÉFINITION DE CONTINUITÉ")
print("   • f continue en x₀ si :")
print("     ∀ε > 0, ∃δ > 0 : |x-x₀| < δ ⟹ |f(x)-f(x₀)| < ε")
print("   • Équivalent : xₙ → x₀ ⟹ f(xₙ) → f(x₀)")
print("   • Interprétation : Petites variations entrée → petites variations sortie")

print("\n6. FONCTIONS DE PERTE (ML)")
print("   • MSE : L(θ) = (1/n)Σ(y - f_θ(x))² → CONTINUE")
print("   • Cross-entropy : L(θ) = -Σy log(p_θ(x)) → CONTINUE")
print("   • Importance : Continuité permet optimisation par gradient")

print("\n7. THÉORÈME DES VALEURS INTERMÉDIAIRES (TVI)")
print("   • Si f : [a,b] → ℝ continue et f(a)·f(b) < 0")
print("     → ∃c : f(c) = 0")
print("   • Application : Algorithme de dichotomie")
print("     - Convergence en O(log(1/ε)) itérations")
print("     - Trouve zéros, points fixes, équilibres")

print("\n8. THÉORÈME DES BORNES ATTEINTES (Weierstrass)")
print("   • Si f continue sur COMPACT K")
print("     → f est bornée et ATTEINT ses bornes")
print("   • CRUCIAL : Sur compact, min f(x) EXISTE TOUJOURS")
print("   • Application : Optimisation de portefeuille Markowitz")
print("     - Contraintes = compact (fermé et borné)")
print("     - Fonction continue → minimum existe")

print("\n9. IMPORTANCE EN ML/FINANCE")
print("   • Continuité des fonctions de perte → optimisation possible")
print("   • Compacité → existence de solutions optimales")
print("   • TVI → algorithmes de recherche de zéros/équilibres")
print("   • Weierstrass → garantie d'existence de portefeuille optimal")

print("\n" + "="*80)
print("Fichiers générés :")
print("  • convergence_ml.png")
print("  • regularisation_ml.png")
print("  • distances_modeles.png")
print("  • continuite_fonctions.png")
print("  • fonctions_perte.png")
print("  • dichotomie.png")
print("  • weierstrass.png")
print("  • markowitz.png")
print("="*80)