In [1]:
import numpy as np

# 1. Initialisation des données
x = np.array([4, 80])  # heures étudiées et score précédent
w = np.array([0.6, 0.3])  # poids initiaux
b = 10  # biais initial

# 2. Propagation avant
def forward_propagation(x, w, b):
    z = np.dot(x, w) + b
    return z

# 3. Calcul de la prédiction
y_pred = forward_propagation(x, w, b)
y_true = 85

# Détaillons les calculs :
# y_pred = (4 * 0.6) + (80 * 0.3) + 10
# y_pred = 2.4 + 24 + 10
# y_pred = 36.4

# 4. Calcul de la perte (MSE)
loss = 0.5 * (y_true - y_pred) ** 2
# loss = 0.5 * (85 - 36.4)² = 1182.98

# 5. Calcul des gradients
grad_w = -(y_true - y_pred) * x
grad_b = -(y_true - y_pred)

# 6. Mise à jour des poids et du biais
learning_rate = 0.01
w_new = w - learning_rate * grad_w
b_new = b - learning_rate * grad_b

# 7. Affichage des résultats
print("Prédiction initiale:", y_pred)
print("Perte:", loss)
print("Poids mis à jour:", w_new)
print("Biais mis à jour:", b_new)


Prédiction initiale: 36.4
Perte: 1180.98
Poids mis à jour: [ 2.544 39.18 ]
Biais mis à jour: 10.486


Explication du processus de descente de gradient :
1. La prédiction initiale (36.4) est loin de la valeur réelle (85)
2. Les gradients indiquent la direction de la plus forte augmentation de l'erreur
3. En soustrayant les gradients (multipliés par le learning rate), nous :
- Augmentons les poids si la prédiction est trop basse
- Diminuons les poids si la prédiction est trop haute

In [None]:
# Cas 1 : Learning Rate faible (0.001)
learning_rate = 0.001
# Les changements sont plus lents mais plus stables
# Exemple : w_new ≈ w - 0.001 * grad_w
# Changements très graduels

# Cas 2 : Learning Rate élevé (0.1)
learning_rate = 0.1
# Les changements sont plus rapides mais risqués
# Exemple : w_new ≈ w - 0.1 * grad_w
# Peut "sauter" la solution optimale


# Cas 1 : Poids faibles
w = np.array([0.1, 0.1])
# Prédiction initiale plus basse
# Gradients plus importants au début
# Apprentissage plus progressif

# Cas 2 : Poids élevés
w = np.array([1.0, 1.0])
# Prédiction initiale plus élevée
# Risque de saturation
# Gradients potentiellement plus grands

Effets sur l'apprentissage :

Learning Rate :
Trop petit : apprentissage très lent
Trop grand : instabilité, dépassement de l'optimum
Optimal : convergence rapide et stable

Poids Initiaux :
Trop petits : apprentissage lent au début
Trop grands : risque de surapprentissage initial
Bien choisis : convergence plus rapide vers la solution
