# exo2 

## importing 

In [2]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

## 1. Définition des données

In [3]:
Y = np.array([10, 7, 9])
X1 = np.array([4, 2, 3])
X2 = np.array([6, 5, 7])

## 2. Construction de la Matrice de Conception X

In [4]:
X = np.column_stack((np.ones(len(Y)), X1, X2))
print("Vecteur des Notes (Y):\n", Y)
print("\nMatrice de Conception (X):\n", X)

Vecteur des Notes (Y):
 [10  7  9]

Matrice de Conception (X):
 [[1. 4. 6.]
 [1. 2. 5.]
 [1. 3. 7.]]


## 3. calcul du ensemble beta1

In [5]:
XT = X.T
XTX = XT @ X
XTX_inv = np.linalg.inv(XTX)
XTY = XT @ Y
beta_hat = XTX_inv @ XTY
print("Matrice (X^T X) :\n", XTX)
print("\nMatrice (X^T X)^-1 :\n", XTX_inv.round(4))
print("\nVecteur (X^T Y) :\n", XTY)
print("\nCoefficients estimés (beta_hat) :\n", beta_hat.round(4))


print(f"\nÉquation du modèle estimé : Ŷ = {beta_hat[0]:.2f} + {beta_hat[1]:.2f}*X1 + {beta_hat[2]:.2f}*X2")

Matrice (X^T X) :
 [[  3.   9.  18.]
 [  9.  29.  55.]
 [ 18.  55. 110.]]

Matrice (X^T X)^-1 :
 [[18.3333 -0.     -3.    ]
 [ 0.      0.6667 -0.3333]
 [-3.     -0.3333  0.6667]]

Vecteur (X^T Y) :
 [ 26.  81. 158.]

Coefficients estimés (beta_hat) :
 [2.6667 1.3333 0.3333]

Équation du modèle estimé : Ŷ = 2.67 + 1.33*X1 + 0.33*X2


## 3. Comparaison avec la Fonction de Régression Prédéfinie

In [6]:
X_data_only = X[:, 1:]

model_sklearn = LinearRegression()
model_sklearn.fit(X_data_only, Y)


beta0_sklearn = model_sklearn.intercept_
beta1_sklearn, beta2_sklearn = model_sklearn.coef_

print("--- Question 3 : Comparaison des résultats (scikit-learn) ---")
print(f"Intercept (β0) estimé manuellement : {beta_hat[0]:.4f}")
print(f"Intercept (β0) par sklearn : {beta0_sklearn:.4f}")
print(f"\nCoefficient X1 (β1) estimé manuellement : {beta_hat[1]:.4f}")
print(f"Coefficient X1 (β1) par sklearn : {beta1_sklearn:.4f}")
print(f"\nCoefficient X2 (β2) estimé manuellement : {beta_hat[2]:.4f}")
print(f"Coefficient X2 (β2) par sklearn : {beta2_sklearn:.4f}")

# La très petite différence est due aux erreurs d'arrondi
if np.allclose(beta_hat, np.array([beta0_sklearn, beta1_sklearn, beta2_sklearn])):
    print("\n Les résultats du calcul matriciel et de scikit-learn sont cohérents.")
else:
    print("\n Les résultats sont différents.")

--- Question 3 : Comparaison des résultats (scikit-learn) ---
Intercept (β0) estimé manuellement : 2.6667
Intercept (β0) par sklearn : 2.6667

Coefficient X1 (β1) estimé manuellement : 1.3333
Coefficient X1 (β1) par sklearn : 1.3333

Coefficient X2 (β2) estimé manuellement : 0.3333
Coefficient X2 (β2) par sklearn : 0.3333

 Les résultats du calcul matriciel et de scikit-learn sont cohérents.


## 4. Calcul du $R^2$ et du RMSE

In [7]:

Y_hat = X @ beta_hat

Y_mean = np.mean(Y)


SCR = np.sum((Y - Y_hat)**2)


SCT = np.sum((Y - Y_mean)**2)


R_squared = 1 - (SCR / SCT)


n = len(Y)
RMSE = np.sqrt(SCR / n)

print("--- Question 4 : Calcul de R² et RMSE ---")
print(f"Prédictions du modèle (Ŷ) : {Y_hat.round(4)}")
print(f"Moyenne de Y (ȳ) : {Y_mean:.4f}")
print(f"Somme des Carrés des Résidus (SCR) : {SCR:.4f}")
print(f"Somme Totale des Carrés (SCT) : {SCT:.4f}")
print(f"\nCoefficient de Détermination (R²) : {R_squared:.4f}")
print(f"Erreur Quadratique Moyenne (RMSE) : {RMSE:.4f}")
print("-------------------------------------------\n")

print("--- Discussion sur la Qualité de l'Ajustement ---")
print(f"Le R² de {R_squared:.4f} indique qu'environ {R_squared*100:.2f}% de la variation de la note est expliquée par les heures de révision (X1) et de sommeil (X2).")
print(f"Un R² proche de 1 est idéal, mais ici, il est modéré, suggérant que le modèle n'est pas parfait et que d'autres variables influencent la note.")
print(f"Le RMSE de {RMSE:.4f} signifie que l'erreur moyenne de prédiction de la note est d'environ {RMSE:.2f} points.")
print("---------------------------------------------------\n")

--- Question 4 : Calcul de R² et RMSE ---
Prédictions du modèle (Ŷ) : [10.  7.  9.]
Moyenne de Y (ȳ) : 8.6667
Somme des Carrés des Résidus (SCR) : 0.0000
Somme Totale des Carrés (SCT) : 4.6667

Coefficient de Détermination (R²) : 1.0000
Erreur Quadratique Moyenne (RMSE) : 0.0000
-------------------------------------------

--- Discussion sur la Qualité de l'Ajustement ---
Le R² de 1.0000 indique qu'environ 100.00% de la variation de la note est expliquée par les heures de révision (X1) et de sommeil (X2).
Un R² proche de 1 est idéal, mais ici, il est modéré, suggérant que le modèle n'est pas parfait et que d'autres variables influencent la note.
Le RMSE de 0.0000 signifie que l'erreur moyenne de prédiction de la note est d'environ 0.00 points.
---------------------------------------------------



## 5. Estimation de la Note Moyenne Prévue

In [8]:
# Nouvelles données (X_new = [1, X1_new, X2_new])
X1_new = 3.5
X2_new = 6
X_new = np.array([1, X1_new, X2_new])

# Prédiction
Y_predicted = X_new @ beta_hat


print(f"Nouvelles données : X1 = {X1_new}, X2 = {X2_new}")
print(f"Note moyenne prévue (Ŷ) : {Y_predicted:.2f}")


Nouvelles données : X1 = 3.5, X2 = 6
Note moyenne prévue (Ŷ) : 9.33
