#  From Scratch

## 1. Chargement des Données

In [1]:
# Importer les bibliothèques nécessaires
import pandas as pd
import numpy as np

# Charger les données du fichier CSV
#data = pd.read_csv('./data/prix_maisons.csv', na_values=['', ' ', 'NaN', 'N/A', '-'])
#data.head()


# Charger les données du fichier CSV
data = pd.read_csv('./data/prix_maisons.csv', na_values=['', ' ', 'NaN', 'N/A', '-'])

# Vérifier la présence de colonnes non numériques
print(data.dtypes)

# Encodage des variables catégorielles si nécessaire (supposons qu'il y ait des variables catégorielles)
data_encoded = pd.get_dummies(data, drop_first=True)

# Vérification du nouvel ensemble de données encodé
print(data_encoded.head())


date                   object
surface                 int64
nombre_pieces           int64
nombre_salles_bain      int64
nombre_etages           int64
age_maison              int64
type_chauffage         object
quartier               object
proximite_ecole       float64
prix                    int64
dtype: object
   surface  nombre_pieces  nombre_salles_bain  nombre_etages  age_maison  \
0      152              7                   1              1          21   
1      229              2                   1              2          27   
2      142              2                   3              1          19   
3       64              1                   3              2          32   
4      156              8                   2              1           9   

   proximite_ecole  prix  date_2020-01-02  date_2020-01-04  date_2020-01-05  \
0             0.56   781            False            False            False   
1             2.26   935            False            False            F

## 2. Explication du Pseudo-Code en Markdown

### Pseudo-Code de l'Algorithme de Régression Linéaire

1. **Initialisation des paramètres** : Définir un vecteur de coefficients `W` et un biais `b`, initialisés à zéro.
2. **Boucle d'entraînement** :
    - Pour chaque itération :
        - **Prédiction** : Calculer les prédictions `y_pred` en utilisant la formule de la régression linéaire : `y_pred = W * X + b`
        - **Calcul de l'erreur** : Mesurer l'erreur entre les prédictions `y_pred` et les valeurs réelles `y`.
        - **Calcul du gradient** : Calculer les gradients de l'erreur par rapport aux coefficients `W` et au biais `b`.
        - **Mise à jour des paramètres** : Ajuster les paramètres `W` et `b` dans la direction opposée au gradient pour minimiser l'erreur.
3. **Critère d'arrêt** : Répéter jusqu'à convergence ou jusqu'à atteindre un nombre d'itérations maximal.


## 4. Implémentation de la Régression Linéaire "from scratch"

In [2]:
class LinearRegressionScratch:
    def __init__(self, learning_rate=0.01, n_iterations=1000):
        self.learning_rate = learning_rate
        self.n_iterations = n_iterations
        self.W = None
        self.b = None
    
    def fit(self, X, y):
        # Initialisation des paramètres
        n_samples, n_features = X.shape
        self.W = np.zeros(n_features)
        self.b = 0
        
        # Descente de gradient
        for _ in range(self.n_iterations):
            # Calculer la prédiction
            y_pred = np.dot(X, self.W) + self.b
            
            # Calculer les gradients
            dw = (1 / n_samples) * np.dot(X.T, (y_pred - y))
            db = (1 / n_samples) * np.sum(y_pred - y)
            
            # Mettre à jour les paramètres
            self.W -= self.learning_rate * dw
            self.b -= self.learning_rate * db
    
    def predict(self, X):
        return np.dot(X, self.W) + self.b

### Explication :

- `fit` : Cette méthode entraîne le modèle en ajustant les paramètres W (poids) et b (biais) via la descente de gradient.
- `predict` : Utilise les paramètres appris pour prédire les valeurs de sortie sur de nouvelles données.

## 5. Entraînement et Évaluation du Modèle

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, r2_score

# Préparation des données
X = data_encoded.drop('prix', axis=1).values  # Convertir en matrice numpy
y = data_encoded['prix'].values

# Diviser les données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Créer et entraîner le modèle
model_scratch = LinearRegressionScratch(learning_rate=0.01, n_iterations=1000)
model_scratch.fit(X_train, y_train)

# Prédire et évaluer
y_pred_train = model_scratch.predict(X_train)
y_pred_test = model_scratch.predict(X_test)

# Calcul des métriques
train_mae = mean_absolute_error(y_train, y_pred_train)
test_mae = mean_absolute_error(y_test, y_pred_test)
train_r2 = r2_score(y_train, y_pred_train)
test_r2 = r2_score(y_test, y_pred_test)

print(f"Erreur absolue moyenne sur l'entraînement : {train_mae:.2f}")
print(f"Erreur absolue moyenne sur le test : {test_mae:.2f}")
print(f"R² sur l'entraînement : {train_r2:.2f}")
print(f"R² sur le test : {test_r2:.2f}")