In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd



# Régression linéaire Simple


*   On va utiliser les calculs résultant de la méthode des moindres carrés pour trouver la valeur des paramétres dans le cas d'une regression linéaire simple sous la forme :

$\hat{y} = \beta_1 \hat{x} + \beta_2$

Avec :

$\beta_1 = \frac{\text{cov}(x, y)}{\text{var}(x)}$

$\beta_2 = \bar{y} - \beta_1 \bar{x}$



In [3]:
class simple_linear_regression :
  def __init__(self):
        self.coef = None

  def coefficients(self):
        return self.coef

  def fitModel(self, X, Y):
    # Extract the correlation coefficient between X and Y
    correlation_matrix = np.corrcoef(X, Y)
    self.coef = correlation_matrix[0, 1] * (np.std(Y) / np.std(X))

  def predictModel(self, X,Y):
    B1 = self.coef
    B2 = np.mean(Y) - (np.mean(X) * B1)
    Yfit = (np.array(X) * B1) + B2
    return Yfit

  def predictValue(self,value,X,Y):
    B2 = np.mean(Y) - (np.mean(X) * self.coef)
    return (value*self.coef) + B2

  def __str__(self):
        return f'Coefficient: {self.coef_}'

Lecture de données representant l'investissement en publicité sur plusieurs media : TV, Radio et finalement les jornaux et le retour sur investissement

In [4]:
df = pd.read_csv('Advertising.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'Advertising.csv'

Representation graphique brute des données (scatter plot)

In [None]:
X = df['sales']
Y = df["TV"] + df["radio"]+df["newspaper"]

plt.scatter(X,Y)
plt.title("Sales relation with advertisement")
plt.xlabel("Sales")
plt.ylabel("Investement")

In [None]:
model = simple_linear_regression()
model.fitModel(X, Y)
Yfit = model.predictModel(X, Y)

Entrainement de notre modéle, estimation d'une courbe .

In [None]:
plt.scatter(X,Y)
plt.plot(X,Yfit,color="red")
plt.title("Sales relation with advertisement")
plt.xlabel("Sales")
plt.ylabel("Investement")
plt.savefig(fname='linearRegression.jpg',dpi=200)

In [None]:
model.predictValue(25,X,Y)

# General Linear Regression with multiple variables

Ceci est une generalisation du modéle précedent , on utilise une formule général acceptant n "feature" X :

$\hat{Y} = X \cdot \beta$

avec :

---



 X est la matrice des features   ;

 $\beta$ la matrice des coéfficients;

 Y la matrice des labels ;


---



 on resout cette equation par la méthode des moindres carrés qui consiste à minimiser la Jacobienne de la différence entre le label prédit et les données réelles :

 $\beta = (X^T \cdot X)^{-1} \cdot X^T \cdot Y$


In [None]:
class LinearRegression:
    def __init__(self):
        self.coef = None

    def fitModel(self, X, Y):
        Xplus = np.column_stack([np.ones_like(X), X])
        self.coef = np.matmul(np.linalg.pinv(Xplus), Y)

    def predictModel(self, X):
        Xplus = np.column_stack([np.ones_like(X), X])
        return np.matmul(Xplus, self.coef)

In [None]:
advancedModel = LinearRegression()
advancedModel.fitModel(X,Y)
Yfit2 = advancedModel.predictModel(X)

In [None]:
plt.figure(dpi=200)
plt.scatter(X,Y)
plt.plot(X,Yfit2,color="purple")
plt.title("Sales relation with advertisement")
plt.errorbar(X, Yfit2, yerr=np.abs(Y-Yfit2), fmt='none', ecolor='red', label='Error bars')
plt.xlabel("Sales")
plt.ylabel("Investement")
plt.show()

# Regression Linéaire en utilisant Numpy

In [None]:
parametres = np.polyfit(X,Y,deg=1) #parametres de l'ajustement
parametres

In [None]:
Yfit3 = parametres[0]*X+ parametres[1]

In [None]:
plt.figure(dpi=200)
plt.scatter(X,Y)
plt.plot(X,Yfit3,color="purple")
plt.title("Sales relation with advertisement")
plt.xlabel("Sales")
plt.ylabel("Investement")
plt.show()

# REGRESSION LINEAIRE EN UTILISANT SCIKIT-LEARN :
*scikit-learn nous permet de fractionner notre ensemble de données en données de test et données d'entrainement afin d'eviter l'over-fitting.*

In [None]:
from sklearn.model_selection import train_test_split

# representation des données à N-dimensions

In [None]:
fig,axes = plt.subplots(nrows=1,ncols=3,figsize=(16,6))

axes[0].plot(df['TV'],df['sales'],'o')
axes[0].set_ylabel("Sales")
axes[0].set_title("Dépenses TV")

axes[1].plot(df['radio'],df['sales'],'o')
axes[1].set_title("Dépenses Radio")
axes[1].set_ylabel("Sales")

axes[2].plot(df['newspaper'],df['sales'],'o')
axes[2].set_title("Dépenses Newspaper")
axes[2].set_ylabel("Sales")
plt.tight_layout()

# Diviser les données en deux sections: des données d'entrainement et des données de test.

In [None]:
X = df.drop('sales',axis=1)
y = df['sales']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=101)

# Le modéle de regression linéaire :

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
model = LinearRegression()

In [None]:
model.fit(X=X_train,y=y_train)

### Metrics pour mesurer la validité des données :



**Mean Absolute Error** (MAE) est la moyenne de la valeur absolue des erreurs :

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

**Mean Squared Error** (MSE) est la moyenne des erreurs quadratiques:

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

**Root Mean Squared Error** (RMSE) est la racine carrée de la moyenne des erreurs au carré:

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$


In [None]:
test_predictions = model.predict(X_test)

In [None]:
from sklearn.metrics import mean_absolute_error,mean_squared_error

In [None]:
MAE = mean_absolute_error(y_test,test_predictions)
MSE = mean_squared_error(y_test,test_predictions)
RMSE = np.sqrt(MSE)

In [None]:
MAE

In [None]:
MSE

In [None]:
RMSE

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
accuracy_score(y_true,test_predictions)

In [None]:
np.array(y_test)