# Les régressions linéaires avec Python

Présentation (non-exhaustive) des méthodes permettant d'implémenter une régression linéaire avec Python

Les points fondamentaux de toute modélisation :
> 1. les données
> 2. le modèle
> 3. la fonction de coût
> 4. l'optimisation
> 5. l'évaluation

## Régression linéaire simple

### Le dataset

In [1]:
# Import des librairies
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# Import du dataset salaires ou génération des données aléatoirement avec sklearn

#dataset = np.genfromtxt('Régression linéaire simple/salaires.csv', delimiter = ',', skip_header=True)
#x = dataset[:,:-1]
#y = dataset[:,-1:]

#possibilité de générer des données aléatoirement avec sklearn
from sklearn.datasets import make_regression
x, y= make_regression(n_samples = 100, n_features = 1, noise = 10)
print(x.shape,y.shape)

(100, 1) (100,)


In [3]:
# on modifie y.shape pour avoir y.shape[1]=1
y = y.reshape(y.shape[0],1)
y.shape

(100, 1)

### Avec scikit-learn

In [4]:
# Construction du modèle
from sklearn.linear_model import LinearRegression
model = LinearRegression()
results = model.fit(x,y)

In [5]:
# Évaluation du modèle
model.score(x,y)

0.6674809835049006

In [6]:
# Récupération des coefficients
print(results.intercept_, results.coef_)

[-0.31621593] [[15.26932664]]


In [7]:
# Nouvelles prédictions
y_pred = model.predict([[16]])
y_pred

array([[243.99301026]])

### Avec statsmodel

In [8]:
#Construction du modèle
from statsmodels.api import OLS, add_constant
X = add_constant(x) # pour ajouter une constante à notre modèle sinon il n'y en a pas par défaut
model2 = OLS(y, X)
results2 = model2.fit()

In [9]:
# Évaluation du modèle
results2.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.667
Model:,OLS,Adj. R-squared:,0.664
Method:,Least Squares,F-statistic:,196.7
Date:,"Thu, 12 Dec 2019",Prob (F-statistic):,3.63e-25
Time:,08:49:08,Log-Likelihood:,-372.21
No. Observations:,100,AIC:,748.4
Df Residuals:,98,BIC:,753.6
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-0.3162,1.019,-0.310,0.757,-2.338,1.706
x1,15.2693,1.089,14.026,0.000,13.109,17.430

0,1,2,3
Omnibus:,1.657,Durbin-Watson:,1.976
Prob(Omnibus):,0.437,Jarque-Bera (JB):,1.229
Skew:,-0.261,Prob(JB):,0.541
Kurtosis:,3.153,Cond. No.,1.16


In [10]:
# Récupération des coefficients
results2.params

array([-0.31621593, 15.26932664])

In [16]:
# Nouvelles prédictions
y_pred = results2.predict([1,16])
y_pred

array([243.99301026])

### Avec le module stats de scipy

In [18]:
# stats.linregress(x,y) renvoie un quintuplet :
# la pente
# l'ordonnée à l'origine (= la constante)
# le coef de corrélation (pour la régression linéaire, R² est le carré de cette valeur)
# la p-value
# l'erreur standard de l'estimation du gradient

# stats.linregress prend en paramètres des array de dimension 1 donc il faut faire un reshape !!
x = x.reshape((x.shape[0],))
y = y.reshape((y.shape[0],))

In [22]:
#Construction du modèle
from scipy import stats
model3 = stats.linregress(x,y)
model3

LinregressResult(slope=15.269326636593886, intercept=-0.3162159272069427, rvalue=0.8169950939295173, pvalue=3.6296919212559845e-25, stderr=1.0886684640486028)

In [23]:
# Évaluation du modèle
model3.rvalue**2

0.6674809835049008

In [21]:
# Récupération des coefficients
print(model3.slope, model3.intercept)

15.269326636593886 -0.3162159272069427


In [None]:
# Nouvelles prédictions


### Avec la fonction numpy polyfit

In [24]:
# Cette fonction fait une régression polynomiale de degré 1 et renvoie les coefficients
# les coefs sont donnés dans l'ordre décroissant des puissances donc pour une régression linéaire :
# d'abord le coefficient du x puis la constante
# Comme stats.linregress, np.polyfit prend en paramètres des array de dimension 1 donc il faut faire un reshape !
x = x.reshape((x.shape[0],))
y = y.reshape((y.shape[0],))

In [25]:
# Construction du modèle et récupération des coefficients
model4 = np.polyfit(x,y,1)
model4

array([15.26932664, -0.31621593])

In [26]:
# Nouvelles prédictions
poly = np.poly1d(model4) #renvoie la fonction polynôme associée
poly([-2,2]) #donne les prédictions pour 2 et -2 par exemple

array([-30.8548692 ,  30.22243735])