# Corrélation et Regression

In [46]:
import pandas as pd
import numpy as np
import sklearn.linear_model
import matplotlib.pyplot as plt
import seaborn as sns

On crée un ensemble points selon la formule suivante:

$y = 2x_1 + x_2^2 + sin(x3) + \frac{1}{x_4}$

On veut observer quelle méthode permet le mieux de constater l'impact entre chaque variable et la cible.
On sait que chaque variable soit corrélée à la cible. Pour l'exemple, une 5e variable $x_5$ est aléatoire (et pas corrélée du tout à la cible).

On travaille sur 10000 points, et chacune des variables est aléatoire sur [0, 1].

La variable $y$ contient le résultat de l'équation ci-dessus.

In [67]:
n_points = 10000

x1 = np.random.random(n_points)*10
x2 = np.random.random(n_points)*10
x3 = np.random.random(n_points)*10
x4 = np.random.random(n_points)*10
x5 = np.random.random(n_points)*10

y = 2*x1 + x2**2 + np.sin(x3) + 1/x4

data = pd.DataFrame(np.array([x1, x2, x3, x4, x5]).T)
data.columns = ["x1", "x2", "x3", "x4", "x5"]

## Regression linéaire
On fait une regression linéaire et on regarde les coefficients.

In [68]:
linear_regression = sklearn.linear_model.LinearRegression().fit(data, y)

In [69]:
print("y~x1", linear_regression.coef_[0])
print("y~x2", linear_regression.coef_[1])
print("y~x3", linear_regression.coef_[2])
print("y~x4", linear_regression.coef_[3])
print("y~x5", linear_regression.coef_[4])

y~x1 1.8258056046257782
y~x2 10.073270525525833
y~x3 -0.01299848454938591
y~x4 -0.655074744817602
y~x5 0.09739899951855203


On remarque que le coefficient de $x_1$ est proche de celui de la formule. Celui de $x_2$ semble nettement plus important (c'est surtout dû au carré). On remarque que le coefficient de $x_3$ est du même ordre de grandeur que pour $x_5$: un sinus ne peut pas être discerné de l'aléatoire par une regression linéaire (et c'est le cas pour beaucoup de transformations).

## Coefficients de corrélation

In [62]:
print("y~x1", np.corrcoef(y, x1)[0, 1])
print("y~x2", np.corrcoef(y, x2)[0, 1])
print("y~x3", np.corrcoef(y, x3)[0, 1])
print("y~x4", np.corrcoef(y, x4)[0, 1])
print("y~x5", np.corrcoef(y, x5)[0, 1])

y~x1 0.504394849806459
y~x2 0.7274971003711612
y~x3 -0.010992881607460531
y~x4 0.3471023741871975
y~x5 0.0011505306789006376


On constate que $x_1$, $x_2$ et $x_4$ ont un coefficient de corrélation important, sans grosse disparité. $x_3$ et $x_5$ ont une différence significative ($\times10$). Cependant, le coefficient de $x_1$ n'est pas celui de la formule de départ.

## Conclusion
La regression linéaire donne un modèle qui suppose la linéarité entre les variables et la cible, et est mauvaise à reconnaître les relations non-linéaires. Les coefficients qui sont effectivement linéaires sont (a priori) ceux qui correspondent réellement au coefficient de la réalité. C'est une excellente méthode dans le cas où on fait l'hypothèse de linéarité.

Si cette hypothèse n'est pas faisable, alors les coefficients de corrélations donnent probablement une meilleure indication de la relation entre les variables. Les coefficients de corrélation ne sont cependant pas capables de remarquer les situations dans lesquelles les variables interagissent (exemple: $y = x_1x_2$).