# Regresión lineal con scikit-learn

Hemos aprendido a implementar modelos de regresión lineal usando statsmodels... ¡ahora aprendamos a hacerlo usando scikit-learn! <br><br>
Para este modelo, continuaremos usando el advertisingconjunto de datos, pero esta vez usaremos dos variables predictoras para crear un modelo de regresión lineal múltiple . Este es simplemente un modelo de regresión lineal con más de un predictor, y está modelado por:<br><br>
Yₑ = α + β₁X₁ + β₂X₂ +… + βₚXₚ, donde p es el número de predictores.<br><br>
En nuestro ejemplo, estaremos prediciendo Salesusando las variables TVy Radioes decir, nuestro modelo puede escribirse como:<br><br>
Ventas = α + β₁ * TV + β₂ * Radio.<br><br>
Primero, inicializamos nuestro modelo de regresión lineal, luego ajustamos el modelo a nuestros predictores y variables de salida:


In [6]:
#https://towardsdatascience.com/introduction-to-linear-regression-in-python-c12a072bedf0
import statsmodels.formula.api as smf
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

# Import and display first five rows of advertising dataset
advert = pd.read_csv('Advertising.csv')
advert.head()

Unnamed: 0.1,Unnamed: 0,TV,radio,newspaper,sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


In [9]:
from sklearn.linear_model import LinearRegression

# Build linear regression model using TV and Radio as predictors
# Split data into predictors X and output Y
predictors = ['TV', 'radio']
X = advert[predictors]
y = advert['sales']

# Initialise and fit model
lm = LinearRegression()
model = lm.fit(X, y)

Una vez más, no hay necesidad de calcular los valores para alphay betasnosotros mismos - sólo tenemos que llamar .intercept_para alphay .coef_por una matriz con los coeficientes beta1y beta2:

In [10]:
print(f'alpha = {model.intercept_}')
print(f'betas = {model.coef_}')

alpha = 2.9210999124051362
betas = [0.04575482 0.18799423]


Por lo tanto, nuestro modelo se puede escribir como: <br><br>
Ventas = 2.921 + 0.046 * TV + 0.1880 * Radio.<br><br>
Podemos predecir valores simplemente usando .predict():<br><br>

In [11]:
model.predict(X)

array([20.55546463, 12.34536229, 12.33701773, 17.61711596, 13.22390813,
       12.51208449, 11.71821241, 12.10551553,  3.7093792 , 12.55169696,
        7.0358597 , 17.25652015, 10.60866187,  8.81095051, 18.44466773,
       20.82891539, 12.90386507, 23.24107626,  9.94121476, 14.15384619,
       18.12139161, 14.74206357,  6.51417168, 16.54402663,  8.14035215,
       15.6080206 , 14.96769383, 17.0463346 , 19.39954145,  9.15929748,
       21.64292187, 11.35791808,  7.65045928, 18.83346334,  7.56302763,
       16.99280099, 23.36720719, 15.6258994 ,  9.91257829, 20.4405801 ,
       16.37872122, 17.29870935, 21.5621537 , 13.96692266,  8.9009974 ,
       15.16263814,  8.88644967, 21.69944046, 16.28690268,  8.18162949,
       12.64569407,  9.31962792, 20.66180115, 19.96126242, 20.35512357,
       21.30864743,  8.53774783, 12.76239488, 21.89072858, 18.10746914,
        5.74497097, 22.90418658, 16.78413768, 13.18474853, 16.96570907,
        7.82652846,  8.98703456, 12.02066194, 18.95313425, 21.09

Ahora que hemos ajustado un modelo de regresión lineal múltiple a nuestros datos, ¡podemos predecir las ventas a partir de cualquier combinación de costos publicitarios de TV y radio! Por ejemplo, si quisiéramos saber cuántas ventas haríamos si invertimos $ 300 en publicidad en televisión y $ 200 en publicidad en radio ... ¡todo lo que tenemos que hacer es conectar los valores!

In [12]:
new_X = [[300, 200]]
print(model.predict(new_X))

[54.24638977]


Esto significa que si gastamos <strong>300 dolares</strong> en publicidad en televisión y $ 200 en publicidad en radio, deberíamos esperar ver, en promedio, 54 unidades vendidas.<br><br>
¡Espero que hayas disfrutado este breve tutorial sobre los conceptos básicos de la regresión lineal!<br><br>
Cubrimos cómo implementar la regresión lineal desde cero y usando statsmodelsy scikit-learnen Python. En la práctica, tendrá que saber cómo validar su modelo y medir la eficacia, cómo seleccionar variables significativas para su modelo, cómo manejar variables categóricas y cuándo y cómo realizar transformaciones no lineales.<br><br>