# Regresión lineal - Scikit-learn

**Explicación R. Lineal ->** https://www.notion.so/Regresi-n-lineal-39b5e113aa01468a8963932b5ec26123

**Librerías, Funciones:**
- *Pandas* -> read_csv.
- *from sklearn.feature_selection import RFE* -> RFE
- *from sklearn.svm import SVR* -> SVR
- *from sklearn.linear_model import LinearRegression* -> LinearRegression(), support_, .ranking_, .intercept_, .coef_, .score()

**Índice:**

0. Preparación previa
1. Selección de **rasgos**
2. Construcción del **modelo**

# 0. Preparación previa

El paquete sklearn tiene implementada la selección de rasgos significativos (vars predictoras que deben formar parte del modelo) -> hace una selección de rasgos hacia atrás ("eliminación de rasgos recursiva")

In [3]:
%config IPCompleter.greedy=True  #Para permitir el autocompletado en Jupyter

import pandas as pd
import numpy as np

from sklearn.feature_selection import RFE #Recursive Feature Elimination
from sklearn.svm import SVR #Para llevar a cabo el modelo lineal
from sklearn.linear_model import LinearRegression #Para calcular el lm


In [4]:
mainpath = "/Users/irene/Documents/GitHub/python-ml-course/datasets"  #Ruta ficheros
filename = "ads/Advertising.csv" #Fichero a abrir
fullpath = mainpath + "/" + filename #Ruta completa

df = pd.read_csv(fullpath)
df.head(2)

Unnamed: 0,TV,Radio,Newspaper,Sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4


# 2. Selección de rasgos

Rasgos de predicción = vars. de entrada (X's)

De todas las posibles vars. predictoras (feature_cols), nos vamos a quedar con las que + significatividad tienen para el modelo.

In [5]:
feature_cols = ["TV", "Radio", "Newspaper"] #Posibles var. predictivas

X = df[feature_cols]
Y = df["Sales"]

In [10]:
estimator = SVR(kernel="linear") #Modelo lineal
selector = RFE(estimator, n_features_to_select=2, step=1) #Quiero tener sólo 2 vars. predictivas, en 1 paso
selector = selector.fit(X,Y)

selector.support_ #Debemos descartar el último parámetro (Newspaper)

array([ True,  True, False])

In [9]:
 selector.ranking_ #Indexa las vars. de mejor a peor significatividad

array([1, 1, 2])

# 3. Construcción del modelo

**El modelo lineal obtenido por regresión es:**

- Sales = 2.9210999124051362 + 0.04575482*TV + 0.18799423*Radio

In [14]:
#Establecemos las vars. predictoras
X_pred = X[["TV", "Radio"]]

#Creamos el modelo
lm = LinearRegression()
lm.fit(X_pred, Y)

#Obtenemos los parámetros del modelo
print("El valor de alpha es: " + str(lm.intercept_))
print("El valor de las betas es: " + str(lm.coef_))
print("El valor de R2 es: " + str(lm.score(X_pred,Y)))

El valor de alpha es: 2.9210999124051362
El valor de las betas es: [0.04575482 0.18799423]
El valor de R2 es: 0.8971942610828956
