# Introducción

A continuación procederemos a echar un vistazo a siete algoritmos de regresión, los cuales nos permitirán realizar un breve chequeo de en que punto se encuentran los datos. Veremos cuatro algoritmos lineales y tres no lineales.

* **Algoritmos Lineales:**
  
  * Linear Regression
  
  * Ridge Regression
  
  * Lasso Linear Regression
  
  * Elastic-Net Regression
  

* **Algoritmos no lineales:**

  * K-Nearest Neighbors
  
  * Regression Trees
  
  * Support Vector Machines

# Algoritmos Lineales

## Linear Regression

La regresión lineal asume que las variables de entrada tienen una distribución Gaussiana. También asume que las variables de entrada son relevantes para la variable de salida y que estas no están altamente correladas entre ellas (problema conocido como colinearilidad).

Podemos hacer uso del algoritmo de regresión lineal a partir de la clase **LinearRegression** perteneciente a la librería **scikit-learn**.

In [3]:
import pandas as pd 

from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LinearRegression

file_name = 'boston.csv'
names = ['CRIM' , 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
         'B', 'LSTAT', 'MEDV']

#Cargamos los datos
df = pd.read_csv(file_name, delim_whitespace=True, names=names)
array = df.values

#Separamos entre predictores y variable a predecir
X = array[:, 0:13]
Y = array[:,13]

#Hacemos la validación cruzada
kfold = KFold(n_splits=10, random_state=7)
model = LinearRegression()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv = kfold, scoring = scoring)
print(results.mean())

-34.84606709922741


## Ridge Regression

Se trata de una extensión de la regresión lineal. Es una técnica usada para analizar datos que sufren el problema de multicolinealidad. Cuando se produce este suceso, las estimaciones de mínimos cuadrados no son sesgadas, pero sus variaciones son grandes, por lo que pueden estar lejos del verdadero valor. Al agregar un grado de sesgo a las estimaciones, la regresión de ridge reduce los errores estándar y así conseguir unas estimaciones de las que nos podamos fiar más. Hace uso de la conocida como norma **L2**.

Podemos construir una regresión de **Ridge** a partir de la clase **Ridge** de la librería **scikit-learn**.

In [4]:
import pandas as pd 

from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import Ridge

file_name = 'boston.csv'
names = ['CRIM' , 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
         'B', 'LSTAT', 'MEDV']

#Cargamos los datos
df = pd.read_csv(file_name, delim_whitespace=True, names=names)
array = df.values

#Separamos entre predictores y variable a predecir
X = array[:, 0:13]
Y = array[:,13]

#Hacemos la validación cruzada
kfold = KFold(n_splits=10, random_state=7)
model = Ridge()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv = kfold, scoring = scoring)
print(results.mean())

-34.17876741942594


## LASSO Regression

Al igual que la regresión de Ridge se trata de una extensión de la regresión lineal, que permite solucionar el problema de la multicolinealidad. En este caso hace uso de la norma **L1**. Lasso también nos permite realizar una selección de variables.

Podemos hacer uso de la regresión de Lasso a partir de la clase **Lasso** de la librería **scikit-learn**.

In [5]:
import pandas as pd 

from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import Lasso

file_name = 'boston.csv'
names = ['CRIM' , 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
         'B', 'LSTAT', 'MEDV']

#Cargamos los datos
df = pd.read_csv(file_name, delim_whitespace=True, names=names)
array = df.values

#Separamos entre predictores y variable a predecir
X = array[:, 0:13]
Y = array[:,13]

#Hacemos la validación cruzada
kfold = KFold(n_splits=10, random_state=7)
model = Lasso()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv = kfold, scoring = scoring)
print(results.mean())

-34.47903204687103


## Elastic-Net Regresssion

Elastic-Net se trata de un forma de regularizar la regresión que combina las propiedades de las regresiones de Ridge y de Lasso. Se busca minimizar la complejidad del modelo de regresión, penalizando el modelo haciendo de las normas **L2 ** y  **L1**.

Podemos hacer uso del modelo ElasticNet haciendo uso de la clase **ElasticNet**.

In [6]:
import pandas as pd 

from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import ElasticNet

file_name = 'boston.csv'
names = ['CRIM' , 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
         'B', 'LSTAT', 'MEDV']

#Cargamos los datos
df = pd.read_csv(file_name, delim_whitespace=True, names=names)
array = df.values

#Separamos entre predictores y variable a predecir
X = array[:, 0:13]
Y = array[:,13]

#Hacemos la validación cruzada
kfold = KFold(n_splits=10, random_state=7)
model = ElasticNet()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv = kfold, scoring = scoring)
print(results.mean())

-31.17449996156528


# Algoritmos no lineales

## KNN

El algoritmo KNN lo que trata es de localizar las k instancias más similares entre si en un conjunto de entrenamiento para una nueva instancia no vista. Se predice el valor de la variable a predecir para esta instancia como la media de las instancias asignadas como más similares. Para asignar las k instancias más similares el algoritmo KNN hace uso de una métrica basada en distancias. La distancia de Minkowski es usada por defecto, la cual es una generalización de la distancia Euclidea y de la distancia de Manhattan. 

Disponemos de la clase **KNeighborsRegressor** para construir nuestro regresor

In [6]:
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsRegressor

filename = 'boston.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
         'B', 'LSTAT', 'MEDV' ]
dataframe = pd.read_csv(filename, delim_whitespace=True, names=names)

#Obtenemos las variables predictoras y las variables a predecir
array = dataframe.values
X = array[:, 0:13]
Y = array[:,13]

kfold = KFold(n_splits=10, random_state = 7)
model = KNeighborsRegressor()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring = scoring)
print(results.mean())

-107.91645930980391


## Regression Trees

Este tipo de algoritmos hacen uso del conjunto de entrenamiento para seleccionar los mejores puntos para dividir nuestro conjunto de datos con el objetivo de minimizar el coste. Por defecto la métrica que trata de minimizar este algoritmo es el MSE, pero mediante el parámetro **criterion** le podemos especificar otra métrica.

Podemos hacer uso de la clase **DecisionTreeRegressor** para crear nuestro algoritmo.

In [2]:
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeRegressor

#Cargamos los datos
filename = 'boston.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
         'B', 'LSTAT', 'MEDV' ]
dataframe = pd.read_csv(filename, delim_whitespace=True, names=names)

#Separamos entre las variables predictoras y la variable a predecir
array = dataframe.values
X = array[:, 0:13]
Y = array[:,13]

#Preparamos el kfold y aplicamos algoritmo 
kfold = KFold(n_splits = 10, random_state = 7)
model = DecisionTreeRegressor()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv = kfold, scoring = scoring)
print(results.mean())

-40.19559568627451


## Support Vector Machines

Este algoritmo conocido como SVM está desarrollado para trabajar con problemas de clasificación binaria. Esta técnica se ha extendido para predecir valores reales haciendo uso de SVR. Podemos hacer uso de la clase SVR para implementar este algoritmo.

In [3]:
import pandas as pd 
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.svm import SVR

#Cargamos los datos
filename = 'boston.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
         'B', 'LSTAT', 'MEDV' ]
dataframe = pd.read_csv(filename, delim_whitespace=True, names=names)

#Separamos entre las variables predictoras y la variable a predecir
array = dataframe.values
X = array[:, 0:13]
Y = array[:,13]

#Preparamos el kfold y lanzamos el algoritmo
kfold = KFold(n_splits = 10, random_state = 7)
model = SVR()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv = kfold, scoring = scoring)
print(results.mean())

-91.04717038292698
