# Algoritmos de regresi√≥n
## Tabla de contenidos
+ [Introducci√≥n](#Introducci√≥n)
+ [Entorno](#Entorno)
+ [Regresi√≥n lineal m√∫ltiple](#OLS)
+ [Regresi√≥n log√≠stica](#LOGR)
+ [√Årboles de regresi√≥n](#RT)
+ [Vecinos m√°s cercanos](#KNN)

## Introducci√≥n<a name="Introducci√≥n"></a>
En este tutorial vamos a explicar los algoritmos m√°s comunes para problemas de regresi√≥n. Estos algoritmos se suelen emplear en proyectos de machine learning y concretamente en la parte de aprendizaje supervisado, aquellos en los que los datos est√°n etiquetados. 

Ahora bien, ¬øqu√© es un problema de regresi√≥n? Existen dos tipos de datos, los datos continuos y los datos discretos o categ√≥ricos. Los problemas de regresi√≥n se dan cuando tenemos que analizar un conjuntos de datos continuos, es decir, s datos que pertenecen al conjunto de los n√∫meros reales.

Por otro lado, para continuar con el aprendizaje en el √°rea de la ciencia de datos, este tutorial forma parte del [punto 5. CRISP-DM: Modelado](https://www.adictosaltrabajo.com/2021/01/14/metodologia-crisp-dm/). Si no lo has le√≠do a√∫n, te recomiendo su lectura.

Comencemos!

## Entorno<a name="Entorno"></a>
El tutorial est√° escrito usando el siguiente entorno:

+ Hardware: Port√°til MSI P65 Crator 8RD (2.2 GHz Intel Core i7, 16 GB RAM)
+ Sistema operativo: Ubuntu 21.04
+ Python 3.9
+ Jupyter Notebook 6.4.6
+ Scikit-learn 1.0.2


## Regresi√≥n lineal m√∫ltiple (OLS)<a name="OLS"></a>
### Definici√≥n
Como sabemos, los modelos de conocimiento en aprendizaje supervisado pueden ser entendidos como funciones que reciben una entrada, la cual es un vector con los valores de los atributos, y devuelven una salida, que se trata de un valor estimado para
la clase. El algoritmo OLS ‚Äì_ordinary least squares, en ingl√©s_ ‚Äì es capaz de generar un modelo que consta de una combinaci√≥n lineal de los atributos. En concreto, el modelo que genera OLS puede expresarse matem√°ticamente del siguiente modo:

$$ùë¶ÃÇ=ùë§_0 + ùë§_1 ¬∑ ùë•_1 + ‚ãØ + ùë§_ùëù ¬∑ ùë•_ùëù$$

En la anterior ecuaci√≥n, $ùë¶ÃÇ$ es el valor predicho por el algoritmo, $x_1, ..., x_p$ son los valores de los atributos, $ùë§_1, ..., ùë§_ùëù‚ààùëÖ$ son los coeficientes del modelo y $w_0$ es el t√©rmino independiente de la combinaci√≥n lineal.

Una vez explicado el modelo de OLS, vamos a explicar la funci√≥n de coste que emplea para optimizar los coeficientes del modelo y as√≠, conseguir que sea capaz de estimar con mayor precisi√≥n la variable de salida. 

La funci√≥n objetivo o funci√≥n de coste es aquella que evalua c√≥mo de buena es la posible soluci√≥n. En el caso de OLS, la funci√≥n objetivo que usa es [MSE (mean squared error)](https://www.iartificial.net/error-cuadratico-medio-para-regresion/), y consiste en encontrar aquellos valores para los coeficientes $ùë§_0, ..., ùë§_ùëù$ que minimizan el error. 
![Reducici√≥n del error cuadr√°tico medio](../assets/img/OLS.png "Reducici√≥n del error cuadr√°tico medio")

### Ventajas
+ La simplicidad del modelo.
+ La f√°cil interpretabilidad del modelo.
+ La gran eficacia en problemas de √≠ndole lineal.
+ El tiempo de ejecuci√≥n del entrenamiento muy razonable.
+ El tiempo de ejecuci√≥n de la predicci√≥n casi instant√°neo.

### Desventajas
+ La independencia entre los atributos.
+ La distribuci√≥n normal de los datos.
+ La relaci√≥n lineal entre los atributos y la clase.


### Ejemplo

In [59]:
import pandas as pd
from sklearn import linear_model
from sklearn.datasets import load_diabetes

# Dataset de ejemplo
dataset = load_diabetes()

# Comprender los datos
print(f'N√∫mero de registros: {dataset.data.shape[0]}')
print(f'N√∫mero de atributos (x1,..., xp): {dataset.data.shape[1]}')

# Carga el algoritmo que se va a entrenar
linear_regresion = linear_model.LinearRegression()

# Entrenar del modelo
trained_model = linear_regresion.fit(dataset.data, dataset.target)

# Obtenci√≥n del t√©rmino independiente del modelo.
print(f'\nValor del t√©rmino independiente (w0): {trained_model.intercept_}')

# Obtenci√≥n de los coeficientes del modelo.
print(f'Valor de los coeficientes (w1, ..., w10): {trained_model.coef_}')

# Una vez entrenado, vamos a proceder a probar que tal predice nuestro modelo cogiendo un registro del dataset
row = 305
example = dataset.data[row]
target = dataset.target[row]
pred = trained_model.predict([example])

print(f'\nDatos que vamos a ofrecer al modelo -> {example}\n')
print(f'Valor de la salida real: {target}')
print("Predicci√≥n de la salida: %.1f " % pred[0])

N√∫mero de registros: 442
N√∫mero de atributos (x1,..., xp): 10

Valor del t√©rmino independiente (w0): 152.1334841628965
Valor de los coeficientes (w1, ..., w10): [ -10.01219782 -239.81908937  519.83978679  324.39042769 -792.18416163
  476.74583782  101.04457032  177.06417623  751.27932109   67.62538639]

Datos que vamos a ofrecer al modelo -> [-0.00914709  0.05068012 -0.03961813 -0.04009932 -0.00844872  0.01622244
 -0.06549067  0.07120998  0.01776348 -0.06735141]

Valor de la salida real: 124.0
Predicci√≥n de la salida: 135.7 


## Regresi√≥n log√≠stica<a name="LOGR"></a>
### Definici√≥n
La regresi√≥n log√≠stica (LOGR) es un algoritmo de aprendizaje autom√°tico que se utiliza sobre todo para los problemas de clasificaci√≥n, aunque tambi√©n se puede emplear en problemas de regresi√≥n. Es un algoritmo de an√°lisis predictivo y se basa en el concepto de probabilidad. 

LOGR utiliza una funci√≥n definida como funci√≥n sigmoide y devuelve un valor entre 0 y 1 dependiendo del valor de entrada que reciba. Pero claro, esto s√≥lo es √∫til si tenemos que predecir dos valores, ¬øpero que pasar√≠a si tenemos que predecir _n_ valores? Para resolver este problema se lleva a cabo la descomposici√≥n del problema original en _m_ subproblemas, del tipo binario (la funci√≥n sigmoide). A este proceso se le define como _una contra todos o [one vs rest (OvR)](https://machinelearningmastery.com/one-vs-rest-and-one-vs-one-for-multi-class-classification/)_.

La divisi√≥n en subproblemas binarios de tipo _OvR_ permite realizar una regresi√≥n usando la regresi√≥n log√≠stica m√°s simple. Cada modelo, una vez entrenado, aprender√≠a una frontera lineal de decisi√≥n que enfrenta cada target con los restantes, tal como se muestra en la figura para un problema con 3 targets. 

![One vs rest (OvR)](../assets/img/OvR.png "One vs rest (OvR)")


### Ventajas
+ La simplicidad del modelo.
+ La f√°cil interpretabilidad de las predicciones.
+ El tiempo de ejecuci√≥n del entrenamiento muy razonable.
+ El tiempo de ejecuci√≥n de la predicci√≥n casi instant√°neo.

### Desventajas
+ La independencia entre los atributos.
+ La excesiva simplicidad del modelo.

### Ejemplo

## √Årboles de regresi√≥n<a name="RT"></a>
### Definici√≥n
Un √°rbol de decisi√≥n es un tipo de modelo que puede usarse tanto para clasificaci√≥n  como regresi√≥n. En este √∫ltimo caso, se denomina √°rbol de regresi√≥n, aunque su construcci√≥n es an√°loga a la del √°rbol de decisi√≥n. Los √°rboles est√°n compuestos por los siguientes elementos:
+ Nodo ra√≠z. Es el nodo principal o primer nodo del √°rbol.
+ Nodo. Son aquellos elementos del √°rbol donde se van tomando las decisiones para llegar a las hojas.
+ Nodo hoja. Nodos que no tienen ning√∫n hijo y contienen la varible de salida (el dato que buscamos).

Para la construci√≥n de los √°rboles de regresi√≥n se emplea el dataset de entrenamiento y el modelo va construyendo los nodos haciendo segmentaciones entre los atributos del conjunto de datos buscando reducir el error cuadr√°tico medio (MSE) hacia los niveles inferiores y asi obtener unos nodos hoja que contengan la informaci√≥n que buscaremos en las futuras predicciones.

![√Årboles de decisi√≥n](https://miro.medium.com/max/1630/1*XZ220vTa7rN8ccJZZNe09w.png "√Årboles de decisi√≥n")
  
### Ventajas
+ √ötil en √°reas en las que la relaci√≥n entre las variables no es lineal.
+ Tiempo de ejecuci√≥n del entrenamiento razonable.

### Desventajas
+ Es propenso al sobreentrenamiento.
+ La sensibilidad al desbalanceo de la variable de saldia.

### Ejemplo

## Vecinos m√°s cercanos<a name="KNN"></a>
### Definici√≥n
El algoritmo de vecinos m√°s cercanos ‚Äì_k nearest neighbors(KNN), en ingl√©s_ ‚Äìse basa en la idea de que ejemplos similares en sus atributos presentan tambi√©n un comportamiento similar en el valor de sus clases. La idea consiste en producir como predicci√≥n el promedio de las clases de los ejemplos de entrenamiento m√°s parecidos (vecinos) al ejemplo de prueba que hay que predecir. Definiremos qu√© debe considerarse m√°s parecido, aspecto que afecta a la eficacia del algoritmo.

Para llevar a cabo las predicciones, el algoritmo KNN cl√°sico se basa en los dos siguientes elementos configurables: el n√∫mero $ùëò‚ààùëÅ$ de vecinos m√°s cercanos y la funci√≥n de distancia d. Con respecto a esta √∫ltima, existen numerosas funciones de distancia propuestas en la literatura. En esta secci√≥n usaremos la distancia de Minkowski, la cual se define as√≠:$$Minkowski(ùëí_ùëñ,ùëí_ùëó)=(\sum_{d=1}^{p}|x_{i,d} - x_{j,d}|^q)^\frac{1}{q}$$

La funci√≥n de distancia es un hiperpar√°metro de KNN que afecta en gran medida a la bondad de las predicciones. Es cierto, que cada problema requiere una funci√≥n de distancia m√°s adecuada a la naturaleza y distribuci√≥n de los datos, pero en la mayor√≠a de los casos, la distancia m√°s utilizada es la eucl√≠dea, cuando el valor de p es igual a 2
![Distancia de Minkowski](https://leovan.me/images/cn/2019-01-01-similarity-and-distance-measurement/2D-unit-balls.png)

### Ventajas
+ La simplicidad del modelo.
+ La f√°cil interpretabilidad de las predicciones.
+ El tiempo de ejecuci√≥n del entrenamiento pr√°cticamente nulo.

### Desventajas
+ El tiempo de ejecuci√≥n alto en la fase de predicci√≥n.
+ La falta de generalizaci√≥n.
+ La necesidad de atributos relevantes y en igual escala.

### Ejemplo