# 1. REGRESIÓN

* El problema de regresión consiste en estimar f(x) a partir de un conjunto de pares de datos (x,y).
* Partimos de la existencia de una relación lineal entre 2 variables
* Nuestro objetivo consiste en estimar los parámetros de la ecuación a partir de datos de muestreo.

# Modelo de Regresión Lineal simple    
## <span style="color:blue"> Yi =Bo + BiX +Ei </span>     
<span style="color:blue"> **Y:** </span> Variable dependiente (salida).     
<span style="color:blue"> **Bo:** </span> Ordenada al origen (valor de Y cuando X vale cero).     
<span style="color:red"> **+:** </span> Es lo que hace que el modelo sea lineal.    
<span style="color:blue"> **Bi:** </span> Pendiente (el cambio en Y por cada incremento de una unidad de X).    
<span style="color:blue"> **X:** </span> Variable independiente.    
<span style="color:blue"> **Ei:** </span> Error.     

## Supuestos
* Ei ~ N I (0, Q2) 
* No correlación entre las Xi
* Estas hipótesis implican que los errores siguen una distribución Normal, de media cero y carianza homogenea, por lo que dado a su caracter aleatorio, los errores son empredecibles.

**1)** Prueba de **Normalidad**
* Test de Shapiro Wilks -> Uso los residuos (infostat)    
Ho) no es normal p>0.05  (No rechazp Ho)      
Hi) es normal    p<0.05  (rechazo Ho)    
* Gráfico QQPlot de los residuos (infostat)   

**2)** Prueba de **Homogeneidad de varianza**    
* Debido a que la dispersión de los datos puede estar asociada a errores, resulta necesario que estos errores cometidos en distintos momentos sean similares para poder estimar los parámetros por el método de los mínimos cuadrados.
* Gráfico de dispersión (residuos Vs. predichos)->(infostat)   
Los puntos deben ser parejos en cantidad y en distancia a cero a cada lado de la recta.   
* Cp-Mallows: Indica cuan bueno es que esa variable esté en la regresión.   
Cp-Mallows >= cantidad de parámetros

**3)** **Esperanza del Error (media = 0)**    
* Es necesario que el error no ejerza ninguna influencia determinante en la explicación del comportamiento de la variable dependiente (Yi). Es decir que el error no presenta ningún sesgo sistemático en ninguna dirección determinada.
* Se supone que los errores hacia ambos lados de la recta serán compensados y no afectarán al modelo.

**4)** **Independencia**    
* La covarianza entre ei y ej es nula. Esto quiere decir que el error cometido en un momento determinado(i) no debe estar correlacionado con el error cometido en otro momento (j). Esta comprobación asegura la independencia de los datos y sus errores.

## Pruebas de Hipótesis
* Sobre la pendiente, Buscamos rechazar Ho     
Ho) **Bi = 0**    ->     p>0.01 (no rehazo Ho)     
Hi) **Bi != 0**   ->    p<0.01 (rehazo Ho)   

**alfa < p-valor** = rechazo Ho.    
**alfa > p-valor** = no rechazo Ho, indica que Bi=0, por lo que el coeficiente no es significativo. Nos dice que X no ejerce influencia sobre Y.

## Método de mínimos cuadrados   
* Suponiendo que se han verificado los supuestos anteriores, la estimación por mínimos cuadrados de los parámetros Bo y Bi dará como resultado gráfico una recta que se ajuste lo máximo posible a la nube de puntos definida por los valores muestrales (x1, yi).    
## <span style="color:blue"> Ei = Yobs - ^Y</span>        
<span style="color:blue"> **Ei:** </span> Error.      
<span style="color:blue"> **Yobs:** </span> Valor observado.    
<span style="color:blue"> **^Y:** </span> Valor estimado por la recta del modelo lineal.    

* Por medio de este método se busca la relación. Se obtiene la recta mejor ajustada para los datos de interés.
* El error es entendido como la distancia que existe entre el valor observado y el estimado por la recta. Buscamos minimizar lo máximo posible la sumatoria de estas distancias al cuadrado.
* El objetivo es minimizar la sumatoria de los errores: distancias a la recta al cuadrado (se eleva al cuadrado para cancelar los valores negarivos por debajo de la recta y que sean todos comparables)

#### Estimación de los parámetros Bo y Bi a partir del método de los mínimos cuadrados.

![BoyBi.jpeg](attachment:353de032-5b8f-4886-8580-9bc3b65c3a18.jpeg)

## Coeficiente de determinación o bondad de ajuste   
* Una vez cumplidos los supuestos y estimados los parámetros poblacionales, hemos estimado la ecuación de regresión lineal.
* Ahora nuestro interés es determinar la exactitud del ajuste del modelo.
* Para ellos evaluamos que parte de las mediciones son explicadas por el modelo de regresión y que parte es debida a los esrrores muestrales.
* Para realizar este análisi partimos de la siguiente ecuación:       
## <span style="color:blue">SCT = SCE + SCM</span>   
* reemplazamos por las ecuaciones anteriores (escritas a mano en la foto) y obtenemos una medida estadística sobre la bondad del ajuste del modelo. Esta medida se conoce como **Coeficiente de Determinaciçon (R2)**
* Este coeficiente permite seleccionar el mejor modelo posible, ya que la capacidad explicativa de un modelo es mayor cuanto mayor es el valor del coeficiente R2, es decir cuanto más cercano sea a 1.
#### <span style="color:red">0<=R2<=1 </span>   
## <span style="color:blue">R2 = 1- SCE / SCT</span>        
<span style="color:blue"> **R2:**</span> Indica el grado de variabilidad de Y que está siendo explicado por X.       
<span style="color:blue"> **SCE:** </span> Suma de cuadrados del error.    
<span style="color:blue"> **SCT:** </span> Suma de cuadrados total.     

* El valor de R2 se vé modificado por el número de variables independientes que se incluyan en el modelo. Por lo tanto si los modelos que se comparan tienen distinto número de variables, es necesario realizar un ajuste al R2.
## <span style="color:blue">R2 Ajustado= 1- (SCE/(n-k))/(SCT/(n-1))</span>   
<span style="color:blue">**R2 Ajustado:**</span> Penaliza por agregar variables (Xi) que no afectan en el modelo.     
<span style="color:blue">**(n-k)**</span> Grados de libertad del error.     
<span style="color:blue">**(n-1)**</span> Grados de libertad totales.    
<span style="color:blue">**k**</span> Niveles del factor (cantidad de variables).    

## Pasos para ejecutar un modelo de regresión lineal en python

In [None]:
# Importamos las librerías necesarias

import numpy as np
import matplotlib.pyplot as plt
import sklearn

from sklearn.linear_model import LinearRegression  # para instanciar un modelo de regresión lineal
from sklearn.model_selection import train_test_split # para dividir los datos
from sklearn.metrics import mean_squared_error # para calcular el error cuadrático

In [None]:
# 1) Abrimos la base de datos a utilizar
dataset = pd.read_csv("database.csv", comment="#") # ejemplo

# 2) Seteamos X e y
X= dataset.iloc[:, 1:]
y= dataset.TARGET 

# 3) Dividimos los datos aleatoriamente entre entrenamiento (train) y evaluación (test) y 
# Fijamos la semilla aleatoria para que la división sea siempre repetible (random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
X_train, y_train

# 4) Seleccionamos una variable (atributo) sobre el cual plantearemos la regresión
feature = 'variable' 
selector = (database['feature_names'] == feature)

X_train_f1 = X_train[:, selector]
X_test_f1 = X_test[:, selector]

# 5) Instanciamiento de un modelo de regresión lineal
regression_model = LinearRegression() 

# 6) Entrenamiento del modelo con el set train
regression_model.fit(X_train_f1, Y_train);

# 7) Obtención de los valores predichos para los datos de entrenamiento
Y_train_pred = regression_model.predict(X_train_f1)

# 8) Obtención de los valores predichos para los datos de evaluación
Y_test_pred = regression_model.predict(X_test_f1)

# 9) Calcularemos el error cuadrático medio sobre ambos conjuntos de datos
train_error = mean_squared_error(y_train, y_train_pred) #(valor de referencia, valor predicho)
test_error = mean_squared_error(y_test, y_test_pred) #(valor de referencia, valor predicho)
print(f'Train error: {train_error:0.2}')
print(f'Test error: {test_error:0.2}')

# 10) Graficar el modelo

#opcion de grafico 1
plt.scatter(X_train, y_train, color="blue", label="train")
plt.scatter(X_test, y_test, color="white", edgecolor="k", label="test")
plt.plot(x, f(x, w), color="red", label="model")
plt.plot(x, f_x, color="green", label="$\sin(2\pi x)$")
plt.legend()
plt.show()

#opcion de grafico 2
plt.figure(figsize=(10,6))
plt.plot(X[:, selector], regression_model.predict(X[:, selector]), 
         color="green", label="regression_model")
plt.scatter(X_train_f1, Y_train, facecolor="dodgerblue", edgecolor="k", label="train")
plt.scatter(X_test_f1, Y_test, facecolor="red", edgecolor="k", label="test")
plt.title(feature)
plt.legend()
plt.show()

# Modelo de regresión Polinomial
* Busca ajustar los datos de entrenamiento mediante una función polinomial:
* Mientras más alto el grado del polinomio, más se ajusta a los datos (pero se vuelve más complejo y tiende a sobreajustar).

**Función de predicción:**    
## <span style="color:blue"> Yi(x,W) =Wo + W1X + W2X2 + W3X3 +Ei</span>     
<span style="color:blue"> **W:** </span> Vector de Bias o costo.  
<span style="color:blue"> **X, X2, X3:** </span> Variable elevada al cuadrado, cubo, etc...(grados del polinomio)
  
**Función de costo:** Error cuadrático

## Pasos para ejecutar un modelo de regresión Polinomial en python

In [None]:
# Importamos las librerías necesarias
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

In [None]:
# 1) Abrimos la base de datos a utilizar
dataset = pd.read_csv("database.csv", comment="#") # ejemplo

# 2) Seteamos X e y
X= dataset.iloc[:, 1:]
y= dataset.TARGET 

# 3) Dividimos los datos aleatoriamente entre entrenamiento (train) y evaluación (test) y 
# Fijamos la semilla aleatoria para que la división sea siempre repetible (random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
X_train, y_train # son vectores

# 4) Seleccionamos una variable (atributo) sobre el cual plantearemos la regresión
feature = 'variable' 
selector = (database['feature_names'] == feature)

X_train_f1 = X_train[:, selector]
X_test_f1 = X_test[:, selector]

# 5) Paso los vectores a matrices con reshape para que sklearn los pueda leer (NUEVO PASO)
X_train_f2 = X_train_f1.reshape(-1, 1)
X_test_f2 = X_test_f1.reshape(-1, 1)

# 6) Instanciamiento de un modelo de regresión polinomial
train_errors = []
test_errors = []
degrees = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] # seteo los grados del polinomio que quiero probar

for degree in degrees:
    # Instanciamiento del modelo
    polynomial_model = make_pipeline(PolynomialFeatures(degree), LinearRegression())
    
    # Entrenamiento (train):
    polynomial_model.fit(X_train_f2, Y_train)
    
    #  Predicción (predict): Obtención de los valores predichos
    Y_train_pred = polynomial_model.predict(X_train_f2)
    Y_test_pred = polynomial_model.predict(X_test_f2)
    
    # Evaluación (evaluate): Calcularemos el error cuadrático medio sobre ambos conjuntos de datos
    train_error = mean_squared_error(Y_train, Y_train_pred)
    test_error = mean_squared_error(Y_test, Y_test_pred)
    train_errors.append(train_error)
    test_errors.append(test_error)
    
    print(f'\n\nGrado {degree}:')
    print(f'Train error para polinomio de Grado {degree}: {train_error_full:0.3f}')
    print(f'Test error para polinomio de Grado {degree}: {test_error_full:0.3f}')

# 7) Graficar las curvas de error
# Interpretar la curva, identificando el punto en que comienza a haber sobreajuste
plt.figure(figsize=(6,4))
plt.plot(degrees, train_errors, color="blue", label="train")
plt.plot(degrees, test_errors, color="red", label="test")
plt.legend()
plt.title("Curvas de error de la variable elegida, para un modelo de Regresión Polinomial")
plt.xlabel("grado del polinomio")
plt.ylabel("error")
plt.show()

In [None]:
# EJEMPLO DE POSIBLE RESULTADO:
# A medida que aumenta el grado del polinomio, disminuye el error en el grupo de entrenamiento, 
# pero aumenta muchisimo el error en el grupo de test. Esto nos muestra el efecto de overfitting.
# El modelo más óptimo es el de grado 2.

# 8) Selección del modelo que mejor funcione
degree = 2 # tomamos como ejemplo en este caso el modelo de grado 2

# Entrenamiento (train):
polynomial_model = make_pipeline(PolynomialFeatures(degree), LinearRegression())
polynomial_model.fit(X_train_f2, Y_train)
    
#  Predicción (predict):
Y_train_pred = polynomial_model.predict(X_train_f2)
Y_test_pred = polynomial_model.predict(X_test_f2)
    
# Evaluación (evaluate):
train_error = mean_squared_error(Y_train, Y_train_pred)
test_error = mean_squared_error(Y_test, Y_test_pred)
train_errors.append(train_error)
test_errors.append(test_error)
print(f'Train error: {train_error:0.2}')
print(f'Test error: {test_error:0.2}')

# 9) Graficamos el modelo elegido
x_start = min(np.min(X_train_f2), np.min(X_test_f2))
x_end = max(np.max(X_train_f2), np.max(X_test_f2))
x = np.linspace(x_start, x_end, 200).reshape(-1,)

plt.scatter(X_train_f2, Y_train, color="blue", label="train")
plt.scatter(X_test_f2, Y_test, color="red", edgecolor="k", label="test")
plt.plot(x, polynomial_model.predict(x.reshape(-1, 1)), color="green", label="model")
plt.legend()
plt.show()

# Modelos multivariados (Regresion lineal o polinomial)
* En este caso hay más de una variable en estudio.
* Las variables deben ser cuantitativas. 
* Antes de incluirlas en el modelo se debe hacer una prueba de correlación entre ellas y descartar aquellas cuya correlación sea mayor a |0.7|. 
* Los modelos se corren de igual forma, pero teniendo en cuentad e incluir en el **selector** las viables a estudiar.

In [None]:
# EJEMPLO
# Selección de atributos = A, B y C
selector = (dataset['feature_names'] == 'A') | (dataset['feature_names'] == 'B') | (dataset['feature_names'] == 'C')

# MF= multiple features
X_train_MF = X_train[:, selector]
X_test_MF = X_test[:, selector]
X_train_MF.shape, X_test_MF.shape

## Modelo de Regresión Logística (Binomial, de datos agrupados o de Bernoulli)
* Pertenece a la familia de modelos estadísticos avanzados (lineales generalizados), para conjunto de datos que no poseen distribución normal.
* Es más robusto frente a outliers.
* No usa minimos cuadrados como función de costo.
* Es un modelo de clasificación, no de regresión. (Ver mas info en notebook de Clasificación)

# REGULARIZACIONES

* En muchas técnicas de aprendizaje automático, el aprendizaje consiste en encontrar los coeficientes que minimizan una función de costo. 
* La regularización consiste en añadir una penalización a la función de costo. 
* Esta penalización produce modelos más simples que generalizan mejor. 
* Las regularizaciones más usadas en machine learning son: 
* * Lasso (también conocida como L1), 
* * Ridge (conocida también como L2) y 
* * ElasticNet que combina tanto Lasso como Ridge.

**Función de Costo = MSE**

**Función de Costo + Regularización = MSE + α * C**

**MSE=** Mean Scuare Error (método de los mínimos cuadrados)
**C=** es la medida de complejidad del modelo
**α=** El hiperparámetro α indica cómo de importante es para nosotros que el modelo sea simple en relación a cómo de importante es su rendimiento.

### Regularización Lasso (L1)
* En la regularización Lasso, también llamada L1, la complejidad C se mide como la media del valor absoluto de los coeficientes del modelo. Esto se puede aplicar a regresiones lineales, polinómicas, regresión logística, redes neuronales, máquinas de vectores de soporte, etc. Matemáticamente quedaría:

![lasso.jpg](attachment:ab0be2e5-8dc2-4277-9097-c7af7387b484.jpg)

* Lasso nos va a servir de ayuda cuando sospechemos que varios de los atributos de entrada (features) sean irrelevantes. 
* Al usar la regularización Lasso, estamos fomentando que la solución sea poco densa. Es decir, favorecemos que algunos de los coeficientes acaben valiendo 0. Esto puede ser útil para descubrir cuáles de los atributos de entrada son relevantes y, en general, para obtener un modelo que generalice mejor. 
* Lasso nos puede ayudar, en este sentido, a hacer la selección de atributos de entrada. 
* Lasso funciona mejor cuando los atributos no están muy correlados entre ellos.

### Regularización Ridge (L2)
* En la regularización Ridge, también llamada L2, la complejidad C se mide como la media del cuadrado de los coeficientes del modelo. Al igual que ocurría en Lasso, la regularización Ridge se puede aplicar a varias técnicas de aprendizaje automático. Matemáticamente quedaría:

![ridge.jpg](attachment:bed526ab-f7c7-4933-bd80-9f40eddbfcc7.jpg)

* Ridge nos va a servir de ayuda cuando sospechemos que varios de los atributos de entrada (features) estén correlacionados entre ellos. 
* Ridge hace que los coeficientes acaben siendo más pequeños. Esta disminución de los coeficientes minimiza el efecto de la correlación entre los atributos de entrada y hace que el modelo generalice mejor. 
* Ridge funciona mejor cuando la mayoría de los atributos son relevantes.

In [None]:
# Ejemplo de código para aplicar la regularización de Ridge

train_errors= []
test_errors= []

train_errors_Ridge= []
test_errors_Ridge= []

# hiperparámetros
degree = 2
alphas = [0.1,0.2,0.5,1.0,3.0,5.0,10.0]


for alpha in alphas:
    # Entrenamiento (train):
        # Modelo de Regresión Lineal
    regression_model = linear_model.LinearRegression()
    regression_model.fit(X_train, Y_train)
        # Modelo con Regulacion Ridge
    model_Ridge= linear_model.RidgeCV(alphas)
    model_Ridge.fit(X_train, Y_train)
    
    #  Predicción (predict):
        # Modelo de Regresión Lineal
    Y_train_pred = regression_model.predict(X_train)
    Y_test_pred = regression_model.predict(X_test)
        # Modelo con Regulacion Ridge
    Y_train_Ridge_pred = model_Ridge.predict(X_train)
    Y_test_Ridge_pred = model_Ridge.predict(X_test)
    
    # Evaluación (evaluate):
        # Modelo de Regresión Lineal
    train_error = mean_squared_error(Y_train, Y_train_pred)
    test_error = mean_squared_error(Y_test, Y_test_pred)
    train_errors.append(train_errors)
    test_errors.append(test_errors)
        # Modelo con Regulacion Ridge
    train_error_Ridge = mean_squared_error(Y_train, Y_train_Ridge_pred)
    test_error_Ridge = mean_squared_error(Y_test, Y_test_Ridge_pred)
    train_errors_Ridge.append(train_errors_Ridge)
    test_errors_Ridge.append(test_errors_Ridge)

In [None]:
train_error = mean_squared_error(Y_train, Y_train_pred)
test_error= mean_squared_error(Y_test, Y_test_pred)
print('Modelo de Regresión Lineal')
print(f'Error de Entrenamiento: {train_error:0.3f}')
print(f'Error de Test: {test_error:0.3f}')

In [None]:
train_error_Ridge = mean_squared_error(Y_train, Y_train_Ridge_pred)
test_error_Ridge= mean_squared_error(Y_test, Y_test_Ridge_pred)
print('Modelo con Regulacion Ridge')
print(f'Error de Entrenamiento: {train_error_Ridge:0.3f}')
print(f'Error de Test: {test_error_Ridge:0.3f}')

### Regularización ElasticNet (L1 y L2)
* ElasticNet combina las regularizaciones L1 y L2. Con el parámetro r podemos indicar que importancia relativa tienen Lasso y Ridge respectivamente. Matemáticamente:

![elasticnet.jpg](attachment:231a44ff-5384-434c-82ab-0414963bd70e.jpg)

* Usaremos ElasticNet cuando tengamos un gran número de atributos. Algunos de ellos serán irrelevantes y otros estarán correlados entre ellos.