# Taller 1: Regresión lineal, Ridge y Lasso
**Nombres:** 

En este taller analizaremos métodos de regresión lineal para el conjunto de datos [Hitters](https://www.kaggle.com/datasets/floser/hitters). Cada registro corresponde a un jugador de baseball. Las variables son registros como cantidad de *home runs* o número de años en las ligas mayores. La variable objetivo es el salario de dicho jugador. 
Usaremos regresión de Ridge y Lasso y las compararemos. 

- El taller consiste en realizar todas las tareas señaladas con **TO_DO**. 

- Se puede realizar de forma individual o en parejas.

- Subir el cuaderno en dos formatos : 1. En formato .ipynb  2. En formato .html.
- Subirlo al aula a más tardar el miércoles 15 de ferbero.



In [None]:
#importar paquetes
%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import scale 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge, RidgeCV, Lasso, LassoCV
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression 
import random

In [None]:
#Evitar la impresión de warnings
import warnings
warnings.filterwarnings("ignore")

En primer lugar, leemos el conjunto de datos e imprimimos la información sobre sus columnas.

In [None]:
df = pd.read_csv('Hitters.csv').dropna()
df.info()

In [None]:
#TO_DO 1: Codificar las 3 variables categóricas como variables Dummy (usar por ejemplo el
#método get_dummies de Pandas). 


In [None]:
#Verificar la codificación anterior
df.head()

In [None]:
# Definimos la columna y, correspondiente a la variable objetivo.
y = df.Salary

#TO_DO 2:
#Eliminar la columna con la variable dependiente (Salary) y de ser necesario, las columnas originales para las que se crearon
#variables dummy. Dar a la nueva tabla de atributos el nombre X (mayúscula).


#Verificar lo anterior
X.info()

Vamos a generar valores de Lambda equidistantes para experimentar sobre un intervalo. Estos valores se encuentran entre 10^(-2) y 10^10. Experimentaremos con 100 valores distintos de lambda. Para esto usamos *linspace* de Numpy:

In [None]:
# Creamos una lista con posibles valores para el parámetro Lambda para los algoritmos Ridge y Lasso
lambdas = 10**np.linspace(10,-2,100)
lambdas

Vamos a usar el algoritmo de Ridge de SKlearn para hacer regresión con los diferentes valores del parámetro Lambda, de manera que podamos realizar algunas observaciones y comparaciones.

In [None]:
# Aplicamos el algoritmo Ridge de SKlearn para los diferentes valores de Lambda definidos
# en la celda anterior. Guardar los vectores obtenidos de parámetros en la lista coefs.
ridge = Ridge(normalize = True)
coefs = []

for a in lambdas:
    ridge.set_params(alpha = a)
    ridge.fit(X, y)
    coefs.append(ridge.coef_)
#Imprimir las dimensiones de la matriz coef.   
np.shape(coefs)

Usamos los arreglos *lambdas* y *coefs* para comparar los resultados de la regresión Ridge para diferentes valores del parámetro Lambda.

In [None]:
ax = plt.gca()
ax.plot(lambdas, coefs)
ax.set_xscale('log')
plt.axis('tight')
plt.xlabel('alpha')
plt.ylabel('weights')

TO_DO 3: Hallar el coeficiente de las variables Hits Runs y Walks, arrojado por el algoritmo Ridge, para 3 lambdas distintos.
Ejemplo: "Para lambda=3.06795364e+00, el coeficiente de Hits es (valor), el coeficiente de Runs es (valor) y el coeficiente de Walks es (valor)."

**Respuesta:**

A continuación separamos el conjunto de datos en conjunto de Entrenamiento y Testeo.

In [None]:
#TO_DO 4: 
#Escoger random_sate = 0. Y partir el conjunto de datos en Entrenamiento y Testeo, con porcentaje de Testeo de 20%


Apliquemos el algoritmo de regresión lineal de SKLearn a éste conjunto de datos.

In [None]:
#TO_DO 5: Aplicar el algoritmo de regresión lineal de SKLearn a éste conjunto de datos e
# imprimir su coeficiente de determinación R^2 (score)


TO_DO 6: Cuáles son los valores de los parámetros en el modelo lineal obtenido? (Pista: En el taller anterior eran la pendiente y el punto de corte.) Cuál valor corresponde con cuál variable en el Dataset?

**Respuesta:**

## Regresión Ridge
Ahora apliquemos Regresión de Ridge para algunos valores de lambda. En primer lugar usemos Lambda=4. 

In [None]:
#Modelo de regresión de Ridge para Lambda=4
# Note el uso del parámetro normalize=True
ridge = Ridge(alpha = 4, normalize = True)
ridge.fit(X_train, y_train)             # Entrenar una regresión de Ridge para el conjunto de entrenamiento.
pred = ridge.predict(X_test)           # Uso del modelo para predecir el conjunto de Testeo
print(pd.Series(ridge.coef_, index = X.columns)) # Imprimir los coeficientes del modelo
print(mean_squared_error(y_test, pred))          # Imprimit el error de mínimos cuadrados MSE
print(ridge.score(X_test, y_test))         #Imprimir el coeficiente de determinación R^2

In [None]:
#TO_DO 7 Hacer regresión Ridge para lambda=10^10. Imprimir los coeficientes obtenidos y el error MSE
# Usar el parámetro normalize=True


TO_DO 8: Cuál debería ser el coeficiente de determinación R^2 al asignar Lambda=0? Justifique y compruebe en la siguiente celda.

**Respuesta y justificación:**

In [None]:
# TO_DO 9 Verifique su respuesta anterior.
# Usar el parámetro normalize=True


In [None]:
# con RidgeCV de SKLearn hacer cross validation con la lista de Lambdas y normalize True
# Imprimir el alpha optimo. Note que usamos el parametro normalize=True
ridgecv = RidgeCV(alphas = lambdas, normalize = True)
ridgecv.fit(X_train, y_train)
ridgecv.alpha_


In [None]:
#TO_DO 10 Con el alpha optimo hallado arriba, calcular los coeficientes(parámetros),
# el error cuadrático MSE y el coeficiente de determinación R^2 en el conjunto de Testeo.
# Usar el parámetro normalize=True


## Regresión Lasso
Ahora aplicaremos regresión Lasso a éste conjunto de datos. Para esto, en primero lugar encontremos el valor óptimo de Lambda.

In [None]:
# TO_DO 11 Determinar el valor óptimo de Lambda mediante corss-validation
## Usar el parámetro normalize=True


In [None]:
# TO_DO 12 Aplicar regresión de Lasso al conjunto de datos, usando el valor de Lambda encontrado arriba
# Usar el parámetro normalize=True


In [None]:
#Imprimir los coeficientes de la misma forma que en Ridge.
pd.Series(lasso.coef_, index=X.columns)

In [None]:
#Imprimir el score (R^2)
print(lassocv.score(X_test, y_test))

TO_DO 13: Escriba sus conclusiones acerca de los diferentes modelos obtenidos y sus métricas.