**Lista de Ejercicios 1** 


Grupo:
1. Mayra Gavilán
2. Milagros Meza
3. Paola Cordova
4. Serghi Arista

**Pregunta 1**

En este ejercicio, estimará los coeficientes de un modelo de regresión lineal utilizando el conjunto de datos Boston. Tenga en cuenta que la variable objetivo es ‘crim‘, que representa la tasa de criminalidad per cápita por ciudad.

In [3]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import scale

In [4]:
Boston = pd.read_csv("https://raw.githubusercontent.com/qlabpucp/datasets/main/datasets/boston.csv", index_col=0)

a) Ajuste un modelo de Minimos Cuadrados Ordinarios (OLS) y estime los coeficientes mediante el atributo coef.

In [5]:
x = Boston.drop('crim', axis = 1)
y = Boston['crim']

x_scaled = scale(x)
y_scaled = scale(y)

model = LinearRegression()

model.fit(x_scaled, y_scaled)

coeficientes = pd.DataFrame(data = model.coef_, columns=["Atributo coef"], index = x.columns)
coeficientes

Unnamed: 0,Atributo coef
zn,0.123939
indus,-0.046538
chas,-0.024372
nox,-0.134146
rm,0.051373
age,-0.002776
dis,-0.247804
rad,0.619993
tax,-0.073979
ptratio,-0.076533


b) Estime manualmente los coeficientes OLS y comparelos con los resultados obtenidos en el paso anterior. Considere que los coeficientes se pueden estimar minimizando la Suma Residual de Cuadrados (RSS).

In [6]:
# 𝛽̂ =(𝑋′𝑋)−1𝑋′𝑦
Xtx = np.dot(x_scaled.T, x_scaled)
Xty = np.dot(x_scaled.T, y_scaled)

beta_manual = np.linalg.solve(Xtx, Xty)

coeficientes['Manual coef'] = beta_manual
coeficientes

Unnamed: 0,Atributo coef,Manual coef
zn,0.123939,0.123939
indus,-0.046538,-0.046538
chas,-0.024372,-0.024372
nox,-0.134146,-0.134146
rm,0.051373,0.051373
age,-0.002776,-0.002776
dis,-0.247804,-0.247804
rad,0.619993,0.619993
tax,-0.073979,-0.073979
ptratio,-0.076533,-0.076533


Se observa que los coeficientes obtenidos manualmente son iguales a los obtenidos en el literal anterior.

c) Estime los coeficientes OLS mediante el algoritmo de optimización de Descenso de Gradiente. Experimente con distintos valores para la Tasa de Aprendizaje (Learning Rate) y el Umbral de Convergencia (Convergence Threshold). Compare los coeficientes obtenidos con aquellos obtenidos en los pasos a) y b). ¿Que valores de Tasa de Aprendizaje y Umbral de Convergencia proporcionan resultados mas cercanos a los obtenidos anteriormente?

In [7]:
# Tasas de aprendizaje
alphas = [0.00001, 0.00005, 0.00008]

# Umbrales de convergencia
atols = [1e-8, 1e-12, 1e-15]

resultados_DG = []

for alpha in alphas:
    for atol in atols:
        
        w0 = np.random.uniform(size = x_scaled.shape[1])
        w1 = w0.copy()
        
        while True:
            predicciones = np.dot(x_scaled, w0)
            errores = y_scaled - predicciones
            gradiente = -2 * np.dot(x_scaled.T, errores)
            
            w1 = w0 - alpha * gradiente
            
            if np.allclose(w1, w0, atol=atol):
                break
            
            w0 = w1.copy()
        
        resultados_DG.append({'alpha': alpha, 'atol': atol, 
                              'zn': w1[0], 'indus': w1[1], 
                              'chas': w1[2], 'nox': w1[3], 
                              'rm': w1[4], 'age': w1[5],
                              'dis': w1[6], 'rad': w1[7], 
                              'tax': w1[8], 'ptratio': w1[9], 
                              'lstat': w1[10], 'medv': w1[11]
                             })

resultados_DG = pd.DataFrame(resultados_DG)
resultados_DG

Unnamed: 0,alpha,atol,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,lstat,medv
0,1e-05,1e-08,0.123815,-0.046882,-0.024341,-0.134039,0.051395,-0.002836,-0.247771,0.619153,-0.07299,-0.076466,0.115365,-0.235136
1,1e-05,1e-12,0.123847,-0.046795,-0.024349,-0.134068,0.051389,-0.002821,-0.247781,0.619364,-0.073238,-0.076484,0.115331,-0.235177
2,1e-05,1e-15,0.123849,-0.046785,-0.02435,-0.134066,0.051388,-0.00282,-0.247777,0.61939,-0.07327,-0.076484,0.11533,-0.235177
3,5e-05,1e-08,0.123915,-0.046607,-0.024366,-0.134125,0.051377,-0.002788,-0.247798,0.619824,-0.073781,-0.07652,0.115259,-0.235262
4,5e-05,1e-12,0.123921,-0.046589,-0.024368,-0.134131,0.051376,-0.002785,-0.2478,0.619869,-0.073833,-0.076523,0.115252,-0.23527
5,5e-05,1e-15,0.123921,-0.046589,-0.024368,-0.134131,0.051376,-0.002785,-0.2478,0.619869,-0.073834,-0.076523,0.115252,-0.23527
6,8e-05,1e-08,0.123924,-0.046581,-0.024368,-0.134133,0.051375,-0.002783,-0.2478,0.619887,-0.073855,-0.076525,0.115249,-0.235273
7,8e-05,1e-12,0.123928,-0.04657,-0.02437,-0.134136,0.051375,-0.002781,-0.247801,0.619916,-0.073889,-0.076527,0.115245,-0.235279
8,8e-05,1e-15,0.123928,-0.04657,-0.02437,-0.134136,0.051375,-0.002781,-0.247801,0.619915,-0.073888,-0.076527,0.115245,-0.235279


A partir de la estimación de los coeficientes OLS mediante el método de optimización de Descenso de Gradiente para tres (03) tasas de aprendizajes y umbrales de convergencia diferentes, se observó que la misma tasa de aprendizaje en diferentes umbrales de convergencia presentaba coeficientes similares, por lo que los valores obtenidos entre el atol 1e-12 y 1e-15 no difieren. Así, como se observa en la tabla de arriba, la mayor tasa de aprendizaje ha podido obtener coeficientes mucho más cercanos a los obtenidos en los literales (a) y (b). En consencuencia, hemos optado por seleccionar el alpha 0.00008 y el atol 1e-12.

In [8]:
alpha = 0.00008
atol = 1e-12

DG_coef = resultados_DG[(resultados_DG['alpha']== alpha) & (resultados_DG['atol']== atol)].drop(['alpha', 'atol'], axis=1).transpose()

coeficientes['DG coef'] = DG_coef
coeficientes

Unnamed: 0,Atributo coef,Manual coef,DG coef
zn,0.123939,0.123939,0.123928
indus,-0.046538,-0.046538,-0.04657
chas,-0.024372,-0.024372,-0.02437
nox,-0.134146,-0.134146,-0.134136
rm,0.051373,0.051373,0.051375
age,-0.002776,-0.002776,-0.002781
dis,-0.247804,-0.247804,-0.247801
rad,0.619993,0.619993,0.619916
tax,-0.073979,-0.073979,-0.073889
ptratio,-0.076533,-0.076533,-0.076527


**Pregunta 3**

Sobre k-fold Cross-Validation:

a) Explique cómo se implementa el enfoque k-fold Cross-Validation

- Se tiene un parámetro k, correspondiente al número de grupos en los que se divide una muestra de datos dada.
- Se divide el conjunto de datos en k subconjuntos (pliegue o 'fold') de manera consecutiva.
-  El primer grupo es tratado como grupo de validación y el método de aprendizaje es usado con los k-1 grupos. Se registra la métrica de evaluación para esta primera iteración.
- Se repite el proceso k veces, utilizando diferentes subconjuntos como grupo de validación en cada iteración. Con ello, se promedia las puntuaciones del modelo en cada proceso para calcular el rendimiento promedio y, por ende, el rendimiento general del modelo.
- En python se utilizaría la clase **Kfold** dentro de la librería *scikit-learn*. Requiere 3 parámetros: 
    
    KFold(n_splits=k, random_state=None, shuffle=False)


b) Detalle cuáles son las ventajas y desventajas del enfoque k-fold Cross-Validation con respecto
 a:
     I. El enfoque del Conjunto de Validación

**Ventajas** 
- El *K-fold Cross Validation* reduce la variabilidad en la estimación del rendimiento porque promedia resultados de k grupos de validación diferentes. En cambio, el *Conjunto de Validación* presenta una estimación sesgada, dependiendo de cómo se divide el conjunto de datos de entrenamiento y validación.
**Desventajas**
- El *K-fold Cross Validation* es más costoso computacionalmente, por lo que el *Conjunto de Validación* sería más conveniente en caso de base de datos pequeña, con una implementación más simple de entender.

    II. El enfoque de Validación Cruzada Dejando Uno Afuera (LOOCV)

**Ventajas** 
- Estimación más precisa del error de predicción por parte del *K-fold Cross Validation*. Como promedia los resultados sobre k conjuntos de validación diferentes se reduce la variabilidad. En cambio, se puede tener alta varianza en las estimaciones de error del método *LOOCV*, lo cual lleva a resultados menos confiables.
- A pesar de que puede ser más costoso computacionalmente, el *K-fold Cross Validation* es más eficiente que el método *LOOCV*, que entrena un modelo por cada muestra en el conjunto de datos.
**Desventajas**
- El *K-fold Cross Validation* entrena en un subconjunto más pequeño de datos en cada iteración, por lo que puede tener un sesgo en la estimación del error de prueba. Al contrario, en *LOOCV* este sesgo se reduce, especialmente con un tamaño de base de datos pequeño, al entrenar el modelo en n-1 muestras y evaluado en una sola.
