# Regresión Lineal Simple (una única variable de entrada o variable independiente)

## Ejercicio 3

A continuación, se presentan datos de entrenamiento y tiempo promedio de un recorrido de corredores para una distancia fija. Los datos están organizados en una tabla con las horas de entrenamiento semanales y el tiempo promedio en minutos para completar el recorrido:

<div align="center">
	<table style="border-collapse: collapse; text-align: center;">
	<tr style="background-color:#4DA6D8; color:white;">
		<th style="padding:8px; border:1px solid #ddd;">Horas de Entrenamiento</th>
		<th style="padding:8px; border:1px solid #ddd;">Tiempo Promedio (min)</th>
	</tr>
	<tr><td>2</td><td>30.5</td></tr>
	<tr><td>3</td><td>29.3</td></tr>
	<tr><td>4</td><td>26.7</td></tr>
	<tr><td>4</td><td>26.0</td></tr>
	<tr><td>5</td><td>25.5</td></tr>
	<tr><td>6</td><td>24.7</td></tr>
	<tr><td>6</td><td>23.5</td></tr>
	<tr><td>7</td><td>23.0</td></tr>
	<tr><td>7</td><td>22.5</td></tr>
	<tr><td>8</td><td>21.0</td></tr>
	<tr><td>10</td><td>21.0</td></tr>
	<tr><td>10</td><td>20.5</td></tr>
	</table>
</div>

A partir de los datos de entrenamiento y tiempos de recorrido de los corredores, se desea obtener la recta de regresión que permita predecir el tiempo promedio que un corredor tardará en recorrer la distancia fija a partir de las horas de entrenamiento semanales. Responder:


### a)  

Calcule la correlación lineal entre estas dos variables y dibuje el diagrama de dispersión correspondiente. ¿La recta de regresión será de utilidad?


In [44]:
import pandas as pd
import matplotlib.pyplot as plt


data = pd.DataFrame({
    'horas_entrenamiento': [2, 3, 4, 4, 5, 6, 6, 7, 7, 8, 10, 10],
    'tiempo_promedio': [30.5, 29.3, 26.7, 26.0, 25.5, 24.7, 23.5, 23.0, 22.5, 21.0, 21.0, 20.5]
})

print("Correlación entre horas de entrenamiento y tiempo promedio:", data.corr().iloc[0,1]) #-0.96: la recta de regresión será de utilidad pues existe una alta correlación lineal

Correlación entre horas de entrenamiento y tiempo promedio: -0.9597463860068594


### b)  

Indique la ecuación del error cuadrático medio que se debería minimizar si se utilizara la técnica de descenso de gradiente.

El error cuadrático, valor a minimizar, que se utiliza en esta técnica es:

$$
\xi = \left\langle \epsilon_{k}^{2} \right\rangle = \frac{1}{L} \left[ \sum_{i=1}^L (y_i - (m x_i + b))^2 \right]
$$

Para $L$ puntos, siendo $y_{i}$ el valor de la función a tratar en el punto *i-esimo*.

### c)  

Indique la ecuación de error que se minimiza al utilizar la técnica de descenso de gradiente estocástico.  
¿Qué ventaja tiene su uso con respecto a la ecuación indicada en b)?

El valor a minimizar en esta técnica es:

$$
\xi = \left\langle \epsilon_{k}^{2} \right\rangle \approx (y_i - (m x_i + b))^2
$$

Esta ecuación si bien es una aproximación y no tiene la misma exactitud que la anterior, tiene la ventaja de no requerir todos los puntos para el cálculo, sino que permite realizar el cálculo por separado y permite no recalcular todo cuando se añade un nuevo punto.


### d)  

Utilice la técnica de descenso de gradiente estocástico para obtener los coeficientes de la recta de regresión que permita predecir el tiempo promedio que un corredor tardará en recorrer la distancia fija a partir de las horas de entrenamiento semanales.


In [45]:
import numpy as np

ALPHA = 0.01
MAX_EPOCHS = 1000
m, b = np.random.uniform(-50, 50,size=2)
n = len(data)
TOLERANCE = 1e-6

prev_E = 0
E = 1

for epoch in range(MAX_EPOCHS):
    prev_E = E
    E = 0
    for i in range(n):
        x_i = data['horas_entrenamiento'][i]
        y_i = data['tiempo_promedio'][i]
        y_pred = m * x_i + b
        error = y_i - y_pred
        grad_b = -2 * error
        grad_m = -2 * error * x_i
        b -= ALPHA * grad_b
        m -= ALPHA * grad_m
        E += error**2
    E /= n
    if abs(E - prev_E) < TOLERANCE:
        break

print(f"m: {m}, b: {b}")

m: -1.7440188513115014, b: 34.08481128512727


### e)  

Utilice la recta obtenida en d) para predecir el tiempo promedio que tardará en recorrer la distancia fija un corredor que entrena 9 horas semanales.



In [49]:
print("Un corredor que entrena 9 horas semanales tardaría en promedio:", m*9 + b, "minutos")

Un corredor que entrena 9 horas semanales tardaría en promedio: 18.38864162332376 minutos
