In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error, r2_score
%matplotlib inline

## 1. Carga de datos y análisis exploratorio

In [None]:
# Cargar el dataset de ejemplo
df = pd.read_csv('publicidad_ventas_ejemplo.csv')
df.head()

In [None]:
# Información general del dataset
df.info()

In [None]:
# Estadísticas descriptivas
df.describe()

In [None]:
# Visualización de la relación entre publicidad y ventas
plt.scatter(df['Publicidad'], df['Ventas'])
plt.xlabel('Publicidad (miles de dólares)')
plt.ylabel('Ventas (miles de unidades)')
plt.title('Relación entre publicidad y ventas')
plt.show()

**Insight inicial:**\n
Se observa una relación aproximadamente lineal y creciente: a mayor inversión en publicidad, mayores ventas esperadas.

## 2. Implementación del algoritmo de descenso de gradiente para regresión lineal

In [None]:
# Preparar los datos como arreglos de NumPy
X = df['Publicidad'].values
y = df['Ventas'].values
n = len(X)  # cantidad de observaciones

# Inicializar parámetros del modelo: Ventas = m * Publicidad + b
m = 0.0  # pendiente
b = 0.0  # intercepto

# Hiperparámetros del descenso de gradiente
learning_rate = 0.01   # tasa de aprendizaje
epochs = 1000          # número de iteraciones

# Para guardar la evolución de la función de costo
losses = []

for epoch in range(epochs):
    # Predicciones actuales
    y_pred = m * X + b
    
    # Costo (MSE) solo para monitoreo
    loss = mean_squared_error(y, y_pred)
    losses.append(loss)
    
    # Derivadas parciales de la función de costo respecto de m y b
    D_m = (-2/n) * np.sum(X * (y - y_pred))
    D_b = (-2/n) * np.sum(y - y_pred)
    
    # Actualización de parámetros en la dirección opuesta al gradiente
    m = m - learning_rate * D_m
    b = b - learning_rate * D_b

print(f'Parámetros finales: m = {m:.4f}, b = {b:.4f}')

In [None]:
# Visualizar la recta ajustada sobre los datos
plt.scatter(X, y, label='Datos reales')
plt.plot(X, m * X + b, color='red', label='Recta ajustada (GD)')
plt.xlabel('Publicidad (miles de dólares)')
plt.ylabel('Ventas (miles de unidades)')
plt.title('Regresión lineal por descenso de gradiente: Publicidad vs Ventas')
plt.legend()
plt.show()

In [None]:
# Curva de la función de costo (MSE) a lo largo de las épocas
plt.figure(figsize=(8,3))
plt.plot(losses)
plt.xlabel('Época')
plt.ylabel('Loss (MSE)')
plt.title('Evolución de la pérdida durante el descenso de gradiente')
plt.show()

## 3. Métricas de ajuste y error del modelo

In [None]:
# Predicciones finales con los parámetros aprendidos
y_pred_final = m * X + b

# Cálculo de métricas de error y ajuste
mse = mean_squared_error(y, y_pred_final)
rmse = np.sqrt(mse)
r2 = r2_score(y, y_pred_final)

print(f'MSE : {mse:.4f}')
print(f'RMSE: {rmse:.4f}')
print(f'R^2 : {r2:.4f}')

**Interpretación de las métricas:**
- Un MSE y RMSE bajos indican que las predicciones del modelo de ventas están, en promedio, cerca de los valores reales.
- Un $R^2$ cercano a 1 indica que el modelo explica gran parte de la variabilidad de las ventas a partir de la inversión en publicidad.

Puedes usar este notebook como plantilla para construir tu solución del caso `StudentScore`, cambiando:

- El enunciado.
- El archivo de datos (`student_scores.csv`).
- Los nombres de las columnas (por ejemplo, `Hours` y `Scores`).