# Polynomial Regression

## Integrantes

- Willy Corrales
- Alejandro Haro
- Josue Lozada
- Alex Caicedo
- Mateo Pillajo

**Iniciales del grupo: WAJMA**

---

### Comentario general
En este trabajo se analizan diferentes técnicas de regresión para modelar un conjunto de datos mediante regresión cuadrática y redes neuronales.

## 1. Importación de Librerías

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.neural_network import MLPRegressor

### Comentario
Se importan las librerías necesarias para el procesamiento de datos, entrenamiento de modelos, métricas de evaluación y visualización.

## 2. Carga del Dataset

In [None]:
url = "https://raw.githubusercontent.com/Machine1314/natural_computing/main/data_regression.csv"
df = pd.read_csv(url)
df.head()

In [None]:
X = df.iloc[:, 0].values.reshape(-1,1)
y = df.iloc[:, 1].values.reshape(-1,1)

### Comentario
Se carga el dataset desde GitHub y se separan las variables independiente (X) y dependiente (y).

## 3. Escalamiento de Datos

In [None]:
scaler_X = StandardScaler()
scaler_y = StandardScaler()

X_scaled = scaler_X.fit_transform(X)
y_scaled = scaler_y.fit_transform(y)

### Comentario
El escalamiento es fundamental para que los algoritmos converjan correctamente.

## 4. Regresión Cuadrática Analítica

In [None]:
poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X_scaled)

model_analytical = LinearRegression()
model_analytical.fit(X_poly, y_scaled)

y_pred_analytical = model_analytical.predict(X_poly)

mse_analytical = mean_squared_error(y_scaled, y_pred_analytical)
r2_analytical = r2_score(y_scaled, y_pred_analytical)

mse_analytical, r2_analytical

In [None]:
plt.figure()
plt.scatter(X_scaled, y_scaled)
plt.plot(X_scaled, y_pred_analytical)
plt.title("Regresión Cuadrática Analítica")
plt.xlabel("X Escalada")
plt.ylabel("Y Escalada")
plt.show()

### Comentario
Este modelo utiliza una solución matemática directa para encontrar la mejor curva cuadrática.

## 5. Regresión por Descenso del Gradiente

In [None]:
m = len(X_scaled)
theta0 = 0
theta1 = 0
theta2 = 0
alpha = 0.01
epochs = 2000

In [None]:
def predict(x):
    return theta0 + theta1*x + theta2*(x**2)

In [None]:
loss_history = []
for _ in range(epochs):
    y_hat = predict(X_scaled)

    d0 = (-2/m)*np.sum(y_scaled - y_hat)
    d1 = (-2/m)*np.sum((y_scaled - y_hat)*X_scaled)
    d2 = (-2/m)*np.sum((y_scaled - y_hat)*(X_scaled**2))

    theta0 -= alpha * d0
    theta1 -= alpha * d1
    theta2 -= alpha * d2

    loss = np.mean((y_scaled - y_hat)**2)
    loss_history.append(loss)

In [None]:
y_pred_gd = predict(X_scaled)

mse_gd = mean_squared_error(y_scaled, y_pred_gd)
r2_gd = r2_score(y_scaled, y_pred_gd)

mse_gd, r2_gd

In [None]:
plt.figure()
plt.scatter(X_scaled, y_scaled)
plt.plot(X_scaled, y_pred_gd)
plt.title("Regresión Cuadrática - Gradiente")
plt.xlabel("X Escalada")
plt.ylabel("Y Escalada")
plt.show()

In [None]:
plt.figure()
plt.plot(loss_history)
plt.title("Evolución del Error en Gradiente Descendente")
plt.xlabel("Iteraciones")
plt.ylabel("Error")
plt.show()

### Comentario
Aquí se observa cómo el error disminuye progresivamente hasta estabilizarse.

## 6. Redes Neuronales (MLP)

In [None]:
mlp_10 = MLPRegressor(hidden_layer_sizes=(10,), max_iter=5000)
mlp_10.fit(X_scaled, y_scaled.ravel())
y_pred_10 = mlp_10.predict(X_scaled)

In [None]:
mlp_50 = MLPRegressor(hidden_layer_sizes=(50,), max_iter=5000)
mlp_50.fit(X_scaled, y_scaled.ravel())
y_pred_50 = mlp_50.predict(X_scaled)

In [None]:
mlp_1000 = MLPRegressor(hidden_layer_sizes=(1000,), max_iter=5000)
mlp_1000.fit(X_scaled, y_scaled.ravel())
y_pred_1000 = mlp_1000.predict(X_scaled)

In [None]:
plt.figure()
plt.scatter(X_scaled, y_scaled)
plt.plot(X_scaled, y_pred_10)
plt.title("MLP con 10 neuronas")
plt.show()

In [None]:
plt.figure()
plt.scatter(X_scaled, y_scaled)
plt.plot(X_scaled, y_pred_50)
plt.title("MLP con 50 neuronas")
plt.show()

In [None]:
plt.figure()
plt.scatter(X_scaled, y_scaled)
plt.plot(X_scaled, y_pred_1000)
plt.title("MLP con 1000 neuronas")
plt.show()

### Comentario
A mayor cantidad de neuronas aumenta la capacidad del modelo, pero también el riesgo de sobreajuste.

## 7. Interpolación y Extrapolación

In [None]:
x_test = np.linspace(X_scaled.min(), X_scaled.max()+2, 200).reshape(-1,1)
mlp_curve = mlp_50.predict(x_test)

plt.figure()
plt.plot(x_test, mlp_curve)
plt.scatter(X_scaled, y_scaled)
plt.title("Interpolación y Extrapolación con MLP")
plt.show()

### Comentario
Se analiza cómo se comporta el modelo fuera del rango original de datos.

## 8. Tabla Comparativa Final

In [None]:
mse_10 = mean_squared_error(y_scaled, y_pred_10)
r2_10 = r2_score(y_scaled, y_pred_10)

mse_50 = mean_squared_error(y_scaled, y_pred_50)
r2_50 = r2_score(y_scaled, y_pred_50)

mse_1000 = mean_squared_error(y_scaled, y_pred_1000)
r2_1000 = r2_score(y_scaled, y_pred_1000)

In [None]:
results = pd.DataFrame({
    "Modelo": ["Analítico", "Gradiente", "MLP 10", "MLP 50", "MLP 1000"],
    "MSE": [mse_analytical, mse_gd, mse_10, mse_50, mse_1000],
    "R2": [r2_analytical, r2_gd, r2_10, r2_50, r2_1000]
})

results

## 9. Conclusiones

- El modelo analítico ofrece una solución estable.
- El descenso del gradiente aproxima correctamente el comportamiento del sistema.
- Las redes neuronales muestran mayor flexibilidad.
- Un exceso de neuronas genera sobreajuste.

### Comentario Final
Este análisis permite comparar distintos enfoques de regresión y comprender sus ventajas y limitaciones.