# Proyecto 1 - Regresion Lineal

In [None]:
# Importar las bibliotecas necesarias

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import linear_regression as lr	# Implementacion propia de regresion lineal

## Peso corporal en función del peso de cerebro (1 rasgo)

In [None]:
# Cargar los datos

dataset = pd.read_csv(
	'../data/x01.txt', 
	sep='\s+', 
	header=None, 
	names=['Index', 'BrainWeight', 'BodyWeight']
)

In [None]:
# Seleccionar variables

X_raw = dataset['BrainWeight'].values.reshape(-1, 1)  # shape (62, 1)
y = dataset['BodyWeight'].values  # shape (62,)

plt.scatter(X_raw, y, color='blue', label='Dataset')
plt.xlabel('Brain Weight')
plt.ylabel('Body Weight')
plt.title('Body Weight vs Brain Weight')
plt.legend()
plt.show()

### Datos sin normalizar

In [None]:
# a) Muestre la curva de convergencia (J() vs. Iteraciones) para alpha = 0,0001

# Inicializar theta
theta = np.zeros(X_raw.shape[1])

# Parámetros
alpha = 0.0001
num_iters = 50000	# modificacion del valor para controlar las iteraciones

# Ejecutar descenso del gradiente
theta_final, bias_final, cost_history = lr.gradient_descent(X_raw, y, theta, alpha, num_iters)

predictions = X_raw.dot(theta_final) + bias_final

if cost_history is not None: 
	plt.plot(cost_history, color='green', label='Costo (MSE)')
plt.xlabel("Iteraciones")
plt.ylabel("Costo (MSE)")
plt.title(f"Convergencia J()")
plt.grid(True)
plt.show()

In [None]:
# b) Realice un scatteplot de los datos junto con la curva que minimiza la función de costo.
predictions = X_raw.dot(theta_final) + bias_final

if X_raw.shape[1] > 0:
	plt.scatter(X_raw[:, 0], y, marker='o', color='red', label=f'Actual')
	
	sort_indices = np.argsort(X_raw[:, 0])
	plt.plot(X_raw[sort_indices, 0], predictions[sort_indices], color='blue', label=f'Predicted')
	
	plt.xlabel(f"Brain Weight")
	plt.ylabel("Body Weight")
	plt.title(f"Regresión: Brain Weight vs Body Weight")
	plt.legend()
else:
	print("No se pudo graficar la regresión lineal porque X_raw no tiene features.")

### Datos normalizados

In [None]:
# Normalización 
X_norm = (X_raw - np.mean(X_raw)) / np.std(X_raw)

In [None]:
# a) Muestre la curva de convergencia (J() vs. Iteraciones) para alpha = 0,0001

# Inicializar theta
theta = np.zeros(X_norm.shape[1])

# Parámetros
alpha = 0.0001
num_iters = 50000	# modificacion del valor para controlar las iteraciones

# Ejecutar descenso del gradiente
theta_final, bias_final, cost_history = lr.gradient_descent(X_norm, y, theta, alpha, num_iters)

if cost_history is not None: 
	plt.plot(cost_history, color='green', label='Costo (MSE)')
plt.xlabel("Iteraciones")
plt.ylabel("Costo (MSE)")
plt.title(f"Convergencia J()")
plt.grid(True)
plt.show()

In [None]:
# b) Realice un scatteplot de los datos junto con la curva que minimiza la función de costo.
predictions = X_norm.dot(theta_final) + bias_final

if X_norm.shape[1] > 0:
	plt.scatter(X_norm[:, 0], y, marker='o', color='red', label=f'Actual')
	
	sort_indices = np.argsort(X_norm[:, 0])
	plt.plot(X_norm[sort_indices, 0], predictions[sort_indices], color='blue', label=f'Predicted')
	
	plt.xlabel(f"Brain Weight")
	plt.ylabel("Body Weight")
	plt.title(f"Regresión: Brain Weight vs Body Weight")
	plt.legend()
else:
	print("No se pudo graficar la regresión lineal porque X_raw no tiene features.")

## Tasa de homicidios por millón de habitantes (3 rasgos)

In [None]:
# Cargar los datos

dataset = pd.read_csv(
	'../data/x08.txt', 
	sep='\s+', 
	header=None, 
	names=['Index', 'Inhabitants', 'PctLowIncome', 'PctUnemployed', 'Murders']
)

In [None]:
# Seleccionar variables

X_raw = dataset[['Inhabitants', 'PctLowIncome', 'PctUnemployed']].values # shape (20, 3)
y = dataset['Murders'].values  # shape (62,)

features = ['Inhabitants', 'PctLowIncome', 'PctUnemployed']

plt.figure(figsize=(15, 4))

for i, feature in enumerate(features):
    plt.subplot(1, 3, i+1)
    plt.scatter(dataset[feature], dataset['Murders'], color='blue')
    plt.xlabel(feature)
    plt.ylabel('Murders')
    plt.title(f'{feature} vs Murders')

plt.tight_layout()
plt.show()

### Datos sin normalizar

In [None]:
# a) Muestre las curvas de convergencia (J() vs. Iteraciones) para alpha = 0.0001.

# Inicializar theta
theta = np.zeros(X_raw.shape[1])

# Parámetros
alpha = 0.0001
num_iters = 50000	# modificacion del valor para controlar las iteraciones

# Ejecutar descenso del gradiente
theta_final, bias_final, cost_history = lr.gradient_descent(X_raw, y, theta, alpha, num_iters)

if cost_history is not None: 
	plt.plot(cost_history, color='green', label='Costo (MSE)')
plt.xlabel("Iteraciones")
plt.ylabel("Costo (MSE)")
plt.title(f"Convergencia J()")
plt.grid(True)
plt.show()

### Datos normalizados

In [None]:
# Normalización 
X_norm = (X_raw - np.mean(X_raw)) / np.std(X_raw)

In [None]:
# a) Muestre la curva de convergencia (J() vs. Iteraciones) para alpha = 0,0001

# Inicializar theta
theta = np.zeros(X_norm.shape[1])

# Parámetros
alpha = 0.0001
num_iters = 50000	# modificacion del valor para controlar las iteraciones

# Ejecutar descenso del gradiente
theta_final, bias_final, cost_history = lr.gradient_descent(X_norm, y, theta, alpha, num_iters)

if cost_history is not None: 
	plt.plot(cost_history, color='green', label='Costo (MSE)')
plt.xlabel("Iteraciones")
plt.ylabel("Costo (MSE)")
plt.title(f"Convergencia J()")
plt.grid(True)
plt.show()

In [None]:
# b) Muestre las curvas de convergencia (J() vs. Iteraciones) para alpha = 0.0001, 0.001,  0.01, 0.1, 1

# Valores de alpha a probar
alphas = [0.0001, 0.001, 0.01, 0.1, 1]
num_iters = 5000  # modificacion del valor para controlar las iteraciones

plt.figure(figsize=(18, 3))
for i, alpha in enumerate(alphas):
    theta_init = np.zeros(X_norm.shape[1])
    _, _, cost_history = lr.gradient_descent(X_norm, y, theta_init, alpha, num_iters)
    plt.subplot(1, len(alphas), i+1)
    if cost_history is not None: 
        plt.plot(cost_history, color='green')
    plt.title(f'alpha={alpha}')
    plt.xlabel('Iteraciones')
    plt.ylabel('J(θ)')
    plt.grid(True)

plt.tight_layout()
plt.show()