# Proyecto 2 - Modelos de Regresión Lineal
## Universidad del Valle de Guatemala
### Minería de Datos

Este notebook contiene el desarrollo de los incisos impares del proyecto, incluyendo el análisis exploratorio, selección de variables y modelado con regresión lineal.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

## Carga de Datos

In [None]:
train_df = pd.read_csv('/mnt/data/train.csv')
test_df = pd.read_csv('/mnt/data/test.csv')
print("Información del dataset de entrenamiento:")
print(train_df.info())
print("\nPrimeras filas del dataset de entrenamiento:")
print(train_df.head())

## Análisis Exploratorio de Datos (EDA)

In [None]:
plt.figure(figsize=(10,6))
sns.histplot(train_df['SalePrice'], bins=30, kde=True)
plt.title("Distribución de los precios de venta de las casas")
plt.xlabel("Precio de Venta")
plt.ylabel("Frecuencia")
plt.show()

### Matriz de Correlación con la Variable Objetivo

In [None]:
correlation_matrix = train_df.corr()
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, cmap='coolwarm', annot=False)
plt.title("Matriz de Correlación de las Variables")
plt.show()

## Selección de Variables

In [None]:
correlation_target = correlation_matrix["SalePrice"].sort_values(ascending=False)
selected_features = correlation_target[1:10].index.tolist()
print("Variables seleccionadas para el modelo:", selected_features)

## Modelado Univariado de Regresión Lineal

In [None]:
best_feature = selected_features[0]
X = train_df[[best_feature]]
y = train_df['SalePrice']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

### Evaluación del Modelo

In [None]:
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Error Cuadrático Medio (MSE): {mse}")
print(f"Coeficiente de determinación (R²): {r2}")

### Visualización del Modelo

In [None]:
plt.figure(figsize=(8, 6))
sns.scatterplot(x=X_test[best_feature], y=y_test, label="Actual")
sns.lineplot(x=X_test[best_feature], y=y_pred, color='red', label="Predicción")
plt.xlabel(best_feature)
plt.ylabel("SalePrice")
plt.title("Regresión Lineal Univariada")
plt.legend()
plt.show()

## Explicación sobre los Conjuntos de Datos
El dataset ya viene dividido en `train.csv` y `test.csv`, por lo que no es necesario realizar una nueva división. Sin embargo, dentro del conjunto de entrenamiento, para la validación del modelo, sí se realiza una partición en datos de entrenamiento y prueba con un 80%-20%. Se han seleccionado las variables más relevantes para predecir el precio de las casas basándonos en la correlación con `SalePrice`. Posteriormente, se ha construido un modelo de regresión lineal univariado utilizando la variable más correlacionada.