# Regresión Lineal: Conceptos Básicos  
**Objetivo**: Predecir una variable numérica (Y) usando variables predictoras (X).  

## Ecuación  
$$ Y = beta_0 + beta_1 X + epsilon $$  

## Pasos del Proceso  
1. **Preprocesamiento**: Limpieza y escalado de datos.  
2. **Entrenamiento**: Ajustar la recta que minimiza el MSE.  
3. **Evaluación**: Calcular R² y MSE.  

## Ejercicio  
Regresión Lineal con Datos Climáticos del SENAMHI.  

Dataset: temperaturas_la_paz.csv (años 2010-2023)

# --- Carga de Datos

In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/AlbertJQM/Ejemplo-UMSA/refs/heads/main/datos/precios_viviendas_bolivia.csv"
datos = pd.read_csv(url)

## Explorar datos con .head() y .describe()

# --- Preprocesamiento

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

## Seleccionar características (ej. mes, humedad, precipitacion)

In [None]:
X = datos[['mes', 'humedad', 'precipitacion']]
y = datos['temp_max']

## Manejar valores faltantes (¿Eliminar? ¿Imputar?)

## Estandarizar/normalizar características

# --- Modelado

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split



## Dividir datos en entrenamiento y prueba (80-20)

## Entrenar modelo y predecir

# --- Evaluación

## Calcular MSE y R²

In [None]:
from sklearn.metrics import mean_squared_error, r2_score



## Generar gráfico de dispersión (reales vs. predichos)

# --- Visualización

In [None]:
import matplotlib.pyplot as plt


# --- Interpretación

In [None]:
import panda as pd
coeficientes = pd.DataFrame({
    'Variable': X.columns.tolist(),
    'Coeficiente': modelo.coef_
})
print(coeficientes)

## Análisis de Coeficientes  
- Signo (+/-): Dirección de la relación (ej. +β₁ → ↑X causa ↑Y).  
- Magnitud: Cambio en Y por unidad de X (ej. β₁ = 100 → ↑1m² → ↑100 USD).  

# --- Diagnóstico del Modelo

In [None]:
residuos = y_test - y_pred
plt.scatter(y_pred, residuos)
plt.axhline(y=0, color='red', linestyle='--')
plt.title("Gráfico de Residuos")
plt.xlabel("Predicciones")
plt.ylabel("Residuos (Y_real - Y_pred)")
plt.show()

## Validación de Supuestos  
- **Homocedasticidad**: Residuos dispersos aleatoriamente (sin patrones).  
- **Outliers**: Puntos lejos de la línea roja (|residuo| > 3*MSE).  

# --- Preguntas de Repaso ---

1. ¿Cómo afecta la humedad a la temperatura máxima según tu modelo?
2. ¿Qué variable tuvo mayor peso en las predicciones?
3. ¿Qué mejoras propondrías al modelo?  
4. ¿Qué supone la regresión lineal sobre la relación entre X e Y?  
5. Si R² = 0.75, ¿qué significa?  
6. ¿Por qué escalamos las variables antes de entrenar el modelo?