# Guía de Estudio: Regresión Lineal Múltiple con Ecuación Normal

## Pasos para implementar una Regresión Lineal Múltiple

### 1. Importación de librerías
- NumPy para operaciones matemáticas  
- Pandas para manipulación de datos  
- Matplotlib y Seaborn para visualizaciones  
- Scikit-learn para herramientas de machine learning  

### 2. Cargar y explorar los datos
- Leer el dataset con `pd.read_csv()`  
- Examinar las primeras filas con `dataframe.head()`  
- Revisar estadísticas descriptivas con `dataframe.describe()`  
- Visualizar la distribución de la variable objetivo  
- Identificar valores faltantes con `dataframe.isnull().sum()`  

### 3. Analizar las relaciones entre variables
- Seleccionar columnas numéricas con `select_dtypes()`  
- Calcular la matriz de correlación con `dataframe.corr()`  
- Identificar características más correlacionadas con la variable objetivo  
- Visualizar correlaciones con `sns.heatmap()`  
- Interpretar la fuerza y dirección de las correlaciones  

### 4. Visualizar relaciones entre características y precio
- Crear gráficos de dispersión para las principales características  
- Añadir líneas de tendencia para visualizar relaciones lineales  
- Interpretar patrones visuales (linealidad, agrupaciones, valores atípicos)  
- Utilizar subplots para comparar múltiples relaciones  

### 5. Preparar los datos para el modelo
- Extraer características (X) y variable objetivo (y)  
- Dividir en conjuntos de entrenamiento y validación con `train_test_split()`  
- Estandarizar características con `StandardScaler()`  
- Verificar el efecto de la estandarización en los datos  

### 6. Implementar la regresión lineal múltiple usando la ecuación normal
- Añadir columna de unos para el término de intercepto con `np.c_[]`  
- Calcular la transpuesta de X con `.T`  
- Aplicar la ecuación normal: θ = (X^T × X)^(-1) × X^T × y  
  1. Multiplicar X^T por X  
  2. Calcular la inversa de X^T × X con `np.linalg.inv()`  
  3. Multiplicar por X^T × y  
- Extraer e interpretar los coeficientes obtenidos  

### 7. Evaluar el modelo con múltiples métricas
- Hacer predicciones con `X_val_b.dot(theta_best)`  
- Calcular métricas de error:  
  - MSE (Error Cuadrático Medio)  
  - RMSE (Raíz del Error Cuadrático Medio)  
  - MAE (Error Absoluto Medio)  
  - MAPE (Error Porcentual Absoluto Medio)  
- Calcular R² (coeficiente de determinación)  
- Interpretar cada métrica en el contexto del problema  

### 8. Visualización de las predicciones vs valores reales
- Crear gráfico de dispersión de valores reales vs predichos  
- Añadir línea diagonal de predicción perfecta  
- Anotar áreas de sobreestimación y subestimación  
- Interpretar la distribución de puntos alrededor de la línea diagonal  

### 9. Análisis de residuos
- Calcular residuos (errores) como y_real - y_pred  
- Graficar residuos vs predicciones  
- Crear histograma de residuos  
- Verificar supuestos de regresión lineal:  
  - Media de residuos cercana a cero  
  - Distribución normal de residuos  
  - Varianza constante (homocedasticidad)  
  - Ausencia de patrones en residuos  

### 10. Comparación con un modelo más simple
- Implementar regresión lineal simple con la característica más importante  
- Aplicar la misma metodología (ecuación normal)  
- Calcular métricas para ambos modelos  
- Cuantificar la mejora al usar múltiples características  
- Visualizar comparativamente las predicciones de ambos modelos  

### 11. Conclusiones finales
- Resumir el rendimiento del modelo  
- Identificar las características más influyentes  
- Discutir ventajas y limitaciones de la ecuación normal  
- Interpretar los resultados en el contexto del problema original  

## Métricas de Evaluación

### Error Cuadrático Medio (MSE)
- Promedio de los errores al cuadrado  
- Penaliza más los errores grandes  
- Unidades al cuadrado (difícil interpretación)  

### Raíz del Error Cuadrático Medio (RMSE)
- Raíz cuadrada del MSE  
- Mismas unidades que la variable objetivo  
- Más fácil de interpretar (error promedio)  

### Error Absoluto Medio (MAE)
- Promedio de los valores absolutos de los errores  
- Menos sensible a valores atípicos que el MSE  

### Error Porcentual Absoluto Medio (MAPE)
- Error en términos de porcentaje  
- Útil para entender la magnitud relativa del error  

### Coeficiente de Determinación (R²)
- Mide la proporción de varianza explicada por el modelo  
- Varía entre 0 y 1 (más cercano a 1 es mejor)  
- Por debajo de 0.4: rendimiento pobre  
- Entre 0.4 y 0.6: rendimiento moderado  
- Entre 0.6 y 0.8: buen rendimiento  
- Mayor a 0.8: excelente rendimiento  

# Métodos Importantes en Python

## Funciones útiles en Python

- `abs()`: Devuelve el valor absoluto de un número.
- `all()`: Devuelve `True` si todos los elementos de un iterable son verdaderos.
- `any()`: Devuelve `True` si al menos un elemento de un iterable es verdadero.
- `enumerate()`: Añade un índice a un iterable (útil en bucles `for`).
- `input()`: Solicita al usuario una entrada por consola.
- `len()`: Devuelve la longitud de un objeto.
- `map()`: Aplica una función a todos los ítems de un iterable.
- `max()`: Devuelve el valor máximo de un iterable o de dos o más elementos.
- `min()`: Devuelve el valor mínimo de un iterable o de dos o más elementos.
- `range()`: Crea un rango de números, útil para iteraciones.
- `sorted()`: Devuelve una lista ordenada de un iterable.
- `sum()`: Suma los elementos de un iterable.
- `zip()`: Combina varios iterables en un solo iterable de tuplas.

## Métodos Importantes en Python

### NumPy

- `np.array()`: Crea arrays de NumPy para operaciones numéricas eficientes  
- `np.c_[]`: Concatena arrays como columnas (útil para añadir el término de intercepto)  
- `np.ones()`: Crea un array de unos (usado para el término de intercepto)  
- `np.random.rand()`: Genera números aleatorios uniformes entre 0 y 1  
- `np.random.randn()`: Genera números aleatorios con distribución normal  
- `np.linalg.inv()`: Calcula la inversa de una matriz (crucial para la ecuación normal)  
- `array.T`: Obtiene la transpuesta de un array (intercambia filas por columnas)  
- `array.dot()`: Realiza multiplicación matricial (para calcular predicciones)  
- `np.mean()`: Calcula la media de un array  
- `np.median()`: Calcula la mediana de un array  
- `np.abs()`: Calcula el valor absoluto (usado para MAE y MAPE)  
- `np.sqrt()`: Calcula la raíz cuadrada (para RMSE)  
- `np.sum()`: Suma los elementos de un array  
- `np.polyfit()`, `np.poly1d()`: Ajustan polinomios a datos (para líneas de tendencia)  
- `np.max()`, `np.min()`: Encuentran el valor máximo y mínimo de un array  

### Pandas

- `pd.read_csv()`: Lee datos desde un archivo CSV  
- `dataframe.head()`: Muestra las primeras filas de un DataFrame  
- `dataframe.describe()`: Genera estadísticas descriptivas (media, desviación, mín, máx, etc.)  
- `dataframe.corr()`: Calcula la matriz de correlación entre columnas numéricas  
- `dataframe.select_dtypes()`: Filtra columnas por tipo de datos  
- `dataframe.shape`: Devuelve las dimensiones (filas, columnas) del DataFrame  
- `dataframe.isnull().sum()`: Cuenta valores faltantes por columna  
- `dataframe[columna]`: Selecciona una columna específica  
- `dataframe.values`: Convierte el DataFrame a un array NumPy  
- `series.sort_values()`: Ordena los valores de una Series  
- `series.index`: Accede al índice de una Series (nombres de columnas)  
- `series.iloc[]`: Selecciona elementos por posición  

### Matplotlib / Seaborn

- `plt.figure(figsize=())`: Crea una nueva figura con tamaño específico  
- `plt.subplot()`: Crea subgráficos en una disposición de rejilla  
- `plt.scatter()`: Crea gráficos de dispersión (puntos XY)  
- `plt.plot()`: Dibuja líneas o puntos conectados (para líneas de tendencia)  
- `plt.hist()`: Crea histogramas (para visualizar distribuciones)  
- `plt.axhline()`, `plt.axvline()`: Dibuja líneas horizontales o verticales de referencia  
- `plt.xlabel()`, `plt.ylabel()`: Establecen etiquetas para los ejes  
- `plt.title()`: Establece el título del gráfico  
- `plt.grid()`: Activa o desactiva la cuadrícula  
- `plt.legend()`: Añade una leyenda al gráfico  
- `plt.annotate()`: Añade anotaciones con flechas  
- `plt.tight_layout()`: Ajusta automáticamente el espaciado entre subgráficos  
- `plt.show()`: Muestra el gráfico  
- `fig.delaxes()`: Elimina un eje específico de una figura  
- `ax.set_xlabel()`, `ax.set_ylabel()`: Establecen etiquetas en un eje específico  
- `ax.set_title()`: Establece el título de un subgráfico específico  
- `plt.axis('equal')`: Igual escala en los ejes X e Y  
- `sns.heatmap()`: Crea mapas de calor (útil para visualizar matrices de correlación)  

### Scikit-learn

- `train_test_split()`: Divide los datos en conjuntos de entrenamiento y prueba  
- `StandardScaler()`: Estandariza características (media 0, desviación estándar 1)  
- `scaler.fit_transform()`: Ajusta el escalador a los datos y los transforma  
- `scaler.transform()`: Aplica la transformación con los parámetros ya ajustados  
- `mean_squared_error()`: Calcula el Error Cuadrático Medio entre predicciones y valores reales  

### Operaciones de Formato y Visualización

- `display()`: Función especial de Jupyter para mostrar objetos de manera elegante  
- `f-strings`: Formato moderno de cadenas en Python (`f"Valor: {variable:.2f}"`)  
- `:,.2f`: Formato para mostrar números con comas en los miles y dos decimales  
- `enumerate()`: Añade un índice a cualquier iterable (muy útil en bucles `for`)  
- `print()`: Muestra texto o resultados en la consola  
- `reshape(-1, 1)`: Convierte un array unidimensional en una matriz columna (necesario en algunos modelos)

## Métodos de Manipulación de Datos

### Filtrados y Transformaciones

- `filter()`: Filtra elementos de un iterable según una condición dada.
- `map()`: Aplica una función a todos los elementos de un iterable.
- `reduce()`: Aplica una función acumulativa a los elementos de un iterable.
- `lambda`: Permite crear funciones anónimas en una sola línea.
- `zip()`: Combina múltiples iterables en tuplas.

### Funciones de Archivos y Directorios

- `open()`: Abre un archivo para lectura o escritura.
- `read()`: Lee el contenido de un archivo.
- `write()`: Escribe contenido en un archivo.
- `os.path.join()`: Une varias rutas de archivo en una sola.
- `os.listdir()`: Lista los archivos y directorios en una ruta dada.

## Ventajas y Limitaciones de la Ecuación Normal

### Ventajas
- Solución directa (no iterativa)  
- Garantiza encontrar el mínimo global  
- No requiere hiperparámetros  
- Determinista y fácil de implementar  

### Limitaciones
- Costosa para grandes conjuntos de datos  
- Problemas con matrices mal condicionadas  
- No funciona bien con multicolinealidad  
- Inviable cuando hay más características que ejemplos  

Esta guía resume los pasos esenciales, herramientas de Python y métricas clave para implementar y evaluar un modelo de regresión lineal múltiple usando la ecuación normal.
