<h1 align="center">Predicción de Precios de Vivienda en California con Regresión Lineal y Logística</h1>

Este notebook presenta dos modelos predictivos: una **regresión lineal multivariada** y una **regresión logística multiclase** aplicados al dataset de viviendas de California. Ambos modelos fueron entrenados utilizando **descenso de gradiente**. Se abordan etapas de análisis exploratorio, preprocesamiento y evaluación de los modelos.

## 1. Carga del Dataset

Cargamos el dataset `housing.csv`, que contiene información sobre viviendas de California. El objetivo es predecir el valor promedio de una casa por distrito.
El dataset contiene variables numéricas como ingresos medios, número de habitaciones, entre otros.

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

In [None]:
# Cargar los datos
file_path = 'housing.csv'
df = pd.read_csv(file_path)
df.head()

## 2. Exploración y Limpieza Inicial

En esta sección se inspeccionan los datos en busca de valores faltantes, duplicados y se observa la distribución general.

In [None]:
df.info()

In [None]:
df.describe()

## 3. Visualización de Datos

Se utilizan gráficos para entender las relaciones entre variables y detectar posibles outliers o patrones relevantes.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Mapa de calor de correlación
plt.figure(figsize=(10, 6))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('Mapa de Calor de Correlación entre Variables')
plt.show()

## 4. Implementación de Modelos

Se implementan dos modelos utilizando **descenso de gradiente**:

- Regresión Lineal Multivariada
- Regresión Logística Multiclase (One-vs-Rest)

In [None]:
# Información general del DataFrame
df.info()

In [None]:
# Estadísticas descriptivas del dataset
df.describe()

## 5. Evaluación de Resultados

Se presentan métricas de rendimiento como el error cuadrático medio y la exactitud, justificando el desempeño de los modelos.

## 6. Conclusiones

Se resume el proceso seguido, se reflexiona sobre los resultados obtenidos y se identifican posibles mejoras futuras.

# Análisis de Precios de Viviendas en California 🏡

Este análisis explora el dataset de precios de viviendas en California. Se incluyen etapas de exploración, visualización y conclusiones clave para comprender mejor los factores que influyen en los precios de las viviendas.



---

## 📌 Conclusión General

El análisis del dataset de precios de viviendas en California revela patrones importantes como:

- Las zonas cercanas al océano tienen precios más altos.
- El número de habitaciones y la densidad poblacional influyen significativamente en el valor de las viviendas.
- Las visualizaciones permiten detectar correlaciones y relaciones no lineales útiles para modelos predictivos futuros.

Este estudio puede ampliarse utilizando modelos de machine learning para predecir precios futuros.


### 📦 Importación de librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

### 📄 Carga y limpieza de datos

In [None]:
df = pd.read_csv("housing.csv")

df = df.dropna()
df = df.drop_duplicates()

### 🔤 Codificación de variables categóricas

In [None]:
df = pd.get_dummies(df, columns=["ocean_proximity"], drop_first=True)

### 📊 Visualización de Datos

In [None]:
plt.figure(figsize=(8, 5))
sns.histplot(df["median_house_value"], kde=True)
plt.title("Distribución de valores de vivienda")
plt.xlabel("Valor medio de vivienda")
plt.ylabel("Frecuencia")
plt.grid(True)
plt.show()

In [None]:
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriz de correlación entre variables")
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.scatterplot(x=df["median_income"], y=df["median_house_value"])
plt.title("Ingreso medio vs. Valor medio de vivienda")
plt.xlabel("Ingreso medio")
plt.ylabel("Valor medio de vivienda")
plt.grid(True)
plt.show()

### 📦 Detección de Outliers (Boxplots)

In [None]:
variables_numericas = ['housing_median_age', 'total_rooms', 'total_bedrooms',
                       'population', 'households', 'median_income']
for var in variables_numericas:
    plt.figure(figsize=(7, 4))
    sns.boxplot(x=df[var])
    plt.title(f"Boxplot de {var}")
    plt.grid(True)
    plt.show()

## 5. Entrenamiento y Evaluación del Modelo

In [None]:
X = df.drop("median_house_value", axis=1)
y = df["median_house_value"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

modelo = LinearRegression()
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)

### 📈 Métricas de Desempeño

In [None]:
print("MSE:", mean_squared_error(y_test, y_pred))
print("MAE:", mean_absolute_error(y_test, y_pred))
print("R² Score:", r2_score(y_test, y_pred))

### 📉 Comparación de valores reales vs. predichos

In [None]:
plt.figure(figsize=(8, 5))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], color='red')
plt.title("Valores Reales vs. Predichos")
plt.xlabel("Valor Real")
plt.ylabel("Valor Predicho")
plt.grid(True)
plt.show()