# Análisis Predictivo de Precios de Viviendas en California

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

## Carga de Datos
Cargamos el archivo `housing.csv` y mostramos las primeras filas y la información general del DataFrame.

In [None]:
df = pd.read_csv('housing.csv')
print(df.head())
print(df.info())

## Preprocesamiento de Datos
Como identificamos anteriormente, la columna `total_bedrooms` tiene valores nulos. Los rellenaremos con la mediana de la columna.

In [None]:
median = df['total_bedrooms'].median()
df['total_bedrooms'].fillna(median, inplace=True)
print(df.info())

## Mapeo de Datos Categóricos
La columna `ocean_proximity` es categórica. Usaremos One-Hot Encoding para convertirla en variables numéricas.

In [None]:
df_encoded = pd.get_dummies(df, columns=['ocean_proximity'], drop_first=True)
print(df_encoded.head())

## Visualización de Datos

### Histograma de `median_house_value`

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(df['median_house_value'], bins=50, kde=True)
plt.title('Distribución de Median House Value')
plt.xlabel('Median House Value')
plt.ylabel('Frecuencia')
plt.show()

### Precios de Vivienda por Ubicación Geográfica

In [None]:
plt.figure(figsize=(12, 10))
sns.scatterplot(x='longitude', y='latitude', data=df, hue='median_house_value', palette='viridis', s=20, alpha=0.6)
plt.title('Precios de Vivienda por Ubicación Geográfica')
plt.xlabel('Longitud')
plt.ylabel('Latitud')
plt.legend(title='Median House Value')
plt.show()

### Matriz de Correlación

In [None]:
plt.figure(figsize=(14, 10))
corr_matrix = df_encoded.corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de Correlación')
plt.show()

## Entrenamiento del Modelo Predictivo

In [None]:
X = df_encoded.drop('median_house_value', axis=1)
y = df_encoded['median_house_value']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
model = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1)
model.fit(X_train, y_train)

## Evaluación del Modelo

In [None]:
predictions = model.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, predictions))
print(f'Root Mean Squared Error (RMSE): {rmse}')

## Conclusión
El RMSE nos da una idea de cuán lejos están nuestras predicciones del valor real. Un valor más bajo es mejor. Este notebook proporciona un flujo de trabajo completo, desde la limpieza de datos hasta la creación y evaluación de un modelo predictivo. Puedes experimentar con diferentes modelos o ajustar los parámetros para intentar mejorar los resultados.