## Práctica

Puedes utilizar este notebook para analisar el dataset propuesto

## 1. Carga y preparación inicial del dataset

En esta sección:

- Importamos las librerías necesarias
- Cargamos el dataset con `fetch_california_housing()`
- Construimos el DataFrame principal
- Visualizamos sus primeras filas
- Revisamos tipos de datos y valores faltantes


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing


In [None]:
housing = fetch_california_housing()

df_california = pd.DataFrame(housing.data, columns=housing.feature_names)
df_california["MedHouseVal"] = housing.target

df_california.head()

In [None]:
df_california.dtypes


In [None]:
df_california.isna().sum()


##  2. Obtención de valores mínimos y máximos

Antes de aplicar filtros, obtenemos los valores extremos de las variables
numéricas que vamos a utilizar:

- **HouseAge** → Edad mediana de las casas
- **Latitude** → Latitud geográfica

Esto permite definir rangos de filtrado realistas.


In [None]:
age_min = df_california["HouseAge"].min()
age_max = df_california["HouseAge"].max()

age_min, age_max


In [None]:
lat_min = df_california["Latitude"].min()
lat_max = df_california["Latitude"].max()

lat_min, lat_max


## 3. Definición de los filtros del usuario

En esta parte simulamos los valores que seleccionaría el usuario en la
aplicación Streamlit:

- Rango de `HouseAge`
- Límite inferior de `Latitude`

Esto permite reproducir el mismo comportamiento interactivo pero de manera
manual en el notebook.


In [None]:
houseage_user_min = 10
houseage_user_max = 40

lat_user_min = 34


## 4. Aplicación de filtros al DataFrame

Aplicamos los filtros definidos anteriormente para obtener un subconjunto del
dataset original.
El objetivo es trabajar solo con los datos que cumplen las condiciones
establecidas por el usuario.


In [None]:
df_filtrado = df_california[
    (df_california["HouseAge"] >= houseage_user_min) &
    (df_california["HouseAge"] <= houseage_user_max) &
    (df_california["Latitude"] >= lat_user_min)].copy()

df_filtrado.head(), df_filtrado.shape

## 5. Estadísticos descriptivos del valor de la vivienda (`MedHouseVal`)

Una vez filtrados los datos, calculamos las principales métricas descriptivas:

- **Mediana**
- **Rango (máx - mín)**

Estos valores permiten una primera interpretación del comportamiento del precio
de la vivienda bajo las condiciones de filtrado.


In [None]:
valores = df_filtrado["MedHouseVal"].values

mediana = np.median(valores)
rango = valores.max() - valores.min()

mediana, rango


In [None]:
media = valores.mean()
desvio = valores.std()

media, desvio


## 6. Histograma del valor de la vivienda

El histograma permite observar la **distribución** de la variable `MedHouseVal`
luego del filtrado.
Nos ayuda a identificar concentración de valores, sesgos y dispersión general.


In [None]:
plt.hist(df_filtrado["MedHouseVal"], bins=30)
plt.xlabel("MedHouseVal")
plt.ylabel("Frecuencia")
plt.title("Histograma del valor de la vivienda (filtrado)")
plt.show()


## 7. Scatter Plot entre dos variables numéricas

Este gráfico permite estudiar la relación entre dos variables del dataset.

Por defecto analizamos:

- `HouseAge` (eje X)
- `MedHouseVal` (eje Y)

Este tipo de visualización muestra patrones, tendencias y posibles correlaciones.


In [None]:
plt.scatter(df_filtrado["HouseAge"], df_filtrado["MedHouseVal"], alpha=0.5)
plt.xlabel("HouseAge")
plt.ylabel("MedHouseVal")
plt.title("Relación entre HouseAge y MedHouseVal")
plt.show()


In [None]:
cols = df_filtrado.columns.tolist()
cols


In [None]:
col_x = "AveRooms"
col_y = "MedHouseVal"

plt.scatter(df_filtrado[col_x], df_filtrado[col_y], alpha=0.5)
plt.xlabel(col_x)
plt.ylabel(col_y)
plt.title(f"{col_x} vs {col_y}")
plt.show()


In [None]:
df_filtrado["MedHouseVal"].describe()
