# Análisis de precios de viviendas en California

## Objetivo
Explorar y analizar qué factores influyen en el precio de las casas en California,
utilizando técnicas de análisis exploratorio de datos y visualización.

## Dataset
California Housing Dataset

## Descripción del dataset

1. **longitude**: Medida de qué tan al oeste se encuentra una vivienda;
   un valor más alto indica que está más hacia el oeste.

2. **latitude**: Medida de qué tan al norte se encuentra una vivienda;
   un valor más alto indica que está más al norte.

3. **housingMedianAge**: Edad mediana de las viviendas dentro de un bloque;
   un valor más bajo indica construcciones más nuevas.

4. **totalRooms**: Número total de habitaciones dentro de un bloque.

5. **totalBedrooms**: Número total de dormitorios dentro de un bloque.

6. **population**: Número total de personas que residen en un bloque.

7. **households**: Número total de hogares en un bloque
   (grupo de personas que viven en una misma vivienda).

8. **medianIncome**(variable objetivo): Ingreso mediano de los hogares dentro de un bloque,
   medido en decenas de miles de dólares estadounidenses.

9. **medianHouseValue**: Valor mediano de las viviendas dentro de un bloque,
   medido en dólares estadounidenses.

10. **oceanProximity**: Ubicación de la vivienda con respecto al océano o al mar.

## Hipotesis iniciales

1. Las viviendas ubicadas más cerca del océano presentan precios más elevados
   que aquellas ubicadas tierra adentro.

2. Zonas con mayor ingreso medio de los hogares tienden a tener viviendas
   con precios más altos.

3. La edad de las viviendas influye en su precio; las viviendas más nuevas
   podrían ser más costosas debido a mejores materiales y servicios.
   
4. El tamaño de las viviendas, medido a través del número total de habitaciones
   y dormitorios, influye positivamente en el precio de las casas.

5. La densidad poblacional de un bloque, medida a través de la población y la
   cantidad de hogares, puede influir en el precio de las viviendas, dependiendo
   de la ubicación y del nivel de ingresos de la zona.

Un block (bloque censal) es una unidad geográfica usada para agrupar datos. Puede incluir varias viviendas, varias calles, una zona pequeña y relativamente homogénea.




In [2]:
import pandas as pd # trabajar con datasets
import numpy as np # calculo
import matplotlib.pyplot as plt # graficos
import seaborn as sns # plus de matlotlib

## Carga del dataset housing.csv y verificacion de errores

In [None]:
df = pd.read_csv("../data/raw/housing.csv")
df.head() #visualizar las primeras filas del dataset

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [5]:
# Ultimos valores
df.tail()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INLAND


## Exploracion del Dataset

In [None]:
# info general del dataset, cantidad de datos(RangeIndex), columnas, tipos de datos, valores faltantes
df.info()
# object casi siempre significa texto.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


In [None]:
# estadisticas: valores minimos, maximos, no nulos(count), promedio(mean), desviacion estandar(std), cuartiles
df.describe()


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


In [8]:
# valores únicos de la variable categórica 
df['ocean_proximity'].value_counts()

ocean_proximity
<1H OCEAN     9136
INLAND        6551
NEAR OCEAN    2658
NEAR BAY      2290
ISLAND           5
Name: count, dtype: int64

## Observaciones iniciales

El dataset contiene 20.640 registros y 10 variables. La mayoría de las variables son numéricas, mientras que `ocean_proximity` es una variable categórica que representa la ubicación respecto al océano.

Se identifican valores faltantes en la variable `total_bedrooms`, los cuales serán tratados en la etapa de limpieza de datos.
 
Las estadísticas descriptivas muestran una alta variabilidad en los precios de las viviendas, lo que indica que existen zonas más costosas y otras más económicas. Esto sugiere que el precio de una casa no depende de un solo factor, sino de la combinación de distintas características como la ubicación, el nivel de ingresos y la cantidad de viviendas o personas en cada zona.

La desviación estándar elevada en variables como `total_rooms`, `population` y `households` indica una gran diferencia entre los bloques, lo cual sugiere que estas variables podrían influir en el precio de las viviendas en combinación con factores como la ubicacion geografica o niveles de ingreso economico.