## Obtener los datos

### Descargar los datos

In [1]:
import os
import tarfile
import urllib.request

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    os.makedirs(housing_path, exist_ok=True)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()

In [2]:
fetch_housing_data()

Al llamar a `fetch_housing_data`, esta función crea un directorio `datasets/housing` en el espacio de trabajo, descarga el archivo `housing.tgz` desde la URL especificada y extrae su contenido en dicho directorio, incluyendo el archivo `housing.csv`.

A continuación, vamos a cargar estos datos utilizando `pandas`. Para facilitar su reutilización, es útil definir una función que gestione la carga de los datos:

In [3]:
import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, 'housing.csv')
    return pd.read_csv(csv_path)

Esta función devuelve un objeto `DataFrame` de pandas que contiene todos los datos.

# Echar un vistazo rápido a la estructura de los datos

Vamos a fijarnos en las cinco filas superiores utilizando el método `head()` de `DataFrame`

In [4]:
housing = load_housing_data()
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


Cada fila representa un distrito en California con 10 atributos que brindan información demográfica y económica. Estos datos permiten analizar las características de la vivienda en relación con la geografía y la proximidad al océano, facilitando análisis del mercado inmobiliario y estudios socioeconómicos.

| Atributo            | Descripción                                                                                                                                       | Tipo de Dato          | Ejemplo                  |
|---------------------|---------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|--------------------------|
| **longitude**       | Longitud geográfica del distrito en grados, indicando la posición este-oeste.                                                                     | Numérico (float)       | -122.23                  |
| **latitude**        | Latitud geográfica del distrito en grados, indicando la posición norte-sur.                                                                       | Numérico (float)       | 37.88                    |
| **housing_median_age** | Mediana de la antigüedad de las viviendas en el distrito, medida en años, representando la edad promedio de las viviendas.                   | Numérico (int)         | 15                       |
| **total_rooms**     | Número total de habitaciones en todas las viviendas del distrito (incluye todas las habitaciones como dormitorios y salas de estar).             | Numérico (int)         | 880                      |
| **total_bedrooms**  | Número total de dormitorios en todas las viviendas del distrito, excluyendo otras habitaciones.                                                   | Numérico (int)         | 129                      |
| **population**      | Población total en el distrito, representando el número total de personas que viven en todas las viviendas de ese distrito.                       | Numérico (int)         | 322                      |
| **households**      | Número total de hogares en el distrito; un hogar se define como una unidad familiar o personas que viven juntas en la misma vivienda.           | Numérico (int)         | 126                      |
| **median_income**   | Mediana de los ingresos de los hogares en el distrito, medido en múltiplos de 10,000. Por ejemplo, `3.5` representa un ingreso de $35,000.              | Numérico (float)       | 3.56                     |
| **median_house_value** | Mediana del valor de las viviendas en el distrito, en dólares, representando el precio promedio de las viviendas y útil como variable objetivo.   | Numérico (float)       | 452600                   |
| **ocean_proximity** | Proximidad del distrito al océano, una variable categórica que indica la cercanía, con valores como `'<1H OCEAN'`, `'INLAND'`, `'NEAR OCEAN'`. | Categórico (str)       | `<1H OCEAN`              |

El método `info` es útil para obtener una descripción rápida de los datos, en particular el número total de filas, el tipo de cada atributo y el número de valors no nulos.

In [5]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB
