<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/taca/blob/main/ref/geron/chap_2/3_Get_Data/Get_the_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/taca/blob/main/ref/geron/chap_2/3_Get_Data/Get_the_data.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

# Get the data

In [2]:
import pandas as pd
housing = pd.read_csv('housing.csv')

# Un vistazo a ellos

Hay 10 atributos (puedes ver los primeros 9 en la captura de pantalla):  
* `longitude`, `latitude`, `housing_median_age`, `total_rooms`, `total_bedrooms`, 
* `population`, `households`, `median_income`, `median_house_value`, y `ocean_proximity`.

El método `info()` es útil para obtener una descripción rápida de los datos, en particular 
* el número total de filas,   
* el tipo de cada atributo y   
* el número de valores `no nulos`

In [None]:
housing.info() 

Hay 20,640 instancias en el conjunto de datos, 
* lo que significa que es bastante pequeño para los estándares de Machine Learning, 
* pero es perfecto para comenzar.

* Observe que el atributo `total_bedrooms` tiene solo 20,433 valores no nulos, 
* lo que significa que 207 distritos carecen de esta característica.

Tendremos que ocuparnos de esto más tarde.

Todos los atributos son numéricos, excepto el campo `ocean_proximity`.

Su tipo es `object`, por lo que podría contener cualquier tipo de objeto Python.

Pero como cargó estos datos desde un archivo CSV, sabe que debe ser un atributo de texto.

Cuando miró las cinco filas superiores, probablemente notó que los valores en la columna `ocean_proximity` eran repetitivos, lo que significa que probablemente sea un atributo categórico.

Puede averiguar 
* qué categorías existen y   
* cuántos distritos pertenecen a cada categoría utilizando el método `value_counts()`:

In [None]:
housing['ocean_proximity'].value_counts() 

Veamos los otros campos.

El método `describe()` muestra un resumen de los atributos numéricos.

In [None]:
housing.describe() 

Las filas de 

* recuento (`count`), 
* media (`mean`),   
* mínima (`min`) y   
* máxima (`max`)  

se explican por sí mismas.

Tenga en cuenta que los valores nulos se ignoran (por ejemplo, el recuento de `total_bedrooms` es 20,433, no 20.640).

La fila `std` muestra la desviación estándar, que mide qué tan dispersos están los valores.

Las filas $25\%$, $50\%$ y $75\%$ muestran los percentiles correspondientes: 
* un percentil indica el valor por debajo del cual cae un porcentaje determinado de observaciones en 
  un grupo de observaciones.

Por ejemplo, el 25% de los distritos tiene una "edad media de vivienda" (`housing_media_age`) menor de 18, mientras que el 50% tiene menos de 29 y el 75% tiene menos de 37.

Estos a menudo se denominan percentil 25 (o primer cuartil), mediana y percentil 75 (o tercer cuartil).

Otra forma rápida de tener una idea del tipo de datos con los que está tratando es trazar un histograma para cada atributo numérico.

Un histograma muestra el número de instancias (en el eje vertical) que tienen un rango de valores dado (en el eje horizontal).

Puede trazar este atributo a la vez, o puede llamar al método `hist()` en todo el conjunto de datos (como se muestra en el siguiente ejemplo de código), y trazará un histograma para cada atributo numérico. 

In [None]:
%matplotlib inline    
import matplotlib.pyplot as plt
plt.style.use('dark_background') 
  
housing.hist(bins=50, figsize = (25,15))
plt.show()

## Nota

El método `hist()` se basa en Matplotlib, que a su vez se basa en un backend gráfico especificado por el usuario para dibujar en su pantalla.

1. Primero, el atributo de ingreso medio no parece estar expresado en dólares estadounidenses (USD).
   Después de consultar con el equipo que recopiló los datos, se le informa que los datos se han 
   escalado y con un tope de 15 (en realidad, 15.0001) para ingresos medios más altos, y en 0.5 (en 
   realidad, 0.4999) para ingresos medios más bajos. Los números representan aproximadamente decenas de
   miles de dólares (por ejemplo, 3 en realidad significa alrededor de $ 30,000). Trabajar con 
   atributos preprocesados es común en Machine Learning, y no es necesariamente un problema, pero debe 
   intentar comprender cómo se calcularon los datos.

2. También se limitaron la edad media de la vivienda y el valor medio de la vivienda. Este último puede ser un problema grave ya que es su atributo de destino (sus etiquetas). Sus algoritmos de aprendizaje automático pueden aprender
   que los precios nunca superen ese límite. Debe consultar con su equipo cliente (el equipo que
   use la salida de su sistema) para ver si esto es un problema o no. Si te dicen que necesitan
   predicciones precisas incluso más allá de undefined,000 $, entonces tiene dos opciones:

a. Reúna las etiquetas adecuadas para los distritos cuyas etiquetas fueron tapadas.   
b. Elimine esos distritos del conjunto de capacitación (y también del conjunto de prueba, ya que su sistema no debe evaluarse mal si predice valores más allá de $\$500,000$).

3. Estos atributos tienen escalas muy diferentes. Discutiremos esto más adelante en este capítulo, cuando exploremos el escalado de características.

4. Por último, muchos histogramas tienen una gran cola: se extienden mucho más a la derecha de la mediana que a la izquierda. Esto puede hacer que sea un poco más difícil para algunos algoritmos de aprendizaje automático detectar patrones. Intentaremos transformar estos atributos más adelante para tener más distribuciones en forma de campana.

Es de esperar que ahora comprenda mejor el tipo de datos que está tratando.

## Crear un conjunto de prueba

La creación de un conjunto de prueba es teóricamente simple:  
* elija algunas instancias al azar, generalmente el 20% del conjunto de datos (o menos si su conjunto de datos es muy grande), y   
* déjelas a un lado:

In [None]:
import numpy as np
def split_train_test(data, test_ratio):
    indices_barajados = np.random.permutation(len(data))
    test_set_size = int(len(data)*test_ratio)
    test_indices = indices_barajados[:test_set_size]
    train_indices = indices_barajados[test_set_size:]
    return data.iloc[train_indices], data.iloc[test_indices]

Luego puede usar esta función de esta manera:

In [None]:
train_set, test_set = split_train_test(housing, 0.2)
len(train_set)

In [None]:
len(test_set)

Bueno, esto funciona, pero no es perfecto: si ejecuta el programa nuevamente, ¡generará un conjunto de prueba diferente! Con el tiempo, usted (o sus algoritmos de aprendizaje automático) podrá ver el conjunto de datos completo, que es lo que desea evitar.

Una solución es guardar el conjunto de prueba en la primera ejecución y luego cargarlo en ejecuciones posteriores.

Otra opción es establecer la semilla del generador de números aleatorios (por ejemplo, con `np.random.seed (42)`) antes de llamar a `np.random.permutation()` para que siempre genere los mismos índices mezclados.

Pero ambas soluciones se romperán la próxima vez que obtenga un conjunto de datos actualizado.

Para tener una división de entrenamiento/prueba estable incluso después de actualizar el conjunto de datos, una solución común es usar el identificador de cada instancia para decidir si debe incluirse o no en el conjunto de prueba (asumiendo que las instancias tienen un identificador único e inmutable).

Por ejemplo, puede calcular un hash del identificador de cada instancia y poner esa instancia en el conjunto de prueba si el hash es menor o igual al 20% del valor máximo de hash.

Esto asegura que el conjunto de prueba seguirá siendo consistente en múltiples ejecuciones, incluso si actualiza el conjunto de datos.

El nuevo conjunto de prueba contendrá el 20% de las nuevas instancias, pero no contendrá ninguna instancia que estuviera anteriormente en el conjunto de entrenamiento.