# Introducción al Aprendizaje Automático.

## Exploración básica de datos

### Usando Pandas para familiarizarse con los datos

El primer paso en cualquier proyecto de aprendizaje automático es familiarizarse con los datos. Usaremos la biblioteca Pandas para esto. Pandas es la herramienta principal de datos que los científicos usan para explorar y manipular datos. La mayoría de las personas abrevian pandas en su código como `pd`. Hacemos esto con el comando

In [1]:
import pandas as pd

La parte más importante de la biblioteca Pandas es el DataFrame. Un DataFrame contiene el tipo de datos que podría considerar como una tabla. Esto es similar a una hoja en Excel o una tabla en una base de datos SQL.

Pandas tiene métodos poderosos para la mayoría de las cosas que querrás hacer con este tipo de datos.

Como ejemplo, veremos datos sobre los precios de la vivienda en Melbourne, Australia. En los ejercicios prácticos, aplicaremos los mismos procesos a un nuevo conjunto de datos, que tiene los precios de las viviendas en Iowa.

Los datos de ejemplo (Melbourne) están en la ruta del archivo **`../input/melbourne-housing-snapshot/melb_data.csv.`**

Cargamos y exploramos los datos con los siguientes comandos:

In [2]:
# guarda el filepath en una variable para facilitar el acceso
melbourne_file_path = "./input/melbourne-housing-snapshot/melb_data.csv"
# lee los datos y los almacena en un dataframe llamado melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# muestra un resumen de los datos de Melbourne data
melbourne_data.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


### Interpretando la Descripción de los Datos

Los resultados muestran 8 números para cada columna en su conjunto de datos original. El primer número, **count**, muestra cuántas filas tienen valores no faltantes.

Los valores ausentes surgen por muchas razones. Por ejemplo, el tamaño de la segunda habitación no se recogería al inspeccionar una casa de 1 habitación. Volveremos al tema de los datos ausentes.

El segundo valor es la **media** (mean), que es el promedio. Debajo de eso, **std** es la desviación estándar, que mide la dispersión numérica de los valores.

Para interpretar los valores **min, 25%, 50%, 75%** y **max**, imagina ordenar cada columna del valor más bajo al más alto. El primer valor (el más pequeño) es el mínimo. Si recorre un cuarto de camino en la lista, encontrarás un número que es mayor que el 25% de los valores y menor que el 75% de los valores. Ese es el valor del **25%** (pronunciado "percentil 25"). Los percentiles 50 y 75 se definen de forma análoga, y el máximo es el número más grande.

## Ejemplo

Este ejercicio pondrá a prueba tu capacidad para leer un archivo de datos y comprender estadísticas sobre los datos.

### Paso 1. Cargando los datos

Leemos el fichero de datos de Iowa en un dataframe de Pandas llamado `home_data`.

In [3]:
import pandas as pd

# Path del archivo a leer
iowa_file_path = "./input/melbourne-housing-snapshot/train.csv"
# lee los datos y los almacena en un dataframe llamado home_data
home_data = pd.read_csv(iowa_file_path)

### Paso 2. Revisar los datos

In [4]:
home_data.describe()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,730.5,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,421.610009,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,365.75,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,730.5,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,1095.25,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,1460.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


¿Cuál es el promedio de LotArea? = 10516 (Explicación: media de LotArea)

¿A partir de hoy, cuántos años tiene la casa más nueva (año actual - la fecha en la que se construyó)? = 9 (Explicación: 2019 - Max de YearBuilt)