# Exploración de datos básicos

Cargue y comprenda sus datos.

### Usando Pandas para familiarizarse con sus datos

El primer paso en cualquier proyecto de aprendizaje automático es familiarizarse con los datos. Utilizarás la biblioteca Pandas para esto. Pandas es la principal herramienta que utilizan los científicos de datos para explorar y manipular datos. La mayoría de la gente abrevia pandas en su código como pd. Esto lo hacemos con el comando

In [1]:
import pandas as pd

La parte más importante de la biblioteca Pandas es el DataFrame. Un DataFrame contiene el tipo de datos que podría considerar una tabla. Esto es similar a una hoja en Excel o una tabla en una base de datos SQL.

Pandas tiene métodos poderosos para la mayoría de las cosas que querrás hacer con este tipo de datos.

Como ejemplo, veremos datos sobre los precios de las viviendas en Melbourne, Australia. En los ejercicios prácticos, aplicará los mismos procesos a un nuevo conjunto de datos, que tiene precios de viviendas en Iowa.

Los datos de ejemplo (Melbourne) se encuentran en la ruta del archivo ../input/melbourne-housing-snapshot/melb_data.csv.

Cargamos y exploramos los datos con los siguientes comandos:

In [2]:
# save filepath to variable for easier access
melbourne_file_path = 'melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


### Interpretación de la descripción de los datos

Los resultados muestran 8 números para cada columna en su conjunto de datos original. El primer número, el recuento, muestra cuántas filas tienen valores no faltantes.

Los valores faltantes surgen por muchas razones. Por ejemplo, el tamaño del segundo dormitorio no se recopilaría al inspeccionar una casa de 1 dormitorio. Volveremos al tema de los datos faltantes.

El segundo valor es la media, que es el promedio. Debajo de eso, std es la desviación estándar, que mide qué tan dispersos numéricamente están los valores.

Para interpretar los valores mínimo, 25 %, 50 %, 75 % y máximo, imagine ordenar cada columna del valor más bajo al más alto. El primer valor (el más pequeño) es el mínimo. Si recorre un cuarto de la lista, encontrará un número que es mayor que el 25% de los valores y menor que el 75% de los valores. Ese es el valor del 25% (pronunciado "percentil 25"). Los percentiles 50 y 75 se definen de manera análoga y el máximo es el número más grande.

# Ejercicios

Este ejercicio pondrá a prueba su capacidad para leer un archivo de datos y comprender las estadísticas sobre los datos.

En ejercicios posteriores, aplicará técnicas para filtrar los datos, crear un modelo de aprendizaje automático y mejorar iterativamente su modelo.

Los ejemplos del curso utilizan datos de Melbourne. Para asegurarse de que puede aplicar estas técnicas por su cuenta, deberá aplicarlas a un nuevo conjunto de datos (con precios de viviendas de Iowa).

Los ejercicios utilizan un entorno de codificación "cuaderno". En caso de que no estés familiarizado con las notebooks, tenemos un video de introducción de 90 segundos.

Ejecute la siguiente celda para configurar la verificación de código, que verificará su trabajo a medida que avanza.

In [None]:
# Set up code checking
# from learntools.core import binder
# binder.bind(globals())
# from learntools.machine_learning.ex2 import *
# print("Setup Complete")

### Paso 1: Cargando datos

Lea el archivo de datos de Iowa en un Pandas DataFrame llamado home_data.

In [None]:
import pandas as pd

# Path of the file to read
iowa_file_path = '../input/home-data-for-ml-course/train.csv'

# Fill in the line below to read the file into a variable home_data
home_data = pd.read_csv(iowa_file_path) 

### Paso 2: revisar los datos

Utilice el comando que aprendió para ver estadísticas resumidas de los datos. Luego complete las variables para responder las siguientes preguntas

In [None]:
home_data.describe()

In [None]:
# ¿Cuál es el tamaño de lote promedio (redondeado al número entero más cercano)?
avg_lot_size = 10517

# A partir de hoy, ¿cuántos años tiene la casa más nueva (año actual: la fecha en que se construyó)?
newest_home_age = 1872

### Piense en sus datos

La casa más nueva en tus datos no es tan nueva. Algunas posibles explicaciones para esto:

No han construido casas nuevas donde se recogieron estos datos.
Los datos fueron recopilados hace mucho tiempo. Las casas construidas después de la publicación de los datos no aparecieron.
Si el motivo es la explicación # 1 anterior, ¿eso afecta su confianza en el modelo que construye con estos datos? ¿Qué pasa si es la razón # 2?

¿Cómo podrías profundizar en los datos para ver qué explicación es más plausible?