En esta sección vamos a hacer un ejemplo completo de como hacer un Análisis Exploratorio de Datos (EDA en inglés).

Hoy en dia no hay un proceso standard a la hora de realizar EDA, pero un proceso que a mi me gusta está basado en el proceso propuesto por Distric Data Labs ([aquí](http://blog.districtdatalabs.com/data-exploration-with-python-1) un blog post, y [aquí](https://www.youtube.com/watch?v=YEBRkLo568Q) una charla sobre el proceso).

In [1]:
%load_ext watermark
%watermark

ModuleNotFoundError: No module named 'watermark'

El archivo original está en: https://www.fueleconomy.gov/feg/epadata/vehicles.csv.zip
El archivo que vamos a usar es una versión modificada (con menos columnas)

Descripcion del dataset
http://www.fueleconomy.gov/feg/ws/index.shtml#ft7


Supongamos que somos la agencia de porteccion ambiental americana, la EPA. Uno de sus trabajos es analizar los coches nuevos que se venden en EEUU y estudiar su contaminacion.

In [2]:
import pandas as pd

In [3]:
%matplotlib notebook

### Lectura de datos

In [4]:
df_consumo = pd.read_csv("Data/dataset-final.csv")

In [5]:
df_consumo.shape

(10149, 57)

In [6]:
df_consumo.head()

Unnamed: 0,directorio,per_sexo,per_edad,vive_padre_hogar,vive_madre_hogar,departamento,municipio,tipo_vivienda,servicio_energia,estrato,...,g_11_j_consumio_alguna_vez_heroina,g_11_j_anios_consumio_heroina,k_03_consumio_marihuana_12m,k_04_frecuencia_consumo_marihuana_12m,l_02_consumio_cocaina_12m,l_03_frecuencia_consumo_cocaina_12m,m_02_consumio_basuco_12m,m_03_frecuencia_consumo_basuco_12m,0_02_consumio_heroina_12m,0_03_frecuencia_consumo_heroina_12m
0,11207,1,19,2,2,Guaviare,SAN JOSÉ DEL GUAVIARE,2,1,2.0,...,2,,,,,,,,,
1,1180,2,51,2,1,Cordoba,MONTERÍA,1,1,1.0,...,2,,,,,,,,,
2,4398,1,52,3,3,Caqueta,FLORENCIA,1,1,2.0,...,2,,,,,,,,,
3,4399,2,39,1,1,Bolivar,CARTAGENA,1,1,5.0,...,2,,,,,,,,,
4,2619,2,27,1,1,Tolima,ESPINAL,1,1,2.0,...,2,,,,,,,,,


Es conveniente renombrar las columnas y darles un nombre descriptivo

In [7]:
df_consumo.dtypes

directorio                                        int64
per_sexo                                          int64
per_edad                                          int64
vive_padre_hogar                                  int64
vive_madre_hogar                                  int64
departamento                                     object
municipio                                        object
tipo_vivienda                                     int64
servicio_energia                                  int64
estrato                                         float64
residentes_hogar                                  int64
d_01_aporta_dinero_hogar                          int64
d_02_situacion_actual                             int64
d_08_estado_salud                                 int64
d_09_deprimido                                    int64
d_10_poco_interes                                 int64
d_11_h_riesgo_fumar_marihuana_frecuentemente      int64
d_11_k_riesgo_cocaina_frecuentemente            

In [8]:
df_consumo = df_consumo.rename(columns={
    "d_11_h_riesgo_fumar_marihuana_frecuentemente":"d_11_h_conocimiento_riesgo_fumar_marihuana_frecuentemente",
    "d_11_k_riesgo_cocaina_frecuentemente":"d_11_k_conocimiento_riesgo_cocaina_frecuentemente",
    "d_11_n_riesgo_fumar_basuco_frecuentemente":"d_11_n_conocimiento_riesgo_fumar_basuco_frecuentemente",
    "d_12_b_consumo_sp_barrio":"d_12_b_presenta_problema_consumo_sp_barrio",
    "d_12_c_expendio_sp_barrio":"d_12_c_presenta_problema_expendio_sp_barrio",
    "0_02_consumio_heroina_12m":"o_02_consumio_heroina_12m",
    "0_03_frecuencia_consumo_heroina_12m":"o_03_frecuencia_consumo_heroina_12m",
})

In [9]:
df_consumo.dtypes

directorio                                                     int64
per_sexo                                                       int64
per_edad                                                       int64
vive_padre_hogar                                               int64
vive_madre_hogar                                               int64
departamento                                                  object
municipio                                                     object
tipo_vivienda                                                  int64
servicio_energia                                               int64
estrato                                                      float64
residentes_hogar                                               int64
d_01_aporta_dinero_hogar                                       int64
d_02_situacion_actual                                          int64
d_08_estado_salud                                              int64
d_09_deprimido                    

**¿Cual es el objetivo de este análisis?**

Un aspecto importante que me gusta siempre tener claro al empezar un EDA es saber el objetivo del mismo. Generalmente hay una lista de preguntas concretas que responder, o al menos las personas a cargo de recolectar el dataset lo crearon con un objetivo en mente.

En este caso, uno de los objetivos por los cuales la EPA crea este dataset es para identificar factores de riesgo relacionadas al consumo de sustancias por parte de las personas, 


en este caso las variables que miden el consumo de marihuana, cocaina y bazuco

### Descripcion de entidad

- Departamento-municipio
- tipo_vivienda-servicio_energia
- tipo_vivienda-estrato
- tipo_vivienda-residentes_hogar

### Despues de cada paso es importante guardar el dataset. Asi no modificamos el original

In [10]:
df_consumo.to_csv("Data/df_consumo.1.procesado_inicial.csv", index=False)