# Ejemplo de análisis exploratorio de datos

### Introducción

El análisis exploratorio de datos (EDA) permite,

- Identificar de patrones dentro de los datos
- Comprender las relaciones entre las características
- Detectar probables valores atípicos (_outliers_)
- Limpiar los datos
- Comprobar suposiciones subyacentes
- Preparar los datos para procesamiento adicionales (normalización, estandarización, etc.)

Desde la práctica, el EDA se aplicará de acuerdo con las siguientes fases:

1. Identificación del tipo de dato y de las entidades que lo conforman
1. Diagnóstico y calidad de los datos
1. Transformación y Visualización
1. Agrupación y agregación de variables

### Datos

La agencia de Protección Ambiental Americana ([EPA](https://www.epa.gov/otaq/)) tiene entre sus funciones estudiar y analizar la emisión de contaminación de los vehículos que se comercializan en EEUU.

- La información sobre el consumo de combustible de los vehículos se encuentra publicada en diferentes formatos, en el sitio web [fueleconomy.gov](https://www.fueleconomy.gov/).
- Una descripción detallada del conjunto de datos puede ser consultada en el [siguiente enlace](http://www.fueleconomy.gov/feg/ws/index.shtml).

__NOTA:__ Los datos utilizados en ejemplo corresponden a una versión modificada del [archivo original](https://www.fueleconomy.gov/feg/epadata/vehicles.csv.zip) (con menos columnas).

### Identificación de los datos

In [1]:
import pandas as pd
df = pd.read_csv("./data/vehicles_original.csv")
df.head(10)

Unnamed: 0,make,model,year,displ,cylinders,trany,drive,VClass,fuelType,comb08,co2TailpipeGpm
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,17,522.764706
1,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,17,522.764706
2,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,13,683.615385
3,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,13,683.615385
4,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,16,555.4375
5,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,13,683.615385
6,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,16,555.4375
7,Acura,2.2CL/3.0CL,1997,2.2,4.0,Automatic 4-spd,Front-Wheel Drive,Subcompact Cars,Regular,22,403.954545
8,Acura,2.2CL/3.0CL,1997,2.2,4.0,Manual 5-spd,Front-Wheel Drive,Subcompact Cars,Regular,24,370.291667
9,Acura,2.2CL/3.0CL,1997,3.0,6.0,Automatic 4-spd,Front-Wheel Drive,Subcompact Cars,Regular,20,444.35


In [2]:
df.shape

(38436, 11)

En general, resulta conveniente renombrar las columnas y asignar nombres descriptivos a las variables.

In [3]:
vehiculos = df.rename(columns={
    "cylinders":"cilindros",
    "trany":"transmision",
    "make":"fabricante",
    "model":"modelo",
    "displ":"desplazamiento",   # volumen de desplazamiento del motor
    "drive":"traccion",
    "VClass":"clase",
    "fuelType":"combustible",
    "comb08":"rendimiento",     # en MPG (miles per galon)
    "co2TailpipeGpm":"co2",     # tailpipe CO2 in grams/mile
})
vehiculos.head(10)

Unnamed: 0,fabricante,modelo,year,desplazamiento,cilindros,transmision,traccion,clase,combustible,rendimiento,co2
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,17,522.764706
1,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,17,522.764706
2,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,13,683.615385
3,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,13,683.615385
4,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,16,555.4375
5,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,13,683.615385
6,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,16,555.4375
7,Acura,2.2CL/3.0CL,1997,2.2,4.0,Automatic 4-spd,Front-Wheel Drive,Subcompact Cars,Regular,22,403.954545
8,Acura,2.2CL/3.0CL,1997,2.2,4.0,Manual 5-spd,Front-Wheel Drive,Subcompact Cars,Regular,24,370.291667
9,Acura,2.2CL/3.0CL,1997,3.0,6.0,Automatic 4-spd,Front-Wheel Drive,Subcompact Cars,Regular,20,444.35


In [4]:
vehiculos.dtypes

fabricante         object
modelo             object
year                int64
desplazamiento    float64
cilindros         float64
transmision        object
traccion           object
clase              object
combustible        object
rendimiento         int64
co2               float64
dtype: object

Se recomienda que, __después de cada tratamiento relevante a los datos, guardar copia de los datos con los cambios generados__. Así, no se modifican los datos originales.

In [5]:
vehiculos.to_csv("./out/vehiculos-1-procesado_inicial.csv", index=False)

### Identificación de la(s) entidad(es)

Lo importante para iniciar con un análisis básico de datos, consiste en definir el __objetivo del análisis__.

Para el presente caso, uno de los objetivos de la EPA (creadores del conjunto de datos) consiste en  monitorear las emisiones de contaminantes (co2) por los vehículos.

Por lo tanto, la __entidad a estudiar__ (emisión de contaminantes por vehículo), puede ser definida por el siguiente conjunto (subconjunto) de atributos:

- fabricante
- fabricante + modelo
- __fabricante + modelo + año__
- fabricante + año

La entidad __debe ser única__ en el conjunto de datos.