# Análisis exploratorio de datos (EDA)

> EDA (_Exploratory Data Analysis_) se entiende como una filosofía de análisis de datos en la que el investigador examina los datos sin ideas preconcebidas para descubrir qué pueden decirle los datos sobre los fenómenos que se están estudiando.
>
>-Tukey, J. W. (1977). Exploratory Data Analysis (Vol. 2). Reading, MA.

- Hoy no existe un proceso estándar para realizar EDA.

Desde la práctica, EDA se puede abordar de acuerdo con las siguientes fases:

1. Identificación del tipo de información y de las entidades del _dataset_.
1. Diagnóstico y calidad de los datos.
1. Transformación y Visualización.
1. Agrupación y agregación de variables.

## Descripción caso de estudio

La agencia de Protección Ambiental Americana (EPA) tiene como función realizar el análisis de los vehículos nuevos que se venden en EEUU y el estudio de la emisión de contaminación.

La información sobre el consumo de combustible de los vehículos se encuentra disponible para su descarga en diferentes formatos.

- [Archivo original](https://www.fueleconomy.gov/feg/epadata/vehicles.csv.zip)
- [Descripcion](http://www.fueleconomy.gov/feg/ws/index.shtml#ft7)

__NOTA__: El archivo usado en este documento es una versión modificada del original (con menos columnas).

## Fase 1: Identificación de los datos

In [1]:
import pandas as pd
vehiculos = pd.read_csv("./dataset/vehicles_original.csv")
vehiculos.head(3)

Unnamed: 0,make,model,year,displ,cylinders,trany,drive,VClass,fuelType,comb08,co2TailpipeGpm
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,17,522.764706
1,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,17,522.764706
2,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,13,683.615385


In [2]:
vehiculos.shape

(38436, 11)

En general, resulta conveniente renombrar las columnas y asignar nombres descriptivos a las variables.

In [3]:
vehiculos = vehiculos.rename(columns={
    "cylinders":"cilindros",
    "trany":"transmision",
    "make":"fabricante",
    "model":"modelo",
    "displ":"desplazamiento",   # volumen de desplazamiento del motor
    "drive":"traccion",
    "VClass":"clase",
    "fuelType":"combustible",
    "comb08":"rendimiento",     # en MPG (miles per galon)
    "co2TailpipeGpm":"co2",     # tailpipe CO2 in grams/mile
})
vehiculos.head(3)

Unnamed: 0,fabricante,modelo,year,desplazamiento,cilindros,transmision,traccion,clase,combustible,rendimiento,co2
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,17,522.764706
1,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,17,522.764706
2,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,13,683.615385


In [4]:
vehiculos.dtypes

fabricante         object
modelo             object
year                int64
desplazamiento    float64
cilindros         float64
transmision        object
traccion           object
clase              object
combustible        object
rendimiento         int64
co2               float64
dtype: object

Se __recomienda__ que después de cada tratamiento relevante a los datos, almacenar el _dataset_ con los cambios generados. Así, no se modifican los datos originales.

In [5]:
vehiculos.to_csv("./output/vehiculos-1-procesado_inicial.csv", index=False)

### Identificación de la entidades

Lo importante para iniciar con un análisis básico de datos, consiste en definir el __objetivo del análisis__.

Para el presente caso de estudio, uno de los objetivos de la EPA (creadores del _dataset_)  es monitorear la emisiones de contaminantes (co2) por los vehiculos.

La __entidad a estudiar__ (emisión de contaminantes por vehículo), puede ser difina a partir de:

- fabricante
- fabricante + modelo
- `fabricante + modelo + año`
- fabricante + año

La entidad __NO debe repetirse__ en el _dataset_.