# Caso de uso del Análisis de Datos

En este estudio vamos a analizar el conjunto de datos para la calidad del aire descrito en http://archive.ics.uci.edu/ml/datasets/Air+Quality.

Comenzaremos por importar los datos, y hacer algunas gráficas para ver el comportamiento de los datos.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Vamos a cargar los datos en un `DataFrame` desde el archivo `csv` ubicado en la computadora o directo del servidor.

In [14]:
df = pd.read_csv("http://badillosoft.com/air_quality.csv", sep=";")

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9471 entries, 0 to 9470
Data columns (total 17 columns):
Date             9357 non-null object
Time             9357 non-null object
CO(GT)           9357 non-null object
PT08.S1(CO)      9357 non-null float64
NMHC(GT)         9357 non-null float64
C6H6(GT)         9357 non-null object
PT08.S2(NMHC)    9357 non-null float64
NOx(GT)          9357 non-null float64
PT08.S3(NOx)     9357 non-null float64
NO2(GT)          9357 non-null float64
PT08.S4(NO2)     9357 non-null float64
PT08.S5(O3)      9357 non-null float64
T                9357 non-null object
RH               9357 non-null object
AH               9357 non-null object
Unnamed: 15      0 non-null float64
Unnamed: 16      0 non-null float64
dtypes: float64(10), object(7)
memory usage: 1.2+ MB
None


## Pre-procesamiento de datos

Algunas columnas como la columna `CO(GT)` tiene valores numéricos en un formato estándar holandés del tipo `x,y` para referirse al numéro `x.y`, por lo que vamos a aplicar un mapeo que reemplace la `,` por `.` y convierta la cadena a flotante.

In [19]:
def clear_format(s):
    return float(str(s).replace(",", "."))

#df["X"] = df["X"].map(lambda s: float(str(s).replace(",", ".")))
df["CO(GT)"] = df["CO(GT)"].map(clear_format)
df["T"] = df["T"].map(clear_format)
df["RH"] = df["RH"].map(clear_format)
df["AH"] = df["AH"].map(clear_format)

In [20]:
print(df.head())

         Date      Time  CO(GT)  PT08.S1(CO)  NMHC(GT) C6H6(GT)  \
0  10/03/2004  18.00.00     2.6       1360.0     150.0     11,9   
1  10/03/2004  19.00.00     2.0       1292.0     112.0      9,4   
2  10/03/2004  20.00.00     2.2       1402.0      88.0      9,0   
3  10/03/2004  21.00.00     2.2       1376.0      80.0      9,2   
4  10/03/2004  22.00.00     1.6       1272.0      51.0      6,5   

   PT08.S2(NMHC)  NOx(GT)  PT08.S3(NOx)  NO2(GT)  PT08.S4(NO2)  PT08.S5(O3)  \
0         1046.0    166.0        1056.0    113.0        1692.0       1268.0   
1          955.0    103.0        1174.0     92.0        1559.0        972.0   
2          939.0    131.0        1140.0    114.0        1555.0       1074.0   
3          948.0    172.0        1092.0    122.0        1584.0       1203.0   
4          836.0    131.0        1205.0    116.0        1490.0       1110.0   

      T    RH      AH  Unnamed: 15  Unnamed: 16  
0  13.6  48.9  0.7578          NaN          NaN  
1  13.3  47.7  0.7255 

Para un primer análisis es útil generar un `DataFrame` más limpio, que contenga sólo las columnas utilizadas en el análisis, de esta forma podremos apreciar los datos que serán utilizados para el análisis de forma clara y sin tener conflicto con otras columnas que pudieran tener datos malformados.

In [21]:
df_co = pd.DataFrame(df, columns=["Date", "Time", "CO(GT)", "T", "RH", "AH"])

print(df_co.head())

         Date      Time  CO(GT)     T    RH      AH
0  10/03/2004  18.00.00     2.6  13.6  48.9  0.7578
1  10/03/2004  19.00.00     2.0  13.3  47.7  0.7255
2  10/03/2004  20.00.00     2.2  11.9  54.0  0.7502
3  10/03/2004  21.00.00     2.2  11.0  60.0  0.7867
4  10/03/2004  22.00.00     1.6  11.2  59.6  0.7888
