<center>

# Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones
    
## Práctico # 2. Análisis exploratorio y curación de datos
## <span style="color:red">**Fecha de entrega:** 29 de julio de 2024</span>

</center>

--------------

## Análisis y Predicción de Calidad del Aire en una Zona Urbana: Exploración de Datos Multisensor y Modelado Predictivo

<span style="font-family: Arial, sans-serif; font-size: 16px;">
    
La calidad del aire es un tema importante en la agenda mundial de salud ambiental. Según la OMS (2018), los contaminantes atmosféricos son responsables de 1 de cada 9 muertes. Sin embargo, muchas partes del mundo carecen de datos básicos sobre la calidad del aire. 
    
Este conjunto de datos contiene respuestas de un dispositivo multisensor de gases instalado en una zona significativamente contaminada en Italia. El objetivo es examinar cómo los factores ambientales y la concentración de contaminantes interactúan entre sí. Lo que permitirá comprender el nivel de contaminación del área urbana y utilizar la ciencia de datos para informar estrategias de salud ambiental y recomendaciones prácticas para mejorar la calidad del aire y proteger la salud de las personas que viven allí.  

Los datos fueron tomados de https://archive.ics.uci.edu/dataset/360/air+quality 
    
</span>

## Objetivo del práctico

<span style="font-family: Arial, sans-serif; font-size: 16px;">

En el análisis exploratorio y curación de datos, vamos a realizar la limpieza de los datos y hacer un exploratorio para identificar la información relevante proporcionada por el dataset. 
    
Observaremos detenidamente las variables definitivas con las que trabajaremos y la forma en cómo abordaremos los datos faltantes utilizando técnicas de imputación o eliminación según corresponda, para preservar la integridad de nuestro análisis y encontrar posibles relaciones entre las variables. 
    
Este práctico es importante porque nos facilitará la selección del modelo más adecuado que aborde las preguntas y problemas del proyecto. 

</span>

<span style="font-family: Arial, sans-serif; font-size: 16px;">
    
### Dataset:
    
Consta de 9471 filas y 17 columnas, registrando promedios horarios de respuestas y concentraciones de gases, obtenidas por un analizador certificado mediante sensores químicos de óxido de metal (identificados como PT08.S1, S2, S3, S4 y S5), abarcando un periodo de 1 año a partir del mes de marzo de 2004 y abril de 2005. Los datos faltantes se han codificado como -200.

**Variables a analizar**
    
1. **Fecha** (DD/MM/AAAA)
    
2. **Hora** (HH.MM.SS)
    
3. **CO (GT)**: concentración promedio horaria real de CO en mg/m3 (analizador de referencia)
    
4. **PT08.S1 (óxido de estaño)**: respuesta promedio horaria del sensor (nominalmente objetivo de CO)
    
5. **NMHC (GT)**: concentración total promedio horaria real de hidrocarburos no metánicos en microg/m3 (analizador de referencia)
    
6. **C6H6(GT)**: concentración de benceno promediada por hora real en microg/m3 (analizador de referencia)
    
7. **PT08.S2 (titania)**: respuesta promedio horaria del sensor (nominalmente dirigida a NMHC)
    
8. **NOx(GT)**: concentración de NOx promediada por hora real en ppb (analizador de referencia)
    
9. **PT08.S3 (óxido de tungsteno)**: respuesta promedio horaria del sensor (nominalmente objetivo de NOx)
    
10. **NO2(GT)**: concentración de NO2 promediada por hora real en microg/m3 (analizador de referencia)
    
11. **PT08.S4 (óxido de tungsteno)**: respuesta promedio horaria del sensor (nominalmente objetivo de NO2)
    
12. **PT08.S5 (óxido de indio)**: respuesta promedio horaria del sensor (nominalmente objetivo de O3)
    
13. **T**: Temperatura en °C
    
14. **HR**: Humedad relativa (%)
    
15. **AH**: Humedad Absoluta
    
</span>

### Preguntas a responder en el práctico 2:

<span style="font-family: Arial, sans-serif; font-size: 16px;">

    1.¿Los sensores utilizados en el estudio, están específicamente asociados a la medición de un contaminante en particular?
    
    2. ¿Existe alguna relación entre las condiciones ambientales y la concentración de los contaminantes analizados?
    
    3. ¿Hay correlación significativa entre las concentraciones de CO, C6H6, NMHC, NOx y NO2, y las respuestas de los sensores de gas S1, S2, S3, S4 y S5?

</span>

### Antes de responder las preguntas anteriores, es necesario ponerse de acuerdo en los siguientes puntos para la limpieza de datos. Este proceso es determinante para continuar con el práctico # 3 donde aplicaremos modelos de Machine Learning:

<span style="font-family: Arial, sans-serif; font-size: 16px;">
    
    1. ¿Cómo abordaremos los datos faltantes? valor 0, media, mediana o moda. 
    
    2. ¿Cómo abordaremos los outliers?
    
    3. ¿Qué variables elegiremos para realizar los próximos análisis? ¿en qué criterios nos basaremos?
    
    4. ¿Agregaremos columnas calculadas nuevas? Si decidimos crear columnas nuevas, ¿usaremos una combinación de variables o anexaremos datos nuevos? ¿De qué fuentes los podríamos obtener? - IPco, IPNox, IPNO2 ..., ICA, Incluir info de salud, flujo vehicular, ...
    
</span>

<span style="font-family: Arial, sans-serif; font-size: 16px;">
    
#### Si necesitas descargar el conjunto de datos, acceder al siguiente repositorio:

https://github.com/PatriMiranda/Calidad-de-Aire/blob/main/AirQualityUCI.csv

</span>

-----

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
import scipy.stats as stats

In [3]:
# Cargar el dataset

df = pd.read_csv("https://raw.githubusercontent.com/PatriMiranda/Calidad-de-Aire/main/AirQualityUCI.csv", delimiter=',')
df.head()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH,Unnamed: 15,Unnamed: 16
0,10/03/2004,18:00:00,2.6,1360.0,150.0,11.9,1046.0,166.0,1056.0,113.0,1692.0,1268.0,13.6,48.9,0.7578,,
1,10/03/2004,19:00:00,2.0,1292.0,112.0,9.4,955.0,103.0,1174.0,92.0,1559.0,972.0,13.3,47.7,0.7255,,
2,10/03/2004,20:00:00,2.2,1402.0,88.0,9.0,939.0,131.0,1140.0,114.0,1555.0,1074.0,11.9,54.0,0.7502,,
3,10/03/2004,21:00:00,2.2,1376.0,80.0,9.2,948.0,172.0,1092.0,122.0,1584.0,1203.0,11.0,60.0,0.7867,,
4,10/03/2004,22:00:00,1.6,1272.0,51.0,6.5,836.0,131.0,1205.0,116.0,1490.0,1110.0,11.2,59.6,0.7888,,


In [4]:
df.tail()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH,Unnamed: 15,Unnamed: 16
9466,,,,,,,,,,,,,,,,,
9467,,,,,,,,,,,,,,,,,
9468,,,,,,,,,,,,,,,,,
9469,,,,,,,,,,,,,,,,,
9470,,,,,,,,,,,,,,,,,


In [5]:
# Eliminar colunas sin datos

df.drop(['Unnamed: 15','Unnamed: 16'], axis=1, inplace=True, errors = 'ignore') 
df

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,10/03/2004,18:00:00,2.6,1360.0,150.0,11.9,1046.0,166.0,1056.0,113.0,1692.0,1268.0,13.6,48.9,0.7578
1,10/03/2004,19:00:00,2.0,1292.0,112.0,9.4,955.0,103.0,1174.0,92.0,1559.0,972.0,13.3,47.7,0.7255
2,10/03/2004,20:00:00,2.2,1402.0,88.0,9.0,939.0,131.0,1140.0,114.0,1555.0,1074.0,11.9,54.0,0.7502
3,10/03/2004,21:00:00,2.2,1376.0,80.0,9.2,948.0,172.0,1092.0,122.0,1584.0,1203.0,11.0,60.0,0.7867
4,10/03/2004,22:00:00,1.6,1272.0,51.0,6.5,836.0,131.0,1205.0,116.0,1490.0,1110.0,11.2,59.6,0.7888
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9466,,,,,,,,,,,,,,,
9467,,,,,,,,,,,,,,,
9468,,,,,,,,,,,,,,,
9469,,,,,,,,,,,,,,,


In [6]:
# Eliminar las filas sin datos

df.dropna(how='all',inplace=True)
df

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,10/03/2004,18:00:00,2.6,1360.0,150.0,11.9,1046.0,166.0,1056.0,113.0,1692.0,1268.0,13.6,48.9,0.7578
1,10/03/2004,19:00:00,2.0,1292.0,112.0,9.4,955.0,103.0,1174.0,92.0,1559.0,972.0,13.3,47.7,0.7255
2,10/03/2004,20:00:00,2.2,1402.0,88.0,9.0,939.0,131.0,1140.0,114.0,1555.0,1074.0,11.9,54.0,0.7502
3,10/03/2004,21:00:00,2.2,1376.0,80.0,9.2,948.0,172.0,1092.0,122.0,1584.0,1203.0,11.0,60.0,0.7867
4,10/03/2004,22:00:00,1.6,1272.0,51.0,6.5,836.0,131.0,1205.0,116.0,1490.0,1110.0,11.2,59.6,0.7888
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9352,04/04/2005,10:00:00,3.1,1314.0,-200.0,13.5,1101.0,472.0,539.0,190.0,1374.0,1729.0,21.9,29.3,0.7568
9353,04/04/2005,11:00:00,2.4,1163.0,-200.0,11.4,1027.0,353.0,604.0,179.0,1264.0,1269.0,24.3,23.7,0.7119
9354,04/04/2005,12:00:00,2.4,1142.0,-200.0,12.4,1063.0,293.0,603.0,175.0,1241.0,1092.0,26.9,18.3,0.6406
9355,04/04/2005,13:00:00,2.1,1003.0,-200.0,9.5,961.0,235.0,702.0,156.0,1041.0,770.0,28.3,13.5,0.5139


In [7]:
# Verificar si aun quedan valores nulos

df.isnull().sum()

Date             0
Time             0
CO(GT)           0
PT08.S1(CO)      0
NMHC(GT)         0
C6H6(GT)         0
PT08.S2(NMHC)    0
NOx(GT)          0
PT08.S3(NOx)     0
NO2(GT)          0
PT08.S4(NO2)     0
PT08.S5(O3)      0
T                0
RH               0
AH               0
dtype: int64

In [8]:
#Contar los valores con -200 dentro del dataset

count_of_minus_200 = df.eq(-200).sum()
print(count_of_minus_200)

Date                0
Time                0
CO(GT)           1683
PT08.S1(CO)       366
NMHC(GT)         8443
C6H6(GT)          366
PT08.S2(NMHC)     366
NOx(GT)          1639
PT08.S3(NOx)      366
NO2(GT)          1642
PT08.S4(NO2)      366
PT08.S5(O3)       366
T                 366
RH                366
AH                366
dtype: int64


In [9]:
porcentaje_minus_200 = (count_of_minus_200 / len(df)) * 100
print(porcentaje_minus_200)    # Eliminar las variables donde sea mayor al 50% de datos faltantes 

Date              0.000000
Time              0.000000
CO(GT)           17.986534
PT08.S1(CO)       3.911510
NMHC(GT)         90.231912
C6H6(GT)          3.911510
PT08.S2(NMHC)     3.911510
NOx(GT)          17.516298
PT08.S3(NOx)      3.911510
NO2(GT)          17.548360
PT08.S4(NO2)      3.911510
PT08.S5(O3)       3.911510
T                 3.911510
RH                3.911510
AH                3.911510
dtype: float64


In [None]:
# Despues de realizar la limpieza del dataset, guardarlo para usarlo en los proximos practicos

df_air.to_csv('CA_limpio.csv', index=False)