# Análisis de la Calidad del Aire en el Valle de México

## Introducción

La Organización Mundial de la Salud estima que en 2012 aconteció un aproximado de 3.7 millones de muertes prematuras derivadas de enfermedades atribuidas a la contaminación del aire. Esto se refleja en su discurso del 2014: “La contaminación del aire es el riesgo para la salud ambiental número uno del mundo”.

  

La Ciudad de México, centro político, histórico y financiero de nuestro país cuenta con poco más de 9 millones de habitantes convirtiéndose en la ciudad más poblada de norteamérica, con una densidad de 600,000 habitantes por kilómetro cuadrado. Esto sin contar la totalidad de población que habita la Zona Metropolitana del Valle de México, que se contabiliza por encima de los 21 millones de habitantes.

  

Los problemas que aquejan a la incomparable urbanización no son pocos, desde crimen organizado, alcoholismo, inundaciones periódicas, fríos intensos y el que concierne a esta investigación, la contaminación del aire. De las majestuosas vistas que los primeros españoles hallaron en aquel valle, no queda nada. Incluso el propio cielo se esconde entre una densa nube de vapores tóxicos.

  

Siendo conscientes de este problema, desde el año de 1986, se monitorea de forma periódica la calidad del aire en la Zona Metropolitana del Valle de México por medio del Sistema de Monitoreo Atmosférico (SIMAT) y la RAMA (Red Automática de Monitoreo Atmosférico), realizando mediciones de la concentración de los contaminantes criterio cada hora.

  

Ahora bien, los contaminantes criterio son aquellos que afectan el bienestar y la salud humana, por lo que cuentan con criterios para establecer o revisar límites máximos permisibles por medio de las Normas Oficiales Mexicanas. La concentración de estos contaminantes sirve para indicar la calidad del aire.

  

Dentro del grupo de contaminantes criterio se encuentran el dióxido de azufre (SO2), el dióxido de nitrógeno (NO2), el monóxido de carbono (CO), el ozono (O3) y las partículas en suspensión (PM10 y PM2.5).

Estos contaminantes tienen graves afectaciones a la salud por lo que es necesario no solo monitorear su concentración, sino también obtener con ellos un índice que nos permita clasificar la calidad del aire para así comunicarlo a la población en general. Con este objetivo en mente, en 1982 se diseñó el Índice Metropolitano de la Calidad del Aire (IMECA), cuya metodología transforma a una escala adimensional las concentraciones de los contaminantes criterio; así podemos entender que tan buena o mala es la calidad del aire observando el valor IMECA de dicho contaminante e incluso compararlo con otro, ya que tienen la misma escala.

![](https://lh5.googleusercontent.com/07HClik8fpzXOVvVHCpbBIsc_ku2rtnSCv2p07o0JHnHgUkJp02HyDIQXY0dt8j-ISiy0Rh-wJ-YaKGbYCaPjuk2qQiNh-puh-JleOWb-Fj4z-xp9CrghqKhtReMHtEGzXDHun8a)

                                              Clasificación IMECA
                                              
Durante nuestra investigación nos dimos cuenta que la información sobre la calidad del aire en la Zona Metropolitana del Valle de México no es tan accesible: existen los datos y están abiertos al público, sin embargo, hay muy poca difusión sobre sus resultados, el último informe anual de la calidad del aire en ciudad de méxico se realizó en el 2018. Por lo tanto el objetivo de este proyecto es primero que nada analizar los datos disponibles para entender la problemática de la contaminación del aire en el Valle de México, y hacer que esta información sea más accesible, para luego proponer posibles soluciones.

## Preguntas de Investigación

Planteamos las siguientes preguntas para ayudar a entender y resolver el problema planteado:

-   ¿Cuál es el promedio histórico (considerando los años 2005-2020) de concentración de cada contaminante por zona?

    
-   ¿En qué meses se tiene la máxima concentración de cada contaminante?

    
-   ¿Hay algún mes de algún año en el que se haya obtenido la calificación de calidad “Extremadamente mala”?

    
-   ¿Cuál es la zona que presenta mayor contaminación, en general?

    
-   ¿Cuál es el contaminante con más concentración por año (del 2005- 2020)?

    
-   ¿Cuál fue y cuándo se registró la concentración más baja durante 2020?

    
-   ¿Cuál fue y cuándo se registró la mayor concentración durante el periodo de confinamiento?

    
-   ¿El periodo de confinamiento coincide con una mejor calidad de aire?

    
-   ¿Cuál fue el contaminante con menores cambios en el período 2005-2020?

## Módulo: Procesamiento de Datos

### Lectura y Análisis exploratorio de los datos

In [1]:
#Importando paquetes
import pandas as pd
import numpy as np

In [2]:
#Leyendo un archivo de datos IMECA para averiguar que contiene
df=pd.read_csv("datos_IMECA/csv/imeca2005.csv")
df

Unnamed: 0,Fecha,Hora,Noroeste Ozono,Noroeste dioxido de azufre,Noroeste dioxido de nitrogeno,Noroeste monoxido de carbono,Noroeste PM10,Noreste Ozono,Noreste dioxido de azufre,Noreste dioxido de nitrogeno,...,Suroeste Ozono,Suroeste dioxido de azufre,Suroeste dioxido de nitrogeno,Suroeste monoxido de carbono,Suroeste PM10,Sureste Ozono,Sureste dioxido de azufre,Sureste dioxido de nitrogeno,Sureste monoxido de carbono,Sureste PM10
0,01/01/2005,1,19,19,43,42,80,10,22,34,...,26,12,39,27,80,13,15,33,29,87
1,01/01/2005,2,19,19,42,45,84,7,22,35,...,19,12,34,28,81,9,15,31,29,89
2,01/01/2005,3,17,19,42,48,88,5,22,34,...,23,12,33,29,84,9,15,30,31,90
3,01/01/2005,4,16,19,42,52,91,6,22,33,...,21,12,32,29,88,12,15,31,33,94
4,01/01/2005,5,16,19,39,53,94,8,23,34,...,23,12,31,29,92,19,15,29,35,98
5,01/01/2005,6,16,20,39,53,97,13,23,30,...,25,12,30,29,96,9,15,29,37,101
6,01/01/2005,7,16,21,37,50,99,11,24,26,...,35,12,26,29,100,9,15,28,37,105
7,01/01/2005,8,14,22,38,48,100,19,24,23,...,31,12,24,28,104,14,15,26,38,109
8,01/01/2005,9,19,22,44,46,100,10,24,28,...,22,12,31,28,108,19,15,33,41,113
9,01/01/2005,10,46,22,56,47,100,20,24,40,...,41,12,38,29,110,37,15,49,43,115


In [3]:
#Revisando dimensión
df.shape

(8760, 27)

In [4]:
#Revisando columnas que contiene
df.columns

Index(['Fecha', 'Hora', 'Noroeste Ozono', 'Noroeste dioxido de azufre',
       'Noroeste dioxido de nitrogeno', 'Noroeste monoxido de carbono',
       'Noroeste PM10', 'Noreste Ozono', 'Noreste dioxido de azufre',
       'Noreste dioxido de nitrogeno', 'Noreste monoxido de carbono',
       'Noreste PM10', 'Centro Ozono', 'Centro dioxido de azufre',
       'Centro dioxido de nitrogeno', 'Centro monoxido de carbono',
       'Centro PM10', 'Suroeste Ozono', 'Suroeste dioxido de azufre',
       'Suroeste dioxido de nitrogeno', 'Suroeste monoxido de carbono',
       'Suroeste PM10', 'Sureste Ozono', 'Sureste dioxido de azufre',
       'Sureste dioxido de nitrogeno', 'Sureste monoxido de carbono',
       'Sureste PM10'],
      dtype='object')

Tenemos un archivo de datos por año, vamos a unir todos en un solo DataFrame para trabajar con ellos más facilmente

In [5]:
#primero creamos una lista que contenga todas las rutas de acceso a los archivos csv
lista=[ f'datos_IMECA/csv/imeca{2005+i}.csv' for i in range(0,16)]
lista

['datos_IMECA/csv/imeca2005.csv',
 'datos_IMECA/csv/imeca2006.csv',
 'datos_IMECA/csv/imeca2007.csv',
 'datos_IMECA/csv/imeca2008.csv',
 'datos_IMECA/csv/imeca2009.csv',
 'datos_IMECA/csv/imeca2010.csv',
 'datos_IMECA/csv/imeca2011.csv',
 'datos_IMECA/csv/imeca2012.csv',
 'datos_IMECA/csv/imeca2013.csv',
 'datos_IMECA/csv/imeca2014.csv',
 'datos_IMECA/csv/imeca2015.csv',
 'datos_IMECA/csv/imeca2016.csv',
 'datos_IMECA/csv/imeca2017.csv',
 'datos_IMECA/csv/imeca2018.csv',
 'datos_IMECA/csv/imeca2019.csv',
 'datos_IMECA/csv/imeca2020.csv']

In [6]:
#Realizamos la lectura de todos los archivos csv juntos y reemplazamos -99 por NaN
DF_list = [(pd.read_csv(f'{i}',sep=',')).replace(-99, np.nan) for i in lista]

In [7]:
#comprobamos que se puedan leer de forma correcta los datos
DF_list[0]

Unnamed: 0,Fecha,Hora,Noroeste Ozono,Noroeste dioxido de azufre,Noroeste dioxido de nitrogeno,Noroeste monoxido de carbono,Noroeste PM10,Noreste Ozono,Noreste dioxido de azufre,Noreste dioxido de nitrogeno,...,Suroeste Ozono,Suroeste dioxido de azufre,Suroeste dioxido de nitrogeno,Suroeste monoxido de carbono,Suroeste PM10,Sureste Ozono,Sureste dioxido de azufre,Sureste dioxido de nitrogeno,Sureste monoxido de carbono,Sureste PM10
0,01/01/2005,1,19,19,43,42,80,10,22,34,...,26,12,39,27,80,13,15.0,33,29,87.0
1,01/01/2005,2,19,19,42,45,84,7,22,35,...,19,12,34,28,81,9,15.0,31,29,89.0
2,01/01/2005,3,17,19,42,48,88,5,22,34,...,23,12,33,29,84,9,15.0,30,31,90.0
3,01/01/2005,4,16,19,42,52,91,6,22,33,...,21,12,32,29,88,12,15.0,31,33,94.0
4,01/01/2005,5,16,19,39,53,94,8,23,34,...,23,12,31,29,92,19,15.0,29,35,98.0
5,01/01/2005,6,16,20,39,53,97,13,23,30,...,25,12,30,29,96,9,15.0,29,37,101.0
6,01/01/2005,7,16,21,37,50,99,11,24,26,...,35,12,26,29,100,9,15.0,28,37,105.0
7,01/01/2005,8,14,22,38,48,100,19,24,23,...,31,12,24,28,104,14,15.0,26,38,109.0
8,01/01/2005,9,19,22,44,46,100,10,24,28,...,22,12,31,28,108,19,15.0,33,41,113.0
9,01/01/2005,10,46,22,56,47,100,20,24,40,...,41,12,38,29,110,37,15.0,49,43,115.0


In [8]:
#segunda comprobación
DF_list[13]

Unnamed: 0,Fecha,Hora,Noroeste Ozono,Noroeste dioxido de azufre,Noroeste dioxido de nitrogeno,Noroeste monoxido de carbono,Noroeste PM10,Noreste Ozono,Noreste dioxido de azufre,Noreste dioxido de nitrogeno,...,Suroeste dioxido de nitrogeno,Suroeste monoxido de carbono,Suroeste PM10,Sureste Ozono,Sureste dioxido de azufre,Sureste dioxido de nitrogeno,Sureste monoxido de carbono,Sureste PM10,Unnamed: 27,Unnamed: 28
0,01/01/2018,1,24.0,8,14.0,12.0,106,24.0,5,18.0,...,17.0,8.0,67,5.0,5,25.0,11.0,94.0,,
1,01/01/2018,2,23.0,8,18.0,12.0,107,29.0,5,16.0,...,12.0,7.0,70,8.0,5,21.0,12.0,101.0,,
2,01/01/2018,3,18.0,8,19.0,12.0,108,23.0,5,19.0,...,10.0,7.0,73,4.0,5,21.0,14.0,102.0,,
3,01/01/2018,4,12.0,10,18.0,12.0,110,18.0,5,17.0,...,9.0,7.0,76,6.0,5,18.0,15.0,106.0,,
4,01/01/2018,5,11.0,12,18.0,12.0,113,17.0,5,18.0,...,9.0,6.0,77,4.0,5,20.0,15.0,107.0,,
5,01/01/2018,6,8.0,15,16.0,11.0,114,10.0,7,16.0,...,13.0,6.0,78,4.0,5,19.0,14.0,109.0,,
6,01/01/2018,7,9.0,16,14.0,10.0,115,10.0,8,15.0,...,11.0,6.0,81,6.0,5,11.0,13.0,111.0,,
7,01/01/2018,8,11.0,18,12.0,9.0,115,8.0,9,16.0,...,14.0,5.0,84,8.0,5,10.0,12.0,112.0,,
8,01/01/2018,9,11.0,18,13.0,8.0,115,9.0,11,14.0,...,14.0,5.0,84,11.0,6,8.0,11.0,112.0,,
9,01/01/2018,10,19.0,20,11.0,8.0,114,14.0,14,13.0,...,13.0,5.0,88,18.0,6,7.0,10.0,112.0,,


In [9]:
#El Dataframe número 14 y 15 tienen 32 columnas cuando lo correcto serían 27
#Eliminamos las columnas que sobran
cols = [7,13,19,25,31]
DF_list[14]=DF_list[14].drop(DF_list[14].columns[cols],axis=1)
DF_list[15]=DF_list[15].drop(DF_list[15].columns[cols],axis=1)

In [10]:
#Se puede observar que existe un inconveniente: por alguna razón algunos DataFrames 
#tienen columnas de más, que contienen solo elementos vacíos, es necesario eliminarlas
DF_list[12].columns

Index(['Fecha', 'Hora', 'Noroeste Ozono', 'Noroeste dioxido de azufre',
       'Noroeste dioxido de nitrogeno', 'Noroeste monoxido de carbono',
       'Noroeste PM10', 'Noreste Ozono', 'Noreste dioxido de azufre',
       'Noreste dioxido de nitrogeno', 'Noreste monoxido de carbono',
       'Noreste PM10', 'Centro Ozono', 'Centro dioxido de azufre',
       'Centro dioxido de nitrogeno', 'Centro monoxido de carbono',
       'Centro PM10', 'Suroeste Ozono', 'Suroeste dioxido de azufre',
       'Suroeste dioxido de nitrogeno', 'Suroeste monoxido de carbono',
       'Suroeste PM10', 'Sureste Ozono', 'Sureste dioxido de azufre',
       'Sureste dioxido de nitrogeno', 'Sureste monoxido de carbono',
       'Sureste PM10', 'Unnamed: 27', 'Unnamed: 28'],
      dtype='object')

In [11]:
DF_list[12].shape

(8760, 29)

In [12]:
DF_list[12]['Unnamed: 27'] #Se observa que contiene puros elementos vacíos

0      NaN
1      NaN
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
8      NaN
9      NaN
10     NaN
11     NaN
12     NaN
13     NaN
14     NaN
15     NaN
16     NaN
17     NaN
18     NaN
19     NaN
20     NaN
21     NaN
22     NaN
23     NaN
24     NaN
25     NaN
26     NaN
27     NaN
28     NaN
29     NaN
        ..
8730   NaN
8731   NaN
8732   NaN
8733   NaN
8734   NaN
8735   NaN
8736   NaN
8737   NaN
8738   NaN
8739   NaN
8740   NaN
8741   NaN
8742   NaN
8743   NaN
8744   NaN
8745   NaN
8746   NaN
8747   NaN
8748   NaN
8749   NaN
8750   NaN
8751   NaN
8752   NaN
8753   NaN
8754   NaN
8755   NaN
8756   NaN
8757   NaN
8758   NaN
8759   NaN
Name: Unnamed: 27, Length: 8760, dtype: float64

In [13]:
#ahora eliminamos las columnas que aparecen como sobrantes
DF_list2=[i.dropna(axis="columns", how='all') for i in DF_list]
DF_list2[0]

Unnamed: 0,Fecha,Hora,Noroeste Ozono,Noroeste dioxido de azufre,Noroeste dioxido de nitrogeno,Noroeste monoxido de carbono,Noroeste PM10,Noreste Ozono,Noreste dioxido de azufre,Noreste dioxido de nitrogeno,...,Suroeste Ozono,Suroeste dioxido de azufre,Suroeste dioxido de nitrogeno,Suroeste monoxido de carbono,Suroeste PM10,Sureste Ozono,Sureste dioxido de azufre,Sureste dioxido de nitrogeno,Sureste monoxido de carbono,Sureste PM10
0,01/01/2005,1,19,19,43,42,80,10,22,34,...,26,12,39,27,80,13,15.0,33,29,87.0
1,01/01/2005,2,19,19,42,45,84,7,22,35,...,19,12,34,28,81,9,15.0,31,29,89.0
2,01/01/2005,3,17,19,42,48,88,5,22,34,...,23,12,33,29,84,9,15.0,30,31,90.0
3,01/01/2005,4,16,19,42,52,91,6,22,33,...,21,12,32,29,88,12,15.0,31,33,94.0
4,01/01/2005,5,16,19,39,53,94,8,23,34,...,23,12,31,29,92,19,15.0,29,35,98.0
5,01/01/2005,6,16,20,39,53,97,13,23,30,...,25,12,30,29,96,9,15.0,29,37,101.0
6,01/01/2005,7,16,21,37,50,99,11,24,26,...,35,12,26,29,100,9,15.0,28,37,105.0
7,01/01/2005,8,14,22,38,48,100,19,24,23,...,31,12,24,28,104,14,15.0,26,38,109.0
8,01/01/2005,9,19,22,44,46,100,10,24,28,...,22,12,31,28,108,19,15.0,33,41,113.0
9,01/01/2005,10,46,22,56,47,100,20,24,40,...,41,12,38,29,110,37,15.0,49,43,115.0


In [14]:
#observamos que las columnas sobrantes se fueron
DF_list2[12].columns

Index(['Fecha', 'Hora', 'Noroeste Ozono', 'Noroeste dioxido de azufre',
       'Noroeste dioxido de nitrogeno', 'Noroeste monoxido de carbono',
       'Noroeste PM10', 'Noreste Ozono', 'Noreste dioxido de azufre',
       'Noreste dioxido de nitrogeno', 'Noreste monoxido de carbono',
       'Noreste PM10', 'Centro Ozono', 'Centro dioxido de azufre',
       'Centro dioxido de nitrogeno', 'Centro monoxido de carbono',
       'Centro PM10', 'Suroeste Ozono', 'Suroeste dioxido de azufre',
       'Suroeste dioxido de nitrogeno', 'Suroeste monoxido de carbono',
       'Suroeste PM10', 'Sureste Ozono', 'Sureste dioxido de azufre',
       'Sureste dioxido de nitrogeno', 'Sureste monoxido de carbono',
       'Sureste PM10'],
      dtype='object')

In [15]:
#Revisamos que todos los DataFrame tengan el mismo tamaño
for i in range(0,16):
    print(np.shape(DF_list2[i]))

(8760, 27)
(8760, 27)
(8760, 27)
(8784, 27)
(8760, 27)
(8760, 27)
(8760, 27)
(8784, 27)
(8781, 27)
(8760, 27)
(8760, 27)
(8784, 27)
(8760, 27)
(8760, 27)
(8760, 27)
(8784, 27)


Se observa que hay años en los que se tiene 8784 filas en lugar de 8760, esto es porque se trata de años bisiestos y tienen un día más, lo que equivale a 24 observaciones extra.

In [16]:
#Renombramos todas las columnas para no generar problemas al momento de concatenar
#DF_list2[0].columns

nombres_columnas=( "fecha"           ,        "hora"                ,          "noroeste_ozono"               ,
 "noroeste_dioxido_de_azufre"   , "noroeste_dioxido_de_nitrogeno", "noroeste_monoxido_de_carbono" ,
 "noroeste_pm10"                , "noreste_ozono"                , "noreste_dioxido_de_azufre"    ,
 "noreste_dioxido_de_nitrogeno" , "noreste_monoxido_de_carbono"  , "noreste_pm10"                 ,
 "centro_ozono"                 , "centro_dioxido_de_azufre"     , "centro_dioxido_de_nitrogeno"  ,
 "centro_monoxido_de_carbono"   , "centro_pm10"                  , "suroeste_ozono"               ,
 "suroeste_dioxido_de_azufre"   , "suroeste_dioxido_de_nitrogeno", "suroeste_monoxido_de_carbono" ,
 "suroeste_pm10"                , "sureste_ozono"                , "sureste_dioxido_de_azufre"    ,
 "sureste_dioxido_de_nitrogeno" , "sureste_monoxido_de_carbono"  , "sureste_pm10" )

for i in DF_list2:
    i.columns = nombres_columnas

In [17]:
#Concatenando todo en un mismo DataFrame
DF_all = pd.concat(DF_list2,axis=0)
DF_all=DF_all.reset_index(drop=True)
DF_all

Unnamed: 0,fecha,hora,noroeste_ozono,noroeste_dioxido_de_azufre,noroeste_dioxido_de_nitrogeno,noroeste_monoxido_de_carbono,noroeste_pm10,noreste_ozono,noreste_dioxido_de_azufre,noreste_dioxido_de_nitrogeno,...,suroeste_ozono,suroeste_dioxido_de_azufre,suroeste_dioxido_de_nitrogeno,suroeste_monoxido_de_carbono,suroeste_pm10,sureste_ozono,sureste_dioxido_de_azufre,sureste_dioxido_de_nitrogeno,sureste_monoxido_de_carbono,sureste_pm10
0,01/01/2005,1.0,19.0,19.0,43.0,42.0,80.0,10.0,22.0,34.0,...,26.0,12.0,39.0,27.0,80.0,13.0,15.0,33.0,29.0,87.0
1,01/01/2005,2.0,19.0,19.0,42.0,45.0,84.0,7.0,22.0,35.0,...,19.0,12.0,34.0,28.0,81.0,9.0,15.0,31.0,29.0,89.0
2,01/01/2005,3.0,17.0,19.0,42.0,48.0,88.0,5.0,22.0,34.0,...,23.0,12.0,33.0,29.0,84.0,9.0,15.0,30.0,31.0,90.0
3,01/01/2005,4.0,16.0,19.0,42.0,52.0,91.0,6.0,22.0,33.0,...,21.0,12.0,32.0,29.0,88.0,12.0,15.0,31.0,33.0,94.0
4,01/01/2005,5.0,16.0,19.0,39.0,53.0,94.0,8.0,23.0,34.0,...,23.0,12.0,31.0,29.0,92.0,19.0,15.0,29.0,35.0,98.0
5,01/01/2005,6.0,16.0,20.0,39.0,53.0,97.0,13.0,23.0,30.0,...,25.0,12.0,30.0,29.0,96.0,9.0,15.0,29.0,37.0,101.0
6,01/01/2005,7.0,16.0,21.0,37.0,50.0,99.0,11.0,24.0,26.0,...,35.0,12.0,26.0,29.0,100.0,9.0,15.0,28.0,37.0,105.0
7,01/01/2005,8.0,14.0,22.0,38.0,48.0,100.0,19.0,24.0,23.0,...,31.0,12.0,24.0,28.0,104.0,14.0,15.0,26.0,38.0,109.0
8,01/01/2005,9.0,19.0,22.0,44.0,46.0,100.0,10.0,24.0,28.0,...,22.0,12.0,31.0,28.0,108.0,19.0,15.0,33.0,41.0,113.0
9,01/01/2005,10.0,46.0,22.0,56.0,47.0,100.0,20.0,24.0,40.0,...,41.0,12.0,38.0,29.0,110.0,37.0,15.0,49.0,43.0,115.0


### Limpieza NaNs

In [18]:
#Revisando datos faltantes por columna
DF_all.isna().sum()

fecha                              21
hora                               21
noroeste_ozono                   1306
noroeste_dioxido_de_azufre         22
noroeste_dioxido_de_nitrogeno    1297
noroeste_monoxido_de_carbono     2027
noroeste_pm10                     174
noreste_ozono                    1299
noreste_dioxido_de_azufre          21
noreste_dioxido_de_nitrogeno     1331
noreste_monoxido_de_carbono      2073
noreste_pm10                      369
centro_ozono                     1319
centro_dioxido_de_azufre          101
centro_dioxido_de_nitrogeno      1366
centro_monoxido_de_carbono       2070
centro_pm10                       555
suroeste_ozono                   1236
suroeste_dioxido_de_azufre         42
suroeste_dioxido_de_nitrogeno    1261
suroeste_monoxido_de_carbono     2050
suroeste_pm10                     365
sureste_ozono                    1319
sureste_dioxido_de_azufre         126
sureste_dioxido_de_nitrogeno     1485
sureste_monoxido_de_carbono      2231
sureste_pm10

Se nota que hay columnas que presentan más datos faltantes que otras. Puesto que no podemos despreciar las mediciones de toda la fila solo porque una observación en una columna es nula, optamos en su lugar por llenar los valores vacíos con el valor promedio de la columna. De esta forma nos quedamos con suficientes datos para trabajar y mantenemos su valor promedio.

In [19]:
#Llenando los valores numéricos con el valor promedio
DF_all_subset=DF_all.loc[:,"noroeste_ozono":"sureste_pm10"]

for i in DF_all_subset.columns:
    DF_all[i]=DF_all[i].fillna(DF_all[i].mean())

In [20]:
#Corroborando que se hayan reemplazado todos los datos faltantes numéricos
DF_all.isna().sum()

fecha                            21
hora                             21
noroeste_ozono                    0
noroeste_dioxido_de_azufre        0
noroeste_dioxido_de_nitrogeno     0
noroeste_monoxido_de_carbono      0
noroeste_pm10                     0
noreste_ozono                     0
noreste_dioxido_de_azufre         0
noreste_dioxido_de_nitrogeno      0
noreste_monoxido_de_carbono       0
noreste_pm10                      0
centro_ozono                      0
centro_dioxido_de_azufre          0
centro_dioxido_de_nitrogeno       0
centro_monoxido_de_carbono        0
centro_pm10                       0
suroeste_ozono                    0
suroeste_dioxido_de_azufre        0
suroeste_dioxido_de_nitrogeno     0
suroeste_monoxido_de_carbono      0
suroeste_pm10                     0
sureste_ozono                     0
sureste_dioxido_de_azufre         0
sureste_dioxido_de_nitrogeno      0
sureste_monoxido_de_carbono       0
sureste_pm10                      0
dtype: int64

In [21]:
#Revisando valores nulos de fechas
DF_all[DF_all["fecha"].isna()]

Unnamed: 0,fecha,hora,noroeste_ozono,noroeste_dioxido_de_azufre,noroeste_dioxido_de_nitrogeno,noroeste_monoxido_de_carbono,noroeste_pm10,noreste_ozono,noreste_dioxido_de_azufre,noreste_dioxido_de_nitrogeno,...,suroeste_ozono,suroeste_dioxido_de_azufre,suroeste_dioxido_de_nitrogeno,suroeste_monoxido_de_carbono,suroeste_pm10,sureste_ozono,sureste_dioxido_de_azufre,sureste_dioxido_de_nitrogeno,sureste_monoxido_de_carbono,sureste_pm10
78888,,,28.903253,9.383715,17.478565,10.089902,55.736244,31.219862,7.527464,16.086019,...,36.56748,5.012736,15.19751,8.50629,40.037831,33.087357,4.675914,15.970229,10.07788,51.638266
78889,,,28.903253,9.383715,17.478565,10.089902,55.736244,31.219862,7.527464,16.086019,...,36.56748,5.012736,15.19751,8.50629,40.037831,33.087357,4.675914,15.970229,10.07788,51.638266
78890,,,28.903253,9.383715,17.478565,10.089902,55.736244,31.219862,7.527464,16.086019,...,36.56748,5.012736,15.19751,8.50629,40.037831,33.087357,4.675914,15.970229,10.07788,51.638266
78891,,,28.903253,9.383715,17.478565,10.089902,55.736244,31.219862,7.527464,16.086019,...,36.56748,5.012736,15.19751,8.50629,40.037831,33.087357,4.675914,15.970229,10.07788,51.638266
78892,,,28.903253,9.383715,17.478565,10.089902,55.736244,31.219862,7.527464,16.086019,...,36.56748,5.012736,15.19751,8.50629,40.037831,33.087357,4.675914,15.970229,10.07788,51.638266
78893,,,28.903253,9.383715,17.478565,10.089902,55.736244,31.219862,7.527464,16.086019,...,36.56748,5.012736,15.19751,8.50629,40.037831,33.087357,4.675914,15.970229,10.07788,51.638266
78894,,,28.903253,9.383715,17.478565,10.089902,55.736244,31.219862,7.527464,16.086019,...,36.56748,5.012736,15.19751,8.50629,40.037831,33.087357,4.675914,15.970229,10.07788,51.638266
78895,,,28.903253,9.383715,17.478565,10.089902,55.736244,31.219862,7.527464,16.086019,...,36.56748,5.012736,15.19751,8.50629,40.037831,33.087357,4.675914,15.970229,10.07788,51.638266
78896,,,28.903253,9.383715,17.478565,10.089902,55.736244,31.219862,7.527464,16.086019,...,36.56748,5.012736,15.19751,8.50629,40.037831,33.087357,4.675914,15.970229,10.07788,51.638266
78897,,,28.903253,9.383715,17.478565,10.089902,55.736244,31.219862,7.527464,16.086019,...,36.56748,5.012736,15.19751,8.50629,40.037831,33.087357,4.675914,15.970229,10.07788,51.638266


In [22]:
#Revisando la última fecha correcta
DF_all.loc[78887]

fecha                            31/12/2013
hora                                     24
noroeste_ozono                            9
noroeste_dioxido_de_azufre               22
noroeste_dioxido_de_nitrogeno            15
noroeste_monoxido_de_carbono              7
noroeste_pm10                            48
noreste_ozono                             7
noreste_dioxido_de_azufre                11
noreste_dioxido_de_nitrogeno             15
noreste_monoxido_de_carbono              12
noreste_pm10                             48
centro_ozono                              1
centro_dioxido_de_azufre                 16
centro_dioxido_de_nitrogeno              16
centro_monoxido_de_carbono                9
centro_pm10                              48
suroeste_ozono                            5
suroeste_dioxido_de_azufre               15
suroeste_dioxido_de_nitrogeno            20
suroeste_monoxido_de_carbono             13
suroeste_pm10                            51
sureste_ozono                   

In [23]:
#Revisando fecha posterior a la última vacía
DF_all.loc[78909]

fecha                            01/01/2014
hora                                      1
noroeste_ozono                            8
noroeste_dioxido_de_azufre               18
noroeste_dioxido_de_nitrogeno            15
noroeste_monoxido_de_carbono              7
noroeste_pm10                            51
noreste_ozono                             8
noreste_dioxido_de_azufre                11
noreste_dioxido_de_nitrogeno             15
noreste_monoxido_de_carbono              13
noreste_pm10                             48
centro_ozono                              1
centro_dioxido_de_azufre                 15
centro_dioxido_de_nitrogeno              15
centro_monoxido_de_carbono                9
centro_pm10                              48
suroeste_ozono                            4
suroeste_dioxido_de_azufre               14
suroeste_dioxido_de_nitrogeno            18
suroeste_monoxido_de_carbono             14
suroeste_pm10                            53
sureste_ozono                   

In [24]:
#Se corrobora que el archivo de 2014 esté correcto
pd.read_csv("datos_IMECA/csv/imeca2014.csv")

Unnamed: 0,Fecha,Hora,Noroeste Ozono,Noroeste dioxido de azufre,Noroeste dioxido de nitrogeno,Noroeste monoxido de carbono,Noroeste PM10,Noreste Ozono,Noreste dioxido de azufre,Noreste dioxido de nitrogeno,...,Suroeste dioxido de nitrogeno,Suroeste monoxido de carbono,Suroeste PM10,Sureste Ozono,Sureste dioxido de azufre,Sureste dioxido de nitrogeno,Sureste monoxido de carbono,Sureste PM10,Unnamed: 27,Unnamed: 28
0,01/01/2014,1,8,18,15,7,51,8,11,15,...,18,14,53,3,9,15,8,48,,
1,01/01/2014,2,8,18,14,7,52,8,12,14,...,16,14,53,5,8,15,8,50,,
2,01/01/2014,3,5,18,14,7,53,8,13,13,...,15,13,53,4,8,14,9,53,,
3,01/01/2014,4,2,18,14,9,53,7,14,13,...,14,13,54,4,8,14,11,54,,
4,01/01/2014,5,3,18,13,11,56,5,15,12,...,13,14,56,4,8,14,12,56,,
5,01/01/2014,6,2,18,13,12,58,5,15,14,...,13,14,58,3,8,13,12,57,,
6,01/01/2014,7,2,19,13,12,62,5,15,11,...,11,13,59,2,9,13,12,62,,
7,01/01/2014,8,3,20,13,12,67,5,15,11,...,12,13,60,3,9,11,12,65,,
8,01/01/2014,9,5,20,11,13,72,8,16,10,...,12,13,63,5,9,12,13,68,,
9,01/01/2014,10,9,20,13,13,74,19,16,9,...,14,13,65,11,9,14,14,71,,


In [25]:
#Observando el archivo del 2013
pd.read_csv("datos_IMECA/csv/imeca2013.csv")

Unnamed: 0,Fecha,Hora,Noroeste Ozono,Noroeste dioxido de azufre,Noroeste dioxido de nitrogeno,Noroeste monoxido de carbono,Noroeste PM10,Noreste Ozono,Noreste dioxido de azufre,Noreste dioxido de nitrogeno,...,Suroeste PM10,Sureste Ozono,Sureste dioxido de azufre,Sureste dioxido de nitrogeno,Sureste monoxido de carbono,Sureste PM10,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,01/01/2013,1.0,3.0,2.0,17.0,10.0,37.0,11.0,4.0,20.0,...,23.0,3.0,3.0,18.0,14.0,31.0,,,,
1,01/01/2013,2.0,3.0,3.0,16.0,12.0,42.0,7.0,5.0,18.0,...,28.0,7.0,3.0,16.0,15.0,36.0,,,,
2,01/01/2013,3.0,4.0,3.0,16.0,15.0,48.0,7.0,5.0,19.0,...,33.0,4.0,3.0,16.0,15.0,40.0,,,,
3,01/01/2013,4.0,5.0,3.0,15.0,17.0,52.0,7.0,5.0,18.0,...,38.0,4.0,3.0,16.0,16.0,45.0,,,,
4,01/01/2013,5.0,9.0,4.0,16.0,20.0,57.0,6.0,5.0,17.0,...,41.0,5.0,3.0,15.0,17.0,52.0,,,,
5,01/01/2013,6.0,13.0,4.0,16.0,22.0,66.0,8.0,5.0,16.0,...,45.0,4.0,3.0,15.0,17.0,57.0,,,,
6,01/01/2013,7.0,9.0,4.0,13.0,23.0,78.0,6.0,5.0,15.0,...,49.0,4.0,3.0,14.0,16.0,61.0,,,,
7,01/01/2013,8.0,7.0,4.0,13.0,23.0,89.0,9.0,5.0,15.0,...,54.0,6.0,3.0,13.0,17.0,63.0,,,,
8,01/01/2013,9.0,7.0,5.0,22.0,24.0,99.0,8.0,5.0,25.0,...,58.0,15.0,4.0,16.0,17.0,65.0,,,,
9,01/01/2013,10.0,20.0,5.0,34.0,24.0,105.0,27.0,5.0,33.0,...,62.0,28.0,4.0,22.0,17.0,65.0,,,,


Como se puede observar el archivo del 2013 contiene 8781 filas cuando debería contener 8760 ya que no es bisiesto. Es decir, tiene 21 filas vacías extra. Es necesario eliminar estas filas extra que no aportan información, esto se hará desde DF_all (el que acabamos de limpiar y contiene todos los arvhivos), puesto que son los únicos elementos vacíos que quedan.

In [26]:
#Tamaño antes de limpiar
DF_all.shape

(140277, 27)

In [27]:
#Eliminando filas con fecha vacía
DF_all=DF_all.dropna(axis="rows")

In [28]:
#Tamaño después de limpiar
DF_all.shape

(140256, 27)

In [29]:
#Corroborando que no queden elementos nulos
DF_all.isna().sum()

fecha                            0
hora                             0
noroeste_ozono                   0
noroeste_dioxido_de_azufre       0
noroeste_dioxido_de_nitrogeno    0
noroeste_monoxido_de_carbono     0
noroeste_pm10                    0
noreste_ozono                    0
noreste_dioxido_de_azufre        0
noreste_dioxido_de_nitrogeno     0
noreste_monoxido_de_carbono      0
noreste_pm10                     0
centro_ozono                     0
centro_dioxido_de_azufre         0
centro_dioxido_de_nitrogeno      0
centro_monoxido_de_carbono       0
centro_pm10                      0
suroeste_ozono                   0
suroeste_dioxido_de_azufre       0
suroeste_dioxido_de_nitrogeno    0
suroeste_monoxido_de_carbono     0
suroeste_pm10                    0
sureste_ozono                    0
sureste_dioxido_de_azufre        0
sureste_dioxido_de_nitrogeno     0
sureste_monoxido_de_carbono      0
sureste_pm10                     0
dtype: int64

### Transformación de Datos

In [30]:
#Revisando tipos de datos
DF_all.dtypes

fecha                             object
hora                             float64
noroeste_ozono                   float64
noroeste_dioxido_de_azufre       float64
noroeste_dioxido_de_nitrogeno    float64
noroeste_monoxido_de_carbono     float64
noroeste_pm10                    float64
noreste_ozono                    float64
noreste_dioxido_de_azufre        float64
noreste_dioxido_de_nitrogeno     float64
noreste_monoxido_de_carbono      float64
noreste_pm10                     float64
centro_ozono                     float64
centro_dioxido_de_azufre         float64
centro_dioxido_de_nitrogeno      float64
centro_monoxido_de_carbono       float64
centro_pm10                      float64
suroeste_ozono                   float64
suroeste_dioxido_de_azufre       float64
suroeste_dioxido_de_nitrogeno    float64
suroeste_monoxido_de_carbono     float64
suroeste_pm10                    float64
sureste_ozono                    float64
sureste_dioxido_de_azufre        float64
sureste_dioxido_

Observamos que hay que cambiar la fecha a formato `datetime`. La hora no nos va a ser tan útil en análisis posteriores puesto que queremos trabajar con promedios mensuales, sin embargo vamos a transformarla a formato `int` para que no genere confusiones. Todos los demás tipos de datos son correctos.

In [32]:
#Realizando el Casting correspondiente
casting={
    "fecha":"datetime64[ns]",
    "hora":"int"
}

DF_all=DF_all.astype(casting)

In [33]:
#Comprobando que se haya realizado correctamente el casting
DF_all.dtypes

fecha                            datetime64[ns]
hora                                      int32
noroeste_ozono                          float64
noroeste_dioxido_de_azufre              float64
noroeste_dioxido_de_nitrogeno           float64
noroeste_monoxido_de_carbono            float64
noroeste_pm10                           float64
noreste_ozono                           float64
noreste_dioxido_de_azufre               float64
noreste_dioxido_de_nitrogeno            float64
noreste_monoxido_de_carbono             float64
noreste_pm10                            float64
centro_ozono                            float64
centro_dioxido_de_azufre                float64
centro_dioxido_de_nitrogeno             float64
centro_monoxido_de_carbono              float64
centro_pm10                             float64
suroeste_ozono                          float64
suroeste_dioxido_de_azufre              float64
suroeste_dioxido_de_nitrogeno           float64
suroeste_monoxido_de_carbono            

Estos datos ya están limpios y transformados al tipo correcto, así que vamos a separarlos por tipo de contaminante y a guardarlos en archivos CSV para su análisis posterior.

In [35]:
#Separando la información por contaminante
DF_save = list()
palabra = ['ozono','dioxido_de_azufre','dioxido_de_nitrogeno','monoxido_de_carbono','pm10']
for i in range(0,5):
    DF_save.append(DF_all[['fecha','hora',f'noreste_{palabra[i]}',f'suroeste_{palabra[i]}',f'noroeste_{palabra[i]}',f'sureste_{palabra[i]}',f'centro_{palabra[i]}']])

In [36]:
DF_save[0]

Unnamed: 0,fecha,hora,noreste_ozono,suroeste_ozono,noroeste_ozono,sureste_ozono,centro_ozono
0,2005-01-01,1,10.0,26.0,19.0,13.0,4.0
1,2005-01-01,2,7.0,19.0,19.0,9.0,4.0
2,2005-01-01,3,5.0,23.0,17.0,9.0,4.0
3,2005-01-01,4,6.0,21.0,16.0,12.0,4.0
4,2005-01-01,5,8.0,23.0,16.0,19.0,5.0
5,2005-01-01,6,13.0,25.0,16.0,9.0,5.0
6,2005-01-01,7,11.0,35.0,16.0,9.0,5.0
7,2005-01-01,8,19.0,31.0,14.0,14.0,6.0
8,2005-01-01,9,10.0,22.0,19.0,19.0,14.0
9,2005-01-01,10,20.0,41.0,46.0,37.0,31.0


In [37]:
#Guardamos los datos limpios y transformados en archivos CSV

#Guardando archivos separados
nombres=['O3','SO2','NO2','CO','PM10']
for i in range(0,(len(nombres))):
    DF_save[i].to_csv(f'datos_IMECA/datos_limpios_imeca/{nombres[i]}.csv',index=False)
    
#Guardando también todo el DataFrame completo
DF_all.to_csv("datos_IMECA/datos_limpios_imeca/DF_all.csv",index=False)

A continuación vamos a calcular **promedios mensuales**, agrupando todos los datos por meses. Estos son los datos que serán más útiles para nuestro análisis.

In [38]:
#Eliminando hora ya que agruparemos por meses
DF_all = DF_all.drop(['hora'], axis=1)

In [39]:
#Agrupando por mes
#Se indexa basado en tiempo, lo que permite un mejor manejo con datos temporales 
DF_all_mensual=DF_all.resample('M', on='fecha').mean()

In [40]:
DF_all_mensual

Unnamed: 0_level_0,noroeste_ozono,noroeste_dioxido_de_azufre,noroeste_dioxido_de_nitrogeno,noroeste_monoxido_de_carbono,noroeste_pm10,noreste_ozono,noreste_dioxido_de_azufre,noreste_dioxido_de_nitrogeno,noreste_monoxido_de_carbono,noreste_pm10,...,suroeste_ozono,suroeste_dioxido_de_azufre,suroeste_dioxido_de_nitrogeno,suroeste_monoxido_de_carbono,suroeste_pm10,sureste_ozono,sureste_dioxido_de_azufre,sureste_dioxido_de_nitrogeno,sureste_monoxido_de_carbono,sureste_pm10
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2005-01-31,35.766129,19.295699,22.278226,18.849462,56.841398,34.497312,17.502688,19.063172,17.379032,76.771505,...,42.629032,13.668011,21.982527,17.501344,55.200269,40.125000,13.965091,25.936828,22.038978,58.706989
2005-02-28,34.148810,12.596726,20.175595,16.983631,53.136905,34.537202,15.058036,18.864583,16.300595,71.745536,...,42.840774,7.590774,19.424107,14.505952,52.955357,39.645833,7.971726,23.453869,19.949405,56.791667
2005-03-31,34.479839,12.700269,19.801075,17.076613,46.938172,37.178763,18.165323,18.533602,15.766129,66.627688,...,41.713710,9.509409,17.590054,13.456989,45.514785,40.633065,10.170699,20.201613,17.314516,52.963710
2005-04-30,38.872222,22.769444,22.504167,18.434722,58.904167,43.033333,29.266667,18.766667,14.031944,73.201389,...,46.236111,10.584722,18.348611,14.483333,54.443056,43.913889,12.011111,22.362500,18.925000,58.566667
2005-05-31,41.360215,11.712366,19.595430,16.596774,56.430108,45.501344,14.360215,18.501344,16.165323,69.212366,...,50.325269,6.223118,18.543011,14.461022,51.877688,47.463710,6.356183,23.623656,20.306452,55.518817
2005-06-30,30.511111,9.711111,14.527778,11.915278,46.319444,30.472222,10.500000,14.079167,12.359722,56.469444,...,33.940278,6.169444,14.181944,11.898611,38.276389,31.745833,6.127778,18.794444,18.076389,42.937500
2005-07-31,30.771505,13.916667,15.217742,13.357527,47.284946,30.895161,9.975806,14.005376,12.362903,55.252688,...,37.323925,7.161290,15.248656,12.161290,36.786290,34.518817,7.149194,20.758065,19.439516,41.588710
2005-08-31,30.123656,9.798387,15.016129,14.107527,39.502688,28.014785,7.654570,14.362903,13.423387,52.036290,...,38.044355,6.112903,16.072581,12.163978,31.553763,33.883065,6.049731,18.801075,18.959677,38.314430
2005-09-30,32.184722,13.331944,15.806944,14.109722,45.108333,31.018056,10.888889,14.758333,13.697222,58.306944,...,41.372222,7.770833,17.013889,12.222222,37.130556,37.162500,8.169444,20.586111,18.431944,45.513889
2005-10-31,29.918011,15.138441,17.494624,14.669355,45.783602,29.102151,12.551075,15.388441,14.388441,61.579301,...,41.077957,9.606183,17.235215,13.307796,41.563172,35.668011,9.860215,20.823925,17.654570,47.614247


Se observa que la agrupación se realizó correctamente, la fecha representativa es el último día del mes. A continuación guardamos este dataframe completo y separado por contaminantes.

In [41]:
#Separando la información por contaminante
DF_save = list()
palabra = ['ozono','dioxido_de_azufre','dioxido_de_nitrogeno','monoxido_de_carbono','pm10']
for i in range(0,5):
    DF_save.append(DF_all_mensual[[f'noreste_{palabra[i]}',f'suroeste_{palabra[i]}',f'noroeste_{palabra[i]}',f'sureste_{palabra[i]}',f'centro_{palabra[i]}']])

In [42]:
DF_save[0]

Unnamed: 0_level_0,noreste_ozono,suroeste_ozono,noroeste_ozono,sureste_ozono,centro_ozono
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2005-01-31,34.497312,42.629032,35.766129,40.125000,29.528226
2005-02-28,34.537202,42.840774,34.148810,39.645833,28.370536
2005-03-31,37.178763,41.713710,34.479839,40.633065,28.346774
2005-04-30,43.033333,46.236111,38.872222,43.913889,35.113889
2005-05-31,45.501344,50.325269,41.360215,47.463710,38.028226
2005-06-30,30.472222,33.940278,30.511111,31.745833,24.105556
2005-07-31,30.895161,37.323925,30.771505,34.518817,25.467742
2005-08-31,28.014785,38.044355,30.123656,33.883065,25.930108
2005-09-30,31.018056,41.372222,32.184722,37.162500,29.691667
2005-10-31,29.102151,41.077957,29.918011,35.668011,26.831989


In [43]:
#Guardamos los datos limpios y transformados en archivos CSV

#Guardando archivos separados
nombres=['O3','SO2','NO2','CO','PM10']
for i in range(0,(len(nombres))):
    DF_save[i].to_csv(f'datos_IMECA/promedios_mensuales/{nombres[i]}_mensual.csv',index=True)
    
#Guardando también todo el DataFrame completo
DF_all_mensual.to_csv("datos_IMECA/promedios_mensuales/DF_all_mensual.csv",index=True)

### Resultados preliminares

A continuación trabajaremos con nuestros datos limpios y transformados para intentar responder algunas preguntas de investigación, sin un análisis tan profundo ni visualización, ya que esto se abordará en el siguiente módulo.

-   ¿En qué meses se tiene la máxima concentración de cada contaminante?

    

    
-   ¿Cuál es la zona que presenta mayor contaminación, en general?

    
-   ¿Cuál es el contaminante con más concentración por año (del 2005- 2020)?

    
-   ¿Cuál fue y cuándo se registró la concentración más baja durante 2020?

    
-   ¿Cuál fue y cuándo se registró la mayor concentración durante el periodo de confinamiento?

    
-   ¿El periodo de confinamiento coincide con una mejor calidad de aire?

    
-   ¿Cuál fue el contaminante con menores cambios en el período 2005-2020?

**¿Cuál es el promedio histórico (considerando los años 2005-2020) de concentración de cada contaminante por zona?**

In [44]:
#Promedio histórico
DF_all.set_index("fecha").mean(axis=0).round(2)

noroeste_ozono                   28.90
noroeste_dioxido_de_azufre        9.38
noroeste_dioxido_de_nitrogeno    17.48
noroeste_monoxido_de_carbono     10.09
noroeste_pm10                    55.74
noreste_ozono                    31.22
noreste_dioxido_de_azufre         7.53
noreste_dioxido_de_nitrogeno     16.09
noreste_monoxido_de_carbono       9.96
noreste_pm10                     69.31
centro_ozono                     25.97
centro_dioxido_de_azufre          6.44
centro_dioxido_de_nitrogeno      18.36
centro_monoxido_de_carbono       10.90
centro_pm10                      52.78
suroeste_ozono                   36.57
suroeste_dioxido_de_azufre        5.01
suroeste_dioxido_de_nitrogeno    15.20
suroeste_monoxido_de_carbono      8.51
suroeste_pm10                    40.04
sureste_ozono                    33.09
sureste_dioxido_de_azufre         4.68
sureste_dioxido_de_nitrogeno     15.97
sureste_monoxido_de_carbono      10.08
sureste_pm10                     51.64
dtype: float64

Los promedios históricos se observan bastante bien considerando que debajo de las 50 unidades IMECA la calidad del aire es buena.

**¿Hay algún mes de algún año en el que se haya obtenido la calificación de calidad “Extremadamente mala”?**

Recordemos que la calidad _Extremadamente mala_ corresponde a los valores mayores a 200

In [46]:
#Calidad extremadamente mala
extremadamente_mala=[]

for column in DF_all_mensual.columns:
    extremadamente_mala.append(DF_all_mensual[DF_all_mensual[column]>200])
    
extremadamente_mala=pd.concat(extremadamente_mala,axis=0)
extremadamente_mala

Unnamed: 0_level_0,noroeste_ozono,noroeste_dioxido_de_azufre,noroeste_dioxido_de_nitrogeno,noroeste_monoxido_de_carbono,noroeste_pm10,noreste_ozono,noreste_dioxido_de_azufre,noreste_dioxido_de_nitrogeno,noreste_monoxido_de_carbono,noreste_pm10,...,suroeste_ozono,suroeste_dioxido_de_azufre,suroeste_dioxido_de_nitrogeno,suroeste_monoxido_de_carbono,suroeste_pm10,sureste_ozono,sureste_dioxido_de_azufre,sureste_dioxido_de_nitrogeno,sureste_monoxido_de_carbono,sureste_pm10
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1


Se observa que no hay ningún registro con calidad _Extremadamente mala_ de acuerdo a los valores mensuales reportados.

#### ¿Cuál es el contaminante con más concentración por año (del 2005- 2020)?

In [105]:
#Agrupamos por año
DF_all_anual=DF_all.resample('Y', on='fecha').mean()
#Obtenemos el índice del valor máximo por fila
DF_all_anual.idxmax(axis = 1)

fecha
2005-12-31    noreste_pm10
2006-12-31    noreste_pm10
2007-12-31    noreste_pm10
2008-12-31    noreste_pm10
2009-12-31    noreste_pm10
2010-12-31    noreste_pm10
2011-12-31    noreste_pm10
2012-12-31    noreste_pm10
2013-12-31    noreste_pm10
2014-12-31    noreste_pm10
2015-12-31    noreste_pm10
2016-12-31    noreste_pm10
2017-12-31    noreste_pm10
2018-12-31    noreste_pm10
2019-12-31    noreste_pm10
2020-12-31    noreste_pm10
Freq: A-DEC, dtype: object

Se puede observar que el contaminante con más concentración por año fueron las partículas en suspensión (PM10) en la misma zona de noroeste.