# Promedio Diario $PM_{10}$

Para nuestra transformación de datos, utilizaremos las siguientes librerias:



In [1]:
import pandas as pd
import numpy as np

- Cargando dataset a un DataFrame de pandas

- Posteriormente normalizando la columna `Fecha` a tipo datetime

In [2]:
#Cargando archivos
df = pd.read_csv('../Datasets/PM10/PM10_depurado.csv')

# Normalizando fechas
df['FECHA'] = pd.to_datetime(df['FECHA'], unit='ns')
df.head()

Unnamed: 0.1,Unnamed: 0,FECHA,HORA,ACO,AJM,ATI,BJU,CAM,CUA,CUT,...,IZT,MER,PED,SAG,SFE,TAH,TLA,UIZ,VIF,XAL
0,0,2019-01-01,1,201.0,39.0,105.0,84.0,120.0,113.0,149.0,...,132.0,113.0,,149.0,50.0,191.0,78.0,129.0,280.0,155.0
1,1,2019-01-01,2,218.0,27.0,128.0,115.0,135.0,158.0,211.0,...,202.0,141.0,,149.0,54.0,225.0,73.0,125.0,257.0,236.0
2,2,2019-01-01,3,240.0,20.0,93.0,134.0,177.0,192.0,214.0,...,198.0,118.0,,152.0,65.0,185.0,80.0,132.0,509.0,337.0
3,3,2019-01-01,4,231.0,10.0,86.0,124.0,204.0,143.0,178.0,...,192.0,154.0,,217.0,33.0,172.0,84.0,136.0,611.0,271.0
4,4,2019-01-01,5,216.0,7.0,68.0,143.0,162.0,123.0,234.0,...,178.0,227.0,,242.0,29.0,83.0,63.0,191.0,653.0,226.0


Posteriormente, se filtran los datos por los meses de interés, que son marzo, abril y mayo. Primeramente se crea el rango de fechas de interés y luego éste se utiliza para filtrar el dataset

In [3]:
date_rng = pd.date_range(start='2019/03/01', end='2019/05/31', freq='d')#Rango en 2019
date_rng2= pd.date_range(start='2020/03/01', end='2020/05/31', freq='d') #Rango en 2020
date_rng= date_rng.append(date_rng2) #unión de rangos

In [4]:
df=df[df["FECHA"].isin(date_rng)]
df.head()

Unnamed: 0.1,Unnamed: 0,FECHA,HORA,ACO,AJM,ATI,BJU,CAM,CUA,CUT,...,IZT,MER,PED,SAG,SFE,TAH,TLA,UIZ,VIF,XAL
48,48,2019-03-01,1,119.0,20.0,62.0,27.0,35.0,23.0,71.0,...,64.0,72.0,,110.0,13.0,23.0,40.0,37.0,130.0,96.0
49,49,2019-03-01,2,90.0,34.0,48.0,29.0,27.0,20.0,53.0,...,46.0,80.0,,133.0,22.0,25.0,51.0,47.0,87.0,114.0
50,50,2019-03-01,3,81.0,47.0,37.0,26.0,21.0,28.0,41.0,...,44.0,49.0,,124.0,27.0,36.0,55.0,47.0,66.0,128.0
51,51,2019-03-01,4,65.0,44.0,39.0,39.0,58.0,38.0,39.0,...,51.0,38.0,,70.0,38.0,17.0,25.0,47.0,56.0,118.0
52,52,2019-03-01,5,53.0,40.0,48.0,32.0,63.0,12.0,35.0,...,56.0,55.0,,90.0,26.0,23.0,27.0,42.0,156.0,130.0


- Reacomodo del DataFrame , donde ahora tendremos una columna para las estaciones y sus correspondientes datos de medición
- Eliminando los datos `NaN`
- Comprobando que no queden datos `NaN` en el DataFrame

In [5]:
# Extraer nombre de columnas
cols = df.columns.tolist()

# Reacomodando dataframe
df = pd.melt(df, id_vars=['FECHA', 'HORA'], value_vars=cols[3:], var_name='station', value_name='measurement')

# df = df[~df['measurement'].isna()] otra forma de eliminar nan's
df = df.dropna(axis=0, how='any').reset_index(drop=True)

print("No. de columnas que contienen valores nulos ")
print(len(df.columns[df.isna().any()]))

print("No. de columnas que no contienen valores nulos")
print(len(df.columns[df.notna().all()]))

print("No total de columnas en el dataframe")
print(len(df.columns))
df.head()

No. de columnas que contienen valores nulos 
0
No. de columnas que no contienen valores nulos
4
No total de columnas en el dataframe
4


Unnamed: 0,FECHA,HORA,station,measurement
0,2019-03-01,1,ACO,119.0
1,2019-03-01,2,ACO,90.0
2,2019-03-01,3,ACO,81.0
3,2019-03-01,4,ACO,65.0
4,2019-03-01,5,ACO,53.0


- Ordenando el dataframe segun la fecha y la estación

In [6]:
# ordenando el dataframe por fecha y nombre de estacion
df = df.sort_values(['FECHA', 'station']).reset_index(drop=True)
df

Unnamed: 0,FECHA,HORA,station,measurement
0,2019-03-01,1,ACO,119.0
1,2019-03-01,2,ACO,90.0
2,2019-03-01,3,ACO,81.0
3,2019-03-01,4,ACO,65.0
4,2019-03-01,5,ACO,53.0
...,...,...,...,...
67375,2020-05-31,20,VIF,12.0
67376,2020-05-31,21,VIF,5.0
67377,2020-05-31,22,VIF,13.0
67378,2020-05-31,23,VIF,21.0


Ahora se busca eliminar, según el día y la estación, aquellas filas que tengan mediciones horarias menores a las requeridas por la normativa (18 mediciones). Por ejemplo, si la estación ACO en el 01 de enero de 2019 registró solamente 15 mediciones horarias, todas las mediciones de ese día para la estación ACO no será tomadas en cuenta para los posteriores análisis. 

Primero se debe elaborar una función que devuelva el dataframe que contenga solamente los registros válidos

In [7]:
def dia_estacion_valido(dataframe):
  #Contar las mediciones horarias por día y estación
  filtro= dataframe.groupby(['FECHA', 'station'],as_index=False).agg(N_h=('HORA','count'))
  #Filtrar aquellas que no cumplen normativa
  filtro= filtro.query('N_h < 17')
  #Conservar las columnas de fecha y estación
  filtro=filtro.loc[:,['FECHA','station']]
  #Eliminar del dataframe original las mediciones que no cumplen normativa
  filtro=pd.merge(dataframe,filtro, how='outer', indicator=True)
  filtro=filtro[filtro['_merge'] == 'left_only']
  return filtro


Con la función, se filtra las mediciones por día y por estación son válidas para los siguientes análisis.

In [8]:

df_filtrado= dia_estacion_valido(df)
df_filtrado = df_filtrado.drop(columns=['_merge'])
df_filtrado=df_filtrado.reset_index()
df_filtrado = df_filtrado.drop(columns=['index'])
df_filtrado


Unnamed: 0,FECHA,HORA,station,measurement
0,2019-03-01,1,ACO,119.0
1,2019-03-01,2,ACO,90.0
2,2019-03-01,3,ACO,81.0
3,2019-03-01,4,ACO,65.0
4,2019-03-01,5,ACO,53.0
...,...,...,...,...
66148,2020-05-31,20,VIF,12.0
66149,2020-05-31,21,VIF,5.0
66150,2020-05-31,22,VIF,13.0
66151,2020-05-31,23,VIF,21.0


Una vez con el dataframe inicial limpio, se procede a relacionar cada estación con su respectiva zona de activación. Primeramente se leen los datos

In [9]:
# Cargando dataset de zonas
df_zonas = pd.read_csv('../Datasets/cat_estacion_depurado.csv')

# Eliminando columna 'Unnamed: 0'
df_zonas = df_zonas.drop(columns=['Unnamed: 0'])
# Remplazando los - por NaN
df_zonas = df_zonas.replace('-', np.nan)
# Eliminando lo NaN's
df_zonas = df_zonas.dropna(axis=0, how='any').reset_index(drop=True)
# Renombrando la columna
df_zonas = df_zonas.rename(columns={'cve_estac': 'station'})
df_zonas.head()

Unnamed: 0,station,nom_estac,Zona
0,ACO,Acolman,NE
1,AJU,Ajusco,SO
2,AJM,Ajusco Medio,SO
3,ATI,Atizapan,NO
4,BJU,Benito Ju�rez,CE


- Uniendo los datos con las zonas correspondiente


In [10]:
df_filtrado = df_filtrado.merge(df_zonas[['station', 'Zona']], on='station')
df_filtrado.head()

Unnamed: 0,FECHA,HORA,station,measurement,Zona
0,2019-03-01,1,ACO,119.0,NE
1,2019-03-01,2,ACO,90.0,NE
2,2019-03-01,3,ACO,81.0,NE
3,2019-03-01,4,ACO,65.0,NE
4,2019-03-01,5,ACO,53.0,NE


Con los datos válidos para realizar las operaciones siguientes y ya con la relación de cada estación con su respectiva zona de activación, se procede a calcular el promedio diario de concentración y el índice de calidad del aire en cada zona y en cada día

### Calculando el promedio diario
Para el cálculo del promedio diario de $PM_{10}$ se utilizó la metodología descrita en la `NOM-025-SSA1-2014`, siguiendo la siguiente ecuación:

$$\bar{x}= \frac{1}{n} \displaystyle\sum_{i=1}^n x_i$$
$\bar{x}:$ promedio de 24 horas, 

$n:$ número de concentraciones horarias válidas

$x_i:$ concentraciones horarias válidas

- Camo datos extra obteniendo los valores mínimos y máximos


In [11]:
# Calculando promedio diario, contando numero de horas usadas, obteniendo el máximo 
#y mínimo para las visualizaciones en el módulo siguiente
df_PM1024h = df_filtrado.groupby(['FECHA', 'Zona'], as_index=False).agg(
            PromDiario=('measurement', lambda x: round(x.mean(),0)), 
            Max = ('measurement', 'max'),
            Min = ('measurement', 'min'))
df_PM1024h.head()

Unnamed: 0,FECHA,Zona,PromDiario,Max,Min
0,2019-03-01,CE,59.0,125.0,23.0
1,2019-03-01,NE,94.0,215.0,22.0
2,2019-03-01,NO,75.0,193.0,21.0
3,2019-03-01,SE,56.0,111.0,8.0
4,2019-03-01,SO,38.0,85.0,3.0


### Calculando Índice de calidad del aire

Donde:
$$\text{Índice}= (k \times (C - BP_{Lo}))+I_{Lo}$$
$$k= \frac{I_{Hi}-I_{Lo}}{BP_{Hi}-BP_{Lo}}$$
 
$\text{Índice}:$ Valor del índice para el contaminante deseado.<br>
$C:$ valor redondeado para la concentración del contaminante.<br>
$k:$ constante de proporcionalidad estimada.<br>
$BP_{Hi}:$ valor del punto de corte que es mayor o igual a la concentración a evaluar.<br>
$BP_{Lo}:$ valor del punto de corte que es menor o igual a la concentración a evaluar.<br>
$I_{Hi}:$ valor del índice que corresponde al valor de $BP_{Hi}$<br>
$I_{Lo}:$ valor del índice que corresponde al valor de $BP_{Lo}$<br>


Primero se crea una función que determine el índice de calidad del aire según la metodología y los valores de la tabla descrita en el apartado Metodología para los valores de los puntos de corte

In [12]:
def AQI(df):
    CP = df['PromDiario']
    i = 0

    if 0 <= CP <= 40:
        k = (50-0)/(40-0)
        i = k * (CP - 0) + 0
    if 41 <= CP <= 75:
        k = (100-51)/(75-41)
        i = k * (CP - 41) + 51
    if 76 <= CP <= 214:
        k = (150-101)/(214-76)
        i = k * (CP - 76) + 101
    if 215 <= CP <= 354:
        k = (200-151)/(354-215)
        i = k * (CP - 215) + 151
    if 355 <= CP <= 424:
        k = (300-201)/(242-355)
        i = k * (CP - 355) + 201
    if 425 <= CP <= 504:
        k = (400-301)/(504-425)
        i = k * (CP - 425) + 301
    if 505 <= CP <= 604:
        k = (500-401)/(604-505)
        i = k * (CP - 505) + 401
    
    return round(i, 3)

Luego se aplica la función para cada promedio diario calculado



In [13]:
df_PM1024h['indice'] = df_PM1024h.apply(AQI, axis=1)
df_PM1024h.head()

Unnamed: 0,FECHA,Zona,PromDiario,Max,Min,indice
0,2019-03-01,CE,59.0,125.0,23.0,76.941
1,2019-03-01,NE,94.0,215.0,22.0,107.391
2,2019-03-01,NO,75.0,193.0,21.0,100.0
3,2019-03-01,SE,56.0,111.0,8.0,72.618
4,2019-03-01,SO,38.0,85.0,3.0,47.5


Con el índice de calidad del aire, se crea otra función para determinar la categoría de calidad del aire descrita por la norma mexicana.

In [14]:
def AQI_categoria(df):
    indice = df['indice']
    if indice <= 50:
      clase='Buena'
    elif indice <= 100:
      clase='Regular'
    elif indice <= 150:
      clase= 'Mala'
    elif indice <= 200:
      clase = 'Muy mala'
    else: 
      clase = 'Extremadamente mala'
    
    return clase

Se aplica la función para determinar la categoría a cada promedio diario calculado.

In [15]:
df_PM1024h['clase'] = df_PM1024h.apply(AQI_categoria, axis=1)
df_PM1024h.head()

Unnamed: 0,FECHA,Zona,PromDiario,Max,Min,indice,clase
0,2019-03-01,CE,59.0,125.0,23.0,76.941,Regular
1,2019-03-01,NE,94.0,215.0,22.0,107.391,Mala
2,2019-03-01,NO,75.0,193.0,21.0,100.0,Regular
3,2019-03-01,SE,56.0,111.0,8.0,72.618,Regular
4,2019-03-01,SO,38.0,85.0,3.0,47.5,Buena


Se guardan los resultados en un csv

In [16]:
df_PM1024h.to_csv('../Datasets/PM10/PDEstacion_PM10.csv', index=False)