<a href="https://colab.research.google.com/github/andresCoraza/CienciaDatos-Modulo3/blob/main/Proyecto_Modulo3_Equipo5_Datos_CalidadAireCDMX.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np

In [4]:
# Se leen todos los csv que contienen la información de niveles máximos de contaminantes 03 por año
df_o3_a2020 = pd.read_csv('Max-dia-O3-2020.csv')
df_o3_a2021 = pd.read_csv('Max-dia-O3-2021.csv')
df_o3_a2022 = pd.read_csv('Max-dia-O3-2022.csv')
df_o3_a2023 = pd.read_csv('Max-dia-O3-2023.csv')

# Seleccionamos las columnas correspondientes a las alcaldías de CDMX
df_o3_a2020 = df_o3_a2020[["Fecha","AJM","BJU","CAM","CCA","CUA","GAM","HGM","IZT","MER","MGH","PED","SAC","SFE","TAH","UAX","UIZ"]]
df_o3_a2021 = df_o3_a2021[["Fecha","AJM","BJU","CAM","CCA","CUA","GAM","HGM","IZT","MER","MGH","PED","SAC","SFE","TAH","UAX","UIZ"]]
df_o3_a2022 = df_o3_a2022[["Fecha","AJM","BJU","CAM","CCA","CUA","GAM","HGM","IZT","MER","MGH","PED","SAC","SFE","TAH","UAX","UIZ"]]
df_o3_a2023 = df_o3_a2023[["Fecha","AJM","BJU","CAM","CCA","CUA","GAM","HGM","IZT","MER","MGH","PED","SAC","SFE","TAH","UAX","UIZ"]]

# Unimos las filas de todos los datasets en uno solo
df_o3_concatenado = pd.concat([df_o3_a2020, df_o3_a2021, df_o3_a2022, df_o3_a2023])

# Se renombran las claves de las alcaldías por etiquetas descriptivas
df_o3_concatenado.rename(columns={
    'AJM': 'TLALPAN',
    'BJU': 'BENITOJUAREZ',
    'CAM': 'AZCAPOTZALCO',
    'CCA': 'COYOACAN_1',
    'CUA': 'CUAJIMALPA_1',
    'GAM': 'GUSTAVOAMADERO',
    'HGM': 'CUAUHTEMOC',
    'IZT': 'IZTACALCO',
    'MER': 'VENUSTIANOCARRANZA',
    'MGH': 'MIGUELHIDALGO',
    'PED': 'ALVAROOBREGON',
    'SFE': 'CUAJIMALPA_2',
    'SAC': 'IZTAPALAPA_1',
    'TAH': 'TLAHUAC',
    'UAX': 'COYOACAN_2',
    'UIZ': 'IZTAPALAPA_2'
    }, inplace=True)

# Se reemplazan los valores nr por NaN
df_o3_concatenado = df_o3_concatenado.replace('nr',np.nan, regex=True)

# Convertimos las columnas a numéricas
convert_dict = {
 'AZCAPOTZALCO' : float,
 'COYOACAN_1' : float,
 'COYOACAN_2' : float,
 'CUAJIMALPA_1' : float,
 'CUAJIMALPA_2' : float,
 'GUSTAVOAMADERO' : float,
 'IZTACALCO' : float,
 'IZTAPALAPA_1' : float,
 'IZTAPALAPA_2' : float,
 'ALVAROOBREGON' : float,
 'TLAHUAC' : float,
 'TLALPAN' : float,
 'BENITOJUAREZ' : float,
 'CUAUHTEMOC' : float,
 'MIGUELHIDALGO' : float,
 'VENUSTIANOCARRANZA' : float
}

df_o3_concatenado = df_o3_concatenado.astype(convert_dict)


In [6]:
print(df_o3_concatenado['TLALPAN'])

0       NaN
1       NaN
2      56.0
3      90.0
4      86.0
       ... 
360    36.0
361    77.0
362    71.0
363    72.0
364    94.0
Name: TLALPAN, Length: 1461, dtype: float64


In [8]:
# Definición de función para calcular valores para cuando se tiene más de una alcaldía
def calcula_medicion_alcaldia(row, col1, col2):
  if pd.isna( row[col1] ) and pd.isna( row[col2] ):
    return np.nan
  elif pd.isna( row[col1] ):
    return row[col2]
  elif pd.isna( row[col2] ):
    return row[col1]
  else:
    return (row[col1] + row[col2])/2

# Aplicación de función para cada una de las columnas donde se tiene más de una alcaldía
df_o3_concatenado['COYOACAN'] = df_o3_concatenado.apply(calcula_medicion_alcaldia, axis=1, args=('COYOACAN_1','COYOACAN_2') )
df_o3_concatenado['CUAJIMALPA'] = df_o3_concatenado.apply(calcula_medicion_alcaldia, axis=1, args=('CUAJIMALPA_1','CUAJIMALPA_2') )
df_o3_concatenado['IZTAPALAPA'] = df_o3_concatenado.apply(calcula_medicion_alcaldia, axis=1, args=('IZTAPALAPA_1','IZTAPALAPA_2') )



In [None]:
#df_o3_a2021['Cuajimalpa'] = df_o3_a2021['Cuajimalpa'].interpolate()

In [9]:
#df_o3_a2021.describe()
#df_o3_a2021.head()
#df_o3_a2021.dtypes
pd.set_option('display.max_rows', None)

print(df_o3_concatenado['CUAJIMALPA'])

0       45.5
1       26.0
2       51.5
3       69.0
4       80.0
5      104.0
6       64.5
7       90.0
8       80.5
9       54.5
10      73.0
11      79.0
12      81.5
13      77.5
14      76.0
15      74.5
16      63.5
17      72.5
18      29.5
19      23.0
20      52.0
21      64.0
22      37.5
23      39.0
24      46.5
25      44.5
26      42.0
27      58.0
28      50.0
29      35.5
30      47.5
31      59.5
32      50.0
33      31.5
34      26.0
35      21.5
36      44.5
37      52.5
38      88.0
39      66.5
40      86.5
41      90.0
42      52.5
43      93.5
44      88.5
45      91.5
46      51.0
47      65.0
48      74.0
49     116.0
50      66.0
51      97.5
52     100.5
53     107.0
54      55.5
55      44.0
56      83.5
57      75.5
58     101.5
59      84.5
60      87.5
61      45.0
62      36.0
63      53.0
64     113.5
65      47.5
66      81.0
67     100.0
68      96.0
69     109.5
70      68.5
71      96.5
72      97.0
73      85.5
74      80.5
75      70.5
76      78.0