# Taller 1 - Red de Monitoreo de Calidad del Aire de Bogota.
http://rmcab.ambientebogota.gov.co/Report/stationreport

## Decripción del conjunto de datos

# 1. Instalar Librerias

In [120]:
#!pip install --upgrade pip # se actualiza pip, en caso de que no lo tenga actualizado
#!pip install psycopg2-binary # Psycopg es un adaptador de base de datos PostgreSQL
#!pip install pandas 
#!pip install openpyxl


## 1.1 Importar librerias

In [121]:
import pandas as pd
from os import walk
import os, re   #expresiones regulares

# 2. Procesar conjunto de datos (Preprocesssing-dataset)

## 2.1 Unir todos los conjuntos de datos de extensión xlsx en un arreglo 


Agrego una variable para identificar el directorio de la data

In [122]:
datadir = 'work/dataScienceCourse/data/raw/'

In [123]:
# unir todos los conjuntos de datos de extensión xlsx en un arreglo 
arregloDeDataSets = []
for (dirpath, dirnames, filenames) in walk(datadir):
    arregloDeDataSets.extend(filenames)
    break
arregloDeDataSets

['ca_USM_StationsReport_202231291350.xlsx',
 'ca_BOL_StationsReport_20223129119.xlsx',
 'ca_SUB_StationsReport_202231291211.xlsx',
 'ca_TUN_StationsReport_202231291241.xlsx',
 'ca_LFR_StationsReport_20223129750.xlsx',
 'ca_PTE_StationsReport_20223129110.xlsx',
 'ca_MAM_StationsReport_20223129831.xlsx',
 'ca_CBV_StationsReport_20223129333.xlsx',
 'ca_CDAR_StationsReport_20223129247.xlsx',
 'ca_SCR_StationsReport_202231291142.xlsx',
 'ca_FTB_StationsReport_20223129456.xlsx',
 'ca_JAZ_StationsReport_20223129614.xlsx',
 'ca_7MA_StationsReport_20223129920.xlsx',
 'ca_CSE_StationsReport_20223129152.xlsx',
 'ca_GYR_StationsReport_20223129531.xlsx',
 'ca_COL_StationsReport_20223129424.xlsx',
 'ca_MOV2_StationsReport_202231291026.xlsx',
 'ca_USQ_StationsReport_202231291319.xlsx',
 'ca_KEN_StationsReport_2022312979.xlsx']

## 2.2  Concatenar los datsets en uno solo 


Se cambia la ejecucion dado que el metodo append de pandas ya no se encuentra en la version en que estamos trabajando: El método append de pandas fue deprecado en la versión 1.4.0 y eliminado en la versión 2.0. 

In [124]:
# La version utilizada es:
pd.__version__

'2.1.1'

In [125]:
path = os.path.abspath(datadir)
files = os.listdir(path)

# Lista para almacenar DataFrames
dataframes = []

# Procesar cada archivo Excel
for file in files:
    if file.endswith('.xlsx'):
        # Leer el archivo Excel
        dft = pd.read_excel(os.path.join(datadir, file))
        # Extraer el nombre de la estación del nombre del archivo
        dft['Station'] = re.search(r'_(.*?)_', str(file)).group(1)
        # Agregar el DataFrame a la lista, omitiendo la primera fila
        dataframes.append(dft.iloc[1:])

# Concatenar todos los DataFrames
df = pd.concat(dataframes, ignore_index=True)

# Mostrar las primeras filas
print(df.head())

           DateTime   PM10 PM2.5      NO     NO2     NOX    SO2       CO  \
0  01-01-2021 01:00   56.6  32.7   7.504  15.962  23.493   7.24  0.44924   
1  01-01-2021 02:00   59.3  39.3   16.56  17.866  34.426  5.405  0.69832   
2  01-01-2021 03:00   96.4  70.8  22.989  17.802  40.791  5.685  0.88243   
3  01-01-2021 04:00  108.3    81   3.704   9.886  13.591  2.436  0.29549   
4  01-01-2021 05:00   87.7  56.1   2.098   9.272  11.371  3.039  0.16621   

   OZONO Vel Viento  ... HR.1 Canal no activo PM10 Flow  CO2 SO2 Envea  \
0  2.431        0.6  ...  NaN             NaN       NaN  NaN       NaN   
1  1.121        0.3  ...  NaN             NaN       NaN  NaN       NaN   
2  1.172        0.4  ...  NaN             NaN       NaN  NaN       NaN   
3  6.565        0.7  ...  NaN             NaN       NaN  NaN       NaN   
4  9.513        0.4  ...  NaN             NaN       NaN  NaN       NaN   

  Vel Viento 10M Dir Viento 10M Temperatura 8M Temperatura 20M PM2.5 Flow  
0            NaN      

## 2.3 Comprobar los valores nulos por columnas

In [126]:
# Contar cuantos valores nulos hay por cada columna
df.isnull().sum()

DateTime                0
PM10                    0
PM2.5                   0
NO                   8760
NO2                  8760
NOX                  8760
SO2                 43800
CO                      0
OZONO                8760
Vel Viento          26280
Dir Viento          26280
Temperatura         17520
HR                  52560
Presion Baro        70080
Rad Solar           61320
Station                 0
Precipitacion       61320
HR.1               157680
Canal no activo    157680
PM10 Flow          157680
CO2                148920
SO2 Envea          157680
Vel Viento 10M     157680
Dir Viento 10M     157680
Temperatura 8M     157680
Temperatura 20M    157680
PM2.5 Flow         157680
dtype: int64

## 2.4 Organizar y guardar en un nuevo df las columnas significativas

In [127]:
# Organizar y guardar en un nuevo df las columnas significativas
df = df[['PM10','PM2.5','NO','NO2','NOX','CO','OZONO','Station', 'DateTime']]
df.head()

Unnamed: 0,PM10,PM2.5,NO,NO2,NOX,CO,OZONO,Station,DateTime
0,56.6,32.7,7.504,15.962,23.493,0.44924,2.431,USM,01-01-2021 01:00
1,59.3,39.3,16.56,17.866,34.426,0.69832,1.121,USM,01-01-2021 02:00
2,96.4,70.8,22.989,17.802,40.791,0.88243,1.172,USM,01-01-2021 03:00
3,108.3,81.0,3.704,9.886,13.591,0.29549,6.565,USM,01-01-2021 04:00
4,87.7,56.1,2.098,9.272,11.371,0.16621,9.513,USM,01-01-2021 05:00


## 2.5 Convertir valores a numericos y sino poner NaN

In [128]:
# Aquí su código
# Convertir valores a numericos y si no poner NaN
df[['PM10', 'PM2.5', 'NO', 'NO2', 'NOX', 'CO', 'OZONO']] = df[['PM10', 'PM2.5', 'NO', 'NO2', 'NOX', 'CO', 'OZONO']].apply(pd.to_numeric, errors='coerce')
df.head()

Unnamed: 0,PM10,PM2.5,NO,NO2,NOX,CO,OZONO,Station,DateTime
0,56.6,32.7,7.504,15.962,23.493,0.44924,2.431,USM,01-01-2021 01:00
1,59.3,39.3,16.56,17.866,34.426,0.69832,1.121,USM,01-01-2021 02:00
2,96.4,70.8,22.989,17.802,40.791,0.88243,1.172,USM,01-01-2021 03:00
3,108.3,81.0,3.704,9.886,13.591,0.29549,6.565,USM,01-01-2021 04:00
4,87.7,56.1,2.098,9.272,11.371,0.16621,9.513,USM,01-01-2021 05:00


In [129]:
df.isnull().sum()

PM10        20014
PM2.5       15312
NO          27664
NO2         27662
NOX         27668
CO          31238
OZONO       32132
Station         0
DateTime        0
dtype: int64

## 2.6 Ver el tamaño del dataset 

In [130]:
# ver el tamaño del conjunto de datos 
# Aquí su código 
df.shape

(166440, 9)

## 2.7 Crear una nueva columna con filtro (False o True)

In [131]:
# True is greater than 12, bad (Pure, Not Pure)
df['Status'] = df['PM2.5']>12
df.Status.value_counts()
df.head()

Unnamed: 0,PM10,PM2.5,NO,NO2,NOX,CO,OZONO,Station,DateTime,Status
0,56.6,32.7,7.504,15.962,23.493,0.44924,2.431,USM,01-01-2021 01:00,True
1,59.3,39.3,16.56,17.866,34.426,0.69832,1.121,USM,01-01-2021 02:00,True
2,96.4,70.8,22.989,17.802,40.791,0.88243,1.172,USM,01-01-2021 03:00,True
3,108.3,81.0,3.704,9.886,13.591,0.29549,6.565,USM,01-01-2021 04:00,True
4,87.7,56.1,2.098,9.272,11.371,0.16621,9.513,USM,01-01-2021 05:00,True


## 2.8 Guardar todo el proceso en un nuevo dataset

In [132]:
# we need another column to specify stations
#df.to_csv("data/clean_data_final.csv", index = False)
#Aquí su código 
result_dir = 'work/dataScienceCourse/data/result'
if not os.path.exists(result_dir):
    os.makedirs(result_dir)

df.to_csv(result_dir + "/clean_data_final.csv", index=False)

# 3. Integrar nuevo dataset (Stations)

## 3.1 Cargar dataset de stations

In [133]:
#cargar el df dataset_with_missing.csv   data/dataset_with_missing.csv'
#cargar el df stations_loc.csv data/stations_loc.csv')

#Aquí su código 
df = pd.read_csv(result_dir + "/clean_data_final.csv")
df.head()


Unnamed: 0,PM10,PM2.5,NO,NO2,NOX,CO,OZONO,Station,DateTime,Status
0,56.6,32.7,7.504,15.962,23.493,0.44924,2.431,USM,01-01-2021 01:00,True
1,59.3,39.3,16.56,17.866,34.426,0.69832,1.121,USM,01-01-2021 02:00,True
2,96.4,70.8,22.989,17.802,40.791,0.88243,1.172,USM,01-01-2021 03:00,True
3,108.3,81.0,3.704,9.886,13.591,0.29549,6.565,USM,01-01-2021 04:00,True
4,87.7,56.1,2.098,9.272,11.371,0.16621,9.513,USM,01-01-2021 05:00,True


In [134]:
df_stations = pd.read_csv('work/dataScienceCourse/data/stations_loc.csv')
df_stations.head()

Unnamed: 0,estacion,Sigla,Latitud,Longitud,Altitud (m),Altura (m),Localidad,Tipo de zona,Tipo de estación,Dirección
0,guaymaral,GYR,"4°47'01.5""N","74°02'38.9""W",2580,0,Suba,Sub urbana,De fondo,Autopista Norte # 205-59
1,usaquen,USQ,"4°42'37.26""N","74°1'49.50""W",2570,10,Usaquén,Urbana,De fondo,Carrera 7B Bis # 132-11
2,suba,SUB,"4°45'40.49""N","74° 5'36.46""W",2571,6,Suba,Sub urbana,De fondo,Carrera 111 # 159A-61
3,bolivia,BOL,"4°44'08.9""N","74°07'33.2""W",2574,0,Engativá,Sub urbana,De fondo,Avenida Calle 80 # 121-98
4,las_ferias,LFR,"4°41'26.52""N","74°4'56.94""W",2552,0,Engativá,Urbana,De tráfico,Avenida Calle 80 # 69Q-50


### 3.1.1 Seleccionar algunas columnas del dataset stations

In [135]:
stations = df_stations[['Sigla', 'Latitud', 'Longitud']]

### 3.1.2 Cambiar el nombre de una columna 

In [136]:
stations = stations.rename(columns={'Sigla': 'Station'}) #Columna Sigla por Station
stations.head()

Unnamed: 0,Station,Latitud,Longitud
0,GYR,"4°47'01.5""N","74°02'38.9""W"
1,USQ,"4°42'37.26""N","74°1'49.50""W"
2,SUB,"4°45'40.49""N","74° 5'36.46""W"
3,BOL,"4°44'08.9""N","74°07'33.2""W"
4,LFR,"4°41'26.52""N","74°4'56.94""W"


## 3.2 Convertir las coordenadas de texto a decimales

In [137]:
import re

def dms2dd(degrees, minutes, seconds, direction):
    dd = float(degrees) + float(minutes)/60 + float(seconds)/(60*60);
    if direction == 'S' or direction == 'W':
        dd *= -1
    return dd;

def dd2dms(deg):
    d = int(deg)
    md = abs(deg - d) * 60
    m = int(md)
    sd = (md - m) * 60
    return [d, m, sd]

def parse_dms(coor):
    parts = re.split('[^\d\w]+', coor)
    dec_coor = dms2dd(parts[0], parts[1], float(parts[2]+'.'+parts[2]), parts[4])
    return dec_coor

'''
def dms2dd(degrees, minutes, seconds, direction):
    dd = float(degrees) + float(minutes)/60 + float(seconds)/(60*60);
    if direction == 'E' or direction == 'S':
        dd *= -1
    return dd;

def dd2dms(deg):
    d = int(deg)
    md = abs(deg - d) * 60
    m = int(md)
    sd = (md - m) * 60
    return [d, m, sd]

def parse_dms(dms):
    parts = re.split('[^\d\w]+', dms)
    lat = dms2dd(parts[0], parts[1], parts[2], parts[3])
 
    return (lat)
'''

"\ndef dms2dd(degrees, minutes, seconds, direction):\n    dd = float(degrees) + float(minutes)/60 + float(seconds)/(60*60);\n    if direction == 'E' or direction == 'S':\n        dd *= -1\n    return dd;\n\ndef dd2dms(deg):\n    d = int(deg)\n    md = abs(deg - d) * 60\n    m = int(md)\n    sd = (md - m) * 60\n    return [d, m, sd]\n\ndef parse_dms(dms):\n    parts = re.split('[^\\d\\w]+', dms)\n    lat = dms2dd(parts[0], parts[1], parts[2], parts[3])\n \n    return (lat)\n"

In [138]:
#Aplicar la funcion parse_dms a la columna Latitud y Longitud
stations['Latitud'] = stations['Latitud'].apply(parse_dms)
stations['Longitud'] = stations['Longitud'].apply(parse_dms)
stations.head()

Unnamed: 0,Station,Latitud,Longitud
0,GYR,4.783614,-74.043994
1,USQ,4.710381,-74.030414
2,SUB,4.761222,-74.093433
3,BOL,4.735578,-74.125925
4,LFR,4.690628,-74.082378


## 3.3 Integrar el dataset df con el dataset stations

In [139]:
df = pd.merge(df, stations, on='Station', how='inner')
df.head(3)

Unnamed: 0,PM10,PM2.5,NO,NO2,NOX,CO,OZONO,Station,DateTime,Status,Latitud,Longitud
0,56.6,32.7,7.504,15.962,23.493,0.44924,2.431,USM,01-01-2021 01:00,True,4.532097,-74.116947
1,59.3,39.3,16.56,17.866,34.426,0.69832,1.121,USM,01-01-2021 02:00,True,4.532097,-74.116947
2,96.4,70.8,22.989,17.802,40.791,0.88243,1.172,USM,01-01-2021 03:00,True,4.532097,-74.116947


## 3.4 Convertir hora (DateTime)

In [140]:
#Puede ver que en la columna 'DateTime', 
#la información sobre la fecha y la hora se dan juntas. 
#Por lo tanto, extraerá la información de tiempo.

def replace24(datetimex):
    return datetimex.replace('24:00', '00:00') #cambia de horarios

In [141]:
# Esta celda extraerá información de la columna 'datetime' y 
#generará columnas de meses, días o semanas y horas
df['DateTime'] = df['DateTime'].apply(replace24)
df['DateTime'] = pd.to_datetime(df['DateTime'], dayfirst=True)
df['month'] = pd.DatetimeIndex(df['DateTime']).month
df['day_week'] = pd.DatetimeIndex(df['DateTime']).weekday
df['day_month'] = pd.DatetimeIndex(df['DateTime']).day
df['hour'] = pd.DatetimeIndex(df['DateTime']).hour
df.loc[df['hour']==0,'hour'] = 24

In [142]:
df.head()

Unnamed: 0,PM10,PM2.5,NO,NO2,NOX,CO,OZONO,Station,DateTime,Status,Latitud,Longitud,month,day_week,day_month,hour
0,56.6,32.7,7.504,15.962,23.493,0.44924,2.431,USM,2021-01-01 01:00:00,True,4.532097,-74.116947,1,4,1,1
1,59.3,39.3,16.56,17.866,34.426,0.69832,1.121,USM,2021-01-01 02:00:00,True,4.532097,-74.116947,1,4,1,2
2,96.4,70.8,22.989,17.802,40.791,0.88243,1.172,USM,2021-01-01 03:00:00,True,4.532097,-74.116947,1,4,1,3
3,108.3,81.0,3.704,9.886,13.591,0.29549,6.565,USM,2021-01-01 04:00:00,True,4.532097,-74.116947,1,4,1,4
4,87.7,56.1,2.098,9.272,11.371,0.16621,9.513,USM,2021-01-01 05:00:00,True,4.532097,-74.116947,1,4,1,5


## 3.5 Guardar todo el proceso en un nuevo dataset

In [143]:
df.to_csv(result_dir + "/dataset_with_geo_missing.csv", index = False)

# 4. Limpieza de datos

In [144]:
# Varias columnas tienen valores perdidos en el dataset

#Aquí su código 
df.isnull().sum()

PM10         20014
PM2.5        15312
NO           27664
NO2          27662
NOX          27668
CO           31238
OZONO        32132
Station          0
DateTime         0
Status           0
Latitud          0
Longitud         0
month            0
day_week         0
day_month        0
hour             0
dtype: int64

## 4.1 Remplazar los valores NaN en cada columna con su media

In [145]:
df['PM10'].fillna((df['PM10'].mean()), inplace=True)

#hagalo para PM2.5, CO, NO, NO2, NOx, OZONO
#Aquí su código 
df['PM2.5'].fillna((df['PM2.5'].mean()), inplace=True)
df['CO'].fillna((df['CO'].mean()), inplace=True)
df['NO'].fillna((df['NO'].mean()), inplace=True)
df['NO2'].fillna((df['NO2'].mean()), inplace=True)
df['NOX'].fillna((df['NOX'].mean()), inplace=True)
df['OZONO'].fillna((df['OZONO'].mean()), inplace=True)

In [146]:
# compruebe --- ya no hay valores perdidos en el dataset

# Verificar que ya no hay valores perdidos en el dataset
df.isnull().sum()

PM10         0
PM2.5        0
NO           0
NO2          0
NOX          0
CO           0
OZONO        0
Station      0
DateTime     0
Status       0
Latitud      0
Longitud     0
month        0
day_week     0
day_month    0
hour         0
dtype: int64

## 4.2 Guardar todo el proceso en un nuevo dataset

In [147]:
df.to_csv(result_dir + "/dataset_final_clean_mean.csv", index = False)

# 5. Creando el esquema de la bodega de datos 

In [148]:
df = pd.read_csv(result_dir + '/dataset_final_clean_mean.csv')
df.head()

Unnamed: 0,PM10,PM2.5,NO,NO2,NOX,CO,OZONO,Station,DateTime,Status,Latitud,Longitud,month,day_week,day_month,hour
0,56.6,32.7,7.504,15.962,23.493,0.44924,2.431,USM,2021-01-01 01:00:00,True,4.532097,-74.116947,1,4,1,1
1,59.3,39.3,16.56,17.866,34.426,0.69832,1.121,USM,2021-01-01 02:00:00,True,4.532097,-74.116947,1,4,1,2
2,96.4,70.8,22.989,17.802,40.791,0.88243,1.172,USM,2021-01-01 03:00:00,True,4.532097,-74.116947,1,4,1,3
3,108.3,81.0,3.704,9.886,13.591,0.29549,6.565,USM,2021-01-01 04:00:00,True,4.532097,-74.116947,1,4,1,4
4,87.7,56.1,2.098,9.272,11.371,0.16621,9.513,USM,2021-01-01 05:00:00,True,4.532097,-74.116947,1,4,1,5


## 5.1 Se crea un nuevo DataFrame con los datos de los polutantes

In [149]:
df_polutante = pd.DataFrame(df, columns=["PM10", "PM2.5", "NO", "NO2", "NOX", "CO", "OZONO"]) # se crea un nuevo DataFrame unicamente con los polutantes
df['id_polutante'] = df.index+1 # se crea una nueva columna que identificará a cada polutante
df_polutante.head()

Unnamed: 0,PM10,PM2.5,NO,NO2,NOX,CO,OZONO
0,56.6,32.7,7.504,15.962,23.493,0.44924,2.431
1,59.3,39.3,16.56,17.866,34.426,0.69832,1.121
2,96.4,70.8,22.989,17.802,40.791,0.88243,1.172
3,108.3,81.0,3.704,9.886,13.591,0.29549,6.565
4,87.7,56.1,2.098,9.272,11.371,0.16621,9.513


## 5.2 Se crea un nuevo dataset con los datos de las estaciones y se eliminan las filas repetidas

In [150]:
df_estacion=pd.DataFrame(df, columns=["Name", "Station", "Localidad", "Latitud", "Longitud"]) # se crea un nuevo DataFrame unicamente con los datos de las estaciones
df_estacion = df_estacion.drop_duplicates() # se eliminan las filas repetidas
df_estacion = df_estacion.rename(columns={'Station': 'Sigla'}) # se cambia el nombre a la columna Station por Sigla
df_estacion.head()

Unnamed: 0,Name,Sigla,Localidad,Latitud,Longitud
0,,USM,,4.532097,-74.116947
8760,,BOL,,4.735578,-74.125925
17520,,SUB,,4.761222,-74.093433
26280,,TUN,,4.576206,-74.130975
35040,,LFR,,4.690628,-74.082378


In [151]:
# se remplaza la columna sigla, dejando unicamente los datos unicos y luego se le cambia el nombre
# a la misma por id_estacion
count = 1
for index, row in df_estacion.iterrows():
    df = df.replace({row["Sigla"]: count})
    count += 1
df = df.rename(columns={'Station': 'id_estacion'})
df.head()

Unnamed: 0,PM10,PM2.5,NO,NO2,NOX,CO,OZONO,id_estacion,DateTime,Status,Latitud,Longitud,month,day_week,day_month,hour,id_polutante
0,56.6,32.7,7.504,15.962,23.493,0.44924,2.431,1,2021-01-01 01:00:00,True,4.532097,-74.116947,1,4,1,1,1
1,59.3,39.3,16.56,17.866,34.426,0.69832,1.121,1,2021-01-01 02:00:00,True,4.532097,-74.116947,1,4,1,2,2
2,96.4,70.8,22.989,17.802,40.791,0.88243,1.172,1,2021-01-01 03:00:00,True,4.532097,-74.116947,1,4,1,3,3
3,108.3,81.0,3.704,9.886,13.591,0.29549,6.565,1,2021-01-01 04:00:00,True,4.532097,-74.116947,1,4,1,4,4
4,87.7,56.1,2.098,9.272,11.371,0.16621,9.513,1,2021-01-01 05:00:00,True,4.532097,-74.116947,1,4,1,5,5


## 5.3 Se crea un nuevo DataFrame con los datos de las fechas.

In [152]:
# se crea un nuevo DataFrame y se eliminan los valores repetidos
df_fecha=pd.DataFrame(df, columns=["DateTime"]) # se crea un nuevo DataFrame con las fechas y horas 
#df_fecha["DateTime"].value_counts() # !TODO Borrar?
df_fecha = df_fecha.drop_duplicates() # se eliminan las filas repetidas
df_fecha.head()

Unnamed: 0,DateTime
0,2021-01-01 01:00:00
1,2021-01-01 02:00:00
2,2021-01-01 03:00:00
3,2021-01-01 04:00:00
4,2021-01-01 05:00:00


In [153]:
import re # libreria para el uso de expresiones regulares
from pandas.tseries.holiday import Holiday, AbstractHolidayCalendar
from datetime import datetime

# definimos los días festivo para el año en que se tomaron los datos
class EsBusinessCalendar(AbstractHolidayCalendar):
   rules = [ # se definen los festivos, teniendo en cuenta los horarios festivos para el año de 2021 en Colombia
     Holiday('Año Nuevo', month=1, day=1),
     Holiday('Día de los Reyes Magos', month=1, day=11),
     Holiday('Día de San José', month=3, day=22),
     Holiday('Jueves Santo', month=4, day=1),
     Holiday('Viernes Santo', month=4, day=2),
     Holiday('Día del Trabajador', month=5, day=1),
     Holiday('Día de la Ascensión', month=5, day=17),
     Holiday('Corpus Christi', month=6, day=7),
     Holiday('Sagrado Corazón', month=6, day=14),
     Holiday('San Pedro y San Pablo ', month=7, day=5),
     Holiday('Día de la Independencia', month=7, day=20),
     Holiday('Batalla de Boyacá', month=8, day=7),
     Holiday('Asunción de la Virgen', month=8, day=16),
     Holiday('Celebración del Día de la Raza', month=10, day=18),
     Holiday('Día de todos los Santos', month=11, day=1),
     Holiday('Independencia de Cartagena', month=11, day=15),
     Holiday('Inmaculada Concepción', month=12, day=8),    
     Holiday('Navidad', month=12, day=25)
   ]

calendar_festivos = EsBusinessCalendar() # se instancia el objeto
calendar_festivos = calendar_festivos.holidays(start='2021-01-01', end='2021-12-31') # se define el rango de tiempo en que se tendran en cuenta los festivos (anho 2021)

dias = []
meses = []
anhos = []
horas = []
fin_semana = []
festivo = []


for index, row in df_fecha.iterrows(): # se recorre cada fila del DataFrame
    list_fecha = re.split("[\-\s]", row['DateTime']) # 
    dias.append(list_fecha[2])
    meses.append(list_fecha[1])
    anhos.append(list_fecha[0])
    horas.append(list_fecha[3])

    hora = row['DateTime'].split(" ")
    hora[0] = datetime.strptime(hora[0], '%Y-%m-%d')
    if hora[0].weekday() < 5 : # condicción para determinar si el día está comprendido entre lues-viernes
        fin_semana.append(False)
    else:
        fin_semana.append(True)
    if hora[0] in calendar_festivos: # condicción para determinar si el día hace parte de los días festivos del año
        festivo.append(True)
    else: 
        festivo.append(False)

dict_fechas = { 'dia': dias, 'mes': meses, 'anho': anhos, 'hora': horas, 'fin_semana': fin_semana, 'festivo': festivo}
df_fechas = pd.DataFrame(data=dict_fechas)
df_fechas.head()


Unnamed: 0,dia,mes,anho,hora,fin_semana,festivo
0,1,1,2021,01:00:00,False,True
1,1,1,2021,02:00:00,False,True
2,1,1,2021,03:00:00,False,True
3,1,1,2021,04:00:00,False,True
4,1,1,2021,05:00:00,False,True


## 5.4 Creación de la columna id_tiempo para identificar cada una de las fechas en el DF principal

In [154]:
count = 1
# se recorre cada fecha de df_fecha
for index, row in df_fecha.iterrows(): 
# por cada fila de df_fecha se crea un nuevo identificador en el DataFrame principal
    df.loc[df['DateTime'] == row["DateTime"], 'DateTime'] = count     
    count += 1
df = df.rename(columns={'DateTime': 'id_tiempo'})
df.head()

Unnamed: 0,PM10,PM2.5,NO,NO2,NOX,CO,OZONO,id_estacion,id_tiempo,Status,Latitud,Longitud,month,day_week,day_month,hour,id_polutante
0,56.6,32.7,7.504,15.962,23.493,0.44924,2.431,1,1,True,4.532097,-74.116947,1,4,1,1,1
1,59.3,39.3,16.56,17.866,34.426,0.69832,1.121,1,2,True,4.532097,-74.116947,1,4,1,2,2
2,96.4,70.8,22.989,17.802,40.791,0.88243,1.172,1,3,True,4.532097,-74.116947,1,4,1,3,3
3,108.3,81.0,3.704,9.886,13.591,0.29549,6.565,1,4,True,4.532097,-74.116947,1,4,1,4,4
4,87.7,56.1,2.098,9.272,11.371,0.16621,9.513,1,5,True,4.532097,-74.116947,1,4,1,5,5


In [155]:
# finalmente se crea un DataFrame, el cual se relaciona con los DataFrame creados anteriormente por medio de sus identificadores 
df_fact_medidad=pd.DataFrame(df, columns=["id_estacion", "id_tiempo", "id_polutante"])
df_fact_medidad

Unnamed: 0,id_estacion,id_tiempo,id_polutante
0,1,1,1
1,1,2,2
2,1,3,3
3,1,4,4
4,1,5,5
...,...,...,...
166435,19,8756,166436
166436,19,8757,166437
166437,19,8758,166438
166438,19,8759,166439


## 5.6Creación de las tablas en Postgres

In [162]:
# Es necesario tener instaladas las librerias 
%pip install python-dotenv
%pip install psycopg2-binary

Collecting python-dotenv
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Downloading python_dotenv-1.0.1-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.0.1
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


Crear la base de datos

In [166]:
import psycopg2
from psycopg2 import sql

# Conectar a la base de datos postgres
conn = psycopg2.connect(
    dbname="postgres",
    user="admin",
    password="123",
    host="postgres",
    port="5432"
)
conn.autocommit = True

# Crear un cursor
cur = conn.cursor()

# Crear la base de datos air_quality
cur.execute(sql.SQL("CREATE DATABASE {}").format(sql.Identifier('air_quality')))

# Cerrar la conexión
cur.close()
conn.close()

Poner el metodo de conexion directamente en el notebook para no importar

In [None]:
import string
from sqlalchemy import create_engine
import psycopg2
import pandas as pd
import io
import os
from dotenv import load_dotenv

load_dotenv()


# se define la conexion y la dirección de la base de datos que se desea acceder
engine = create_engine('postgresql+psycopg2://admin:123@postgres:5432/air_quality')


def new_model(df, name_model) -> None:
    """
    funcion encargada de crear un nuevo modelo en la base de datos 
    a partir de un cliente.
    df: Dataframe que contiene los datos que se llevara a la base de datos.
    name_model: string que contiene el nombre de la tabla que se va a crear.
    """

    df = df.rename_axis('id').reset_index()
    df['id'] = df.index+1
    df.head(0).to_sql(name_model, engine, if_exists='replace', index=False)


    conn = engine.raw_connection()
    cur = conn.cursor()
    output = io.StringIO()
    df.to_csv(output, sep='\t', header=False, index=False)
    output.seek(0)
    contents = output.getvalue()
    cur.copy_from(output, name_model, null="")
    conn.commit()

In [170]:
# from conexion import new_model

# se llama a la función new_model (archivo conexion.py) con cada uno de los DataFrame para crear las tablas correspondientes
df_fact_medidad = df_fact_medidad.astype(int)
new_model(df_estacion, "dim_estacion")

#Cree las tablas para dim_polutante, dim_polutante, fact_medidad
new_model(df_polutante, "dim_polutante")
new_model(df_fechas, "dim_tiempo")
new_model(df_fact_medidad, "fact_medidad")

