# Red de Monitoreo de Calidad del Aire de Bogota.
http://rmcab.ambientebogota.gov.co/Report/stationreport

## Decripción del conjunto de datos

# 1. Instalar Librerias

In [None]:
#!pip install --upgrade pip # se actualiza pip, en caso de que no lo tenga actualizado
#!pip install psycopg2-binary # Psycopg es un adaptador de base de datos PostgreSQL
#!pip install pandas 
#!pip install openpyxl

## 1.1 Importar librerias

In [None]:
import pandas as pd
from os import walk
import os, re   #expresiones regulares

# 2. Procesar conjunto de datos (Preprocesssing-dataset)

## 2.1 Unir todos los conjuntos de datos de extensión xlsx en un arreglo 


In [None]:
# unir todos los conjuntos de datos de extensión xlsx en un arreglo 
arregloDeDataSets = []
for (dirpath, dirnames, filenames) in walk('data/raw/'):
    arregloDeDataSets.extend(filenames)
    break
arregloDeDataSets

## 2.2  Concatenar los datsets en uno solo 


In [None]:
path = os.path.abspath('data/raw/') 
files = os.listdir(path)  

df = pd.DataFrame()
for file in files:
    if file.endswith('.xlsx'):
        dft = pd.read_excel('data/raw/'+file)
        dft['Station'] = re.search(r'_(.*?)_', str(file)).group(1)
        df = df.append(dft[1:], ignore_index=True) 
df.head() 

## 2.3 Comprobar los valores nulos por columnas

In [None]:
#Contar cuantos valores nulos hay por cada columna
df.isnull().sum()

## 2.4 Organizar y guardar en un nuevo df las columnas significativas

In [None]:
#Organizar y guardar en un nuevo df las columnas significativas
df = df[['PM10','PM2.5','NO','NO2','NOX','CO','OZONO','Station', 'DateTime']]
df.head()

## 2.5 Convertir valores a numericos y sino poner NaN

In [None]:
col = ['PM10', 'PM2.5', 'NO', 'NO2', 'NOX', 'CO', 'OZONO']
for i in col:
    df[i] = pd.to_numeric(df[i],errors='coerce') #  el análisis no válido se establecerá como

In [None]:
#df.isnull().sum()

## 2.6 Ver el tamaño del dataset 

In [None]:
#ver el tamaño del conjunto de datos 
df.shape

## 2.7 Crear una nueva columna con filtro (False o True)

In [None]:
# True is greater than 12, bad (Pure, Not Pure)
df['Status'] = df['PM2.5']>12
df.Status.value_counts()
df.head()

## 2.8 Guardar todo el proceso en un nuevo dataset

In [None]:
# we need another column to specify stations
#df.to_csv("data/clean_data_final.csv", index = False)
df.to_csv("data/dataset_with_missing.csv", index = False)

# 3. Integrar nuevo dataset (Stations)

## 3.1 Cargar dataset de stations

In [None]:
#cargar el df dataset_with_missing.csv
df = pd.read_csv('data/dataset_with_missing.csv')
#cargar el df stations_loc.csv
stations = pd.read_csv('data/stations_loc.csv')
stations.head(10)

In [None]:
stations.columns

### 3.1.1 Seleccionar algunas columnas del dataset stations

In [None]:
stations = stations[['Sigla', 'Latitud', 'Longitud']] 


### 3.1.2 Cambiar el nombre de una columna 

In [None]:
stations = stations.rename(columns={'Sigla': 'Station'}) #Columna Sigla por Station
stations.head()

## 3.2 Convertir las coordenadas de texto a decimales

In [None]:
import re

def dms2dd(degrees, minutes, seconds, direction):
    dd = float(degrees) + float(minutes)/60 + float(seconds)/(60*60);
    if direction == 'S' or direction == 'W':
        dd *= -1
    return dd;

def dd2dms(deg):
    d = int(deg)
    md = abs(deg - d) * 60
    m = int(md)
    sd = (md - m) * 60
    return [d, m, sd]

def parse_dms(coor):
    parts = re.split('[^\d\w]+', coor)
    dec_coor = dms2dd(parts[0], parts[1], float(parts[2]+'.'+parts[2]), parts[4])
    return dec_coor

'''
def dms2dd(degrees, minutes, seconds, direction):
    dd = float(degrees) + float(minutes)/60 + float(seconds)/(60*60);
    if direction == 'E' or direction == 'S':
        dd *= -1
    return dd;

def dd2dms(deg):
    d = int(deg)
    md = abs(deg - d) * 60
    m = int(md)
    sd = (md - m) * 60
    return [d, m, sd]

def parse_dms(dms):
    parts = re.split('[^\d\w]+', dms)
    lat = dms2dd(parts[0], parts[1], parts[2], parts[3])
 
    return (lat)
'''

In [None]:
#Aplicar la funcion parse_dms a la columna Latitud y Longitud
stations['Latitud'] = stations['Latitud'].apply(parse_dms)
stations['Longitud'] = stations['Longitud'].apply(parse_dms)
stations.head()

## 3.3 Integrar el dataset df con el dataset stations

In [None]:
df = pd.merge(df, stations, on='Station', how='inner')
df.head(3)

## 2.8 Convertir hora (DateTime)

In [None]:
#Puede ver que en la columna 'DateTime', 
#la información sobre la fecha y la hora se dan juntas. 
#Por lo tanto, extraerá la información de tiempo.

def replace24(datetimex):
    return datetimex.replace('24:00', '00:00') #cambia de horarios

In [None]:
# Esta celda extraerá información de la columna 'datetime' y 
#generará columnas de meses, días o semanas y horas
df['DateTime'] = df['DateTime'].apply(replace24)
df['DateTime'] = pd.to_datetime(df['DateTime'], dayfirst=True)
df['month'] = pd.DatetimeIndex(df['DateTime']).month
df['day_week'] = pd.DatetimeIndex(df['DateTime']).weekday
df['day_month'] = pd.DatetimeIndex(df['DateTime']).day
df['hour'] = pd.DatetimeIndex(df['DateTime']).hour
df.loc[df['hour']==0,'hour'] = 24

In [None]:
df

## 2.9 Guardar todo el proceso en un nuevo dataset

In [None]:
df.to_csv("data/dataset_with_geo_missing.csv", index = False)

# 5. Limpieza de datos

In [None]:
# Varias columnas tienen valores perdidos en el dataset

df.isnull().sum()

## 5.1 Remplazar los valores NaN en cada columna con su media

In [None]:
df['PM10'].fillna((df['PM10'].mean()), inplace=True)
df['PM2.5'].fillna((df['PM2.5'].mean()), inplace=True)
df['CO'].fillna((df['CO'].mean()), inplace=True)
df['NO'].fillna((df['NO'].mean()), inplace=True)
df['NO2'].fillna((df['NO2'].mean()), inplace=True)
df['NOX'].fillna((df['NOX'].mean()), inplace=True)
df['OZONO'].fillna((df['OZONO'].mean()), inplace=True)

In [None]:
# ahora ya no hay valores perdidos en el dataset
df.isnull().sum()

## 5.2 Guardar todo el proceso en un nuevo dataset

In [None]:
df.to_csv("data/dataset_final_clean_mean.csv", index = False)

# 6. creando el esquema de la bodega de datos 

In [None]:
df = pd.read_csv('data/dataset_final_clean_mean.csv')
df.head(10)

## 6.1 Se crea un nuevo DataFrame con los datos de los polutantes

In [None]:
df_polutante=pd.DataFrame(df, columns=["PM10", "PM2.5", "NO", "NO2", "NOX", "CO", "OZONO"]) # se crea un nuevo DataFrame unicamente con los polutantes
df['id_polutante'] = df.index+1 # se crea una nueva columna que identificará a cada polutante
df_polutante

## 6.2 Se crea un nuevo dataset con los datos de las estaciones y se eliminan las filas repetidas

In [None]:
df_estacion=pd.DataFrame(df, columns=["Name", "Station", "Localidad", "Latitud", "Longitud"]) # se crea un nuevo DataFrame unicamente con los datos de las estaciones
df_estacion = df_estacion.drop_duplicates() # se eliminan las filas repetidas
df_estacion = df_estacion.rename(columns={'Station': 'Sigla'}) # se cambia el nombre a la columna Station por Sigla
df_estacion

In [None]:
# se remplaza la columna sigla, dejando unicamente los datos unicos y luego se le cambia el nombre
# a la misma por id_estacion
count = 1
for index, row in df_estacion.iterrows():
    df = df.replace({row["Sigla"]: count})
    count += 1
df = df.rename(columns={'Station': 'id_estacion'})
df

## Se crea un nuevo DataFrame con los datos de las fechas.

In [None]:
# se crea un nuevo DataFrame y se eliminan los valores repetidos
df_fecha=pd.DataFrame(df, columns=["DateTime"]) # se crea un nuevo DataFrame con las fechas y horas 
#df_fecha["DateTime"].value_counts() # !TODO Borrar?
df_fecha = df_fecha.drop_duplicates() # se eliminan las filas repetidas
df_fecha

In [None]:
import re # libreria para el uso de expresiones regulares
from pandas.tseries.holiday import Holiday, AbstractHolidayCalendar
from datetime import datetime

# definimos los días festivo para el año en que se tomaron los datos
class EsBusinessCalendar(AbstractHolidayCalendar):
   rules = [ # se definen los festivos, teniendo en cuenta los horarios festivos para el año de 2021 en Colombia
     Holiday('Año Nuevo', month=1, day=1),
     Holiday('Día de los Reyes Magos', month=1, day=11),
     Holiday('Día de San José', month=3, day=22),
     Holiday('Jueves Santo', month=4, day=1),
     Holiday('Viernes Santo', month=4, day=2),
     Holiday('Día del Trabajador', month=5, day=1),
     Holiday('Día de la Ascensión', month=5, day=17),
     Holiday('Corpus Christi', month=6, day=7),
     Holiday('Sagrado Corazón', month=6, day=14),
     Holiday('San Pedro y San Pablo ', month=7, day=5),
     Holiday('Día de la Independencia', month=7, day=20),
     Holiday('Batalla de Boyacá', month=8, day=7),
     Holiday('Asunción de la Virgen', month=8, day=16),
     Holiday('Celebración del Día de la Raza', month=10, day=18),
     Holiday('Día de todos los Santos', month=11, day=1),
     Holiday('Independencia de Cartagena', month=11, day=15),
     Holiday('Inmaculada Concepción', month=12, day=8),    
     Holiday('Navidad', month=12, day=25)
   ]

calendar_festivos = EsBusinessCalendar() # se instancia el objeto
calendar_festivos = calendar_festivos.holidays(start='2021-01-01', end='2021-12-31') # se define el rango de tiempo en que se tendran en cuenta los festivos (anho 2021)

dias = []
meses = []
anhos = []
horas = []
fin_semana = []
festivo = []


for index, row in df_fecha.iterrows(): # se recorre cada fila del DataFrame
    list_fecha = re.split("[\-\s]", row['DateTime']) # 
    dias.append(list_fecha[2])
    meses.append(list_fecha[1])
    anhos.append(list_fecha[0])
    horas.append(list_fecha[3])

    hora = row['DateTime'].split(" ")
    hora[0] = datetime.strptime(hora[0], '%Y-%m-%d')
    if hora[0].weekday() < 5 : # condicción para determinar si el día está comprendido entre lues-viernes
        fin_semana.append(False)
    else:
        fin_semana.append(True)
    if hora[0] in calendar_festivos: # condicción para determinar si el día hace parte de los días festivos del año
        festivo.append(True)
    else: 
        festivo.append(False)

dict_fechas = { 'dia': dias, 'mes': meses, 'anho': anhos, 'hora': horas, 'fin_semana': fin_semana, 'festivo': festivo}
df_fechas = pd.DataFrame(data=dict_fechas)
df_fechas


## Creación de la columna id_tiempo para identificar cada una de las fechas en el DF principal

In [None]:
count = 1
# se recorre cada fecha de df_fecha
for index, row in df_fecha.iterrows(): 
# por cada fila de df_fecha se crea un nuevo identificador en el DataFrame principal
    df.loc[df['DateTime'] == row["DateTime"], 'DateTime'] = count     count += 1
df = df.rename(columns={'DateTime': 'id_tiempo'})
df

In [None]:
# finalmente se crea un DataFrame, el cual se relaciona con los DataFrame creados anteriormente por medio de sus identificadores 
df_fact_medidad=pd.DataFrame(df, columns=["id_estacion", "id_tiempo", "id_polutante"])
df_fact_medidad

## Creación de las tablas en Postgress

In [None]:
from conexion import new_model

# se llama a la función new_model (archivo conexion.py) con cada uno de los DataFrame para crear las tablas correspondientes
df_fact_medidad = df_fact_medidad.astype(int)
new_model(df_estacion, "dim_estacion")
new_model(df_polutante, "dim_polutante")
new_model(df_fechas, "dim_tiempo")
new_model(df_fact_medidad, "fact_medidad")