# Taller 3 - Red de Monitoreo de Calidad del Aire de Bogota.


http://rmcab.ambientebogota.gov.co/Report/stationreport


La calidad de aire es un problema crítico en las grandes ciudades del mundo. Varias afecciones respiratorias están relacionadas con la calidad del aire que respiramos y por tanto, es importante para las autoridades locales medir, reportar y predecir de manera constante y precisa los niveles de los diferentes contaminantes presentes en el aire de la ciudad. Por esta razón, la secretaría distrital de ambiente de Bogotá instaló 19 estaciones de monitoreo de aire en la ciudad y proporciona de manera libre estos datos para que cualquiera pueda hacer uso de esta información.
Uno de los contaminantes más peligrosos para la salud humana es el material particulado de tamaño 9 menor a 2.5 micras (PM2.5) ya que se acumula en los pulmones y puede causar daños permanentes a quienes están expuestos a él  por largos periodos de tiempo. 
Al analizar los datos provenientes de las estaciones de monitoreo, se han identificado varios problemas asociados a la calidad de los datos y a la fiabilidad de la información. Por ejemplo se ha identificado que más del 20% de los datos correspondientes a las mediciones de dicho contaminante están perdidas. Esto es un fenomeno común, ya que es común que los sensores de las diferentes estanciones fallén por diversos motivos, como cortes de energía, periodos de mantenimiento preventivo y reparaciones efectuadas a las estaciones. 
Adicionalmente, el área que cubren los sensores es muy pequeña comparada con el área de una ciudad como Bogotá. Entonces se necesitan modelos que permitan informar a la ciudadanía sobre los niveles de contaniminazión aún en áreas que no cuentan con sensores. Incluso, si los datos son de muy buena calidad, podemos crear modelos que predigan la calidad del aire en periodos de tiempo futuros.

En esta sección se realiza una bodega de datos  que contine 68.000 registros de la calidad del aire de la ciudad de Bogotá.  La bodega de datos, se conecta con el lenguaje de programción Python para hacer procesamiento de datos y luego mostrar la infromacion usando librerias de datos. 


## Descripción de los datos 

## 1. Cargar Librerias
***

In [None]:
# Carga las librerias necesarias

## 2. Cargar Datos

In [None]:
#dataframe nombrado "df"

#cargar conjunto de datos ../Taller1/data/dataset_with_geo_missing.csv


## 3: Explorar datos
*** 

###  3.1 Estadisticas 
***
Resumen: 
- Identificar nombre de las columnas
- Número de columnas y filas 
- Tamaño del conjunto de datos
- Tipos de datos
- Porcentajes de valores
- Correlaciones de variables
- Valores nulos


In [None]:
#nombre de las columnas 
df.columns

In [None]:
# Estadisticas basicas del conjunto de datos 
df.describe()

In [None]:
#Descripción del conjunto de datos: 166440 observaciones y 10 caracteristicas
df.shape

In [None]:
# Comprobar el número de Filas y Columnas 
print("Número de  Filas: ", len(df))
print("Número de Columnas ", + len(df.columns))

#Comprobar el tipo de datos en las características
print(df.dtypes)

In [None]:
#Comprobar si hay valores nulos true o false
#df.isnull().any(1)

In [None]:
# Esta celda eliminará todas las filas que tienen valores nulos
#target = 'PM2.5'
#df.dropna(subset=[target], inplace=True)
#df.isnull().sum()

In [None]:
# Resumen de una variable (False V.S. True) en la variable Status
Status_Summary = df.groupby('Status')
Status_Summary.mean()

In [None]:
#Filtrar datos por columnas
df['Status'] = df['PM2.5']>12
df.Status.value_counts()

####  3.1.1 Correlación
***

Resumen:


- Hay una correlación **positiva(+) a 1** o **negativa(-) a -1** hay una correlacion fuerte. La aproximación a 0 es mas debil la relacion lineal  

In [None]:
#Matriz de correlación
corr = df.corr()
corr = (corr)
sns.heatmap(corr, 
            xticklabels=corr.columns.values,
            yticklabels=corr.columns.values)
corr



###  3.2 Gráficos de distribución 


In [None]:
#hist es un grafico (pandas) de distribucion de  datos.
#este grafico nos sirve para identificar cuales son las variables numericas y su frencuencia. 

df.hist(figsize=(16,10),facecolor='blue', alpha=0.9, bins=13, edgecolor='orange', linewidth=2)
plt.show()

In [None]:
#otra forma de ver la distribucion de los datos
# Uso de Libreria Seaborn (sna) para poner multiples graficos de distribución  
f, axes = plt.subplots(ncols=3, figsize=(15, 6))

#variable PM10
sns.distplot(df.PM10, kde=False, color="g", ax=axes[0]).set_title('PM10')

#variable PM10
sns.distplot(df.Status, kde=False, color="r", ax=axes[1]).set_title('Status')

#variable NOX
sns.distplot(df.NOX, kde=False, color="b", ax=axes[2]).set_title('NOX')

###  3.3 Gráfico de barras


In [None]:
#ditribucion por estacion 
f, ax = plt.subplots(figsize=(15, 4))
sns.countplot(x="Station", hue='Status', data=df).set_title('Distribución de Station');

In [None]:
# Types of colors
color_types = ['#78C850','#F08030','#6890F0','#A8B820','#A8A878','#A040A0','#F8D030',  
                '#E0C068','#EE99AC','#C03028','#F85888','#B8A038','#705898','#98D8D8','#7038F8' ,'#FFFFF']

# Count Plot (a.k.a. Bar Plot)
sns.countplot(y='Station', data=df).set_title('Distribución por Estación');
 
# Rotate x-labels
plt.xticks(rotation=-45)

###  3.4 Gráficos de Cajas


In [None]:
import seaborn as sns

a4_dims = (11.7, 8.27)
fig, ax = plt.subplots(figsize=a4_dims)

sns.boxplot(x="Station", y="PM2.5",  data=df)
valh=4
plt.axhline(valh, color='red')

Hemos revisado la información de ded dataset "calidad del aire", donde es importante la estación que mide la calidad del aire, sin embargo, no tenemos donde esta ubicada. 

Ahora vamos a cargar un nuevo dataset, que contiene la infromación de la ubicación (Latitud, Longitud) de cada estación.

In [None]:
#Contar valores nulos por columnas
df.isnull().sum()



In [None]:
## Hay 74803 valores NaN de 166440
nan_rows = df[df.isnull().any(1)]
nan_rows

## 4. Completar datos con Modelos de Machine Learning

### Instalar Librerias

In [None]:
#!pip install folium
#!pip install sklearn
#!pip install matplotlib
#!pip install seaborn

### Cargar Librerias

In [None]:
import os, re
import numpy as np

import pandas as pd

import folium 
from folium.plugins import FastMarkerCluster
 
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib.pyplot import figure

from utils import *

from sklearn.model_selection import train_test_split,StratifiedShuffleSplit
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.linear_model import LinearRegression

### Cargar dataset

In [None]:
#dataframe nombrado "df"
df = pd.read_csv('../Taller1/data/dataset_with_geo_missing.csv', sep=',', engine='python', encoding='latin1')
df.head(3)


In [None]:
#Para este ejemplo, vamos a llenar con la media todas las filas excepto la de PM2.5
df.isnull().sum()

In [None]:
df['PM10'].fillna((df['PM10'].mean()), inplace=True)
#df['PM2.5'].fillna((df['PM2.5'].mean()), inplace=True) Menos esta columna
df['CO'].fillna((df['CO'].mean()), inplace=True)
df['NO'].fillna((df['NO'].mean()), inplace=True)
df['NO2'].fillna((df['NO2'].mean()), inplace=True)
df['NOX'].fillna((df['NOX'].mean()), inplace=True)
df['OZONO'].fillna((df['OZONO'].mean()), inplace=True)

In [None]:
df.isnull().sum()

## 4.1 Explicando las brechas pequeñas frente a las brechas grandes

En el siguiente ejemplo se puede ver el problema que queremos resolver. Tiene una serie de valores para un solo día de mediciones, y allí falta un valor. Coloreamos el valor faltante en rojo.
Existen varias opciones para imputar un valor que complete la serie. Algunas son realmente simples, como usar el promedio de todos los puntos conocidos para la variable (ver punto anterior).

In [None]:
rows_of_day = df.apply(lambda row : row['month'] == 3 and row['day_month'] == 6 and row['Station']=='7MA', axis=1)
single_day_df = df[rows_of_day]
figure(figsize=(10, 5), dpi=80)
draw_example(single_day_df, [12], False, 'Down period of size 1')

Ahora, a veces los períodos de inactividad son más largos que un solo paso de tiempo. En tales casos, completar los valores que faltan puede ser más difícil que en el caso anterior.

In [None]:
figure(figsize=(10, 5), dpi=80)
draw_example(single_day_df, [12, 13, 14, 15], False, 'Down period of size 4')

#### Ejemplo de un buen ajuste (fit)

In [None]:
figure(figsize=(10, 5), dpi=80)
draw_example(single_day_df, [12])

#### Ejemplo de un mal ajuste (fit)

In [None]:
figure(figsize=(10, 5), dpi=80)
draw_example(single_day_df, list(range(3, 18)))

In [None]:
# This cell will delete all the rows which have Null values
target = 'PM2.5'
df_with_missing = df.copy()   # Save a copy with missing values
df.dropna(subset=[target], inplace=True)
df.isnull().sum()

## 4.2 Aplicación del modelo lineal


### Dividir en Entrenamiento/Prueba

Para entrenar un modelo de regresión lineal, debe dividir sus datos en conjuntos de entrenamiento y prueba. El conjunto de entrenamiento es con lo que creará una línea de mejor ajuste (Best Fit). Luego probará qué tan bien está su modelo comparando las predicciones de su modelo de regresión lineal con los datos reales.

<img src="img/split_data.png" alt="datos_divididos" width="400"/>

<center><b>Figura 1:</b> División de datos en conjuntos de entrenamiento y prueba </center>

Mezclará el conjunto de datos completo y dividirá sus datos de Bogotá en conjuntos de entrenamiento y prueba para la regresión lineal. Esto simulará el caso cuando tenga valores faltantes en sus datos en momentos aleatorios.

Divida el conjunto de datos ejecutando la siguiente celda de código:


In [None]:
# Split into train and test
train_df, test_df = train_test_split(df, test_size=0.20, random_state=42)

### Métricas de evaluación

**Las métricas de evaluación lo ayudan a comprender qué están haciendo bien sus modelos y qué les falta.** En general, usará un conjunto de datos para entrenar el modelo (`train_df`), y usará otro conjunto de datos para evaluar el rendimiento del modelo (`test_df`).

Puede utilizar el error cuadrático medio (MSE) para evaluar el rendimiento de un modelo cuando la salida es una variable continua, como la concentración de PM2.5.

<img src="img/MSE.png" alt="MSE" width="250"/>

<center><b>Figura 3:</b> Error cuadrático medio </center>

MSE mide la distancia (Figura 3) entre el valor real (puntos grises) y el valor predicho (línea azul), luego penaliza los errores grandes al elevar al cuadrado la distancia. Nuevamente, no se preocupe por los detalles de MSE, solo sepa que es una métrica común para evaluar el rendimiento.

MSE no es la única forma de medir el rendimiento de un modelo. Puedes usar otros como:

- **Error absoluto medio:** Muy similar a MSE, pero las distancias no están elevadas al cuadrado.
- **Coeficiente de determinación**, denotado por R2, es la proporción de la variación en la variable dependiente que es predecible a partir de la variable independiente.


<details>
  <summary><span style="color:blue">¿Está interesado en las fórmulas? Haga clic aquí</span></summary>
$$MSE = \frac{1}{N} \sum_{i=1}^{N}{(y_i - pred_i)^2}$$

$$MAE = \frac{1}{N} \sum_{i=1}^{N}{|y_i - pred_i|}$$
    
Donde N es el número de muestras en el conjunto de prueba  (`test_df`)
    
</details>

### Estableciendo una línea base

Una buena estrategia para entrenar modelos de IA consiste en crear modelos simples que refinas iterativamente hasta obtener un modelo final. Establecer una línea de base sólida es clave en el resto del proceso porque ayuda a determinar si su modelo realmente está aportando algo interesante o simplemente es una pérdida de tiempo y recursos. En nuestro caso, estamos interesados en métodos que nos ayuden a completar los valores que faltan.
Entonces, antes de crear su primer modelo que use el aprendizaje automático, utilizará 2 métodos simples para completar los valores faltantes. En el primer método, reemplazará cada valor faltante por la media o la mediana de la variable objetivo; el segundo método utilizará la mediana de cada estación para ese propósito. La implementación es muy sencilla y ya está implementada en Sklearn como uno de los métodos para la imputación de valores faltantes.

Tratemos de establecer nuestra línea de base.

In [None]:
regression_scores = {}

regression_scores['global_mean'] = missing_values_imputation_mean(train_df, test_df, 'PM2.5')
regression_scores['local_mean'] =  missing_values_imputation_mean_by_station(train_df, test_df,'PM2.5')    

print('Desempeño usando la media global')
print(regression_scores['global_mean'])
print('\nDesempeño usando la media por estation')
print(regression_scores['local_mean'])


### Regresión lineal

**El ajuste de curvas** es una excelente forma de modelar datos de series temporales e implica ajustar una función a los datos y usarla para predecir los siguientes valores. Esencialmente, el punto es tratar de encontrar la función matemática que sigue mejor a los puntos de datos.

**La regresión lineal** es un tipo de ajuste de curva que intenta modelar la relación entre dos variables o características ajustando una ecuación lineal a los datos. ¡Esencialmente, está tratando de ajustar una línea recta a los datos que tiene!

<img src="img/linear.png" alt="regresión lineal" width="300"/>

<center><b>Figura 2:</b> Regresión lineal </center>

Encontrar la *línea de mejor ajuste* implica usar la ecuación `y = ax + b` que encuentra la relación entre las siguientes variables:
- `y`: el eje vertical. Representa PM2.5.
- `x`: el eje horizontal. Representa características (por ejemplo, mes, día/semana, hora, etc.).
- `a`: la pendiente, que determina el ángulo de la línea. Una pendiente más alta significa que el valor de PM2.5 está aumentando a un *ritmo* más rápido.
- `b`: determina qué tan alto o bajo llega la línea al eje y.

In [None]:
# You will call this function multiple times in this notebook. Think of this function as a tool which will take the data,
# fit into the Linear Regression Model and Evaluate
from sklearn.preprocessing import StandardScaler

def regression_model(feature_names, target, model):
    '''
    This function will take the features(x), the target(y) and the model name (Linear Regression)
    and will fit the data into the model (train your data using Linear Regression) 
    and Evaluate by returning the mean squared error and the mean absolute error 
    '''
    scaler = StandardScaler()

    #print(f"Features: {feature_names}\nTarget: {target}")
    
    X_train = train_df[feature_names]
    scaler.fit(X_train)
    
    X_train = scaler.transform(X_train)
    y_train = train_df[target]
    
    X_test = test_df[feature_names]
    X_test = scaler.transform(X_test)
    
    y_test = test_df[target]

    # Print out the shapes
    #print(f"\nX Train Shape:{X_train.shape}\ny Train Shape: {y_train.shape}\nX Test Shape: {X_test.shape}\ny Test Shape: {y_test.shape}")
    
    # Build and train model
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(f"\nModel Score: {model.score(X_test, y_test)}")
    
    return {"MSE": mean_squared_error(y_pred, y_test), "MAE": mean_absolute_error(y_pred, y_test)}

###  Multilayer Perceptron (MLP)

In [None]:
from sklearn.neural_network import MLPRegressor

model = MLPRegressor(hidden_layer_sizes=(64, 32), learning_rate_init=0.07, verbose=True)
regression_scores_MLP = {}
target = 'PM2.5'
#feature_names = ['hour', 'day_week']
    
feature_names = ['hour', 'day_week'] +  ['Latitud', 'Longitud'] + ['PM10','CO','NO2','NOX','NO','OZONO']
    
regression_scores_MLP['model_with_day_hour'] = regression_model(feature_names, target, model)

print(regression_scores_MLP['model_with_day_hour'])

In [None]:
from matplotlib.pyplot import figure

def draw_example2(sample, predicted2, missing_index):
    missing = missing_index
    missing_before_after = [missing[0]-1]+missing+[missing[-1]+1]

    example1 = sample.copy()
    example1.loc[example1['hour'].isin(missing),'PM2.5'] = float('NaN')
    plt.plot(missing_before_after,  sample[sample['hour'].isin(missing_before_after)]['PM2.5'] , 'r--o')

    example1['newPM2.5'] = example1['PM2.5'].interpolate(method='linear')

    plt.plot(missing_before_after, example1[example1['hour'].isin(missing_before_after)]['newPM2.5'], 'g--o')
    plt.plot(example1['hour'], example1['PM2.5'], '-*')
    
    example1['nnPM2.5'] = sample['PM2.5'].copy()
    example1.loc[example1['hour'].isin(missing), 'nnPM2.5'] = predicted2[np.array(missing)-1]
    plt.plot(missing_before_after, example1.loc[example1['hour'].isin(missing_before_after)]['nnPM2.5'], 'y--*')
    
    plt.xlabel('hour')
    plt.ylabel('PM2.5')
    plt.title('Single day real data and predictions')
    

In [None]:
#rows_of_day = df.apply(lambda row : row['month'] == 11 and row['day_month'] == 3 and row['Station']=='USQ', axis=1)
rows_of_day = df.apply(lambda row : row['month'] == 11 and row['day_month'] == 6 and row['Station']=='USQ', axis=1)

single_day_df = df[rows_of_day]

scaler = StandardScaler()
X_train = train_df[feature_names]
scaler.fit(X_train)

X_test = single_day_df[feature_names]
X_test = scaler.transform(X_test)
y_test = single_day_df[target]

y_predicted = model.predict(X_test)
#y_predicted_DT = model.predict(X_test)

figure(figsize=(10, 5), dpi=80)
draw_example2(single_day_df, y_predicted, [12])

In [None]:
figure(figsize=(10, 5), dpi=80)
draw_example2(single_day_df,y_predicted, list(range(3, 18)))

### Probando con Árbol de Decisión 

In [None]:
from sklearn import tree

model = tree.DecisionTreeRegressor()
regression_scores_DT = {}
target = 'PM2.5'
#feature_names = ['hour', 'day_week']
    
feature_names = ['hour', 'day_week'] +  ['Latitud', 'Longitud'] + ['PM10','CO','NO2','NOX','NO','OZONO']
    
regression_scores_DT['model_with_day_hour'] = regression_model(feature_names, target, model)

print(regression_scores_DT['model_with_day_hour'])

In [None]:
#rows_of_day = df.apply(lambda row : row['month'] == 11 and row['day_month'] == 3 and row['Station']=='USQ', axis=1)
rows_of_day = df.apply(lambda row : row['month'] == 11 and row['day_month'] == 6 and row['Station']=='USQ', axis=1)

single_day_df = df[rows_of_day]

scaler = StandardScaler()
X_train = train_df[feature_names]
scaler.fit(X_train)

X_test = single_day_df[feature_names]
X_test = scaler.transform(X_test)
y_test = single_day_df[target]

y_predicted = model.predict(X_test)
#y_predicted_DT = model1.predict(X_test)

figure(figsize=(10, 5), dpi=80)
draw_example2(single_day_df, y_predicted, [12])

In [None]:
figure(figsize=(10, 5), dpi=80)
draw_example2(single_day_df,y_predicted, list(range(3, 18)))

## 4.3 Ajuste de parámetros, Búsqueda por cuadrícula, Validación cruzada

Los hiperparámetros son parámetros ajustables que permiten controlar el proceso de entrenamiento de un modelo. Por ejemplo, con redes neuronales, puede decidir el número de capas ocultas y el número de nodos de cada capa. ...El rendimiento de un modelo depende en gran medida de los hiperparámetros.

Es posible y recomendable buscar en el espacio de hiperparámetros para obtener la mejor validación cruzada, es decir, evaluar la puntuación de rendimiento del modelo.

Cualquier parámetro proporcionado al construir un modelo puede optimizarse de esta manera. Específicamente, para encontrar los nombres y los valores actuales de todos los parámetros para un modelo dado, podemos usar el siguiente método

estimator.get_params ()

Una búsqueda consta de:

* un modelo (regresor o clasificador como sklearn.svm.SVC ());
* un espacio de parámetros;
* un método para buscar o muestrear candidatos;
* un esquema de validación cruzada;
* una función de puntuación - metrica.

Algunos modelos permiten estrategias de búsqueda de parámetros especializadas y eficientes, que se describen a continuación.

En scikit-learn se proporcionan dos enfoques genéricos para muestrear candidatos de búsqueda:


<img src="https://developer.qualcomm.com/sites/default/files/attachments/learning_resources_03-05.png" width="500" height="270" >


**GridSearchCV:** La búsqueda de cuadrícula proporcionada por GridSearchCV genera exhaustivamente candidatos a partir de una cuadrícula de valores de parámetros especificados con el parámetro param_grid. Por ejemplo, el siguiente param_grid especifica que tiene una cuadrícula para explorar que es un núcleo lineal con valores alfa en [0.0002,0.0003,0.0004,0.0005,0.0006,0.0007,0.0009] y 'max_iter', es decir, un máximo de 10000 iteraciones.

param_grid = {'alpha':[0.01,0.001,0.0001,0.0002,0.0003,0.0004,0.0005,0.0006,0.0007,0.0009],'max_iter':[10000]}

**RandomizedSearchCV:** puede muestrear un número determinado de candidatos de un espacio de parámetros con una distribución específica. Después de describir estas herramientas, detallamos las mejores prácticas aplicables a ambos enfoques.

Tenga en cuenta que es común que un pequeño subconjunto de esos parámetros pueda tener un gran impacto en el rendimiento predictivo o de cálculo del modelo, mientras que otros pueden dejarse con sus valores predeterminados. Se recomienda leer la cadena de documentación de la clase de estimador para comprender mejor su comportamiento esperado.


### 6.1 Búsqueda aleatoria/Random Search

En la búsqueda aleatoria, creamos una cuadrícula de hiperparámetros y entrenamos / probamos nuestro modelo en una combinación aleatoria de estos hiperparámetros. En este ejemplo, también decidí realizar una validación cruzada en el conjunto de entrenamiento.

Al realizar tareas de aprendizaje automático, generalmente dividimos nuestro conjunto de datos en conjuntos de entrenamiento y de prueba. Esto se hace para probar nuestro modelo después de haberlo entrenado (de esta manera podemos verificar su rendimiento cuando trabajamos con datos invisibles). Cuando usamos la validación cruzada, dividimos nuestro conjunto de entrenamiento en otras N particiones para asegurarnos de que nuestro modelo no sobreajuste nuestros datos.

Uno de los métodos de validación cruzada más utilizados es la **validación de K-Fold**. En K-Fold, dividimos nuestro conjunto de entrenamiento en N particiones y luego entrenamos iterativamente nuestro modelo usando N-1 particiones y lo probamos con la partición sobrante (en cada iteración cambiamos la partición sobrante). Una vez que hemos entrenado N veces el modelo, promediamos los resultados de entrenamiento obtenidos en cada iteración para obtener nuestros resultados de rendimiento de entrenamiento general.



<img src="https://upload.wikimedia.org/wikipedia/commons/f/f2/K-fold_cross_validation.jpg" width="500" height="270" >

El uso de la validación cruzada al implementar la optimización de hiperparámetros puede ser realmente importante. De esta manera, podríamos evitar el uso de algunos hiperparámetros que funcionan muy bien con los datos de entrenamiento pero no tan bien con los datos de prueba.
Ahora podemos comenzar a implementar la búsqueda aleatoria desafiando primero una cuadrícula de hiperparámetros que se muestrearán aleatoriamente al llamar a RandomizedSearchCV ().

In [None]:
#Librerias 
from sklearn import tree
from sklearn.model_selection import KFold
from sklearn.model_selection import RandomizedSearchCV

In [None]:


scaler = StandardScaler()

    #print(f"Features: {feature_names}\nTarget: {target}")
    
X_train = train_df[feature_names]
scaler.fit(X_train)
    
X_train = scaler.transform(X_train)
y_train = train_df[target]
    
X_test = test_df[feature_names]
X_test = scaler.transform(X_test)
    
y_test = test_df[target]

random_search = {
               'max_depth': [2,3,4,20],
               'max_features': ['log2', 'sqrt'],
               'min_samples_leaf': [2,4, 6, 8],
               'min_samples_split': [2, 5, 7,10,20]}
kf = KFold(n_splits=2)
model = tree.DecisionTreeRegressor()
regression_scores_DT_Aleatoria = {}
target = 'PM2.5'
model_dt = RandomizedSearchCV(estimator = model,  param_distributions = random_search, n_iter = 20, 
                               cv = 10, verbose=True, random_state= 102, n_jobs = 3)
model_dt.fit(X_train, y_train)

feature_names = ['hour', 'day_week'] +  ['Latitud', 'Longitud'] + ['PM10','CO','NO2','NOX','NO','OZONO']
    
regression_scores_DT_Aleatoria['model_with_day_hour'] = regression_model(feature_names, target, model)

print(regression_scores_DT_Aleatoria)

In [None]:
#rows_of_day = df.apply(lambda row : row['month'] == 11 and row['day_month'] == 3 and row['Station']=='USQ', axis=1)
rows_of_day = df.apply(lambda row : row['month'] == 11 and row['day_month'] == 6 and row['Station']=='USQ', axis=1)

single_day_df = df[rows_of_day]

scaler = StandardScaler()
X_train = train_df[feature_names]
scaler.fit(X_train)

X_test = single_day_df[feature_names]
X_test = scaler.transform(X_test)
y_test = single_day_df[target]

y_predicted = model_dt.predict(X_test)
#y_predicted_DT = model1.predict(X_test)

figure(figsize=(10, 5), dpi=80)
draw_example2(single_day_df, y_predicted, [12])

In [None]:
figure(figsize=(10, 5), dpi=80)
draw_example2(single_day_df,y_predicted, list(range(3, 18)))

### 6.1 Búsqueda cuadrícula/Grid Search

En Grid Search, configuramos una cuadrícula de hiperparámetros y entrenamos / probamos nuestro modelo en cada una de las combinaciones posibles.
Para elegir los parámetros que se utilizarán en la búsqueda de cuadrícula, ahora podemos ver qué parámetros funcionaron mejor con la búsqueda aleatoria y formar una cuadrícula basada en ellos para ver si podemos encontrar una mejor combinación.

- Grid Search se puede implementar en Python usando la función GridSearchCV().

In [None]:
#Librerias

from sklearn.model_selection import GridSearchCV


In [None]:
grid_search = {
               'max_depth': [None, 3, 5, 10],
               'max_features': [3, 5, 7, 'sqrt'],
               'min_samples_leaf': [2, 4, 6, 8],
               'min_samples_split': [2, 5, 7, 10],
           
               'min_samples_split': [2, 5, 10]
               }

model = tree.DecisionTreeRegressor()
regression_scores_DT_Cuadricula = {}
target = 'PM2.5'
model_gs = GridSearchCV(estimator = model, param_grid = grid_search, 
                               cv = 5, verbose= 5, n_jobs = -1)
model_gs.fit(X_train,y_train)

feature_names = ['hour', 'day_week'] +  ['Latitud', 'Longitud'] + ['PM10','CO','NO2','NOX','NO','OZONO']
    
regression_scores_DT_Cuadricula['model_with_day_hour'] = regression_model(feature_names, target, model)

print(regression_scores_DT_Cuadricula['model_with_day_hour'])

In [None]:
#rows_of_day = df.apply(lambda row : row['month'] == 11 and row['day_month'] == 3 and row['Station']=='USQ', axis=1)
rows_of_day = df.apply(lambda row : row['month'] == 11 and row['day_month'] == 6 and row['Station']=='USQ', axis=1)

single_day_df = df[rows_of_day]

scaler = StandardScaler()
X_train = train_df[feature_names]
scaler.fit(X_train)

X_test = single_day_df[feature_names]
X_test = scaler.transform(X_test)
y_test = single_day_df[target]

y_predicted = model_dt.predict(
    X_test)
#y_predicted_DT = model1.predict(X_test)

figure(figsize=(10, 5), dpi=80)
draw_example2(single_day_df, y_predicted, [12])

In [None]:
figure(figsize=(10, 5), dpi=80)
draw_example2(single_day_df,y_predicted, list(range(3, 18)))

## 4.4 Comparar modelos 

In [None]:
models_cross = pd.DataFrame({
    'Model': ['MLP','DT', 'DT Aleatorio', 'DT Cuadricula'],
    'MAE': [
            regression_scores_MLP['model_with_day_hour']['MAE'],
            regression_scores_DT['model_with_day_hour']['MAE'],
            regression_scores_DT_Aleatoria['model_with_day_hour']['MAE'],
            regression_scores_DT_Cuadricula['model_with_day_hour']['MAE']
            
           ],
    'MSE': [
            regression_scores_MLP['model_with_day_hour']['MSE'],
            regression_scores_DT['model_with_day_hour']['MSE'],
            regression_scores_DT_Aleatoria['model_with_day_hour']['MSE'],
            regression_scores_DT_Cuadricula['model_with_day_hour']['MSE']           
           ] 
    })
 
    
    
models_cross.sort_values(by='MAE', ascending=True)

#Implemente su modelo 

 - Construya un modelo de regresión difrente a los anteriores y configure los parámetros para mejorar el rendimiento de la predicción.  
 - Saque al menos dos conclusiones de la implementación de su modelo versus los modelos de este notebook. 