In [None]:
# Cargar funciones de la librería de python data analysis
import pandas as pd 

# Leer csv con datos y cargar en el dataframe data
data = pd.read_csv("data/dengue_clima.csv") 
data.head()

In [None]:
# Calcular variables con correlacion positiva o negativa superior a un umbral
corMatrix = data.corr()

corMatrix[(abs(corMatrix) > 0.30) & (corMatrix < 1)]['cantidad'].dropna()

In [None]:
from sklearn.decomposition import PCA
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error
from math import sqrt
import matplotlib.pyplot as plt 

# PCA quitando variables cantidad(-1) a (-11) para evitar un autoregressive model
df1 = data.iloc[:,11:99]
df2 = data.iloc[:,100:]
df3 = data.iloc[:,99:100]
df = pd.concat([df1,df2,df3], axis=1)

# 276 registros para train, 52 para validacion (52 semanas equivalente a 1 año)
# última columna es el target, todas las previas son input
col = df.shape[1]
total = df.shape[0]
n = 276
x = df.iloc[0:n,0:col-1]
x_val = df.iloc[n:,0:col-1]
y = df.iloc[0:n,col-1:col]
y_val = df.iloc[n:,col-1:col]

# Crear PCA que explica el 98% de varianza acumulada
pca = PCA(n_components=0.98, svd_solver='full')
x = pca.fit_transform(x)
print(x.shape)
x_val = pca.transform(x_val)

# entrenar el modelo y calcular predicciones
# Documentación de parámetros: https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html
model = MLPRegressor(hidden_layer_sizes=(50), max_iter=100,
                  activation='relu', solver='lbfgs', random_state=1)

model.fit(x, y['cantidad'])
y_pred = model.predict(x_val)
y_pred[y_pred < 0] = 0 # La NN puede lanzar valores negativos, normalizar a 0 esos casos

# graficar serie real y predicción
semanas = range(total-n)
plt.plot(semanas, y_val, color='green') # REAL
plt.plot(semanas, y_pred, color='red') # PREDICCION
plt.show()

# calcular coeficiente r2 y pearson
print("Coeficiente r2: " + str(model.score(x, y)))
print("Coeficiente de Pearson (r): " + str(sqrt(model.score(x, y))))
print("Overfitting!!")

# calcular root mean square error (RMSE)
print("Raíz del Error cuadrático Medio (RMSE): " + str(sqrt(mean_squared_error(y_val, y_pred))))
print("Media de Cantidad: " + str(y_val['cantidad'].mean()))
print("% de error: " + str(sqrt(mean_squared_error(y_val, y_pred)) / y_val['cantidad'].mean()))

In [None]:
# Seleccion basada en correlacion
# Evitar autoregressive model para buscar variables independientes a la cantidad que puedan influir en ella
df = data[['temperatura_media_media(-7)','temperatura_media_media(-8)','temperatura_media_media(-9)',
           'temperatura_media_media(-10)','temperatura_media_media(-11)','nivel(-5)','nivel(-6)',
           'nivel(-7)','nivel(-8)','nivel(-9)','nivel(-10)','nivel(-11)','cantidad']]

# 276 registros para train, 52 para validacion (52 semanas equivalente a 1 año)
# última columna es el target, todas las previas son input
col = df.shape[1]
total = df.shape[0]
n = 276
x = df.iloc[0:n,0:col-1]
x_val = df.iloc[n:,0:col-1]
y = df.iloc[0:n,col-1:col]
y_val = df.iloc[n:,col-1:col]

# entrenar el modelo y calcular predicciones
# Documentación de parámetros: https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html
model = MLPRegressor(hidden_layer_sizes=(50), max_iter=100,
                  activation='relu', solver='lbfgs', random_state=1)

model.fit(x, y['cantidad'])
y_pred = model.predict(x_val)
y_pred[y_pred < 0] = 0 # La NN puede lanzar valores negativos, normalizar a 0 esos casos

# graficar serie real y predicción
semanas = range(total-n)
plt.plot(semanas, y_val, color='green') # REAL
plt.plot(semanas, y_pred, color='red') # PREDICCION
plt.show()

# calcular coeficiente r2 y pearson
print("Coeficiente r2: " + str(model.score(x, y)))
print("Coeficiente de Pearson (r): " + str(sqrt(model.score(x, y))))

# calcular root mean square error (RMSE)
print("Raíz del Error cuadrático Medio (RMSE): " + str(sqrt(mean_squared_error(y_val, y_pred))))
print("Media de Cantidad: " + str(y_val['cantidad'].mean()))
print("% de error: " + str(sqrt(mean_squared_error(y_val, y_pred)) / y_val['cantidad'].mean()))