<a href="https://colab.research.google.com/github/thaisflopes/demanda_viagens_bicicleta_BIXI_Montreal/blob/main/tcc_parte_3_modelos_e_resultados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Código do trabalho de conclusão de curso
### Parte 3 - Modelos e resultados

Código desenvolvido para o trabalho de conclusão *Comparando métodos de aprendizado de máquina para previsão da demanda de viagens de bicicletas da BIXI Montreal e análise do efeito da pandemia de COVID-19 na demanda de 2020*, elaborado por Thaís Lopes (https://github.com/thaisflopes) em novembro de 2021.

Link para acessar o trabalho completo: https://repositorio.uniceub.br/jspui/handle/prefix/15956


## Baixando as bases de dados

In [None]:
#Importando bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import pyplot
!pip install plotly
import plotly.offline as py
import plotly.graph_objs as go
py.init_notebook_mode(connected=True)
import seaborn as sns
from sklearn import metrics

In [None]:
#Carregando as bases de dados
dados_2019 = pd.read_csv("dados_2019.csv")
dados_2020 = pd.read_csv("dados_2020.csv")
simulacao_2020 = pd.read_csv("simulacao_2020.csv")

In [None]:
simulacao_2020b = pd.read_csv("simulacao_2020b.csv")

## Tratando os dados

In [None]:
dados_2019.head()

In [None]:
dados_2019 = dados_2019.drop(labels=['Unnamed: 0', 'semana', 'semana,inicio,fim,membro' ], axis = 1)
dados_2019.head()

In [None]:
dados_2020.head()

In [None]:
dados_2020 = dados_2020.drop(labels=['Unnamed: 0', 'semana', 'semana,inicio,fim,membro'], axis = 1)
dados_2020.head()

In [None]:
simulacao_2020.head()

In [None]:
simulacao_2020 = simulacao_2020.drop(labels=['Unnamed: 0', 'n_semana,inicio,fim,membro'], axis = 1)
simulacao_2020.head()

In [None]:
simulacao_2020b.head()

In [None]:
simulacao_2020b = simulacao_2020b.drop(labels=['Unnamed: 0', 'n_semana,inicio,fim,membro'], axis = 1)
simulacao_2020b.head()

### Dividindo os dados de 2019 em dados de treino e teste

In [None]:
#Dividindo a base em X e y (só a coluna viagens)
X = dados_2019.drop(['qtd_viagens'], axis=1).values
y = dados_2019['qtd_viagens'].values

In [None]:
X.shape

In [None]:
y.shape

In [None]:
#Divindo os dados em treino e teste
from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

### Definindo os Xs para as previsões de 2020

In [None]:
#Definindo o X_2020a (base dados_2020)
X_2020a = dados_2020.drop(['qtd_viagens'], axis=1).values

In [None]:
#Definindo o X_2020b (base simulacao_2020)
X_2020b = simulacao_2020.drop(['qtd_viagens'], axis=1).values

In [None]:
#Definindo o X_2020b (base simulacao_2020b)
X_2020c = simulacao_2020b.drop(['qtd_viagens_y'], axis=1).values

## Regressão Linear

In [None]:
#Baixando a biblioteca e instanciando o algoritmo de regressão linear
from sklearn.linear_model import LinearRegression
modelo_rl = LinearRegression()  

### Treinamento

In [None]:
#Treinando o modelo de regressão linear
modelo_rl.fit(X_train, y_train)

### Previsão

In [None]:
#Predição com os dados de teste
y_pred_rl = modelo_rl.predict(X_test)

### Visualização dos resultados

In [None]:
#Gráfico para visualizar o número de viagens real e os obtidos com o modelo
pyplot.figure(figsize=(10, 5))
pyplot.plot(y_test, color='blue', label="Número de viagens realizadas")
pyplot.plot(y_pred_rl, color='red', label="Número de viagens previstas")
pyplot.legend()
pyplot.show()

### Avaliação dos resultados

In [None]:
MAE_rl = metrics.mean_absolute_error(y_test, y_pred_rl)
MSE_rl = metrics.mean_squared_error(y_test, y_pred_rl)
RMSE_rl = np.sqrt(metrics.mean_squared_error(y_test, y_pred_rl))
Score_rl_treino = modelo_rl.score(X_train, y_train)
Score_rl_teste = modelo_rl.score(X_test, y_test)
metricas_rl = (MAE_rl, MSE_rl, RMSE_rl, Score_rl_treino, Score_rl_teste)
regressao_linear = pd.DataFrame(metricas_rl, index=["MAE", "MSE", "RMSE", "Score - treino", "Score - teste"], columns=["Regressão linear"])
regressao_linear

## Árvore de decisão

In [None]:
#Baixando a biblioteca e instanciando o algoritmo de árvore de decisão
from sklearn.tree import DecisionTreeRegressor
modelo_arvore = DecisionTreeRegressor()

### Treinamento

In [None]:
#Treinando o modelo de árvore de decisão
modelo_arvore.fit(X_train, y_train)

### Previsão¶

In [None]:
#Predição com os dados de teste
y_pred_arvore = modelo_arvore.predict(X_test)

### Visualização dos resultados

In [None]:
#Gráfico para visualizar o número de viagens real e os obtidos com o modelo
pyplot.figure(figsize=(10, 5))
pyplot.plot(y_test, color='blue', label="Número de viagens realizadas")
pyplot.plot(y_pred_arvore, color='red', label="Número de viagens previstas")
pyplot.legend()
pyplot.show()

### Avaliação dos resultados

In [None]:
MAE_arvore = metrics.mean_absolute_error(y_test, y_pred_arvore)
MSE_arvore = metrics.mean_squared_error(y_test, y_pred_arvore)
RMSE_arvore = np.sqrt(metrics.mean_squared_error(y_test, y_pred_arvore))
Score_arvore_treino = modelo_arvore.score(X_train, y_train)
Score_arvore_teste = modelo_arvore.score(X_test, y_test)
metricas_arvore = (MAE_arvore, MSE_arvore, RMSE_arvore, Score_arvore_treino, Score_arvore_teste)
arvore_decisao = pd.DataFrame(metricas_arvore, index=["MAE", "MSE", "RMSE", "Score - treino", "Score - teste"], columns=["Árvore de decisão"])
arvore_decisao

## Random Forest

In [None]:
#Baixando a biblioteca e instanciando o algoritmo de random forest
from sklearn.ensemble import RandomForestRegressor
modelo_rf = RandomForestRegressor()

### Treinamento

In [None]:
#Treinando o modelo de random forest
modelo_rf.fit(X_train, y_train)

### Previsão¶

In [None]:
#Predição com os dados de teste
y_pred_rf = modelo_rf.predict(X_test)

### Visualização dos resultados

In [None]:
#Gráfico para visualizar o número de viagens real e os obtidos com o modelo
pyplot.figure(figsize=(10, 5))
pyplot.plot(y_test, color='blue', label="Número de viagens realizadas")
pyplot.plot(y_pred_rf, color='red', label="Número de viagens previstas")
pyplot.legend()
pyplot.show()

### Avaliação dos resultados¶

In [None]:
MAE_rf = metrics.mean_absolute_error(y_test, y_pred_rf)
MSE_rf = metrics.mean_squared_error(y_test, y_pred_rf)
RMSE_rf = np.sqrt(metrics.mean_squared_error(y_test, y_pred_rf))
Score_rf_treino = modelo_rf.score(X_train, y_train)
Score_rf_teste = modelo_rf.score(X_test, y_test)
metricas_rf = (MAE_rf, MSE_rf, RMSE_rf, Score_rf_treino, Score_rf_teste)
random_forest = pd.DataFrame(metricas_rf, index=["MAE", "MSE", "RMSE", "Score - treino", "Score - teste"], columns=["Random forest"])
random_forest

## Algoritmo XGBoost

In [None]:
!pip install xgboost
import xgboost as xgb

In [None]:
#Instanciando o modelo do XGBoost
modelo_xgb = xgb.XGBRegressor(objective="reg:squarederror", random_state=42)

Observação: Estava utilizando objective="reg:linear", mas apareceu esse erro:

[13:14:42] WARNING: C:/Users/Administrator/workspace/xgboost-win64_release_1.2.0/src/objective/regression_obj.cu:174: reg:linear is now deprecated in favor of reg:squarederror.

Por isso, alterei para objective="reg:squarederror".

### Treinamento

In [None]:
#Treinando o modelo de xgboost
modelo_xgb.fit(X_train, y_train)

### Previsão

In [None]:
#Predição com os dados de teste
y_pred_xgb = modelo_xgb.predict(X_test)

### Visualização dos resultados

In [None]:
#Gráfico para visualizar o número de viagens real e os obtidos com o modelo
pyplot.figure(figsize=(10, 5))
pyplot.plot(y_test, color='blue', label="Número de viagens realizadas")
pyplot.plot(y_pred_xgb, color='red', label="Número de viagens previstas")
pyplot.legend()
pyplot.show()

### Avaliação dos resultados

In [None]:
MAE_xgb = metrics.mean_absolute_error(y_test, y_pred_xgb)
MSE_xgb = metrics.mean_squared_error(y_test, y_pred_xgb)
RMSE_xgb = np.sqrt(metrics.mean_squared_error(y_test, y_pred_xgb))
Score_xgb_treino = modelo_xgb.score(X_train, y_train)
Score_xgb_teste = modelo_xgb.score(X_test, y_test)
metricas_xgb = (MAE_xgb, MSE_xgb, RMSE_xgb, Score_xgb_treino, Score_xgb_teste)
xgboost = pd.DataFrame(metricas_xgb, index=["MAE", "MSE", "RMSE", "Score - treino", "Score - teste"], columns=["XGBoost"])
xgboost

## Avaliando desempenho dos modelos

In [None]:
#Juntando os resultados das métricas
metricas = pd.concat([regressao_linear, arvore_decisao, random_forest, xgboost], axis=1)
metricas.to_csv('metricas.csv')
metricas

## Previsão da demanda de 2020

### Utilizando a base de registros de 2020

In [None]:
#Prevendo a demanda de 2020
y_pred_2020a = modelo_rf.predict(X_2020a)

In [None]:
#Transformando y_pred_2020 em dataframe
y_pred_2020a = pd.DataFrame(y_pred_2020a, columns = ['previsao_A'])

In [None]:
#Transformando X_2020a em dataframe
X_2020a = pd.DataFrame(X_2020a, columns = ['start_station_code', 'end_station_code', 'is_member', 'ano', 'mes', 'n_semana'])

In [None]:
#Juntando X_2020a e y_pred_2020a
previsao_2020a = pd.merge(X_2020a, y_pred_2020a, left_index=True, right_index=True, how='inner')
previsao_2020a.head()

### Utilizando as bases simuladas

#### Base com todas as combinações possiveis de 2020

In [None]:
#Prevendo a demanda de 2020
y_pred_2020b = modelo_rf.predict(X_2020b)

In [None]:
#Transformando y_pred_2020 em dataframe
y_pred_2020b = pd.DataFrame(y_pred_2020b, columns = ['previsao_B'])

In [None]:
#Transformando X_2020b em dataframe
X_2020b = pd.DataFrame(X_2020b, columns = ['n_semana', 'start_station_code', 'end_station_code', 'is_member', 'ano', 'mes'])

In [None]:
#Juntando X_2020b e y_pred_2020b
previsao_2020b = pd.merge(X_2020b, y_pred_2020b, left_index=True, right_index=True, how='inner')
previsao_2020b.head()

#### Base combinando os registros de 2019 e 2020

In [None]:
#Prevendo a demanda de 2020
y_pred_2020c = modelo_rf.predict(X_2020c)

In [None]:
#Transformando y_pred_2020 em dataframe
y_pred_2020c = pd.DataFrame(y_pred_2020c, columns = ['previsao_C'])

In [None]:
#Transformando X_2020c em dataframe
X_2020c = pd.DataFrame(X_2020c, columns = ['start_station_code', 'end_station_code', 'is_member', 'ano', 'mes', 'n_semana'])

In [None]:
#Juntando X_2020c e y_pred_2020c
previsao_2020c = pd.merge(X_2020c, y_pred_2020c, left_index=True, right_index=True, how='inner')
previsao_2020c.head()

### Gráfico da demanda

In [None]:
#Calculando a quantidade total de viagens por semana - 2019
viagens_por_semana_2019 = dados_2019.groupby(['n_semana'])['qtd_viagens'].sum()
viagens_por_semana_2019 = pd.DataFrame(viagens_por_semana_2019)
viagens_por_semana_2019 = viagens_por_semana_2019.reset_index()
viagens_por_semana_2019.head()

In [None]:
#Calculando a quantidade total de viagens por semana - 2020
viagens_por_semana_2020 = dados_2020.groupby(['n_semana'])['qtd_viagens'].sum()
viagens_por_semana_2020 = pd.DataFrame(viagens_por_semana_2020)
viagens_por_semana_2020 = viagens_por_semana_2020.reset_index()
viagens_por_semana_2020.head()

In [None]:
#Calculando a quantidade total de viagens por semana - Previsão A
previsao_2020a = previsao_2020a.groupby(['n_semana'])['previsao_A'].sum()
previsao_2020a = pd.DataFrame(previsao_2020a)
previsao_2020a = previsao_2020a.reset_index()
previsao_2020a.head()

In [None]:
#Calculando a quantidade total de viagens por semana - Previsão B
previsao_2020b = previsao_2020b.groupby(['n_semana'])['previsao_B'].sum()
previsao_2020b = pd.DataFrame(previsao_2020b)
previsao_2020b = previsao_2020b.reset_index()
previsao_2020b.head()

In [None]:
#Calculando a quantidade total de viagens por semana - Previsão C
previsao_2020c = previsao_2020c.groupby(['n_semana'])['previsao_C'].sum()
previsao_2020c = pd.DataFrame(previsao_2020c)
previsao_2020c = previsao_2020c.reset_index()
previsao_2020c.head()

In [None]:
#Gráfico da quantidade total de viagens por semana

#Criando o gráfico
grafico_2019 = go.Scatter(x = viagens_por_semana_2019['n_semana'], y = viagens_por_semana_2019['qtd_viagens'], mode = 'markers+lines', name = 'Viagens em 2019')
grafico_2020 = go.Scatter(x = viagens_por_semana_2020['n_semana'], y = viagens_por_semana_2020['qtd_viagens'], mode = 'markers+lines', name = 'Viagens em 2020')
grafico_previsao_2020a = go.Scatter(x = previsao_2020a['n_semana'], y = previsao_2020a['previsao_A'], mode = 'markers+lines', name = 'Viagens previstas em 2020 (previsão usando a base de registros de 2020)')
grafico_previsao_2020b = go.Scatter(x = previsao_2020b['n_semana'], y = previsao_2020b['previsao_B'], mode = 'markers+lines', name = 'Viagens previstas em 2020 (previsão usando a base de todas as combinações de 2020)')
grafico_previsao_2020c = go.Scatter(x = previsao_2020c['n_semana'], y = previsao_2020c['previsao_C'], mode = 'markers+lines', name = 'Viagens previstas em 2020 (previsão usando a base de registros de 2019 e 2020)')

#Armazenando os gráficos em uma lista
graficos = [grafico_2019, grafico_2020, grafico_previsao_2020a, grafico_previsao_2020b, grafico_previsao_2020c]

#Criando o layout
layout = go.Layout(title='Comparação de previsões do ano 2020',
                   yaxis={'title':'Quantidade de viagens'},
                   xaxis={'title': 'Semanas'})

#Criando a figura que será exibida
fig = go.Figure(data=graficos, layout=layout)
fig.update_layout(legend=dict(orientation='h'))

#Exibindo o gráfico
py.iplot(fig)

### Tabela comparativa

In [None]:
#Juntando viagens_2020 e previsao_2020
comparativo_2020 = pd.merge(viagens_por_semana_2020, previsao_2020a, how='inner', on='n_semana')
comparativo_2020 = pd.merge(comparativo_2020, previsao_2020b, how='inner', on='n_semana')
comparativo_2020 = pd.merge(comparativo_2020, previsao_2020c, how='inner', on='n_semana')
comparativo_2020.head()

In [None]:
#Salvando em csv
comparativo_2020.to_csv('comparativo_2020.csv')