## Parte 2 do TCC - Juliana Lemos Martins Casagrande

#### 3.1. Leitura dos arquivos gerados no notebook anterior

In [1]:
# Importação das bibliotecas necessárias.

import os
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Exibe os números com dois pontos decimais, ponto como separador de decimal
# e vírgula como separador de milhar, sem notação científica.
pd.options.display.float_format = '{:,.2f}'.format

# Indicação do caminho do diretório de trabalho.
os.chdir('D:/TCC2024')

Os arquivos "train2.csv" e "test2.csv" foram criados a partir do arquivo "doapibmun" gerado no notebook anterior.
O arquivo "doapibmun" estava ordenado por ano, então, como se trata de uma série temporal, optamos por dividir a base de treinamento com os dados até 2021, e a base de testes com os dados de 2022.

In [2]:
# Leitura do arquivo com os dados das doações

train = pd.read_csv('train2.csv', sep=';')
test = pd.read_csv('test2.csv', sep = ';')


#### 3.2. Utilização do pacote Pycaret

In [4]:
test

Unnamed: 0,anomun,ano,mun,doacao,PIB
0,2022 - CRUZEIRO DO SUL - AC,2022,CRUZEIRO DO SUL - AC,7200,23025776550
1,2022 - ARAPIRACA - AL,2022,ARAPIRACA - AL,820000,66169766530
2,2022 - CAMPO ALEGRE - AL,2022,CAMPO ALEGRE - AL,25000,8217037880
3,2022 - MACEIO - AL,2022,MACEIO - AL,97166129,307408718960
4,2022 - MARECHAL DEODORO - AL,2022,MARECHAL DEODORO - AL,225000,38135067355
...,...,...,...,...,...
914,2022 - LOUVEIRA - SP,2022,LOUVEIRA - SP,500000,220088933935
915,2022 - MOGI MIRIM - SP,2022,MOGI MIRIM - SP,1367020,70617213340
916,2022 - SAO PAULO - SP,2022,SAO PAULO - SP,468833228,9272148100480
917,2022 - TABOAO DA SERRA - SP,2022,TABOAO DA SERRA - SP,16811574,115105640320


In [5]:
# Importa o módulo de regressão
from pycaret.regression import *

In [14]:
# Inicializa o setup
s = setup(data = train, test_data = test, target = 'doacao', index=False, fold_strategy = 'timeseries', data_split_shuffle=False, data_split_stratify=False, numeric_features = ['PIB'], fold = 3,\
          transform_target = True, session_id = 123)


Unnamed: 0,Description,Value
0,Session id,123
1,Target,doacao
2,Target type,Regression
3,Original data shape,"(14164, 5)"
4,Transformed data shape,"(14164, 5)"
5,Transformed train set shape,"(13245, 5)"
6,Transformed test set shape,"(919, 5)"
7,Numeric features,1
8,Categorical features,2
9,Preprocess,True


In [15]:
best = compare_models(sort = 'MAE')

Unnamed: 0,Model,MAE,MSE,RMSE,R2,RMSLE,MAPE,TT (Sec)
knn,K Neighbors Regressor,62641242.631,1.4463220160163344e+17,379782471.2235,0.1206,3.3224,165.5163,0.0667
dummy,Dummy Regressor,63878114.8002,1.6821734272991862e+17,409946898.2934,-0.0252,3.9968,14.2784,0.06
ada,AdaBoost Regressor,64074517.9854,1.6821922797441264e+17,409949457.9821,-0.0253,3.9694,17.1094,0.12
lr,Linear Regression,65092263.342,1.6999261089979597e+17,412116583.2644,-0.0363,4.1084,16.7907,0.07
br,Bayesian Ridge,65092342.316,1.6999325428262576e+17,412117373.7319,-0.0363,4.1066,16.773,0.0567
ridge,Ridge Regression,65096555.1257,1.7002089793465088e+17,412151479.6877,-0.0365,4.022,16.0778,0.06
lar,Least Angle Regression,65102203.3238,1.699957543259322e+17,412120271.4525,-0.0363,4.3656,23.6874,0.0567
rf,Random Forest Regressor,65788271.2555,1.7284332276704208e+17,415553763.7462,-0.0542,4.0214,16.0699,0.8
lightgbm,Light Gradient Boosting Machine,65833943.155,1.728754138052392e+17,415592067.9244,-0.0544,3.9993,16.2296,0.1667
gbr,Gradient Boosting Regressor,66004168.3428,1.7498652192986022e+17,418076640.9622,-0.0675,3.9901,16.6011,0.6867


Para estabelecer um valor para o PIB (feature) de 2023, foram utilizados os PIBs do 1º ao 3º trimestre, já calculados pelo IBGE. O PIB do 4º trimestre foi estimado utilizando o mesmo aumento ocorrido entre o 3º e o 4º trimestres de 2022.

**PIB 3T 2022 (A)**:	2.601.182

**PIB 4T 2022 (B)**: 2.641.485

**(B)/(A)**:  	1,015494183
**PIB 1T 2023**: 2.582.706
**
PIB 2T 202**: 2.701.1053**

PIB 3T 20**2 :	2.740.961**

PIB 4T 20**23: 2.740.961 * 1,015494183 = 2.783.430**

PIB 20**232.582.706 + 2.701.105 + 2.740.961 + 2.783.430 = 10.808.202

**Crescimento em relação ao PIB de 2022**: 10.808.202 / 10.079.677 = 1,072276622
<br>
<br>
83
Para estabelecer valores para o PIB de 2024 e de 2025, foram utilizados os percentuais de crescimento previstos pelo FMI; respectivamente, 1,7% e 1,9%. Fonte: https://www.imf.org/en/Publications/WEO/Issues/2024/01/30/world-economic-outlook-update-january-2024.


In [8]:
# Cria dataset para as previsões de 2023
prev1 = test[['anomun','ano','mun','PIB']]
prev1['PIB']=prev1['PIB']*1.072276622
prev1['anomun'] = prev1['anomun'].str.replace('2022','2023')
prev1['ano']=2023
prev1

Unnamed: 0,anomun,ano,mun,PIB
0,2023 - CRUZEIRO DO SUL - AC,2023,CRUZEIRO DO SUL - AC,24690001897.96
1,2023 - ARAPIRACA - AL,2023,ARAPIRACA - AL,70952293733.32
2,2023 - CAMPO ALEGRE - AL,2023,CAMPO ALEGRE - AL,8810937620.81
3,2023 - MACEIO - AL,2023,MACEIO - AL,329627182739.78
4,2023 - MARECHAL DEODORO - AL,2023,MARECHAL DEODORO - AL,40891341203.16
...,...,...,...,...
914,2023 - LOUVEIRA - SP,2023,LOUVEIRA - SP,235996218619.40
915,2023 - MOGI MIRIM - SP,2023,MOGI MIRIM - SP,75721186975.27
916,2023 - SAO PAULO - SP,2023,SAO PAULO - SP,9942307643866.41
917,2023 - TABOAO DA SERRA - SP,2023,TABOAO DA SERRA - SP,123425087175.48


In [9]:
# Cria dataset para as previsões de 2024
prev2 = test[['anomun','ano','mun','PIB']]
prev2['PIB']=prev2['PIB']*1.017*1.072276622
prev2['anomun'] = prev2['anomun'].str.replace('2022','2024')
prev2['ano']=2024
prev2

Unnamed: 0,anomun,ano,mun,PIB
0,2024 - CRUZEIRO DO SUL - AC,2024,CRUZEIRO DO SUL - AC,25109731930.23
1,2024 - ARAPIRACA - AL,2024,ARAPIRACA - AL,72158482726.78
2,2024 - CAMPO ALEGRE - AL,2024,CAMPO ALEGRE - AL,8960723560.37
3,2024 - MACEIO - AL,2024,MACEIO - AL,335230844846.35
4,2024 - MARECHAL DEODORO - AL,2024,MARECHAL DEODORO - AL,41586494003.62
...,...,...,...,...
914,2024 - LOUVEIRA - SP,2024,LOUVEIRA - SP,240008154335.93
915,2024 - MOGI MIRIM - SP,2024,MOGI MIRIM - SP,77008447153.85
916,2024 - SAO PAULO - SP,2024,SAO PAULO - SP,10111326873812.14
917,2024 - TABOAO DA SERRA - SP,2024,TABOAO DA SERRA - SP,125523313657.46


In [10]:
# Cria dataset para as previsões de 2025
prev3 = test[['anomun','ano','mun','PIB']]
prev3['PIB']=prev3['PIB']*1.019*1.017*1.072276622
prev3['anomun'] = prev3['anomun'].str.replace('2022','2025')
prev3['ano']=2025
prev3

Unnamed: 0,anomun,ano,mun,PIB
0,2025 - CRUZEIRO DO SUL - AC,2025,CRUZEIRO DO SUL - AC,25586816836.90
1,2025 - ARAPIRACA - AL,2025,ARAPIRACA - AL,73529493898.59
2,2025 - CAMPO ALEGRE - AL,2025,CAMPO ALEGRE - AL,9130977308.01
3,2025 - MACEIO - AL,2025,MACEIO - AL,341600230898.43
4,2025 - MARECHAL DEODORO - AL,2025,MARECHAL DEODORO - AL,42376637389.68
...,...,...,...,...
914,2025 - LOUVEIRA - SP,2025,LOUVEIRA - SP,244568309268.32
915,2025 - MOGI MIRIM - SP,2025,MOGI MIRIM - SP,78471607649.77
916,2025 - SAO PAULO - SP,2025,SAO PAULO - SP,10303442084414.57
917,2025 - TABOAO DA SERRA - SP,2025,TABOAO DA SERRA - SP,127908256616.95


In [11]:
# Concatena os 3 datasets verticalmente
prev = pd.concat([prev1,prev2,prev3],ignore_index=True)

In [19]:
predicao = predict_model(best, data=prev)
predicao.rename(columns={'anomun':'anomun','ano':'ano','mun':'mun','PIB':'PIB','prediction_label':'doacao'}, inplace=True)
predicao.head()

Unnamed: 0,anomun,ano,mun,PIB,doacao
0,2023 - CRUZEIRO DO SUL - AC,2023,CRUZEIRO DO SUL - AC,24690001920.0,2062957.52
1,2023 - ARAPIRACA - AL,2023,ARAPIRACA - AL,70952296448.0,7881828.18
2,2023 - CAMPO ALEGRE - AL,2023,CAMPO ALEGRE - AL,8810937344.0,22625.53
3,2023 - MACEIO - AL,2023,MACEIO - AL,329627172864.0,14005459.03
4,2023 - MARECHAL DEODORO - AL,2023,MARECHAL DEODORO - AL,40891342848.0,63114.63
