In [4]:

'''

GUILHERME LIMA DE SOUSA - 
ESTUDO DE CASO: TONELADAS TRANSPORTADAS EM FERROVIAS BRASILEIRAS
OBJETIVO: PREDI√á√ÉO USANDO RANDOMFORESTREGRESSOR

ENTRE EM CONTATO COMIGO NO LINKEDIN: 
www.linkedin.com/in/guilherme-lima-747355169

'''


import pandas as pd
import numpy as np
import glob
import os
import matplotlib.pyplot as plt
import seaborn as sns
from numpy import random
import mlflow


################################################################################


# ETL DA BASE

################################################################################



##CONFIGURANDO NUMEROS COM 2 CASAS DECIMAIS
pd.set_option('Float_format','{:.2f}'.format)

## COMPILANDO ARQUIVOS DA PASTA
pasta = 'C:/Users/Guilh/OneDrive/√Årea de Trabalho/1-MATERIAIS DE ESTUDO/01 - DIVERSOS/01-SCIKIT_LEARN/02-RANDOMFOREST/1-ANTT_FERROVIAS/01-INPUT'
arquivos = glob.glob(os.path.join(pasta, '*.csv'))
base_original = pd.concat([pd.read_csv(i, sep=';', encoding='latin1') for i in arquivos], ignore_index = True)

## REMOVENDO PONTO DA COLUNA
base_original['TU'] = base_original['TU'].str.replace('.','',regex=False)
base_original['TKU'] = base_original['TKU'].str.replace('.','',regex=False)

## ALTERANDO FORMATA√á√ÉO DA COLUNA
base_original['TKU'] = base_original['TKU'].fillna(0)
base_original['TKU'] = base_original['TKU'].astype(float)
base_original['TU'] = base_original['TU'].astype(int)
base_original['TKU'] = base_original['TKU'].astype(int)
base_original['Mes_Ano'] = pd.to_datetime(base_original['Mes_Ano'], format='%m/%Y')

## CRIANDO COLUNAS
base_original['M√äS'] = base_original['Mes_Ano'].dt.month
base_original['ANO'] = base_original['Mes_Ano'].dt.year

#REMOVENDO DUPLICADOS E NULOS
base_original = base_original.drop_duplicates()

# REMOVENDO COLUNA TKU POIS O OBJETIVO √â APNAS TU
base_original = base_original.drop('TKU', axis=1)
base_original = base_original.drop('Mes_Ano', axis=1)

# REMOVENDO VALORES ABAIXO DE 1 TONELADA
base_original = base_original[base_original["TU"]>= 1]

# VENDO A BASE
base_original.head(-5)

Unnamed: 0,Ferrovia,Mercadoria_ANTT,Estacao_Origem,UF_Origem,Estacao_Destino,UF_Destino,TU,M√äS,ANO
0,EFC,√Ålcool,Itaqui Base Combust√≠vel,MA,Marab√°,PA,184,1,2006
1,EFC,Bebidas e Vasilhames,Ponta da Madeira P√™ra do P√≠er,MA,Imperatriz,MA,1636,1,2006
2,EFC,Cobre,Paraupebas,PA,Ponta da Madeira Cobre,MA,24461,1,2006
3,EFC,Ferro Gusa,A√ßail√¢ndia,MA,Ponta da Madeira P√™ra do P√≠er,MA,116272,1,2006
4,EFC,Ferro Gusa,Marab√°,PA,Ponta da Madeira P√™ra do P√≠er,MA,205242,1,2006
...,...,...,...,...,...,...,...,...,...
148653,RMS,Soja,Marialva,PR,D Pedro II,PR,179173,4,2023
148654,RMS,Soja,Marialva,PR,S√£o Francisco do Sul,SC,80527,4,2023
148655,RMS,Soja,Maringa,PR,D Pedro II,PR,193917,4,2023
148656,RMS,Soja,Maringa,PR,Rio Grande,RS,1710,4,2023


In [22]:


####################################################################################

#     CRIANDO DATASET DO MODELO

####################################################################################

'''

AQUI VAMOS CRIAR O DATASET DO MODELO
FAZENDO ETL COM AS COLUNAS CATEGORICAS E APLICANDO C√ìDIGOS PARA CADA UMA, 
POSTERIORMENTE USANDO AS COLUNAS NUMERICAS REPRESENTADAS COMO VARIAVEIS DO MODELO.
EM VEZ DE USAR O NOME DA FERROVIA ESTAMOS CRIANDO UM C√ìDIGO DISTINTO DELA.

'''


# REPRODUTIBILIDADE
np.random.seed(2)


## BASE MODELO
#print(base_original.columns)
print('--------------------')
base_modelo = base_original

# TRANSFORMANDO COLUNAS
base_modelo['ANO'] = base_modelo['ANO'].astype(int)
base_modelo['M√äS'] = base_modelo['M√äS'].astype(int)
base_modelo['TU'] = base_modelo['TU'].astype(int)

#
############### CRIANDO OS C√ìDIGOS DE CADA CATEGORIA
# SELECIONA APENAS AS COLUNAS STRING/CATEGORIAS/OBJETO
categ = base_modelo.select_dtypes(include=['object', 'category']).copy()
# LAMBDA QUE TRANSFORMA AS COLUNAS E NUMEROS
cod_categorica_hoje_1 = categ.apply(lambda col: col.astype('category').cat.codes)
# RENOMEANDO AS COLUNAS DE CODIGO COM PREFIXO
cod_categorica_1 = cod_categorica_hoje_1.add_prefix('Codigo_')


# CONCATENANDO AS BASES DE CODIGOS COM A ORIGINAL
codigos_categorias = pd.concat([base_modelo, cod_categorica_1], axis=1)

print('################# BASE COM DE:PARA ########################\n')
# BASE COM TUDO



##########  PARA VISUALIZAR DE:PARA DE COLUNA ESPECIFICA
#visualizar_de_para = codigos_categorias[['Ferrovia', 'Codigo_Ferrovia']].drop_duplicates().reset_index(drop=True)
#print('\n################# VERIFICAR ########################\n')
#print(visualizar_de_para.head(3))


########## ENGENHARIA DE ATRIBUTOS - FEATURE ENGINEERING - CLUSTER KMEANS
grupos_produtos = pd.read_csv('BASE_ANTT_COM_KMEANS.csv', sep=';')
grupos_produtos = grupos_produtos.iloc[:,[2,3,4,5,6,7,9]].drop_duplicates()


mesclando_df = codigos_categorias.merge(grupos_produtos,how="left", on=['Codigo_Ferrovia',
                                                                     'Codigo_Mercadoria_ANTT',
                                                                     'Codigo_Estacao_Origem',
                                                                     'Codigo_UF_Origem',
                                                                     'Codigo_Estacao_Destino',
                                                                     'Codigo_UF_Destino'])

codigos_categorias = mesclando_df
codigos_categorias.head(5)


--------------------
################# BASE COM DE:PARA ########################



Unnamed: 0,Ferrovia,Mercadoria_ANTT,Estacao_Origem,UF_Origem,Estacao_Destino,UF_Destino,TU,M√äS,ANO,Codigo_Ferrovia,Codigo_Mercadoria_ANTT,Codigo_Estacao_Origem,Codigo_UF_Origem,Codigo_Estacao_Destino,Codigo_UF_Destino,cluster_produto
0,EFC,√Ålcool,Itaqui Base Combust√≠vel,MA,Marab√°,PA,184,1,2006,0,98,216,5,234,9,
1,EFC,Bebidas e Vasilhames,Ponta da Madeira P√™ra do P√≠er,MA,Imperatriz,MA,1636,1,2006,0,11,316,5,187,5,1.0
2,EFC,Cobre,Paraupebas,PA,Ponta da Madeira Cobre,MA,24461,1,2006,0,22,293,9,296,5,0.0
3,EFC,Cobre,Paraupebas,PA,Ponta da Madeira Cobre,MA,24461,1,2006,0,22,293,9,296,5,2.0
4,EFC,Ferro Gusa,A√ßail√¢ndia,MA,Ponta da Madeira P√™ra do P√≠er,MA,116272,1,2006,0,44,36,5,297,5,0.0


In [23]:
####################################################################################

#     TRANSFORMANDO DATASET DO MODELO RANDOMFOREST

####################################################################################

''' 
AQUI ESTOU REMOVENDO OS VALORES MENORES DE 1000 MIL TONELADAS DE MOVIMENTA√á√ÉO
POIS ABAIXO DE MIL DEIXA O MODELO RUIM, MUITO COMPLEXO PRA ENTENDER OS DADOS
QUE VARIAM DE ZERO A MILHOES.

'''
# CRIANDO A BASE
base_treino = codigos_categorias.select_dtypes(exclude=['object', 'category']).copy()

#REMOVENDO DUPLICADOS
base_treino = base_treino.drop_duplicates()
base_treino = base_treino.fillna(0)

# SALVANDO BASE DO MODELO COMPLETA SEM FILTROS
base_modelo_completa = base_treino

# LIMITANDO A BASE REMOVENDO 2023
base_treino = base_treino[base_treino['ANO'] != 2023][list(base_treino.columns)]


# REMOVENDO OS OUTLIERS - TUDO QUE √â MENOR DE MIL TONELADAS
base_treino = base_treino[base_treino['TU'] >= 1000.00]
base_modelo = base_treino


# REMOVENDO OS OUTLIERS - TUDO QUE EST√Å MAIOR DO 3¬∫ QUARTIL EM TONELADAS
#q3 = base_treino['TU'].quantile(0.75)
#base_treino = base_treino[base_treino['TU'] <= q3]
#base_modelo = base_treino



# LOGARITMO BASE10
base_modelo['TU_LOG10'] = np.log10(base_modelo['TU'])


# REMOVENDO COLUNA REAL
base_modelo = base_modelo.drop('TU', axis=1)


base_modelo = base_modelo[["M√äS", "ANO", "Codigo_Ferrovia", "Codigo_Mercadoria_ANTT",
                          "Codigo_Estacao_Origem", "Codigo_UF_Origem", "Codigo_Estacao_Destino",
                          "Codigo_UF_Destino", "cluster_produto", "TU_LOG10"]]


print('################# BASE MODELO ########################')
print(base_modelo.head(3))
base_modelo.describe()


################# BASE MODELO ########################
   M√äS   ANO  Codigo_Ferrovia  Codigo_Mercadoria_ANTT  Codigo_Estacao_Origem  \
1    1  2006                0                      11                    316   
2    1  2006                0                      22                    293   
3    1  2006                0                      22                    293   

   Codigo_UF_Origem  Codigo_Estacao_Destino  Codigo_UF_Destino  \
1                 5                     187                  5   
2                 9                     296                  5   
3                 9                     296                  5   

   cluster_produto  TU_LOG10  
1             1.00      3.21  
2             0.00      4.39  
3             2.00      4.39  


Unnamed: 0,M√äS,ANO,Codigo_Ferrovia,Codigo_Mercadoria_ANTT,Codigo_Estacao_Origem,Codigo_UF_Origem,Codigo_Estacao_Destino,Codigo_UF_Destino,cluster_produto,TU_LOG10
count,124771.0,124771.0,124771.0,124771.0,124771.0,124771.0,124771.0,124771.0,124771.0,124771.0
mean,6.55,2013.4,6.89,52.05,231.22,10.18,219.09,11.61,0.54,4.02
std,3.44,4.97,3.95,30.8,127.77,5.38,121.51,5.64,0.99,0.67
min,1.0,2006.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,3.0
25%,4.0,2009.0,3.0,23.0,128.0,6.0,120.0,6.0,0.0,3.51
50%,7.0,2013.0,7.0,52.0,242.0,9.0,228.0,13.0,0.0,3.92
75%,10.0,2018.0,12.0,81.0,341.0,15.0,331.0,18.0,1.0,4.41
max,12.0,2022.0,12.0,101.0,437.0,19.0,410.0,19.0,3.0,7.14


In [31]:

'''

HIP√ìTESE NULA = SER√Å QUE MEU MODELO CONSEGUE EXPLICAR AS TONELADAS TRANSPORTADAS
APENAS COM AS DEMAIS COLUNAS DO NOSSO DATASET ?


############# PARAMETROS DO MODELO
MODELO COM VALIDA√á√ÉO CRUZADA DE 5 FOLDS CRIADO COM OS PARAMETROS:

N_ESTIMATORS = 300
300 ARVORES DE DECIS√ÉO NO M√ÅXIMO

MAXDEPTH = 15
PERMITE CRIAR ARVORES MAIS PROFUNDAS E TRAZ ALEATORIEDADE AOS DADOS, GENERALIZA√á√ÉO.

RANDOM_STATE = 2
REPLICABILIDADE DE RESULTADOS

MAX_FEATURES = 'SQRT' 
ELE N√ÉO USA TODAS AS FEATURES NOS N√ìS, ELE USA A RAIZ QUADRADA DO TOTAL DE COLUNAS.
DESTA FORMA O MODELO √â FOR√áADO COM DADOS E CEN√ÅRIOS COMPLEXOS.

MIN_SAMPLES_SPLIT = 10
O MODELO S√ì VAI CRIAR OUTRO N√ì SE TIVER PELO MENOS 10 REGISTROS PRA SEGUIR ADIANTE

MIN_SAMPLES_LEAF = 5
CADA FOLHA FINAL DEVE CONTER PELO MENOS 5 REGISTROS


############# AVALIA√á√ïES
# MAE (ERRO ABSOLUTO MEDIO)
Em m√©dia, o modelo erra cerca de 38.327 toneladas na previs√£o de TU. Esse valor deve ser 
interpretado em rela√ß√£o √† escala dos dados ‚Äî se TU varia de 0 a milh√µes, esse erro pode ser toler√°vel; se n√£o, 
pode ser alto ......Em nossa base a coluna TARGET varia entre 0 e 13.858.719 ent√£o 38.327 √© toler√°vel

# MSE (MEAN SQUARED ERROR) - M√©dia dos erros ao quadrado. 
Penaliza fortemente grandes erros e destaca discrep√¢ncias mais severas.

# MAPE
Este √© o erro m√©dio (MAE) s√≥ que em percentual.

# RMSE
Raiz do erro quadratico m√©dio - (Raise mean squared error)
Esse erro penaliza mais fortemente grandes erros. Um RMSE muito maior que o MAE (como no nosso cenario 274.067) indica que 
h√° outliers ou erros muito grandes em alguns casos que est√£o influenciando bastante a performance.

# MEDAE
Este √© a mediana dos erros, mostra como os erros est√£o distribuidos, o meio entre eles.

Avaliamos:
MAE para entender o erro m√©dio bruto.
MAPE √© o MAE em %.
RMSE se quiser punir grandes erros, fica sempre maior mas n√£o tanto.
MedAE onde √© o meio ? mediana dos erros.

'''


############################################################################


#  MODELO PRINCIPAL

############################################################################

from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.model_selection import KFold, cross_val_score, train_test_split, learning_curve, TimeSeriesSplit
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, accuracy_score, f1_score, classification_report
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error, mean_absolute_percentage_error, median_absolute_error
from sklearn.datasets import make_regression
from sklearn.dummy import DummyRegressor


## DEFININDO MLFLOW
mlflow.set_tracking_uri("http://127.0.0.1:5000/")
mlflow.set_experiment(experiment_id=540394382883761644)


# REPRODUTIBILIDADE
np.random.seed(2)

base_modelo = base_modelo.sort_values(by=["ANO", "M√äS"])
########################  CRIANDO MODELO PRINCIPAL
# DEFININDO X (VAR DEPENDENTE) Y (VAR TARGET)
x = base_modelo.drop(columns=['TU_LOG10'])
y = base_modelo['TU_LOG10']


# ORDENA√á√ÉO DOS DADOS PARA A BASE DE TREINO
x = x[['M√äS', 'ANO', 'Codigo_Ferrovia', 'Codigo_Mercadoria_ANTT', 'Codigo_Estacao_Origem',
                                           'Codigo_UF_Origem', 'Codigo_Estacao_Destino', 'Codigo_UF_Destino',"cluster_produto"]]


# SEPARANDO TREINO E TESTE
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.1)



with mlflow.start_run():
    mlflow.sklearn.autolog()
    # CRIANDO MODELO
    modelo = RandomForestRegressor(n_estimators=300, 
                                max_depth=20, 
                                random_state=2, 
                                max_features='sqrt', 
                                min_samples_split=10, 
                                min_samples_leaf=5)

    # VALIDA√á√ÉO CRUZADA
    kf = KFold(n_splits=5, shuffle= True, random_state=2)
    cross_validation = cross_val_score(modelo, x, y, cv=kf, scoring='r2')

    # APLICANDO LOG() PARA MELHORAR A DISTRIBUI√á√ÉO DO MODELO - evita heterocedasticidade
    #y_train_log = np.log1p(y_train)


    # TREINANDO O MODELO
    modelo.fit(x_train, y_train)


    # USANDO MODELO NO COJUNTO DE TESTE - PREDI√á√ÉO
    y_pred = modelo.predict(x_test)


    # OBTENDO R2 DA PREDI√á√ÉO ANTERIOR
    ACC_MODELO = r2_score(y_test, y_pred)

    # ERRO PERCENTUAL M√âDIO COM LOG10
    MAE_LOG10 = mean_absolute_error(y_test, y_pred)
    MSE_LOG10 = mean_squared_error(y_test, y_pred)
    RMSE_LOG10 = np.sqrt(mean_squared_error(y_test, y_pred))
    MAPE_LOG10 = mean_absolute_percentage_error(y_test, y_pred)
    MEDAE_LOG10 = median_absolute_error(y_test, y_pred)


    # ERRO PERCENTUAL M√âDIO SEM LOG10
    MAE_REAL = mean_absolute_error(10**y_test, 10**y_pred)
    MSE_REAL = mean_squared_error(10**y_test, 10**y_pred)
    RMSE_REAL = np.sqrt(mean_squared_error(10**y_test, 10**y_pred))
    MAPE_REAL = mean_absolute_percentage_error(10**y_test, 10**y_pred)
    MEDAE_REAL = median_absolute_error(10**y_test, 10**y_pred)


    ##########  DEFININDO AS METRICAS QUE VAO PARA O MLFLOW
    metricas_mlflow = {
    "MAE_LOG10": MAE_LOG10,
    "MSE_LOG10": MSE_LOG10,
    "RMSE_LOG10": RMSE_LOG10,
    "MAPE_LOG10": MAPE_LOG10,
    "MEDAE_LOG10": MEDAE_LOG10,

    "MAE_REAL": MAE_REAL,
    "MSE_REAL": MSE_REAL,
    "RMSE_REAL": RMSE_REAL,
    "MAPE_REAL": MAPE_REAL,
    "MEDAE_REAL": MEDAE_REAL,
    "ACC_MODELO": ACC_MODELO}

    mlflow.log_metrics(metricas_mlflow)



üèÉ View run peaceful-crab-471 at: http://127.0.0.1:5000/#/experiments/540394382883761644/runs/7caa658643b24316be6b11298dcb943f
üß™ View experiment at: http://127.0.0.1:5000/#/experiments/540394382883761644
