### AJUSTE DO AMBIENTE E IMPORTAÇÃO DE BIBLIOTECAS A SEREM USADAS

In [1]:
import warnings
warnings.filterwarnings("ignore")

In [2]:
import re
import requests
from bs4 import BeautifulSoup

import numpy as np
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error, adjusted_rand_score
from sklearn.model_selection import train_test_split, GridSearchCV
from skopt import BayesSearchCV

from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, AdaBoostRegressor, GradientBoostingRegressor
from xgboost import XGBRegressor

### WEB SCRAPPING DOS DADOS DIRETO DO SITE 'CRUZEIROPEDIA'

In [3]:
# faz a requisição HTTP para a página principal
response = requests.get('https://cruzeiropedia.org/Categoria:Temporadas')

# faz o parsing do HTML da página principal
soup = BeautifulSoup(response.content, 'html.parser')

In [4]:
# encontra todas as tags <a> que contêm o nome das temporadas (identifica os links) 
temporadas = soup.find_all('a', {'title': 
                                 ['Categoria:Temporada 2011',
                                  'Categoria:Temporada 2012',
                                  'Categoria:Temporada 2013',
                                  'Categoria:Temporada 2014',
                                  'Categoria:Temporada 2015',
                                  'Categoria:Temporada 2016',
                                  'Categoria:Temporada 2017', 
                                  'Categoria:Temporada 2018', 
                                  'Categoria:Temporada 2019', 
                                  'Categoria:Temporada 2020', 
                                  'Categoria:Temporada 2021', 
                                  'Categoria:Temporada 2022',
                                  'Categoria:Temporada 2023']
                                  }
                                  )

In [5]:
# lista para armazenar os dados encontrados
anos = []
diasSemanas = []
datas = []
adversarios = []
pubPagantes = []
pubPresentes = []
rendaBrutas = []
estadios = []
campeonatos = []
placares = []
horarios = []

# 'varre' a lista de temporadas especificada acima
for temporada in temporadas:
    # obtém o link da temporada
    link_temporada = temporada.get('href')
    
    # faz a requisição HTTP para a página da temporada
    response_temporada = requests.get('https://cruzeiropedia.org' + link_temporada)
    
    # faz o parsing do HTML da página da temporada
    soup_temporada = BeautifulSoup(response_temporada.content, 'html.parser')
    
    # identifica os jogos que o cruzeiro foi mandante na temporada em questão
    jogos = soup_temporada.find_all('a', {'title': re.compile(r'(.+) (\d+)x(\d+) (.+) - (\d{2}/\d{2}/\d{4})')})

    # entra em cada um dos jogos
    for jogo in jogos:
        # obtém o link do jogo
        link_jogos = jogo.get('href')

        if "Slovan" in link_jogos:
            continue

        elif "Tr%C3%ADplice" in link_jogos:
            continue
    
        # faz a requisição HTTP para a página do jogo
        response_jogos = requests.get('https://cruzeiropedia.org' + link_jogos)
        # faz o parsing do html da página do jogo
        soup_jogos = BeautifulSoup(response_jogos.content, 'html.parser')
        # retira a informação do dia da semana e horário
        diaSemana = soup_jogos.find('b', string='Data:').next_sibling.strip()
        diasSemanas.append(diaSemana)

        ano = soup_jogos.find('b', string='Data:').find_next_sibling().find_next_sibling().text.strip()
        anos.append(ano)

        data = soup_jogos.find('b', string='Data:').find_next_sibling().text.strip()
        datas.append(data)

        adversario = soup_jogos.find('b', string='Placar').find_next_sibling().find_next_sibling().find_next_sibling().text.strip()
        adversarios.append(adversario)

        pubPagante = soup_jogos.find('b', string='Público pagante:').next_sibling.strip()
        pubPagantes.append(pubPagante)

        pubPresente = soup_jogos.find('b', string='Público Presente:').next_sibling.strip()
        pubPresentes.append(pubPresente)

        rendaBruta = soup_jogos.find('b', string='Renda Bruta:').next_sibling.strip()
        rendaBrutas.append(rendaBruta)

        estadio = soup_jogos.find('b', string='Estádio:').find_next_sibling().text.strip()
        estadios.append(estadio)
        
        campeonato = soup_jogos.find('div', class_='divFichaSessao')
        campeonato_element = campeonato.find('b')
        campeonato_element_title = campeonato_element.text.strip()
        campeonatos.append(campeonato_element_title)

        placar_element = soup_jogos.find('div', class_='divFicha')
        placar = placar_element.find('b').text
        placares.append(placar)

        horario = soup_jogos.find('b', string='Data:').find_next_sibling().find_next_sibling().next_sibling.strip()
        horarios.append(horario)



### ESTRUTURAÇÃO DOS DADOS COLETADOS EM DATAFRAME + PRÉ-VISUALIZAÇÃO DOS DADOS

In [None]:
# ESTRUTURANDO OS DADOS CAPTURADOS EM UM DATAFRAME

df_raw = pd.DataFrame({'visitante':adversarios,
                       'ano': anos,
                       'dia da semana': diasSemanas,
                       'data': datas,
                       'publico presente': pubPresentes,
                       'publico pagante':pubPagantes,
                       'renda bruta': rendaBrutas,
                       'estadio':estadios,
                       'campeonato':campeonatos,
                       'placar':placares,
                       'horario':horarios})
df = df_raw.copy()

In [None]:
# Salvando em um excel para evitar de ter que rodar o web scrapping inteiro toda vez que for trabalhar 

df_raw.to_excel("C:\\Users\\Pichau\\Desktop\\datasets usados\\Dataset Cruzeiro\\Cruzeiro.xlsx", index=False)

In [45]:
df_raw = pd.read_excel("C:\\Users\\Dudu_\\OneDrive\\Documentos\\Estudos\\0. Datasets Usados\\Dataset Cruzeiro\\Cruzeiro.xlsx")

df = df_raw.copy()

In [46]:
# Análise da cauda final do df para ver se o script deu certo e se são os jogos mais recentes mesmo
df.tail(5)

Unnamed: 0,visitante,ano,dia da semana,data,publico presente,publico pagante,renda bruta,estadio,campeonato,placar,horario
822,Cruzeiro,2023,"sábado,",18 de novembro,30.804,30.144,"R$ 328.787,00",Castelão-CE,30ª rodada do Campeonato Brasileiro 2023,0 × 1,às 18:30
823,Vasco,2023,"quarta-feira,",22 de novembro,0,0,"R$ 0,00",Mineirão,33ª rodada do Campeonato Brasileiro 2023,2 × 2,às 19:00
824,Cruzeiro,2023,"segunda-feira,",27 de novembro,9.143,6.463,"R$ 178.900,00",Serrinha,35ª rodada do Campeonato Brasileiro 2023,0 × 1,às 20:00
825,Athletico,2023,"quinta-feira,",30 de novembro,36.696,33.805 (13.815 sócios),"R$ 1.519.277,50",Mineirão,36ª rodada do Campeonato Brasileiro 2023,1 × 1,às 20:00
826,Cruzeiro,2023,"domingo,",3 de dezembro,Não disponível,Não disponível,Não informado,Nilton Santos,37ª rodada do Campeonato Brasileiro 2023,0 × 0,às 18:30


### FILTRANDO APENAS CAMPEONATO BRASILEIRO - AMOSTRA A SER TRABALHADA

In [47]:
# AJUSTANDO OS NOMES DOS CAMPEONATOS
camp_ajustado = []
for i in range(0,len(df)):
    if "Mineiro" in df['campeonato'][i]:
        camp_ajustado.append('Campeonato Mineiro')
    elif "Libertadores" in df['campeonato'][i]:
        camp_ajustado.append('Libertadores')
    elif "Amistoso" in df['campeonato'][i]:
        camp_ajustado.append('Amistoso')
    elif "Copa do Brasil" in df['campeonato'][i]:
        camp_ajustado.append('Copa do Brasil')
    elif "Brasileiro" in df['campeonato'][i]:
        camp_ajustado.append('Brasileirão')
    elif "Primeira Liga" in df['campeonato'][i]:
        camp_ajustado.append('Primeira Liga')
    elif "Sul-Americana" in df['campeonato'][i]:
        camp_ajustado.append('Sul-Americana')
    elif "Inconfidência" in df['campeonato'][i]:
        camp_ajustado.append('Inconfidência')
    elif "2ª rodada - 1ª fase da Copa Sul-Minas-Rio 2016" in df['campeonato'][i]:
        camp_ajustado.append('Copa Sul-Minas-Rio')
    else:
        camp_ajustado.append('nao')

df['camp_ajustado'] = camp_ajustado

In [None]:
# CONFERINDO OS NOMES DOS CAMPEONATOS - HÁ ERROS NOS AMISTOSOS
for i in df['camp_ajustado'].unique():
    display(df[df['camp_ajustado'] == i])

In [49]:
# AJUSTANDO MANUALMENTE OS ERROS NOS AMISTOSOS
df.loc[159, 'camp_ajustado'] = 'Copa-Sul-Minas-Rio'
df.loc[161, 'camp_ajustado'] = 'Copa-Sul-Minas-Rio'

In [50]:
# FILTRANDO APENAS BRASILEIRAO
df = df[df['camp_ajustado'] == "Brasileirão"].reset_index(drop='index')

### DATA WRANGLING

In [51]:
# RETIRADA DA VÍRGULA NO FINAL DO DIA DA SEMANA
df['dia da semana'] = df['dia da semana'].str[:-1]

# SEPARAÇÃO DA COLUNA DATA EM DIA E MÊS
df[['dia do mes', 'mes']] = df['data'].str.split(' de ', expand= True)

# RETIRADA DO R$ NO RENDA BRUTA
df['renda bruta'] = df['renda bruta'].str.slice(start=2)

#RETIRADA DOS PARÊNTESES COM AS INFOS DOS SÓCIOS DO PUB PAGANTE 
df[['publico pagante','erro1','erro2']] = df['publico pagante'].str.split(' ',expand=True)

# AJUSTE DA COLUNA DE HORÁRIO - RETIRADA DA STRING ÀS E DOS :/;
df['horario'] = df['horario'].str.slice(start=3)
df['horario'] = df['horario'].str.replace(';',':')
df['horario'] = df['horario'].str.replace(':','')

#RETIRANDO AS COLUNAS CRIADAS APENAS PARA RETIRADA DOS SÓCIOS
df.drop(columns=['erro1','erro2'],inplace=True)

# CONSERTANDO OS SEPARADORES NÚMERICOS (, E .) DAS COLUNAS NUMÉRICAS
for i in range(0,len(df)):
    df['renda bruta'][i] = df['renda bruta'][i].replace('.','')
    df['renda bruta'][i] = df['renda bruta'][i].replace(',','.')
    df['publico presente'][i] = df['publico presente'][i].replace('.','')
    df['publico pagante'][i] = df['publico pagante'][i].replace('.','')

# AJUSTANDO A COLUNA DE PLACAR E CRIANDO UMA NOVA PARA ANLALISAR VITÓRIA
df[['golsMandante','golsVisitante']] = df['placar'].str.split(' × ',expand=True)
df['pontosAlcancados'] = None
for i in range(0,len(df)):
    if df['golsMandante'][i] == df['golsVisitante'][i]:
        df['pontosAlcancados'][i] = 1

    elif df['golsMandante'][i] > df['golsVisitante'][i] and df['visitante'][i] == 'Cruzeiro':
        df['pontosAlcancados'][i] = 0

    elif df['golsMandante'][i] > df['golsVisitante'][i] and df['visitante'][i] != 'Cruzeiro':
        df['pontosAlcancados'][i] = 3

    elif df['golsMandante'][i] < df['golsVisitante'][i] and df['visitante'][i] == 'Cruzeiro':
        df['pontosAlcancados'][i] = 3

    elif df['golsMandante'][i] < df['golsVisitante'][i] and df['visitante'][i] != 'Cruzeiro':
        df['pontosAlcancados'][i] = 0

# CRIANDO UMA NOVA COLUNA COM O RESULTADO DO JOGO
df['resultado'] = None
for i in range(0,len(df)):
    if df['pontosAlcancados'][i] == 0:
        df['resultado'][i] = "Derrota"
    elif df['pontosAlcancados'][i] == 1:
        df['resultado'][i] = "Empate"
    elif df['pontosAlcancados'][i] == 3:
        df['resultado'][i] = "Vitoria"
    else:
        df['resultado'][i] = "Erro"

# CRIANDO NOVA COLUNA DE APROVEITAMENTO

df['aproveitamento_geral_previo'] = None

indice_primeiro_jogo_do_ano = 0
ano_em_questao = None

for i,v in enumerate(range(0,len(df))):
    if i == 0:
        df['aproveitamento_geral_previo'][i] = 0
        ano_em_questao = df['ano'][i]  

    elif df['ano'][i] != df['ano'][i-1]:
        df['aproveitamento_geral_previo'][i] = 0
        indice_primeiro_jogo_do_ano = i
        ano_em_questao = df['ano'][i]

    else:
        df['aproveitamento_geral_previo'][i] = df[(df.index < i)&(df['ano'] == ano_em_questao)]['pontosAlcancados'].sum()/((i-indice_primeiro_jogo_do_ano)*3)

# CRIANDO COLUNA DE JOGOS DE INVENCIBILIDADE

df['sequencia_invencibilidade_previa'] = None
seq_teste = 0
for i,v in enumerate(range(0,len(df))):
    if i == 0:
        df['sequencia_invencibilidade_previa'][i] = 0
    elif df['ano'][i] != df['ano'][i-1]:
        df['sequencia_invencibilidade_previa'][i] = 0
    elif df['resultado'][i-1] == 'Vitoria':
        seq_teste += 1
        df['sequencia_invencibilidade_previa'][i] = seq_teste
    elif df['resultado'][i-1] == 'Empate':
        seq_teste += 1
        df['sequencia_invencibilidade_previa'][i] = seq_teste
    else:
        seq_teste = 0
        df['sequencia_invencibilidade_previa'][i] = 0

# CRINDO UMA VARIÁVEL DUMMY INDICANDO SE TRATA DO PRIMEIRO JOGO DA TEMPORADA
df['estreia'] = None
for i,v in enumerate(range(0,len(df))):
    if i == 0:
        df['estreia'][i] = 1
    elif df['ano'][i] != df['ano'][i-1]:
        df['estreia'][i] = 1
    else:
        df['estreia'][i] = 0

# CRINDO UMA VARIÁVEL DUMMY INDICANDO SE É CLASSICO
df['classico'] = None
for i,v in enumerate(range(0,len(df))):
    if df['visitante'][i] == "Atlético-MG":
        df['classico'][i] = 1
    else:
        df['classico'][i] = 0

### DATA CLEANING

In [52]:
# CONFERINDO LINHAS DUPLICADAS
df.duplicated().sum()

0

In [53]:
# CONFERINDO LINHAS NULAS
df.isnull().sum()

visitante                           0
ano                                 0
dia da semana                       0
data                                0
publico presente                    0
publico pagante                     0
renda bruta                         0
estadio                             0
campeonato                          0
placar                              0
horario                             0
camp_ajustado                       0
dia do mes                          0
mes                                 0
golsMandante                        0
golsVisitante                       0
pontosAlcancados                    0
resultado                           0
aproveitamento_geral_previo         0
sequencia_invencibilidade_previa    0
estreia                             0
classico                            0
dtype: int64

In [54]:
# CONFERINDO FORMATOS DE ESCRITA DISTINTOS NA COLUNA DE HORARIO
df['horario'].unique()

array(['1600', '1830', '2100', '1930', '2200', '1800', '2030', '2150',
       '1700', '1900', '1620', '15h', '1100', '2145', '2000', '1630',
       '1915', '2130', '2015', '1815', '190', '19h', '16h'], dtype=object)

In [55]:
# FORMATANDO CADA UM DOS REGISTROS INCOERENTES
for i,v in enumerate(df['horario']):
    if v == '190' or v == '19h':
        df['horario'][i] = '1900'
    if v == '16h':
        df['horario'][i] = '1600'
    if v == '15h':
        df['horario'][i] = '1500'
    else:
        continue

In [56]:
# NOVOS VALORES DE HORARIOS
df['horario'].unique()

array(['1600', '1830', '2100', '1930', '2200', '1800', '2030', '2150',
       '1700', '1900', '1620', '1500', '1100', '2145', '2000', '1630',
       '1915', '2130', '2015', '1815'], dtype=object)

In [57]:
# COLOCANDO O NOME ANTIGO E O NOVO NOME DA ARENA JACARÉ DA MESMA FORMA. TRATAM-SE DO MESMO ESTÁDIO

df['estadio'] = df['estadio'].replace('Arena Buser','Arena do Jacaré')

EXPLICAÇÃO DO REMOÇÃO DE ALGUMAS COLUNAS 

>>PUBLICO PRESENTE -> dados muito poluídos, com alguns registros de "não disponível".  
>>CAMPEONATO e CAMP_AJUSTADO -> como trata-se apenas de brasileirão não faz sentido mantê-las  
>>PLACAR -> a coluna placar foi segregada entre as colunas de golsCruzeiro e golsAdversario  
>>DATA -> coluna foi desmembrada e não faz mais sentido mantê-la  
>>ANO -> usada apenas como regra para novas variáveis. Sem usabilidade e sem sentido  
>>golsMandante, golsVisitante, pontosAlcancados e resultados -> informações usadas apenas para criar regras de novas colunas criadas. São informações que não são conhecidas no momento da predição e por isso não servem como variáveis x  
>>RENDA BRUTA -> vazaria dados. 

In [58]:
# RETIRANDO COLUNAS NÃO UTILIZADAS

colunas_excluidas = ['publico presente','placar','data','campeonato','camp_ajustado','golsMandante','golsVisitante','pontosAlcancados','resultado','renda bruta']

df = df.drop(columns=colunas_excluidas)

### DATA PREPARATION

In [59]:
# MANTENDO APENAS OS REGISTROS DO CRUZEIRO COMO MANDANTE
df = df[df['visitante'] != "Cruzeiro"].reset_index(drop='index')

In [60]:
# ALTERANDO OS NOMES DOS MESES PARA NÚMEROS
meses_para_numeros ={
                     'janeiro': 1,
                     'fevereiro': 2,
                     'março': 3,
                     'abril': 4,
                     'maio': 5,
                     'junho': 6,
                     'julho': 7,
                     'agosto': 8,
                     'setembro': 9,
                     'outubro': 10,
                     'novembro': 11,
                     'dezembro': 12
                    }

df['mes'] = df['mes'].map(meses_para_numeros)

In [61]:
# CONFERINDO TIPO DE DADOS PARA MANUTENÇÃO
df.dtypes

visitante                           object
ano                                  int64
dia da semana                       object
publico pagante                     object
estadio                             object
horario                             object
dia do mes                          object
mes                                  int64
aproveitamento_geral_previo         object
sequencia_invencibilidade_previa    object
estreia                             object
classico                            object
dtype: object

In [62]:
# ALTERANDO O TIPO DE DADOS DE CADA COLUNA UMA A UMA PARA FACILITAR A IDENTIFICAÇÃO

df['visitante'] = df['visitante'].astype('category')                         
df['dia da semana'] = df['dia da semana'].astype('category')                                                  
df['publico pagante']= df['publico pagante'].astype('float')                               
df['estadio'] = df['estadio'].astype('category')                                                             
df['dia do mes'] = df['dia do mes'].astype(int)                   
df['mes'] = df['mes'].astype(int)
df['ano'] = df['ano'].astype(int)                                                           
df['aproveitamento_geral_previo'] = df['aproveitamento_geral_previo'].astype('float')               
df['sequencia_invencibilidade_previa'] = df['sequencia_invencibilidade_previa'].astype(int)    
df['estreia'] = df['estreia'].astype(int)
df['classico'] = df['classico'].astype(int)
df['horario'] = df['horario'].astype(int)

In [63]:
# NOVOS TIPOS DE DADOS
df.dtypes

visitante                           category
ano                                    int32
dia da semana                       category
publico pagante                      float64
estadio                             category
horario                                int32
dia do mes                             int32
mes                                    int32
aproveitamento_geral_previo          float64
sequencia_invencibilidade_previa       int32
estreia                                int32
classico                               int32
dtype: object

In [64]:
df.tail()

Unnamed: 0,visitante,ano,dia da semana,publico pagante,estadio,horario,dia do mes,mes,aproveitamento_geral_previo,sequencia_invencibilidade_previa,estreia,classico
241,Flamengo,2023,quinta-feira,32647.0,Mineirão,1900,19,10,0.397436,2,0,0
242,Bahia,2023,quarta-feira,33303.0,Mineirão,2000,25,10,0.404762,1,0,0
243,Internacional,2023,domingo,33350.0,Mineirão,1600,5,11,0.411111,0,0,0
244,Vasco,2023,quarta-feira,0.0,Mineirão,1900,22,11,0.40404,1,0,0
245,Athletico,2023,quinta-feira,33805.0,Mineirão,2000,30,11,0.419048,3,0,0


### MODELLING

#### TREINAMENTO INICIAL

In [65]:
# drop do jogo do vasco - será usado para predição futura por conta da restrição de público que houve no jogo
df.drop(244,inplace=True)

In [66]:
# RETIRADA DE ALGUMAS FEATURES QUE ESTAVAM PIORANDO A PERFORMANCE DO MODELO
df_predict = df.drop(['visitante','dia do mes','estreia'],axis=1)
df_final = pd.get_dummies(df_predict)

In [67]:
# SEPARAÇÃO DA VARIÁVEL TARGET E VARIÁVEIS PREDITORAS
y = df_final['publico pagante']
X = df_final.drop('publico pagante',axis=1)

In [68]:
# SPLIT DOS DADOS EM BASE DE TREINO E TESTE
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=0)

# TREINAMENTO DO MODELO XGBOOST
xgb = XGBRegressor(n_estimators = 400, max_depth=25, random_state=200).fit(X_train,y_train)

# PREDIÇÃO DO MODELO XGBOOST
yxgb = xgb.predict(X_test)

# MÉTRICAS DO MODELO XGBOOST
mae_xgb = mean_absolute_error(y_test,yxgb)
mse_xgb = mean_squared_error(y_test,yxgb)
rmse_xgb = np.sqrt(mse_xgb)
r2_xgb = r2_score(y_test,yxgb)
adj_r2_xgb = 1-(1-r2_xgb)*(len(df)-1)/(len(df)-len(df.columns)-1)

# TREINAMENTO DO MODELO RANDOM FOREST
rf = RandomForestRegressor(n_estimators= 600, max_depth=25, random_state=200).fit(X_train,y_train)

# PREDIÇÃO DO MODELO RANDOM FOREST
yrf = rf.predict(X_test)

# MÉTRICAS DO MODELO RANDOM FOREST
mae_rf = mean_absolute_error(y_test,yrf)
mse_rf = mean_squared_error(y_test,yrf)
rmse_rf = np.sqrt(mse_rf)
r2_rf = r2_score(y_test,yrf)
adj_r2_rf = 1-(1-r2_rf)*(len(df)-1)/(len(df)-len(df.columns)-1)

# PRINT DAS MÉTRICAS ALCANÇADAS POR CADA MODELO
print('--------MÉTRICAS XGBOOST--------')
print(f'mae: {mae_xgb}\nmse: {mse_xgb}\nrmse: {rmse_xgb}\nr2: {r2_xgb}\nr2 ajustado: {adj_r2_xgb}')
print('')
print('-----MÉTRICAS RANDOM FOREST-----')
print(f'mae: {mae_rf}\nmse: {mse_rf}\nrmse: {rmse_rf}\nr2: {r2_rf}\nr2 ajustado: {adj_r2_rf}')

--------MÉTRICAS XGBOOST--------
mae: 5075.545009969859
mse: 44370125.96846314
rmse: 6661.090448902727
r2: 0.7657342401502736
r2 ajustado: 0.7536170456752878

-----MÉTRICAS RANDOM FOREST-----
mae: 4857.999256756758
mse: 37460405.55667909
rmse: 6120.490630388964
r2: 0.8022162394073026
r2 ajustado: 0.7919860448938871


In [69]:
# TIRANDO A MÉDIA DAS PREDIÇÕES DE CADA UM DOS MODELOS PARA VER SE O RESULTADO MELHORA (TEOREMA DAS MULTIDÕES)
ymisto = (yrf + yxgb)/2

mae_misto = mean_absolute_error(y_test,ymisto)
mse_misto = mean_squared_error(y_test,ymisto)
rmse_misto = np.sqrt(mse_misto)
r2_misto = r2_score(y_test,ymisto)
adj_r2_misto = 1-(1-r2_misto)*(len(df)-1)/(len(df)-len(df.columns)-1)

print('-----MÉTRICAS MISTO-----')
print(f'mae: {mae_misto}\nmse: {mse_misto}\nrmse: {rmse_misto}\nr2: {r2_misto}\nr2 ajustado: {adj_r2_misto}')


-----MÉTRICAS MISTO-----
mae: 4543.182281167361
mse: 35359825.35364306
rmse: 5946.412813927659
r2: 0.8133069002212767
r2 ajustado: 0.8036503605775497


#### OTIMIZAÇÃO DOS MODELOS

> GRIDSEARCHCV - XGBOOST

In [70]:
# Definição dos parâmetros a serem testados

parameters = {
    'learning_rate': [0.01, 0.1, 0.2],
    'n_estimators': [100, 200, 300],
    'max_depth': [3, 4, 5],
    'min_child_weight': [1, 2, 3],
    'subsample': [0.8, 0.9, 1.0],
    'colsample_bytree': [0.8, 0.9, 1.0],
}

# Inicializando o modelo

xgb_model = XGBRegressor()

# Encontrando os melhores hiperparâmetros 

grid_search = GridSearchCV(estimator=xgb_model, param_grid=parameters, scoring='neg_mean_squared_error', cv=5)
grid_search.fit(X_train, y_train)

# Extraindo a melhor combinação de parâmetros encontrada

best_params = grid_search.best_params_
print("Melhores hiperparâmetros:", best_params)
print('')

# Treinando o modelo com os melhores hiperparâmetros

grid_xgb = XGBRegressor(**best_params)
grid_xgb.fit(X_train, y_train)

# Previsão do modelo otimizado

y_grid_xgb = grid_xgb.predict(X_test)

# Avaliando os resultados

mae_grid_xgb = mean_absolute_error(y_test,y_grid_xgb)
mse_grid_xgb = mean_squared_error(y_test,y_grid_xgb)
rmse_grid_xgb = np.sqrt(mse_grid_xgb)
r2_grid_xgb = r2_score(y_test,y_grid_xgb)
adj_r2_grid_xgb = 1-(1-r2_grid_xgb)*(len(df)-1)/(len(df)-len(df.columns)-1)

print('--------MÉTRICAS XGBOOST OTIMIZADO--------')
print(f'mae: {mae_grid_xgb}\nmse: {mse_grid_xgb}\nrmse: {rmse_grid_xgb}\nr2: {r2_grid_xgb}\nr2 ajustado: {adj_r2_grid_xgb}')

Melhores hiperparâmetros: {'colsample_bytree': 0.9, 'learning_rate': 0.1, 'max_depth': 4, 'min_child_weight': 1, 'n_estimators': 100, 'subsample': 0.8}

--------MÉTRICAS XGBOOST OTIMIZADO--------
mae: 4800.912086899216
mse: 39569140.7546507
rmse: 6290.400683156097
r2: 0.7910825217832913
r2 ajustado: 0.7802764453238064


>BAYESSEARCHCV - XGBOOST

In [71]:
# Inicializando o modelo e definindo os parâmetros a serem testados
opt_xgb = BayesSearchCV(
                    XGBRegressor(),
                    {
                    'learning_rate': [0.01, 0.1, 0.2],
                    'n_estimators': [100, 200, 300],
                    'max_depth': [3, 4, 5],
                    'min_child_weight': [1, 2, 3],
                    'subsample': [0.8, 0.9, 1.0],
                    'colsample_bytree': [0.8, 0.9, 1.0],
                    },
                    scoring='neg_mean_squared_error',
                    cv=5
                   )

opt_xgb.fit(X_train, y_train)

# Extraindo a melhor combinação de parâmetros encontrada
best_params_bayes_xgb = opt_xgb.best_params_

# Criação dos modelos com os melhores parâmetros encontrados
bayes_xgb = XGBRegressor(**best_params_bayes_xgb)

# Treinamento do modelo otimizado
bayes_xgb.fit(X_train, y_train)

# Previsões do modelo otimizado
y_bayes_xgb = bayes_xgb.predict(X_test)

# Avaliando os resultados

mae_bayes_xgb = mean_absolute_error(y_test,y_bayes_xgb)
mse_bayes_xgb = mean_squared_error(y_test,y_bayes_xgb)
rmse_bayes_xgb = np.sqrt(mse_bayes_xgb)
r2_bayes_xgb = r2_score(y_test,y_bayes_xgb)
adj_r2_bayes_xgb = 1-(1-r2_bayes_xgb)*(len(df)-1)/(len(df)-len(df.columns)-1)

print('--------MÉTRICAS XGBOOST OTIMIZADO--------')
print(f'mae: {mae_bayes_xgb}\nmse: {mse_bayes_xgb}\nrmse: {rmse_bayes_xgb}\nr2: {r2_bayes_xgb}\nr2 ajustado: {adj_r2_bayes_xgb}')

--------MÉTRICAS XGBOOST OTIMIZADO--------
mae: 5572.000537975415
mse: 49953435.37457645
rmse: 7067.774428671054
r2: 0.7362554367448262
r2 ajustado: 0.7226134765764551


> GRIDSEARCHCV - RANDOM FOREST

In [72]:
# Definição dos parâmetros a serem testados

parameters = {
    'n_estimators': [500,550,600,650,700],
    'max_depth': [20,25,30,35],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': ['auto', 'sqrt', 'log2'],
    'bootstrap': [True, False],
    'random_state':[200]
}

# Inicializando o modelo

rf_model = RandomForestRegressor()

# Encontrando os melhores hiperparâmetros 

grid_search_rf = GridSearchCV(estimator=rf_model, param_grid=parameters, scoring='neg_mean_squared_error', cv=5)
grid_search_rf.fit(X_train, y_train)

# Extraindo a melhor combinação de parâmetros encontrada

best_params_rf = grid_search_rf.best_params_
print("Melhores hiperparâmetros:", best_params_rf)
print('')

# Treinando o modelo com os melhores hiperparâmetros

grid_rf = RandomForestRegressor(**best_params_rf)
grid_rf.fit(X_train, y_train)

# Previsão do modelo otimizado

y_grid_rf = grid_rf.predict(X_test)

# Avaliando os resultados

mae_grid_rf = mean_absolute_error(y_test,y_grid_rf)
mse_grid_rf = mean_squared_error(y_test,y_grid_rf)
rmse_grid_rf = np.sqrt(mse_grid_rf)
r2_grid_rf = r2_score(y_test,y_grid_rf)
adj_r2_grid_rf = 1-(1-r2_grid_rf)*(len(df)-1)/(len(df)-len(df.columns)-1)

print('--------MÉTRICAS RANDOM FOREST OTIMIZADO--------')
print(f'mae: {mae_grid_rf}\nmse: {mse_grid_rf}\nrmse: {rmse_grid_rf}\nr2: {r2_grid_rf}\nr2 ajustado: {adj_r2_grid_rf}')

Melhores hiperparâmetros: {'bootstrap': False, 'max_depth': 25, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 550, 'random_state': 200}

--------MÉTRICAS RANDOM FOREST OTIMIZADO--------
mae: 4980.014643734644
mse: 38826134.061647356
rmse: 6231.062033204882
r2: 0.7950054546961609
r2 ajustado: 0.7844022885597555


> BAYESSEARCHCV - RANDOM FOREST

In [73]:
# Inicializando o modelo e definindo os parâmetros a serem testados
opt_rf = BayesSearchCV(
                    RandomForestRegressor(),
                    {
                     'n_estimators': [500,550,600,650,700],
                     'max_depth': [20,25,30,35],
                     'min_samples_split': [2, 5, 10],
                     'min_samples_leaf': [1, 2, 4],
                     'max_features': ['sqrt', 'log2'],
                     'bootstrap': [True, False],
                     'random_state':[200]
                    },
                    scoring='neg_mean_squared_error',
                    cv=5
                   )

opt_rf.fit(X_train, y_train)

# Extraindo a melhor combinação de parâmetros encontrada
best_params_bayes_rf = opt_rf.best_params_

# Criação dos modelos com os melhores parâmetros encontrados
bayes_rf = XGBRegressor(**best_params_bayes_rf)

# Treinamento do modelo otimizado
bayes_rf.fit(X_train, y_train)

# Faça previsões no conjunto de teste
y_bayes_rf = bayes_rf.predict(X_test)

# Avaliando os resultados

mae_bayes_rf = mean_absolute_error(y_test,y_bayes_rf)
mse_bayes_rf = mean_squared_error(y_test,y_bayes_rf)
rmse_bayes_rf = np.sqrt(mse_bayes_rf)
r2_bayes_rf = r2_score(y_test,y_bayes_rf)
adj_r2_bayes_rf = 1-(1-r2_bayes_rf)*(len(df)-1)/(len(df)-len(df.columns)-1)

print('--------MÉTRICAS RANDOM FOREST OTIMIZADO--------')
print(f'mae: {mae_bayes_rf}\nmse: {mse_bayes_rf}\nrmse: {rmse_bayes_rf}\nr2: {r2_bayes_rf}\nr2 ajustado: {adj_r2_bayes_rf}')

--------MÉTRICAS RANDOM FOREST OTIMIZADO--------
mae: 5075.5397716446505
mse: 44370049.305884816
rmse: 6661.08469439361
r2: 0.7657346449139918
r2 ajustado: 0.7536174713750603


In [74]:
# TIRANDO A MÉDIA DAS PREDIÇÕES DE CADA UM DOS MODELOS PARA VER SE O RESULTADO MELHORA
ymisto2 = (yrf + y_grid_xgb)/2

mae_misto2 = mean_absolute_error(y_test,ymisto2)
mse_misto2 = mean_squared_error(y_test,ymisto2)
rmse_misto2 = np.sqrt(mse_misto2)
r2_misto2 = r2_score(y_test,ymisto2)
adj_r2_misto2 = 1-(1-r2_misto2)*(len(df)-1)/(len(df)-len(df.columns)-1)

print('-----MÉTRICAS MISTO-----')
print(f'mae: {mae_misto2}\nmse: {mse_misto2}\nrmse: {rmse_misto2}\nr2: {r2_misto2}\nr2 ajustado: {adj_r2_misto2}')



-----MÉTRICAS MISTO-----
mae: 4726.665250154786
mse: 36144667.12717195
rmse: 6012.04350675974
r2: 0.8091630861025556
r2 ajustado: 0.7992922112457912


>> Mesmo com a otimização feita utilizando o GridSearch e o a busca Bayesiana, os resultados encontrados antes da tentativa de otimização foram melhores. Dessa forma, foi decidido manter o modelo da forma inicial.

### TESTE FINAL

#### PREDIÇÃO JOGO DO VASCO - DIA 22/11

O jogo do Cruzeiro x Vasco, do dia 22/11, não contou com a presença de torcedores no estádio por conta de uma punição sofrida pelo Cruzeiro (punição decorrente da invasão de torcedores cruzeirenses no jogo da 34ª rodada do Campeonato Brasileiro contra o Coritiba, na Vila Capanema).
Por conta disso, foi decidido fazer a previsão com o modelo criado da possível quantidade de público nesse jogo caso a punição não existisse.

In [95]:
# PREDIÇÃO DE PÚBLICO DO JOGO CRUZEIRO X VASCO

# DEFININDO OS ATRIBUTOS
vasco = np.array([2023,1900,11,0.491120,1,0,False,True,False,False,False,False,False,False,False,False,False,False,False,True,False])

# REDIMENSIONANDO A ARRAY PARA FICAR NO FORMATO IDEAL DE ENTRADA NO MODELO
vasco = vasco.reshape(1,-1)

# PREDIÇÃO DOS DOIS MODELOS 
yvasco_xgb = xgb.predict(vasco)
yvasco_rf = rf.predict(vasco)

# MÉDIA DA AVALIAÇÃO DOS DOIS MODELOS PARA ENCONTRAR O RESULTADO FINAL
publico_possivel = (yvasco_xgb + yvasco_rf)/2

print(f"A previsão de público para o jogo entre Cruzeiro e Vasco foi de {publico_possivel[0]:.0f} torcedores.")

A previsão de público para o jogo entre Cruzeiro e Vasco foi de 34337 torcedores.
