In [64]:
import pandas as pd
from tqdm import tqdm
import pathlib
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor
from sklearn.model_selection import train_test_split
pd.set_option('display.max_columns', None)
warnings.filterwarnings("ignore")

In [65]:
df = pd.read_csv('../data/trusted/base_numerica_trusted.csv')
# df.head(5).to_csv('../data/exports/base_example.csv', index=False, encoding='utf-8')

### Função para avaliar o modelo

In [66]:
def avaliar_modelo(nome_modelo, y_teste, previsao):
    r2 = r2_score(y_teste, previsao)
    RSME = np.sqrt(mean_squared_error(y_teste, previsao))
    return f'Modelo {nome_modelo}:\nR²:{r2:.2%}\nRSME:{RSME:.2f}'

In [67]:
df.head(1)

Unnamed: 0,id_player_casa,gols_casa,id_time_casa,id_player_fora,gols_fora,id_time_fora,gols_total,id_resultado
0,603262,3,21,603265,3,6,6,0


#### Modelos
##### Escolha dos Modelos a Serem Testados para número de gols
- RandomForest
- LinearRegression
- Extra Tree

In [68]:
modelo_rf = RandomForestRegressor()
modelo_lr = LinearRegression()
modelo_et = ExtraTreesRegressor()

modelos = {'RandomForest': modelo_rf,
          'LinearRegression': modelo_lr,
          'ExtraTrees': modelo_et,
          }

y = df['gols_total'] # Alvo do modelo
x = df.drop(['gols_total', 'gols_casa', 'gols_fora'], axis=1) # Features sem dados pós jogo


#### Separação dos dados de treino e teste

In [69]:
x_treino, x_teste, y_train, y_test = train_test_split(x, y, random_state=10)

for nome_modelo, modelo in tqdm(modelos.items()):
    # Treinar
    print('Iniciando treino')
    print(f'Modelo: {nome_modelo}')
    modelo.fit(x_treino, y_train)

    # Testar
    print('Iniciando previsão')
    print(f'Modelo: {nome_modelo}')
    previsao = modelo.predict(x_teste)
    print(avaliar_modelo(nome_modelo, y_test, previsao))

  0%|          | 0/3 [00:00<?, ?it/s]

Iniciando treino
Modelo: RandomForest
Iniciando previsão
Modelo: RandomForest


 33%|███▎      | 1/3 [00:57<01:55, 57.69s/it]

Modelo RandomForest:
R²:60.88%
RSME:1.50
Iniciando treino
Modelo: LinearRegression


 67%|██████▋   | 2/3 [00:58<00:24, 24.21s/it]

Iniciando previsão
Modelo: LinearRegression
Modelo LinearRegression:
R²:2.33%
RSME:2.37
Iniciando treino
Modelo: ExtraTrees
Iniciando previsão
Modelo: ExtraTrees


100%|██████████| 3/3 [01:19<00:00, 26.65s/it]

Modelo ExtraTrees:
R²:67.94%
RSME:1.36



