In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from scipy import stats

import warnings
from pandas.errors import SettingWithCopyWarning
warnings.simplefilter(action="ignore", category=SettingWithCopyWarning)
warnings.simplefilter(action='ignore', category=FutureWarning)

$X= ``Número\ de\ gols\ do\ time\ de\ casa" \sim Poisson(\lambda_x)\\$
$Y= ``Número\ de\ gols\ do\ time\ visitante" \sim Poisson(\lambda_x)$

$$P(X=x)=\frac{\lambda^{x}_{x}e^{-\lambda_x}}{x!}\qquad P(Y=y)=\frac{\lambda^{y}_{y}e^{-\lambda_y}}{y!}\\$$

$$P(X=x, Y=y)=P(X=x)P(Y=y)=\frac{\lambda_{x}^{x}\lambda_{y}^{y}e^{-(\lambda_x+\lambda_y)}}{x!y!}$$

In [2]:
tabela = pd.read_excel('dados/tabela/tabela-rodada_26.xlsx')
tabela_casa = pd.read_excel('dados/tabela/tabela_casa-rodada_27.xlsx')
historico_casa = pd.read_excel('dados/historico/historicocasa-rodada_26.xlsx')
historico = pd.read_excel('dados/historico/historico-rodada_26.xlsx')
rodadas = pd.read_excel('dados/previsoes/todas_rodadas.xlsx')
rodadas_futuras = pd.read_excel('dados/previsoes/rodadas_futuras-rodada-27.xlsx')

rodada_atual = tabela['MP'].max()

In [3]:
def gerar_lambda(par_x, par_y, peso_x, peso_y, fator_casa, rodada):
  df = rodadas_futuras[rodadas_futuras['Wk'] == rodada]
  dem_x = (sum(peso_x[0])+sum(peso_x[1]))
  dem_y = (sum(peso_y[0])+sum(peso_y[1]))

  for time_casa, time_fora in zip(df['Home'], df['Away']):
    # Time alvo == Casa
    att_x = sum(tabela.loc[tabela['Squad'] == time_casa, par_x[0][i]]*peso_x[0][i] for i in range(len(par_x[0])))/dem_x
    def_y = sum(tabela.loc[tabela['Squad'] == time_casa, par_x[1][i]]*peso_x[1][i] for i in range(len(par_x[1])))/dem_x
    casa_x = ((1/int(tabela_casa.loc[tabela_casa['Squad'] == time_casa, fator_casa[0]]))*0.5)+1
    lambda_x = att_x*def_y*casa_x
    # Time alvo == Casa
    att_y = sum(tabela.loc[tabela['Squad'] == time_casa, par_y[0][i]]*peso_y[0][i] for i in range(len(par_y[0])))/dem_y
    def_x = sum(tabela.loc[tabela['Squad'] == time_casa, par_y[1][i]]*peso_y[1][i] for i in range(len(par_y[1])))/dem_y
    lambda_y = att_y*def_x
    
    df.loc[df['Home'] == time_casa, 'lambda_x'] = float(lambda_x)
    df.loc[df['Away'] == time_fora, 'lambda_y'] = float(lambda_y)

  return df

In [4]:
def prob_vitoria(rodada_df, rodada, lambdas):
  rodada_df = rodada_df.loc[rodada_df['Wk'] == rodada]
  prob_gol = {}
  times_casa = []
  times_fora = []
  
  # Times casa
  for time in rodada_df['Home']:
    prob_gol[time] = []
    times_casa.append(time)
    for k in range(0, 11):
      prob_gol[time].append(stats.poisson.pmf(k, lambdas.loc[lambdas['Home'] == time, 'lambda_x']))
  
  # Times Fora
  for time in rodada_df['Away']:
    prob_gol[time] = []
    times_fora.append(time)
    for k in range(0, 11):
      prob_gol[time].append(stats.poisson.pmf(k, lambdas.loc[lambdas['Away'] == time, 'lambda_y']))

  casa_vitoria = {}
  fora_vitoria = {}

  for time_casa, time_fora in zip(times_casa, times_fora): 
    casa_vitoria[time_casa] = []
    fora_vitoria[time_fora] = []
    for i in range(1, 11):
      casa_vitoria[time_casa].append(prob_gol[time_casa][i] * sum(prob_gol[time_fora][:i]))
      fora_vitoria[time_fora].append(prob_gol[time_fora][i] * sum(prob_gol[time_casa][:i]))
    casa_vitoria[time_casa] = sum(casa_vitoria[time_casa])
    fora_vitoria[time_fora] = sum(fora_vitoria[time_fora])
    rodada_df.loc[rodada_df['Home'] == time_casa, 'vitoria_casa'] = casa_vitoria[time_casa]
    rodada_df.loc[rodada_df['Away'] == time_fora, 'vitoria_fora'] = fora_vitoria[time_fora]
    rodada_df.loc[rodada_df['Away'] == time_fora, 'empate'] = 1- (rodada_df.loc[rodada_df['Home'] == time_casa, 'vitoria_casa'] + rodada_df.loc[rodada_df['Away'] == time_fora, 'vitoria_fora'])
    

  return rodada_df, prob_gol

In [5]:
def prob_gols(rodadas_prob, prob_gol):
  rodadas_probgols = pd.DataFrame.from_dict(prob_gol, orient='index').astype(float)

  df_casa = pd.DataFrame()
  for time in rodadas_prob['Home']:
    linha_casa = pd.DataFrame(rodadas_probgols.loc[time,]).T
    linha_casa['Home'] = time
    df_casa = pd.concat([df_casa, linha_casa])

  df_fora = pd.DataFrame()
  for time in rodadas_prob['Away']:
    linha_fora = pd.DataFrame(rodadas_probgols.loc[time,]).T
    linha_fora['Away'] = time
    df_fora = pd.concat([df_fora, linha_fora])


  df_qsefinal = pd.merge(rodadas_prob, df_casa, on='Home')
  df_qsefinal = pd.merge(df_qsefinal, df_fora, on='Away')
  df_final = pd.merge(rodadas_futuras, df_qsefinal, on= ['Wk', 'Day', 'Date', 'Home', 'xGCasa', 'gols_casa', 'gols_fora', 'xGFora', 'Away'], how='left')


  return df_final, df_qsefinal

In [6]:
par_x = [['xG_total', 'xG_casa', 'GF_total', 'GF_casa', 'xG_5total', 'xG_5casa', 'GF_5total', 'GF_5casa'], #Ataque casa
        ['GA_total', 'GA_fora', 'xG_total', 'xG_fora', 'xG_5total', 'xG_5fora', 'GA_5total', 'GA_5fora', 'xG_5sofrido_fora', 'xG_sofrido_fora']]  #Defesa fora
pes_x = [[1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]


par_y = [['xG_total', 'xG_fora', 'GF_total', 'GF_fora', 'xG_5total', 'xG_5fora', 'GF_5total', 'GF_5fora'], #Ataque fora
        ['GA_total', 'GA_casa', 'xG_total', 'xG_casa', 'xG_5total', 'xG_5casa', 'GA_5total', 'GA_5casa', 'xG_sofrido_casa', 'xG_5sofrido_casa']]  #Defesa casa
pes_y = [[1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]

fator_casa = ['Rk_casa']

In [7]:
lambdas = gerar_lambda(par_x, par_y, pes_x, pes_y, fator_casa, rodada_atual+1)

In [8]:
rodadas_prob, prob_gol = prob_vitoria(rodadas_futuras, rodada_atual+1, lambdas)

In [9]:
lambdas

Unnamed: 0,Wk,Day,Date,Home,xGCasa,gols_casa,gols_fora,xGFora,Away,lambda_x,lambda_y
0,27,Wed,2023-10-18,Gremio,,,,,Ath Paranaense,1.059452,0.637434
1,27,Wed,2023-10-18,Coritiba,,,,,Cuiaba,1.015026,0.848643
2,27,Wed,2023-10-18,America (MG),,,,,Botafogo (RJ),0.920331,0.847501
3,27,Thu,2023-10-19,Cruzeiro,,,,,Flamengo,0.424592,0.458218
4,27,Thu,2023-10-19,Palmeiras,,,,,Atletico Mineiro,0.796778,0.658507
5,27,Thu,2023-10-19,Santos,,,,,Bragantino,0.957904,0.790626
6,27,Wed,2023-10-18,Bahia,,,,,Internacional,1.142628,1.123389
7,27,Wed,2023-10-18,Vasco da Gama,,,,,Fortaleza,1.177208,0.824198
8,27,Wed,2023-10-18,Goias,,,,,Sao Paulo,0.567782,0.504665
9,27,Thu,2023-10-19,Fluminense,,,,,Corinthians,1.101416,0.688658


In [10]:
rodadas_futuras_prob, rodada_futura_prob = prob_gols(rodadas_prob, prob_gol)

In [11]:
rodadas_prob

Unnamed: 0,Wk,Day,Date,Home,xGCasa,gols_casa,gols_fora,xGFora,Away,vitoria_casa,vitoria_fora,empate
0,27,Wed,2023-10-18,Gremio,,,,,Ath Paranaense,0.452175,0.218285,0.32954
1,27,Wed,2023-10-18,Coritiba,,,,,Cuiaba,0.384588,0.295026,0.320386
2,27,Wed,2023-10-18,America (MG),,,,,Botafogo (RJ),0.353955,0.313871,0.332174
3,27,Thu,2023-10-19,Cruzeiro,,,,,Flamengo,0.2392,0.262709,0.498091
4,27,Thu,2023-10-19,Palmeiras,,,,,Atletico Mineiro,0.354566,0.272647,0.372787
5,27,Thu,2023-10-19,Santos,,,,,Bragantino,0.379685,0.287328,0.332987
6,27,Wed,2023-10-18,Bahia,,,,,Internacional,0.361681,0.352117,0.286202
7,27,Wed,2023-10-18,Vasco da Gama,,,,,Fortaleza,0.440999,0.25728,0.301721
8,27,Wed,2023-10-18,Goias,,,,,Sao Paulo,0.297059,0.255475,0.447467
9,27,Thu,2023-10-19,Fluminense,,,,,Corinthians,0.452208,0.22808,0.319712


In [12]:
rodadas_futuras_prob.to_excel('dados/previsoes/todas_previsoes.xlsx')
rodada_futura_prob.to_excel(f'dados/previsoes/previsao_rodada-{rodada_atual+1}.xlsx')