In [1]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import poisson
import itertools


In [2]:
filepath = ('datasets/campeonato-brasileiro.csv')

In [3]:
df = pd.read_csv(filepath)

In [4]:
df.head()

Unnamed: 0,ID,rodata,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado
0,1,1,29/03/2003,16:00,Guarani,Vasco,,,,,Guarani,Brinco de Ouro,4,2,SP,RJ
1,2,1,29/03/2003,16:00,Athletico-PR,Gremio,,,,,Athletico-PR,Arena da Baixada,2,0,PR,RS
2,3,1,30/03/2003,16:00,Flamengo,Coritiba,,,,,-,Maracanã,1,1,RJ,PR
3,4,1,30/03/2003,16:00,Goias,Paysandu,,,,,-,Serra Dourada,2,2,GO,PA
4,5,1,30/03/2003,16:00,Internacional,Ponte Preta,,,,,-,Beira Rio,1,1,RS,SP


In [5]:
df.dtypes

ID                     int64
rodata                 int64
data                  object
hora                  object
mandante              object
visitante             object
formacao_mandante     object
formacao_visitante    object
tecnico_mandante      object
tecnico_visitante     object
vencedor              object
arena                 object
mandante_Placar        int64
visitante_Placar       int64
mandante_Estado       object
visitante_Estado      object
dtype: object

**Limpando colunas que não serão utilizadas**

In [6]:
df.drop(['ID','rodata','data','hora','formacao_mandante','formacao_visitante', 'tecnico_mandante', 'tecnico_visitante','mandante_Estado','visitante_Estado','arena'], axis = 1, inplace=True)


In [7]:
df.isnull().sum()

mandante            0
visitante           0
vencedor            0
mandante_Placar     0
visitante_Placar    0
dtype: int64

In [8]:
df.head()

Unnamed: 0,mandante,visitante,vencedor,mandante_Placar,visitante_Placar
0,Guarani,Vasco,Guarani,4,2
1,Athletico-PR,Gremio,Athletico-PR,2,0
2,Flamengo,Coritiba,-,1,1
3,Goias,Paysandu,-,2,2
4,Internacional,Ponte Preta,-,1,1


**Treinando modelos**

In [9]:
df_mandante = df[['mandante','mandante_Placar','visitante_Placar']]
df_visitante = df[['visitante','mandante_Placar','visitante_Placar']]

In [10]:
df_mandante.head()

Unnamed: 0,mandante,mandante_Placar,visitante_Placar
0,Guarani,4,2
1,Athletico-PR,2,0
2,Flamengo,1,1
3,Goias,2,2
4,Internacional,1,1


In [11]:
df_mandante = df_mandante.rename(columns={'mandante': 'Time','mandante_Placar': 'GolsFeitos','visitante_Placar': 'GolsTomados'})
df_visitante = df_visitante.rename(columns={'visitante': 'Time','mandante_Placar': 'GolsTomados','visitante_Placar': 'GolsFeitos'})

df_visitante.head()

Unnamed: 0,Time,GolsTomados,GolsFeitos
0,Vasco,4,2
1,Gremio,2,0
2,Coritiba,1,1
3,Paysandu,2,2
4,Ponte Preta,1,1


In [12]:
df_mandante.head()

Unnamed: 0,Time,GolsFeitos,GolsTomados
0,Guarani,4,2
1,Athletico-PR,2,0
2,Flamengo,1,1
3,Goias,2,2
4,Internacional,1,1


In [13]:
times = [
"Botafogo",
"Bragantino",
"Grêmio",
"Palmeiras",
"Flamengo",
"Fortaleza",
"Fluminense",
"Athletico-PR",
"Atlético-MG",
"São Paulo",
"Cuiabá",
"Internacional",
"Corinthians",
"Santos",
"Cruzeiro",
"Bahia",
"Vasco",
"Goiás",
"Coritiba",
"América-MG"
]



In [14]:
for i in times:
    df_forca_time = pd.concat([df_mandante, df_visitante], ignore_index=True).groupby('Time').mean()

In [15]:
df_forca_time = pd.concat([df_mandante, df_visitante], ignore_index=True).groupby('Time').mean()

In [16]:
df_forca_time

Unnamed: 0_level_0,GolsFeitos,GolsTomados
Time,Unnamed: 1_level_1,Unnamed: 2_level_1
America-MG,0.995614,1.45614
America-RN,0.631579,2.105263
Athletico-PR,1.323077,1.237179
Atletico-GO,1.082707,1.364662
Atletico-MG,1.451861,1.255456
Avai,1.030075,1.56015
Bahia,1.126761,1.326291
Barueri,1.552632,1.368421
Botafogo-RJ,1.258621,1.265805
Bragantino,1.335526,1.184211


In [17]:
def predict_points(mandante, visitante):
    if mandante in df_forca_time.index and visitante in df_forca_time.index:
        lamb_mandante = df_forca_time.at[mandante,'GolsFeitos'] * df_forca_time.at[visitante,'GolsTomados'] 
        lamb_visitante = df_forca_time.at[visitante,'GolsFeitos'] * df_forca_time.at[mandante,'GolsTomados']
        prob_mandante, prob_visitante, prob_empate = 0, 0, 0
        for x in range(0,11):
            for y in range(0, 11):
                p = poisson.pmf(x, lamb_mandante) * poisson.pmf(y, lamb_visitante)
                if x == y:
                    prob_empate += p
                elif x > y:
                    prob_mandante += p
                else:
                    prob_visitante += p

        pontos_mandante = 3 * prob_mandante + prob_empate
        pontos_visitante = 3 * prob_visitante + prob_empate
        return (pontos_mandante, pontos_visitante)
    
    else:
        return (0, 0)

**Previsão Campeonato 2023**

In [18]:
teams_to_include = [
    "Botafogo", "Bragantino", "Grêmio", "Palmeiras", "Flamengo",
    "Fortaleza", "Fluminense", "Athletico-PR", "Atlético-MG",
    "São Paulo", "Cuiabá", "Internacional", "Corinthians",
    "Santos", "Cruzeiro", "Bahia", "Vasco", "Goiás", "Coritiba", "América-MG"
]

team_points = {team: 0 for team in teams_to_include}

for home_team, away_team in itertools.permutations(teams_to_include, 2):
    home_points, away_points = predict_points(home_team, away_team)
    
    if home_points > away_points:
        team_points[home_team] += 3  # Home team wins
    elif home_points == away_points:
        team_points[home_team] += 1  # Match ends in a draw
        team_points[away_team] += 1
    else:
        team_points[away_team] += 3  # Away team wins

final_table = pd.DataFrame(list(team_points.items()), columns=['Team', 'Points'])

final_table = final_table.sort_values(by='Points', ascending=False)

final_table.reset_index(drop=True, inplace=True)

print(final_table)


             Team  Points
0       Palmeiras      86
1   Internacional      80
2        Flamengo      74
3     Corinthians      68
4          Santos      62
5        Cruzeiro      56
6      Bragantino      50
7    Athletico-PR      44
8        Botafogo      38
9           Goiás      38
10         Cuiabá      38
11      São Paulo      38
12    Atlético-MG      38
13     Fluminense      38
14         Grêmio      38
15     América-MG      38
16          Vasco      32
17      Fortaleza      26
18       Coritiba      20
19          Bahia      14
