# Análise Completa de Futebol - Kaggle

Este notebook combina toda a análise de dados de futebol, desde o processamento inicial dos dados até a aplicação de algoritmos de machine learning para predição de colocações.

## Estrutura:
1. **Análise e Processamento de Dados** - Limpeza e preparação dos datasets
2. **Preparação para Predição** - Organização dos dados para machine learning  
3. **Aplicação do KNN** - Modelo de predição usando K-Nearest Neighbors

---



---

# Parte 1: Análise e Processamento de Dados

---


Vamos Começar!

In [None]:
import pandas as pd
import numpy as np
import csv


In [None]:
df_appearances = pd.read_csv('archive/appearances.csv')
df_appearances.head(20)

In [None]:
df_club_games = pd.read_csv('archive/club_games.csv')
df_club_games.head(20)

In [None]:
df_clubs = pd.read_csv('archive/clubs.csv')
df_clubs.head(20)

In [None]:
df_competitions = pd.read_csv('archive/competitions.csv')
df_competitions.head(20)

In [None]:
#Vamos analsisar o dataframe club_games, que possui informações sobre os jogos
df_club_games.columns.tolist()

In [None]:
#Vamos transformar o hosting em números 
df_club_games['hosting'].unique()
df_club_games['hosting'].value_counts()

In [None]:
map_hosting = {
    'Home': 1,
    'Away': 0
}
df_club_games['hosting'] = df_club_games['hosting'].map(map_hosting)
df_club_games.head(20)

In [None]:
#Vamos retirar colunas que não são necessárias para a análise
remover_colunas = ['own_manager_name','opponent_manager_name']
df_club_games.drop(columns=remover_colunas, inplace=True)

In [None]:
#Como queremos trabalhar apenas com jogos de campeonatos e não copas, vamos remover todas as linhas que possuem a competição como Copa
#Usando dropna para remover linhas com valores nulos
df_club_games = df_club_games.dropna(subset=['own_position'])
df_club_games.head(10)


In [None]:
df_games = pd.read_csv('archive/games.csv')
df_games.head(10)

In [None]:
df_games.columns.tolist()

In [None]:
#Vamos retirar algumas colunas que não são necessárias para a análise
remover_colunas = ['referee','url','home_club_name','away_club_name','home_club_manager_name',
                   'away_club_manager_name','stadium']
df_games.drop(columns=remover_colunas, inplace=True)


In [None]:
#Vamos mostrar a tabela novamente
df_games.head(10)

In [None]:
df_games['competition_type'].unique()
#Vamos retirar as linhas que possuem a competição como Copa
df_games = df_games[df_games['competition_type'] == 'domestic_league']

In [None]:
df_games['competition_type'].unique()
#Agora que já normalizamos podemos retirar essa linha 
df_games = df_games.drop(columns=['competition_type'])

In [None]:
#Vamos analisar agora as formações dos dois times
df_games['home_club_formation'].unique()

In [None]:
mapeamento_formações = {
    np.nan: 0,
    '4-2-3-1': 1,
    '4-3-2-1': 2,
    '4-4-2 double 6': 3,
    '4-3-3 Defending': 4,
    '4-3-3 Attacking': 5,
    '4-5-1 flat': 6,
    '4-1-4-1': 7,
    '4-3-1-2': 8,
    '3-5-2 flat': 9,
    '4-4-2 Diamond': 10,
    '5-4-1': 11,
    '4-4-1-1': 12,
    '4-4-2': 13,
    '3-4-2-1': 14,
    '5-2-3': 15,
    '4-1-3-2': 16,
    '5-3-2': 17,
    '3-5-2': 18,
    '3-6-1': 19,
    '4-3-3': 20,
    '4-5-1': 21,
    '3-4-3': 22,
    '5-4-1 Diamond': 23,
    '2-5-3' : 24,
    '3-4-1-2': 25,
    '3-5-2 Attacking': 26,
    '3-1-4-2': 27,
    '3-4-3 Diamond': 28,
    '3-3-3-1': 29,
    '4-2-4': 30,
    '4-6-0': 31,
    '6-1-3': 32,
    '6-2-2': 33,
    '2-4-4': 34,
    '2-7-1' : 35,
    '3-3-4': 36
}

df_games['home_club_formation'] = df_games['home_club_formation'].map(mapeamento_formações)
df_games['away_club_formation'] = df_games['away_club_formation'].map(mapeamento_formações)

In [None]:
#Vamos retirar o texto matchday da coluna round 
df_games['round'].unique()
# Extrai apenas os números
df_games['round'] = df_games['round'].str.extract(r'(\d+)')

In [None]:
df_games['round'].unique()

In [None]:
df_games.head(10)

In [None]:
#Vendo o resultado das partidas
df_games['aggregate'].unique()

In [None]:

mapeamento_partidas = {
    # Empates
    '0:0': 0,
    '1:1': 1,
    '2:2': 2,
    '3:3': 3,
    '4:4': 4,
    '5:5': 5,

    # Vitórias/Derrotas (valores menores primeiro para padronização)
    '0:1': 6,  # e '1:0'
    '0:2': 7,  # e '2:0'
    '0:3': 8,  # e '3:0'
    '0:4': 9,  # e '4:0'
    '0:5': 10, # e '5:0'
    '0:6': 11, # e '6:0'
    '0:7': 12, # e '7:0'
    '0:8': 13, # e '8:0'
    '0:9': 14, # e '9:0'
    '0:13': 15, # e '13:0'
    '1:2': 16, # e '2:1'
    '1:3': 17, # e '3:1'
    '1:4': 18, # e '4:1'
    '1:5': 19, # e '5:1'
    '1:6': 20, # e '6:1'
    '1:7': 21, # e '7:1'
    '1:8': 22, # e '8:1'
    '2:3': 23, # e '3:2'
    '2:4': 24, # e '4:2'
    '2:5': 25, # e '5:2'
    '2:6': 26, # e '6:2'
    '2:7': 27, # e '7:2'
    '2:8': 28, # e '8:2'
    '3:4': 29, # e '4:3'
    '3:5': 30, # e '5:3'
    '3:6': 31, # e '6:3'
    '3:7': 32, # e '7:3'
    '4:5': 33, # e '5:4'
    '4:6': 34, # e '6:4'
    '9:1': 35, # e '1:9'
    '9:2': 36, # e '2:9'
    '10:0': 37, # e '0:10'
    '10:1': 38, # e '1:10'
    '10:2': 39, # e '2:10'
}

# Adicionando as chaves invertidas para garantir o mesmo mapeamento
mapeamento_partidas['1:0'] = mapeamento_partidas['0:1']
mapeamento_partidas['2:0'] = mapeamento_partidas['0:2']
mapeamento_partidas['3:0'] = mapeamento_partidas['0:3']
mapeamento_partidas['4:0'] = mapeamento_partidas['0:4']
mapeamento_partidas['5:0'] = mapeamento_partidas['0:5']
mapeamento_partidas['6:0'] = mapeamento_partidas['0:6']
mapeamento_partidas['7:0'] = mapeamento_partidas['0:7']
mapeamento_partidas['8:0'] = mapeamento_partidas['0:8']
mapeamento_partidas['9:0'] = mapeamento_partidas['0:9']
mapeamento_partidas['13:0'] = mapeamento_partidas['0:13']
mapeamento_partidas['2:1'] = mapeamento_partidas['1:2']
mapeamento_partidas['3:1'] = mapeamento_partidas['1:3']
mapeamento_partidas['4:1'] = mapeamento_partidas['1:4']
mapeamento_partidas['5:1'] = mapeamento_partidas['1:5']
mapeamento_partidas['6:1'] = mapeamento_partidas['1:6']
mapeamento_partidas['7:1'] = mapeamento_partidas['1:7']
mapeamento_partidas['8:1'] = mapeamento_partidas['1:8']
mapeamento_partidas['3:2'] = mapeamento_partidas['2:3']
mapeamento_partidas['4:2'] = mapeamento_partidas['2:4']
mapeamento_partidas['5:2'] = mapeamento_partidas['2:5']
mapeamento_partidas['6:2'] = mapeamento_partidas['2:6']
mapeamento_partidas['7:2'] = mapeamento_partidas['2:7']
mapeamento_partidas['8:2'] = mapeamento_partidas['2:8']
mapeamento_partidas['4:3'] = mapeamento_partidas['3:4']
mapeamento_partidas['5:3'] = mapeamento_partidas['3:5']
mapeamento_partidas['6:3'] = mapeamento_partidas['3:6']
mapeamento_partidas['7:3'] = mapeamento_partidas['3:7']
mapeamento_partidas['5:4'] = mapeamento_partidas['4:5']
mapeamento_partidas['6:4'] = mapeamento_partidas['4:6']
mapeamento_partidas['1:9'] = mapeamento_partidas['9:1']
mapeamento_partidas['2:9'] = mapeamento_partidas['9:2']
mapeamento_partidas['0:10'] = mapeamento_partidas['10:0']
mapeamento_partidas['1:10'] = mapeamento_partidas['10:1']
mapeamento_partidas['2:10'] = mapeamento_partidas['10:2']

df_games['aggregate'] = df_games['aggregate'].map(mapeamento_partidas)


In [None]:
df_games['aggregate'].unique()

In [None]:
#Vamos juntar os datframes df_club_games com df_games
df_unido = pd.merge(df_club_games, df_games, on='game_id', how='inner')
df_unido.head(10)

In [None]:
#Antes de fazer isso, vamos ver se as colunas já não estão duplicadas
df_unido.duplicated().sum()


In [None]:
#Agora vamos separar os times em casa e fora em colunas separadas
#Para isso, vamos ter que adaptar diversos passos da lógica. Exemplo disso é a vitória, que caso seja 1 significa que o time da casa ganhou e o time visitante perdeu. Além disso, vamos ter que duplicar as linhas e retirar todas as colunas que só tenham a ver com um deles
#Vamos duplicar o dataframe
df_casa = df_unido.copy()
df_vistante = df_unido.copy()



In [None]:
#Vamos rever todas as colunas que temos
df_casa.columns.tolist()

In [None]:
#Parâmetros exclusivos do time da casa 
#Refazeno a lógica. Vamos manter sim opponent goals, opponent position e away club goals, pois são importantes para a análise.
casa = ['club_id','home_club_id','home_club_goals','home_club_position']
#Parâmetros exclusivos do time visitante
visitante = ['opponent_id','away_club_id','away_club_goals','away_club_position']

#Vamos retirar os parametros casa do dataframe df_visitante
df_vistante.drop(columns=casa, inplace=True)

#Vamos retirar os parametros visitante do dataframe df_casa
df_casa.drop(columns=visitante, inplace=True)

In [None]:
#Verificando o df_casa
df_casa.head(10)

In [None]:
#Verificando o df vistante
df_vistante.head(10)

In [None]:
# Cria coluna baseada no aggregate
# Cria coluna baseada no aggregate - apenas empate ou vitória
df_casa['empate'] = np.where(
    df_casa['aggregate'] <= 5, 0,  # Empate = 0
    1                               # Vitória/Derrota = 1
)

df_casa.head(10)

In [None]:
#Agora vamos analisar 2 colunas. Se for empate, nada a olhar. Caso não seja, devemos verificar se a coluna is win é 1 ou 0: dessa forma, vamos finalmente determinar se empatou, ganhou ou perdeu

for i in range(len(df_casa)):
    if df_casa['empate'][i] == 0: #se for 0 empatou
        df_casa.loc[i, 'is_win'] = 2

#Agora podemos remover a coluna empate, pois não precisamos mais dela
df_casa.drop(columns=['empate'], inplace=True)

df_casa.head(10)

In [None]:
#Agora vamos fazer o mesmo para o time visitante
#No entanto, temos um detalhe crucial: Antes devemos inverter toda a coluna is_win, pois o time visitante é o inverso do time da casa
#Também temos que inverter a coluna hosting, pois o time visitante é o inverso do time da casa
for i in range(len(df_vistante)):
    if df_vistante['is_win'][i] == 0:
        df_vistante.loc[i, 'is_win'] = 1 
    elif df_vistante['is_win'][i] == 1:
        df_vistante.loc[i, 'is_win'] = 0
    if df_vistante['hosting'][i] == 1:
        df_vistante.loc[i, 'hosting'] = 0
    elif df_vistante['hosting'][i] == 0:
        df_vistante.loc[i, 'hosting'] = 1
    

df_vistante.head(10)


In [None]:
#Agora sim vamos criar o empate e duplicar o processo para o time visitante

# Cria coluna baseada no aggregate
# Cria coluna baseada no aggregate - apenas empate ou vitória
df_vistante['empate'] = np.where(
    df_vistante['aggregate'] <= 5, 0,  # Empate = 0
    1                               # Vitória/Derrota = 1
)

df_vistante.head(10)

#Agora vamos analisar 2 colunas. Se for empate, nada a olhar. Caso não seja, devemos verificar se a coluna is win é 1 ou 0: dessa forma, vamos finalmente determinar se empatou, ganhou ou perdeu

for i in range(len(df_vistante)):
    if df_vistante['empate'][i] == 0: #se for 0 empatou
        df_vistante.loc[i, 'is_win'] = 2

#Agora podemos remover a coluna empate, pois não precisamos mais dela
df_vistante.drop(columns=['empate'], inplace=True)

df_vistante.head(10)


In [None]:
df_vistante.columns.tolist()

In [None]:
df_casa.columns.tolist()

In [None]:
#Vamos agora renomear as colunas do df_vistante para que fiquem IGUAIS as do df_casa para depois podermos juntar os dois dataframes
df_visitante2 = df_vistante.rename(columns={
    'opponent_goals': 'own_goals',
    'opponent_position': 'own_position',
    'opponent_id': 'club_id',
    'away_club_id': 'home_club_id',
    'away_club_goals': 'home_club_goals',
    'away_club_formation': 'home_club_formation',
    'away_club_position': 'home_club_position',
    'home_club_formation': 'away_club_formation',
    'own_goals': 'opponent_goals',
    'own_position': 'opponent_position',
})

In [None]:
df_unido2 = pd.concat([df_casa, df_visitante2], ignore_index=True)
df_unido2.head(10)

In [None]:
# Mostra todas as linhas onde club_id ≠ home_club_id
linhas_diferentes = df_casa[df_casa['club_id'] != df_casa['home_club_id']]
linhas_diferentes.head(10)

In [None]:
#Isso significa que já tinha uma coluna invertida antes. Logo, vamos deletar essas linhas do df_unico2
df_unico2 = df_unido2[df_unido2['club_id'] == df_unido2['home_club_id']]
print(len(df_unico2))

In [None]:
# Pronto! Agora podemos trabalhar com as informações da liga e adcionar a esse dataframe
df_competitions.columns.tolist()

In [None]:
df_competitions.head(40)

In [None]:
df_competitions = df_competitions[['competition_id','country_id','confederation','is_major_national_league','competition_code']]
df_competitions.head(10)

In [None]:
df_competitions['confederation'].unique()

In [None]:
mapeamento_confederacao = {
    'europa': 1
}
df_competitions['confederation'] = df_competitions['confederation'].map(mapeamento_confederacao)

mapeamento_major_national_league = {
    True: 1,
    False: 0
}
df_competitions['is_major_national_league'] = df_competitions['is_major_national_league'].map(mapeamento_major_national_league)
df_competitions.head(10)

In [None]:
#Vamos remover as linhas que contém id igual a -1

df_competitions = df_competitions[df_competitions['country_id'] != -1]

In [None]:
df_competitions.head(40)


In [None]:
#Agora sim! Vamos unir df_unido2 com df_competitions
df_unido_final = pd.merge(df_unico2, df_competitions, on='competition_id', how='inner')
df_unido_final.head(10)

In [None]:
#Vamos pegar os 10 últimos para verificar se está tudo certo
df_unido_final.tail(10)

In [None]:
#Vamos transformar o competition id em int 
df_unido_final['competition_id'].unique()

In [None]:
# Mapeamento dos IDs das competições
competition_id_map = {
    'L1': 1,
    'RU1': 2,
    'BE1': 3,
    'FR1': 4,
    'GB1': 5,
    'SC1': 6,
    'UKR1': 7,
    'PO1': 8,
    'ES1': 9,
    'NL1': 10,
    'TR1': 11,
    'GR1': 12,
    'IT1': 13,
    'DK1': 14
}
df_unido_final['competition_id'] = df_unido_final['competition_id'].map(competition_id_map)


In [None]:
# Vamos retirar os valores nulos de attendance 
df_unido_final = df_unido_final.dropna(subset=['attendance'])

In [None]:
#Vamos retirar a coluna date, pois não precisamos mais dela
df_unido_final.drop(columns=['date'], inplace=True)

In [None]:
df_unido_final.head(10)

Agora vamos unir a informações dos clubes

In [None]:
df_clubs.columns.tolist()

In [None]:
df_clubs.head(10)

In [None]:
# Conta quantas vezes cada valor aparece
df_clubs['club_code'].value_counts()

In [None]:
#Vamos passar o nome do clube também para facilitar a análise
df_club_novo = df_clubs[['club_id', 'name']]
# Vamos unir o df_club_novo com o df_unido_final
df_unido_final = pd.merge(df_unido_final, df_club_novo, on='club_id', how='inner')
df_unido_final.head(10)

In [None]:
#Vamos baixar o dataframe final para um csv
df_unido_final.to_csv('df_unido_final3.csv', index=False)


---

# Parte 2: Preparação para Predição de Colocações

---



# Vamos Começar

Primeiro a ideia. Agora que normalizamos a base de dados, é mais fácil trabalhar com ela. A primeira ideia é simples. Vamos pegar as 10 primeiras rodadas do campeonato, construir uma tabela com essas informações e tentar prever as colocações na última rodada. 

In [None]:
import pandas as pd
import numpy as np


Primeiro, algumas modificações no dataset. Precisamos organizar por clubes e construir as colunas de acordo com as primeiras rodadas, além de guardar o resultado das últimas. Por isso vamos começar pelos campeonatos e número de rodadas (times)

In [None]:
# Importando o dataset
df = pd.read_csv('df_unido_final3.csv')
df.head(10)

Uma forma de fazer isso é separar alguns países e ver quantas rodadas tem em cada um dos 14 campeonatos

In [None]:
df_1 = df[df['competition_id'] == 1]
df_1.head(10)

In [None]:
#Agora vamos pegar apenas o campeonato de 2024 
df_2024_bundesliga = df_1[df_1['season'] == 2024]
df_2024_bundesliga.head(10)

In [None]:
#Vamos agora verificar até qual rodada o campeonato foi disputado
df_2024_bundesliga['round'].unique()

In [None]:
#Vamos analisar agora o competition id =2
df_2 = df[df['competition_id'] == 5]
df_2.head(10)

In [None]:
df_premier_league = df_2[df_2['season'] == 2022]
df_premier_league.head(10)

In [None]:
df_premier_league['round'].unique()

Na premier sempre vamos ter informações da primeira até a 38 rodada. Logo, vamos pegar 10 rodadas de 2024 e fazer o mesmo com todos os outros anos, colocando o histórico dos 10 primeiros jogos e como y_predic a colocação na 30 rodada. Caso o desempenho esteja muito fraco, podemos aumentar as rodadas depois.

In [None]:
df_premier_leagueround1 = df_premier_league[df_premier_league['round'] == 38]
df_premier_leagueround1.head(25)

In [None]:
# Vamos começar criando uma coluna com a última colocação do time, o que será o y_predic
#Primeiro, precisamos fazer isso para cada season
#Vamos criar um df só para a ultima rodada de cada season
df_premier_league_last_round = df_2[df_2['round'] == 38]
df_premier_league_last_round.head(10)




In [None]:
#Agora vamos adaptar esse df para ficar com apenas 3 colunas que depois vamos usar para fazer o merge
df_premier_league_last_round = df_premier_league_last_round[['club_id', 'season', 'own_position']]
#Vamnos renoemar a coluna 'own_position' para 'last_position'
df_premier_league_last_round = df_premier_league_last_round.rename(columns={
    'own_position': 'last_position'
})
#Agora vamos fazer o merge com o df_premier_league
df_2 = pd.merge(df_2, df_premier_league_last_round, on=['club_id', 'season'], how='left', suffixes=('', '_last_round'))


In [None]:
#Para testar, vamos pegar uma rodada aleatória e ver se a última posição está correta
df_2[df_2['round'] == 5].tail(5)

In [None]:
#Vamos ver quais estão com nan na última posição 
df_2[df_2['last_position'].isna()].head(10)

Como já era de se esperar, no ano de 2024 as informaçõesnão estão presentes (desatualisado). No entanto, o mesmo aconteceu em 2019. Vamos investigar se houve um erro ou se simplesmente faltaram dados.

In [None]:
teste = df[df['season'] == 2019]
teste = teste[teste['competition_id'] == 5]
teste['round'].unique()

In [None]:
teste = teste[teste['round'] == 38]
teste.head(10)

Como é possível ver, não existe dados para a última rodada de 2019. Vamos verificar se existe para a 37 em todas as outras.

In [None]:
teste = df[df['season'] == 2019]
teste = teste[teste['competition_id'] == 5]
teste['round'].unique()

Temos 3 anos desfalcados: 2019,2020 e 2024. 2020 possui a 38 rodada, mas não possui as anteriores. Primeiro, vamos adcionar as posições finais de 20224

In [None]:
#Vamos pegar os códigos dos clubes de 2024 com seus nomes para podermos inserir a posição manualmente
premier_2024 = df[df['season'] == 2024]
premier_2024 = premier_2024[premier_2024['competition_id'] == 5]
#Vamos pegar uma rodada aleatória para ver se os nomes estão corretos
premier_2024 = premier_2024[premier_2024['round'] == 5]
premier_2024 = premier_2024[['club_id', 'name']]
#Por fim, vamos mandar printar para ver se está tudo certo
premier_2024.head(20)

In [None]:
#Vamos usar um loc para adcionar a última posição de cada clube
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 1237), 'last_position'] = 8 #brighton
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 148), 'last_position'] = 17 #tottenham
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 1003), 'last_position'] = 18 #leicester
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 281), 'last_position'] = 3 #manchester city
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 405), 'last_position'] = 6 #aston villa
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 873), 'last_position'] = 12 #crystal palace
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 379), 'last_position'] = 14 #west ham
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 180), 'last_position'] = 20 #southampton
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 931), 'last_position'] = 11 #fulham
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 31), 'last_position'] = 1 #liverpool
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 703), 'last_position'] = 7 #nottingham
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 1148), 'last_position'] = 10 #brentford
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 29), 'last_position'] = 13 #everton
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 11), 'last_position'] = 2 #arsenal
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 543), 'last_position'] = 16 #wolverhampton
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 985), 'last_position'] = 15 #manchester united
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 631), 'last_position'] = 4 #chelsea
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 677), 'last_position'] = 19 #IPSWICH
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 762), 'last_position'] = 5 #newcastle
df_2.loc[(df_2['season'] == 2024) & (df_2['club_id'] == 989), 'last_position'] = 9 #bournemouth

Agora que já finalizamos esse processo, temos a estrutura pronta. Agora, vamos precisar limpar algumas informações duplicadas eorganizar para que cada time tenha apenas 1 única linha com as informações dos 10 primeiros jogos. No final, também colocaremos índices como quantidade final de vitórias, derrotas e empates, saldo de gols, gols pros e contras 

In [None]:
#Vamos começar listando todas as colunas que temos no df_2
df_2.columns.tolist()

In [None]:
# Vamos retirar as colunas que não são necessárias para a análise
colunas_para_retirar = [
    'competition_id', 'home_club_id', 'home_club_position', 'country_id', 'confederation', 'is_major_national_league',
 'competition_code']
df_2_reformulado = df_2.drop(columns=colunas_para_retirar)
df_2_reformulado.head(10)

In [None]:
# CÓDIGO CORRIGIDO COM TODAS AS VERIFICAÇÕES
print("Criando DataFrame final com verificações completas:")
print("="*60)

# Lista para armazenar os dados finais
dados_finais = []

# Iterar por cada season disponível
for season in sorted(df_2_reformulado['season'].unique()):
    df_season = df_2_reformulado[df_2_reformulado['season'] == season]
    
    print(f"\n🔍 Verificando Season {season}:")
    
    # VERIFICAÇÃO 1: Tem dados das 10 primeiras rodadas?
    rodadas_disponiveis = sorted(df_season['round'].unique())
    primeiras_10_rodadas = list(range(1, 11))
    
    rodadas_faltando = [r for r in primeiras_10_rodadas if r not in rodadas_disponiveis]
    if rodadas_faltando:
        print(f"  ❌ Faltam rodadas: {rodadas_faltando}. Pulando...")
        continue
    
    # VERIFICAÇÃO 2: Tem exatamente 20 times?
    times_na_season = df_season['club_id'].nunique()
    if times_na_season != 20:
        print(f"  ❌ Tem {times_na_season} times (precisa de 20). Pulando...")
        continue
    
    # VERIFICAÇÃO 3: Todos os times têm last_position válida (não NaN)?
    times_sem_last_position = df_season[df_season['last_position'].isna()]['club_id'].nunique()
    if times_sem_last_position > 0:
        print(f"  ❌ {times_sem_last_position} times sem last_position. Pulando...")
        continue
        
    print(f"  ✅ Season {season}: Dados completos! Processando {times_na_season} times...")
    
    # Para cada time da season
    times_processados = 0
    for club_id in df_season['club_id'].unique():
        df_club = df_season[df_season['club_id'] == club_id]
        
        # VERIFICAÇÃO 4: O time jogou todas as 10 primeiras rodadas?
        rodadas_do_time = df_club['round'].unique()
        rodadas_faltando_time = [r for r in primeiras_10_rodadas if r not in rodadas_do_time]
        if rodadas_faltando_time:
            print(f"    ⚠️ Time {club_id}: Faltam rodadas {rodadas_faltando_time}. Pulando...")
            continue
        
        # VERIFICAÇÃO 5: O time tem last_position válida?
        last_pos = df_club['last_position'].iloc[0]
        if pd.isna(last_pos):
            print(f"    ⚠️ Time {club_id}: last_position é NaN. Pulando...")
            continue
        
        # Criar dicionário com dados básicos do time
        linha_time = {
            'club_id': club_id,
            'season': season,
            'name': df_club['name'].iloc[0],
            'last_position': last_pos
        }
        
        # Adicionar dados de cada uma das 10 rodadas
        for rodada in range(1, 11):
            dados_rodada = df_club[df_club['round'] == rodada]
            if len(dados_rodada) > 0:
                linha_time[f'own_goals_{rodada}'] = dados_rodada['own_goals'].iloc[0]
                linha_time[f'own_position_{rodada}'] = dados_rodada['own_position'].iloc[0]
                linha_time[f'hosting_{rodada}'] = dados_rodada['hosting'].iloc[0]
                linha_time[f'is_win_{rodada}'] = dados_rodada['is_win'].iloc[0]
                linha_time[f'home_club_formation_{rodada}'] = dados_rodada['home_club_formation'].iloc[0]
                linha_time[f'aggregate_{rodada}'] = dados_rodada['aggregate'].iloc[0]
                linha_time[f'opponent_goals_{rodada}'] = dados_rodada['opponent_goals'].iloc[0]
                linha_time[f'opponent_position_{rodada}'] = dados_rodada['opponent_position'].iloc[0]
                linha_time[f'away_club_formation_{rodada}'] = dados_rodada['away_club_formation'].iloc[0]
        
        # Adicionar linha à lista
        dados_finais.append(linha_time)
        times_processados += 1
    
    print(f"    ✅ {times_processados} times processados para season {season}")

# Criar DataFrame final
df_final_corrigido = pd.DataFrame(dados_finais)

print(f"\n🎉 DataFrame final criado!")
print(f"📊 Total de linhas: {len(df_final_corrigido)}")
print(f"📊 Seasons processadas: {sorted(df_final_corrigido['season'].unique()) if len(df_final_corrigido) > 0 else 'Nenhuma'}")

if len(df_final_corrigido) > 0:
    times_por_season = df_final_corrigido.groupby('season')['club_id'].nunique()
    print(f"📊 Times por season: {times_por_season.to_dict()}")
    print(f"📊 Total de colunas: {len(df_final_corrigido.columns)}")
    print("\nPrimeiras linhas:")
    print(df_final_corrigido.head())
else:
    print("⚠️ Nenhum dado atende a todos os critérios!")

In [None]:
#Vamos verificar por season 
df_2_seasons = df_final_corrigido[df_final_corrigido['season'] == 2019]
df_2_seasons.head(30)

Agora vamos adcionar os pontos adquiridos em cada uma das rodadas

In [None]:
tt_points = 0
# Agora vamos adcionar algumas colunas extras que podem ser úteis para análise
#1. Vamos adcionar o total de pontos do time no final das 10 rodadas
# Sabemos que na coluna is win 2 sdignifica empate 1 vitória e 0 derrota
print("Calculando pontos acumulados para todas as temporadas...")
# Fazer uma cópia para evitar SettingWithCopyWarning
df_final_com_pontos = df_final_corrigido.copy()

# VERIFICAÇÃO: Quais seasons realmente existem no df_final_corrigido?
print("🔍 Verificando seasons disponíveis no df_final_corrigido:")
seasons_disponiveis = sorted(df_final_corrigido['season'].unique())
print(f"Seasons encontradas: {seasons_disponiveis}")
print(f"Total de seasons: {len(seasons_disponiveis)}")
print()

# Verificar quantos times por season
times_por_season = df_final_corrigido.groupby('season')['club_id'].nunique()
print("Times por season:")
for season, count in times_por_season.items():
    print(f"  Season {season}: {count} times")
print()

# CÓDIGO CORRIGIDO: Só processa seasons que realmente existem
print("✅ Calculando pontos acumulados apenas para seasons válidas...")
df_final_com_pontos = df_final_corrigido.copy()

# Loop apenas para as seasons que REALMENTE existem no DataFrame
for seasons in seasons_disponiveis:
    print(f"Processando season {seasons}...")
    df_season = df_final_com_pontos[df_final_com_pontos['season'] == seasons]
    
    # VERIFICAÇÃO: Confirmar que a season tem dados
    if len(df_season) == 0:
        print(f"  ❌ Season {seasons} não tem dados. Pulando...")
        continue
        
    # Para cada time da season atual
    times_processados = 0
    for clubs in df_season['club_id'].unique():
        tt_points = 0  # RESET dos pontos para cada time
        
        # VERIFICAÇÃO: Confirmar que o time tem todas as colunas is_win
        tem_todas_rodadas = True
        for rodada_check in range(1, 11):
            if f'is_win_{rodada_check}' not in df_season.columns:
                print(f"  ❌ Season {seasons}: Falta coluna is_win_{rodada_check}")
                tem_todas_rodadas = False
                break
        
        if not tem_todas_rodadas:
            break
            
        # Para cada rodada (1 a 10)
        for rounds in range(1, 11):
            # Buscar o resultado do time nesta rodada específica
            mask = (df_final_com_pontos['season'] == seasons) & (df_final_com_pontos['club_id'] == clubs)
            
            # VERIFICAÇÃO: Confirmar que encontrou o time
            time_data = df_final_com_pontos.loc[mask, f'is_win_{rounds}']
            if len(time_data) == 0:
                print(f"  ⚠️ Time {clubs} não encontrado na season {seasons}")
                break
                
            is_win = time_data.iloc[0]
            
            # Calcular pontos da rodada
            if pd.notna(is_win):  # Só processar se não for NaN
                if is_win == 1:  # Vitória
                    tt_points += 3
                elif is_win == 2:  # Empate
                    tt_points += 1
                # is_win == 0 = derrota, não soma pontos
            
            # Salvar pontos acumulados até esta rodada
            df_final_com_pontos.loc[mask, f'total_points_{rounds}'] = tt_points
        
        times_processados += 1
    
    print(f"  ✅ {times_processados} times processados na season {seasons}")

print(f"\n🎉 Cálculo concluído!")
print(f"Seasons processadas: {seasons_disponiveis}")

# Verificar resultado
print("\nExemplo - Pontos acumulados para alguns times:")
for season in sorted(df_final_com_pontos['season'].unique())[:2]:  # Mostrar 2 seasons
    print(f"\nSeason {season}:")
    sample = df_final_com_pontos[df_final_com_pontos['season'] == season].head(3)
    for _, row in sample.iterrows():
        pontos_10_rodadas = [row[f'total_points_{i}'] for i in range(1, 11)]
        print(f"  Time {row['club_id']} ({row['name']}): {pontos_10_rodadas}")

In [None]:
df_final_com_pontos.columns.tolist()

In [None]:
gols_pto_total = 0
gols_sofridos_total = 0
saldo_gols_total = 0
# Vamos agora adcionar a quantidade de gols feitas nas 10 primeiras rodadas tanto pró quanto contra e o saldo de gols
for seasons in df_final_com_pontos['season'].unique():
    df_season = df_final_com_pontos[df_final_com_pontos['season'] == seasons]
    
    for clubs in df_season['club_id'].unique():
        for rounds in range(1, 11):
            mask = (df_final_com_pontos['season'] == seasons) & (df_final_com_pontos['club_id'] == clubs)
            gols_pro = df_season.loc[mask, f'own_goals_{rounds}'].values[0]
            gols_pto_total += gols_pro
            gols_sofridos = df_season.loc[mask, f'opponent_goals_{rounds}'].values[0]
            gols_sofridos_total += gols_sofridos
            saldo_gols_total += (gols_pro - gols_sofridos)
            print(f"Time: {clubs}, Rodada: {rounds}, Gols Pró: {gols_pto_total}")
        df_final_com_pontos.loc[mask, 'gols_pro'] = gols_pto_total
        df_final_com_pontos.loc[mask, 'gols_sofridos'] = gols_sofridos_total
        df_final_com_pontos.loc[mask, 'saldo_gols'] = saldo_gols_total
        gols_pto_total = 0  # Resetar para o próximo time
        gols_sofridos_total = 0  # Resetar para o próximo time
        saldo_gols_total = 0  # Resetar para o próximo time



In [None]:
#Vamos ver novamente o dataframe final
df_final_com_pontos.head(10)

In [None]:
df_final_com_pontos.columns.tolist()

In [None]:
#Vamos exportar a tabela final da premier league para um csv
df_final_com_pontos.to_csv('df_final_premier_league.csv', index=False)


---

# Parte 3: Aplicação do Algoritmo KNN

---


# Bem Vindo!
Agora sim, Vamos começar o KNN com a nossa tabela da premier league!

In [None]:
import numpy as np
import pandas as pd


In [None]:
#Primeiro vamos carregar o dataframe que criamos no notebook anterior
df_final_com_pontos = pd.read_csv('df_final_premier_league.csv')

In [None]:
#Vamos agora verificar o tipo dos dados 
df_final_com_pontos.dtypes

In [None]:
#Vamos começar retirando o nome dos times  pois agora ele não é mais necessários
df_final_com_pontos = df_final_com_pontos.drop(columns=['name'])

In [None]:
#Vamos também retirar o código do time, pois ele pode acabar enviesando o modelo, induzindo-o a pensaar que um time tende a repetir o desempenho 
df_final_com_pontos = df_final_com_pontos.drop(columns=['club_id'])

Começando com o KNN:

In [None]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, classification_report


In [None]:
# Vamos definir X e Y. Y será a coluna last_position
X = df_final_com_pontos.drop(columns=['last_position'])


In [None]:
#Vamos separar nosso x test e x train de acordo com as temporadas.
X_train = X[X['season'] != 2024]
X_test = X[X['season'] == 2024]

# Agora vamos separar y para ser apenas a coluna last_position
y_train = df_final_com_pontos[df_final_com_pontos['season'] != 2024]['last_position']
y_test = df_final_com_pontos[df_final_com_pontos['season'] == 2024]['last_position']

In [None]:
#Usando um scaler para normalizar os dados
scaler = MinMaxScaler(feature_range=(0,1))

In [None]:
#Aplicando a normalização nos dados de treino e teste
X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)


In [None]:
knn = KNeighborsClassifier(n_neighbors=10)


In [None]:
#Vamos treinar o modelo com os dados de treino
knn.fit(X_train, y_train)

In [None]:
#Achando as predições
y_pred = knn.predict(X_test)

In [None]:
# SOLUÇÃO CORRIGIDA: Garantir posições únicas sem criar novas duplicatas
def corrigir_posicoes_duplicadas_v2(y_pred, X_test_original, criterios_desempate):
    """
    Versão corrigida que garante posições únicas de 1 a 20
    """
    import pandas as pd
    
    # Criar DataFrame com predições e dados originais
    df_pred = pd.DataFrame(X_test_original)
    df_pred['posicao_prevista'] = y_pred
    df_pred['indice_original'] = range(len(y_pred))
    
    print(f"=== DIAGNÓSTICO INICIAL ===")
    print(f"Predições originais: {sorted(y_pred)}")
    
    # Contar duplicatas
    from collections import Counter
    contagem = Counter(y_pred)
    duplicadas = {pos: count for pos, count in contagem.items() if count > 1}
    print(f"Posições duplicadas: {duplicadas}")
    
    # ESTRATÉGIA: Ordenar todos os times e redistribuir posições sequenciais
    # Ordenar por: 1) posição prevista, 2) critérios de desempate
    df_ordenado = df_pred.sort_values(
        ['posicao_prevista'] + criterios_desempate,
        ascending=[True] + [False] * len(criterios_desempate)
    )
    
    print(f"\nOrdem final dos times:")
    for i, (_, row) in enumerate(df_ordenado.iterrows()):
        nova_pos = i + 1
        pos_original = row['posicao_prevista']
        criterio_valor = row[criterios_desempate[0]] if criterios_desempate else 'N/A'
        print(f"  Time {row['indice_original']}: pos {pos_original} → {nova_pos} (critério: {criterio_valor})")
    
    # Criar array de posições corrigidas
    y_pred_corrigido = np.zeros(len(y_pred), dtype=int)
    for nova_posicao, (_, row) in enumerate(df_ordenado.iterrows(), 1):
        idx_original = int(row['indice_original'])  # CORREÇÃO: converter para int
        y_pred_corrigido[idx_original] = nova_posicao
    
    # VERIFICAÇÃO FINAL
    print(f"\n=== VERIFICAÇÃO FINAL ===")
    print(f"Posições finais: {sorted(y_pred_corrigido)}")
    print(f"Posições únicas: {len(np.unique(y_pred_corrigido))}/20")
    print(f"Range: {min(y_pred_corrigido)} a {max(y_pred_corrigido)}")
    
    # Verificar se todas as posições 1-20 estão presentes
    posicoes_esperadas = set(range(1, 21))
    posicoes_reais = set(y_pred_corrigido)
    
    if posicoes_reais == posicoes_esperadas:
        print("✅ PERFEITO: Todas as posições 1-20 estão únicas!")
    else:
        print("❌ ERRO: Ainda há problemas!")
        print(f"Faltando: {posicoes_esperadas - posicoes_reais}")
        print(f"Extras: {posicoes_reais - posicoes_esperadas}")
    
    return y_pred_corrigido

# Primeiro, vamos verificar as predições originais
print("=== DIAGNÓSTICO DAS PREDIÇÕES ===")
print(f"Predições originais: {sorted(y_pred)}")

from collections import Counter
contagem = Counter(y_pred)
duplicadas = {pos: count for pos, count in contagem.items() if count > 1}
print(f"Posições duplicadas: {duplicadas}")
print(f"Posições únicas: {len(np.unique(y_pred))}/20")

# Recuperar dados originais (antes da normalização) para usar como critério de desempate
# Assumindo que temos uma coluna de pontos ou gols
X_test_original = X[X['season'] == 2024]

print(f"\nColunas disponíveis para desempate: {list(X_test_original.columns)}")

# DEBUG: Verificar tipos de dados
print(f"\nDEBUG:")
print(f"Tipo de y_pred: {type(y_pred)}")
print(f"Tipo de X_test_original: {type(X_test_original)}")
print(f"Shape de X_test_original: {X_test_original.shape}")

In [None]:
# Aplicar a correção CORRIGIDA usando pontos como critério principal

# Definir critérios de desempate (ordem de prioridade)
criterios_desempate = ['total_points_10']  # Adicione outras colunas se disponível

# Aplicar correção com a versão corrigida
y_pred_corrigido = corrigir_posicoes_duplicadas_v2(
    y_pred, 
    X_test_original, 
    criterios_desempate
)

print("\n=== RESULTADO FINAL ===")
print(f"Predições corrigidas: {sorted(y_pred_corrigido)}")
print(f"Posições únicas: {len(np.unique(y_pred_corrigido))}/20")
print(f"Range: {min(y_pred_corrigido)} a {max(y_pred_corrigido)}")

# Verificação dupla para garantir
posicoes_esperadas = set(range(1, 21))
posicoes_obtidas = set(y_pred_corrigido)

if posicoes_obtidas == posicoes_esperadas:
    print("✅ SUCESSO: Todas as posições são únicas e corretas!")
else:
    print("❌ AINDA HÁ PROBLEMAS:")
    print(f"  Faltando: {posicoes_esperadas - posicoes_obtidas}")
    print(f"  Duplicadas: {posicoes_obtidas - posicoes_esperadas}")

# Comparar predições originais vs corrigidas
print(f"\nComparação:")
print(f"Original:   {y_pred}")
print(f"Corrigido:  {y_pred_corrigido}")

# Calcular nova acurácia
from sklearn.metrics import accuracy_score
nova_acuracia = accuracy_score(y_test, y_pred_corrigido)
acuracia_original = accuracy_score(y_test, y_pred)

print(f"\nAcurácia original: {acuracia_original:.3f}")
print(f"Acurácia corrigida: {nova_acuracia:.3f}")
print(f"Diferença: {nova_acuracia - acuracia_original:+.3f}")

# Mostrar quais posições mudaram
mudancas = sum(1 for i in range(len(y_pred)) if y_pred[i] != y_pred_corrigido[i])
print(f"Posições alteradas: {mudancas}/{len(y_pred)}")

Como já era de se esprar, prever posições exatas de um time de futebol é algo muito difícil. Logo, vamos ajustar a coluna last position para a métrica:

Campeão (1 posição)

Top 6: 2-6 colocado

Top 12: 7 - 12 colocado

Intermediários: 13 - 17 colocado

Rebaixados: 18 - 20 colocados

In [None]:
print(y_pred)

In [None]:
#Vamos transformar a coluna last_position, oponnent_position_x e own_position_x em categorias
mapeamento_posicoes = {
    1:1,
    2:2,
    3:2,
    4:2,
    5:2,
    6:2,
    7:3,
    8:3,
    9:3,
    10:3,
    11:3,
    12:3,
    13:4,
    14:4,
    15:4,
    16:4,
    17:4,
    18:5,
    19:5,
    20:5
}
# Aplicando o mapeamento
#Criando uma cópia do DataFrame para evitar SettingWithCopyWarning
df_novo_final = pd.read_csv('df_final_premier_league.csv')
df_novo_final['last_position'] = df_novo_final['last_position'].map(mapeamento_posicoes)
df_novo_final.head(20)


In [None]:
#Vamos criar um código que criará o número de vitórias, derrotas e empates de cada time nos 10 primeiros jogos
vitorias = 0
derrotas = 0
empates = 0
for seasons in df_novo_final['season'].unique():
    dados_season = df_novo_final[df_novo_final['season'] == seasons]
    for team in dados_season['name'].unique():
        #Filtrando os dados do time
        dados_time = df_novo_final[(df_novo_final['name'] == team) & (df_novo_final['season'] == seasons)]  
        #Vamos fazer um for das 10 primeiras rodadas para contar cada coluna is_win
        for i in range(1,11):
            nome_coluna_win = f'is_win_{i}'
            if dados_time[nome_coluna_win].values[0] == 1:
                vitorias +=1
            elif dados_time[nome_coluna_win].values[0] == 0:
                derrotas +=1
            elif dados_time[nome_coluna_win].values[0] == 2:
                empates +=1
        #Agora vamos adicionar as colunas de vitoria, derrota e empate no data2me além de zerar as variáveis
        #Criando um mask:
        mask = (df_novo_final['name'] == team) & (df_novo_final['season'] == seasons)
        df_novo_final.loc[mask, 'vitorias'] = vitorias
        df_novo_final.loc[mask, 'derrotas'] = derrotas
        df_novo_final.loc[mask, 'empates'] = empates
        vitorias = 0
        derrotas = 0
        empates = 0


#Vamos olhar o resultado
df_novo_final.head(20)

In [None]:
#Vamos criar uma coluna de jogos sem perder 
jogos_sem_perder = 0
for seasons in df_novo_final['season'].unique():
    dados_season = df_novo_final[df_novo_final['season'] == seasons]
    for team in dados_season['name'].unique():
        #Filtrando os dados do time
        dados_time = df_novo_final[(df_novo_final['name'] == team) & (df_novo_final['season'] == seasons)]  
        #Vamos fazer um for das 10 primeiras rodadas para contar cada coluna is_win
        for i in range(1,11):
            nome_coluna_win = f'is_win_{i}'
            if dados_time[nome_coluna_win].values[0] == 1:
                jogos_sem_perder +=1
            elif dados_time[nome_coluna_win].values[0] == 0:
                jogos_sem_perder = 0
            elif dados_time[nome_coluna_win].values[0] == 2:
                jogos_sem_perder +=1
        #Agora vamos adicionar as colunas de vitoria, derrota e empate no data2me além de zerar as variáveis
        #Criando um mask:
        mask = (df_novo_final['name'] == team) & (df_novo_final['season'] == seasons)
        df_novo_final.loc[mask, 'jogos_sem_perder'] = jogos_sem_perder
        jogos_sem_perder = 0

In [None]:
df_novo_final.head(20)

In [None]:
casa = 0
fora = 0
#Agora vamos criar uma coluna que contabiliza a quantidade de jogos fora de casa que o time jogou
for seasons in df_novo_final['season'].unique():
    dados_season = df_novo_final[df_novo_final['season'] == seasons]
    for team in dados_season['name'].unique():
        #Filtrando os dados do time
        dados_time = df_novo_final[(df_novo_final['name'] == team) & (df_novo_final['season'] == seasons)] 
        #Vamos pegar cada uma das colunas hosting_x 
        for i in range(1,11):
            nome_coluna_hosting = f'hosting_{i}'
            if dados_time[nome_coluna_hosting].values[0] == 1:
                casa +=1
            elif dados_time[nome_coluna_hosting].values[0] == 0:
                fora +=1
        #Agora vamos adcionar as colunas de casa e fora no dataframe além de zerar as as variáveis
        #Criando um mask:
        mask = (df_novo_final['name'] == team) & (df_novo_final['season'] == seasons)
        df_novo_final.loc[mask, 'casa'] = casa
        df_novo_final.loc[mask, 'fora'] = fora
        casa = 0
        fora = 0
#Vamos olhar o resultado
df_novo_final.head(20)


## Nova Columna: Recém_promovido
Agora vamos criar uma nova feature que pode nos ajudar a prever melhor o futuro do campeonato

In [None]:
#Vamos criar uma nova coluna para os times recém promovidos
#2012
mapeamento_rebaixados = {
    'Southampton Football Club':1,
    'Stoke City':0,
    'Fulham Football Club':0,
    'Aston Villa Football Club':0,
    'West Ham United Football Club': 1,
    'West Bromwich Albion':0,
    'Sunderland AFC':0,
    'Chelsea Football Club':0,
    'Reading FC':1,
    'Norwich City':0,
    'Arsenal Football Club':0,
    'Manchester City Football Club':0,
    'Newcastle United Football Club':0,
    'Liverpool Football Club':0,
    'Everton Football Club':0,
    'Queens Park Rangers':0,
    'Swansea City':0,
    'Manchester United Football Club':0,
    'Wigan Athletic':0,
    'Tottenham Hotspur Football Club':0
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2012, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2012].head(20)

In [None]:
#2013
mapeamento_rebaixados = {
    'Stoke City':0,
    'West Bromwich Albion':0,
    'Sunderland AFC':0,
    'West Ham United Football Club': 0,
    'Manchester City Football Club':0,
    'Norwich City':0,
    'Newcastle United Football Club':0,
    'Southampton Football Club':0,
    'Arsenal Football Club':0,
    'Aston Villa Football Club':0,
    'Crystal Palace Football Club':1,
    'Everton Football Club':0,
    'Tottenham Hotspur Football Club':0,
    'Swansea City':0,
    'Manchester United Football Club':0,
    'Chelsea Football Club':0,
    'Hull City':1,
    'Liverpool Football Club':0,
    'Cardiff City':1,
    'Fulham Football Club':0,
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2013, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2013].head(20)

In [None]:
#2014
mapeamento_rebaixados = {
    'Arsenal Football Club':0,
    'Aston Villa Football Club':0,
    'Burnley FC':1,
    'Chelsea Football Club':0,
    'Crystal Palace Football Club':0,
    'Everton Football Club':0,
    'Hull City':0,
    'Leicester City Football Club':1,
    'Liverpool Football Club':0,
    'Manchester City Football Club':0,
    'Manchester United Football Club':0,
    'Newcastle United Football Club':0,
    'Queens Park Rangers':1,
    'Southampton Football Club':0,
    'Stoke City':0,
    'Sunderland AFC':0,
    'Swansea City':0,
    'Tottenham Hotspur Football Club':0,
    'West Bromwich Albion':0,
    'West Ham United Football Club': 0
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2014, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2014].head(20)


In [None]:
#2015 
mapeamento_rebaixados = {
    'Arsenal Football Club':0,
    'Aston Villa Football Club':0,
    'Association Football Club Bournemouth':1,
    'Chelsea Football Club':0,
    'Crystal Palace Football Club':0,
    'Everton Football Club':0,
    'Leicester City Football Club':0,
    'Liverpool Football Club':0,
    'Manchester City Football Club':0,
    'Manchester United Football Club':0,
    'Newcastle United Football Club':0,
    'Norwich City':1,
    'Southampton Football Club':0,
    'Stoke City':0,
    'Sunderland AFC':0,
    'Swansea City':0,
    'Tottenham Hotspur Football Club':0,
    'Watford FC':1,
    'West Bromwich Albion':0,
    'West Ham United Football Club': 0
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2015, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2015].head(20)

In [None]:
#2016 
mapeamento_rebaixados = {
    'Arsenal Football Club':0,
    'Association Football Club Bournemouth':0,
    'Burnley FC':1,
    'Chelsea Football Club':0,
    'Crystal Palace Football Club':0,
    'Everton Football Club':0,
    'Hull City':1,
    'Leicester City Football Club':0,
    'Liverpool Football Club':0,
    'Manchester City Football Club':0,
    'Manchester United Football Club':0,
    'Middlesbrough FC':1,
    'Southampton Football Club':0,
    'Stoke City':0,
    'Sunderland AFC':1,
    'Swansea City':0,
    'Tottenham Hotspur Football Club':0,
    'Watford FC':0,
    'West Bromwich Albion':0,
    'West Ham United Football Club': 0
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2016, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2016].head(20)


In [None]:
#2017 
mapeamento_rebaixados = {
    'Arsenal Football Club':0,
    'Association Football Club Bournemouth':0,
    'Brighton and Hove Albion Football Club':1,
    'Burnley FC':0,
    'Chelsea Football Club':0,
    'Crystal Palace Football Club':0,
    'Everton Football Club':0,
    'Huddersfield Town':1,
    'Leicester City Football Club':0,
    'Liverpool Football Club':0,
    'Manchester City Football Club':0,
    'Manchester United Football Club':0,
    'Newcastle United Football Club':1,
    'Southampton Football Club':0,
    'Stoke City':0,
    'Swansea City':0,
    'Tottenham Hotspur Football Club':0,
    'Watford FC':0,
    'West Bromwich Albion':0,
    'West Ham United Football Club': 0
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2017, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2017].head(20)

In [None]:
#2018 
mapeamento_rebaixados = {
    'Arsenal Football Club':0,
    'Association Football Club Bournemouth':0,
    'Brighton and Hove Albion Football Club':0,
    'Burnley FC':0,
    'Cardiff City':1,
    'Chelsea Football Club':0,
    'Crystal Palace Football Club':0,
    'Everton Football Club':0,
    'Fulham Football Club':1,
    'Huddersfield Town':0,
    'Leicester City Football Club':0,
    'Liverpool Football Club':0,
    'Manchester City Football Club':0,
    'Manchester United Football Club':0,
    'Newcastle United Football Club':0,
    'Southampton Football Club':0,
    'Tottenham Hotspur Football Club':0,
    'Watford FC':0,
    'West Ham United Football Club': 0,
    'Wolverhampton Wanderers Football Club':1
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2018, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2018].head(20)


In [None]:
#2021
mapeamento_rebaixados = {
    'Arsenal Football Club':0,
    'Aston Villa Football Club':0,
    'Brentford Football Club':1,
    'Brighton and Hove Albion Football Club':0,
    'Burnley FC':0,
    'Chelsea Football Club':0,
    'Crystal Palace Football Club':0,
    'Everton Football Club':0,
    'Leeds United':0,
    'Leicester City Football Club':0,
    'Liverpool Football Club':0,
    'Manchester City Football Club':0,
    'Manchester United Football Club':0,
    'Newcastle United Football Club':0,
    'Norwich City':1,
    'Southampton Football Club':0,
    'Tottenham Hotspur Football Club':0,
    'Watford FC':1,
    'West Ham United Football Club': 0,
    'Wolverhampton Wanderers Football Club':0,
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2021, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2021].head(20)

In [None]:
#2022
mapeamento_rebaixados = {
    'Arsenal Football Club':0,
    'Aston Villa Football Club':0,
    'Association Football Club Bournemouth':1,
    'Brentford Football Club':0,
    'Brighton and Hove Albion Football Club':0,
    'Chelsea Football Club':0,
    'Crystal Palace Football Club':0,
    'Everton Football Club':0,
    'Fulham Football Club':1,
    'Leeds United':0,
    'Leicester City Football Club':0,
    'Liverpool Football Club':0,
    'Manchester City Football Club':0,
    'Manchester United Football Club':0,
    'Newcastle United Football Club':0,
    'Nottingham Forest Football Club':1,
    'Southampton Football Club':0,
    'Tottenham Hotspur Football Club':0,
    'West Ham United Football Club': 0,
    'Wolverhampton Wanderers Football Club':0
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2022, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2022].head(20)

In [None]:
#2023
mapeamento_rebaixados = {
    'Arsenal Football Club':0,
    'Aston Villa Football Club':0,
    'Association Football Club Bournemouth':0,
    'Brentford Football Club':0,
    'Brighton and Hove Albion Football Club':0,
    'Burnley FC':1,
    'Chelsea Football Club':0,
    'Crystal Palace Football Club':0,
    'Everton Football Club':0,
    'Fulham Football Club':0,
    'Luton Town':1,
    'Liverpool Football Club':0,
    'Manchester City Football Club':0,
    'Manchester United Football Club':0,
    'Newcastle United Football Club':0,
    'Nottingham Forest Football Club':0,
    'Sheffield United':1,
    'Tottenham Hotspur Football Club':0,
    'West Ham United Football Club': 0,
    'Wolverhampton Wanderers Football Club':0
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2023, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2023].head(20)

In [None]:
#2024
mapeamento_rebaixados = {
    'Manchester City Football Club':0,
    'Arsenal Football Club':0,
    'Liverpool Football Club':0,
    'Aston Villa Football Club':0,
    'Chelsea Football Club':0,
    'Manchester United Football Club':0,
    'Tottenham Hotspur Football Club':0,
    'Newcastle United Football Club':0,
    'West Ham United Football Club': 0,
    'Brighton and Hove Albion Football Club':0,
    'Wolverhampton Wanderers Football Club':0,
    'Crystal Palace Football Club':0,
    'Fulham Football Club':0,
    'Everton Football Club':0,
    'Brentford Football Club':0,
    'Association Football Club Bournemouth':0,
    'Nottingham Forest Football Club':0,
    'Leicester City Football Club':1,
    'Ipswich Town Football Club':1,
    'Southampton Football Club':1
}
# Aplicando o mapeamento usando loc
df_novo_final.loc[df_novo_final['season'] == 2024, 'recem_promovido'] = df_novo_final['name'].map(mapeamento_rebaixados)
#Vamos olhar o resultado
df_novo_final[df_novo_final['season'] == 2024].head(20)


Vamos agora criar um novo dataframe Com as novas colunas e ver como será a previsão dele e a acurácia

In [None]:
#Vamos ver as colunas que mais se destacam
df_novo_final.columns.to_list()

In [None]:
#Novo df:
df_previa = df_novo_final[['season', 'last_position', 'total_points_10', 'vitorias', 'derrotas', 'empates', 'casa', 'fora','gols_pro','gols_sofridos','saldo_gols','jogos_sem_perder','recem_promovido']].copy()
#Vamos ver o novo df
df_previa.head(20)

In [None]:
#Como já importamos as bibliotecas, podemos começar separando os dados
X = df_previa.drop(columns=['last_position'])
#Vamos separar nosso x test e x train de acordo com as temporadas.
X_train = X[X['season'] != 2014]
X_test = X[X['season'] == 2014]
# Agora vamos separar y para ser apenas a coluna last_position
y_train = df_previa[df_previa['season'] != 2014]['last_position']
y_test = df_previa[df_previa['season'] == 2014]['last_position']

In [None]:
#Agora vamos aplicar o scaler nos dados de treino e teste
scaler = MinMaxScaler(feature_range=(0,1))

In [None]:
#Vamos aplicar o scaler nos dados de treino e teste
X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

In [None]:
#Vamos definir o modelo KNN
knn = KNeighborsClassifier(n_neighbors=4)

In [None]:
#Vamos aplicar o knn nos dados de treino
knn.fit(X_train, y_train)

In [None]:
#vamos fazer as predições
y_pred = knn.predict(X_test)
print(f"Predições: {y_pred}")

In [None]:
#Agora vamos calcular a acurácia do modelo
from sklearn.metrics import accuracy_score
acuracia = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {acuracia:.2f}")

In [None]:
#Vamos recuperar os dados como nome e códigos para ver se as predições estão corretas
df_final_com_pontos = pd.read_csv('df_final_premier_league.csv')
#Vamos criar um novo dataframe com as predições
df_predicoes = pd.DataFrame({
    'name': df_final_com_pontos[df_final_com_pontos['season'] == 2014]['name'].values,
    'last_position': y_pred
})
#Vamos ver o dataframe de predições
print(df_predicoes.head(20))


In [None]:
#Vamos printar as colunas para vermos as mais interessantes
df_novo_final.columns.to_list()

Agora vamos criar uma métrica da força dos times fornecida pela IA como se fosse antes do campeonato

In [None]:
#Força dos times em 2012:
mapeamento_forca = {
    'Southampton Football Club':1,
    'Stoke City':2,
    'Fulham Football Club':3,
    'Aston Villa Football Club':3,
    'West Ham United Football Club': 2,
    'West Bromwich Albion':3,
    'Sunderland AFC':3,
    'Chelsea Football Club':5,
    'Reading FC':1,
    'Norwich City':2,
    'Arsenal Football Club':4,
    'Manchester City Football Club':5,
    'Newcastle United Football Club':3,
    'Liverpool Football Club':4,
    'Everton Football Club':3,
    'Queens Park Rangers':2,
    'Swansea City':2,
    'Manchester United Football Club':5,
    'Wigan Athletic':1,
    'Tottenham Hotspur Football Club':4
}

#Vamos mapear apenas para season 2012, portanto usaremos loc
df_novo_final.loc[df_novo_final['season'] == 2012, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2012, 'name'].map(mapeamento_forca)

df_novo_final.loc[df_novo_final['season']==2012].head(20)



In [None]:
#Agora vamos fazer o mesmo para a temporada 2013
df_novo_final.loc[df_novo_final['season']==2013].head(20)

In [None]:

mapeamento_forca = {
    'Stoke City':2,
    'West Bromwich Albion':3,
    'Sunderland AFC':1,
    'West Ham United Football Club': 2,
    'Manchester City Football Club':5,
    'Norwich City':2,
    'Newcastle United Football Club':3,
    'Southampton Football Club':3,
    'Arsenal Football Club':4,
    'Aston Villa Football Club':3,
    'Crystal Palace Football Club':1,
    'Everton Football Club':3,
    'Tottenham Hotspur Football Club':4,
    'Swansea City':3,
    'Manchester United Football Club':5,
    'Chelsea Football Club':5,
    'Hull City':1,
    'Liverpool Football Club':4,
    'Cardiff City':2,
    'Fulham Football Club':2,
}

#Vamos mapear apenas para season 2013, portanto usaremos loc
df_novo_final.loc[df_novo_final['season'] == 2013, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2013, 'name'].map(mapeamento_forca)
df_novo_final.loc[df_novo_final['season']==2013].head(20)

In [None]:
#Vamos ver para 2014
df_novo_final.loc[df_novo_final['season']==2014].head(20)

In [None]:
#2014
mapeamento_forca = {
    'Arsenal Football Club':5,
    'Queens Park Rangers':2,
    'West Bromwich Albion':2,
    'Liverpool Football Club':4,
    'Southampton Football Club':3,
    'Stoke City':3,
    'Crystal Palace Football Club':2,
    'Hull City':2,
    'Newcastle United Football Club':3,
    'West Ham United Football Club': 3,
    'Swansea City':3,
    'Sunderland AFC':3,
    'Chelsea Football Club':5,
    'Tottenham Hotspur Football Club':4,
    'Burnley FC':1,
    'Leicester City Football Club':2,
    'Everton Football Club':4,
    'Manchester City Football Club':5,
    'Aston Villa Football Club':2,
    'Manchester United Football Club':5
}
#Vamos mapear apenas para season 2014, portanto usaremos loc    
df_novo_final.loc[df_novo_final['season'] == 2014, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2014, 'name'].map(mapeamento_forca)
df_novo_final.loc[df_novo_final['season']==2014].head(20)


In [None]:
#Agora vamos para temporada 2015
df_novo_final.loc[df_novo_final['season']==2015].head(20)

In [None]:
#2015:
mapeamento_forca = {
    'Chelsea Football Club':5,
    'Manchester City Football Club':5,
    'Arsenal Football Club':5,
    'Manchester United Football Club':5,
    'Liverpool Football Club':4,
    'Tottenham Hotspur Football Club':4,
    'Everton Football Club':4,
    'Southampton Football Club':3,
    'Stoke City':3,
    'Swansea City':3,
    'Crystal Palace Football Club':3,
    'West Ham United Football Club': 3,
    'Newcastle United Football Club':3,
    'West Bromwich Albion':3,
    'Leicester City Football Club':2,
    'Aston Villa Football Club':2,
    'Sunderland AFC':2,
    'Norwich City':2,
    'Association Football Club Bournemouth':2,
    'Watford FC':1
}

#Vamos mapear apenas para season 2015, portanto usaremos loc
df_novo_final.loc[df_novo_final['season'] == 2015, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2015, 'name'].map(mapeamento_forca)
df_novo_final.loc[df_novo_final['season']==2015].head(20)

In [None]:
#Vamos ver 2016 agora 
df_novo_final.loc[df_novo_final['season']==2016].head(20)

In [None]:
#2016:
mapeamento_forca = {
    'Manchester City Football Club':5,
    'Manchester United Football Club':5,
    'Chelsea Football Club':5,
    'Arsenal Football Club':5,
    'Tottenham Hotspur Football Club':4,
    'Liverpool Football Club':4,
    'Everton Football Club':4,
    'Southampton Football Club':3,
    'Leicester City Football Club':4,
    'West Ham United Football Club': 3,
    'Stoke City':3,
    'Sunderland AFC':3,
    'Crystal Palace Football Club':3,
    'West Bromwich Albion':2,
    'Swansea City':2,
    'Association Football Club Bournemouth':2,
    'Middlesbrough FC':2,
    'Burnley FC':2,
    'Hull City':1,
    'Watford FC':2
}
#Vamos mapear apenas para season 2016, portanto usaremos loc
df_novo_final.loc[df_novo_final['season'] == 2016, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2016, 'name'].map(mapeamento_forca)
df_novo_final.loc[df_novo_final['season']==2016].head(20)

In [None]:
#Vamos para 2017
df_novo_final.loc[df_novo_final['season']==2017].head(20)

In [None]:
#2017:
mapeamento_forca = {
    'Chelsea Football Club':5,
    'Manchester City Football Club':5,
    'Manchester United Football Club':5,
    'Tottenham Hotspur Football Club':5,
    'Liverpool Football Club':4,
    'Arsenal Football Club':4,
    'Everton Football Club':4,
    'Leicester City Football Club':3,
    'Southampton Football Club':3,
    'West Ham United Football Club': 3,
    'Stoke City':3,
    'Crystal Palace Football Club':3,
    'West Bromwich Albion':3,
    'Watford FC':3,
    'Association Football Club Bournemouth':3,
    'Swansea City':2,
    'Burnley FC':2,
    'Newcastle United Football Club':2,
    'Brighton and Hove Albion Football Club':1,
    'Huddersfield Town':1
}
#Vamos mapear apenas para season 2017, portanto usaremos loc
df_novo_final.loc[df_novo_final['season'] == 2017, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2017, 'name'].map(mapeamento_forca)
df_novo_final.loc[df_novo_final['season']==2017].head(20)


In [None]:

#mapeamento 2018:
mapeamento_forca = {
    'Manchester City Football Club':5,
    'Liverpool Football Club':5,
    'Chelsea Football Club':5,
    'Manchester United Football Club':4,
    'Arsenal Football Club':4,
    'Tottenham Hotspur Football Club':4,
    'Everton Football Club':3,
    'Leicester City Football Club':3,
    'West Ham United Football Club': 3,
    'Wolverhampton Wanderers Football Club':3,
    'Newcastle United Football Club':3,
    'Crystal Palace Football Club':3,
    'Association Football Club Bournemouth':3,
    'Southampton Football Club':2,
    'Brighton and Hove Albion Football Club':2,
    'Watford FC':2,
    'Burnley FC':2,
    'Fulham Football Club':2,
    'Huddersfield Town':1,
    'Cardiff City':1
}
#Vamos mapear apenas para season 2018, portanto usaremos loc
df_novo_final.loc[df_novo_final['season'] == 2018, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2018, 'name'].map(mapeamento_forca)
df_novo_final.loc[df_novo_final['season']==2018].head(20)

In [None]:
#Vamos para 2021
df_novo_final.loc[df_novo_final['season']==2021].head(20)

In [None]:
#2021
mapeamento_forca = {
    'Manchester City Football Club':5,
    'Chelsea Football Club':5,
    'Liverpool Football Club':5,
    'Manchester United Football Club':5,
    'Tottenham Hotspur Football Club':4,
    'Arsenal Football Club':4,
    'Leicester City Football Club':4,
    'Everton Football Club':4,
    'West Ham United Football Club': 4,
    'Aston Villa Football Club':3,
    'Leeds United':3,
    'Brighton and Hove Albion Football Club':3,
    'Wolverhampton Wanderers Football Club':3,
    'Southampton Football Club':3,
    'Crystal Palace Football Club':2,
    'Newcastle United Football Club':2,
    'Burnley FC':2,
    'Brentford Football Club':2,
    'Norwich City':1,
    'Watford FC':1
}
#Vamos mapear apenas para season 2021, portanto usaremos loc
df_novo_final.loc[df_novo_final['season'] == 2021, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2021, 'name'].map(mapeamento_forca)
df_novo_final.loc[df_novo_final['season']==2021].head(20)

In [None]:
#Vamos para 2022
df_novo_final.loc[df_novo_final['season']==2022].head(20)

In [None]:

#2022
mapeamento_forca = {
    'Manchester City Football Club':5,
    'Liverpool Football Club':5,
    'Chelsea Football Club':5,
    'Tottenham Hotspur Football Club':4,
    'Manchester United Football Club':4,
    'Arsenal Football Club':4,
    'West Ham United Football Club': 4,
    'Leicester City Football Club':3,
    'Aston Villa Football Club':3,
    'Wolverhampton Wanderers Football Club':3,
    'Brighton and Hove Albion Football Club':3,
    'Crystal Palace Football Club':3,
    'Newcastle United Football Club':3,
    'Everton Football Club':2,
    'Southampton Football Club':2,
    'Leeds United':2,
    'Brentford Football Club':2,
    'Fulham Football Club':2,
    'Nottingham Forest Football Club':1,
    'Association Football Club Bournemouth':1
}
#Vamos mapear apenas para season 2022, portanto usaremos loc
df_novo_final.loc[df_novo_final['season'] == 2022, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2022, 'name'].map(mapeamento_forca)
df_novo_final.loc[df_novo_final['season']==2022].head(20)

In [None]:
#Vamos para 2023:
df_novo_final.loc[df_novo_final['season']==2023].head(20)

In [None]:

#2023
mapeamento_forca = {
    'Manchester City Football Club':5,
    'Arsenal Football Club':5,
    'Manchester United Football Club':5,
    'Liverpool Football Club':5,
    'Chelsea Football Club':4,
    'Newcastle United Football Club':4,
    'Brighton and Hove Albion Football Club':4,
    'Tottenham Hotspur Football Club':4,
    'Aston Villa Football Club':4,
    'West Ham United Football Club': 3,
    'Fulham Football Club':3,
    'Brentford Football Club':3,
    'Crystal Palace Football Club':3,
    'Wolverhampton Wanderers Football Club':3,
    'Everton Football Club':3,
    'Nottingham Forest Football Club':2,
    'Association Football Club Bournemouth':2,
    'Burnley FC':2,
    'Sheffield United':2,
    'Luton Town':1
}
#Vamos mapear apenas para season 2023, portanto usaremos loc
df_novo_final.loc[df_novo_final['season'] == 2023, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2023, 'name'].map(mapeamento_forca)
df_novo_final.loc[df_novo_final['season']==2023].head(20)


In [None]:

#2024
mapeamento_forca = {
    'Manchester City Football Club':5,
    'Arsenal Football Club':5,
    'Liverpool Football Club':5,
    'Aston Villa Football Club':5,
    'Chelsea Football Club':4,
    'Manchester United Football Club':4,
    'Tottenham Hotspur Football Club':4,
    'Newcastle United Football Club':4,
    'West Ham United Football Club': 4,
    'Brighton and Hove Albion Football Club':3,
    'Wolverhampton Wanderers Football Club':3,
    'Crystal Palace Football Club':3,
    'Fulham Football Club':3,
    'Everton Football Club':3,
    'Brentford Football Club':2,
    'Association Football Club Bournemouth':2,
    'Nottingham Forest Football Club':2,
    'Leicester City Football Club':2,
    'Ipswich Town Football Club':1,
    'Southampton Football Club':1
}
#Vamos mapear apenas para season 2024, portanto usaremos loc
df_novo_final.loc[df_novo_final['season'] == 2024, 'forca'] = df_novo_final.loc[df_novo_final['season'] == 2024, 'name'].map(mapeamento_forca)
df_novo_final.loc[df_novo_final['season']==2024].head(20)

# Ufa, finalmente acabamos as forças dos times!
Agora vamos montar um novo df e treinar usando o KNN como fizemos antes para comparamos os resultados

In [None]:
#Vamos montar um novo dataframe 
novo_tf_com_forcas = df_novo_final[['season', 'last_position', 'total_points_10', 'vitorias', 'derrotas', 'empates', 'casa', 'fora','gols_pro','gols_sofridos','saldo_gols','jogos_sem_perder','recem_promovido','forca']].copy()
#Vamos ver o novo dataframe
novo_tf_com_forcas.head(20)

In [None]:
#Vamos separar X e y 
X = novo_tf_com_forcas.drop(columns=['last_position'])
#Vamos separar nosso x test e x train de acordo com as temporadas.
X_train = X[X['season'] != 2024]
X_test = X[X['season'] == 2024]
# Agora vamos separar y para ser apenas a coluna last_position
y_train = novo_tf_com_forcas[novo_tf_com_forcas['season'] != 2024]['last_position']
y_test = novo_tf_com_forcas[novo_tf_com_forcas['season'] == 2024]['last_position']

In [None]:
#Vamos aplicar o scaler nos dados de treino e teste
scaler = MinMaxScaler(feature_range=(0,1))

In [None]:
#Vamos aplicar o scaler nos dados de treino e teste
X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

In [None]:
knn = KNeighborsClassifier(n_neighbors=4)

In [None]:
knn.fit(X_train, y_train)

In [None]:
y_pred = knn.predict(X_test)

In [None]:
print(f"Predições: {y_pred}")

In [None]:
#Vamos ver a acurácia do modelo
acuracia = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {acuracia:.2f}")

In [None]:
#Vamos printar o dataframe com o nome dos times na season 2024
df_final_com_pontos = pd.read_csv('df_final_premier_league.csv')
#Vamos criar um novo dataframe com as predições
df_predicoes = pd.DataFrame({
    'name': df_final_com_pontos[df_final_com_pontos['season'] == 2024]['name'].values,
    'last_position': y_pred
})
#Vamos ver o dataframe de predições
print(df_predicoes.head(20))