# Análise de Jogos da NFL com Regressão Logística

Este notebook utiliza a regressão logística para prever o vencedor de jogos da NFL com base em vitórias e derrotas acumuladas dos times. A seguir, apresentamos o passo a passo do código:

---

## 1. Importação de Bibliotecas

Importamos as bibliotecas necessárias para manipulação de dados, divisão de conjuntos, criação do modelo e avaliação de desempenho.

## 2. Carregamento do dataset

Utilizei o datset "games.csv", que contém dados de jogos da NFL de 1999 até os jogos atuais, o dataset é atualizado toda semana e eu atualizo através desse repositório: "https://github.com/nflverse/nfldata/blob/master/data/games.csv"

## 3. Filtragem dos dados
Filtrei apenas os jogos de temporada regular, de 2013 pra frente

## 4. Criação de features

Vitória e derrotas acumuladas no time de casa e fora

## 5. Divisão em treino e teste

Utilizei 80% dos dados para treino e 20% para teste

## 6. Treinamento do modelo

Criei um moelo de regressão logística, que visa predizer o vencedor da partida

## 7. Avaliação do modelo

Calcula a acurácia do modelo

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Carregar dataset
df = pd.read_csv('games.csv')

# Filtrar temporadas a partir de 2013 e jogos da temporada regular
df = df[df['season'] >= 2013]
df = df[df['game_type'] == 'REG']

# Definir o vencedor (1 se o time da casa vencer, 0 se o time visitante vencer)
df['winner'] = df['result'].apply(lambda x: 1 if x > 0 else 0)
df = df[df['result'] != 0]

# Contar vitórias do time da casa
df['home_team_wins'] = df.groupby(['home_team', 'season'])['winner'].cumsum()

# Contar vitórias do time visitante (inverso das vitórias do time da casa)
df['away_team_wins'] = df.groupby(['away_team', 'season'])['winner'].transform(lambda x: (1 - x).cumsum())

# Contar derrotas do time da casa (inverso das vitórias do time da casa)
df['home_team_losses'] = df.groupby(['home_team', 'season'])['winner'].transform(lambda x: (1 - x).cumsum())

# Contar derrotas do time visitante
df['away_team_losses'] = df.groupby(['away_team', 'season'])['winner'].cumsum()

# Selecionar as colunas de interesse para o modelo
parametros = ['home_team_wins', 'away_team_wins', 'home_team_losses', 'away_team_losses']

# Dividir em treino e teste
df_train = df[df['season'] < 2023]
df_test = df[df['season'] >= 2023]

X_train = df_train[parametros]
y_train = df_train['winner']
X_test = df_test[parametros]
y_test = df_test['winner']

# Criar o modelo de regressão logística
modelo = LogisticRegression()
modelo.fit(X_train, y_train)

# Fazer previsões
y_pred = modelo.predict(X_test)

# Avaliar a acurácia do modelo
acuracia = accuracy_score(y_test, y_pred)
print(f'Acurácia: {acuracia * 100:.2f}%')


Acurácia: 84.19%


In [2]:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(modelo, X_train, y_train, cv=5)  # 5-fold cross-validation
print(f'Acurácia média com cross-validation: {scores.mean() * 100:.2f}%')


Acurácia média com cross-validation: 84.38%


In [15]:
# Variável para o número da semana que você deseja visualizar
semana = int(input("Digite o número da semana (por exemplo, 1 para semana 1): "))

# Filtrar os jogos da temporada de 2024 para a semana desejada
df_semana = df_test[(df_test['season'] == 2024) & (df_test['week'] == semana)].copy()

# Fazer previsões
y_pred_semana = modelo.predict(df_semana[parametros])

# Adicionar a coluna de vencedor previsto
df_semana['predicted_winner'] = y_pred_semana

# Função para exibir a predição com os nomes dos times
def display_prediction(row):
    if row['predicted_winner'] == 1:
        return f"{row['home_team']} vs {row['away_team']}, vencedor: {row['home_team']}"
    else:
        return f"{row['home_team']} vs {row['away_team']}, vencedor: {row['away_team']}"

# Aplicar a função no DataFrame de predições
df_semana['prediction_display'] = df_semana.apply(display_prediction, axis=1)

# Exibir as predições para todos os jogos da semana escolhida
for pred in df_semana['prediction_display']:
    print(pred)


Digite o número da semana (por exemplo, 1 para semana 1):  1


KC vs BAL, vencedor: KC
PHI vs GB, vencedor: PHI
ATL vs PIT, vencedor: PIT
BUF vs ARI, vencedor: BUF
CHI vs TEN, vencedor: CHI
CIN vs NE, vencedor: NE
IND vs HOU, vencedor: HOU
MIA vs JAX, vencedor: MIA
NO vs CAR, vencedor: NO
NYG vs MIN, vencedor: MIN
LAC vs LV, vencedor: LAC
SEA vs DEN, vencedor: SEA
CLE vs DAL, vencedor: DAL
TB vs WAS, vencedor: TB
DET vs LA, vencedor: DET
SF vs NYJ, vencedor: SF


In [None]:
def calcular_lucro(row):
    aposta = 100  # Valor fixo da aposta em cada jogo
    if row['predicted_winner'] == 1:  # Aposta no time da casa
        odds = row['home_moneyline']
        if row['winner'] == 1:  # Aposta correta
            return aposta * (odds / 100) if odds > 0 else aposta * (100 / abs(odds))
        else:  # Aposta errada
            return -aposta
    else:  # Aposta no time visitante
        odds = row['away_moneyline']
        if row['winner'] == 0:  # Aposta correta
            return aposta * (odds / 100) if odds > 0 else aposta * (100 / abs(odds))
        else:  # Aposta errada
            return -aposta

In [16]:
# Variável para o número da semana que você deseja visualizar
semana = int(input("Digite o número da semana (por exemplo, 1 para semana 1): "))

# Filtrar os jogos da temporada de 2024 para a semana desejada
df_semana = df_test[(df_test['season'] == 2024) & (df_test['week'] == semana)].copy()

# Fazer previsões
y_pred_semana = modelo.predict(df_semana[parametros])

# Adicionar a coluna de vencedor previsto
df_semana['predicted_winner'] = y_pred_semana

# Função para exibir a predição com os nomes dos times
def display_prediction(row):
    predicted_team = row['home_team'] if row['predicted_winner'] == 1 else row['away_team']
    real_winner_team = (
        row['home_team'] if row['winner'] == 1 
        else row['away_team'] if row['winner'] == 0 
        else "Ainda não definido"
    )
    return (
        f"{row['home_team']} vs {row['away_team']}, "
        f"vencedor previsto: {predicted_team}, "
        f"vencedor real: {real_winner_team}, "
        f"odds: casa {row['home_moneyline']}, fora {row['away_moneyline']}"
    )

# Aplicar a função no DataFrame de predições
df_semana['prediction_display'] = df_semana.apply(display_prediction, axis=1)

# Exibir as predições para todos os jogos da semana escolhida
print("\nPredições para os jogos da semana:")
for pred in df_semana['prediction_display']:
    print(pred)

# Calcular o lucro de cada jogo
df_semana['lucro'] = df_semana.apply(calcular_lucro, axis=1)

# Calcular métricas da semana
acertos = (df_semana['predicted_winner'] == df_semana['winner']).sum()
total_jogos = len(df_semana[df_semana['winner'].notna()])  # Ignorar jogos sem resultado
assertividade = (acertos / total_jogos * 100) if total_jogos > 0 else 0
lucro_total = df_semana['lucro'].sum()
porcentagem_lucro = (lucro_total / (total_jogos * 100)) * 100 if total_jogos > 0 else 0

# Exibir resultado geral da semana
print("\nResultados da Semana:")
print(f"Total de jogos: {total_jogos}")
print(f"Acertos: {acertos}")
print(f"Assertividade: {assertividade:.2f}%")
print(f"Lucro total: ${lucro_total:.2f}")
print(f"Porcentagem de lucro: {porcentagem_lucro:.2f}%")


Digite o número da semana (por exemplo, 1 para semana 1):  1



Predições para os jogos da semana:
KC vs BAL, vencedor previsto: KC, vencedor real: KC, odds: casa -148.0, fora 124.0
PHI vs GB, vencedor previsto: PHI, vencedor real: PHI, odds: casa -130.0, fora 110.0
ATL vs PIT, vencedor previsto: PIT, vencedor real: PIT, odds: casa -192.0, fora 160.0
BUF vs ARI, vencedor previsto: BUF, vencedor real: BUF, odds: casa -310.0, fora 250.0
CHI vs TEN, vencedor previsto: CHI, vencedor real: CHI, odds: casa -198.0, fora 164.0
CIN vs NE, vencedor previsto: NE, vencedor real: NE, odds: casa -375.0, fora 295.0
IND vs HOU, vencedor previsto: HOU, vencedor real: HOU, odds: casa 130.0, fora -155.0
MIA vs JAX, vencedor previsto: MIA, vencedor real: MIA, odds: casa -180.0, fora 150.0
NO vs CAR, vencedor previsto: NO, vencedor real: NO, odds: casa -192.0, fora 160.0
NYG vs MIN, vencedor previsto: MIN, vencedor real: MIN, odds: casa -105.0, fora -115.0
LAC vs LV, vencedor previsto: LAC, vencedor real: LAC, odds: casa -155.0, fora 130.0
SEA vs DEN, vencedor previst