# **Modelo para prever Gol no Primeiro Tempo**


## Modelagem do problema
### **Contexto de Uso**
Este modelo será demonstrado no camarote da IBM no Allianz Parque, durante partidas de futebol. Um vendedor da IBM usará as previsões em tempo real para impressionar leads e clientes, demonstrando como as tecnologias de IA da IBM podem resolver problemas complexos e imprevisíveis, como prever gols no primeiro tempo. O objetivo é mostrar a capacidade computacional da IBM e seu valor em aplicações de negócios, visando conquistar novos clientes.
Neste contexto de mercado, a confiança nas previsões é fundamental. O cliente final verá apenas as previsões do modelo, enquanto o time técnico da IBM terá acesso às métricas detalhadas de desempenho. Portanto, é essencial que o modelo apresente resultados robustos e confiáveis, garantindo que o cliente final tenha uma experiência positiva e confiável.

### **Problema a Ser Modelado**
O desafio é construir um modelo que, com base em variáveis numéricas derivadas de estatísticas de jogos anteriores, possa prever se o time da casa ou visitante marcará um gol no primeiro tempo. O problema é uma classificação binária, com as classes 1 (Gol no primeiro tempo) e 0 (Sem gol no primeiro tempo). Dado o cenário de uso, é crucial que o modelo seja altamente preciso, equilibrando corretamente F1-Score, AUC-ROC, e Log Loss, as métricas principais que garantirão a confiança do cliente nas previsões.
Como o problema envolve somente variáveis numéricas, o modelo deve ser ajustado de forma que capture as relações entre essas variáveis e a ocorrência de gols, utilizando técnicas que aproveitem esse tipo de dado para maximizar a precisão das previsões. O modelo precisa ser eficiente e interpretável, garantindo que qualquer ajuste necessário possa ser feito com base nas importâncias das features e que suas previsões sejam precisas o suficiente para suportar a apresentação.

### **Contexto do Projeto**
O projeto tem como objetivo o desenvolvimento de um modelo preditivo para identificar se um dos times fará ou não um gol no primeiro tempo de uma partida de futebol. O problema é modelado como uma classificação binária, onde o objetivo é prever "gol no primeiro tempo" (1) ou "sem gol no primeiro tempo" (0). As previsões são feitas com base em dados históricos e estatísticos da Série A do Campeonato Brasileiro de 2024.
A metodologia adotada para o desenvolvimento é o CRISP-DM (Cross Industry Standard Process for Data Mining), amplamente utilizada em projetos de mineração de dados, e combinada com Metodologias Ágeis, permitindo flexibilidade e entregas contínuas ao longo do projeto.

### **Tecnologias e Metodologias**
O Random Forest foi escolhido como o modelo inicial, dada sua eficácia em lidar com grandes conjuntos de variáveis numéricas. Esse algoritmo, além de robusto em problemas de classificação binária, fornece uma análise clara da importância das features, permitindo ajustes nas variáveis selecionadas para otimizar o desempenho do modelo.
Combinando essas tecnologias com técnicas de validação cruzada e ajustes de hiperparâmetros, o objetivo é entregar um modelo ajustado, robusto e de alta confiança, adequado ao contexto do mercado.


## Organização dos Dados
Os dados disponibilizados pelo parceiro incluem dados históricos de jogadores e suas estatísticas, além de variáveis associadas aos jogos, como times da casa e visitantes. Nesse sentido, os dados foram organizados da seguinte forma:

**Conjunto de Treinamento:** Dados separados para o treinamento do modelo; nesse momento, cerca de 80% dos dados foram destinados ao conjunto de treinamento, visto que temos acesso a um conjunto de dados limitado.

**Conjunto de Validação:** Nesse caso, não necessariamente define um novo subconjunto ao lado dos de treinamento e de testes, mas são os subconjuntos de dados utilizados durante o treinamento para verificar o desempenho do modelo e ajustar hiperparâmetros, garantindo que ele não sofra de overfitting. Nesse sentido, foi utilizada a validação cruzada para reconhecimento da consistência de performance do modelo, com ajuste manual e arbritário de folds (subconjuntos ainda menores criados para a realização de treinamentos intensivos e aproveitamento maior dos dados durante treinamento, o que auxilia em casos de bases de dados reduzidas).

**Conjunto de Testes:** Um conjunto de dados separado que o modelo não vê durante o treinamento. Ele é usado para avaliar a performance real do modelo em dados novos e garantir uma avaliação justa de seu desempenho. Nesse momento, cerca de 20% dos dados está destinada aos testes.

Os dados principais incluíram variáveis como:

**Quantidade de gols pelo time da casa (home_team_goal_count_half_time):** Representa se o time da casa fez (ou não) gol no primeiro tempo da partida

**Quantidade de gols pelo time visitante (away_team_goal_count_half_time):** Representa se o time visitante fez (ou não) gol no primeiro tempo da partida

Por fim, conforme a modelagem do problema apresentada anteriormente, essas colunas, que eram inicialmente numéricas, foram tratadas para representar um problema de classificação binária. Dessa forma, a anterior quantidade de gols foi substituída por 0 ou 1, para representar somente a ocorrência de gols durante o primeiro tempo regular da partida.   

## Escolha de Métricas e Justificativa

### **F1-Score**
**O que é:** Média harmônica entre precisão e revocação, proporcionando uma visão equilibrada da performance do modelo.

**Importância:** Garante equilíbrio entre identificação correta de gols e minimização de erros, assegurando robustez.

**Valores:** Máximo: 1 (perfeito), Mínimo: 0 (nenhuma precisão/revocação).

**Interpretação:** F1-Score alto mostra equilíbrio entre identificar gols e evitar erros. F1-Score baixo indica ajuste inadequado, afetando a confiança.

**Justificativa:** Escolhido por balancear precisão e revocação, essencial para garantir previsões robustas e confiáveis ao cliente final.

### **AUC-ROC**
**O que é:** Mede a capacidade do modelo de distinguir entre classes, plotando verdadeiros positivos contra falsos positivos.

**Importância:** Avalia a eficácia geral do modelo em diferenciar gols de não gols, aumentando a confiança no modelo.

**Valores:** Máximo: 1 (perfeito), Mínimo: 0.5 (aleatório).

**Interpretação:** AUC-ROC alto indica boa discriminação entre classes, essencial para lidar com a complexidade das partidas.

**Justificativa:** Mostra a capacidade do modelo de diferenciar entre classes em vários limiares, reforçando a confiança nas previsões.

### **Log Loss**
**O que é:** Mede a qualidade das previsões probabilísticas, penalizando previsões erradas mais quanto mais confiantes forem.

**Importância:** Avalia a confiança do modelo, garantindo previsões precisas e confiáveis.

**Valores:** Máximo: ∞ (pior modelo), Mínimo: 0 (perfeito).

**Interpretação:** Log Loss baixo reflete alta confiança nas previsões corretas, crucial para demonstrar confiabilidade.

**Justificativa:** Log Loss reforça a qualidade das previsões, essencial para demonstrar credibilidade ao cliente.

### **Conclusão**
Essas métricas garantem um modelo robusto e confiável para apresentação ao cliente final. O F1-Score equilibra performance, o AUC-ROC demonstra discriminação, e o Log Loss avalia a qualidade probabilística, essenciais para previsões confiáveis e convincentes.

## Entendimento e Análise Exploratória dos Dados
Nesta etapa, o código carrega um arquivo CSV contendo dados sobre partidas de futebol da Série A de 2024 e realiza uma análise exploratória inicial. Ele utiliza bibliotecas como pandas para manipular dataframes e seaborn e matplotlib.pyplot para visualizações gráficas.

O primeiro passo é filtrar as partidas com status "complete", garantindo que apenas os jogos concluídos sejam considerados para análise. Em seguida, verifica-se a contagem dos diferentes status dos jogos, assegurando que o dataset está corretamente formatado. Algumas colunas irrelevantes, como horário e nome do estádio, são eliminadas para evitar ruído no modelo, focando apenas nas informações úteis para a predição de gols no primeiro tempo.



In [None]:
# Importa as bibliotecas necessárias
import pandas as pd  # Manipulação de dados em dataframes
import seaborn as sns  # Visualização de dados baseada em gráficos
import matplotlib.pyplot as plt  # Biblioteca de gráficos
import numpy as np  # Biblioteca para manipulação numérica, arrays e operações matemáticas

In [None]:
# Carrega o arquivo CSV contendo o histórico de partidas de futebol da Série A 2024
df = pd.read_csv("/content/brazil-serie-a-matches-2024-to-2024-stats (5).csv", delimiter=";", on_bad_lines='skip')
# Lê o arquivo CSV usando ';' como delimitador e ignora linhas com problemas no formato

In [None]:
# Filtra as partidas que estão completas
df = df[df["status"] == "complete"]
# Filtra o DataFrame, mantendo apenas as partidas cujo status é "complete" (jogos terminados)

# Conta quantas vezes cada status aparece na coluna "status"
df["status"].value_counts()
# Verifica se os status das partidas estão corretos e quantos jogos estão completos

In [None]:
# Remove colunas inadequadas para a modelagem
df = df.drop(columns=["timestamp", "date_GMT", "status", "attendance", "referee", "home_team_goal_timings",
                      "away_team_goal_timings", "stadium_name", "Game Week", "home_team_goal_count", "away_team_goal_count",
                      "total_goal_count", "total_goals_at_half_time", "away_team_goal_count_half_time"])
# Elimina colunas que não são necessárias para o modelo, como informações de horário, público e árbitro
# Remove colunas relacionadas ao número de gols (contagem total e por time), pois essas são estatísticas obtidas somente após o término do jogo

## Pré-Processamento dos Dados
O pré-processamento inclui a limpeza dos dados, transformando-os em um formato adequado para o modelo de machine learning.

Um passo importante aqui é a transformação da coluna de gols do time da casa no primeiro tempo em uma variável binária (1: Gol, 0: Sem Gol), tornando o problema de classificação binária.

Também é realizado o tratamento de variáveis categóricas, como os nomes dos times, utilizando pd.get_dummies, que cria variáveis dummy (0 ou 1) para representar as equipes. Esta transformação é crucial para que o modelo possa lidar com essas variáveis de forma numérica.

Além disso, o código identifica valores ausentes e realiza a normalização das variáveis independentes, ajustando os dados para uma média de 0 e desvio padrão de 1 com StandardScaler.

In [None]:
# Conta o número de valores nulos por coluna no dataframe
missing_values_count = df.isnull().sum()
print(missing_values_count)
# Exibe a quantidade de valores ausentes (nulos) em cada coluna, para identificar a necessidade de tratamento

In [None]:
# Aplica uma transformação binária à coluna de gols no 1º tempo do time da casa
df["home_team_goal_count_half_time"] = df["home_team_goal_count_half_time"].apply(lambda x: 1 if x > 0 else 0)
# Converte a coluna que contém o número de gols do time da casa no 1º tempo em uma variável binária (1: Gol, 0: Sem Gol)

# Conta os valores únicos na nova coluna binária
df["home_team_goal_count_half_time"].value_counts()
# Exibe quantas partidas resultaram em gol (1) ou não (0) no 1º tempo para o time da casa

In [None]:
# Converte colunas categóricas (nomes dos times) em variáveis dummy (variáveis binárias) para o modelo
df = pd.get_dummies(df, columns=['home_team_name', 'away_team_name'])
# Transforma os nomes dos times em colunas com valores binários (0 ou 1) para que possam ser usadas no modelo preditivo

In [None]:
outliers_index_list = []

for col in df.select_dtypes(include=np.number).columns:
  Q1 = df[col].quantile(0.25)
  Q3 = df[col].quantile(0.75)
  IQR = Q3 - Q1
  # Definir limites para outliers
  lower_bound = Q1 - 1.5 * IQR
  upper_bound = Q3 + 1.5 * IQR
  # Identificar outliers
  outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]

  # Imprimir resultados
  if outliers.empty:
    print(col, ": ")
    print(f"Nenhum outlier encontrado em {col}\n")
  else:
    # Armazenar o índice do dicionário
    outliers_index_list.extend(outliers.index.tolist())
    print(col, ": ")
    print(outliers[col])
    print(f"Mediana de {col}: ", df[col].median(), "\n")

# Remove duplicatas e ordena em ordem crescente
outliers_index_list = set(outliers_index_list)
outliers_index_list = sorted(outliers_index_list)

# # Criar um dataframe com as linhas com o índice reconhecido ! ! !
print("Linhas com outliers: ")
print(outliers_index_list)

outliers_df = pd.DataFrame()

for index in outliers_index_list:
  outlier_row = pd.Series(df.loc[index])
  outliers_df = pd.concat([outliers_df, outlier_row.to_frame().T], axis=0)


In [None]:
# Retira 20 linhas em que as métricas inconsistentes estão afetando a performance do modelo
df = df.loc[19:245]
# Exibe o DataFrame
df

## Engenharia de features com Random Forest Importance
### **Relevância das features**:
A técnica de Random Forest Importance avalia a relevância de cada feature com base na sua contribuição para a redução da impureza nas árvores de decisão que compõem o Random Forest. Cada árvore avalia um subconjunto aleatório das features e, durante o processo de treinamento, calcula-se a redução de impureza (geralmente usando Gini ou Entropia) gerada por uma feature ao dividir os dados.

A importância de uma feature é a média da redução de impureza acumulada em todas as árvores do modelo. Assim, quanto maior a redução, mais relevante é a feature para a predição.

### **Seleção das features**:
O método SelectFromModel com o parâmetro prefit=True é usado para realizar a seleção automática de features com base na importância calculada pelo modelo que já foi ajustado (neste caso, o RandomForestClassifier). Esse método permite selecionar as features mais importantes, ou seja, aquelas que contribuem mais para a capacidade preditiva do modelo.

Após o ajuste do modelo rf_selector, o SelectFromModel avalia as importâncias de cada feature e seleciona automaticamente aquelas cujos valores estão acima de um determinado limiar, eliminando as menos relevantes. Isso ajuda a simplificar o modelo e a reduzir o risco de overfitting, mantendo apenas as features mais impactantes.


In [None]:
# Importa a função para dividir os dados em treino e teste
from sklearn.model_selection import train_test_split

# Define as variáveis independentes (X) e a dependente (y)
X = df.drop(columns=["home_team_goal_count_half_time"])  # X contém as features (todas menos o alvo)
y = df["home_team_goal_count_half_time"]  # y é a variável alvo (gol no 1º tempo do time da casa)

# Divide os dados em conjuntos de treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Realiza a divisão dos dados, garantindo que 20% sejam reservados para teste e os 80% restantes para treino

In [None]:
# Importa a biblioteca para normalizar os dados
from sklearn.preprocessing import StandardScaler

# Cria o objeto StandardScaler para normalização
scaler = StandardScaler()

# Ajusta o scaler aos dados de treino e transforma os dados
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)
# Normaliza as features (X), ajustando os dados para que tenham média 0 e desvio padrão 1, para evitar discrepâncias entre escalas

In [None]:
# Importa as bibliotecas para seleção de features e o classificador Random Forest
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

# Treina um modelo de Random Forest para selecionar as melhores features
rf_selector = RandomForestClassifier(random_state=42)
rf_selector.fit(X_train_scaled, y_train)
# Ajusta o classificador Random Forest com os dados de treino, identificando a importância de cada feature

# Seleciona as features mais relevantes com base no modelo Random Forest
selector = SelectFromModel(rf_selector, prefit=True)
X_train_selected = selector.transform(X_train_scaled)
X_test_selected = selector.transform(X_test_scaled)
# Transforma os dados de treino e teste para conter apenas as features mais importantes, segundo o modelo

In [None]:
# Obter as importâncias das features
importances = rf_selector.feature_importances_

# Obter os nomes das features originais
features = X.columns

# Filtrar as features selecionadas
selected_features = features[selector.get_support()]

feature_importance_list = []

# Exibir as features mais importantes e suas importâncias
for feature, importance in zip(selected_features, importances[selector.get_support()]):
    feature_importance_list.append((feature, importance))

# Ordena as features por importância
feature_importance_list.sort(key=lambda x: x[1], reverse=True)

feature_importance_list

plt.figure(figsize=(10, 6))
plt.bar(data=feature_importance_list[:10], x=[x[0] for x in feature_importance_list[:10]], height=[x[1] for x in feature_importance_list[:10]])
plt.xticks(rotation=90)
plt.ylabel('Importância')


## Treinamento do Modelo
O modelo preditivo escolhido é o RandomForestClassifier, um algoritmo de aprendizado de ensemble que combina o poder de múltiplas árvores de decisão para criar um modelo mais robusto e estável. O algoritmo constrói diversas árvores utilizando amostras diferentes dos dados de treino e seleciona subgrupos aleatórios de features em cada nó, aumentando a diversidade entre as árvores e reduzindo o risco de overfitting. O RandomForestClassifier é conhecido por sua resistência a dados ruidosos e pela capacidade de capturar interações complexas entre variáveis, o que o torna uma escolha ideal para problemas preditivos complexos, como prever se haverá um gol no primeiro tempo de uma partida.

## Validação Cruzada
Para garantir que o modelo seja avaliado de forma consistente e generalizável, foi utilizada a técnica de Validação Cruzada com 5 folds. Essa abordagem divide o conjunto de dados em 5 partes iguais, onde o modelo é treinado em 4 dessas partes e testado na parte restante. Esse processo é repetido 5 vezes, garantindo que cada parte seja usada como conjunto de teste uma vez. A validação cruzada fornece uma avaliação mais confiável do desempenho do modelo ao evitar que o resultado dependa de uma única divisão dos dados.

Durante a validação, o modelo é avaliado utilizando métricas essenciais como Acurácia, Precisão, Recall, F1-Score, AUC-ROC e Log Loss. Essas métricas fornecem uma visão abrangente sobre o desempenho, medindo desde a capacidade do modelo em prever corretamente as classes (gols ou não no 1º tempo), até a taxa de falsos positivos e a qualidade geral das previsões probabilísticas.

Após o processo de validação, o modelo é treinado no conjunto completo de dados e as previsões são geradas no conjunto de teste, permitindo uma análise final do seu desempenho.

In [None]:
# Define o modelo Random Forest que será usado para treinar e avaliar
rf_model = RandomForestClassifier(random_state=42)

In [None]:
# Dicionário para armazenar os resultados da validação cruzada para o Random Forest
cv_results_dict = {
    'Modelo': [],
    'Acurácia (CV)': [],
    'Precisão (CV)': [],
    'Recall (CV)': [],
    'F1-Score (CV)': [],
    'AUC-ROC (CV)': [],
    'Log Loss (CV)': []
}

In [None]:
# Importa função para realizar validação cruzada
from sklearn.model_selection import cross_validate

# Define o número de folds (divisões) para a validação cruzada
n_folds = 5

# Realiza validação cruzada com diferentes métricas para o modelo Random Forest
cv_results = cross_validate(rf_model, X_train_selected, y_train, cv=n_folds,
                            scoring=['accuracy', 'precision', 'recall', 'f1', 'roc_auc', 'neg_log_loss'])

In [None]:
# Armazena os resultados médios das métricas no dicionário
cv_results_dict['Modelo'].append('Random Forest')
cv_results_dict['Acurácia (CV)'].append(cv_results['test_accuracy'].mean())
cv_results_dict['Precisão (CV)'].append(cv_results['test_precision'].mean())
cv_results_dict['Recall (CV)'].append(cv_results['test_recall'].mean())
cv_results_dict['F1-Score (CV)'].append(cv_results['test_f1'].mean())
cv_results_dict['AUC-ROC (CV)'].append(cv_results['test_roc_auc'].mean())
cv_results_dict['Log Loss (CV)'].append(-cv_results['test_neg_log_loss'].mean())
# Valida o modelo Random Forest com 5 folds e calcula as métricas de desempenho, como acurácia, precisão, recall, F1-Score, AUC-ROC e Log Loss

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Supondo que 'y_true' e 'y_pred' são as verdadeiras e preditas classes
cm = confusion_matrix(y_test, y_pred, normalize='true')

# Plotando a matriz de confusão normalizada
plt.figure(figsize=(4,3))
sns.heatmap(cm, annot=True, fmt='.2', cmap='Blues')
plt.title('Matriz de Confusão Normalizada')
plt.ylabel('Classe Real')
plt.xlabel('Classe Predita')
plt.show()


In [None]:
# Converte os resultados da validação cruzada para um DataFrame para facilitar a visualização
cv_results_df = pd.DataFrame(cv_results_dict)

# Exibe os resultados de validação cruzada
print("\nDesempenho do Modelo Random Forest com Validação Cruzada:")
cv_results_df

## Discussão dos Resultados do Modelo e Conclusões
### **Comparação com o Contexto de Mercado**
Dado o cenário de demonstração ao vivo no camarote da IBM no Allianz Parque, a confiança e robustez das previsões são fundamentais para impressionar leads e clientes, demonstrando o poder das tecnologias da IBM. No entanto, as métricas atuais indicam que o modelo não está suficientemente refinado para garantir essa confiança:
#### - **F1-Score (0.57):**
Reflete um equilíbrio mediano entre a identificação de jogos com gols e a minimização de falsos positivos. No contexto de mercado, um F1-Score mais alto seria preferível para demonstrar que o modelo tem precisão e capacidade de recuperação adequadas, garantindo que o cliente veja previsões mais certeiras e menos falhas.
#### - **AUC-ROC (0.6):**
Esta métrica revela que o modelo consegue discriminar entre jogos com e sem gols, mas com uma performance ligeiramente acima do acaso. Para garantir que o modelo é confiável e robusto o suficiente para uma apresentação ao vivo, uma AUC-ROC acima de 0.7 seria recomendada, proporcionando mais confiança na capacidade do modelo de distinguir entre as classes (gol/no gol).
#### - **Log Loss (0.69):**
Indica que o modelo ainda não está fazendo previsões probabilísticas com alta confiança. Idealmente, um valor de Log Loss mais próximo de 0 garantiria que o modelo está não apenas prevendo corretamente, mas também gerando previsões confiáveis, o que é essencial em um ambiente de demonstração onde cada previsão errada pode afetar a credibilidade da IBM.
### **Oportunidades de Melhoria**
Dado que o desempenho atual é razoável, mas longe do ideal para um ambiente de vendas com alto impacto, os próximos passos devem incluir uma comparação com outros modelos preditivos, como Gradient Boosting e XG Boost, para identificar qual deles oferece o melhor desempenho para o problema de classificação binária de gols no primeiro tempo. Além disso, ajustes de hiperparâmetros e uso de técnicas avançadas de validação cruzada podem ajudar a melhorar as métricas escolhidas, principalmente no aumento do F1-Score e da AUC-ROC, além da redução do Log Loss.
### **Foco nas Métricas para Apresentação ao Cliente**
Portanto, melhorias nessas métricas são imprescindíveis para elevar a qualidade do modelo a um nível em que a IBM possa apresentar previsões com mais confiança e precisão, consolidando a credibilidade de suas tecnologias perante os leads e clientes durante as demonstrações no Allianz Parque.
