# **Modelo para prever Gol no Primeiro Tempo**


## Modelagem do problema
### **Contexto de Uso**
Este modelo será demonstrado no camarote da IBM no Allianz Parque, durante partidas de futebol. Um vendedor da IBM usará as previsões em tempo real para impressionar leads e clientes, demonstrando como as tecnologias de IA da IBM podem resolver problemas complexos e imprevisíveis, como prever gols no primeiro tempo. O objetivo é mostrar a capacidade computacional da IBM e seu valor em aplicações de negócios, visando conquistar novos clientes.
Neste contexto de mercado, a confiança nas previsões é fundamental. O cliente final verá apenas as previsões do modelo, enquanto o time técnico da IBM terá acesso às métricas detalhadas de desempenho. Portanto, é essencial que o modelo apresente resultados robustos e confiáveis, garantindo que o cliente final tenha uma experiência positiva e confiável.

### **Problema a Ser Modelado**
O desafio é construir um modelo que, com base em variáveis numéricas derivadas de estatísticas de jogos anteriores, possa prever se o time da casa ou visitante marcará um gol no primeiro tempo. O problema é uma classificação binária, com as classes 1 (Gol no primeiro tempo) e 0 (Sem gol no primeiro tempo). Dado o cenário de uso, é crucial que o modelo seja altamente preciso, equilibrando corretamente F1-Score, AUC-ROC, e Log Loss, as métricas principais que garantirão a confiança do cliente nas previsões.
Como o problema envolve somente variáveis numéricas, o modelo deve ser ajustado de forma que capture as relações entre essas variáveis e a ocorrência de gols, utilizando técnicas que aproveitem esse tipo de dado para maximizar a precisão das previsões. O modelo precisa ser eficiente e interpretável, garantindo que qualquer ajuste necessário possa ser feito com base nas importâncias das features e que suas previsões sejam precisas o suficiente para suportar a apresentação.

### **Contexto do Projeto**
O projeto tem como objetivo o desenvolvimento de um modelo preditivo para identificar se um dos times fará ou não um gol no primeiro tempo de uma partida de futebol. O problema é modelado como uma classificação binária, onde o objetivo é prever "gol no primeiro tempo" (1) ou "sem gol no primeiro tempo" (0). As previsões são feitas com base em dados históricos e estatísticos da Série A do Campeonato Brasileiro de 2024.
A metodologia adotada para o desenvolvimento é o CRISP-DM (Cross Industry Standard Process for Data Mining), amplamente utilizada em projetos de mineração de dados, e combinada com Metodologias Ágeis, permitindo flexibilidade e entregas contínuas ao longo do projeto.

### **Tecnologias e Metodologias**
O Random Forest foi escolhido como o modelo inicial, dada sua eficácia em lidar com grandes conjuntos de variáveis numéricas. Esse algoritmo, além de robusto em problemas de classificação binária, fornece uma análise clara da importância das features, permitindo ajustes nas variáveis selecionadas para otimizar o desempenho do modelo.
Combinando essas tecnologias com técnicas de validação cruzada e ajustes de hiperparâmetros, o objetivo é entregar um modelo ajustado, robusto e de alta confiança, adequado ao contexto do mercado.


## Organização dos Dados
Os dados disponibilizados pelo parceiro incluem dados históricos de jogadores e suas estatísticas, além de variáveis associadas aos jogos, como times da casa e visitantes. Nesse sentido, os dados foram organizados da seguinte forma:

**Conjunto de Treinamento:** Dados separados para o treinamento do modelo; nesse momento, cerca de 80% dos dados foram destinados ao conjunto de treinamento, visto que temos acesso a um conjunto de dados limitado.

**Conjunto de Validação:** Nesse caso, não necessariamente define um novo subconjunto ao lado dos de treinamento e de testes, mas são os subconjuntos de dados utilizados durante o treinamento para verificar o desempenho do modelo e ajustar hiperparâmetros, garantindo que ele não sofra de overfitting. Nesse sentido, foi utilizada a validação cruzada para reconhecimento da consistência de performance do modelo, com ajuste manual e arbritário de folds (subconjuntos ainda menores criados para a realização de treinamentos intensivos e aproveitamento maior dos dados durante treinamento, o que auxilia em casos de bases de dados reduzidas).

**Conjunto de Testes:** Um conjunto de dados separado que o modelo não vê durante o treinamento. Ele é usado para avaliar a performance real do modelo em dados novos e garantir uma avaliação justa de seu desempenho. Nesse momento, cerca de 20% dos dados está destinada aos testes.

Os dados principais incluíram variáveis como:

**Quantidade de gols pelo time da casa (home_team_goal_count_half_time):** Representa se o time da casa fez (ou não) gol no primeiro tempo da partida

**Quantidade de gols pelo time visitante (away_team_goal_count_half_time):** Representa se o time visitante fez (ou não) gol no primeiro tempo da partida

Por fim, conforme a modelagem do problema apresentada anteriormente, essas colunas, que eram inicialmente numéricas, foram tratadas para representar um problema de classificação binária. Dessa forma, a anterior quantidade de gols foi substituída por 0 ou 1, para representar somente a ocorrência de gols durante o primeiro tempo regular da partida.   

## Escolha de Métricas e Justificativa

### **F1-Score**
**O que é:** Média harmônica entre precisão e revocação, proporcionando uma visão equilibrada da performance do modelo.

**Importância:** Garante equilíbrio entre identificação correta de gols e minimização de erros, assegurando robustez.

**Valores:** Máximo: 1 (perfeito), Mínimo: 0 (nenhuma precisão/revocação).

**Interpretação:** F1-Score alto mostra equilíbrio entre identificar gols e evitar erros. F1-Score baixo indica ajuste inadequado, afetando a confiança.

**Justificativa:** Escolhido por balancear precisão e revocação, essencial para garantir previsões robustas e confiáveis ao cliente final.

### **AUC-ROC**
**O que é:** Mede a capacidade do modelo de distinguir entre classes, plotando verdadeiros positivos contra falsos positivos.

**Importância:** Avalia a eficácia geral do modelo em diferenciar gols de não gols, aumentando a confiança no modelo.

**Valores:** Máximo: 1 (perfeito), Mínimo: 0.5 (aleatório).

**Interpretação:** AUC-ROC alto indica boa discriminação entre classes, essencial para lidar com a complexidade das partidas.

**Justificativa:** Mostra a capacidade do modelo de diferenciar entre classes em vários limiares, reforçando a confiança nas previsões.

### **Log Loss**
**O que é:** Mede a qualidade das previsões probabilísticas, penalizando previsões erradas mais quanto mais confiantes forem.

**Importância:** Avalia a confiança do modelo, garantindo previsões precisas e confiáveis.

**Valores:** Máximo: ∞ (pior modelo), Mínimo: 0 (perfeito).

**Interpretação:** Log Loss baixo reflete alta confiança nas previsões corretas, crucial para demonstrar confiabilidade.

**Justificativa:** Log Loss reforça a qualidade das previsões, essencial para demonstrar credibilidade ao cliente.

### **Conclusão**
Essas métricas garantem um modelo robusto e confiável para apresentação ao cliente final. O F1-Score equilibra performance, o AUC-ROC demonstra discriminação, e o Log Loss avalia a qualidade probabilística, essenciais para previsões confiáveis e convincentes.

## Entendimento e Análise Exploratória dos Dados
Nesta etapa, o código carrega um arquivo CSV contendo dados sobre partidas de futebol da Série A de 2024 e realiza uma análise exploratória inicial. Ele utiliza bibliotecas como pandas para manipular dataframes e seaborn e matplotlib.pyplot para visualizações gráficas.

O primeiro passo é filtrar as partidas com status "complete", garantindo que apenas os jogos concluídos sejam considerados para análise. Em seguida, verifica-se a contagem dos diferentes status dos jogos, assegurando que o dataset está corretamente formatado. Algumas colunas irrelevantes, como horário e nome do estádio, são eliminadas para evitar ruído no modelo, focando apenas nas informações úteis para a predição de gols no primeiro tempo.



In [None]:
# Importa as bibliotecas necessárias
import pandas as pd  # Manipulação de dados em dataframes
import seaborn as sns  # Visualização de dados baseada em gráficos
import matplotlib.pyplot as plt  # Biblioteca de gráficos
import numpy as np  # Biblioteca para manipulação numérica, arrays e operações matemáticas

In [None]:
# Carrega o arquivo CSV contendo o histórico de partidas de futebol da Série A 2024
df = pd.read_csv("/content/brazil-serie-a-matches-2024-to-2024-stats (5).csv", delimiter=";", on_bad_lines='skip')
# Lê o arquivo CSV usando ';' como delimitador e ignora linhas com problemas no formato

In [None]:
# Filtra as partidas que estão completas
df = df[df["status"] == "complete"]
# Filtra o DataFrame, mantendo apenas as partidas cujo status é "complete" (jogos terminados)

# Conta quantas vezes cada status aparece na coluna "status"
df["status"].value_counts()
# Verifica se os status das partidas estão corretos e quantos jogos estão completos

In [None]:
# Remove colunas inadequadas para a modelagem
df = df.drop(columns=["timestamp", "date_GMT", "status", "attendance", "referee", "home_team_goal_timings",
                      "away_team_goal_timings", "stadium_name", "Game Week", "home_team_goal_count", "away_team_goal_count",
                      "total_goal_count", "total_goals_at_half_time", "away_team_goal_count_half_time", "home_team_second_half_cards", "away_team_second_half_cards"])
# Elimina colunas que não são necessárias para o modelo, como informações de horário, público e árbitro
# Remove colunas relacionadas ao número de gols (contagem total e por time), pois essas são estatísticas obtidas somente após o término do jogo

In [None]:
df.columns.tolist()

## Pré-Processamento dos Dados
O pré-processamento inclui a limpeza dos dados, transformando-os em um formato adequado para o modelo de machine learning.

Um passo importante aqui é a transformação da coluna de gols do time da casa no primeiro tempo em uma variável binária (1: Gol, 0: Sem Gol), tornando o problema de classificação binária.

Também é realizado o tratamento de variáveis categóricas, como os nomes dos times, utilizando pd.get_dummies, que cria variáveis dummy (0 ou 1) para representar as equipes. Esta transformação é crucial para que o modelo possa lidar com essas variáveis de forma numérica.

Além disso, o código identifica valores ausentes e realiza a normalização das variáveis independentes, ajustando os dados para uma média de 0 e desvio padrão de 1 com StandardScaler.

In [None]:
# Conta o número de valores nulos por coluna no dataframe
missing_values_count = df.isnull().sum()
print(missing_values_count)
# Exibe a quantidade de valores ausentes (nulos) em cada coluna, para identificar a necessidade de tratamento

In [None]:
# Aplica uma transformação binária à coluna de gols no 1º tempo do time da casa
df["home_team_goal_count_half_time"] = df["home_team_goal_count_half_time"].apply(lambda x: 1 if x > 0 else 0)
# Converte a coluna que contém o número de gols do time da casa no 1º tempo em uma variável binária (1: Gol, 0: Sem Gol)

# Conta os valores únicos na nova coluna binária
df["home_team_goal_count_half_time"].value_counts()
# Exibe quantas partidas resultaram em gol (1) ou não (0) no 1º tempo para o time da casa

In [None]:
# Converte colunas categóricas (nomes dos times) em variáveis dummy (variáveis binárias) para o modelo
df = pd.get_dummies(df, columns=['home_team_name', 'away_team_name'])
# Transforma os nomes dos times em colunas com valores binários (0 ou 1) para que possam ser usadas no modelo preditivo

In [None]:
outliers_index_list = []

for col in df.select_dtypes(include=np.number).columns:
  Q1 = df[col].quantile(0.25)
  Q3 = df[col].quantile(0.75)
  IQR = Q3 - Q1
  # Definir limites para outliers
  lower_bound = Q1 - 1.5 * IQR
  upper_bound = Q3 + 1.5 * IQR
  # Identificar outliers
  outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]

  # Imprimir resultados
  if outliers.empty:
    print(col, ": ")
    print(f"Nenhum outlier encontrado em {col}\n")
  else:
    # Armazenar o índice do dicionário
    outliers_index_list.extend(outliers.index.tolist())
    print(col, ": ")
    print(outliers[col])
    print(f"Mediana de {col}: ", df[col].median(), "\n")

# Remove duplicatas e ordena em ordem crescente
outliers_index_list = set(outliers_index_list)
outliers_index_list = sorted(outliers_index_list)

# # Criar um dataframe com as linhas com o índice reconhecido ! ! !
print("Linhas com outliers: ")
print(outliers_index_list)

outliers_df = pd.DataFrame()

for index in outliers_index_list:
  outlier_row = pd.Series(df.loc[index])
  outliers_df = pd.concat([outliers_df, outlier_row.to_frame().T], axis=0)


In [None]:
# Lista de colunas que você deseja ajustar para outliers
cols_to_adjust = [
    "home_team_corner_count",
    "away_team_corner_count ",
    "away_team_yellow_cards",
    "home_team_shots ",
    "away_team_shots ",
    "away_team_shots_on_target",
    "home_team_shots_off_target",
    "away_team_shots_off_target",
]

# Substituir outliers pela média nas colunas especificadas
for col in cols_to_adjust:
    if col in df.columns:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        # Definir limites para outliers
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR

        # Identificar índices dos outliers
        outliers_indices = df[(df[col] < lower_bound) | (df[col] > upper_bound)].index

        # Calcular a média para substituir os outliers
        mean_value = df[col].mean()

        # Substituir os outliers pela média
        df.loc[outliers_indices, col] = mean_value

# Exibir o DataFrame atualizado
print("DataFrame após substituição de outliers:")
df


In [None]:
# Retira 20 linhas em que as métricas inconsistentes estão afetando a performance do modelo
df = df.loc[19:245]
# Exibe o DataFrame
df

In [None]:
# Confere se as classes da coluna alvo (classificação binária) estão equilibradas
df["home_team_goal_count_half_time"].value_counts()

### Tratamento de outliers
Reavaliando a presença de outliers, após a exclusão de linhas com métricas inconsistentes

In [None]:
outliers_index_list = []

for col in df.select_dtypes(include=np.number).columns:
  Q1 = df[col].quantile(0.25)
  Q3 = df[col].quantile(0.75)
  IQR = Q3 - Q1
  # Definir limites para outliers
  lower_bound = Q1 - 1.5 * IQR
  upper_bound = Q3 + 1.5 * IQR
  # Identificar outliers
  outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]

  # Imprimir resultados
  if outliers.empty:
    print(col, ": ")
    print(f"Nenhum outlier encontrado em {col}\n")
  else:
    # Armazenar o índice do dicionário
    outliers_index_list.extend(outliers.index.tolist())
    print(col, ": ")
    print(outliers[col])
    print(f"Mediana de {col}: ", df[col].median(), "\n")

# Remove duplicatas e ordena em ordem crescente
outliers_index_list = set(outliers_index_list)
outliers_index_list = sorted(outliers_index_list)

# # Criar um dataframe com as linhas com o índice reconhecido ! ! !
print("Linhas com outliers: ")
print(outliers_index_list)

outliers_df = pd.DataFrame()

for index in outliers_index_list:
  outlier_row = pd.Series(df.loc[index])
  outliers_df = pd.concat([outliers_df, outlier_row.to_frame().T], axis=0)


## Engenharia de features com Random Forest Importance
### **Relevância das features**:
A técnica de Random Forest Importance avalia a relevância de cada feature com base na sua contribuição para a redução da impureza nas árvores de decisão que compõem o Random Forest. Cada árvore avalia um subconjunto aleatório das features e, durante o processo de treinamento, calcula-se a redução de impureza (geralmente usando Gini ou Entropia) gerada por uma feature ao dividir os dados.

A importância de uma feature é a média da redução de impureza acumulada em todas as árvores do modelo. Assim, quanto maior a redução, mais relevante é a feature para a predição.

### **Seleção das features**:
O método SelectFromModel com o parâmetro prefit=True é usado para realizar a seleção automática de features com base na importância calculada pelo modelo que já foi ajustado (neste caso, o RandomForestClassifier). Esse método permite selecionar as features mais importantes, ou seja, aquelas que contribuem mais para a capacidade preditiva do modelo.

Após o ajuste do modelo rf_selector, o SelectFromModel avalia as importâncias de cada feature e seleciona automaticamente aquelas cujos valores estão acima de um determinado limiar, eliminando as menos relevantes. Isso ajuda a simplificar o modelo e a reduzir o risco de overfitting, mantendo apenas as features mais impactantes.


In [None]:
# Importa a função para dividir os dados em treino e teste
from sklearn.model_selection import train_test_split

# Define as variáveis independentes (X) e a dependente (y)
X = df.drop(columns=["home_team_goal_count_half_time"])  # X contém as features (todas menos o alvo)
y = df["home_team_goal_count_half_time"]  # y é a variável alvo (gol no 1º tempo do time da casa)

# Divide os dados em conjuntos de treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Realiza a divisão dos dados, garantindo que 20% sejam reservados para teste e os 80% restantes para treino

In [None]:
# Importa a biblioteca para normalizar os dados
from sklearn.preprocessing import StandardScaler

# Cria o objeto StandardScaler para normalização
scaler = StandardScaler()

# Ajusta o scaler aos dados de treino e transforma os dados
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)
# Normaliza as features (X), ajustando os dados para que tenham média 0 e desvio padrão 1, para evitar discrepâncias entre escalas

In [None]:
# Importa as bibliotecas para seleção de features e o classificador Random Forest
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

# Treina um modelo de Random Forest para selecionar as melhores features
rf_selector = RandomForestClassifier(random_state=42)
rf_selector.fit(X_train_scaled, y_train)
# Ajusta o classificador Random Forest com os dados de treino, identificando a importância de cada feature

# Seleciona as features mais relevantes com base no modelo Random Forest
selector = SelectFromModel(rf_selector, prefit=True)
X_train_selected = selector.transform(X_train_scaled)
X_test_selected = selector.transform(X_test_scaled)
# Transforma os dados de treino e teste para conter apenas as features mais importantes, segundo o modelo

In [None]:
# Obter as importâncias das features
importances = rf_selector.feature_importances_

# Obter os nomes das features originais
features = X.columns

# Filtrar as features selecionadas
selected_features = features[selector.get_support()]

feature_importance_list = []

# Exibir as features mais importantes e suas importâncias
for feature, importance in zip(selected_features, importances[selector.get_support()]):
    feature_importance_list.append((feature, importance))

# Ordena as features por importância
feature_importance_list.sort(key=lambda x: x[1], reverse=True)

# print(feature_importance_list[:20])
# Retorna o nome das features para criar uma lista com o nome das features

features_names = ["Mais de 1.5 gols no primeiro tempo em Porcentagem (Pré-Partida)",
                  "Mais de 1.5 gols no primeiro tempo em Porcentagem (Pré-Partida)",
                  "Faltas para o Time da Casa", "Posse de bola do Time da Casa",
                  "Gols esperados para Time da Casa", "Ambos times marcam gol em Porcentagem (Pré-Partida)",
                  "Chutes do Time da Casa", "Média de gols por partida (Pré-Partida)",
                  "Mais de 0.5 gol no segundo tempo em Porcentagem (Pré-Partida)", "Gols esperados para Time da Casa (Pré-Partida)",
                  "Média de cartões por partida (Pré-Partida)", "Gols esperados para Time Visitante (Pré-Partida)",
                  "Chutes fora do gol do Time Visitante", "Gols esperados para Time Visitante",
                  "Chutes ao gol pelo Time da Casa", "Pontos por jogo do Time da Casa (Atual)",
                  "Chutes fora do gol do Time da Casa", "Pontos por jogo do Time da Casa (Pré-Partida)",
                  "Média de escanteios por partida (Pré-Partida)"]

# Create a new list with the desired structure
feature_importance_list_updated = [(features_names[i], feature_importance_list[i][1]) for i in range(len(features_names))]

import matplotlib.pyplot as plt
import numpy as np

plt.figure(figsize=(10, 6))
# Use the updated list for plotting
plt.barh(y=[x[0] for x in feature_importance_list_updated], width=[x[1] for x in feature_importance_list_updated])
plt.xticks(np.arange(0, 0.06, 0.005))
plt.ylabel('Features')
plt.xlabel('Importância relativa para predição')
plt.title('Importância das features para predição do primeiro gol da partida pelo Time da Casa')
plt.show()

In [None]:
feature_importance_df = pd.DataFrame(feature_importance_list[:20], columns=["variável","relevância"])
feature_importance_df

## Treinamento do Modelo
O modelo preditivo escolhido é o RandomForestClassifier, um algoritmo de aprendizado de ensemble que combina o poder de múltiplas árvores de decisão para criar um modelo mais robusto e estável. O algoritmo constrói diversas árvores utilizando amostras diferentes dos dados de treino e seleciona subgrupos aleatórios de features em cada nó, aumentando a diversidade entre as árvores e reduzindo o risco de overfitting. O RandomForestClassifier é conhecido por sua resistência a dados ruidosos e pela capacidade de capturar interações complexas entre variáveis, o que o torna uma escolha ideal para problemas preditivos complexos, como prever se haverá um gol no primeiro tempo de uma partida.

## Validação Cruzada
Para garantir que o modelo seja avaliado de forma consistente e generalizável, foi utilizada a técnica de Validação Cruzada com 5 folds. Essa abordagem divide o conjunto de dados em 5 partes iguais, onde o modelo é treinado em 4 dessas partes e testado na parte restante. Esse processo é repetido 5 vezes, garantindo que cada parte seja usada como conjunto de teste uma vez. A validação cruzada fornece uma avaliação mais confiável do desempenho do modelo ao evitar que o resultado dependa de uma única divisão dos dados.

Durante a validação, o modelo é avaliado utilizando métricas essenciais como Acurácia, Precisão, Recall, F1-Score, AUC-ROC e Log Loss. Essas métricas fornecem uma visão abrangente sobre o desempenho, medindo desde a capacidade do modelo em prever corretamente as classes (gols ou não no 1º tempo), até a taxa de falsos positivos e a qualidade geral das previsões probabilísticas.

Após o processo de validação, o modelo é treinado no conjunto completo de dados e as previsões são geradas no conjunto de teste, permitindo uma análise final do seu desempenho.

In [None]:
# Define o modelo Random Forest que será usado para treinar e avaliar
rf_model = RandomForestClassifier(random_state=42)

In [None]:
# Dicionário para armazenar os resultados da validação cruzada para o Random Forest
cv_results_dict = {
    'Modelo': [],
    'Acurácia (CV)': [],
    'Precisão (CV)': [],
    'Recall (CV)': [],
    'F1-Score (CV)': [],
    'AUC-ROC (CV)': [],
    'Log Loss (CV)': []
}

In [None]:
# Importa função para realizar validação cruzada
from sklearn.model_selection import cross_validate

# Define o número de folds (divisões) para a validação cruzada
n_folds = 10

# Realiza validação cruzada com diferentes métricas para o modelo Random Forest
cv_results = cross_validate(rf_model, X_train_selected, y_train, cv=n_folds,
                            scoring=['accuracy', 'precision', 'recall', 'f1', 'roc_auc', 'neg_log_loss'])

In [None]:
# Armazena os resultados médios das métricas no dicionário
cv_results_dict['Modelo'].append('Random Forest')
cv_results_dict['Acurácia (CV)'].append(cv_results['test_accuracy'].mean())
cv_results_dict['Precisão (CV)'].append(cv_results['test_precision'].mean())
cv_results_dict['Recall (CV)'].append(cv_results['test_recall'].mean())
cv_results_dict['F1-Score (CV)'].append(cv_results['test_f1'].mean())
cv_results_dict['AUC-ROC (CV)'].append(cv_results['test_roc_auc'].mean())
cv_results_dict['Log Loss (CV)'].append(-cv_results['test_neg_log_loss'].mean())
# Valida o modelo Random Forest com 5 folds e calcula as métricas de desempenho, como acurácia, precisão, recall, F1-Score, AUC-ROC e Log Loss

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Treina o modelo com todo o conjunto de treino
rf_model.fit(X_train_selected, y_train)

# Realiza previsões no conjunto de teste
y_pred = rf_model.predict(X_test_selected)

# Supondo que 'y_true' e 'y_pred' são as verdadeiras e preditas classes
cm = confusion_matrix(y_test, y_pred, normalize='true')

# Plotando a matriz de confusão normalizada
plt.figure(figsize=(4,3))
sns.heatmap(cm, annot=True, fmt='.2', cmap='Blues')
plt.title('Matriz de Confusão Normalizada')
plt.ylabel('Classe Real')
plt.xlabel('Classe Predita')
plt.show()


In [None]:
# Converte os resultados da validação cruzada para um DataFrame para facilitar a visualização
cv_results_df = pd.DataFrame(cv_results_dict)

# Exibe os resultados de validação cruzada
print("\nDesempenho do Modelo Random Forest com Validação Cruzada:")
cv_results_df

## Discussão dos Resultados do Modelo e Conclusões
### **Comparação com o Contexto de Mercado**
Dado o cenário de demonstração ao vivo no camarote da IBM no Allianz Parque, a confiança e robustez das previsões são fundamentais para impressionar leads e clientes, demonstrando o poder das tecnologias da IBM. No entanto, as métricas atuais indicam que o modelo não está suficientemente refinado para garantir essa confiança:
#### - **F1-Score (0.57):**
Reflete um equilíbrio mediano entre a identificação de jogos com gols e a minimização de falsos positivos. No contexto de mercado, um F1-Score mais alto seria preferível para demonstrar que o modelo tem precisão e capacidade de recuperação adequadas, garantindo que o cliente veja previsões mais certeiras e menos falhas.
#### - **AUC-ROC (0.6):**
Esta métrica revela que o modelo consegue discriminar entre jogos com e sem gols, mas com uma performance ligeiramente acima do acaso. Para garantir que o modelo é confiável e robusto o suficiente para uma apresentação ao vivo, uma AUC-ROC acima de 0.7 seria recomendada, proporcionando mais confiança na capacidade do modelo de distinguir entre as classes (gol/no gol).
#### - **Log Loss (0.69):**
Indica que o modelo ainda não está fazendo previsões probabilísticas com alta confiança. Idealmente, um valor de Log Loss mais próximo de 0 garantiria que o modelo está não apenas prevendo corretamente, mas também gerando previsões confiáveis, o que é essencial em um ambiente de demonstração onde cada previsão errada pode afetar a credibilidade da IBM.
### **Oportunidades de Melhoria**
Dado que o desempenho atual é razoável, mas longe do ideal para um ambiente de vendas com alto impacto, os próximos passos devem incluir uma comparação com outros modelos preditivos, como Gradient Boosting e XG Boost, para identificar qual deles oferece o melhor desempenho para o problema de classificação binária de gols no primeiro tempo. Além disso, ajustes de hiperparâmetros e uso de técnicas avançadas de validação cruzada podem ajudar a melhorar as métricas escolhidas, principalmente no aumento do F1-Score e da AUC-ROC, além da redução do Log Loss.
### **Foco nas Métricas para Apresentação ao Cliente**
Portanto, melhorias nessas métricas são imprescindíveis para elevar a qualidade do modelo a um nível em que a IBM possa apresentar previsões com mais confiança e precisão, consolidando a credibilidade de suas tecnologias perante os leads e clientes durante as demonstrações no Allianz Parque.


# Treinamento e Comparação dos modelos

 Realiza-se a avaliação de múltiplos modelos de classificação utilizando validação cruzada com 5 folds. Ele inclui modelos como Regressão Logística, K-Nearest Neighbors, SVM, Árvores de Decisão, Random Forest, Gradient Boosting, AdaBoost, XGBoost, LightGBM, Extra Trees, Gaussian Naive Bayes, LDA e QDA, todos com random_state=42 (para garantir reprodutibilidade) e seus hiperparâmetros padrão. Os resultados da validação cruzada são calculados para métricas como Acurácia, Precisão, Recall, F1-Score, AUC-ROC e Log Loss, e são armazenados em um dicionário, que é convertido em um DataFrame e ordenado de forma crescente por Log Loss para análise comparativa.

In [None]:
import pandas as pd
from sklearn.model_selection import cross_validate
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier, ExtraTreesClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
import warnings

warnings.filterwarnings('ignore')

# Definir os modelos a serem testados com hiperparâmetros default
model_dict = {
    'Logistic Regression': LogisticRegression(random_state=42),
    'K-Nearest Neighbors': KNeighborsClassifier(),
    'Support Vector Machine': SVC(probability=True, random_state=42),
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42),
    'Gradient Boosting': GradientBoostingClassifier(random_state=42),
    'AdaBoost': AdaBoostClassifier(random_state=42),
    'XGBoost': XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42),
    'LightGBM': LGBMClassifier(verbose=-1, random_state=42),
    'Extra Trees': ExtraTreesClassifier(random_state=42),
    'Gaussian Naive Bayes': GaussianNB(),
    'Linear Discriminant Analysis': LinearDiscriminantAnalysis(),
    'Quadratic Discriminant Analysis': QuadraticDiscriminantAnalysis()
}

# Inicializar um dicionário para armazenar os resultados de validação cruzada
cv_results_dict = {
    'Modelo': [],
    'Acurácia (CV)': [],
    'Precisão (CV)': [],
    'Recall (CV)': [],
    'F1-Score (CV)': [],
    'AUC-ROC (CV)': [],
    'Log Loss (CV)': []
}

# Número de folds para validação cruzada
n_folds = 5

# Treinar e avaliar cada modelo com validação cruzada
for model_name, model in model_dict.items():
    # Executar validação cruzada
    cv_results = cross_validate(model, X_train_selected, y_train, cv=n_folds,
                                scoring=['accuracy', 'precision', 'recall', 'f1', 'roc_auc', 'neg_log_loss'])

    # Armazenar os resultados
    cv_results_dict['Modelo'].append(model_name)
    cv_results_dict['Acurácia (CV)'].append(cv_results['test_accuracy'].mean())
    cv_results_dict['Precisão (CV)'].append(cv_results['test_precision'].mean())
    cv_results_dict['Recall (CV)'].append(cv_results['test_recall'].mean())
    cv_results_dict['F1-Score (CV)'].append(cv_results['test_f1'].mean())
    cv_results_dict['AUC-ROC (CV)'].append(cv_results['test_roc_auc'].mean())
    cv_results_dict['Log Loss (CV)'].append(-cv_results['test_neg_log_loss'].mean())

# Converter os resultados de validação cruzada em DataFrame
cv_results_df = pd.DataFrame(cv_results_dict)

# Ordenar os resultados por Log Loss (CV)
cv_results_df = cv_results_df.sort_values(by='Log Loss (CV)', ascending=True)

# Exibir os resultados de validação cruzada
print("\nDesempenho dos Modelos com Validação Cruzada:")
cv_results_df


# Otimização de hiperparâmetros

GridSearch é um método de otimização de hiperparâmetros utilizado para encontrar a melhor combinação de parâmetros de um modelo de machine learning. Ele realiza uma busca exaustiva ao testar todas as possíveis combinações de um conjunto pré-definido de valores para os hiperparâmetros especificados. O objetivo é identificar a configuração que maximiza o desempenho do modelo de acordo com uma métrica de avaliação, como acurácia, precisão, recall ou F1-score.

O processo envolve a criação de uma "grade" de parâmetros, onde cada combinação é avaliada por meio de uma técnica de validação cruzada, garantindo que o modelo seja testado em diferentes divisões do conjunto de dados, reduzindo o risco de overfitting. Uma vez concluída a busca, o GridSearch retorna a combinação de parâmetros com o melhor desempenho.

Apesar de eficaz, o GridSearch pode ser computacionalmente custoso, pois sua complexidade cresce exponencialmente com o número de parâmetros e valores testados. Por isso, em casos com muitas opções de parâmetros, métodos alternativos como RandomizedSearch podem ser mais eficientes.

No contexto do projeto, pela disponibilidade de capacidade computacional, o algoritmo GridSearch foi aplicado para diferentes modelos, em todos os casos nos quais a otimização de hiperparâmetros foi considerada relevante ou produtiva.





### Modelos Random Forest, Logistic Regression, Gradient Boosting

---



In [None]:
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

# Parâmetros para otimização de Random Forest
param_grid_rf = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 20, 30, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'bootstrap': [True, False]
}

# Parâmetros para otimização de Logistic Regression
param_grid_lr = {
    'C': [0.01, 0.1, 1, 10],
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'saga']
}

# Parâmetros para otimização de Gradient Boosting
param_grid_gb = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Função para realizar a busca de hiperparâmetros
def optimize_model(model, param_grid, X_train, y_train):
    grid_search = GridSearchCV(estimator=model, param_grid=param_grid,
                               cv=5, scoring='neg_log_loss', n_jobs=-1, verbose=1)
    grid_search.fit(X_train, y_train)
    print(f"Melhores parâmetros para {model.__class__.__name__}: {grid_search.best_params_}")
    return grid_search.best_estimator_

# Aplicar a otimização de hiperparâmetros para cada modelo
best_rf = optimize_model(RandomForestClassifier(random_state=42), param_grid_rf, X_train_selected, y_train)
best_lr = optimize_model(LogisticRegression(random_state=42), param_grid_lr, X_train_selected, y_train)
best_gb = optimize_model(GradientBoostingClassifier(random_state=42), param_grid_gb, X_train_selected, y_train)


### Modelo KNN

In [None]:
from sklearn.metrics import accuracy_score, recall_score, roc_auc_score, log_loss

# Definir os parâmetros a serem otimizados
knn_param_grid = {
    'n_neighbors': [3, 5, 7, 9, 11],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan', 'minkowski']
}

# Instanciar o modelo
knn_model = KNeighborsClassifier()

# Grid Search com validação cruzada
knn_grid_search = GridSearchCV(estimator=knn_model, param_grid=knn_param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Ajustar aos dados de treinamento
knn_grid_search.fit(X_train_selected, y_train)

# Fazer previsões
y_pred_knn = knn_grid_search.predict(X_test_selected)
y_prob_knn = knn_grid_search.predict_proba(X_test_selected)[:, 1]

# Calcular métricas
accuracy_knn = accuracy_score(y_test, y_pred_knn)
recall_knn = recall_score(y_test, y_pred_knn)
roc_auc_knn = roc_auc_score(y_test, y_prob_knn)
logloss_knn = log_loss(y_test, y_prob_knn)

# Exibir os melhores parâmetros e resultados
print("Melhores Parâmetros para K-Nearest Neighbors:", knn_grid_search.best_params_)
print(f"Accuracy: {accuracy_knn}, Recall: {recall_knn}, AUC-ROC: {roc_auc_knn}, Log Loss: {logloss_knn}")


In [None]:
from sklearn.metrics import accuracy_score, recall_score, roc_auc_score, log_loss # import metrics functions

### Modelo Support Vector Machine

In [None]:
from sklearn.model_selection import GridSearchCV

# Definir os parâmetros a serem otimizados
svm_param_grid = {
    'C': [0.1, 1, 10, 100],
    'kernel': ['linear', 'rbf', 'poly', 'sigmoid'],
    'gamma': ['scale', 'auto']
}

# Instanciar o modelo
svm_model = SVC(probability=True, random_state=42)

# Grid Search com validação cruzada
svm_grid_search = GridSearchCV(estimator=svm_model, param_grid=svm_param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Ajustar aos dados de treinamento
svm_grid_search.fit(X_train_selected, y_train)

# Fazer previsões
y_pred_svm = svm_grid_search.predict(X_test_selected)
y_prob_svm = svm_grid_search.predict_proba(X_test_selected)[:, 1]

# Calcular métricas
accuracy_svm = accuracy_score(y_test, y_pred_svm)
recall_svm = recall_score(y_test, y_pred_svm)
roc_auc_svm = roc_auc_score(y_test, y_prob_svm)
logloss_svm = log_loss(y_test, y_prob_svm)

# Exibir os melhores parâmetros e resultados
print("Melhores Parâmetros para Support Vector Machine:", svm_grid_search.best_params_)
print(f"Accuracy: {accuracy_svm}, Recall: {recall_svm}, AUC-ROC: {roc_auc_svm}, Log Loss: {logloss_svm}")

### Modelo Decision Tree

In [None]:
# Definir os parâmetros a serem otimizados
dt_param_grid = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [None, 10, 20, 30, 40, 50],
    'min_samples_split': [2, 10, 20],
    'min_samples_leaf': [1, 2, 4, 6]
}

# Instanciar o modelo
dt_model = DecisionTreeClassifier(random_state=42)

# Grid Search com validação cruzada
dt_grid_search = GridSearchCV(estimator=dt_model, param_grid=dt_param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Ajustar aos dados de treinamento
dt_grid_search.fit(X_train_selected, y_train)

# Fazer previsões
y_pred_dt = dt_grid_search.predict(X_test_selected)
y_prob_dt = dt_grid_search.predict_proba(X_test_selected)[:, 1]

# Calcular métricas
accuracy_dt = accuracy_score(y_test, y_pred_dt)
recall_dt = recall_score(y_test, y_pred_dt)
roc_auc_dt = roc_auc_score(y_test, y_prob_dt)
logloss_dt = log_loss(y_test, y_prob_dt)

# Exibir os melhores parâmetros e resultados
print("Melhores Parâmetros para Decision Tree:", dt_grid_search.best_params_)
print(f"Accuracy: {accuracy_dt}, Recall: {recall_dt}, AUC-ROC: {roc_auc_dt}, Log Loss: {logloss_dt}")


### Modelo AdaBoost

In [None]:
# Definir os parâmetros a serem otimizados
ada_param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 1, 10]
}

# Instanciar o modelo
ada_model = AdaBoostClassifier(random_state=42)

# Grid Search com validação cruzada
ada_grid_search = GridSearchCV(estimator=ada_model, param_grid=ada_param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Ajustar aos dados de treinamento
ada_grid_search.fit(X_train_selected, y_train)

# Fazer previsões
y_pred_ada = ada_grid_search.predict(X_test_selected)
y_prob_ada = ada_grid_search.predict_proba(X_test_selected)[:, 1]

# Calcular métricas
accuracy_ada = accuracy_score(y_test, y_pred_ada)
recall_ada = recall_score(y_test, y_pred_ada)
roc_auc_ada = roc_auc_score(y_test, y_prob_ada)
logloss_ada = log_loss(y_test, y_prob_ada)

# Exibir os melhores parâmetros e resultados
print("Melhores Parâmetros para AdaBoost:", ada_grid_search.best_params_)
print(f"Accuracy: {accuracy_ada}, Recall: {recall_ada}, AUC-ROC: {roc_auc_ada}, Log Loss: {logloss_ada}")


### Modelo XGBoost

In [None]:
# Definir os parâmetros a serem otimizados
xgb_param_grid = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7],
    'subsample': [0.6, 0.8, 1.0],
    'colsample_bytree': [0.6, 0.8, 1.0]
}

# Instanciar o modelo
xgb_model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)

# Grid Search com validação cruzada
xgb_grid_search = GridSearchCV(estimator=xgb_model, param_grid=xgb_param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Ajustar aos dados de treinamento
xgb_grid_search.fit(X_train_selected, y_train)

# Fazer previsões
y_pred_xgb = xgb_grid_search.predict(X_test_selected)
y_prob_xgb = xgb_grid_search.predict_proba(X_test_selected)[:, 1]

# Calcular métricas
accuracy_xgb = accuracy_score(y_test, y_pred_xgb)
recall_xgb = recall_score(y_test, y_pred_xgb)
roc_auc_xgb = roc_auc_score(y_test, y_prob_xgb)
logloss_xgb = log_loss(y_test, y_prob_xgb)

# Exibir os melhores parâmetros e resultados
print("Melhores Parâmetros para XGBoost:", xgb_grid_search.best_params_)
print(f"Accuracy: {accuracy_xgb}, Recall: {recall_xgb}, AUC-ROC: {roc_auc_xgb}, Log Loss: {logloss_xgb}")


### Modelo LightGBM

In [None]:
# Definir os parâmetros a serem otimizados
lgbm_param_grid = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7],
    'num_leaves': [31, 40, 50],
    'subsample': [0.6, 0.8, 1.0]
}

# Instanciar o modelo
lgbm_model = LGBMClassifier(random_state=42)

# Grid Search com validação cruzada
lgbm_grid_search = GridSearchCV(estimator=lgbm_model, param_grid=lgbm_param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Ajustar aos dados de treinamento
lgbm_grid_search.fit(X_train_selected, y_train)

# Fazer previsões
y_pred_lgbm = lgbm_grid_search.predict(X_test_selected)
y_prob_lgbm = lgbm_grid_search.predict_proba(X_test_selected)[:, 1]

# Calcular métricas
accuracy_lgbm = accuracy_score(y_test, y_pred_lgbm)
recall_lgbm = recall_score(y_test, y_pred_lgbm)
roc_auc_lgbm = roc_auc_score(y_test, y_prob_lgbm)
logloss_lgbm = log_loss(y_test, y_prob_lgbm)

# Exibir os melhores parâmetros e resultados
print("Melhores Parâmetros para LightGBM:", lgbm_grid_search.best_params_)
print(f"Accuracy: {accuracy_lgbm}, Recall: {recall_lgbm}, AUC-ROC: {roc_auc_lgbm}, Log Loss: {logloss_lgbm}")


### Modelo Extra Trees

In [None]:
# Definir os parâmetros a serem otimizados
et_param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Instanciar o modelo
et_model = ExtraTreesClassifier(random_state=42)

# Grid Search com validação cruzada
et_grid_search = GridSearchCV(estimator=et_model, param_grid=et_param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Ajustar aos dados de treinamento
et_grid_search.fit(X_train_selected, y_train)

# Fazer previsões
y_pred_et = et_grid_search.predict(X_test_selected)
y_prob_et = et_grid_search.predict_proba(X_test_selected)[:, 1]

# Calcular métricas
accuracy_et = accuracy_score(y_test, y_pred_et)
recall_et = recall_score(y_test, y_pred_et)
roc_auc_et = roc_auc_score(y_test, y_prob_et)
logloss_et = log_loss(y_test, y_prob_et)

# Exibir os melhores parâmetros e resultados
print("Melhores Parâmetros para Extra Trees:", et_grid_search.best_params_)
print(f"Accuracy: {accuracy_et}, Recall: {recall_et}, AUC-ROC: {roc_auc_et}, Log Loss: {logloss_et}")


### Modelo Linear Discriminant Analysis

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import GridSearchCV

# Modelo LDA
lda = LinearDiscriminantAnalysis()

# Hiperparâmetros a serem ajustados
param_grid_lda = {
    'solver': ['svd', 'lsqr', 'eigen'],
    'shrinkage': [None, 'auto', 0.5, 1.0]
}

# Otimização com GridSearchCV
grid_search_lda = GridSearchCV(estimator=lda, param_grid=param_grid_lda, cv=5)
grid_search_lda.fit(X_train, y_train)

# Melhor modelo LDA
melhor_lda = grid_search_lda.best_estimator_
print("Melhor LDA:", melhor_lda)

### Modelo Quadratic Discriminant Analysis

In [None]:
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.model_selection import GridSearchCV

# Modelo QDA
qda = QuadraticDiscriminantAnalysis()

# Hiperparâmetro a ser ajustado
param_grid_qda = {
    'reg_param': [0.0, 0.1, 0.5, 1.0]
}

# Otimização com GridSearchCV
grid_search_qda = GridSearchCV(estimator=qda, param_grid=param_grid_qda, cv=5)
grid_search_qda.fit(X_train, y_train)

# Melhor modelo QDA
melhor_qda = grid_search_qda.best_estimator_
print("Melhor QDA:", melhor_qda)


### Gaussian Naive Bayes

In [None]:
# Definir os parâmetros a serem otimizados
gnb_param_grid = {
    'var_smoothing': np.logspace(0, -9, num=100)
}

# Instanciar o modelo
gnb_model = GaussianNB()

# Grid Search com validação cruzada
gnb_grid_search = GridSearchCV(estimator=gnb_model, param_grid=gnb_param_grid, cv=10, scoring='accuracy', n_jobs=-1)

# Ajustar aos dados de treinamento
gnb_grid_search.fit(X_train, y_train)

# Fazer previsões
y_pred_gnb = gnb_grid_search.predict(X_test)
y_prob_gnb = gnb_grid_search.predict_proba(X_test)[:, 1]

# Calcular métricas
accuracy_gnb = accuracy_score(y_test, y_pred_gnb)
recall_gnb = recall_score(y_test, y_pred_gnb)
roc_auc_gnb = roc_auc_score(y_test, y_prob_gnb)
logloss_gnb = log_loss(y_test, y_prob_gnb)

# Exibir os melhores parâmetros e resultados
print("Melhores Parâmetros para Gaussian Naive Bayes:", gnb_grid_search.best_params_)
print(f"Accuracy: {accuracy_gnb}, Recall: {recall_gnb}, AUC-ROC: {roc_auc_gnb}, Log Loss: {logloss_gnb}")

Dessa forma, foram encontrados os melhores hiperparâmetros para cada modelo, com a aplicação do algoritmo GridSearchCV.

# Treinamento após o ajuste de hiperparâmetros
Após a descoberta e o ajuste dos hiperparâmetros otimizados, com o GridSearch, o seguinte código realiza novamente a avaliação comparativa de vários algoritmos de classificação utilizando validação cruzada. O processo é semelhante ao realizado anteriormente, mas agora, com a mudança dos hiperparâmetros aplicada, a fim de melhorar a performance dos modelos.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_validate
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier, AdaBoostClassifier, ExtraTreesClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
import warnings

warnings.filterwarnings('ignore')

# Definir os modelos a serem testados com os melhores hiperparâmetros encontrados
model_dict = {
    'Logistic Regression': LogisticRegression(C=0.1, penalty="l2", solver='liblinear', random_state=42),
    'K-Nearest Neighbors': KNeighborsClassifier(metric='manhattan', n_neighbors=5, weights='uniform'),
    'Support Vector Machine': SVC(C=1, gamma='scale', kernel='linear', probability=True, random_state=42),
    'Decision Tree': DecisionTreeClassifier(criterion='entropy', max_depth=None, min_samples_leaf=1, min_samples_split=20, random_state=42),
    'Random Forest': RandomForestClassifier(bootstrap=True, max_depth=10, min_samples_leaf=4, min_samples_split=10, n_estimators=200, random_state=42),
    'Gradient Boosting': GradientBoostingClassifier(learning_rate=0.01, max_depth=3, min_samples_leaf=1, min_samples_split=2, n_estimators=100, random_state=42),
    'AdaBoost': AdaBoostClassifier(learning_rate=0.01, n_estimators=100, random_state=42),
    'XGBoost': XGBClassifier(colsample_bytree=0.8, learning_rate=0.01, max_depth=5, n_estimators=200, subsample=1.0, use_label_encoder=False, eval_metric='logloss', random_state=42),
    'LightGBM': LGBMClassifier(learning_rate=0.01, max_depth=3, n_estimators=100, num_leaves=31, subsample=0.6, verbose=-1,random_state=42),
    'Extra Trees': ExtraTreesClassifier(max_depth=None, min_samples_leaf=2, min_samples_split=2, n_estimators=300, random_state=42),
    'Gaussian Naive Bayes': GaussianNB(),
    'Linear Discriminant Analysis': LinearDiscriminantAnalysis(),
    'Quadratic Discriminant Analysis': QuadraticDiscriminantAnalysis()
}

# Inicializar um dicionário para armazenar os resultados de validação cruzada
cv_results_dict = {
    'Modelo': [],
    'Acurácia (CV)': [],
    'Precisão (CV)': [],
    'Recall (CV)': [],
    'F1-Score (CV)': [],
    'AUC-ROC (CV)': [],
    'Log Loss (CV)': []
}

# Número de folds para validação cruzada
n_folds = 10

# Treinar e avaliar cada modelo com validação cruzada
for model_name, model in model_dict.items():
    # Executar validação cruzada
    cv_results = cross_validate(model, X_train_selected, y_train, cv=n_folds,
                                scoring=['accuracy', 'precision', 'recall', 'f1', 'roc_auc', 'neg_log_loss'])

    # Armazenar os resultados
    cv_results_dict['Modelo'].append(model_name)
    cv_results_dict['Acurácia (CV)'].append(cv_results['test_accuracy'].mean())
    cv_results_dict['Precisão (CV)'].append(cv_results['test_precision'].mean())
    cv_results_dict['Recall (CV)'].append(cv_results['test_recall'].mean())
    cv_results_dict['F1-Score (CV)'].append(cv_results['test_f1'].mean())
    cv_results_dict['AUC-ROC (CV)'].append(cv_results['test_roc_auc'].mean())
    cv_results_dict['Log Loss (CV)'].append(-cv_results['test_neg_log_loss'].mean())

# Converter os resultados de validação cruzada em DataFrame
cv_results_df = pd.DataFrame(cv_results_dict)

# Ordenar os resultados por Log Loss (CV)
cv_results_df = cv_results_df.sort_values(by='Log Loss (CV)', ascending=True)

# Exibir os resultados de validação cruzada
print("\nDesempenho dos Modelos com Validação Cruzada:")
cv_results_df


## Discussão dos resultados

**Discussão de Resultados**

Os resultados apresentados para diferentes algoritmos de classificação indicam um panorama diversificado de desempenho, com destaque para três modelos: Logistic Regression, XGBoost, e agora Gradient Boosting. Esses modelos se sobressaem em termos de Log Loss, F1-score e AUC-ROC, que são métricas críticas no contexto de mercado onde a confiança nas previsões é essencial para o sucesso da aplicação.

**Desempenho Geral**

Os modelos foram avaliados por meio de validação cruzada, permitindo uma comparação robusta em termos de três métricas principais: Log Loss, F1-score, e AUC-ROC.

- **Log Loss**: Em geral, os valores de Log Loss ficaram em um intervalo considerável, variando entre 0.640 e 1.239, com os melhores resultados próximos de 0.640, indicando previsões probabilísticas de alta confiança. Valores mais elevados, acima de 1.200, sugerem baixa precisão e pouca confiabilidade nas previsões. Essa métrica se mostrou crucial para penalizar modelos que não conseguiam fornecer previsões confiáveis em um cenário de tempo real, onde cada previsão incorreta pode impactar negativamente o fechamento de uma venda.

- **F1-score**: Os F1-scores alcançados variaram entre 0.450 e 0.660. Modelos que obtiveram F1-scores acima de 0.650 mostraram uma excelente capacidade de balancear precisão e recall, o que é essencial em problemas binários como este, onde a detecção correta tanto de falsos positivos quanto de verdadeiros positivos é crítica. Modelos que obtiveram F1-scores na faixa inferior, abaixo de 0.600, demonstraram dificuldade em capturar a complexidade dos dados sem introduzir muitos falsos negativos.

- **AUC-ROC**: Os resultados de AUC-ROC ficaram em um intervalo entre 0.609 e 0.693. Os valores mais próximos de 0.690 indicam uma excelente capacidade de discriminar entre as classes, o que é essencial para a robustez das previsões no problema modelado. Modelos com AUC-ROC abaixo de 0.640 tiveram dificuldade em separar corretamente os casos de "gol no primeiro tempo" e "sem gol no primeiro tempo", comprometendo a eficácia no uso prático.

#### Modelos Candidatos

1. **Logistic Regression**
   - **Algoritmo:** A Regressão Logística é um modelo linear utilizado para classificação binária. Ele estima as probabilidades de cada classe ao usar uma função logística sobre uma combinação linear dos atributos. Como resultado, é altamente interpretável e de fácil implementação.
   - **Tuning de Hiperparâmetros:**
     - LogisticRegression(C=0.1, penalty="l2", solver='liblinear', random_state=42)
     - **C** controla a regularização, prevenindo overfitting ao penalizar coeficientes muito altos.
     - **Penalidade L2** (regularização de Ridge) força os coeficientes dos atributos menos relevantes a se aproximarem de zero, promovendo um modelo mais simples e generalizável.
   - **Explicabilidade:** Como é um modelo linear, a **Regressão Logística** permite uma interpretação direta dos pesos atribuídos a cada variável. Esses pesos indicam a força e a direção da influência de cada atributo na probabilidade do evento de gol no primeiro tempo.
   - **Desempenho:**
     - F1-Score: 0.659
     - Log Loss: 0.655
     - AUC-ROC: 0.675
   - **Justificativa:** É um modelo interpretável, fácil de ajustar e oferece resultados sólidos em termos de balanceamento entre precisão e recall, com boa capacidade probabilística.

2. **XGBoost**
   - **Algoritmo:** O **XGBoost** é uma técnica avançada de boosting que cria uma sequência de árvores de decisão, onde cada nova árvore corrige os erros residuais das anteriores. Ele utiliza regularização para evitar overfitting e é altamente flexível para ajustar hiperparâmetros.
   - **Tuning de Hiperparâmetros:**
     - XGBClassifier(colsample_bytree=0.8, learning_rate=0.01, max_depth=5, n_estimators=200, subsample=1.0, use_label_encoder=False, eval_metric='logloss', random_state=42)
     - **max_depth** controla a profundidade das árvores, prevenindo overfitting.
     - **learning_rate** ajusta o impacto de cada árvore na predição final, com valores menores garantindo uma aprendizagem mais lenta e cuidadosa.
     - **n_estimators** define o número de árvores.
     - **colsample_bytree** e **subsample** ajustam a fração de amostras e features utilizadas em cada árvore, aumentando a robustez.
   - **Explicabilidade:** Embora seja mais complexo, o **XGBoost** permite a interpretação de feature importance, onde as variáveis mais utilizadas nas divisões das árvores podem ser identificadas como as mais importantes para o modelo. Além disso, sua capacidade de gerar previsões probabilísticas confiáveis é um ponto forte.
   - **Desempenho:**
     - F1-Score: 0.651
     - Log Loss: 0.648
     - AUC-ROC: 0.684
   - **Justificativa:** Sua capacidade de ajuste fino, combinada com sua robustez em problemas complexos, torna o XGBoost ideal para maximizar a precisão e a confiabilidade das previsões.

3. **Gradient Boosting**
   - **Algoritmo:** O **Gradient Boosting** cria um ensemble de árvores de decisão, onde cada nova árvore tenta corrigir os erros das anteriores. Ele minimiza uma função de perda, aprendendo de maneira incremental.
   - **Tuning de Hiperparâmetros:**
     - GradientBoostingClassifier(learning_rate=0.01, max_depth=3, min_samples_leaf=1, min_samples_split=2, n_estimators=100, random_state=42)
     - **learning_rate** ajusta a contribuição de cada árvore no modelo final.
     - **max_depth** controla a complexidade das árvores.
     - **n_estimators** define o número de árvores no ensemble.
   - **Explicabilidade:** Similar ao XGBoost, o **Gradient Boosting** permite a análise de importância das features. A vantagem desse método é sua capacidade de ser ajustado para minimizar diretamente a função de perda escolhida (neste caso, o Log Loss).
   - **Desempenho:**
     - F1-Score: 0.612
     - Log Loss: 0.640
     - AUC-ROC: 0.693
   - **Justificativa:** Embora tenha um F1-Score ligeiramente inferior, o Gradient Boosting é extremamente eficaz em discriminar entre classes, com um AUC-ROC elevado. Isso o torna uma excelente escolha para cenários onde a confiança nas previsões é essencial.

#### Comparação e Conclusões

Os três modelos selecionados (Logistic Regression, XGBoost e Gradient Boosting) apresentam uma performance robusta em termos de F1-Score, Log Loss e AUC-ROC.

- **Logistic Regression**: Sua simplicidade e alta interpretabilidade o tornam ideal para aplicações onde a explicação dos resultados ao usuário final é crucial. Embora não seja o modelo mais preciso, ele oferece previsões consistentes e é facilmente interpretável.
  
- **XGBoost**: Oferece uma combinação poderosa de desempenho e flexibilidade, destacando-se em todos os aspectos da predição. Ele é ideal para cenários onde precisão e discriminação são críticas, e seu controle sobre os hiperparâmetros permite ajustes detalhados para maximizar o desempenho.

- **Gradient Boosting**: Com um foco em minimizar a perda (Log Loss), o Gradient Boosting oferece previsões probabilísticas de alta confiança, além de excelente discriminação entre classes. Seu desempenho em AUC-ROC sugere que ele é altamente eficaz em separar as classes de gol e não gol no primeiro tempo.

**Random Forest (modelo candidato inicial)**

O Random Forest foi o modelo escolhido inicialmente como linha de base para a análise. Embora tenha apresentado um desempenho consistente, ele serviu principalmente como referência. Os modelos selecionados superaram significativamente seus resultados, em relação a todas as métricas escolhidas previamente, o que levou à sua despriorização na análise final.

**Considerações Finais**

Em um cenário de uso onde a confiança nas previsões precisa ser demonstrada para leads e clientes, Logistic Regression, XGBoost, e Gradient Boosting emergem como os principais candidatos, equilibrando simplicidade, interpretabilidade e robustez. Esses modelos fornecem a confiança e clareza necessárias para impressionar os clientes e leads da IBM e reforçar a capacidade da "Big Blue" de resolver problemas complexos com soluções de tecnologia.

**Modelos Descartados**:

**K-Nearest Neighbors (KNN)**: Apesar de um recall razoável (0.647) e um AUC-ROC considerável (0.658), o KNN apresentou um Log Loss alto (1.239), tornando suas previsões pouco confiáveis para o contexto de mercado, onde a confiança nas predições é crucial para fechar vendas.

**Support Vector Machine (SVM)**: Embora tenha performado de forma razoável, com métricas de AUC-ROC (0.639), F1-score (0.602) e Log Loss (0.675) razoáveis, o desempenho do modelo foi superado pela performance dos modelos favoritos.

**Decision Tree**: Apresentou os segundos piores valores de Log Loss (6.882) e AUC-ROC (0.609), em comparação com os outros modelos, performance baixa que inviabilizou seu uso no contexto do projeto.

**Gaussian Naive Bayes**: Explicabilidade simples, com desempenhos razoáveis para valores de AUC-ROC (0.630) e F1-score (0.612), contudo, o valor de Log Loss é ligeiramente elevado (1.107) em relação aos modelos comparados em questão, assim, apresentando uma confiabilidade menor nesse contexto.

**Quadratic Discriminant Analysis (QDA)** Apresentou o pior desempenho entre todos os modelos analisados nesse contexto, com os menores valores de AUC-ROC (0.591) e F1-score (0.451) e um valor de Log Loss extremamente alto (8.235) em relação aos outros modelos, apresentando um desempenho aquém do requerido para o projeto.

**LightGBM**: Apresentou desempenho considerável (Log Loss: 0.663, AUC-ROC: 0.642 e F1-score: 0.613), mas foram superados pela performance de outros modelos, que foram mais eficientes na análise das métricas escolhidas.

**AdaBoost**: Embora tenha obtido valores extremamente competitivos em todas as métricas (F1-score: 0.617, AUC-ROC:	0.671 e Log Loss:	0.653166), representando uma das melhores performances comparativamente, seu desempenho ainda foi superado principalmente em questão de F1-score quando comparado com modelos como XGBoost e Logistic Regression.

**Extra Trees**: Embora o modelo tenha apresentado métricas AUC-ROC e Log Loss extremamente competitivas, se aproximando dos melhores valores entre os modelos analisados, o F1-score (0.597) foi superado pelo desempenho de outros modelos, como XGBoost e Logisitic Regression, por exemplo.



## Próximos Passos

Com base nos resultados obtidos até o momento, a próxima fase do projeto deve focar em algumas vertentes principais:

**Ajustes finos nos modelos favoritos e seleção do modelo final**: Embora o GridSearchCV já tenha sido implementado como algoritmo de otimização de hiperparâmetros, ajustes finos na configuração do grid de parâmetros podem produzir melhorias marginais no desempenho dos modelos.

**Análise aprofundada e validação com o parceiro**: A fim de selecionar o modelo final, da forma mais alinhada ao contexto de mercado do parceiro, uma recapitulação das necessidades e dos ganhos esperados do parceiro é adequada, para realizar uma escolha coerente com a proposta de valor da solução e maximizar a relevância do modelo selecionado.   