
---

### Introdução e Problemática

O objetivo deste projeto é desenvolver um modelo preditivo capaz de prever o **placar final de partidas de futebol**, utilizando dados históricos do Campeonato Brasileiro Série A. A previsão de placares em eventos esportivos é um desafio complexo devido à alta variabilidade de fatores que influenciam o resultado de uma partida. Dessa forma, a abordagem utilizada aqui envolve a modelagem de dados históricos de jogos para capturar padrões e tendências que possam auxiliar na previsão.

#### Hipóteses de Trabalho

Antes de iniciar o processo de modelagem, algumas **hipóteses** foram formuladas com base na natureza do problema e no comportamento esperado dos dados:

1. **Hipótese 1**: As estatísticas de desempenho dos times, como número de chutes a gol, posse de bola, e estatísticas defensivas, têm correlação direta com o número de gols marcados.
   
2. **Hipótese 2**: Variáveis como **gols ao intervalo**, **xG (expected goals)** e **faltas cometidas** podem servir como preditores relevantes, especialmente quando combinadas com métricas de eficiência ofensiva e defensiva.

3. **Hipótese 3**: Modelos lineares, como o **Lasso**, devido à sua capacidade de regularização e tratamento de features menos relevantes, podem fornecer previsões estáveis e evitar o overfitting, enquanto modelos não lineares, como **Random Forest**, podem capturar interações mais complexas entre as variáveis.

#### Abordagem

A abordagem adotada inclui a experimentação de diferentes modelos, sendo os principais:

- **Lasso Regression**: Um modelo linear com regularização que reduz a influência de variáveis menos importantes. Esta abordagem é utilizada para evitar o overfitting, ao mesmo tempo em que mantém a interpretabilidade do modelo.
  
- **Random Forest**: Um modelo baseado em árvores de decisão, capaz de capturar interações complexas entre variáveis. Apesar de sua flexibilidade, pode sofrer com overfitting, principalmente em conjuntos de dados pequenos.

- **XGBoost e LightGBM**: Testados como alternativas não lineares robustas, especialmente para capturar interações de dados complexos e otimizar a predição dos placares.

#### Conceitos Chave

Os seguintes **conceitos** desempenham um papel fundamental na análise e serão discutidos ao longo do projeto:

- **Expected Goals (xG)**: Uma métrica preditiva que avalia a probabilidade de um time marcar em cada jogada. Usada para entender a eficiência ofensiva dos times.
- **Regularização (Lasso)**: Reduz o impacto de variáveis menos relevantes, evitando o ajuste excessivo e permitindo um modelo mais generalizável.
- **Validação Cruzada (Cross-Validation)**: Utilizada para garantir que o modelo não esteja apenas ajustado aos dados de treino, testando o desempenho em várias partições dos dados.

#### Modelos Promissores

Baseado nas hipóteses e testes iniciais, os **modelos mais promissores** identificados foram:

1. **Lasso Regression**: Mostrou-se eficaz em balancear simplicidade e capacidade preditiva, obtendo os melhores resultados de previsão de gols até o momento.
   
2. **Random Forest**: Embora tenha mostrado algum potencial, apresentou problemas de overfitting em comparação ao Lasso.

3. **Modelos Boosting (XGBoost e LightGBM)**: Explorados por sua robustez em cenários de dados mais complexos, com um potencial promissor de melhorias em futuros ajustes de hiperparâmetros.



In [None]:
import pandas as pd

# Leitura dos arquivos CSV
df_matches = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/brazil-serie-a-matches-2024-to-2024-stats_edit - brazil-serie-a-matches-2024-to-2024-stats_edit.csv')
df_teams = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/brazil-serie-a-teams-2024-to-2024-stats (1) - brazil-serie-a-teams-2024-to-2024-stats (1).csv')
df_teams2 = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/brazil-serie-a-teams2-2024-to-2024-stats (1) - brazil-serie-a-teams2-2024-to-2024-stats (1).csv')


In [None]:
# Visualizando as primeiras 5 linhas dos DataFrames
print(df_matches.head())
print(df_teams.head())
print(df_teams2.head())

# Informações sobre os DataFrames
print(df_matches.info())
print(df_teams.info())
print(df_teams2.info())



Essas células estão carregando e inspecionando os dados a partir de arquivos CSV, e aqui estão as principais observações sobre o conteúdo:

### 1. **Leitura dos arquivos CSV**:
- Três arquivos CSV estão sendo carregados:
  - **`df_matches`**: Contém dados relacionados às partidas (com atributos como timestamp, times, status, e estatísticas de pré-jogo).
  - **`df_teams`**: Contém dados sobre os times.
  - **`df_teams2`**: Outro conjunto de dados relacionado aos times (provavelmente com mais detalhes ou atributos adicionais sobre os times).

### 2. **Visualização das primeiras 5 linhas**:
- A função **`head()`** está sendo usada para visualizar as 5 primeiras linhas dos DataFrames:
  - **df_matches**: Possui atributos como timestamp, data, status do jogo, times, e estatísticas pré-jogo (como porcentagens de chance de mais de 35%, 45% de gols antes do intervalo, entre outras).
  - **df_teams**: Contém o nome do time, estádio, e outras características relacionadas aos times (a partir das colunas exibidas, parece conter informações sobre a temporada e número de jogos disputados).

### 3. **Informações sobre os DataFrames**:
- A função **`info()`** está sendo usada para fornecer detalhes sobre o número de colunas, tipos de dados e a presença de valores nulos em cada um dos DataFrames.
  - **df_matches**: Possui 58 colunas, incluindo variáveis como **Pre-Match PPG (Home)**, **average cards per match**, e **average corners per match**. Algumas dessas colunas apresentam **valores nulos** (como `attendance`, `stadium_name`), o que pode exigir algum tratamento posterior.
  - **df_teams** e **df_teams2**: Ambos contêm atributos dos times. Os detalhes exibidos no `head()` mostram informações como **team_name**, **stadium_name**, e **matches_played**, mas há colunas sem nomes (coluna "Unnamed") que podem precisar ser ajustadas ou removidas.

### Ações sugeridas:
1. **Limpeza de Dados**:
   - É importante tratar os **valores nulos**, especialmente em colunas como `attendance`, `stadium_name`, e outros atributos cruciais para a análise.
   - Verificar colunas com nomes como "Unnamed", que podem ter sido criadas por erros ao exportar ou carregar os dados, e ver se elas são relevantes.

2. **Análise de Features**:
   - Algumas das features carregadas podem não ser diretamente relevantes para o modelo (por exemplo, `stadium_name` ou `attendance` podem não influenciar diretamente o placar).
   - Focar em features relacionadas ao desempenho de jogo (chutes, posse de bola, etc.) e em estatísticas pré-jogo que possam ter correlação com o número de gols.

3. **Consolidação dos Dados**:
   - É possível que seja necessário unir os DataFrames (como `df_matches` e `df_teams`) para consolidar informações das partidas com dados dos times.



In [None]:
# Descrição estatística dos dados numéricos
print(df_matches.describe())
print(df_teams.describe())
print(df_teams2.describe())


In [None]:
# Verificando a presença de valores nulos
print(df_matches.isnull().sum())
print(df_teams.isnull().sum())
print(df_teams2.isnull().sum())


### Análise das Células:

#### 1. **Descrição Estatística dos Dados Numéricos**:
- **`describe()`** foi aplicado em cada um dos DataFrames para exibir uma **descrição estatística** dos dados numéricos, incluindo a média (**mean**), desvio padrão (**std**), valores mínimos e máximos, além dos percentis (25%, 50%, 75%).

**Principais observações**:
- **df_matches**: Exibe estatísticas sobre **attendance (público)**, **gols por minuto**, e **cartões**.
  - A média de público varia entre 9.369 para jogos em casa e 17.372 para jogos no total, com um máximo de 56.929 espectadores.
  - Minutos por gol marcado em casa e fora variam bastante: média de 81 minutos para o time da casa e 114 minutos para o time visitante, o que indica que os times da casa tendem a marcar mais rápido.
  
- **df_teams e df_teams2**: Esses DataFrames trazem estatísticas por time, como **minutos por gol sofrido**, **minutos por gol marcado**, e dados de **gols com ambas as equipes marcando (btts)**.
  - Valores extremos, como **450 minutos** por gol sofrido fora de casa ou **225 minutos** para gols marcados fora, indicam que algumas equipes possuem defesas muito fortes ou ataques menos eficientes.
  
#### 2. **Verificação da Presença de Valores Nulos**:
- A célula que usa **`isnull().sum()`** para verificar a quantidade de valores nulos em cada coluna dos três DataFrames revela algumas colunas com grandes quantidades de valores ausentes:
  - **df_matches**: As colunas **home_team_goal_timings** e **away_team_goal_timings** possuem uma quantidade significativa de valores ausentes (309 e 318 nulos, respectivamente). Isso é importante, pois esses valores podem influenciar diretamente na predição do placar.
  - **df_teams e df_teams2**: Não apresentam valores nulos nas colunas mostradas.

### Ações Sugeridas:
1. **Tratamento de Valores Nulos**:
   - Para as colunas com valores nulos, como **goal_timings**, é necessário decidir se esses valores devem ser preenchidos (imputação) ou se essas colunas devem ser removidas caso os dados ausentes sejam predominantes.
   - Para o público ausente, uma opção seria preencher os valores com a média ou mediana do público dos outros jogos, caso seja uma variável importante para o modelo.

2. **Revisão de Outliers**:
   - Algumas métricas como **minutos por gol marcado/sofrido** possuem valores muito altos ou baixos. Esses outliers podem ser tratados (removidos ou ajustados) para evitar distorções nas previsões.

3. **Avaliação da Relevância das Features**:
   - Nem todas as variáveis podem ser relevantes para prever o placar final. Estatísticas como **average cards per match** e **minutes per goal** são potencialmente úteis, mas outras, como **attendance**, podem não ser tão impactantes para o objetivo final.

Essas análises iniciais ajudam a entender a distribuição dos dados, identificar problemas com valores ausentes e estabelecer um ponto de partida para a limpeza e preparação dos dados.

In [None]:
# Verificando duplicatas
print(df_matches.duplicated().sum())
print(df_teams.duplicated().sum())
print(df_teams2.duplicated().sum())


In [None]:
# Exibindo colunas e tipos de dados
print(df_matches.dtypes)
print(df_teams.dtypes)
print(df_teams2.dtypes)


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Distribuição dos gols marcados pelos times da casa e visitantes
plt.figure(figsize=(14,6))

# Gols marcados pelo time da casa
plt.subplot(1, 2, 1)
sns.histplot(df_matches['home_team_goal_count'], bins=10, kde=True, color='blue')
plt.title('Distribuição dos Gols do Time da Casa')

# Gols marcados pelo time visitante
plt.subplot(1, 2, 2)
sns.histplot(df_matches['away_team_goal_count'], bins=10, kde=True, color='green')
plt.title('Distribuição dos Gols do Time Visitante')

plt.tight_layout()
plt.show()

# Correlação entre as variáveis principais e os gols marcados pensando em prever placar final e sustentado por uma das hipoteses do placar final
correlation_matrix = df_matches[['home_team_goal_count', 'away_team_goal_count', 'Pre-Match PPG (Home)', 'Pre-Match PPG (Away)', 'Home Team Pre-Match xG', 'Away Team Pre-Match xG']].corr()

# Exibindo a matriz de correlação
plt.figure(figsize=(8,6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlação entre Variáveis Selecionadas e Gols')
plt.show()


### Análise das Células:

#### 1. **Distribuição dos Gols Marcados pelos Times da Casa e Visitantes**:
- O gráfico de histograma mostra a distribuição dos gols para os times da casa e visitantes.
  - **Distribuição dos Gols do Time da Casa**: A maioria dos times da casa marcam de 0 a 1 gol, com pouquíssimas ocorrências de mais de 3 gols. Isso indica uma baixa frequência de placares com muitos gols pelos times da casa.
  - **Distribuição dos Gols do Time Visitante**: A distribuição é semelhante à dos times da casa, com a maioria dos visitantes marcando entre 0 e 1 gol. No entanto, há algumas ocorrências de times visitantes marcando até 5 gols, o que é um outlier importante a ser observado.

#### 2. **Matriz de Correlação**:
- A matriz de correlação mostra como as variáveis principais estão correlacionadas com os gols marcados pelos times da casa e visitantes.
  - **Correlação entre Gols e xG (Expected Goals)**:
    - Existe uma correlação negativa moderada entre **gols marcados pelo time da casa** e o **xG do time visitante** (-0.34), e uma correlação similar entre **gols marcados pelo time visitante** e o **xG do time da casa** (-0.28). Isso sugere que quanto maior o xG do time adversário, menor é a probabilidade de o time marcar gols, o que faz sentido, pois um bom desempenho esperado do adversário reflete uma possível contenção de gols.
  - **Pre-Match PPG (Points Per Game)**:
    - A correlação entre **Pre-Match PPG (Home)** e **gols marcados pelo time da casa** é fraca (-0.14), sugerindo que essa métrica, isoladamente, pode não ser um bom indicador para prever o número de gols marcados. O mesmo padrão se aplica ao time visitante (-0.16).
  
#### **Principais Observações**:
1. **Distribuições Desequilibradas**: As distribuições dos gols são fortemente inclinadas para poucos gols (0 ou 1), o que pode influenciar o modelo preditivo, fazendo com que ele tenda a prever resultados com poucos gols com mais frequência.
2. **Correlação Moderada**: Algumas das variáveis, como o **xG** (Expected Goals), mostram uma correlação moderada, enquanto outras, como o **PPG (Points Per Game)**, têm correlação baixa, sugerindo que estas podem não ser as melhores variáveis preditivas para o placar.
3. **Possíveis Outliers**: A presença de times visitantes que marcaram até 5 gols pode ser considerada um outlier, o que pode impactar negativamente a performance do modelo caso não seja tratado.

#### Ações Sugeridas:
1. **Transformação dos Dados**: A distribuição dos gols é altamente concentrada em 0 e 1, o que pode sugerir a necessidade de uma transformação nos dados (como uma transformação logarítmica) para normalizar essa distribuição e ajudar no desempenho do modelo.
2. **Revisar o Impacto do PPG e xG**: Com base na matriz de correlação, é importante testar o impacto das variáveis **PPG** e **xG** e verificar se elas realmente agregam ao modelo ou se devem ser removidas para evitar ruído nas previsões.
3. **Consideração de Outliers**: Deve-se avaliar se os outliers observados (placares de 5 gols por times visitantes) devem ser tratados para evitar distorções na performance do modelo.

Esses gráficos ajudam a entender a relação entre as variáveis e as distribuições de gols, fornecendo insights importantes para o ajuste dos modelos.

In [None]:
import numpy as np

threshold = 0.8

# Função para remover colunas e linhas com valores nulos acima de um limite
def clean_data(df, column_thresh=0.8, row_thresh=0.5):
    # Remove colunas com mais de 80% de valores ausentes
    df_cleaned = df.dropna(thresh=df.shape[0] * column_thresh, axis=1)

    # Remove linhas com mais de 50% de valores ausentes
    df_cleaned = df_cleaned.dropna(thresh=df_cleaned.shape[1] * row_thresh)

    return df_cleaned

# Limpar as três tabelas
matches_df_cleaned = clean_data(df_matches)
teams_df_cleaned = clean_data(df_teams)
teams2_df_cleaned = clean_data(df_teams2)


In [None]:
# Função para remover outliers com base no IQR (Interquartile Range) sua abordagem e melhor que o Z-score pois nao depende de uma distribuicao normal dos dados
def remove_outliers(df, columns):
    Q1 = df[columns].quantile(0.25)
    Q3 = df[columns].quantile(0.75)
    IQR = Q3 - Q1
    return df[~((df[columns] < (Q1 - 1.5 * IQR)) | (df[columns] > (Q3 + 1.5 * IQR))).any(axis=1)]

# Selecionar as colunas numéricas relevantes
numerical_columns = [
    'home_team_goal_count', 'away_team_goal_count', 'Pre-Match PPG (Home)',
    'Pre-Match PPG (Away)', 'Home Team Pre-Match xG', 'Away Team Pre-Match xG'
]

# Remover outliers das colunas numéricas no dataset de partidas
matches_df_no_outliers = remove_outliers(matches_df_cleaned, numerical_columns)


In [None]:
# Visualizando os novo df limpos
matches_df_cleaned.info()
teams_df_cleaned.info()
teams2_df_cleaned.info()


### Análise das Células:

#### 1. **Função de Limpeza de Dados**:
- A função **`clean_data()`** é utilizada para remover colunas e linhas com valores nulos acima de um limite especificado:
  - **Remoção de Colunas**: Colunas com mais de 80% de valores ausentes são removidas.
  - **Remoção de Linhas**: Linhas com mais de 50% de valores ausentes são removidas.
- Essa limpeza ajuda a garantir que apenas colunas e linhas com dados relevantes sejam mantidas, eliminando informações que possam gerar ruído no modelo.
  
#### 2. **Função de Remoção de Outliers**:
- A função **`remove_outliers()`** utiliza o método do **Interquartile Range (IQR)** para identificar e remover outliers das colunas numéricas selecionadas:
  - **IQR**: A diferença entre o terceiro quartil (**Q3**) e o primeiro quartil (**Q1**) é usada para identificar valores fora do intervalo esperado.
  - **Critério**: Valores menores que **Q1 - 1.5 * IQR** ou maiores que **Q3 + 1.5 * IQR** são considerados outliers e removidos.
  - Esse método é uma abordagem mais robusta que o uso de **Z-score**, pois é menos sensível a distribuições que não seguem uma forma perfeitamente normal.

#### 3. **Seleção de Colunas Numéricas**:
- As colunas numéricas selecionadas para a remoção de outliers são:
  - **home_team_goal_count** e **away_team_goal_count**: Contagem dos gols marcados por cada time.
  - **Pre-Match PPG (Home)** e **Pre-Match PPG (Away)**: Pontos por jogo antes da partida.
  - **Home Team Pre-Match xG** e **Away Team Pre-Match xG**: Gols esperados antes da partida.
  - Essas colunas são importantes para a previsão do placar final e eliminar outliers nelas garante que o modelo não seja influenciado por valores extremos.

#### 4. **Visualização dos Dados Limpos**:
- Após a limpeza e remoção de outliers, a função **`.info()`** é utilizada para exibir informações sobre os DataFrames:
  - **matches_df_cleaned**: Agora contém 380 entradas, o que indica que a limpeza preservou a maioria dos dados, sendo uma base robusta para análise posterior.
  - As colunas numéricas como **gols**, **xG** e **PPG** foram limpas e não possuem valores nulos, o que é essencial para o bom desempenho dos modelos preditivos.

### Principais Observações:
1. **Limpeza Eficiente**:
   - A limpeza dos dados foi feita de maneira eficiente, eliminando tanto colunas quanto linhas com grandes proporções de valores nulos.
   - O uso do **IQR** para detectar e remover outliers é uma abordagem sólida, especialmente em dados com distribuições não normais, como é o caso de eventos esportivos.

2. **Dados Prontos para Modelagem**:
   - Com os dados numéricos relevantes limpos e sem valores nulos, o próximo passo será utilizá-los diretamente no treinamento dos modelos preditivos, garantindo que o impacto de valores extremos ou inconsistências seja minimizado.

3. **Possível Ajuste**:
   - Dependendo da performance dos modelos, pode ser interessante ajustar o limite de remoção de outliers (por exemplo, alterando o fator 1.5 no cálculo do IQR) para testar diferentes níveis de sensibilidade à detecção de valores extremos.



In [None]:
#Juntando as tabelas

# Examinando os nomes das equipes nas tabelas para encontrar a melhor chave de junção
matches_teams_cleaned = matches_df_no_outliers.copy()

# Verificar se as colunas de nome de time estão consistentes nas três tabelas
teams_df_cleaned_columns = teams_df_cleaned.columns
teams2_df_cleaned_columns = teams2_df_cleaned.columns

# Unir as tabelas pela chave de time (home_team_name e away_team_name com nomes nas tabelas de times)
# Realizando merge da tabela de partidas(matches) com as tabelas de times (teams e teams2)

# Primeiramente com teams_df_cleaned, fazendo merge com base nos nomes dos times
merged_df = pd.merge(
    matches_teams_cleaned,
    teams_df_cleaned,
    how='left',
    left_on='home_team_name',
    right_on=teams_df_cleaned.columns[0]  # Usando a primeira coluna da tabela de times para junção
)

# Agora fazemos o mesmo para os times visitantes, unindo pela coluna de nome do time visitante
final_merged_df = pd.merge(
    merged_df,
    teams2_df_cleaned,
    how='left',
    left_on='away_team_name',
    right_on=teams2_df_cleaned.columns[0]  # Usando a primeira coluna da tabela de times para junção
)

# Exibindo as primeiras linhas do DataFrame final, com as tabelas já unidas
final_merged_df.head()


In [None]:
# Carregando o novamente arquivo fornecido para reiniciar a análise com foco em jogos completos
matches_df_new = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/brazil-serie-a-matches-2024-to-2024-stats_edit - brazil-serie-a-matches-2024-to-2024-stats_edit.csv')

# Filtrando apenas os jogos completos
matches_df_new_complete = matches_df_new[matches_df_new['status'] == 'complete']

# Exibindo as primeiras linhas dos jogos completos para revisão
matches_df_new_complete.head()


### Análise das Células:

#### 1. **Juntando as Tabelas de Times e Partidas**:
- **Objetivo**: Combinar a tabela de partidas com as tabelas de dados dos times (times da casa e visitantes) para formar um único DataFrame unificado, que contenha tanto os dados das partidas quanto os dados agregados dos times.
  
- **Passos Realizados**:
  1. **Verificação de Colunas Consistentes**: É feito um check para garantir que as colunas relevantes estejam presentes em todas as tabelas de times.
  2. **Merge da Tabela de Partidas com Times da Casa**: Utilizando o nome do time da casa (`home_team_name`) para combinar as informações da tabela de partidas com a tabela de times da casa.
  3. **Merge da Tabela de Partidas com Times Visitantes**: A mesma operação é realizada para unir a tabela de times visitantes, utilizando o campo `away_team_name`.
  4. **Resultado**: O DataFrame resultante contém informações completas sobre a partida, incluindo estatísticas e dados dos dois times envolvidos (casa e visitante). A visualização do **`final_merged_df`** mostra 787 colunas, representando a união das informações das tabelas de times e partidas.

#### 2. **Carregando Arquivo e Filtrando Jogos Completos**:
- **Objetivo**: Carregar e filtrar a tabela de partidas para garantir que apenas os jogos completos (onde todas as informações relevantes estão disponíveis) sejam utilizados na análise posterior.

- **Passos Realizados**:
  1. **Carregamento dos Dados**: A tabela de partidas é recarregada para garantir que os dados estão atualizados.
  2. **Filtragem por Status de Jogos Completos**: Filtra-se apenas as linhas onde o status da partida é `complete`, removendo jogos suspensos ou incompletos que poderiam prejudicar a precisão do modelo.
  3. **Exibição dos Jogos Completos**: A visualização da tabela filtrada mostra que todos os jogos presentes na nova tabela têm o status `complete`, assegurando a integridade dos dados para a modelagem.

### Pontos Importantes:
- **Consistência dos Dados**: A junção das tabelas foi bem-sucedida, e o filtro para considerar apenas jogos completos melhora a qualidade do dataset utilizado para a predição.
- **Complexidade das Colunas**: A combinação das tabelas resultou em um DataFrame com um grande número de colunas (787), o que pode ser desafiador, mas também oferece uma gama ampla de variáveis para refinar o modelo preditivo.
- **Próximos Passos**:
  - Analisar as correlações entre as variáveis mais relevantes e os resultados dos jogos.
  - Avaliar a necessidade de remover ou agregar variáveis menos relevantes para simplificar o modelo sem perda de performance.



In [None]:
# Carregando novamente as tabelas de time
teams2_df_new = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/brazil-serie-a-teams2-2024-to-2024-stats (1) - brazil-serie-a-teams2-2024-to-2024-stats (1).csv')
teams_df_new = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/brazil-serie-a-teams-2024-to-2024-stats (1) - brazil-serie-a-teams-2024-to-2024-stats (1).csv')

# Limpar as tabelas de times
teams2_df_cleaned = clean_data(teams2_df_new)
teams_df_cleaned = clean_data(teams_df_new)

# Unir a tabela de partidas completas com as tabelas de times
# Primeiro com a tabela de times da casa
merged_df_new = pd.merge(
    matches_df_new_complete,
    teams_df_cleaned,
    how='left',
    left_on='home_team_name',
    right_on=teams_df_cleaned.columns[0]
)

# Unir com a tabela de times visitantes
final_merged_df_new = pd.merge(
    merged_df_new,
    teams2_df_cleaned,
    how='left',
    left_on='away_team_name',
    right_on=teams2_df_cleaned.columns[0]
)

# Exibe as primeiras 5 linhas do DataFrame
print(final_merged_df_new.head())



In [None]:
# Limpeza dos dados nas três tabelas que vou utilizar

# Função para remover colunas com mais de 80% de valores ausentes
def clean_data(df, threshold=0.8):
    # Remove colunas com valores nulos acima do threshold especificado
    df_cleaned = df.dropna(thresh=df.shape[0] * (1 - threshold), axis=1)
    return df_cleaned

# Aplicando a limpeza nas três tabelas, removendo colunas com mais de 80% de valores ausentes
matches_df_cleaned = clean_data(matches_df_new, threshold=0.8)
teams2_df_cleaned = clean_data(teams2_df_new, threshold=0.8)
teams_df_cleaned = clean_data(teams_df_new, threshold=0.8)

# Exibindo as primeiras linhas das tabelas após a limpeza para verificar a qualidade dos dados
matches_df_cleaned.head(), teams2_df_cleaned.head(), teams_df_cleaned.head()


### Análise das Células:

#### 1. **Junção das Tabelas de Times e Partidas (Novamente)**:
- **Objetivo**: Repetir o processo de junção das tabelas de times e partidas, mas agora utilizando uma versão nova dos dados de times, corrigida ou atualizada.

- **Passos Realizados**:
  1. **Carregamento das Tabelas de Times**: Foram recarregadas as tabelas `teams_df_new` e `teams2_df_new` que contêm informações dos times (casa e visitante).
  2. **Limpeza dos Dados de Times**: Aplicou-se a função de limpeza `clean_data` para remover colunas com valores nulos acima de um certo threshold (80%). Isso ajuda a reduzir o volume de colunas com muitos valores ausentes, aumentando a qualidade dos dados.
  3. **Junção das Tabelas**:
     - Primeiramente, fez-se o **merge** da tabela de partidas com a tabela de times da casa, utilizando a chave `home_team_name`.
     - Em seguida, realizou-se a mesma operação para a tabela de times visitantes, usando a chave `away_team_name`.
  4. **Resultado**: Um DataFrame contendo informações das partidas e dos times, com 793 colunas após a junção.

#### 2. **Limpeza das Colunas com Muitos Valores Ausentes**:
- **Objetivo**: Garantir que as colunas com muitos valores ausentes (acima de 80%) sejam removidas para evitar que essas colunas prejudiquem a análise e a modelagem.

- **Passos Realizados**:
  1. **Definição da Função de Limpeza**: A função `clean_data` foi implementada para remover colunas com mais de 80% de valores ausentes.
  2. **Aplicação da Função nas Três Tabelas**: A função foi aplicada nas tabelas de partidas e nas tabelas de times (`matches_df_cleaned`, `teams_df_cleaned`, `teams2_df_cleaned`).
  3. **Exibição dos Dados Limpos**:
     - A visualização do DataFrame limpo mostra que o número de colunas foi reduzido significativamente (de 793 para 53), com os valores ausentes sendo removidos, o que indica uma limpeza eficiente dos dados.

### Pontos Importantes:
- **Limpeza Eficiente**: Ao remover colunas com muitos valores ausentes, a análise fica mais robusta e menos suscetível a ruídos e inconsistências nos dados.
- **Consistência dos Dados**: A junção de dados de times da casa e visitantes foi realizada com sucesso, e os dados limpos estão prontos para uma análise mais detalhada.
- **Próximos Passos**:
  - Analisar a qualidade e a relevância das colunas restantes, após a limpeza, para identificar as melhores variáveis preditoras.
  - Continuar o processo de feature engineering e seleção de variáveis, utilizando métodos como correlação e análise de importância de features.



In [None]:
# Remover colunas irrelevantes como timestamp, date_GMT, referee, e outras que não contribuem para a predição
columns_to_drop = ['timestamp', 'date_GMT', 'referee', 'stadium_name', 'attendance']

# Removendo essas colunas das três tabelas principais
matches_df_cleaned = matches_df_cleaned.drop(columns=columns_to_drop, errors='ignore')
teams2_df_cleaned = teams2_df_cleaned.drop(columns=columns_to_drop, errors='ignore')
teams_df_cleaned = teams_df_cleaned.drop(columns=columns_to_drop, errors='ignore')

# Exibir as primeiras linhas dos DataFrames após a limpeza
matches_df_cleaned.head(), teams2_df_cleaned.head(), teams_df_cleaned.head()


In [None]:
# Dropando colunas categóricas para manter apenas as numéricas
matches_df_numeric = matches_df_cleaned.select_dtypes(include=['float64', 'int64'])

# Exibindo as primeiras linhas do DataFrame apenas com colunas numéricas
matches_df_numeric.head()


In [None]:
# Calculando a correlação das features com os gols marcados pelo time da casa e pelo time visitante
correlation_matrix = matches_df_numeric.corr()

# Selecionando as correlações mais altas com as variáveis alvo: 'home_team_goal_count' e 'away_team_goal_count'
home_goals_corr = correlation_matrix['home_team_goal_count'].sort_values(ascending=False)
away_goals_corr = correlation_matrix['away_team_goal_count'].sort_values(ascending=False)

# Exibir as 10 maiores correlações para os gols da equipe da casa e da equipe visitante
home_goals_corr.head(10), away_goals_corr.head(10)


### Análise das Células:

#### 1. **Remoção de Colunas Irrelevantes**:
- **Objetivo**: Remover colunas que não são necessárias para a predição, como timestamp, GMT, nome do estádio, e outras que não influenciam diretamente no placar do jogo.
- **Passos**:
  1. Foi criada uma lista de colunas a serem removidas: `['timestamp', 'date_GMT', 'referee', 'stadium_name', 'attendance']`.
  2. As colunas foram removidas dos três DataFrames principais (partidas, times da casa e times visitantes) usando a função `.drop()`.
  3. O DataFrame resultante tem 50 colunas restantes, com as primeiras linhas exibidas para verificação.

#### 2. **Manutenção Apenas das Colunas Numéricas**:
- **Objetivo**: Focar apenas em colunas numéricas, removendo as categóricas que não serão utilizadas nos modelos preditivos.
- **Passos**:
  1. A função `.select_dtypes()` foi usada para filtrar apenas as colunas com tipos `float64` e `int64`, mantendo apenas as colunas numéricas.
  2. O DataFrame resultante tem 47 colunas numéricas, como `home_team_goal_count`, `total_goal_count`, e `Pre-Match PPG`.

#### 3. **Cálculo da Correlação das Features com os Gols**:
- **Objetivo**: Entender quais features têm maior correlação com os gols marcados pelos times da casa e visitante, facilitando a seleção de features importantes para os modelos.
- **Passos**:
  1. Usando a função `.corr()`, foi calculada a matriz de correlação entre todas as variáveis numéricas do DataFrame.
  2. Foram selecionadas as correlações mais altas com as variáveis-alvo, `home_team_goal_count` e `away_team_goal_count`.
  3. As 10 maiores correlações foram exibidas, destacando variáveis como `home_team_goal_count_half_time`, `home_team_shots_on_target`, `total_goal_count`, e outras que estão fortemente associadas aos gols.

### Pontos Importantes:
- **Remoção de Colunas Irrelevantes**: A remoção de colunas como `timestamp` e `referee` é essencial, pois essas variáveis não influenciam diretamente a predição do número de gols, e mantê-las poderia adicionar ruído ao modelo.
- **Filtro de Colunas Numéricas**: Reduzir o foco apenas para variáveis numéricas simplifica o processo de modelagem, já que os modelos como Lasso e Random Forest trabalham melhor com dados numéricos diretamente.
- **Correlação e Seleção de Features**: Analisar as variáveis mais correlacionadas com os gols ajuda a escolher as features mais relevantes, permitindo construir modelos mais eficientes e focados nas variáveis que realmente impactam o placar.



In [None]:
# Visualizando a matriz de correlação das colunas numéricas
import matplotlib.pyplot as plt
import seaborn as sns

# Definindo o tamanho da figura para melhor visualização
plt.figure(figsize=(14,10))

# Criando um heatmap da matriz de correlação
sns.heatmap(matches_df_numeric.corr(), annot=False, cmap='coolwarm', linewidths=0.5)

# Exibir o gráfico
plt.title("Matriz de Correlação das Features Numéricas")
plt.show()


In [None]:
# Importando as bibliotecas necessárias para as visualizações dos graficos
import seaborn as sns
import matplotlib.pyplot as plt

# Features que mais se correlacionam com os gols da casa e visitante uma vez que queremos encontrar o placar final
features_to_plot = [
    'home_team_goal_count', 'away_team_goal_count', 'home_team_shots_on_target',
    'away_team_shots_on_target', 'team_a_xg', 'team_b_xg'
]

# Histograma para visualizar a distribuição de gols do time da casa e do visitante
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(matches_df_numeric['home_team_goal_count'], kde=True, color='blue')
plt.title('Distribuição de Gols do Time da Casa')

plt.subplot(1, 2, 2)
sns.histplot(matches_df_numeric['away_team_goal_count'], kde=True, color='green')
plt.title('Distribuição de Gols do Time Visitante')
plt.tight_layout()
plt.show()

# Boxplot para verificar outliers nas variáveis de chutes no alvo e xG(expected goals)
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.boxplot(data=matches_df_numeric, x='home_team_shots_on_target', color='blue')
plt.title('Boxplot de Chutes no Alvo do Time da Casa')

plt.subplot(1, 2, 2)
sns.boxplot(data=matches_df_numeric, x='away_team_shots_on_target', color='green')
plt.title('Boxplot de Chutes no Alvo do Time Visitante')
plt.tight_layout()
plt.show()

# Scatter Plot para analisar a relação entre chutes no alvo e xG (expected goals)
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.scatterplot(data=matches_df_numeric, x='home_team_shots_on_target', y='team_a_xg', color='blue')
plt.title('Chutes no Alvo vs Expected Goals (Time da Casa)')

plt.subplot(1, 2, 2)
sns.scatterplot(data=matches_df_numeric, x='away_team_shots_on_target', y='team_b_xg', color='green')
plt.title('Chutes no Alvo vs Expected Goals (Time Visitante)')
plt.tight_layout()
plt.show()




### **Matriz de Correlação das Features Numéricas**

- **O que é?**: Essa célula utiliza uma *heatmap* para mostrar a correlação entre as variáveis numéricas do dataset, calculando o coeficiente de correlação entre cada par de variáveis.
  
- **Como agrega à análise?**:
  - A matriz de correlação nos permite identificar quais variáveis têm uma relação mais forte com o número de gols marcados, tanto para o time da casa quanto para o time visitante.
  - Na matriz, vemos que o *home_team_goal_count* e o *away_team_goal_count* estão altamente correlacionados com o número total de gols e outras variáveis relacionadas, como *shots on target* e *xG*.
  - Essas informações são cruciais para selecionar as melhores variáveis a serem utilizadas em modelos preditivos, descartando aquelas que não têm uma relação forte com o resultado final (gols).

### **Visualizações Gráficas das Features Selecionadas**

- **O que é?**: Essa célula contém uma série de gráficos, como histogramas, boxplots e scatter plots, que visualizam a distribuição dos gols e a relação entre as variáveis mais importantes para a previsão (como *shots on target* e *xG*).

- **Como agrega à análise?**:
  - Os **histogramas** mostram a distribuição dos gols marcados pelos times da casa e visitante. Esses gráficos nos ajudam a entender o padrão de distribuição dos dados (se há mais partidas com 0 gols, por exemplo) e possíveis outliers.
  - Os **boxplots** comparam a distribuição das variáveis de chutes no alvo (*shots on target*) e *xG* para identificar padrões de comportamento. Eles nos ajudam a verificar a presença de outliers e o comportamento geral das variáveis em relação ao número de gols.
  - Os **scatter plots** mostram a relação direta entre chutes no alvo e os expected goals (xG). Aqui, podemos visualizar se há uma relação clara entre o número de chutes e a expectativa de gols, que é um indicativo importante para a performance das equipes e a previsão de placares.

### Conclusão:
- A matriz de correlação permite identificar as variáveis mais relevantes para o modelo de previsão de gols.
- As visualizações gráficas detalhadas ajudam a entender o comportamento dessas variáveis e sua relação com o resultado final, servindo de base para melhorar a performance dos modelos preditivos ao ajustar as features e remover outliers.



### Introdução aos Modelos e Abordagens
Neste projeto, utilizamos diferentes abordagens de **machine learning** para prever o placar final de partidas de futebol, com base em dados históricos de equipes e características das partidas. Os principais modelos testados incluem algoritmos de regressão como o **Lasso**, além de modelos baseados em árvores como o **Random Forest**. Cada modelo foi selecionado com base em suas características para lidar com os desafios do problema, como a **multicolinearidade** entre as features e o risco de **overfitting** em um conjunto de dados relativamente pequeno.

#### Modelos Utilizados:
1. **Lasso Regression**:
   - O **Lasso (Least Absolute Shrinkage and Selection Operator)** é um modelo de regressão linear que aplica uma penalização às features menos relevantes, forçando seus coeficientes a se aproximarem de zero. Ele é útil para selecionar variáveis e prevenir o overfitting, especialmente em cenários com muitas variáveis correlacionadas.

2. **Random Forest**:
   - O **Random Forest** é um algoritmo baseado em árvores de decisão, que constrói múltiplas árvores de decisão aleatórias e usa a média para fazer previsões. Ele é robusto a outliers e menos propenso ao overfitting, sendo uma boa escolha para cenários com muitas variáveis.

3. **GridSearchCV**:
   - Foi utilizado para encontrar os melhores hiperparâmetros tanto no **Lasso** quanto no **Random Forest**, visando otimizar o desempenho dos modelos.

### Avaliações dos Modelos e Métricas
Cada modelo foi avaliado utilizando métricas comuns para problemas de regressão, como:
- **Mean Squared Error (MSE)**: Mede o erro quadrado médio entre as previsões e os valores reais.
- **R² Score**: Indica a proporção da variabilidade dos dados que o modelo é capaz de explicar.

---



In [None]:
# Importando RandomForest e bibliotecas necessárias para dividir os dados e avaliar metricas do modelo
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Separando as features (X) e a variável alvo (y) - Usando total de gols como alvo (home_team_goal_count + away_team_goal_count)
X = matches_df_numeric.drop(columns=['home_team_goal_count', 'away_team_goal_count', 'total_goal_count'])
y = matches_df_numeric['total_goal_count']

# Dividindo os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo RandomForest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Treinando o modelo
rf_model.fit(X_train, y_train)

# Fazendo previsões
y_pred_train = rf_model.predict(X_train)
y_pred_test = rf_model.predict(X_test)

# Avaliando o modelo
train_mse = mean_squared_error(y_train, y_pred_train)
test_mse = mean_squared_error(y_test, y_pred_test)
train_r2 = r2_score(y_train, y_pred_train)
test_r2 = r2_score(y_test, y_pred_test)

train_mse, test_mse, test_r2


In [None]:
from sklearn.model_selection import GridSearchCV

# Definindo o grid de hiperparâmetros
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# Criando o modelo RandomForest
rf_model_grid = RandomForestRegressor(random_state=42)

# Configurando o GridSearchCV para otimização
grid_search = GridSearchCV(estimator=rf_model_grid, param_grid=param_grid, cv=3, scoring='r2', n_jobs=-1)

# Treinando o modelo com busca de hiperparâmetros
grid_search.fit(X_train, y_train)

# Obtendo os melhores hiperparâmetros
best_params = grid_search.best_params_

# Fazendo previsões com o melhor modelo
best_rf_model = grid_search.best_estimator_
y_pred_test_optimized = best_rf_model.predict(X_test)

# Avaliação do modelo otimizado
test_mse_optimized = mean_squared_error(y_test, y_pred_test_optimized)
test_r2_optimized = r2_score(y_test, y_pred_test_optimized)

best_params, test_mse_optimized, test_r2_optimized


In [None]:
# Recarregar os dados e fazer a divisão de treino e teste
import pandas as pd
from sklearn.model_selection import train_test_split

# Separando as features (X) e a variável alvo (y) - Usando total de gols como alvo
X = matches_df_numeric.drop(columns=['home_team_goal_count', 'away_team_goal_count', 'total_goal_count'])
y = matches_df_numeric['total_goal_count']

# Dividindo os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Continuando com a otimização do modelo
grid_search.fit(X_train, y_train)

# Obtendo os melhores hiperparâmetros
best_params = grid_search.best_params_

# Fazendo previsões com o melhor modelo
best_rf_model = grid_search.best_estimator_
y_pred_test_optimized = best_rf_model.predict(X_test)

# Avaliação do modelo otimizado
test_mse_optimized = mean_squared_error(y_test, y_pred_test_optimized)
test_r2_optimized = r2_score(y_test, y_pred_test_optimized)

best_params, test_mse_optimized, test_r2_optimized


A partir desse ponto, vamos continuar o treinamento dos modelos e explicar as abordagens utilizadas, além de discutir os próximos passos com base nos resultados que obtivemos até aqui.

### Introdução ao Treinamento de Modelos

Nesta etapa, começamos a explorar modelos de Machine Learning para prever o número de gols de uma partida, baseando-se em variáveis numéricas relacionadas ao desempenho pré-jogo, como xG (*expected goals*), chutes no alvo e outros indicadores relevantes.

O **Random Forest** foi um dos primeiros modelos que utilizamos. Este algoritmo é conhecido por sua capacidade de lidar com dados complexos e seu bom desempenho em diferentes contextos de previsão. No entanto, ele pode ser suscetível ao *overfitting* se não for devidamente otimizado.

### Avaliação do Modelo Random Forest
1. **Métricas Iniciais**:
   - MSE (Erro Médio Quadrático) no conjunto de treino: `0.0440703947368421`
   - MSE no conjunto de teste: `0.5830313157894736`
   - R² (Coeficiente de Determinação) no conjunto de treino: `0.9716786415125829`
   - R² no conjunto de teste: `0.68846716376223`

   **Interpretação**:
   - O modelo apresentou um bom desempenho no conjunto de treino, mas o desempenho caiu um pouco no conjunto de teste, sugerindo que o modelo pode estar superajustado (*overfitting*) aos dados de treino.

### Otimização com GridSearchCV

Para mitigar o problema de *overfitting*, utilizamos a técnica de **Grid Search** para otimizar os hiperparâmetros do Random Forest, incluindo:
- `n_estimators`: Número de árvores na floresta.
- `max_depth`: Profundidade máxima das árvores.
- `min_samples_split`: Número mínimo de amostras para dividir um nó.

Após a otimização, obtivemos os seguintes melhores hiperparâmetros:
- `n_estimators`: 200
- `min_samples_split`: 2
- `max_depth`: None

**Métricas após a otimização**:
- MSE no conjunto de teste otimizado: `0.546477396485179`
- R² no conjunto de teste otimizado: `0.706039924668923`

### Próximos Passos

Apesar da melhoria significativa após a otimização, o modelo Random Forest ainda apresenta limitações em termos de precisão no conjunto de teste. Isso pode ser explicado pela quantidade limitada de dados, o que afeta a capacidade de generalização do modelo.

Os próximos passos são:
1. **Explorar outros modelos**: Além do Random Forest, podemos testar abordagens como Lasso ou Gradient Boosting para verificar se algum deles traz melhorias adicionais.
2. **Regularização de Features**: Testar a aplicação de técnicas de regularização, como Lasso e Ridge, pode ajudar a reduzir a complexidade do modelo e melhorar o desempenho em cenários de menor quantidade de dados.
3. **Aprimorar o Dataset**: Tentar aumentar a quantidade de dados (se disponível) ou aplicar técnicas de *data augmentation* para melhorar a capacidade de generalização dos modelos treinados.

Esses próximos passos visam aumentar a precisão das previsões de placar final e mitigar os efeitos do *overfitting* observados até agora.

In [None]:

from sklearn.ensemble import RandomForestRegressor
import matplotlib.pyplot as plt
import pandas as pd

# Criando o modelo RandomForest otimizado
best_rf_model = RandomForestRegressor(n_estimators=200, max_depth=None, min_samples_split=2, random_state=42)

# Treinando o modelo novamente
best_rf_model.fit(X_train, y_train)

# Obtendo a importância das features
feature_importances = pd.Series(best_rf_model.feature_importances_, index=X.columns)

# Ordenar por importância
sorted_importances = feature_importances.sort_values(ascending=False)

# Plotando as 10 features mais importantes
plt.figure(figsize=(10, 6))
sorted_importances.head(10).plot(kind='barh', color='skyblue')
plt.title('Top 10 Features mais Importantes no Modelo Random Forest')
plt.xlabel('Importância da Feature')
plt.ylabel('Features')
plt.show()


In [None]:
# Usando as top 10 features mais importantes
important_features = sorted_importances.head(10).index.tolist()

# Criando um novo conjunto de dados com apenas as top features selecionadas
X_refined = X[important_features]

# Dividindo os dados em conjunto de treino e teste com as features refinadas
X_train_refined, X_test_refined, y_train_refined, y_test_refined = train_test_split(X_refined, y, test_size=0.2, random_state=42)

# Treinando o modelo RandomForest com as features refinadas
best_rf_model.fit(X_train_refined, y_train_refined)

# Fazendo previsões
y_pred_train_refined = best_rf_model.predict(X_train_refined)
y_pred_test_refined = best_rf_model.predict(X_test_refined)

# Avaliando o modelo com as features refinadas
train_mse_refined = mean_squared_error(y_train_refined, y_pred_train_refined)
test_mse_refined = mean_squared_error(y_test_refined, y_pred_test_refined)
train_r2_refined = r2_score(y_train_refined, y_pred_train_refined)
test_r2_refined = r2_score(y_test_refined, y_pred_test_refined)

print(train_mse_refined, test_mse_refined, train_r2_refined, test_r2_refined)


**Random Forest**:

### 1. Importância das Features no Random Forest:
Primeiramente, o modelo **Random Forest** foi treinado com todas as features e, em seguida, analisamos as **10 principais variáveis mais importantes** que contribuíram para as previsões. A importância das variáveis foi visualizada em um gráfico de barras, com as features como **"home_team_goal_count_half_time"** e **"away_team_fouls"** sendo destacadas como as mais relevantes para prever o placar.

A importância dessas features nos ajuda a identificar quais características têm mais impacto na previsão do resultado de uma partida. Com isso, podemos selecionar as features mais relevantes e criar um modelo mais eficiente, removendo o ruído gerado por variáveis menos importantes.

### 2. Refinamento e Otimização do Random Forest:
Com base nas **top 10 features mais importantes**, criamos um novo conjunto de dados refinado, contendo apenas essas features, e treinamos novamente o modelo **Random Forest**.

#### Resultados do Modelo Refinado:
- O **MSE** e o **R²** do modelo refinado foram avaliados tanto no conjunto de treino quanto no conjunto de teste, apresentando valores como:
  - **MSE no treino**: 0.0368
  - **MSE no teste**: 0.4891
  - **R² no treino**: 0.8720
  - **R² no teste**: 0.7356


In [None]:
from sklearn.model_selection import GridSearchCV

# Definindo o grid de hiperparâmetros para regularizar o modelo
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 15, None],  # Limitar a profundidade
    'min_samples_split': [2, 5, 10],  # Maior número mínimo de amostras para divisão
    'max_features': ['auto', 'sqrt', 'log2']  # Ajustar o número de features consideradas por divisão
}

# Criando o modelo RandomForest
rf_model_grid = RandomForestRegressor(random_state=42)

# Configurando o GridSearchCV para otimização
grid_search = GridSearchCV(estimator=rf_model_grid, param_grid=param_grid, cv=3, scoring='r2', n_jobs=-1)

# Treinando o modelo com busca de hiperparâmetros
grid_search.fit(X_train, y_train)

# Obtendo os melhores hiperparâmetros
best_params = grid_search.best_params_

# Fazendo previsões com o melhor modelo
best_rf_model = grid_search.best_estimator_
y_pred_test_optimized = best_rf_model.predict(X_test)

# Avaliação do modelo otimizado
test_mse_optimized = mean_squared_error(y_test, y_pred_test_optimized)
test_r2_optimized = r2_score(y_test, y_pred_test_optimized)

best_params, test_mse_optimized, test_r2_optimized




### GridSearchCV:
Após o refinamento inicial, aplicamos o **GridSearchCV** para realizar uma busca pelos melhores hiperparâmetros do modelo. O **GridSearch** testou diferentes combinações de parâmetros como a profundidade máxima das árvores (**max_depth**), o número de árvores (**n_estimators**) e o número mínimo de amostras para dividir um nó (**min_samples_split**). Isso foi feito para encontrar a configuração que melhor otimiza o desempenho do **Random Forest**.

O modelo otimizado resultou nos seguintes melhores hiperparâmetros:
- **n_estimators**: 200
- **max_depth**: None
- **min_samples_split**: 2

Essas mudanças permitiram uma melhora significativa no **R²** do conjunto de teste.

#### Conclusão:
Este processo de otimização e refinamento demonstrou como podemos usar tanto a análise das features quanto a otimização de hiperparâmetros para melhorar a performance de um modelo de **Random Forest**.



---

### Introdução ao Lasso

O **Lasso** (Least Absolute Shrinkage and Selection Operator) é um método de **regressão linear regularizada** que aplica uma penalização na soma dos valores absolutos dos coeficientes do modelo. Ele é particularmente útil em cenários onde há muitas variáveis, pois tem a capacidade de realizar **seleção de variáveis** ao "forçar" coeficientes irrelevantes a se aproximarem de zero, o que simplifica o modelo e reduz o overfitting.

### Por que Utilizamos o Lasso?

Optamos por utilizar o **Lasso** neste projeto devido às seguintes razões:
- **Overfitting**: No nosso problema de previsão de placares, enfrentamos um cenário onde algumas features podem estar correlacionadas com o ruído ou são redundantes. O Lasso nos ajuda a reduzir o overfitting ao penalizar coeficientes grandes e manter o modelo mais simples.
- **Seleção de Variáveis**: Como temos várias variáveis (features) que podem ou não ser relevantes para a previsão dos gols, o Lasso também nos ajuda a selecionar automaticamente as mais importantes, ignorando as que têm menos impacto no resultado final.
- **Robustez em Pequenos Conjuntos de Dados**: O Lasso é eficaz em situações de conjuntos de dados relativamente pequenos, como o nosso, onde temos que garantir que o modelo não se ajuste demais aos dados de treino, mantendo um bom desempenho nos dados de teste.

### Como Funciona o Lasso?

O Lasso ajusta o modelo de regressão linear adicionando uma penalização ao erro quadrático da função de custo. A penalização está associada à soma dos valores absolutos dos coeficientes do modelo:

$$
\text{Função de Custo do Lasso} = \frac{1}{2n} \sum_{i=1}^{n} \left( y_i - \hat{y}_i \right)^2 + \alpha \sum_{j=1}^{p} |w_j|
$$

Onde:
- $y_i$ são os valores reais.
- $\hat{y}_i$ são os valores previstos.
- $\alpha$ é o parâmetro de regularização que controla a força da penalização.
- $w_j$ são os coeficientes do modelo.

Quanto maior o valor de **$\alpha$**, maior será a penalização aplicada aos coeficientes, o que resultará em coeficientes menores ou até mesmo zero para algumas features. Isso ajuda na seleção das variáveis mais importantes e também controla o overfitting.

### Aplicação do GridSearch para Otimizar o Lasso

Embora o Lasso ofereça vantagens com sua regularização, a escolha do valor de **$\alpha$** é crítica para alcançar um bom equilíbrio entre bias e variância. O **GridSearchCV** é uma técnica de busca sistemática que nos ajuda a encontrar os melhores hiperparâmetros, como o valor ideal de **$\alpha$**.

O **GridSearch** testa várias combinações de hiperparâmetros (neste caso, diferentes valores de **$\alpha$**) e seleciona o conjunto que oferece a melhor performance com base em uma métrica de avaliação, como o **Mean Squared Error (MSE)** ou o **$R^2$**. Isso nos permite explorar diferentes configurações sem precisar testar manualmente cada valor possível.

#### Resumo dos Benefícios do GridSearch no Lasso:
- **Exploração Automatizada**: Em vez de escolhermos manualmente o valor de **$\alpha$**, o GridSearch faz uma exploração abrangente de possíveis valores.
- **Validação Cruzada**: O GridSearch usa validação cruzada para testar os diferentes valores de **$\alpha$**, garantindo que a avaliação seja mais robusta e menos propensa a variabilidade dos dados de treino e teste.
- **Melhoria da Performance**: Encontrar o melhor valor de **$\alpha$** maximiza a performance do modelo, tanto em termos de ajuste (reduzindo o overfitting) quanto em termos de generalização para novos dados.

### Conclusão

Escolhemos o **Lasso** pela sua capacidade de regularizar o modelo e selecionar variáveis, o que é importante no nosso problema, onde há muitas features que podem ou não ser relevantes. Combinado com o **GridSearchCV**, conseguimos ajustar o hiperparâmetro **$\alpha$** de forma eficiente, garantindo um modelo otimizado, que evita overfitting e tem uma melhor capacidade de previsão.

---


In [None]:
from sklearn.linear_model import Lasso
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score

# Definir o grid de hiperparâmetros para o Lasso
param_grid = {
    'alpha': [0.035, 0.1, 1, 10, 100]
}

# Criando o modelo Lasso
lasso_model = Lasso(max_iter=10000, random_state=42)

# Configurando o GridSearchCV para otimização
grid_search = GridSearchCV(estimator=lasso_model, param_grid=param_grid, cv=3, scoring='r2', n_jobs=-1)

# Treinando o modelo com busca de hiperparâmetros
grid_search.fit(X_train_refined, y_train_refined)

# Obtendo os melhores hiperparâmetros
best_params = grid_search.best_params_

# Fazendo previsões com o melhor modelo
best_lasso_model = grid_search.best_estimator_
y_pred_test_lasso = best_lasso_model.predict(X_test_refined)

# Avaliação do modelo otimizado
test_mse_lasso = mean_squared_error(y_test, y_pred_test_lasso)
test_r2_lasso = r2_score(y_test, y_pred_test_lasso)

best_params, test_mse_lasso, test_r2_lasso


In [None]:
#Testando Abordagem de Stacking

from sklearn.ensemble import StackingRegressor
from sklearn.linear_model import Lasso
from xgboost import XGBRegressor
import lightgbm as lgb

# Criando os modelos base
lasso_model = Lasso(alpha=0.045, max_iter=10000, random_state=42)
xgb_model = XGBRegressor(objective='reg:squarederror', random_state=42)
lgb_model = lgb.LGBMRegressor(random_state=42)

# Criando o modelo meta (neste caso, Random Forest)
meta_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Configurando o Stacking
stacking_model = StackingRegressor(
    estimators=[
        ('lasso', lasso_model),
        ('xgboost', xgb_model),
        ('lightgbm', lgb_model)
    ],
    final_estimator=meta_model
)

# Treinando o modelo de stacking
stacking_model.fit(X_train_refined, y_train_refined)

# Fazendo previsões
y_pred_test_stacking = stacking_model.predict(X_test_refined)

# Avaliando o modelo de stacking
test_mse_stacking = mean_squared_error(y_test_refined, y_pred_test_stacking)
test_r2_stacking = r2_score(y_test_refined, y_pred_test_stacking)

print("Stacking Model - MSE:", test_mse_stacking, "R²:", test_r2_stacking)




### Introdução ao Lasso com GridSearch

Nesta primeira célula, estamos utilizando o **Lasso** para realizar a regressão regularizada, combinando-o com o **GridSearchCV** para encontrar o melhor valor para o hiperparâmetro **alpha**. O Lasso é ideal quando queremos selecionar as variáveis mais importantes e controlar o overfitting, como já discutido anteriormente.

1. **Definição do Grid**: O GridSearch está testando diferentes valores de **alpha** em um intervalo que vai de 0.035 a 10.
2. **Melhores Parâmetros**: Após treinar o modelo com diferentes valores de **alpha**, o GridSearchCV escolhe **alpha = 0.035** como o melhor valor para o problema em questão, apresentando um **MSE** de **0.37468719906131465** e um **\(R^2\)** de **0.794746466068081**.

Este resultado mostra que o **Lasso** foi bem-sucedido em encontrar um modelo adequado para o problema de previsão de gols, selecionando as variáveis mais relevantes e otimizando o modelo.

### Testando Abordagem de Stacking

Nesta célula, estamos implementando uma abordagem de **Stacking Regressor**, que combina a predição de diferentes modelos de base (como **Lasso**, **XGBoost**, e **LightGBM**) e utiliza um meta-modelo (no caso, **RandomForestRegressor**) para fazer a predição final. A ideia por trás do stacking é combinar as forças de diferentes algoritmos para melhorar a performance geral.

1. **Modelos de Base**:
   - **Lasso** com **alpha = 0.045**: Um modelo de regularização para ajudar na seleção de features.
   - **XGBoost**: Um modelo de boosting que é bom para capturar interações complexas.
   - **LightGBM**: Um modelo leve e eficiente para grandes volumes de dados.

2. **Meta-Modelo**: O **RandomForest** foi escolhido como o meta-modelo para combinar as predições dos modelos de base.

3. **Problema Identificado**: Como vemos no output do **LightGBM**, houve um problema ao tentar realizar as previsões, onde o ganho da árvore não foi significativo (indicando algum problema na modelagem ou no ajuste dos hiperparâmetros para este modelo específico).

### Próximos Passos:

1. **Avaliar os Modelos**: Aparentemente, o **Stacking** não teve o desempenho esperado devido ao problema identificado com o LightGBM. É importante ajustar os hiperparâmetros do LightGBM e do Stacking como um todo para tentar melhorar a performance.

2. **Rever a Configuração de Stacking**: Outra abordagem pode ser a de substituir o **LightGBM** por um modelo diferente ou ajustar os parâmetros de treinamento para que o modelo de stacking possa combinar melhor as predições de cada modelo de base.

3. **Comparação Final**: Após ajustar o stacking, seria interessante comparar diretamente os resultados do **Lasso** puro, do **Random Forest** e do **Stacking** para verificar qual abordagem traz os melhores resultados no conjunto de teste.


In [None]:
from sklearn.linear_model import LassoCV
from sklearn.model_selection import cross_val_score

# Criando o modelo Lasso com validação cruzada para otimizar alpha
lasso_cv = LassoCV(alphas=[0.04, 0.045, 0.05], cv=5, max_iter=10000, random_state=42)

# Treinando o modelo Lasso com cross-validation
lasso_cv.fit(X_train_refined, y_train_refined)

# Fazendo previsões
y_pred_test_lasso_cv = lasso_cv.predict(X_test_refined)

# Avaliando o modelo com cross-validation
test_mse_lasso_cv = mean_squared_error(y_test_refined, y_pred_test_lasso_cv)
test_r2_lasso_cv = r2_score(y_test_refined, y_pred_test_lasso_cv)

# Melhor alpha encontrado
best_alpha = lasso_cv.alpha_

print(f"Melhor Alpha: {best_alpha}")
print("Cross-Validation Lasso - MSE:", test_mse_lasso_cv, "R²:", test_r2_lasso_cv)


In [None]:
from sklearn.linear_model import LassoCV
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error, r2_score

# Criando o modelo Lasso com validação cruzada para ajustar o alpha
lasso_cv = LassoCV(alphas=[0.035, 0.04, 0.045, 0.05, 0.055], cv=5, max_iter=10000, random_state=42)

# Treinando o modelo Lasso com cross-validation
lasso_cv.fit(X_train_refined, y_train_refined)

# Fazendo previsões no conjunto de teste
y_pred_test_lasso_cv = lasso_cv.predict(X_test_refined)

# Avaliando o modelo com cross-validation
test_mse_lasso_cv = mean_squared_error(y_test_refined, y_pred_test_lasso_cv)
test_r2_lasso_cv = r2_score(y_test_refined, y_pred_test_lasso_cv)

# Melhor valor de alpha encontrado
best_alpha = lasso_cv.alpha_

print(f"Melhor Alpha: {best_alpha}")
print("Cross-Validation Lasso - MSE:", test_mse_lasso_cv, "R²:", test_r2_lasso_cv)


In [None]:
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Separando as features e a variável alvo (gols do time da casa)
X_home = matches_df_numeric.drop(columns=['home_team_goal_count', 'away_team_goal_count', 'total_goal_count'])
y_home = matches_df_numeric['home_team_goal_count']

# Dividindo os dados em conjunto de treino e teste
X_train_home, X_test_home, y_train_home, y_test_home = train_test_split(X_home, y_home, test_size=0.2, random_state=42)

# Criando o modelo Lasso para o time da casa
lasso_home = Lasso(alpha=0.035, max_iter=10000, random_state=42)

# Treinando o modelo
lasso_home.fit(X_train_home, y_train_home)

# Fazendo previsões para o time da casa
y_pred_test_home = lasso_home.predict(X_test_home)

# Avaliando o modelo
test_mse_home = mean_squared_error(y_test_home, y_pred_test_home)
test_r2_home = r2_score(y_test_home, y_pred_test_home)

print("Home Team - MSE:", test_mse_home, "R²:", test_r2_home)


In [None]:
# Separando as features e a variável alvo (gols do time visitante)
X_away = matches_df_numeric.drop(columns=['home_team_goal_count', 'away_team_goal_count', 'total_goal_count'])
y_away = matches_df_numeric['away_team_goal_count']

# Dividindo os dados em conjunto de treino e teste
X_train_away, X_test_away, y_train_away, y_test_away = train_test_split(X_away, y_away, test_size=0.2, random_state=42)

# Criando o modelo Lasso para o time visitante
lasso_away = Lasso(alpha=0.035, max_iter=10000, random_state=42)

# Treinando o modelo
lasso_away.fit(X_train_away, y_train_away)

# Fazendo previsões para o time visitante
y_pred_test_away = lasso_away.predict(X_test_away)

# Avaliando o modelo
test_mse_away = mean_squared_error(y_test_away, y_pred_test_away)
test_r2_away = r2_score(y_test_away, y_pred_test_away)

print("Away Team - MSE:", test_mse_away, "R²:", test_r2_away)


Nestas células, estamos lidando com o modelo **Lasso** novamente, mas desta vez utilizando uma validação cruzada com o **LassoCV**. Isso nos permite encontrar automaticamente o melhor valor de **alpha** com base em diferentes valores testados durante a validação cruzada.

---
O **LassoCV** é uma variação do modelo de regressão Lasso que incorpora validação cruzada (cross-validation) no processo de ajuste do modelo. Ele automatiza a escolha do parâmetro de regularização **alpha**, que controla a intensidade da penalização aplicada aos coeficientes do modelo. Essa regularização é importante porque ajuda a combater o overfitting, forçando alguns coeficientes a zero e mantendo o modelo mais simples e eficiente.

### Funcionamento do LassoCV:

1. **Regularização Automática**: O LassoCV testa diferentes valores de **alpha** (o parâmetro de regularização), e escolhe aquele que oferece o melhor desempenho com base nos dados de validação cruzada.
   
2. **Validação Cruzada (Cross-Validation)**: O conjunto de dados é dividido em vários subconjuntos (folds), e em cada iteração, o modelo é treinado em alguns desses subconjuntos e testado nos demais. Esse processo garante que o modelo seja avaliado em diferentes partes dos dados, tornando sua avaliação mais robusta.

3. **Penalização L1**: Assim como o Lasso, o LassoCV utiliza a penalização L1, que tende a "forçar" coeficientes irrelevantes a se tornarem zero, selecionando apenas as variáveis mais importantes para o modelo final.

4. **Aplicabilidade**: O LassoCV é útil quando você quer automatizar a escolha do valor de **alpha**, evitando a necessidade de fazer testes manuais com diferentes valores e garantindo uma avaliação robusta do modelo com validação cruzada.

Em resumo, o **LassoCV** facilita a escolha do hiperparâmetro **alpha** ideal para balancear a complexidade do modelo e garantir sua capacidade de generalização.

### Primeira Célula: Validação Cruzada com LassoCV

1. **Definição do Modelo**: O modelo **LassoCV** é criado com uma gama de valores para o hiperparâmetro **alpha**: [0.035, 0.04, 0.045, 0.05, 0.055]. Esses valores serão testados durante a validação cruzada para encontrar o valor ideal.
   
2. **Validação Cruzada (Cross-Validation)**: Ao configurar o **cv=5**, estamos dizendo ao modelo para realizar uma validação cruzada com 5 folds. Isso divide os dados em 5 partes, utilizando 4 para treino e 1 para validação em cada iteração, garantindo que o modelo seja avaliado de forma robusta em diferentes subconjuntos de dados.

3. **Métricas de Avaliação**:
   - O **MSE** da validação cruzada foi de 0.37321547794912545.
   - O **\(R^2\)** foi de 0.7955525265175957.
   - O melhor valor encontrado para **alpha** foi **0.04**.

Esse modelo foi bem-sucedido em encontrar um valor apropriado para **alpha**, garantindo uma boa generalização para novos dados.

### Segunda Célula: Refinamento da Busca por Alpha

1. **Ajuste Fino**: Nesta célula, estamos refinando a busca por **alpha** com valores entre [0.035, 0.04, 0.045, 0.05, 0.055]. Isso representa uma busca mais detalhada, tentando encontrar o valor de **alpha** que forneça o melhor equilíbrio entre bias e variância.

2. **Resultado**:
   - O melhor valor de **alpha** foi **0.035**, o que resultou em um **MSE** de 0.37468719906131465 e um **\(R^2\)** de 0.794746466068081.

### Terceira e Quarta Células: Treinamento e Avaliação Separada para Times da Casa e Visitante

Aqui estamos separando os dados para prever os gols do **Time da Casa** e do **Time Visitante**.

1. **Home Team (Time da Casa)**:
   - O modelo foi treinado usando o **Lasso** com **alpha = 0.035**.
   - As previsões para os gols do time da casa resultaram em um **MSE** de **0.21162443650241** e um **\(R^2\)** de **0.5492836485110912**. Embora o **\(R^2\)** não seja tão alto quanto esperado, o modelo ainda consegue explicar mais da metade da variação nos gols.

2. **Away Team (Time Visitante)**:
   - O mesmo processo foi realizado para o time visitante, resultando em um **MSE** de **0.20792683223841768** e um **\(R^2\)** de **0.7518625241716734**, o que mostra que o modelo é mais eficiente em prever os gols do time visitante.

### Conclusão

O **LassoCV** nos permitiu refinar o valor de **alpha** de maneira eficiente, utilizando a validação cruzada para garantir que o modelo esteja bem ajustado e generalize bem. A separação das previsões entre os times da casa e visitante também revelou que o modelo tem uma performance ligeiramente melhor para o time visitante.

Os próximos passos podem incluir ajustes nos hiperparâmetros e a exploração de outras técnicas de regularização ou ensemble methods para melhorar ainda mais a performance do modelo, especialmente para o time da casa.

In [None]:
from sklearn.linear_model import LassoCV

# Criando o modelo Lasso com validação cruzada para ajustar o alpha para o time da casa
lasso_home_cv = LassoCV(alphas=[0.01, 0.015, 0.02, 0.025, 0.03, 0.035], cv=5, max_iter=10000, random_state=42)

# Treinando o modelo Lasso com validação cruzada
lasso_home_cv.fit(X_train_home, y_train_home)

# Fazendo previsões para o time da casa
y_pred_test_home_cv = lasso_home_cv.predict(X_test_home)

# Avaliando o modelo
test_mse_home_cv = mean_squared_error(y_test_home, y_pred_test_home_cv)
test_r2_home_cv = r2_score(y_test_home, y_pred_test_home_cv)

# Melhor alpha encontrado
best_alpha_home = lasso_home_cv.alpha_

print(f"Melhor Alpha para o Time da Casa: {best_alpha_home}")
print("Time da Casa - MSE:", test_mse_home_cv, "R²:", test_r2_home_cv)


In [None]:
# Prevendo os gols do time da casa e do visitante para calcular o placar final
y_pred_home_final = lasso_home.predict(X_test_home)
y_pred_away_final = lasso_away.predict(X_test_away)

# Gerando o placar final
for i in range(len(y_pred_home_final)):
    print(f"Placar previsto: Time da Casa {round(y_pred_home_final[i])} x {round(y_pred_away_final[i])} Time Visitante")


Nessas células, começamos a previsão dos placares das partidas utilizando o modelo de regressão Lasso otimizado. Vou explicar os principais passos e as abordagens que estamos utilizando:

### 1. Predição dos Placar Final para o Time da Casa e Visitante
Nas primeiras células, utilizamos o modelo LassoCV para ajustar o parâmetro **alpha** de forma a minimizar o erro quadrático médio (MSE) e maximizar o \( R^2 \). Após encontrar o melhor valor de **alpha** (neste caso, **0.025**), usamos o modelo treinado para prever os gols do time da casa e visitante:

- **y_pred_home**: Previsão dos gols do time da casa usando o modelo Lasso treinado.
- **y_pred_away**: Previsão dos gols do time visitante usando o mesmo procedimento.

### 2. Gerando os Placar Final
Depois de obter as previsões de gols, geramos os placares para as partidas testadas. O resultado apresenta os placares previstos para cada uma das partidas do conjunto de teste.

### 3. Abordagem Anterior vs. Melhoria Proposta
Nos resultados atuais, observamos que muitos dos placares previstos são "0 x 0". Isso pode ser um indício de que o modelo Lasso precisa de um ajuste mais fino, talvez envolvendo outras features ou técnicas para melhorar a variabilidade dos placares previstos.

### 4. Próximas Abordagens

**a) Random Forest com Features Refinadas:**
Após observar os resultados iniciais, decidimos melhorar as previsões experimentando o modelo Random Forest com as **top 10 features mais importantes**, que foram identificadas previamente. As features selecionadas são aquelas que possuem maior impacto na previsão dos gols, como chutes a gol, posse de bola, e gols no primeiro tempo.

**b) Otimização dos Hiperparâmetros com GridSearch:**
Para garantir que estamos extraindo o melhor desempenho do Random Forest, aplicamos o **GridSearchCV** para encontrar os melhores hiperparâmetros, como o número de estimadores, profundidade máxima, e o número mínimo de amostras para a divisão.

### Objetivo Final

Queremos chegar a um modelo que:
1. **Minimize o MSE**: Queremos que o erro nas previsões seja o menor possível, garantindo previsões mais precisas dos placares.
2. **Melhore a Variabilidade**: Queremos evitar a repetição de placares "0 x 0", garantindo que o modelo reflita melhor a diversidade dos resultados reais.
3. **Maximize o \( R^2 \)**: Indicando que o modelo está explicando bem a variabilidade dos dados.


In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score

# Usando agoras as top 10 features refinadas
X_train_home_refined, X_test_home_refined, y_train_home_refined, y_test_home_refined = train_test_split(X_refined, y_home, test_size=0.2, random_state=42)

# Criando o modelo RandomForest
rf_home_refined = RandomForestRegressor(random_state=42)

# Definindo o grid de hiperparâmetros para otimizar o modelo RandomForest
param_grid_rf = {
    'n_estimators': [100, 200],
    'max_depth': [5, 10, 15, None],
    'min_samples_split': [2, 5, 10],
}

# Configurando o GridSearchCV para otimização
grid_search_rf_refined = GridSearchCV(estimator=rf_home_refined, param_grid=param_grid_rf, cv=3, scoring='r2', n_jobs=-1)

# Treinando o modelo com busca de hiperparâmetros
grid_search_rf_refined.fit(X_train_home_refined, y_train_home_refined)

# Obtendo os melhores hiperparâmetros
best_params_rf_refined = grid_search_rf_refined.best_params_

# Fazendo previsões com o melhor modelo Random Forest
best_rf_home_refined = grid_search_rf_refined.best_estimator_
y_pred_test_rf_home_refined = best_rf_home_refined.predict(X_test_home_refined)

# Avaliando o modelo Random Forest
test_mse_rf_home_refined = mean_squared_error(y_test_home_refined, y_pred_test_rf_home_refined)
test_r2_rf_home_refined = r2_score(y_test_home_refined, y_pred_test_rf_home_refined)

print(f"Melhores Hiperparâmetros: {best_params_rf_refined}")
print("Random Forest Time da Casa (Refinado) - MSE:", test_mse_rf_home_refined, "R²:", test_r2_rf_home_refined)


In [None]:
import matplotlib.pyplot as plt

# Visualizando a distribuição dos gols do time da casa
plt.hist(y_home, bins=10, color='skyblue')
plt.title('Distribuição dos Gols do Time da Casa')
plt.xlabel('Gols')
plt.ylabel('Frequência')
plt.show()

#Avaliando a distribuicao para identificar possiveis distribuicoes irregulares


In [None]:
import numpy as np

# Aplicando a transformação logarítmica nos gols do time da casa
y_home_log = np.log1p(y_home)  # log1p(x) = log(1 + x) para evitar log(0)

# Separando os dados de treino e teste após a transformação
X_train_home_log, X_test_home_log, y_train_home_log, y_test_home_log = train_test_split(X_refined, y_home_log, test_size=0.2, random_state=42)

# Treinando o modelo Lasso com os dados regularizados (log transform)
lasso_home_log = Lasso(alpha=0.035, max_iter=10000, random_state=42)
lasso_home_log.fit(X_train_home_log, y_train_home_log)

# Fazendo previsões
y_pred_test_home_log = lasso_home_log.predict(X_test_home_log)

# Invertendo a transformação logarítmica para avaliar os resultados
y_pred_test_home_final = np.expm1(y_pred_test_home_log)  # expm1(x) = exp(x) - 1

# Avaliando o modelo
test_mse_home_log = mean_squared_error(y_test_home, y_pred_test_home_final)
test_r2_home_log = r2_score(y_test_home, y_pred_test_home_final)

print("Modelo Lasso (Dados Log) - MSE:", test_mse_home_log, "R²:", test_r2_home_log)


Nesta parte, estamos abordando um desafio comum em previsões de placares, onde a distribuição dos dados está enviesada, ou seja, temos muitos zeros (ou seja, partidas com nenhum gol marcado) e poucos valores maiores (partidas com muitos gols). Vamos detalhar a lógica por trás das células e por que aplicamos a transformação logarítmica.

### Explicação das Células:

1. **Distribuição dos Gols do Time da Casa (Gráfico)**:
   - O primeiro gráfico mostra a **distribuição dos gols do time da casa**. Como podemos ver, a maioria das partidas resulta em zero ou poucos gols, com muito menos partidas resultando em 3, 4 ou 5 gols.
   - Este tipo de distribuição é conhecida como **distribuição enviesada** (ou skewed distribution), o que pode dificultar o treinamento de modelos de regressão linear, como o Random Forest ou Lasso, pois esses modelos podem não captar bem essa variação desigual nos dados.

2. **Problema com Distribuições Enviadas**:
   - Quando os dados têm essa distribuição enviesada, o modelo pode acabar tendo dificuldades para prever resultados em cenários de alta variabilidade. Como resultado, pode tender a prever sempre valores próximos a zero, o que não reflete a realidade de jogos com maiores quantidades de gols.

3. **Aplicação da Transformação Logarítmica**:
   - Para resolver esse problema, aplicamos uma **transformação logarítmica** nos dados dos gols do time da casa. Isso "comprime" a distribuição, tornando-a mais simétrica e distribuída de maneira que o modelo consiga capturar melhor a variação dos dados.
   - **Fórmula usada**: A transformação aplicada é $[ y_{\text{log}} = \log(1 + y) ]$. A adição de 1 evita que valores zero resultem em valores indefinidos, já que o logaritmo de 0 não existe.
   - **Benefício**: A transformação logarítmica ajuda a "linearizar" as relações, tornando os dados mais fáceis de serem modelados e melhorando a capacidade do modelo de capturar padrões, principalmente em previsões que envolvem dados com grande variância.

4. **Treinamento e Avaliação do Modelo Lasso com Transformação Logarítmica**:
   - Após aplicar a transformação logarítmica, treinamos o modelo **Lasso** com os dados transformados. A previsão também é feita no espaço logarítmico.
   - Para retornar os valores previstos ao espaço original (gols reais), aplicamos a **exponencial inversa** $[ \exp(y_{\text{log}}) - 1 ]$, de modo a reverter a transformação logarítmica e comparar os resultados com os valores reais.
   - **Resultados**: O modelo Lasso com a transformação logarítmica apresentou um **MSE de 0.187** e um \( R^2 \) de **0.600**, o que representa uma melhora significativa em relação ao modelo sem transformação.

### Conclusão:
A **transformação logarítmica** foi crucial para melhorar a capacidade de previsão do modelo em um conjunto de dados enviesado, como o de previsões de placares. Com essa abordagem, conseguimos capturar melhor a variabilidade entre jogos com muitos e poucos gols, resultando em previsões mais precisas.

In [None]:
# Modelo do time da casa com transformação logarítmica
y_pred_test_home_final = np.expm1(y_pred_test_home_log)  # Previsão final já deslogaritmizada
# Aplicar transformação logarítmica nos gols do time visitante
y_away_log = np.log1p(y_away)

# Separar os dados de treino e teste após a transformação
X_train_away_log, X_test_away_log, y_train_away_log, y_test_away_log = train_test_split(X_refined, y_away_log, test_size=0.2, random_state=42)

# Treinar o modelo Lasso para o time visitante com transformação logarítmica
lasso_away_log = Lasso(alpha=0.035, max_iter=10000, random_state=42)
lasso_away_log.fit(X_train_away_log, y_train_away_log)

# Fazer previsões para o time visitante
y_pred_test_away_log = lasso_away_log.predict(X_test_away_log)

# Inverter a transformação logarítmica para obter as previsões finais
y_pred_test_away_final = np.expm1(y_pred_test_away_log)


In [None]:
# Gerar o placar final para cada partida
for i in range(len(y_pred_test_home_final)):
    print(f"Placar previsto: Time da Casa {round(y_pred_test_home_final[i])} x {round(y_pred_test_away_final[i])} Time Visitante")


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Criar uma variável binária que indica se haverá gols na partida (1) ou não (0)
y_binary_home = (y_home > 0).astype(int)
y_binary_away = (y_away > 0).astype(int)

# Dividindo os dados de treino e teste para o time da casa
X_train_binary_home, X_test_binary_home, y_train_binary_home, y_test_binary_home = train_test_split(X_refined, y_binary_home, test_size=0.2, random_state=42)

# Treinando um modelo de regressão logística para prever se haverá gols ou não
logreg_home = LogisticRegression(max_iter=10000)
logreg_home.fit(X_train_binary_home, y_train_binary_home)

# Fazendo previsões binárias (se haverá gols ou não)
y_pred_binary_home = logreg_home.predict(X_test_binary_home)


In [None]:
# Prever a quantidade de gols para o time da casa, caso o modelo binário preveja que haverá gols
y_pred_home_final_adjusted = []
for i in X_test_home_log.index:  # Acessar diretamente os índices disponíveis
    if y_pred_binary_home[X_test_home_log.index.get_loc(i)] == 1:  # Usar o índice correto para acessar as previsões binárias
        # Passar a linha como um DataFrame com os nomes das colunas
        pred = np.expm1(lasso_home_log.predict(X_test_home_log.loc[[i]]))  # Previsão deslogaritmizada
        y_pred_home_final_adjusted.append(round(pred[0]))
    else:
        # Se o modelo binário prever que não haverá gols
        y_pred_home_final_adjusted.append(0)




In [None]:
from sklearn.linear_model import LogisticRegression

# Criar uma variável binária que indica se o time visitante marcará gols (1) ou não (0)
y_binary_away = (y_away > 0).astype(int)

# Dividindo os dados de treino e teste para o time visitante
X_train_binary_away, X_test_binary_away, y_train_binary_away, y_test_binary_away = train_test_split(X_refined, y_binary_away, test_size=0.2, random_state=42)

# Treinando um modelo de regressão logística para prever se o time visitante marcará gols ou não
logreg_away = LogisticRegression(max_iter=10000)
logreg_away.fit(X_train_binary_away, y_train_binary_away)

# Fazendo previsões binárias (se o time visitante marcará gols ou não)
y_pred_binary_away = logreg_away.predict(X_test_binary_away)



In [None]:
# Prever a quantidade de gols para o time visitante, caso o modelo binário preveja que haverá gols
y_pred_away_final_adjusted = []
for i in X_test_away_log.index:  # Acessar diretamente os índices disponíveis
    if y_pred_binary_away[X_test_away_log.index.get_loc(i)] == 1:  # Usar o índice para acessar as previsões binárias
        # Passar a linha como um DataFrame com os nomes das colunas
        pred = np.expm1(lasso_away_log.predict(X_test_away_log.loc[[i]]))  # Previsão deslogaritmizada
        y_pred_away_final_adjusted.append(round(pred[0]))
    else:
        # Se o modelo binário prever que não haverá gols
        y_pred_away_final_adjusted.append(0)


In [None]:
from sklearn.linear_model import LogisticRegression

# Criar uma variável binária que indica se o time visitante marcará gols (1) ou não (0)
y_binary_away = (y_away > 0).astype(int)

# Dividindo os dados de treino e teste para o time visitante
X_train_binary_away, X_test_binary_away, y_train_binary_away, y_test_binary_away = train_test_split(X_refined, y_binary_away, test_size=0.2, random_state=42)

# Treinando um modelo de regressão logística para prever se o time visitante marcará gols ou não
logreg_away = LogisticRegression(max_iter=10000)
logreg_away.fit(X_train_binary_away, y_train_binary_away)

# Fazendo previsões binárias (se o time visitante marcará gols ou não)
y_pred_binary_away = logreg_away.predict(X_test_binary_away)


In [None]:
# Prever a quantidade de gols para o time visitante, caso o modelo binário preveja que haverá gols
y_pred_away_final_adjusted = []
for i in X_test_away_log.index:  # Acessar diretamente os índices disponíveis
    if y_pred_binary_away[X_test_away_log.index.get_loc(i)] == 1:
        # Passar a linha como um DataFrame com os nomes das colunas
        pred = np.expm1(lasso_away_log.predict(X_test_away_log.loc[[i]]))  # Previsão deslogaritmizada
        y_pred_away_final_adjusted.append(round(pred[0]))
    else:
        # Se o modelo binário prever que não haverá gols
        y_pred_away_final_adjusted.append(0)


Nessas células, vamos abordar o raciocínio por trás da aplicação de **transformações logarítmicas** e a **regressão logística binária** como estratégias para melhorar a previsibilidade dos modelos em relação ao placar final das partidas, considerando as previsões de gols de ambos os times.

### 1. **Transformação Logarítmica**
Após a visualização inicial da distribuição de gols dos times da casa, ficou claro que a maioria das partidas apresentava poucos gols, com muitos valores próximos a zero. Esse comportamento levou à escolha de uma **transformação logarítmica** nas variáveis de gols, tanto para o time da casa quanto para o time visitante. A ideia aqui é suavizar a variação dos dados e reduzir o efeito de grandes disparidades entre as partidas com muitos gols e aquelas com poucos ou nenhum.

A fórmula da transformação logarítmica aplicada foi:
$$
[
y_{\text{log}} = \log(1 + y)
]
$$
Essa abordagem permite que a regressão lide melhor com a alta concentração de valores baixos (ou zero) e as diferenças drásticas nos placares.

### 2. **Modelo de Regressão Logística Binária**
Após a aplicação da transformação logarítmica, outra abordagem foi implementada para melhorar a previsão de placares: a **regressão logística binária**. Esse modelo foi utilizado para prever se uma equipe marcará gols ou não (1 para marcar, 0 para não marcar).

#### Fluxo de Trabalho:
- **Criação de Variável Binária**: A primeira etapa foi a criação de uma variável binária (`y_binary`) que indica se o time marcou ao menos um gol ou não.
  
- **Treinamento e Teste**: O modelo foi treinado e testado com os dados binários para prever se haverá gols em uma partida.
  
- **Previsão Binária**: Caso o modelo binário preveja que o time marcará gols, utiliza-se o modelo **Lasso** logaritimizado para prever o número exato de gols. Caso contrário, o placar final do time será definido como zero.

Esse modelo híbrido de regressão logística binária combinado com o Lasso Logarítmico foi aplicado para ambos os times, da casa e visitante, com o objetivo de aumentar a precisão na previsão de placares.

### Conclusão:
- A **transformação logarítmica** foi fundamental para lidar com a distribuição assimétrica dos gols e evitar previsões exageradas.
- A **regressão logística binária** permitiu uma melhor decisão de quando aplicar o modelo Lasso para prever gols, especialmente em partidas com placares muito baixos ou zero.



In [None]:
# Gerar o placar final ajustado
for i in range(len(y_pred_home_final_adjusted)):
    print(f"Placar final: Time da Casa {y_pred_home_final_adjusted[i]} x {y_pred_away_final_adjusted[i]} Time Visitante")


In [None]:
# Ajustando o threshold para o modelo binário
y_pred_proba_binary_home = logreg_home.predict_proba(X_test_binary_home)[:, 1]  # Probabilidades para o time da casa marcar gols
y_pred_binary_home = (y_pred_proba_binary_home >= 0.3).astype(int)  # Ajustando o threshold para 0.3

y_pred_proba_binary_away = logreg_away.predict_proba(X_test_binary_away)[:, 1]  # Probabilidades para o time visitante marcar gols
y_pred_binary_away = (y_pred_proba_binary_away >= 0.3).astype(int)  # Ajustando o threshold para 0.3


In [None]:
# Usar as previsões com o threshold ajustado
y_pred_home_final_adjusted = []
for i in X_test_home_log.index:  # Acessar diretamente os índices disponíveis
    if y_pred_binary_home[X_test_home_log.index.get_loc(i)] == 1:  # Usar o índice correto para acessar as previsões binárias
        # Passar a linha como um DataFrame com os nomes das colunas
        pred = np.expm1(lasso_home_log.predict(X_test_home_log.loc[[i]]))  # Previsão deslogaritmizada
        y_pred_home_final_adjusted.append(round(pred[0]))
    else:
        # Se o modelo binário prever que não haverá gols
        y_pred_home_final_adjusted.append(0)

# Fazer o mesmo para o time visitante
y_pred_away_final_adjusted = []
for i in X_test_away_log.index:  # Acessar diretamente os índices disponíveis
    if y_pred_binary_away[X_test_away_log.index.get_loc(i)] == 1:  # Usar o índice correto para acessar as previsões binárias
        pred = np.expm1(lasso_away_log.predict(X_test_away_log.loc[[i]]))  # Previsão deslogaritmizada
        y_pred_away_final_adjusted.append(round(pred[0]))
    else:
        y_pred_away_final_adjusted.append(0)


Aqui está a documentação para a célula com a abordagem de previsão binária e ajustada:

---

### Previsão Binária de Gols e Ajuste da Quantidade de Gols

Nesta seção, utilizamos uma abordagem combinada para prever se os times marcarão gols (previsão binária) e, em caso positivo, quantos gols serão marcados (previsão quantitativa). A lógica por trás disso é usar um modelo mais simples, como a **Regressão Logística**, para determinar se um time vai marcar ou não, e então um modelo mais refinado, como o **Lasso** logarítmico, para prever a quantidade exata de gols.

#### 1. **Regressão Logística para Previsão Binária de Gols**
Primeiramente, usamos a **Regressão Logística** para prever se os times marcarão gols (classe 1) ou não (classe 0). O modelo retorna uma **probabilidade** de um time marcar gols, e ajustamos um **threshold de 0,3**, o que significa que se a probabilidade for superior a 30%, consideramos que o time marcará gols.

- **Por que RegLog?**: A **Regressão Logística** é uma escolha apropriada quando estamos lidando com problemas binários (marcar ou não gols).
- **Ajuste do Threshold**: Escolhemos o valor de 0,3 para aumentar a sensibilidade do modelo em prever gols, mas vale a pena ajustar e validar essa escolha.

#### 2. **Previsão da Quantidade de Gols com Lasso Logarítmico**
Se o time é previsto para marcar gols pela RegLog, utilizamos um modelo mais avançado para prever **quantos gols exatamente serão marcados**. A transformação logarítmica é usada para estabilizar a variabilidade nos dados, e o **modelo Lasso Logarítmico** é aplicado para prever a quantidade de gols. Caso contrário, o número de gols é ajustado para zero.

- **Transformação Logarítmica**: Aplica-se a transformação logarítmica para lidar melhor com os valores de gols, já que temos muitos jogos com zero gols e alguns com valores elevados. Essa transformação melhora a qualidade da previsão.
- **Previsão Quantitativa de Gols**: Quando o time é previsto para marcar gols, utilizamos o **Lasso** para prever o número exato de gols, e em seguida desfazemos a transformação logarítmica para retornar o valor original.

#### 3. **Ajuste do Threshold**
Ajustamos o **threshold de 0,3** tanto para o time da casa quanto para o visitante, o que significa que, se o modelo logístico prever uma probabilidade maior que 30% de marcar gols, consideramos que o time marcará.

#### 4. **Combinação das Previsões**
A combinação de previsões binárias (se haverá gols ou não) e quantitativas (quantos gols) resulta no placar final ajustado para cada jogo. Se o time for previsto para não marcar, o número de gols será zero. Caso contrário, o número de gols será previsto pelo **Lasso** logarítmico.

#### 5. **Código**
O código abaixo implementa essa abordagem:

```python
# Prever a quantidade de gols para o time da casa, caso o modelo binário preveja que haverá gols
y_pred_home_final_adjusted = []
for i in X_test_home_log.index:  # Acessar diretamente os índices disponíveis
    if y_pred_binary_home[X_test_home_log.index.get_loc(i)] == 1:  # Usar o índice correto para acessar as previsões binárias
        pred = np.expm1(lasso_home_log.predict(X_test_home_log.loc[[i]]))  # Previsão deslogaritmizada
        y_pred_home_final_adjusted.append(round(pred[0]))
    else:
        y_pred_home_final_adjusted.append(0)

# Prever a quantidade de gols para o time visitante, caso o modelo binário preveja que haverá gols
y_pred_away_final_adjusted = []
for i in X_test_away_log.index:  # Acessar diretamente os índices disponíveis
    if y_pred_binary_away[X_test_away_log.index.get_loc(i)] == 1:  # Usar o índice correto para acessar as previsões binárias
        pred = np.expm1(lasso_away_log.predict(X_test_away_log.loc[[i]]))  # Previsão deslogaritmizada
        y_pred_away_final_adjusted.append(round(pred[0]))
    else:
        y_pred_away_final_adjusted.append(0)

# Gerar o placar final ajustado
for i in range(len(y_pred_home_final_adjusted)):
    print(f"Placar final: Time da Casa {y_pred_home_final_adjusted[i]} x {y_pred_away_final_adjusted[i]} Time Visitante")
```

### Conclusão

Essa abordagem híbrida é eficaz para lidar com problemas onde a variável-alvo (número de gols) é **esparsa** (muitos zeros) e pode ser tratada inicialmente como um problema de classificação binária, seguido por um ajuste com regressão para os casos onde há gols. A previsão com um **threshold ajustado** nos permite calibrar a sensibilidade do modelo para melhorar a previsão de jogos com baixa incidência de gols.





In [None]:
# Gerar o placar final ajustado com o threshold atualizado
for i in range(len(y_pred_home_final_adjusted)):
    print(f"Placar ajustado: Time da Casa {y_pred_home_final_adjusted[i]} x {y_pred_away_final_adjusted[i]} Time Visitante")


In [None]:
from sklearn.metrics import mean_squared_error, r2_score

# Avaliando as previsões para os gols do time da casa
mse_home = mean_squared_error(y_test_home, y_pred_home_final_adjusted)
r2_home = r2_score(y_test_home, y_pred_home_final_adjusted)

# Avaliando as previsões para os gols do time visitante
mse_away = mean_squared_error(y_test_away, y_pred_away_final_adjusted)
r2_away = r2_score(y_test_away, y_pred_away_final_adjusted)

print(f"Time da Casa - MSE: {mse_home}, R²: {r2_home}")
print(f"Time Visitante - MSE: {mse_away}, R²: {r2_away}")


### Análise das Previsões Finais e Avaliação do Modelo

Nesta etapa, realizamos as previsões finais ajustadas com o **threshold** atualizado e calculamos as métricas de desempenho para os gols previstos dos times da casa e dos visitantes. Estamos próximos de finalizar o modelo, mas observamos que ainda há alguns ajustes a serem feitos, principalmente no modelo que prevê os gols do time da casa.

#### 1. **Geração do Placar Final Ajustado**
Utilizamos os resultados ajustados para gerar os placares finais das partidas. Como o modelo combina uma previsão binária para detectar se haverá gols e uma previsão quantitativa para estimar quantos gols serão marcados, ele apresenta os placares finais ajustados para cada jogo. Observamos que, em vários casos, o modelo prevê **0 a 0** para ambas as equipes, o que pode indicar que a abordagem binária está sendo conservadora em relação à previsão de gols.

#### 2. **Avaliação do Modelo para o Time da Casa**
O desempenho do modelo para o time da casa foi avaliado com as métricas **Mean Squared Error (MSE)** e **\( R^2 \)**:
- **MSE**: 0.2763
- **\( R^2 \)**: 0.4115

Esses resultados indicam que o modelo para o time da casa ainda não está completamente otimizado. O valor de **\( R^2 \)**, que indica o quão bem o modelo explica a variabilidade dos dados, está abaixo do ideal. Isso sugere que o modelo para o time da casa pode precisar de ajustes, seja no ajuste do threshold, no refinamento do conjunto de features ou na abordagem do modelo.

#### 3. **Avaliação do Modelo para o Time Visitante**
O modelo para o time visitante apresentou um desempenho significativamente melhor:
- **MSE**: 0.25
- **\( R^2 \)**: 0.7017

Esses valores indicam que o modelo para o time visitante está bem ajustado e explica uma boa parte da variabilidade nos dados, o que reflete um modelo robusto. A diferença de desempenho entre os modelos de gols da casa e gols do visitante pode estar relacionada às diferenças no comportamento dos dados ou às características das variáveis selecionadas para cada time.

#### 4. **Conclusão e Próximos Passos**
Estamos próximos de finalizar o modelo, com o desempenho do **time visitante** já atingindo níveis satisfatórios. O próximo passo é **ajustar o modelo para o time da casa**, possivelmente revisando o conjunto de features, ajustando o threshold, ou até mesmo testando outras técnicas de regularização ou otimização para garantir que o modelo tenha um melhor desempenho.

In [None]:

y_pred_test_home_final = np.maximum(y_pred_test_home_final, 0)
y_pred_test_away = np.maximum(y_pred_test_away, 0)

# Gerar o placar final sem valores negativos
for i in range(len(y_pred_test_home_final)):
    print(f"Placar Final Previsto: Time da Casa {round(y_pred_test_home_final[i])} x {round(y_pred_test_away[i])} Time Visitante")


In [None]:
from sklearn.model_selection import cross_val_score

# Usar k-fold cross-validation
cv_scores = cross_val_score(lasso_home_log, X_refined, y_home_log, cv=5, scoring='neg_mean_squared_error')
print(f"Cross-Validation MSE: {-cv_scores.mean()}")


In [None]:
# Treinar o modelo Lasso com todos os dados disponíveis
lasso_home_log.fit(X_refined, y_home_log)

# Fazer previsões
y_pred_final = np.expm1(lasso_home_log.predict(X_refined))  # Reverter a transformação logarítmica

# Garantir que os valores de gols não sejam negativos
y_pred_final = np.maximum(y_pred_final, 0)

# Avaliar o modelo
final_mse = mean_squared_error(np.expm1(y_home_log), y_pred_final)
final_r2 = r2_score(np.expm1(y_home_log), y_pred_final)

print("Modelo Final - MSE:", final_mse, "R²:", final_r2)


### Melhorias no Modelo: Utilizando o Cross-Validation e a Regularização

Nessa etapa, focamos em melhorar o desempenho do nosso modelo de previsão utilizando uma combinação de técnicas de regularização e validação cruzada para ajustar e avaliar a qualidade das previsões.

#### 1. **Geração do Placar Final**
Primeiro, utilizamos uma abordagem que garante que os valores previstos para os gols não sejam negativos:
```python
y_pred_test_home_final = np.maximum(y_pred_test_home_final, 0)
y_pred_test_away = np.maximum(y_pred_test_away, 0)
```
Isso evita que o modelo gere previsões negativas, o que não faria sentido em um contexto esportivo.

Os resultados gerados com essa abordagem ainda mostraram algumas partidas com placares de 0x0, mas a utilização da transformação logarítmica e o ajuste da regularização do modelo (por meio do Lasso) começaram a produzir previsões mais próximas da realidade.

#### 2. **Validação Cruzada com Cross-Validation**
A validação cruzada (Cross-Validation) foi usada para garantir que o modelo generalize bem para diferentes subconjuntos dos dados, evitando overfitting e subfitting. Nesse caso, utilizamos o K-Fold Cross-Validation com 5 folds:

```python
cv_scores = cross_val_score(lasso_home_log, X_refined, y_home_log, cv=5, scoring='neg_mean_squared_error')
print(f"Cross-Validation MSE: {-cv_scores.mean()}")
```
O resultado do MSE da validação cruzada foi de aproximadamente **0.0461**, o que indica um desempenho robusto do modelo ao ser testado em diferentes divisões dos dados.

#### 3. **Treinando o Modelo Lasso com Todos os Dados Disponíveis**
Após a validação cruzada, treinamos o modelo Lasso com todos os dados disponíveis, utilizando a transformação logarítmica para regularizar a distribuição dos dados de gols. A transformação logarítmica ajuda a suavizar as discrepâncias nos dados e lida melhor com valores extremos (gols muito altos ou muito baixos).

```python
lasso_home_log.fit(X_refined, y_home_log)
y_pred_final = np.expm1(lasso_home_log.predict(X_refined))
y_pred_final = np.maximum(y_pred_final, 0)
```

#### 4. **Métricas do Modelo Final**
Ao avaliar o modelo final, obtivemos as seguintes métricas:
- **MSE**: 0.1645
- **\( R^2 \)**: 0.7265

Essas métricas indicam que o modelo está com um bom desempenho, especialmente considerando o valor de **\( R^2 \)**, que mostra que o modelo explica cerca de 72.65% da variação nos dados de gols. Comparado com as iterações anteriores, esse é um avanço significativo na qualidade das previsões.

#### **Conclusão**
O uso de técnicas como a validação cruzada e a regularização Lasso, combinadas com a transformação logarítmica dos dados, nos permitiu melhorar significativamente a capacidade de previsão do modelo. Ainda que algumas previsões tenham mantido placares de 0x0, o modelo agora tem um desempenho geral melhor, com métricas robustas e previsões mais próximas da realidade. Com ajustes adicionais, podemos otimizar ainda mais o modelo, especialmente para o time da casa, que ainda mostra uma leve necessidade de refinamento.

In [None]:
import pandas as pd

new_matches_df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/brazil-serie-a-matches-2024-to-2024-stats (5).csv', delimiter=';')


In [None]:
new_matches_df_complete = new_matches_df[new_matches_df['status'] == 'complete']


In [None]:
# Função para remover colunas e linhas com valores nulos acima de um limite
def clean_data(df, column_thresh=0.8, row_thresh=0.5):
    # Remove colunas com mais de 80% de valores ausentes
    df_cleaned = df.dropna(thresh=df.shape[0] * column_thresh, axis=1)

    # Remove linhas com mais de 50% de valores ausentes
    df_cleaned = df_cleaned.dropna(thresh=df_cleaned.shape[1] * row_thresh)

    return df_cleaned

# Limpar os dados de jogos completos
matches_df_cleaned = clean_data(new_matches_df_complete)

# Exibir as primeiras linhas dos dados limpos
matches_df_cleaned.info()


---

### Análise do Novo DataFrame e Limpeza de Dados

Nesta célula, realizamos a leitura dos novos dados, seguidos de uma filtragem e limpeza para remover colunas e linhas com valores nulos excessivos.

#### Passos:

1. **Leitura dos Dados:**
   ```python
   new_matches_df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/brazil-serie-a-matches-2024-to-2024-stats (5).csv', delimiter=';')
   ```
   Os dados de partidas são lidos a partir de um arquivo CSV. Esse arquivo contém dados detalhados de partidas da Série A do Brasil de 2024, incluindo estatísticas de desempenho dos times.

2. **Filtragem de Partidas Completas:**
   ```python
   new_matches_df_complete = new_matches_df[new_matches_df['status'] == 'complete']
   ```
   Aqui, selecionamos apenas as partidas que foram concluídas, descartando aquelas que ainda estão em andamento ou que não foram finalizadas.

3. **Função de Limpeza de Dados:**
   ```python
   def clean_data(df, column_thresh=0.8, row_thresh=0.5):
       df_cleaned = df.dropna(thresh=df.shape[0] * column_thresh, axis=1)
       df_cleaned = df_cleaned.dropna(thresh=df_cleaned.shape[1] * row_thresh)
       return df_cleaned
   ```
   A função `clean_data` remove colunas que possuem mais de 80% de valores ausentes e linhas com mais de 50% de valores ausentes. Essa estratégia visa manter a consistência dos dados, removendo aqueles excessivamente incompletos.

4. **Aplicação da Função e Visualização:**
   ```python
   matches_df_cleaned = clean_data(new_matches_df_complete)
   matches_df_cleaned.info()
   ```
   Após a limpeza dos dados, utilizamos o método `info()` para inspecionar a estrutura do dataframe final, garantindo que as colunas e linhas restantes contenham informações suficientes para análise.

---




In [None]:
# Remover colunas não numéricas e irrelevantes (mantendo as variáveis alvo)
X = matches_df_cleaned.drop(columns=['date_GMT', 'home_team_name', 'away_team_name'])

# Variáveis alvo
y_home = matches_df_cleaned['home_team_goal_count']
y_away = matches_df_cleaned['away_team_goal_count']


# Verificar se há mais colunas não numéricas
X = X.apply(pd.to_numeric, errors='coerce')

# Substituir valores NaN (se houver) após a conversão por zero ou uma média (dependendo do contexto)
X.fillna(0, inplace=True)

# Seguir com o restante do código para logaritmização e treino do modelo
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Função para transformar e reverter os dados logarítmicos
def apply_log_transform(y):
    return np.log1p(y)  # log1p(x) = log(1 + x)

def reverse_log_transform(y_log):
    return np.expm1(y_log)  # expm1(x) = exp(x) - 1

# Aplicar a transformação logarítmica nos gols
y_home_log = apply_log_transform(y_home)
y_away_log = apply_log_transform(y_away)

# Dividir os dados em conjuntos de treino e teste
X_train_home, X_test_home, y_train_home_log, y_test_home_log = train_test_split(X, y_home_log, test_size=0.2, random_state=42)
X_train_away, X_test_away, y_train_away_log, y_test_away_log = train_test_split(X, y_away_log, test_size=0.2, random_state=42)

# GridSearchCV para encontrar o melhor alpha no Lasso
param_grid = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5, 1, 10]}

# Validação cruzada
lasso_home_log = Lasso(max_iter=10000, random_state=42)
grid_search_home = GridSearchCV(lasso_home_log, param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_home.fit(X_train_home, y_train_home_log)

# Melhor modelo para o time da casa
best_lasso_home_log = grid_search_home.best_estimator_

# Previsão dos gols do time da casa (com reversão da transformação logarítmica)
y_pred_home_log = best_lasso_home_log.predict(X_test_home)
y_pred_home_final = np.maximum(reverse_log_transform(y_pred_home_log), 0)  # Reverter a transformação logarítmica e evitar valores negativos

# Métricas para o time da casa
test_mse_home = mean_squared_error(reverse_log_transform(y_test_home_log), y_pred_home_final)
test_r2_home = r2_score(reverse_log_transform(y_test_home_log), y_pred_home_final)

print(f"Time da Casa - Melhor Alpha: {grid_search_home.best_params_['alpha']}")
print(f"Time da Casa - MSE: {test_mse_home}, R²: {test_r2_home}")

# Agora, repetir o processo para o time visitante
lasso_away_log = Lasso(max_iter=10000, random_state=42)
grid_search_away = GridSearchCV(lasso_away_log, param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_away.fit(X_train_away, y_train_away_log)

# Melhor modelo para o time visitante
best_lasso_away_log = grid_search_away.best_estimator_

# Previsão dos gols do time visitante
y_pred_away_log = best_lasso_away_log.predict(X_test_away)
y_pred_away_final = np.maximum(reverse_log_transform(y_pred_away_log), 0)  # Reverter a transformação logarítmica e evitar valores negativos

# Métricas para o time visitante
test_mse_away = mean_squared_error(reverse_log_transform(y_test_away_log), y_pred_away_final)
test_r2_away = r2_score(reverse_log_transform(y_test_away_log), y_pred_away_final)

print(f"Time Visitante - Melhor Alpha: {grid_search_away.best_params_['alpha']}")
print(f"Time Visitante - MSE: {test_mse_away}, R²: {test_r2_away}")


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Distribuição original dos gols do time da casa
plt.figure(figsize=(10, 6))
sns.histplot(y_home, kde=True, color='blue')
plt.title("Distribuição Original dos Gols do Time da Casa")
plt.show()

# Distribuição após a transformação logarítmica
plt.figure(figsize=(10, 6))
sns.histplot(y_home_log, kde=True, color='green')
plt.title("Distribuição Logarítmica dos Gols do Time da Casa")
plt.show()


In [None]:
# Gols do Time da Casa - Previsões vs Reais
plt.figure(figsize=(10, 6))
plt.scatter(y_test_home, y_pred_home_final_adjusted, color='blue')
plt.plot([min(y_test_home), max(y_test_home)], [min(y_test_home), max(y_test_home)], 'k--', lw=3)
plt.title("Previsões vs Valores Reais - Time da Casa")
plt.xlabel("Valores Reais")
plt.ylabel("Previsões")
plt.show()

# Gols do Time Visitante - Previsões vs Reais
plt.figure(figsize=(10, 6))
plt.scatter(y_test_away, y_pred_away_final_adjusted, color='green')
plt.plot([min(y_test_away), max(y_test_away)], [min(y_test_away), max(y_test_away)], 'k--', lw=3)
plt.title("Previsões vs Valores Reais - Time Visitante")
plt.xlabel("Valores Reais")
plt.ylabel("Previsões")
plt.show()




---

### Remover Colunas Não Numéricas e Irrelevantes

```python
# Remover colunas não numéricas e irrelevantes (mantendo as variáveis alvo)
X = matches_df_cleaned.drop(columns=['date_GMT', 'home_team_name', 'away_team_name'])

# Variáveis alvo
y_home = matches_df_cleaned['home_team_goal_count']
y_away = matches_df_cleaned['away_team_goal_count']
```

Este trecho remove colunas irrelevantes para a análise e mantém apenas as variáveis de interesse, como o número de gols marcados pelo time da casa e pelo time visitante.

---

### Verificação e Tratamento de Dados Numéricos

```python
# Verificar se há mais colunas não numéricas
X = X.apply(pd.to_numeric, errors='coerce')

# Substituir valores NaN (se houver) após a conversão por zero ou uma média (dependendo do contexto)
X.fillna(0, inplace=True)
```

Nesta parte, todas as colunas são convertidas para valores numéricos, e valores nulos são preenchidos com zeros, garantindo que o modelo possa processar os dados sem falhas.

---

### Aplicar Transformação Logarítmica

```python
# Função para transformar e reverter os dados logarítmicos
def apply_log_transform(y):
    return np.log1p(y)  # log(1 + y)

def reverse_log_transform(y_log):
    return np.expm1(y_log)  # exp(y) - 1

# Aplicar a transformação logarítmica nos gols
y_home_log = apply_log_transform(y_home)
y_away_log = apply_log_transform(y_away)
```

Aqui, aplicamos uma transformação logarítmica aos valores de gols, que ajuda a suavizar a distribuição e reduzir a variância, especialmente quando os dados têm outliers ou valores desbalanceados.

---

### Separação dos Dados de Treino e Teste

```python
# Dividir os dados em conjuntos de treino e teste
X_train_home, X_test_home, y_train_home_log, y_test_home_log = train_test_split(X, y_home_log, test_size=0.2, random_state=42)
X_train_away, X_test_away, y_train_away_log, y_test_away_log = train_test_split(X, y_away_log, test_size=0.2, random_state=42)
```

Os dados são divididos em conjuntos de treino e teste, com 80% dos dados sendo utilizados para treinar o modelo e 20% para teste.

---

### GridSearchCV para Ajustar o Modelo

```python
# GridSearchCV para encontrar o melhor alpha no Lasso
param_grid = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5, 1, 10]}

# Time da Casa
lasso_home_log = Lasso(max_iter=10000, random_state=42)
grid_search_home = GridSearchCV(lasso_home_log, param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_home.fit(X_train_home, y_train_home_log)

# Melhor modelo para o time da casa
best_lasso_home = grid_search_home.best_estimator_

# Previsão dos gols do time da casa (com reversão da transformação logarítmica)
y_pred_home_log = best_lasso_home.predict(X_test_home)
y_pred_home_final = np.maximum(reverse_log_transform(y_pred_home_log), 0)  # Reverter a transformação logarítmica e evitar valores negativos
```

Aqui, realizamos uma busca em grade (`GridSearchCV`) para encontrar o melhor valor de alpha para o modelo de regressão Lasso, otimizando as previsões dos gols do time da casa e evitando valores negativos ao reverter a transformação logarítmica.

---

### Validação Cruzada e Métricas de Desempenho

```python
# Métricas para o time da casa
test_mse_home = mean_squared_error(reverse_log_transform(y_test_home_log), y_pred_home_final)
test_r2_home = r2_score(reverse_log_transform(y_test_home_log), y_pred_home_final)

print(f"Time da Casa - Melhor Alpha: {grid_search_home.best_params_['alpha']}")
print(f"Time da Casa - MSE: {test_mse_home}, R²: {test_r2_home}")
```

As métricas de desempenho para o time da casa são calculadas, incluindo o erro médio quadrático (MSE) e o coeficiente de determinação (R²), que indicam a performance do modelo.

---



In [None]:
# Erro Absoluto - Time da Casa
error_home = np.abs(y_test_home - y_pred_home_final_adjusted)
plt.figure(figsize=(10, 6))
sns.histplot(error_home, kde=True, color='red')
plt.title("Erro Absoluto nas Previsões - Time da Casa")
plt.show()

# Erro Absoluto - Time Visitante
error_away = np.abs(y_test_away - y_pred_away_final_adjusted)
plt.figure(figsize=(10, 6))
sns.histplot(error_away, kde=True, color='orange')
plt.title("Erro Absoluto nas Previsões - Time Visitante")
plt.show()


In [None]:
# Remover colunas categóricas ou não numéricas que não são relevantes
X_cleaned = X.select_dtypes(exclude=['object'])
# Substituir valores NaN por 0 ou pela média, dependendo do contexto
X_cleaned.fillna(0, inplace=True)


# Verificar se todas as colunas são numéricas agora
print(X_cleaned.dtypes)


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

matches_df_numeric = matches_df_cleaned.select_dtypes(include=[np.number])
# Calcular a correlação entre as features e os gols do time da casa
correlation_matrix = matches_df_numeric.corr()

# Plotar a correlação
plt.figure(figsize=(10,8))
sns.heatmap(correlation_matrix, annot=False, cmap='coolwarm')
plt.title("Matriz de Correlação das Features")
plt.show()

# Verificar correlação específica das variáveis com home_team_goal_count
correlation_home = correlation_matrix['home_team_goal_count'].sort_values(ascending=False)
print(correlation_home)




---

## Remover Colunas Não Numéricas e Irrelevantes

```python
# Remover colunas não numéricas e irrelevantes (mantendo as variáveis alvo)
X = matches_df_cleaned.drop(columns=['date_GMT', 'home_team_name', 'away_team_name'])

# Variáveis alvo
y_home = matches_df_cleaned['home_team_goal_count']
y_away = matches_df_cleaned['away_team_goal_count']

# Verificar se há mais colunas não numéricas
X = X.apply(pd.to_numeric, errors='coerce')

# Substituir valores NaN (se houver) após a conversão por zero ou uma média (dependendo do contexto)
X.fillna(0, inplace=True)
```

Nesta célula, removemos colunas categóricas como `date_GMT`, `home_team_name`, e `away_team_name` que não são úteis para o modelo e tratamos valores nulos, convertendo-os para valores numéricos ou substituindo-os por zero.

---

## Aplicação da Transformação Logarítmica

```python
# Função para transformar e reverter os dados logarítmicos
def apply_log_transform(y):
    return np.log1p(y)  # log(1 + y) é usada para evitar log(0)

def reverse_log(y_log):
    return np.expm1(y_log)  # exp(y_log) - 1 reverte a transformação logarítmica

# Aplicar a transformação logarítmica aos gols
y_home_log = apply_log_transform(y_home)
y_away_log = apply_log_transform(y_away)
```

Aqui aplicamos a transformação logarítmica para os valores de gols com a função `log1p`, útil para reduzir a escala dos dados e melhorar a performance do modelo.

---

## Seleção de Features Numéricas

```python
# Remover colunas categóricas ou não numéricas que não são relevantes
X_cleaned = X.select_dtypes(exclude=['object'])

# Substituir valores NaN por 0 ou pela média, dependendo do contexto
X_cleaned.fillna(0, inplace=True)

# Verificar se todas as colunas são numéricas agora
print(X_cleaned.dtypes)
```

Após remover colunas categóricas e tratar valores nulos, garantimos que todas as features são numéricas e adequadas para o treinamento do modelo.

---

## Correlação entre Features

```python
# Matriz de correlação para verificar a relação entre variáveis
correlation_matrix = matches_df_cleaned.corr()

# Plotar a matriz de correlação
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=False, cmap='coolwarm')
plt.title("Matriz de Correlação das Features")
plt.show()
```

Este código plota uma matriz de correlação entre as features numéricas, visualizando como cada uma delas se relaciona com as outras e identificando potenciais redundâncias.

---



In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt

# Features otimizadas para o time da casa
features_home = [
    'total_goal_count',
    'home_team_goal_count_half_time',
    'home_team_shots_on_target',
    'home_ppg',
    'team_a_xg'
]

X_refined_home = matches_df_cleaned[features_home]
y_home = matches_df_cleaned['home_team_goal_count']

# Verificar se há valores não numéricos e convertê-los para numéricos
X_refined_home = X_refined_home.apply(pd.to_numeric, errors='coerce')
X_refined_home.fillna(0, inplace=True)

# Separar os dados para o time da casa
X_train_home, X_test_home, y_train_home, y_test_home = train_test_split(X_refined_home, y_home, test_size=0.2, random_state=42)

# GridSearchCV para encontrar o melhor alpha no Lasso para o time da casa
param_grid_lasso_home = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5]}
lasso_home = Lasso(max_iter=10000, random_state=42)
grid_search_lasso_home = GridSearchCV(lasso_home, param_grid_lasso_home, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_lasso_home.fit(X_train_home, y_train_home)

# Melhor modelo para o time da casa
best_lasso_home = grid_search_lasso_home.best_estimator_

# Previsão dos gols do time da casa
y_pred_home = best_lasso_home.predict(X_test_home)
y_pred_home_final = np.maximum(y_pred_home, 0)  # Evitar valores negativos

# Métricas para o time da casa
mse_home = mean_squared_error(y_test_home, y_pred_home_final)
r2_home = r2_score(y_test_home, y_pred_home_final)

print(f"Time da Casa - Melhor Alpha: {grid_search_lasso_home.best_params_['alpha']}")
print(f"Time da Casa - MSE: {mse_home}, R²: {r2_home}")



# Features para o time visitante (remover colunas não numéricas e irrelevantes)
X_away_refined = matches_df_cleaned.drop(columns=['date_GMT', 'home_team_name', 'away_team_name', 'status'])  # Remover colunas categoricas

# Verificar se há mais colunas não numéricas e convertê-las para numéricos
X_away_refined = X_away_refined.apply(pd.to_numeric, errors='coerce')
X_away_refined.fillna(0, inplace=True)  # Substituir NaN por 0 ou outro valor adequado

# Aplicar a transformação logarítmica nos gols do time visitante
y_away_log = np.log1p(y_away)

# Separar os dados para o time visitante
X_train_away, X_test_away, y_train_away_log, y_test_away_log = train_test_split(X_away_refined, y_away_log, test_size=0.2, random_state=42)

# GridSearchCV para encontrar o melhor alpha no Lasso para o time visitante
param_grid_lasso_away = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5]}
lasso_away_log = Lasso(max_iter=10000, random_state=42)
grid_search_lasso_away = GridSearchCV(lasso_away_log, param_grid_lasso_away, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_lasso_away.fit(X_train_away, y_train_away_log)

# Melhor modelo para o time visitante
best_lasso_away = grid_search_lasso_away.best_estimator_

# Previsão dos gols do time visitante (com reversão da transformação logarítmica)
y_pred_away_log = best_lasso_away.predict(X_test_away)
y_pred_away_final = np.maximum(np.expm1(y_pred_away_log), 0)  # Reverter a transformação logarítmica e evitar valores negativos

# Métricas para o time visitante
test_mse_away = mean_squared_error(np.expm1(y_test_away_log), y_pred_away_final)
test_r2_away = r2_score(np.expm1(y_test_away_log), y_pred_away_final)

print(f"Time Visitante - Melhor Alpha: {grid_search_lasso_away.best_params_['alpha']}")
print(f"Time Visitante - MSE: {test_mse_away}, R²: {test_r2_away}")


# **Visualização dos resultados**
# Gráfico para o time da casa
plt.figure(figsize=(10, 6))
plt.scatter(range(len(y_test_home)), y_test_home, color='blue', label='Valores Reais Time da Casa')
plt.scatter(range(len(y_pred_home_final)), y_pred_home_final, color='red', label='Previsões Time da Casa')
plt.title('Previsões vs Valores Reais (Time da Casa)')
plt.xlabel('Índice de Jogos')
plt.ylabel('Número de Gols')
plt.legend(loc='upper right')
plt.grid(True)
plt.show()

# Gráfico para o time visitante
plt.figure(figsize=(10, 6))
plt.scatter(range(len(np.expm1(y_test_away_log))), np.expm1(y_test_away_log), color='blue', label='Valores Reais Time Visitante')
plt.scatter(range(len(y_pred_away_final)), y_pred_away_final, color='red', label='Previsões Time Visitante')
plt.title('Previsões vs Valores Reais (Time Visitante)')
plt.xlabel('Índice de Jogos')
plt.ylabel('Número de Gols')
plt.legend(loc='upper right')
plt.grid(True)
plt.show()


# **Previsão Final dos Resultados**
for i in range(len(y_pred_home_final)):
    print(f"Placar Final: Time da Casa {y_pred_home_final[i]} x {y_pred_away_final[i]} Time Visitante")




---



#### 1. **Pré-processamento de Dados**
```python
# Remover colunas não numéricas e irrelevantes (mantendo as variáveis alvo)
X = matches_df_cleaned.drop(columns=['date_GMT', 'home_team_name', 'away_team_name'])

# Variáveis alvo
y_home = matches_df_cleaned['home_team_goal_count']
y_away = matches_df_cleaned['away_team_goal_count']

# Verificar se há mais colunas não numéricas
X = X.apply(pd.to_numeric, errors='coerce')

# Substituir valores NaN (se houver) após a conversão por zero ou uma média (dependendo do contexto)
X.fillna(0, inplace=True)
```

**Descrição**: Aqui estamos removendo colunas categóricas como `home_team_name` e `away_team_name`, que são irrelevantes para o modelo, e convertendo todos os dados para formato numérico. Também preenchemos valores nulos com zeros para garantir que não haja problemas ao passar esses dados ao modelo.

---

#### 2. **Aplicação de Transformação Logarítmica nos Gols**
```python
# Função para transformar e reverter os dados logarítmicos
def apply_log_transform(y):
    return np.log1p(y)  # log(1 + y)

def reverse_log_transform(y_log):
    return np.expm1(y_log)  # exp(y) - 1

# Aplicar a transformação logarítmica nos gols
y_home_log = apply_log_transform(y_home)
y_away_log = apply_log_transform(y_away)
```

**Descrição**: Esta célula aplica uma transformação logarítmica aos dados de contagem de gols para suavizar a distribuição e reduzir o impacto de outliers. Também definimos uma função para reverter essa transformação ao final do processo de predição.

---

#### 3. **Divisão dos Dados em Conjuntos de Treino e Teste**
```python
# Dividir os dados em conjuntos de treino e teste
X_train_home, X_test_home, y_train_home_log, y_test_home_log = train_test_split(X, y_home_log, test_size=0.2, random_state=42)
X_train_away, X_test_away, y_train_away_log, y_test_away_log = train_test_split(X, y_away_log, test_size=0.2, random_state=42)
```

**Descrição**: Aqui, os dados foram divididos em conjuntos de treino e teste, usando 20% dos dados para teste e o restante para treino. A variável `random_state=42` é usada para garantir reprodutibilidade.

---

#### 4. **Treinamento do Modelo Lasso com GridSearchCV**
```python
# GridSearchCV para encontrar o melhor alpha no Lasso para o time da casa
param_grid = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5, 1, 10]}
lasso_home = Lasso(max_iter=10000, random_state=42)
grid_search_home = GridSearchCV(lasso_home, param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_home.fit(X_train_home, y_train_home_log)

# Melhor modelo para o time da casa
best_lasso_home = grid_search_home.best_estimator_

# Previsão dos gols do time da casa (com reversão da transformação logarítmica)
y_pred_home_log = best_lasso_home.predict(X_test_home)
y_pred_home_final = np.maximum(reverse_log_transform(y_pred_home_log), 0)  # Evitar valores negativos
```

**Descrição**: Nesta etapa, usamos `GridSearchCV` para otimizar o valor de `alpha` no modelo Lasso. Após encontrar o melhor modelo, as previsões são feitas e a transformação logarítmica é revertida.

---

#### 5. **Avaliação do Modelo para o Time da Casa**
```python
# Métricas para o time da casa
test_mse_home = mean_squared_error(reverse_log_transform(y_test_home_log), y_pred_home_final)
test_r2_home = r2_score(reverse_log_transform(y_test_home_log), y_pred_home_final)

print(f"Time da Casa - MSE: {test_mse_home}, R²: {test_r2_home}")
```

**Descrição**: Aqui calculamos as métricas de desempenho, como o erro quadrático médio (MSE) e o coeficiente de determinação (R²), para o time da casa.

---

#### 6. **Plotagem de Previsões vs Valores Reais**
```python
# Gráfico para o time da casa
plt.figure(figsize=(10, 6))
plt.scatter(range(len(y_test_home)), reverse_log_transform(y_test_home_log), color='blue', label='Valores Reais Time da Casa')
plt.scatter(range(len(y_pred_home_final)), y_pred_home_final, color='red', label='Previsões Time da Casa')
plt.title('Previsões vs Valores Reais (Time da Casa)')
plt.xlabel('Índice de Jogos')
plt.ylabel('Número de Gols')
plt.legend(loc='upper right')
plt.grid(True)
plt.show()
```

**Descrição**: Esta célula plota as previsões (em vermelho) e os valores reais (em azul) dos gols do time da casa. O gráfico ajuda a visualizar o quão próximo o modelo previu os resultados.

---

#### 7. **Cálculo e Plotagem do Erro Absoluto**
```python
# Erro Absoluto - Time da Casa
error_home = np.abs(reverse_log_transform(y_test_home_log) - y_pred_home_final)
plt.figure(figsize=(10, 6))
sns.histplot(error_home, kde=True, color='red')
plt.title("Erro Absoluto nas Previsões - Time da Casa")
plt.show()
```

**Descrição**: Aqui calculamos o erro absoluto das previsões e plotamos um histograma com a curva KDE (estimativa de densidade). Isso ajuda a visualizar a distribuição dos erros.

---

#### 8. **Matriz de Correlação das Features**
```python
# Calcular a correlação entre as features e os gols do time da casa
matches_df_numeric = matches_df_cleaned.select_dtypes(include=[np.number])
correlation_matrix = matches_df_numeric.corr()

# Plotar a correlação
plt.figure(figsize=(10,8))
sns.heatmap(correlation_matrix, annot=False, cmap='coolwarm')
plt.title("Matriz de Correlação das Features")
plt.show()
```

**Descrição**: Esta célula gera uma matriz de correlação entre todas as variáveis numéricas, mostrando a relação entre elas e destacando potenciais multicolinearidades entre as features.

---



In [None]:
from sklearn.metrics import mean_absolute_error

# MAE para o time da casa
mae_home = mean_absolute_error(y_test_home, y_pred_home_final)
print(f"Time da Casa - MAE: {mae_home}")

# MAE para o time visitante
mae_away = mean_absolute_error(np.expm1(y_test_away_log), y_pred_away_final)
print(f"Time Visitante - MAE: {mae_away}")


In [None]:
from sklearn.metrics import precision_score

# Criar variáveis binárias para os valores reais e previstos (gols ou não)
y_test_home_binary = (y_test_home > 0).astype(int)
y_pred_home_binary = (y_pred_home_final > 0).astype(int)

y_test_away_binary = (np.expm1(y_test_away_log) > 0).astype(int)
y_pred_away_binary = (y_pred_away_final > 0).astype(int)

# Calcular a precisão para o time da casa
precision_home = precision_score(y_test_home_binary, y_pred_home_binary)
print(f"Precision Time da Casa: {precision_home}")

# Calcular a precisão para o time visitante
precision_away = precision_score(y_test_away_binary, y_pred_away_binary)
print(f"Precision Time Visitante: {precision_away}")


In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Lasso
import numpy as np

# Configurações do Lasso
lasso = Lasso(max_iter=10000, random_state=42, alpha=0.01)  # Alpha ajustado

# Aplicando Cross Validation
# Usamos o scoring de neg_mean_squared_error porque é o inverso do MSE (que o Lasso usa internamente)
cv_scores_home = cross_val_score(lasso, X_refined_home, y_home, cv=5, scoring='neg_mean_squared_error')
cv_scores_away = cross_val_score(lasso, X_away_refined, y_away, cv=5, scoring='neg_mean_squared_error')

# Calcular o MSE médio com Cross Validation (transformando de negativo para positivo)
mse_cv_home = -np.mean(cv_scores_home)
mse_cv_away = -np.mean(cv_scores_away)

# Printar os resultados
print(f"Time da Casa - Cross Validation MSE médio: {mse_cv_home}")
print(f"Time Visitante - Cross Validation MSE médio: {mse_cv_away}")

# Treinando o modelo após Cross Validation
lasso.fit(X_refined_home, y_home)
y_pred_home_cv = lasso.predict(X_refined_home)

lasso.fit(X_away_refined, y_away)
y_pred_away_cv = lasso.predict(X_away_refined)

# Ajustar previsões e evitar valores negativos
y_pred_home_cv_final = np.maximum(np.round(y_pred_home_cv), 0)
y_pred_away_cv_final = np.maximum(np.round(y_pred_away_cv), 0)

# Agora podemos calcular o R² também
from sklearn.metrics import r2_score

r2_home_cv = r2_score(y_home, y_pred_home_cv_final)
r2_away_cv = r2_score(y_away, y_pred_away_cv_final)

print(f"Time da Casa - R² após Cross Validation: {r2_home_cv}")
print(f"Time Visitante - R² após Cross Validation: {r2_away_cv}")


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Gráfico para o Time da Casa
plt.figure(figsize=(10, 6))
plt.scatter(y_test_home, y_pred_home_final, color='red', label='Previsões')
plt.plot([y_test_home.min(), y_test_home.max()], [y_test_home.min(), y_test_home.max()], 'k--', lw=2, label="Reta de identidade")
plt.title(f'Previsões vs Valores Reais (Time da Casa) - $R^2 = {r2_home:.2f}$')
plt.xlabel('Valores Reais')
plt.ylabel('Previsões')
plt.legend()
plt.show()

# Gráfico para o Time Visitante
plt.figure(figsize=(10, 6))
plt.scatter(np.expm1(y_test_away_log), y_pred_away_final, color='red', label='Previsões')
plt.plot([np.expm1(y_test_away_log).min(), np.expm1(y_test_away_log).max()],
         [np.expm1(y_test_away_log).min(), np.expm1(y_test_away_log).max()],
         'k--', lw=2, label="Reta de identidade")
plt.title(f'Previsões vs Valores Reais (Time Visitante) - $R^2 = {test_r2_away:.2f}$')
plt.xlabel('Valores Reais')
plt.ylabel('Previsões')
plt.legend()
plt.show()




---

### Avaliação de Erros Absolutos (MAE)

```python
from sklearn.metrics import mean_absolute_error

# MAE para o time da casa
mae_home = mean_absolute_error(y_test_home, y_pred_home_final)
print(f"Time da Casa - MAE: {mae_home}")

# MAE para o time visitante
mae_away = mean_absolute_error(np.expm1(y_test_away_log), y_pred_away_final)
print(f"Time Visitante - MAE: {mae_away}")
```

**Análise**:
- O erro absoluto médio (MAE) para os times da casa e visitantes é calculado para verificar a precisão das previsões em termos de erros médios absolutos.

---

### Avaliação da Precisão Binária

```python
from sklearn.metrics import precision_score

# Criar variáveis binárias para os valores reais e previstos (gols ou não)
y_test_home_binary = (y_test_home > 0).astype(int)
y_pred_home_binary = (y_pred_home_final > 0).astype(int)

y_test_away_binary = (np.expm1(y_test_away_log) > 0).astype(int)
y_pred_away_binary = (y_pred_away_final > 0).astype(int)

# Calcular a precisão para o time da casa
precision_home = precision_score(y_test_home_binary, y_pred_home_binary)
print(f"Precision Time da Casa: {precision_home}")

# Calcular a precisão para o time visitante
precision_away = precision_score(y_test_away_binary, y_pred_away_binary)
print(f"Precision Time Visitante: {precision_away}")
```

**Análise**:
- Esta célula calcula a precisão para prever corretamente se haverá ou não gols para os times da casa e visitantes.
- Avalia a capacidade de distinguir se um time marcará ou não.

---

### Aplicação de Validação Cruzada e Ajuste do Modelo Lasso

```python
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Lasso
import numpy as np

# Configurações do Lasso
lasso = Lasso(max_iter=10000, random_state=42, alpha=0.01)  # Alpha ajustado

# Aplicando Cross Validation
cv_scores_home = cross_val_score(lasso, X_refined_home, y_home, cv=5, scoring='neg_mean_squared_error')
cv_scores_away = cross_val_score(lasso, X_away_refined, y_away, cv=5, scoring='neg_mean_squared_error')

# Calcular o MSE médio com Cross Validation (transformando de negativo para positivo)
mse_cv_home = np.mean(cv_scores_home)
mse_cv_away = np.mean(cv_scores_away)

# Imprimir os resultados
print(f"Time da Casa - Cross Validation MSE médio: {mse_cv_home}")
print(f"Time Visitante - Cross Validation MSE médio: {mse_cv_away}")
```

**Análise**:
- Essa célula utiliza validação cruzada para verificar a robustez do modelo Lasso.
- O Mean Squared Error (MSE) médio é calculado após o cross-validation para ambos os times, ajudando a evitar overfitting.

---

### Previsão de Resultados e Gráficos Comparativos

```python
import matplotlib.pyplot as plt
import numpy as np

# Gráfico para o time da casa
plt.figure(figsize=[10, 6])
plt.scatter(range(len(y_test_home)), y_pred_home_final, color='red', label='Previsões')
plt.plot([y_test_home.min(), y_test_home.max()], [y_test_home.min(), y_test_home.max()], 'k--', lw=2, label="Reta de identidade")
plt.title(f'Previsões vs Valores Reais (Time da Casa) - $R^2$ = {r2_home:.2f}')
plt.xlabel('Valores Reais')
plt.ylabel('Previsões')
plt.legend()
plt.grid(True)
plt.show()

# Gráfico para o time visitante
plt.figure(figsize=[10, 6])
plt.scatter(range(len(np.expm1(y_test_away_log))), y_pred_away_final, color='red', label='Previsões')
plt.plot([np.expm1(y_test_away_log).min(), np.expm1(y_test_away_log).max()], [np.expm1(y_test_away_log).min(), np.expm1(y_test_away_log).max()], 'k--', lw=2, label="Reta de identidade")
plt.title(f'Previsões vs Valores Reais (Time Visitante) - $R^2$ = {r2_away:.2f}')
plt.xlabel('Valores Reais')
plt.ylabel('Previsões')
plt.legend()
plt.grid(True)
plt.show()
```

**Análise**:
- Esta célula gera gráficos de dispersão que comparam as previsões de gols com os valores reais, tanto para o time da casa quanto para o time visitante.
- A linha de identidade (reta preta tracejada) indica a linha perfeita onde previsões exatas se alinhariam.

---



In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt
from sklearn.inspection import permutation_importance

# Features otimizadas para o time da casa (incluir novas features)
features_home = [
    'total_goal_count',
    'home_team_goal_count_half_time',
    'home_team_shots_on_target',
    'home_ppg',
    'team_a_xg',
    'home_team_possession',  # Nova feature - posse de bola do time da casa
    'home_team_fouls',       # Nova feature - faltas cometidas pelo time da casa
    'home_team_shots_off_target',  # Nova feature - chutes fora do alvo
]

X_refined_home = matches_df_cleaned[features_home]
y_home = matches_df_cleaned['home_team_goal_count']

# Verificar se há valores não numéricos e convertê-los para numéricos
X_refined_home = X_refined_home.apply(pd.to_numeric, errors='coerce')
X_refined_home.fillna(0, inplace=True)

# Separar os dados para o time da casa
X_train_home, X_test_home, y_train_home, y_test_home = train_test_split(X_refined_home, y_home, test_size=0.2, random_state=42)

# GridSearchCV para encontrar o melhor alpha no Lasso para o time da casa
param_grid_lasso_home = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5]}
lasso_home = Lasso(max_iter=10000, random_state=42)
grid_search_lasso_home = GridSearchCV(lasso_home, param_grid_lasso_home, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_lasso_home.fit(X_train_home, y_train_home)

# Melhor modelo para o time da casa
best_lasso_home = grid_search_lasso_home.best_estimator_

# Previsão dos gols do time da casa
y_pred_home = best_lasso_home.predict(X_test_home)
y_pred_home_final = np.maximum(y_pred_home, 0)  # Evitar valores negativos

# Métricas para o time da casa
mse_home = mean_squared_error(y_test_home, y_pred_home_final)
r2_home = r2_score(y_test_home, y_pred_home_final)

print(f"Time da Casa - Melhor Alpha: {grid_search_lasso_home.best_params_['alpha']}")
print(f"Time da Casa - MSE: {mse_home}, R²: {r2_home}")

# Importância das features
importance = permutation_importance(best_lasso_home, X_test_home, y_test_home, n_repeats=10, random_state=42)
sorted_idx = importance.importances_mean.argsort()

plt.figure(figsize=(10, 6))
plt.barh(np.array(features_home)[sorted_idx], importance.importances_mean[sorted_idx])
plt.xlabel('Importância das Features')
plt.title('Importância das Features para o Time da Casa')
plt.show()


In [None]:
# Selecionar apenas colunas numéricas
numeric_columns = matches_df_cleaned.select_dtypes(include=[np.number]).columns

# Substituir valores nulos pela média da coluna apenas nas colunas numéricas
matches_df_cleaned[numeric_columns].fillna(matches_df_cleaned[numeric_columns].mean(), inplace=True)

# Verificar novamente se os valores nulos foram preenchidos
print(matches_df_cleaned.isnull().sum())


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Exibir box plot para verificar outliers em gols do time da casa
plt.figure(figsize=(10, 6))
sns.boxplot(x=matches_df_cleaned['home_team_goal_count'])
plt.title('Box Plot - Gols do Time da Casa')
plt.show()

# Exibir box plot para verificar outliers em gols do time visitante
plt.figure(figsize=(10, 6))
sns.boxplot(x=matches_df_cleaned['away_team_goal_count'])
plt.title('Box Plot - Gols do Time Visitante')
plt.show()

# Função para remover outliers usando z-score (limite de 3)
def remove_outliers_zscore(df, column, threshold=3):
    z_scores = np.abs((df[column] - df[column].mean()) / df[column].std())
    return df[z_scores < threshold]

# Remover outliers das colunas de gols
matches_df_cleaned = remove_outliers_zscore(matches_df_cleaned, 'home_team_goal_count')
matches_df_cleaned = remove_outliers_zscore(matches_df_cleaned, 'away_team_goal_count')




---

### Análise de Previsões e Importância das Features

```python
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import matplotlib.pyplot as plt
from sklearn.inspection import permutation_importance

# Features otimizadas para o time da casa (incluir novas features)
features_home = [
    'total_goal_count',
    'home_team_goal_count_half_time',
    'home_team_shots_on_target',
    'home_ppg',
    'team_a_xg',
    'home_team_possession', # Nova feature - posse de bola do time da casa
    'home_team_fouls', # Nova feature - faltas cometidas pelo time da casa
    'home_team_shots_off_target' # Nova feature - chutes fora do alvo
]

X_refined_home = matches_df_cleaned[features_home]
y_home = matches_df_cleaned['home_team_goal_count']

# Verificar se há valores não numéricos e convertê-los para numéricos
X_refined_home = X_refined_home.apply(pd.to_numeric, errors='coerce')
X_refined_home.fillna(0, inplace=True)

# Separar os dados para o time da casa
X_train_home, X_test_home, y_train_home, y_test_home = train_test_split(X_refined_home, y_home, test_size=0.2, random_state=42)

# GridSearchCV para encontrar o melhor alpha no Lasso para o time da casa
param_grid_lasso_home = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5]}
lasso_home = Lasso(max_iter=10000, random_state=42)
grid_search_lasso_home = GridSearchCV(lasso_home, param_grid_lasso_home, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_lasso_home.fit(X_train_home, y_train_home)

# Melhor modelo para o time da casa
best_lasso_home = grid_search_lasso_home.best_estimator_

# Previsão dos gols do time da casa
y_pred_home = best_lasso_home.predict(X_test_home)
y_pred_home_final = np.maximum(y_pred_home, 0)  # Evitar valores negativos

# Métricas para o time da casa
mse_home = mean_squared_error(y_test_home, y_pred_home_final)
r2_home = r2_score(y_test_home, y_pred_home_final)

print(f"Time da Casa - Melhor Alpha: {grid_search_lasso_home.best_params_['alpha']}")
print(f"Time da Casa - MSE: {mse_home}, R²: {r2_home}")

# Importância das features
importance = permutation_importance(best_lasso_home, X_test_home, y_test_home, n_repeats=10, random_state=42)
sorted_idx = importance.importances_mean.argsort()

plt.figure(figsize=(10, 6))
plt.barh(np.array(features_home)[sorted_idx], importance.importances_mean[sorted_idx])
plt.xlabel('Importância das Features')
plt.title('Importância das Features para o Time da Casa')
plt.show()
```

- **Descrição**: Essa célula ajusta o modelo Lasso para o time da casa, utilizando um conjunto de features otimizadas e novas adições, como posse de bola e faltas. Ela realiza a previsão dos gols, calcula as métricas MSE e R², e, por fim, exibe um gráfico de importância das features baseado na permutação de valores.

---

### Limpeza de Dados Numéricos

```python
# Selecionar apenas colunas numéricas
numeric_columns = matches_df_cleaned.select_dtypes(include=[np.number]).columns

# Substituir valores nulos pela média da coluna apenas nas colunas numéricas
matches_df_cleaned[numeric_columns].fillna(matches_df_cleaned[numeric_columns].mean(), inplace=True)

# Verificar novamente se os valores nulos foram preenchidos
print(matches_df_cleaned.isnull().sum())
```

- **Descrição**: Esta célula seleciona todas as colunas numéricas do dataset e preenche os valores nulos com a média dessas colunas. Depois, realiza uma verificação para garantir que todos os valores foram preenchidos corretamente.

---

### Detecção e Remoção de Outliers

```python
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Exibir box plot para verificar outliers em gols do time da casa
plt.figure(figsize=(10, 6))
sns.boxplot(x=matches_df_cleaned['home_team_goal_count'])
plt.title('Box Plot - Gols do Time da Casa')
plt.show()

# Exibir box plot para verificar outliers em gols do time visitante
plt.figure(figsize=(10, 6))
sns.boxplot(x=matches_df_cleaned['away_team_goal_count'])
plt.title('Box Plot - Gols do Time Visitante')
plt.show()

# Função para remover outliers usando Z-score (limite de 3)
def remove_outliers_zscore(df, column, threshold=3):
    z_scores = np.abs((df[column] - df[column].mean()) / df[column].std())
    return df[z_scores < threshold]

# Remover outliers das colunas de gols
matches_df_cleaned = remove_outliers_zscore(matches_df_cleaned, 'home_team_goal_count')
matches_df_cleaned = remove_outliers_zscore(matches_df_cleaned, 'away_team_goal_count')
```

- **Descrição**: Esta célula exibe os outliers nos dados de gols por meio de box plots e implementa uma função de remoção de outliers com base no Z-score (limite de 3 desvios-padrão). Após a detecção, os outliers são removidos para melhorar a qualidade dos dados.

---



In [None]:
# Criar uma nova feature de diferença de gols em casa e fora em jogos anteriores
matches_df_cleaned['home_goal_diff'] = matches_df_cleaned['home_team_goal_count'] - matches_df_cleaned['away_team_goal_count']
matches_df_cleaned['away_goal_diff'] = matches_df_cleaned['away_team_goal_count'] - matches_df_cleaned['home_team_goal_count']

# Criar uma nova feature de taxa de conversão de chutes (gols/chutes a gol)
matches_df_cleaned['home_shot_conversion'] = matches_df_cleaned['home_team_goal_count'] / matches_df_cleaned['home_team_shots_on_target'].replace(0, 1)
matches_df_cleaned['away_shot_conversion'] = matches_df_cleaned['away_team_goal_count'] / matches_df_cleaned['away_team_shots_on_target'].replace(0, 1)

# Criar uma nova feature de desempenho recente (últimos 5 jogos)
matches_df_cleaned['home_recent_form'] = matches_df_cleaned['home_team_goal_count'].rolling(window=5).mean().fillna(0)
matches_df_cleaned['away_recent_form'] = matches_df_cleaned['away_team_goal_count'].rolling(window=5).mean().fillna(0)


In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Features separadas para o time da casa e visitante
features_home = [
    'home_goal_diff', 'home_shot_conversion', 'home_recent_form',
    'home_ppg', 'home_team_shots_on_target'
]
features_away = [
    'away_goal_diff', 'away_shot_conversion', 'away_recent_form',
    'away_ppg', 'away_team_shots_on_target'
]

# Separando os dados
X_home = matches_df_cleaned[features_home]
y_home = matches_df_cleaned['home_team_goal_count']

X_away = matches_df_cleaned[features_away]
y_away = matches_df_cleaned['away_team_goal_count']

# Dividir os dados em treino e teste
X_train_home, X_test_home, y_train_home, y_test_home = train_test_split(X_home, y_home, test_size=0.2, random_state=42)
X_train_away, X_test_away, y_train_away, y_test_away = train_test_split(X_away, y_away, test_size=0.2, random_state=42)

# GridSearchCV para encontrar o melhor alpha no Lasso para o time da casa
param_grid_lasso_home = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5]}
lasso_home = Lasso(max_iter=10000, random_state=42)
grid_search_lasso_home = GridSearchCV(lasso_home, param_grid_lasso_home, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_lasso_home.fit(X_train_home, y_train_home)

# Melhor modelo para o time da casa
best_lasso_home = grid_search_lasso_home.best_estimator_

# Previsão dos gols do time da casa
y_pred_home = best_lasso_home.predict(X_test_home)

# Métricas para o time da casa
mse_home = mean_squared_error(y_test_home, y_pred_home)
r2_home = r2_score(y_test_home, y_pred_home)

print(f"Time da Casa - MSE: {mse_home}, R²: {r2_home}")

# Repetir o processo para o time visitante
param_grid_lasso_away = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5]}
lasso_away = Lasso(max_iter=10000, random_state=42)
grid_search_lasso_away = GridSearchCV(lasso_away, param_grid_lasso_away, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_lasso_away.fit(X_train_away, y_train_away)

# Melhor modelo para o time visitante
best_lasso_away = grid_search_lasso_away.best_estimator_

# Previsão dos gols do time visitante
y_pred_away = best_lasso_away.predict(X_test_away)

# Métricas para o time visitante
mse_away = mean_squared_error(y_test_away, y_pred_away)
r2_away = r2_score(y_test_away, y_pred_away)

print(f"Time Visitante - MSE: {mse_away}, R²: {r2_away}")


In [None]:
import matplotlib.pyplot as plt

# Gráfico para o time da casa
plt.figure(figsize=(10, 6))
plt.scatter(range(len(y_test_home)), y_test_home, color='blue', label='Valores Reais Time da Casa')
plt.scatter(range(len(y_pred_home)), y_pred_home, color='red', label='Previsões Time da Casa')
plt.title('Previsões vs Valores Reais (Time da Casa)')
plt.xlabel('Índice de Jogos')
plt.ylabel('Número de Gols')
plt.legend(loc='upper right')
plt.grid(True)
plt.show()

# Gráfico para o time visitante
plt.figure(figsize=(10, 6))
plt.scatter(range(len(y_test_away)), y_test_away, color='blue', label='Valores Reais Time Visitante')
plt.scatter(range(len(y_pred_away)), y_pred_away, color='red', label='Previsões Time Visitante')
plt.title('Previsões vs Valores Reais (Time Visitante)')
plt.xlabel('Índice de Jogos')
plt.ylabel('Número de Gols')
plt.legend(loc='upper right')
plt.grid(True)
plt.show()


In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score, make_scorer
import numpy as np
import matplotlib.pyplot as plt

# Features separadas para o time da casa e visitante
features_home = [
    'home_goal_diff', 'home_shot_conversion', 'home_recent_form',
    'home_ppg', 'home_team_shots_on_target'
]
features_away = [
    'away_goal_diff', 'away_shot_conversion', 'away_recent_form',
    'away_ppg', 'away_team_shots_on_target'
]

# Separar os dados
X_home = matches_df_cleaned[features_home]
y_home = matches_df_cleaned['home_team_goal_count']

X_away = matches_df_cleaned[features_away]
y_away = matches_df_cleaned['away_team_goal_count']

# Dividir os dados em treino e teste
X_train_home, X_test_home, y_train_home, y_test_home = train_test_split(X_home, y_home, test_size=0.2, random_state=42)
X_train_away, X_test_away, y_train_away, y_test_away = train_test_split(X_away, y_away, test_size=0.2, random_state=42)

# Função para exibir resultados de validação cruzada e resíduos
def evaluate_model(model, X_train, y_train, X_test, y_test, team_label):
    # Validação cruzada
    mse_scorer = make_scorer(mean_squared_error)
    cv_mse_scores = cross_val_score(model, X_train, y_train, cv=5, scoring=mse_scorer)
    cv_r2_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='r2')

    # Ajustar o modelo e fazer previsões
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    # Métricas
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)

    # Exibir resultados
    print(f"{team_label} - MSE médio (Cross Validation): {np.mean(cv_mse_scores)}")
    print(f"{team_label} - R² médio (Cross Validation): {np.mean(cv_r2_scores)}")
    print(f"{team_label} - MSE: {mse}, R²: {r2}")

    # Gráfico de resíduos
    residuals = y_test - y_pred
    plt.figure(figsize=(10, 6))
    plt.scatter(range(len(residuals)), residuals, color='purple')
    plt.axhline(0, color='black', linestyle='--')
    plt.title(f'Resíduos - {team_label}')
    plt.xlabel('Índice')
    plt.ylabel('Erro (Resíduo)')
    plt.grid(True)
    plt.show()

# Modelo para o time da casa
lasso_home = Lasso(alpha=0.01, max_iter=10000, random_state=42)
evaluate_model(lasso_home, X_train_home, y_train_home, X_test_home, y_test_home, "Time da Casa")

# Modelo para o time visitante
lasso_away = Lasso(alpha=0.01, max_iter=10000, random_state=42)
evaluate_model(lasso_away, X_train_away, y_train_away, X_test_away, y_test_away, "Time Visitante")

# Importância das features para o time da casa
importance_home = np.abs(lasso_home.coef_)
sorted_indices_home = np.argsort(importance_home)[::-1]

plt.figure(figsize=(10, 6))
plt.barh(X_train_home.columns[sorted_indices_home], importance_home[sorted_indices_home], color='blue')
plt.xlabel("Importância das Features")
plt.title("Importância das Features para o Time da Casa")
plt.show()

# Importância das features para o time visitante
importance_away = np.abs(lasso_away.coef_)
sorted_indices_away = np.argsort(importance_away)[::-1]

plt.figure(figsize=(10, 6))
plt.barh(X_train_away.columns[sorted_indices_away], importance_away[sorted_indices_away], color='green')
plt.xlabel("Importância das Features")
plt.title("Importância das Features para o Time Visitante")
plt.show()


---

### Célula 1: **Treinamento do Modelo Lasso com GridSearchCV para o Time da Casa**

**Descrição:**
Esta célula realiza o treinamento do modelo Lasso com GridSearchCV para o time da casa. As features escolhidas incluem a diferença de gols no primeiro tempo, chutes ao alvo e posse de bola, entre outras. O modelo é treinado após a divisão dos dados em treino e teste, e o melhor valor de alpha é selecionado usando a técnica de GridSearchCV. A célula também inclui o cálculo de métricas como MSE e R², além da plotagem da importância das features para o modelo.

**Análise:**
- O uso de **GridSearchCV** para otimizar o hiperparâmetro alpha do Lasso é um bom ponto de partida para garantir que o modelo não esteja nem subajustando nem sobreajustando.
- As features selecionadas são relevantes para prever o número de gols do time da casa, como posse de bola e chutes ao alvo, que têm uma correlação direta com o desempenho ofensivo.
- O gráfico de **importância das features** é fundamental para entender quais variáveis estão contribuindo mais para o desempenho do modelo.

---

### Célula 2: **Seleção de Colunas Numéricas e Tratamento de Nulos**

**Descrição:**
Nesta célula, as colunas numéricas do DataFrame são selecionadas e os valores nulos são substituídos pela média da coluna correspondente. Além disso, são gerados gráficos de boxplot para identificar possíveis outliers nas colunas de gols dos times. Posteriormente, uma função é implementada para remover outliers usando Z-score.

**Análise:**
- O processo de **preenchimento de valores nulos** com a média é uma abordagem eficiente quando os valores ausentes são esparsos, mas deve-se tomar cuidado ao analisar o impacto no desempenho do modelo.
- A visualização por **boxplots** é importante para identificar outliers que possam distorcer o desempenho do modelo.
- O uso do **Z-score** para remover outliers ajuda a melhorar a qualidade dos dados de treino, eliminando valores atípicos que podem interferir nas previsões.

---

### Célula 3: **Treinamento e Previsões com Novas Features para o Time da Casa e Visitante**

**Descrição:**
Essa célula introduz features novas, como a taxa de conversão de chutes em gols e o desempenho recente dos times nos últimos 5 jogos. O modelo Lasso é novamente ajustado para ambos os times (casa e visitante), usando GridSearchCV para otimizar o valor de alpha.

**Análise:**
- A inclusão de novas features, como a **taxa de conversão de chutes em gols**, traz insights adicionais para o modelo. Esses fatores são críticos no desempenho de um time em campo.
- A divisão de treino e teste e o uso de **validação cruzada** garantem que o modelo seja avaliado de maneira robusta e menos suscetível a overfitting.
- As previsões para o time visitante mostraram-se particularmente boas, com um **R² elevado**, sugerindo que o modelo está capturando bem a dinâmica dos jogos do visitante.

---

### Célula 4: **Visualização de Resultados e Avaliação do Modelo**

**Descrição:**
Essa célula é responsável por gerar os gráficos de dispersão que comparam os valores reais com os previstos para o time da casa e visitante. Além disso, são exibidas as métricas de desempenho como MSE e R².

**Análise:**
- Os gráficos de **valores previstos versus valores reais** são essenciais para avaliar visualmente o desempenho do modelo. A proximidade dos pontos com a linha de identidade (reta) indica a precisão das previsões.
- Embora o modelo para o time da casa apresente um **R² razoável** (cerca de 0.70), o time visitante se sai melhor, com um R² em torno de 0.85, indicando que o modelo lida de forma mais eficaz com os dados dos visitantes.

---

### Célula 5: **Treinamento com Validação Cruzada e Importância das Features**

**Descrição:**
Aqui, os modelos para ambos os times são treinados com **validação cruzada** e os gráficos de resíduos são plotados. Também é feita a análise da importância das features.

**Análise:**
- A inclusão da **validação cruzada** com 5 folds é um ponto positivo, pois garante que o modelo esteja generalizando bem e evita o overfitting.
- O gráfico de **resíduos** é importante para verificar se há padrões ou tendências nos erros de previsão. Um bom modelo deve ter resíduos distribuídos de maneira aleatória.
- A análise da **importância das features** permite identificar quais variáveis têm maior peso nas previsões e, assim, ajustar ou refinar o modelo conforme necessário.

---

### Célula 6: **Finalização do Modelo com Novas Features e Visualização de Importância**

**Descrição:**
Nesta célula, o processo final de ajuste de features é implementado. As novas variáveis são aplicadas no modelo e os gráficos de importância das features são plotados, tanto para o time da casa quanto para o visitante.

**Análise:**
- A **adição de novas variáveis**, como "chutes fora do alvo", contribui para melhorar a acurácia do modelo, trazendo um contexto mais amplo sobre o desempenho do time.
- Os gráficos de **importância das features** são úteis para ajustar o foco do modelo nas variáveis que realmente impactam as previsões. Features como "home_team_goal_count_half_time" e "total_goal_count" continuam a ser cruciais para as previsões.

---



In [None]:
matches_df_cleaned['home_team_shot_conversion'] = matches_df_cleaned['home_team_goal_count'] / matches_df_cleaned['home_team_shots_on_target']
matches_df_cleaned['away_team_shot_conversion'] = matches_df_cleaned['away_team_goal_count'] / matches_df_cleaned['away_team_shots_on_target']


In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score, make_scorer
import numpy as np
import matplotlib.pyplot as plt

# Atualizar as features incluindo novas métricas de desempenho
features_home = [
    'home_goal_diff', 'home_shot_conversion', 'home_recent_form',
    'home_ppg', 'home_team_shots_on_target', 'home_team_corner_count',
    'home_team_possession', 'home_team_fouls', 'home_team_yellow_cards',
]

features_away = [
    'away_goal_diff', 'away_shot_conversion', 'away_recent_form',
    'away_ppg', 'away_team_shots_on_target', 'away_team_corner_count',
    'away_team_possession', 'away_team_fouls', 'away_team_yellow_cards',
]

# Separando os dados
X_home = matches_df_cleaned[features_home]
y_home = matches_df_cleaned['home_team_goal_count']

X_away = matches_df_cleaned[features_away]
y_away = matches_df_cleaned['away_team_goal_count']

# Dividir os dados em treino e teste
X_train_home, X_test_home, y_train_home, y_test_home = train_test_split(X_home, y_home, test_size=0.2, random_state=42)
X_train_away, X_test_away, y_train_away, y_test_away = train_test_split(X_away, y_away, test_size=0.2, random_state=42)

# GridSearchCV para encontrar o melhor alpha no Lasso para o time da casa
param_grid_lasso_home = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5]}
lasso_home = Lasso(max_iter=10000, random_state=42)
grid_search_lasso_home = GridSearchCV(lasso_home, param_grid_lasso_home, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_lasso_home.fit(X_train_home, y_train_home)

# Melhor modelo para o time da casa
best_lasso_home = grid_search_lasso_home.best_estimator_

# Previsão dos gols do time da casa
y_pred_home = best_lasso_home.predict(X_test_home)

# Métricas para o time da casa
mse_home = mean_squared_error(y_test_home, y_pred_home)
r2_home = r2_score(y_test_home, y_pred_home)

print(f"Time da Casa - MSE: {mse_home}, R²: {r2_home}")

# Repetir o processo para o time visitante
param_grid_lasso_away = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5]}
lasso_away = Lasso(max_iter=10000, random_state=42)
grid_search_lasso_away = GridSearchCV(lasso_away, param_grid_lasso_away, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_lasso_away.fit(X_train_away, y_train_away)

# Melhor modelo para o time visitante
best_lasso_away = grid_search_lasso_away.best_estimator_

# Previsão dos gols do time visitante
y_pred_away = best_lasso_away.predict(X_test_away)

# Métricas para o time visitante
mse_away = mean_squared_error(y_test_away, y_pred_away)
r2_away = r2_score(y_test_away, y_pred_away)

print(f"Time Visitante - MSE: {mse_away}, R²: {r2_away}")

# Passo 2: Verificação de outliers
# Plotando novamente os boxplots para revisar outliers
plt.figure(figsize=(6,4))
plt.boxplot(y_home)
plt.title('Box Plot - Gols do Time da Casa')
plt.ylabel('home_team_goal_count')
plt.show()

plt.figure(figsize=(6,4))
plt.boxplot(y_away)
plt.title('Box Plot - Gols do Time Visitante')
plt.ylabel('away_team_goal_count')
plt.show()

# Passo 3: Teste de outras abordagens de validação cruzada (10-fold)
mse_scorer = make_scorer(mean_squared_error)

# Aplicar a validação cruzada para o Time da Casa com 10 folds
cv_mse_scores_home = cross_val_score(lasso_home, X_home, y_home, cv=10, scoring=mse_scorer)
cv_r2_scores_home = cross_val_score(lasso_home, X_home, y_home, cv=10, scoring='r2')

# Resultados Time da Casa com 10-fold
print(f"Time da Casa - MSE médio (Cross Validation): {np.mean(cv_mse_scores_home)}")
print(f"Time da Casa - R² médio (Cross Validation): {np.mean(cv_r2_scores_home)}")

# Aplicar a validação cruzada para o Time Visitante com 10 folds
cv_mse_scores_away = cross_val_score(lasso_away, X_away, y_away, cv=10, scoring=mse_scorer)
cv_r2_scores_away = cross_val_score(lasso_away, X_away, y_away, cv=10, scoring='r2')

# Resultados Time Visitante com 10-fold
print(f"Time Visitante - MSE médio (Cross Validation): {np.mean(cv_mse_scores_away)}")
print(f"Time Visitante - R² médio (Cross Validation): {np.mean(cv_r2_scores_away)}")


In [None]:
# Nova feature: diferença de posse de bola entre os dois times
matches_df_cleaned['possession_diff'] = matches_df_cleaned['home_team_possession'] - matches_df_cleaned['away_team_possession']

# Nova feature: soma de faltas e cartões para capturar indisciplina
matches_df_cleaned['home_discipline'] = matches_df_cleaned['home_team_fouls'] + matches_df_cleaned['home_team_yellow_cards']
matches_df_cleaned['away_discipline'] = matches_df_cleaned['away_team_fouls'] + matches_df_cleaned['away_team_yellow_cards']

# Nova feature: soma de chutes a gol e posse de bola como proxy para pressão ofensiva
matches_df_cleaned['home_offensive_pressure'] = matches_df_cleaned['home_team_shots_on_target'] + matches_df_cleaned['home_team_possession']
matches_df_cleaned['away_offensive_pressure'] = matches_df_cleaned['away_team_shots_on_target'] + matches_df_cleaned['away_team_possession']


In [None]:
# Features atualizadas para o time da casa e visitante
features_home = [
    'home_goal_diff', 'home_shot_conversion', 'home_recent_form', 'home_ppg',
    'home_team_shots_on_target', 'home_offensive_pressure', 'home_discipline', 'possession_diff'
]

features_away = [
    'away_goal_diff', 'away_shot_conversion', 'away_recent_form', 'away_ppg',
    'away_team_shots_on_target', 'away_offensive_pressure', 'away_discipline', 'possession_diff'
]

# Separando os dados
X_home = matches_df_cleaned[features_home]
y_home = matches_df_cleaned['home_team_goal_count']

X_away = matches_df_cleaned[features_away]
y_away = matches_df_cleaned['away_team_goal_count']

# Dividir os dados em treino e teste
X_train_home, X_test_home, y_train_home, y_test_home = train_test_split(X_home, y_home, test_size=0.2, random_state=42)
X_train_away, X_test_away, y_train_away, y_test_away = train_test_split(X_away, y_away, test_size=0.2, random_state=42)

# GridSearchCV para encontrar o melhor alpha no Lasso
param_grid_lasso_home = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5]}
lasso_home = Lasso(max_iter=10000, random_state=42)
grid_search_lasso_home = GridSearchCV(lasso_home, param_grid_lasso_home, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_lasso_home.fit(X_train_home, y_train_home)

# Melhor modelo para o time da casa
best_lasso_home = grid_search_lasso_home.best_estimator_

# Previsão dos gols do time da casa
y_pred_home = best_lasso_home.predict(X_test_home)

# Métricas para o time da casa
mse_home = mean_squared_error(y_test_home, y_pred_home)
r2_home = r2_score(y_test_home, y_pred_home)

print(f"Time da Casa - MSE: {mse_home}, R²: {r2_home}")

# Repetir para o time visitante
param_grid_lasso_away = {'alpha': [0.01, 0.03, 0.05, 0.1, 0.5]}
lasso_away = Lasso(max_iter=10000, random_state=42)
grid_search_lasso_away = GridSearchCV(lasso_away, param_grid_lasso_away, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search_lasso_away.fit(X_train_away, y_train_away)

# Melhor modelo para o time visitante
best_lasso_away = grid_search_lasso_away.best_estimator_

# Previsão dos gols do time visitante
y_pred_away = best_lasso_away.predict(X_test_away)

# Métricas para o time visitante
mse_away = mean_squared_error(y_test_away, y_pred_away)
r2_away = r2_score(y_test_away, y_pred_away)

print(f"Time Visitante - MSE: {mse_away}, R²: {r2_away}")


In [None]:
# Prever os placares para os jogos de teste
y_pred_home_final = best_lasso_home.predict(X_test_home)
y_pred_away_final = best_lasso_away.predict(X_test_away)

# Arredondar os resultados para evitar valores decimais nos gols
y_pred_home_final = np.maximum(np.round(y_pred_home_final), 0)  # Garantir que não haja gols negativos
y_pred_away_final = np.maximum(np.round(y_pred_away_final), 0)

# Imprimir os placares previstos
for i in range(len(y_pred_home_final)):
    print(f"Placar Final: Time da Casa {y_pred_home_final[i]} x {y_pred_away_final[i]} Time Visitante")



---

### Seção 1: Criação de Features Derivadas
Nesta célula, criamos **novas features** para os times da casa e visitante, baseadas em dados brutos existentes, como:
- `home_goal_diff` e `away_goal_diff`: diferença de gols em partidas anteriores.
- `home_shot_conversion` e `away_shot_conversion`: taxa de conversão de chutes a gol.
- `home_recent_form` e `away_recent_form`: forma recente do time (média dos últimos 5 jogos).

Essas features foram incluídas para enriquecer o modelo com variáveis que possam capturar a tendência de desempenho recente e conversão de finalizações em gols.

---

### Seção 2: Treinamento e Avaliação do Modelo com Lasso
Nesta célula, fazemos a separação dos dados de treino e teste para **time da casa** e **time visitante**. Em seguida, utilizamos o **GridSearchCV** para otimizar o valor do parâmetro `alpha` no modelo de regressão Lasso, buscando o melhor ajuste possível para prever o número de gols de cada time.

Os principais passos são:
1. Separação dos dados em treino e teste.
2. Aplicação do **GridSearchCV** para encontrar o melhor valor de `alpha`.
3. Avaliação do modelo para o time da casa e visitante, com o cálculo das métricas **MSE** e **R²**.

**Resultado**:
- Time da Casa: `MSE` = 0.22248, `R²` = 0.70586
- Time Visitante: `MSE` = 0.13496, `R²` = 0.85885

---

### Seção 3: Visualização dos Resultados de Previsão
Aqui, visualizamos as previsões do modelo Lasso comparando os **valores reais** e **valores previstos** para os gols dos times da casa e visitante. Isso foi feito usando gráficos de dispersão, o que permite identificar se as previsões seguem de perto os valores reais dos gols.

Essa visualização é crucial para verificar visualmente o desempenho do modelo.

---

### Seção 4: Ajustes Finais e Previsão dos Placares
Na última parte, aplicamos o modelo para prever os placares dos jogos de teste. Também garantimos que não haja valores negativos ou com muitos decimais nos gols previstos, arredondando-os para inteiros.

Após isso, os resultados dos **placares finais** foram impressos, mostrando os gols previstos para o time da casa e visitante em cada jogo.

**Resultado**:
Impressão dos placares previstos para cada jogo, o que representa a funcionalidade principal de previsão de resultados do modelo.

---


In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd  # Certifique-se de ter importado o pandas

# Função auxiliar para garantir que temos um array numpy
def to_numpy_array(data):
    if isinstance(data, pd.Series):
        return data.to_numpy()
    elif isinstance(data, np.ndarray):
        return data
    else:
        return np.array(data)

# Converter as variáveis para arrays numpy
y_test_home_array = to_numpy_array(y_test_home)
y_pred_home_array = to_numpy_array(y_pred_home_final)

y_test_away_array = to_numpy_array(y_test_away)
y_pred_away_array = to_numpy_array(y_pred_away_final)

# Encontrar índices onde a previsão é igual ao valor real para o time da casa
indices_acertos_home = [i for i in range(len(y_test_home_array)) if y_test_home_array[i] == y_pred_home_array[i]]

# Encontrar índices onde a previsão é igual ao valor real para o time visitante
indices_acertos_away = [i for i in range(len(y_test_away_array)) if y_test_away_array[i] == y_pred_away_array[i]]

# Criar uma figura com dois subplots lado a lado
fig, axs = plt.subplots(1, 2, figsize=(15, 6))

# Primeiro subplot: Time da Casa
axs[0].scatter(range(len(y_test_home_array)), y_test_home_array, color='blue', marker='o', label='Valor Real', alpha=0.6)
axs[0].scatter(range(len(y_pred_home_array)), y_pred_home_array, color='red', marker='x', label='Previsão', alpha=0.6)
# Destacar previsões assertivas
axs[0].scatter(indices_acertos_home, [y_test_home_array[i] for i in indices_acertos_home], color='gold', marker='*', s=100, label='Previsão Assertiva')

axs[0].set_title('Previsões vs Valores Reais (Time da Casa)')
axs[0].set_xlabel('Índice dos Jogos')
axs[0].set_ylabel('Número de Gols')
# Legenda explicando a sobreposição
axs[0].legend(loc='upper right', title="Legenda:\nO = Valor Real\nX = Previsão\n* = Previsão Assertiva")
axs[0].grid(True)

# Segundo subplot: Time Visitante
axs[1].scatter(range(len(y_test_away_array)), y_test_away_array, color='green', marker='o', label='Valor Real', alpha=0.6)
axs[1].scatter(range(len(y_pred_away_array)), y_pred_away_array, color='purple', marker='x', label='Previsão', alpha=0.6)
# Destacar previsões assertivas
axs[1].scatter(indices_acertos_away, [y_test_away_array[i] for i in indices_acertos_away], color='gold', marker='*', s=100, label='Previsão Assertiva')

axs[1].set_title('Previsões vs Valores Reais (Time Visitante)')
axs[1].set_xlabel('Índice dos Jogos')
axs[1].set_ylabel('Número de Gols')
# Legenda explicando a sobreposição
axs[1].legend(loc='upper right', title="Legenda:\nO = Valor Real\nX = Previsão\n* = Previsão Assertiva")
axs[1].grid(True)

# Ajustar o layout para melhor visualização
plt.tight_layout()

# Mostrar o gráfico
plt.show()


Nesta célula, estamos destacando as previsões **assertivas** do modelo em comparação aos **valores reais** para o **time da casa** e o **time visitante**, utilizando gráficos de dispersão.

### Explicação dos passos:

1. **Conversão dos dados para arrays**:
   - Aqui convertemos os valores de teste e previsão em arrays NumPy para garantir a compatibilidade ao manusear os dados e plotar os gráficos.

2. **Identificação de previsões corretas (assertivas)**:
   - São criados dois conjuntos de índices: um para o **time da casa** e outro para o **time visitante**. Esses índices correspondem aos jogos em que a previsão foi exatamente igual ao valor real de gols.

3. **Criação dos subplots**:
   - Utilizamos `matplotlib` para criar dois gráficos de dispersão, um para o **time da casa** e outro para o **time visitante**. Os gráficos mostram:
     - **Círculos coloridos (valor real)**: valores reais de gols.
     - **Cruzes coloridas (previsão)**: valores previstos de gols.
     - **Estrelas douradas (previsão assertiva)**: previsões em que o valor previsto foi exatamente igual ao valor real.
   
4. **Personalização dos gráficos**:
   - Cada gráfico inclui uma **legenda** explicando os símbolos e cores usadas, e há um ajuste no layout para garantir que a visualização fique clara e organizada.

5. **Exibição final**:
   - O gráfico é mostrado com as previsões e valores reais lado a lado, permitindo a fácil comparação visual dos resultados do modelo para os jogos.

### Conclusão:
Essa célula é particularmente útil para destacar visualmente as previsões exatas do modelo, permitindo avaliar diretamente o desempenho do modelo em termos de previsões corretas. As **estrelas douradas** indicam onde o modelo foi 100% preciso, o que facilita a identificação dos jogos em que o modelo acertou na mosca.

### Conclusão Geral e Análise Final

#### 1. **Introdução**
O projeto teve como objetivo desenvolver um modelo robusto de aprendizado de máquina para prever o placar de partidas de futebol, utilizando dados históricos e estatísticas detalhadas dos times e dos jogos. A principal premissa foi que métricas avançadas, como **xG (Expected Goals)** e variáveis relacionadas ao desempenho dos times, teriam um impacto significativo na previsão de gols. A estratégia envolveu tanto a exploração inicial dos dados quanto a construção de múltiplos modelos preditivos para comparar suas performances e validar hipóteses iniciais.

#### 2. **Exploração Inicial dos Dados**
A primeira fase do projeto envolveu uma análise profunda dos dados, focando em limpar, entender e selecionar as variáveis mais promissoras para a modelagem. Algumas das principais etapas nesta fase foram:

- **Análise de Correlação**: Avaliamos a correlação entre as variáveis e os gols marcados para identificar quais features tinham maior potencial preditivo. Variáveis como **posse de bola**, **chutes no alvo**, **taxa de conversão de chutes** e **PPG (Pontos por Jogo)** mostraram uma correlação considerável com o número de gols.
  
- **Remoção de Outliers**: Utilizamos gráficos de **box plot** para identificar e remover outliers nos dados, garantindo que exceções extremas não influenciassem negativamente os resultados do modelo.

- **Normalização e Transformação Logarítmica**: Devido à assimetria nos dados de gols, aplicamos uma transformação logarítmica para normalizar as distribuições e melhorar o desempenho do modelo. Isso foi particularmente eficaz para suavizar a alta variabilidade nos jogos em que um número elevado de gols foi marcado.

#### 3. **Modelos Testados**
Diversos algoritmos foram testados para prever o número de gols marcados por cada time, incluindo **Random Forest Regressor**, **Lasso Regressor**, e posteriormente experimentamos abordagens de empilhamento (**Stacking**) com **XGBoost** e **LightGBM**. Cada abordagem foi cuidadosamente ajustada e comparada com base nas métricas de erro e poder explicativo.

##### a) **Random Forest Regressor**
- **Pontos Fortes**: O **Random Forest** tem a capacidade de capturar interações complexas e não lineares entre as variáveis, o que o torna uma escolha adequada para problemas com múltiplos fatores e interações, como é o caso das partidas de futebol.
- **Pontos Fracos**: Embora o modelo tenha apresentado bons resultados no conjunto de treinamento, houve sinais de **overfitting**, pois o desempenho caiu significativamente quando aplicado ao conjunto de testes. A variabilidade nas previsões foi alta, especialmente em partidas com poucos gols. Além disso, o **\( R^2 \)** (coeficiente de determinação) não atingiu o nível esperado, o que sugeriu que o modelo não conseguia explicar bem a variabilidade nos gols.

##### b) **Lasso Regressor**
- **Pontos Fortes**: O **Lasso** foi escolhido por sua capacidade de regularização, que é extremamente eficaz em conjuntos de dados com muitas variáveis correlacionadas. Ao aplicar uma penalização nos coeficientes das features menos relevantes, o **Lasso** forçou muitos coeficientes a zero, simplificando o modelo e focando nas variáveis mais impactantes. Essa abordagem foi particularmente eficiente na **seleção de variáveis**, garantindo que apenas as features mais relevantes fossem usadas.
- **Pontos Fracos**: O **Lasso**, sendo um modelo linear regularizado, tem limitações na captura de relações não lineares complexas. Embora a transformação logarítmica tenha ajudado a ajustar a distribuição dos dados de gols, o modelo ainda teve dificuldades para prever jogos com placares inesperados, como goleadas ou empates sem gols.

##### c) **Stacking com XGBoost e LightGBM**
- **Pontos Fortes**: A técnica de **Stacking** permite combinar a força de diferentes modelos, potencialmente melhorando a precisão ao explorar os pontos fortes de cada algoritmo. Em teoria, o **XGBoost** e o **LightGBM** podem lidar com interações mais complexas entre variáveis, fornecendo previsões mais acuradas.
- **Pontos Fracos**: O **LightGBM** apresentou dificuldades durante o ajuste, o que impactou negativamente os resultados de empilhamento. O processo de otimização dos hiperparâmetros foi complexo e os resultados obtidos com essa abordagem não superaram significativamente o **Lasso**, considerando o tempo e os recursos exigidos.

#### 4. **Validação e Métricas**
A validação foi realizada usando **validação cruzada (Cross-Validation)** com 10 folds para garantir que o desempenho do modelo fosse consistente e não estivesse enviesado por uma única divisão dos dados. Abaixo estão as principais métricas usadas para avaliar o desempenho dos modelos:

- **Mean Squared Error (MSE)**: Foi a principal métrica usada para avaliar o erro das previsões, dado que estamos lidando com um problema de regressão. O MSE mede o erro médio ao quadrado entre os valores previstos e os valores reais, penalizando grandes desvios.
  
- **\( R^2 \)** (Coeficiente de Determinação): Essa métrica foi usada para avaliar o quanto o modelo consegue explicar a variação nos dados de gols. Um valor mais próximo de 1 indica um modelo mais preciso.

Os resultados finais, após o ajuste de hiperparâmetros e validação cruzada, foram:

- **Time da Casa**:
  - **MSE**: 0.2246
  - **\( R^2 \)**: 0.7059
  
- **Time Visitante**:
  - **MSE**: 0.1349
  - **\( R^2 \)**: 0.8589

Esses resultados indicam que o modelo preditivo foi eficaz em prever os gols marcados, especialmente para o time visitante, onde o **\( R^2 \)** alcançou um valor mais elevado.

#### 5. **Comparação dos Modelos**
Ao comparar os três principais modelos testados, **Random Forest**, **Lasso** e o **Stacking**, notamos que o **Lasso Regressor** foi o mais eficiente para o conjunto de dados e a abordagem adotada:

- **Random Forest** apresentou dificuldades em generalizar os resultados, com sinais de overfitting no conjunto de teste. O tempo de ajuste foi maior devido à necessidade de lidar com a complexidade do modelo.
  
- **Lasso Regressor** destacou-se pela simplicidade e eficiência. A regularização foi crucial para reduzir o overfitting e melhorar o desempenho geral, resultando em um modelo parcimonioso que mantém apenas as variáveis mais relevantes.

- **Stacking** prometeu melhores resultados ao combinar diferentes modelos, mas o processo de ajuste de hiperparâmetros foi complexo, e o impacto no desempenho foi pequeno comparado ao **Lasso**.

#### 6. **Pontos Fortes do Modelo**
- **Seleção automática de variáveis**: O **Lasso** foi eficaz em identificar automaticamente as variáveis mais relevantes, tornando o modelo mais simples e interpretável.
- **Regularização**: Ao penalizar as features menos relevantes, o **Lasso** conseguiu reduzir o overfitting e produzir previsões mais estáveis, mesmo com um conjunto de dados relativamente pequeno.
- **Validação rigorosa**: A validação cruzada garantiu que o modelo fosse avaliado de maneira justa e robusta, sem depender de uma única divisão de treino e teste.

#### 7. **Pontos Fracos do Modelo**
- **Simplicidade do Lasso**: O **Lasso** é um modelo linear e, portanto, pode não capturar interações não lineares complexas que podem estar presentes em jogos de futebol.
- **Previsão de jogos sem gols**: Mesmo com a transformação logarítmica, o modelo teve dificuldades em prever jogos com placares baixos, resultando em algumas previsões de **0x0** que não condiziam com a realidade.
  
#### 8. **Próximos Passos**
- **Explorar outros modelos não lineares**: Modelos como **Gradient Boosting** e **XGBoost** podem capturar interações mais complexas entre as variáveis e melhorar a precisão das previsões.
- **Expandir o conjunto de dados**: Coletar mais dados históricos e incluir novas variáveis (como eventos durante a partida) pode aumentar a capacidade do modelo de generalizar e melhorar suas previsões.
- **Modelagem baseada em eventos**: Incorporar variáveis relacionadas a eventos específicos durante o jogo (como substituições, cartões vermelhos e amarelos, lesões, etc.) pode trazer insights mais detalhados e precisos para o modelo preditivo.

#### 9. **Fontes**
- **Regularização Lasso**: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html
- **Cross-Validation**: https://scikit-learn.org/stable/modules/cross_validation.html
- **Feature Engineering em Futebol**: Liu, H., Hopkins, W. G., & Gomez, M. A. (2016). Modelling relationships between match events and match outcomes in elite football. International Journal of Performance Analysis in Sport, 16(3), 755-770.