# Hipótese dos Arquivos Teams

Este notebook será utilizado para apresentar e testar uma hipótese baseada nos dados das tabelas **Teams1** e **Teams2** fornecidas pela IBM, que contém informações detalhadas sobre partidas de futebol, incluindo times, resultados e estatísticas associadas. O foco principal é analisar os dados e validar uma hipótese específica relacionada ao desempenho dos times.

## Objetivo

O objetivo deste notebook é estruturar a hipótese de maneira clara e realizar análises que possam confirmá-la ou refutá-la, utilizando métodos estatísticos e exploratórios.

## Como Usar Este Notebook

1. **Configuração do Ambiente**:
   - **Google Colab**: No Google Colab, faça o upload das tabelas para o Google Drive e monte o drive no notebook.
   - **Localmente**: Se for rodar localmente, ajuste os caminhos dos arquivos ou coloque-os no mesmo diretório do notebook.

2. **Instalação de Dependências**:
   - Instale todas as bibliotecas necessárias com o comando:
     ```python
     !pip install -r requirements.txt
     ```

3. **Execução do Notebook**:
   - Execute as células de código na sequência para garantir a correta análise dos dados.

## Nesse Notebook Será Abordado

1. **Formulação e Teste de Hipóteses**:
   - Definição de uma hipótese com base nos dados.
   - Teste da hipótese utilizando métodos estatísticos.
   - Análise dos resultados para validar ou refutar a hipótese.

obs: Antes de rodar esse notebook, certifique-se de que você rodou esses outros dois:

   * [Notebook Tratamento Teams1](../../notebooks/pre_processamento/teams1_processado.ipynb)

   * [Notebook Tratamento Teams2](../../notebooks/pre_processamento/teams1_processado.ipynb)

# Dependências
Para rodar o notebook de forma local, é recomendado que inicie uma venv (ambiente virtual) e instale as dependências.

Se estiver utilizando o Google Colab, pule esta etapa.

# Importando bibliotecas

Aqui é importado as dependências necessárias para a executação do projeto.

In [1]:
import pandas as pd #para ler, visualizar e printar infos do df
import matplotlib.pyplot as plt #para construir e customizar gráficos
import seaborn as sns #para visualizar uns gráficos
import numpy as np #para melhor manuseio de matrizes

# Carregando os datasets

Feita a importação do arquivo para leitura dos dados.

In [4]:
# Carregar os dados das partidas
teams1 = pd.read_csv('../../notebooks/data/tratado/teams1_tratado.csv')
teams2 = pd.read_csv('../../notebooks/data/tratado/teams2_tratado.csv')

# 1. Hipóteses Teams 1

## Hipótese 1

### Times que jogam em casa tem média de pontos maior do que em jogos fora de casa

In [None]:
# Calculando a média dos pontos por jogo em casa e fora
media_casa = teams1['points_per_game_home'].mean()
media_fora = teams1['points_per_game_away'].mean()

# Labels e valores para o gráfico
labels = ['Casa', 'Fora']
values = [media_casa, media_fora]

# Criando o gráfico de barras
plt.figure(figsize=(8, 6))
plt.bar(labels, values, color=['yellowgreen', 'tomato'])
plt.title('Média de Pontos por Jogo: Casa vs. Fora')
plt.ylabel('Média de Pontos', fontsize=14)

# Adicionando valores em cima das barras
for i, value in enumerate(values):
    plt.text(i, value + 0.008, f'{value:.2f}', ha='center', fontsize=14)

plt.show()

### Análise:

**Média de Pontos por Jogo em Casa (home_points_per_game):**
Os times que jogam em casa tendem a obter uma **média de pontos superior**. Isso pode ser explicado pelo efeito positivo de fatores como o apoio da torcida, familiaridade com o campo e a ausência de desgastes físicos e mental devido a viagens. Esses fatores podem permitir que o time da casa jogue com mais confiança, resultando em vitórias.

**Média de Pontos por Jogo Fora de Casa (away_points_per_game):**
Quando jogam fora de casa, os times apresentam uma **média de pontos menor**. Isso pode estar relacionado à pressão do ambiente adverso, o qual pode influenciar negativamente o desempenho dos jogadores. Além disso, a adaptação ao campo são fatores que podem prejudicar a performance das equipes, impactando na capacidade de pontuar.

### ***Conclusões:***

O gráfico confirma a hipótese de que os times têm uma média de pontos maior quando jogam em casa, reforçando a ideia de que o fator casa oferece vantagens significativas em termos de desempenho. A familiaridade com o ambiente, parece desempenhar um papel importante na conquista de pontos pelos times mandantes. Já os times visitantes enfrentam maiores dificuldades, o que justifica a menor média de pontos fora de casa.

## Hipótese 2

### Efeito do Número de Finalizações no Número de Gols

In [None]:
times_com_mais_finalizacoes = teams1[teams1['shots_on_target'] > 90]
times_com_menos_finalizacoes = teams1[teams1['shots_on_target'] <= 90]

# Calcular a taxa de gols
taxa_gol_mais = times_com_mais_finalizacoes['goals_scored'].mean()
taxa_gol_menos = times_com_menos_finalizacoes['goals_scored'].mean()

# Labels e valores para o gráfico
labels = ['Mais Finalizações', 'Menos Finalizações']
valores = [taxa_gol_mais, taxa_gol_menos]

# Criar o gráfico de barras
plt.figure(figsize=(8, 6))
plt.bar(labels, valores, color=['darkorchid', 'gold'])
plt.title('Taxa de Gols: Times com Mais Finalizações vs. Menos Finalizações')
plt.ylabel('Taxa de Gols', fontsize=14)

# Adicionar valores em cima das barras
for i, valor in enumerate(valores):
    plt.text(i, valor + 0.05, f'{valor:.2f}', ha='center', fontsize=14)

plt.show()

### Análise:

**Times com Mais Finalizações (shots_on_target > 90):**  
Os times que conseguem **finalizar mais no gol** tendem a marcar mais gols, conforme a hipótese sugere. Um número maior de finalizações indica uma maior capacidade ofensiva, além de maior pressão sobre a defesa adversária. No entanto, não é apenas a quantidade que importa, mas também a qualidade dessas finalizações. É possível que os times com mais finalizações também consigam criar chances mais efetivas.

**Times com Menos Finalizações (shots_on_target ≤ 90):**  
Os times que têm um **número menor de finalizações** tendem a marcar menos gols, o que confirma a correlação positiva entre a quantidade de finalizações e o número de gols. Contudo, mesmo times com menos finalizações podem marcar gols se forem capazes de aproveitar bem as poucas chances criadas, enfatizando a importância da precisão nas finalizações.

### ***Conclusões:***

O análise confirma a hipótese de que há uma relação positiva entre o número de finalizações no gol e a quantidade de gols marcados. Times que finalizam mais tendem a ter uma taxa de conversão de gols superior, embora a qualidade das finalizações também seja um fator importante. Mesmo assim, o volume de finalizações reflete a pressão ofensiva de uma equipe, o que, aumenta as chances de marcar mais gols.

## Hipótese 3

### Times com maior Número de Finalizações ganham mais jogos

In [None]:
times_com_mais_finalizacoes = teams1[teams1['shots_on_target'] > 90]
times_com_menos_finalizacoes = teams1[teams1['shots_on_target'] <= 90]

# Calcular a taxa de gols
taxa_vitoria_mais = times_com_mais_finalizacoes['wins'].mean()
taxa_vitoria_menos = times_com_menos_finalizacoes['wins'].mean()

# Labels e valores para o gráfico
labels = ['Mais Finalizações', 'Menos Finalizações']
valores = [taxa_vitoria_mais, taxa_vitoria_menos]

# Criar o gráfico de barras
plt.figure(figsize=(8, 6))
plt.bar(labels, valores, color=['steelblue', 'green'])
plt.title('Taxa de Vitória: Times com Mais Finalizações vs. Menos Finalizações')
plt.ylabel('Taxa de Vitórias', fontsize=14)

# Adicionar valores em cima das barras
for i, valor in enumerate(valores):
    plt.text(i, valor + 0.05, f'{valor:.2f}', ha='center', fontsize=14)

plt.show()

### Análise:

**Times com Mais Finalizações (shots_on_target):**  
Os times que conseguem **finalizar mais vezes** tendem a ganhar mais partidas, o que reforça a relação entre ofensividade e vitória. Isso faz sentido, pois a capacidade de criar mais oportunidades de gol aumenta as chances de marcar e, consequentemente, vencer o jogo. A eficiência dessas finalizações também é um fator importante para a conversão das chances criadas em resultados.

**Times com Menos Finalizações (shots_on_target):**  
Por outro lado, os times que **finalizam menos** tendem a ganhar menos jogos. Menos finalizações indicam que a equipe cria menos chances de gol e, portanto, está menos propensa a marcar, o que impacta negativamente suas chances de vitória. Esses times precisam ser mais eficientes nas poucas oportunidades que têm para tentar fazer gols.

### ***Conclusões:***

O gráfico apoia a hipótese de que times que finalizam mais no gol têm uma taxa de vitória superior. A ofensividade parece estar correlacionada diretamente com o sucesso no jogo, pois mais finalizações significam mais chances de marcar e de controlar a partida. Entretanto, a eficácia dessas finalizações pode ser um fator decisivo, mostrando que, além da quantidade, a qualidade das tentativas é importante para garantir vitórias.

## Hipótese 4

### Relação entre Posse de Bola e Vitória

In [None]:
limiar_posse = 50

# Filtrar os dados
times_com_mais_de_limiar = teams1[teams1['average_possession'] > limiar_posse]
times_com_menos_ou_igual_a_limiar = teams1[teams1['average_possession'] <= limiar_posse]

# Calcular a taxa de vitórias
taxa_vitoria_mais_de_limiar = times_com_mais_de_limiar['wins'].mean()
taxa_vitoria_menos_ou_igual_a_limiar = times_com_menos_ou_igual_a_limiar['wins'].mean()

# Labels e valores para o gráfico
labels = [f'Mais de {limiar_posse}% Posse', f'{limiar_posse}% ou Menos Posse']
valores = [taxa_vitoria_mais_de_limiar, taxa_vitoria_menos_ou_igual_a_limiar]

# Criar o gráfico de barras
plt.figure(figsize=(8, 6))
plt.bar(labels, valores, color=['midnightblue', 'darkgoldenrod'])
plt.title('Taxa de Vitórias: Times com Mais e Menos Posse de Bola')
plt.ylabel('Taxa de Vitórias', fontsize=14)

# Adicionar valores em cima das barras
for i, valor in enumerate(valores):
    plt.text(i, valor + 0.05, f'{valor:.2f}', ha='center', fontsize=14)

plt.show()

### Análise:

**Times com Mais de 50% de Posse de Bola:**  
A hipótese sugere que um **maior controle de posse de bola** está associado a uma maior taxa de vitórias. Os times que controlam mais de 50% da posse de bola geralmente dominam o jogo, o que pode resultar em mais chances de gol e, por consequência, em mais vitórias. No entanto, a posse de bola por si só não garante a vitória, já que a eficácia das finalizações e a capacidade de converter esse domínio em gols são igualmente importantes.

**Times com 50% ou Menos de Posse de Bola:**  
Times que têm **menos de 50% de posse de bola** geralmente têm uma taxa de vitórias inferior, o que reforça a ideia de que controlar a bola é um fator importante para o sucesso. Esses times tendem a depender de contra-ataques ou de um estilo de jogo mais defensivo, o que pode limitar suas chances de criar oportunidades claras e resultar em um menor número de vitórias.

### ***Conclusões:***

Essa análise defende que existe uma relação positiva entre a posse de bola e a taxa de vitórias, confirmando parcialmente a hipótese. Times que controlam mais de 50% da posse tendem a vencer mais jogos, o que indica que manter a bola é importante para ditar o ritmo da partida. Pórem, como a posse de bola não garante totalmente a vitória, a ofensividade e a capacidade de converter esse controle em gols continuam sendo decisivos.

# 2. Hipóteses Teams 2

## Hipótese 1 

### Equipes que jogam em casa tem maior vantagem para marcar gols

In [None]:
plt.figure(figsize=(10, 6))
data_to_plot = [teams2['minutes_per_goal_scored_home'], teams2['minutes_per_goal_scored_away']]
plt.boxplot(data_to_plot, labels=['Casa', 'Fora'], patch_artist=True)
plt.title('Comparação dos Minutos por Gol Marcado: Casa vs Fora')
plt.ylabel('Minutos por Gol Marcado')
plt.grid(True)
plt.show()

### Análise:

**Vitória do Time da Casa (home_win):**  
Quando o time da casa vence, é perceptível que ele tende a marcar gols mais rapidamente. A distribuição dos minutos por gol dentro de casa mostra que os times conseguem ser mais eficientes ofensivamente, marcando em um intervalo de tempo menor. Isso sugere que o fator casa realmente influencia a capacidade de ataque dos times.

**Empate (tie):**  
Nos jogos que terminam empatados, tanto o time da casa quanto o time adversário tendem a marcar em tempos mais parecidos, sem grande diferença no tempo médio para marcar gols. Isso pode indicar que em partidas mais equilibradas, as equipes têm dificuldades semelhantes em criar e converter chances de gol, seja jogando em casa ou fora.

**Vitória do Time Visitante (away_win):**  
Quando o time visitante vence, ele geralmente leva mais tempo para marcar gols, comparado ao time da casa. No entanto, mesmo com um tempo maior entre os gols, o time visitante consegue ser eficiente o suficiente para garantir a vitória. Isso sugere que o time visitante pode não ter muitas chances, mas quando tem, as converte com eficácia.

### ***Conclusões:***

O gráfico mostra que os times tendem a marcar gols mais rapidamente em casa do que fora, validando a hipótese de que jogar em casa oferece uma vantagem ofensiva. Mesmo assim, times visitantes podem vencer, embora com uma menor frequência de gols.

Essa análise sugere que o fator casa tem um impacto significativo sobre a eficiência ofensiva, com os times aproveitando melhor suas oportunidades quando jogam em seus estádios.


## Hipótese 2

### Relação entre atuações limpas (clean sheets) e gols concedidos

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Configurações de cores, margens e tamanho
plt.figure(figsize=(12, 7))

# Criação do scatter plot com melhoria nos marcadores e cor
plt.scatter(teams2['minutes_per_goal_conceded_overall'], 
            teams2['clean_sheets_2h_overall'], 
            alpha=0.8, 
            color='darkblue', 
            edgecolor='white', 
            s=100)  # Aumentar o tamanho dos marcadores

# Ajuste dos títulos e legendas
plt.title('Relação entre defesas e minutos por gol concedido', fontsize=16, fontweight='bold')
plt.xlabel('Minutos por gol concedido²', fontsize=12)
plt.ylabel('Atuações sem sofrer gols¹', fontsize=12)

# Adicionar grade personalizada
plt.grid(True, which='both', linestyle='--', linewidth=0.6, alpha=0.7)

# Adicionando uma linha de tendência
z = np.polyfit(teams2['minutes_per_goal_conceded_overall'], teams2['clean_sheets_2h_overall'], 1)
p = np.poly1d(z)
plt.plot(teams2['minutes_per_goal_conceded_overall'], p(teams2['minutes_per_goal_conceded_overall']), 
         linestyle='-', color='lightgray', label='Linha de tendência')

# Mostrar legenda da linha de tendência
plt.legend()

# Mostrar o gráfico
plt.show()


### Análise:

**Vitória do Time da Casa (home_win):**  
Quando o time da casa consegue manter mais **clean sheets**, percebe-se uma relação direta com a sua capacidade de impedir gols. O gráfico mostra que times que conseguem manter um bom número de clean sheets têm uma menor média de minutos por gol concedido, o que reflete a importância dos goleiros na defesa da equipe.

**Empate (tie):**  
Nos jogos que terminam empatados, observa-se uma relação mais equilibrada entre **gols concedidos** e **clean sheets**. As equipes que conseguem manter clean sheets tendem a conceder gols em um intervalo de tempo maior, sugerindo que, mesmo nos empates, a defesa e a atuação do goleiro desempenham um papel crucial na resistência da equipe contra ataques.

**Vitória do Time Visitante (away_win):**  
Quando o time visitante vence, é notável que os times que conseguem manter mais clean sheets concedem gols em intervalos de tempo maiores. Isso indica que, para o time visitante, o goleiro desempenha um papel ainda mais essencial, conseguindo segurar o ataque adversário por um período mais longo e, assim, influenciando diretamente no resultado.

### ***Conclusões:***

A análise mostra que há uma relação clara entre a capacidade dos times de manter **clean sheets** e o tempo médio por gol concedido. Times com goleiros mais eficazes e que conseguem evitar sofrer gols frequentemente se destacam em manter a resistência defensiva por mais tempo. Isso sugere que, embora a equipe inteira desempenhe um papel, a performance do goleiro é crítica para impedir o avanço do placar contra sua equipe.


# 3. Hipótese Final

## A Influência de Marcar o Primeiro Gol no Desempenho das Equipes no Brasileirão

In [None]:
# Mapeamento das codificações do DataFrame
team_mapping = {
    0: 'Atlético Goianiense', 1: 'Atlético Mineiro', 2: 'Athlético Paranaense', 3: 'Bahia',
    4: 'Botafogo', 5: 'Bragantino', 6: 'Corinthians', 7: 'Criciúma', 8: 'Cruzeiro', 9: 'Cuiabá',
    10: 'Flamengo', 11: 'Fluminense', 12: 'Fortaleza', 13: 'Grêmio', 14: 'Internacional',
    15: 'Juventude', 16: 'Palmeiras', 17: 'São Paulo', 18: 'Vasco', 19: 'Vitória'
}

# Associando a um dataframe substituto
df_sub = teams1

# Substituindo os códigos pelos nomes dos times
df_sub['team_name'] = df_sub['common_name_encoded'].map(team_mapping)

# Configurando o estilo do gráfico
sns.set(style="whitegrid")

# Criando o gráfico de dispersão
plt.figure(figsize=(10, 6))
sns.scatterplot(x='performance_rank', y='first_team_to_score_count', hue='team_name', data=df_sub, palette="tab20", s=100)

# Adicionando título e rótulos
plt.title('Relação entre Performance Rank e First Team to Score Count', fontsize=14)
plt.xlabel('Performance no Ranque', fontsize=12)
plt.ylabel('Número de vezes que o time marcou o primeiro gol', fontsize=12)

# Ajustando a legenda
plt.legend(title='Time', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrando o gráfico
plt.tight_layout()
plt.show()


### Análise:
Observa-se, em geral, uma correlação positiva entre o número de vezes que uma equipe foi a primeira a marcar e sua posição no ranking de performance. Um bom exemplo são os times Fortaleza e Vitória: o Fortaleza apresenta o maior número de vezes como o primeiro a marcar, enquanto o Vitória está entre as equipes com menor frequência em tomar a dianteira no placar.


### ***Conclusões:***
A análise sugere que equipes que conseguem abrir o placar tendem a vencer mais partidas, o que se reflete em um melhor desempenho no ranking. Marcar o primeiro gol parece ser um fator determinante para obter uma performance superior ao longo da competição.


# 4. Referências

Está é uma seção de referências com relação as bibliotecas que utilizamos ao longo deste arquivo

NUMPY. NumPy Documentation. Disponível em: <https://numpy.org/doc/>.

‌PANDAS. pandas documentation. Disponível em: <https://pandas.pydata.org/docs/>.

MATPLOTLIB. Matplotlib: Python plotting — Matplotlib 3.3.4 documentation. Disponível em: <https://matplotlib.org/stable/index.html>.

‌SEABORN. seaborn: statistical data visualization — seaborn 0.9.0 documentation. Disponível em: <https://seaborn.pydata.org/>.

‌SciPy documentation — SciPy v1.8.1 Manual. Disponível em: <https://docs.scipy.org/doc/scipy/>.

‌PYTHON SOFTWARE FOUNDATION. Math — Mathematical Functions — Python 3.8.3rc1 Documentation. Disponível em: <https://docs.python.org/3/library/math.html>.

‌SCIKIT-LEARN. scikit-learn: machine learning in Python. Disponível em: <https://scikit-learn.org/stable/>.
