## Esse notebook apresenta a exploração dos dados

Através da exploração de dados obtemos a base para criar novas hipóteses, auxiliando na construção do projeto

**Tutorial de como rodar esse notebook:**

1 - Ter as tabelas colunas-matches.csv e colunas-teams.csv dentro da pasta pre-processamento

2 - As bibliotecas necessárias já estão sendo importadas no código, mas se, por algum motivo, não funcionar, instale as bibliotecas no seu computador através do comando **pip install (nome da biblioteca)**

3 - Ter o Python instalado

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
def download_file_from_google_drive(file_id, destination):
    URL = "https://drive.google.com/uc?export=download&id=1qiTJwkhoUP9WgUtqyd0IMDpA3B-VRGuT"

In [3]:
def download_file_from_google_drive(file_id, destination):
    URL = "https://drive.google.com/uc?export=download&id=18VnpJxr3j7-ba5blNmo1HnAyepkItbkr"

In [4]:
matches = pd.read_csv('https://drive.google.com/uc?export=download&id=1qiTJwkhoUP9WgUtqyd0IMDpA3B-VRGuT', delimiter=';')
teams_1 = pd.read_csv('https://drive.google.com/uc?export=download&id=18VnpJxr3j7-ba5blNmo1HnAyepkItbkr')

In [5]:
colunas_teams = teams_1[['team_name', 'wins_home', 'wins_away', 'draws_home', 'draws_away', 'losses_home', 'losses_away', 'goals_scored_home', 'goals_scored_away', 'goals_conceded_home', 'goals_conceded_away', 'clean_sheets_home', 'clean_sheets_away', 'first_team_to_score_count_home', 'first_team_to_score_count_away']]
colunas_matches = matches[['date_GMT', 'status', 'home_team_name', 'away_team_name', 'home_team_goal_count', 'away_team_goal_count', 'total_goals_at_half_time', 'home_team_goal_count_half_time', 'home_team_goal_timings', 'away_team_goal_timings', 'home_team_shots', 'away_team_shots', 'home_team_shots_on_target', 'away_team_shots_on_target', 'home_team_possession', 'away_team_possession']]

A seguir, está a identificação da natureza dos dados (numérica ou categórica) de cada coluna do dataframe:

In [None]:
colunas_teams.dtypes
colunas_matches.dtypes


Identificação de colunas numéricas

In [None]:
numericas_teams = colunas_teams.select_dtypes(include=[np.number])
print(numericas_teams.columns)

Concluímos, portanto, que as colunas numéricas da tabela dos times são:
    
    wins_home,
    wins_away,
    draws_home,
    draws_away,
    losses_home,
    losses_away,
    goals_scored_home,
    goals_scored_away,
    goals_conceded_home,
    goals_conceded_away,
    clean_sheets_home,
    clean_sheets_away,
    first_team_to_score_count_home,
    first_team_to_score_count_away


In [None]:
numericas_matches = colunas_matches.select_dtypes(include=[np.number])
print(numericas_matches.columns)

Concluímos, portanto, que as colunas numéricas da tabela das partidas são:
    home_team_goal_count,
    away_team_goal_count,
    total_goals_at_half_time,
    home_team_goal_count_half_time,
    home_team_shots,
    away_team_shots,
    home_team_shots_on_target,
    away_team_shots_on_target,
    home_team_posession,
    away_team_posession

Identificação de colunas categóricas

In [None]:
categoricas_matches = colunas_matches.select_dtypes(include=[object])
print(categoricas_matches.columns)

Agora que sabemos quais colunas dentre as selecionadas são numéricas e quais são categóricas, podemos analisar seus dados

In [None]:
numericas_matches.describe()

In [None]:
numericas_teams.describe()

In [None]:
categoricas_matches.info()
categoricas_matches.value_counts()

Agora podemos gerar os gráficos que facilitarão o entendimento das relações entre as colunas escolhidas e como uma estatística pode fortemente impactar em outra (calebe se vc quiser pode ficar com essa parte pq eu não sei se oq eu fiz aq ta bom)

In [13]:
colunas_interesse = colunas_teams[['team_name', 'goals_scored_home', 'goals_scored_away']]
colunas_interesse.set_index('team_name', inplace=True)

In [None]:
colunas_interesse.plot(kind='bar', figsize=(14, 8))

plt.title('Relação gols marcados dentro e fora de casa')
plt.xlabel('Clube')
plt.ylabel('Número de gols')
plt.show()

In [None]:
# Selecionar as colunas relevantes
gols_feitos = colunas_teams['goals_scored_home'] + colunas_teams['goals_scored_away']
gols_tomados = colunas_teams['goals_conceded_home'] + colunas_teams['goals_conceded_away']

# Criar o DataFrame para o gráfico de dispersão
df_gols = pd.DataFrame({
    'Gols Feitos': gols_feitos,
    'Gols Tomados': gols_tomados
})

# Gerar o gráfico de dispersão
df_gols.plot.scatter(x='Gols Feitos', y='Gols Tomados', title='Relação entre Gols Feitos e Gols Tomados')

Essas variáveis ajudam a entender a efetividade ofensiva de um time jogando em casa versus fora. Times com mais chutes a gol ou maior posse de bola tendem a ter maior probabilidade de marcar o primeiro gol.

In [None]:
# Criar gráfico de dispersão para chutes a gol
plt.figure(figsize=(14, 8))
plt.scatter(colunas_matches['home_team_shots_on_target'], colunas_matches['away_team_shots_on_target'], alpha=0.5, c='blue')

# Adicionar título e rótulos
plt.title('Chutes a Gol: Time da Casa vs. Time Visitante')
plt.xlabel('Chutes a Gol - Time da Casa')
plt.ylabel('Chutes a Gol - Time Visitante')

# Exibir gráfico
plt.grid(True)
plt.show()

Cada ponto no gráfico representa uma partida, com a posição x representando os chutes a gol do time da casa e a posição y representando os chutes a gol do time visitante. Aqui podemos ver como os chutes a gol e a posse de bola se distribuem entre os times da casa e visitantes, com pontos dispersos representando cada partida.

In [None]:
# Agrupar os dados por time e calcular a média das métricas de interesse
df_comparativo_posse = matches.groupby('home_team_name').agg({
    'home_team_possession': 'mean',
    'away_team_possession': 'mean',
}).reset_index()

# Criar gráfico de barras lado a lado para posse de bola
df_comparativo_posse.set_index('home_team_name', inplace=True)
df_comparativo_posse.plot(kind='bar', figsize=(14, 8))

plt.title('Comparação de Posse de Bola: Time da Casa vs. Time Visitante')
plt.xlabel('Time')
plt.ylabel('Posse de Bola (%)')
plt.xticks(rotation=45, ha='right')
plt.legend(['Time da Casa', 'Time Visitante'])
plt.tight_layout()

plt.show()

O gráfico mostrará barras lado a lado para cada time, comparando a posse de bola entre times da casa e visitantes, facilitando a análise visual das diferenças.

In [None]:
# Selecionar as colunas relevantes
gols_feitos = colunas_teams['goals_scored_home'] + colunas_teams['goals_scored_away']
gols_tomados = colunas_teams['goals_conceded_home'] + colunas_teams['goals_conceded_away']

# Criar o DataFrame para o gráfico de dispersão
df_gols = pd.DataFrame({
    'Gols Feitos': gols_feitos,
    'Gols Tomados': gols_tomados
})

# Gerar o gráfico de dispersão
df_gols.plot.scatter(x='Gols Feitos', y='Gols Tomados', title='Relação entre Gols Feitos e Gols Tomados')

In [None]:
import matplotlib.pyplot as plt
file_path = 'pre-processamento/colunas-teams.csv'
data = pd.read_csv(file_path)

# Obtém os nomes dos times e a respectiva contagem de 'first_team_to_score_count'
teams_with_scores = data[['team_name', 'first_team_to_score_count']].dropna()

# Converte para um dicionário
teams_with_scores_dict = teams_with_scores.set_index('team_name').to_dict()['first_team_to_score_count']
teams_with_scores_dict

# Ordena os times pela contagem de 'first_team_to_score_count' para melhor visualização
teams_sorted = teams_with_scores.sort_values('first_team_to_score_count', ascending=False)

# Cria o gráfico de barras
plt.figure(figsize=(12, 8))
plt.barh(teams_sorted['team_name'], teams_sorted['first_team_to_score_count'], color='skyblue')
plt.xlabel('Frequência') 
plt.ylabel('Times')
plt.title('Primeiro Time a Marcar Gol por Time')
plt.gca().invert_yaxis()  # Inverte o eixo y para colocar o time com a maior contagem no topo
plt.show()


O gráfico acima mostra quais foram os times que mais fizeram gols primeiro no campeonato.