# **Análise Exploratória de Dados do Dataset de Jogadores da Série A do Brasil (2024)**
## **Introdução**
Este notebook realiza uma análise exploratória de dados (EDA) focada nas estatísticas dos jogadores da Série A do Campeonato Brasileiro de Futebol de 2024. O objetivo é identificar padrões de desempenho que possam ser utilizados para scouting de jogadores e análises táticas.

## **1. Importação de Bibliotecas**
Nesta seção, importamos as bibliotecas necessárias para manipulação de dados e visualização:
- `pandas` para manipulação de dados.
- `matplotlib.pyplot` e `seaborn` para visualização de dados.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

 - **`import pandas as pd`:** Importa a biblioteca Pandas e a renomeia como "pd". O Pandas é usado para manipulação e análise de dados em formato tabular (dataframes).
  - **`import matplotlib.pyplot as plt`:** Importa a subbiblioteca `pyplot` do Matplotlib, que é utilizada para criar visualizações gráficas.
  - **`import seaborn as sns`:** Importa a biblioteca Seaborn e a renomeia como "sns". Seaborn é uma biblioteca de visualização de dados em Python baseada em Matplotlib.

## **2. Carregamento e Visão Geral do Dataset**
Carregamos o dataset em um DataFrame do pandas e mostramos uma amostra inicial e informações básicas do dataset.

In [None]:
df = pd.read_csv('brazil-serie-a-players-2024-to-2024-stats.csv', )
df.head(), df.info(), df.describe(include='all')

- **``pd.read_csv(...)``**: Lê um arquivo CSV e o converte em um DataFrame do pandas. Neste caso, o arquivo contém estatísticas dos jogadores da Série A do Brasil de 2024.
- **``df.head()``**: Mostra as primeiras 5 linhas do DataFrame, ajudando a visualizar rapidamente os dados.
- **``df.info()``**: Fornece um resumo conciso do DataFrame, incluindo o número de entradas, nome das colunas, contagem de valores não nulos, e tipos de dados.
- **``df.describe(include='all')``**: Fornece estatísticas descritivas que resumem a tendência central, dispersão e forma da distribuição de um conjunto de dados. O parâmetro include='all' inclui todas as colunas, numéricas e não numéricas.


Após a execução desse trecho, o conjunto de dados sobre as partidas é carregado no DataFrame chamado "df", permitindo a análise e manipulação das informações contidas no arquivo CSV.

## **3. Estatísticas Descritivas e Tipos de Colunas**
Nesta seção, mostramos estatísticas descritivas para colunas numéricas e identificamos o tipo de cada coluna.

In [None]:
# Estatísticas descritivas para colunas numéricas
numeric_desc = df.describe()

# Identificação do tipo de cada coluna (numérica ou categórica)
column_types = df.dtypes.apply(lambda x: 'numérica' if pd.api.types.is_numeric_dtype(x) else 'categórica')

# Exibindo os resultados
print('Estatísticas Descritivas:')
print(numeric_desc)
print('\nTipos de Colunas:')
print(column_types)

- **``df.describe()``**: Retorna um resumo estatístico básico para colunas numéricas no DataFrame.
- **``df.dtypes.apply(...)``**: Aplica uma função a cada tipo de dado das colunas do DataFrame, identificando se são numéricas ou categóricas.
- **``pd.api.types.is_numeric_dtype(x)``**: Verifica se o tipo de dado é numérico.
- **``print(...)``**: Exibe as estatísticas descritivas e os tipos de coluna no console.


## **4. Visualização dos Nomes das Colunas**
Visualizamos os nomes das colunas para entender melhor os dados disponíveis.

In [None]:
df.columns

## **5. Visualizações e Análise de Dados**
### **5.1. Gráfico de Dispersão entre Chutes no Alvo e Gols**
Exploramos a relação entre chutes no alvo por 90 minutos e gols por 90 minutos usando um gráfico de dispersão.
Essa é uma visualização que explora a relação entre a precisão de finalização dos jogadores e sua eficiência em termos de gols marcados. Ele mapeia os valores de "Chutes no Alvo por 90 minutos" no eixo X contra "Gols por 90 minutos" no eixo Y. Cada ponto no gráfico representa um jogador, permitindo uma análise visual de como a habilidade de acertar o gol está correlacionada com a capacidade de converter essas chances em gols.

Insight Principal: Jogadores com uma maior frequência de chutes no alvo por 90 minutos tendem a ter uma taxa mais elevada de gols marcados. Isso sugere que a precisão nas finalizações é um fator crítico para o sucesso ofensivo. Desenvolvedores podem utilizar esse insight para ajustar modelos preditivos, destacando a importância de variáveis relacionadas à precisão de chutes ao prever o desempenho ofensivo de um jogador ou time.

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='shots_on_target_per_90_overall', y='goals_per_90_overall', color='blue')
plt.title('Gols por 90 vs. Chutes no Alvo por 90')
plt.xlabel('Chutes no Alvo por 90')
plt.ylabel('Gols por 90')
plt.show()

- **``plt.figure(figsize=(10, 6))``**: Configura o tamanho da figura para o gráfico.
- **``sns.scatterplot(...)``**: Cria um gráfico de dispersão (scatter plot) usando Seaborn, mostrando a relação entre chutes no alvo por 90 minutos e gols por 90 minutos.
- **``plt.title(...)``**: Define o título do gráfico.
- **``plt.xlabel(...)``** e **``plt.ylabel(...)``**: Define os rótulos dos eixos X e Y, respectivamente.
- **``plt.legend()``**: Adiciona uma legenda ao gráfico.
- **``plt.show()``**: Exibe o gráfico.


### **5.2. Gráfico de Dispersão entre Expected Goals e Gols**
Exploramos a relação entre Expected Goals (xG) por 90 minutos e gols por 90 minutos.
O conceito de xG é amplamente utilizado em análises de desempenho ofensivo para avaliar a qualidade das chances de gol criadas por um jogador. No eixo X, temos os valores de xG por 90 minutos, enquanto no eixo Y, estão os valores de gols reais por 90 minutos.

Insight Principal: A capacidade de avaliar a eficácia de um jogador em converter oportunidades em gols. Se um jogador marca mais gols do que seu xG sugere, ele pode ser visto como um finalizador excepcional. Inversamente, se um jogador está abaixo do seu xG, isso pode indicar uma necessidade de melhoria nas finalizações. Desenvolvedores podem usar essa análise para refinar modelos preditivos de desempenho, incluindo variáveis de xG como indicadores de qualidade de finalização.

In [None]:
sns.scatterplot(data=df, x='xg_per_90_overall', y='goals_per_90_overall')
plt.title('Expected Goals (xG) por 90 vs. Gols por 90')
plt.xlabel('xG por 90')
plt.ylabel('Gols por 90')
plt.show()

- **``sns.scatterplot``**: Cria um gráfico de dispersão utilizando os dados do DataFrame df. O eixo x representa a métrica "xG por 90" (expected goals por 90 minutos), enquanto o eixo y representa "Gols por 90". Esse gráfico permite analisar a relação entre as chances de gol esperadas e a quantidade real de gols marcados por 90 minutos.
- **``plt.title``**: Define o título do gráfico como "Expected Goals (xG) por 90 vs. Gols por 90", indicando o conteúdo do gráfico.
- **``plt.xlabel e plt.ylabel``**: Rotulam os eixos x e y, respectivamente, com "xG por 90" e "Gols por 90", para facilitar a compreensão dos dados.
- **``plt.show``**: Exibe o gráfico gerado.

### **5.3. Gráfico de Barras para Estatísticas Defensivas**
Visualizamos as médias de várias estatísticas defensivas usando um gráfico de barras.
No gráfico abaixo é apresentada a média de diferentes métricas defensivas, como 'clean sheets' (jogos sem sofrer gol), tackles (desarmes) por 90 minutos, interceptações por 90 minutos, e bloqueios por 90 minutos. Esses dados são agregados para fornecer uma visão geral do desempenho defensivo médio de um grupo de jogadores.

Este gráfico permite identificar quais aspectos defensivos têm maior ou menor contribuição em termos médios para o desempenho defensivo de um jogador ou equipe. Por exemplo, uma alta média em 'clean sheets' pode indicar uma defesa sólida, enquanto uma alta média em tackles ou interceptações sugere uma equipe proativa em recuperar a posse de bola. Esse insight é útil para desenvolvedores ao ponderar a importância relativa de diferentes métricas defensivas na construção de modelos que preveem o desempenho de equipes ou jogadores.

In [None]:
# Dados fictícios para exemplificação
data = {
    'Stat': ['clean_sheets_overall', 'tackles_per_90_overall', 'interceptions_per_90_overall', 'blocks_per_90_overall'],
    'Value': df[['clean_sheets_overall', 'tackles_per_90_overall', 'interceptions_per_90_overall', 'blocks_per_90_overall']].mean()
}
df_defensive_stats = pd.DataFrame(data)

# Definindo o estilo do seaborn
sns.set(style='whitegrid')

# Criando o gráfico de barras
plt.figure(figsize=(10, 6))
sns.barplot(data=df_defensive_stats, x='Stat', y='Value', palette='viridis')

# Adicionando título e rótulos
plt.title('Média das Estatísticas Defensivas')
plt.xlabel('Estatísticas')
plt.ylabel('Média')

# Exibindo o gráfico
plt.show()

- **``data e df_defensive_stats``**: Constrói um DataFrame df_defensive_stats com estatísticas defensivas e seus valores médios, calculados a partir do DataFrame df.
- **``sns.set(style='whitegrid')``**: Define o estilo do gráfico como 'whitegrid', que é um estilo visualmente limpo, facilitando a leitura do gráfico.
- **``plt.figure(figsize=(10, 6))``**: Define o tamanho da figura do gráfico, com 10 unidades de largura e 6 de altura.
- **``sns.barplot``**: Cria um gráfico de barras com os dados do DataFrame df_defensive_stats. O eixo x exibe as diferentes estatísticas defensivas, e o eixo y mostra a média de cada uma delas. O parâmetro palette='viridis' define a paleta de cores utilizada.
- **``plt.title``**: Define o título do gráfico como "Média das Estatísticas Defensivas".
- **``plt.xlabel e plt.ylabel``**: Rotulam os eixos x e y, respectivamente, com "Estatísticas" e "Média".
- **``plt.show``**: Exibe o gráfico gerado.

### **5.4. Gráfico de Dispersão entre Minutos Jogados e Gols**
Exploramos a relação entre os minutos jogados e o total de gols.
O seguinte gráfico investiga a relação entre o tempo total de jogo e o número total de gols marcados por um jogador. No eixo X, estão os minutos jogados, enquanto no eixo Y, estão os gols totais marcados ao longo da temporada.

Insight Principal: Este gráfico permite observar a eficiência de um jogador em marcar gols em relação ao tempo que passa em campo. Jogadores que têm mais gols com menos minutos jogados são mais eficientes, enquanto jogadores que jogam muito, mas marcam poucos gols, podem indicar um desempenho ofensivo abaixo do esperado. Este insight ajuda desenvolvedores a entender como o tempo de jogo influencia a produtividade ofensiva, algo crucial ao prever o impacto de um jogador durante uma partida.

In [None]:
sns.scatterplot(data=df, x='minutes_played_overall', y='goals_overall')
plt.title('Minutos Jogados vs. Gols Totais')
plt.xlabel('Minutos Jogados')
plt.ylabel('Gols Totais')
plt.show()

- **``sns.scatterplot``**: Cria um gráfico de dispersão utilizando os dados do DataFrame df. O eixo x representa os "Minutos Jogados", enquanto o eixo y representa os "Gols Totais". Esse gráfico permite analisar como o tempo de jogo de um jogador está relacionado ao número total de gols marcados.
- **``plt.title``**: Define o título do gráfico como "Minutos Jogados vs. Gols Totais".
- **``plt.xlabel e plt.ylabel``**: Rotulam os eixos x e y, respectivamente, com "Minutos Jogados" e "Gols Totais".
- **``plt.show``**: Exibe o gráfico gerado.

## **6. Conclusões**
A análise exploratória dos dados forneceu insights importantes para o desenvolvimento de nossos modelos preditivos no projeto com a IBM. Observamos que a métrica de "Expected Goals (xG)" por 90 minutos correlaciona-se positivamente com o número de gols marcados, sugerindo que o xG pode ser uma variável significativa para modelar a probabilidade de gols futuros.

Essas conclusões não só aprimoram a compreensão do desempenho atual das equipes, mas também fortalecem a capacidade de construir modelos que ofereçam previsões mais precisas. 