# Raw Analytics - Campeonato Brasileiro

Análise exploratória dos dados brutos do Campeonato Brasileiro (2003-2023).

**Objetivo**: Camada raw, analisar os dados brutos e entender como estão estruturados.

**Datasets:**
- `campeonato-brasileiro-full.csv` - Dados das partidas
- `campeonato-brasileiro-gols.csv` - Gols marcados
- `campeonato-brasileiro-cartoes.csv` - Cartões aplicados
- `campeonato-brasileiro-estatisticas-full.csv` - Estatísticas das partidas

## 1. Configuração e Importações

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime


## 2. Carregamento dos DataSets

In [4]:
PATH_PARTIDAS = 'campeonato-brasileiro-full.csv'
PATH_GOLS = 'campeonato-brasileiro-gols.csv'
PATH_CARTOES = 'campeonato-brasileiro-cartoes.csv'
PATH_ESTATISTICAS = 'campeonato-brasileiro-estatisticas-full.csv'

df_partidas = pd.read_csv(PATH_PARTIDAS)
df_gols = pd.read_csv(PATH_GOLS)
df_cartoes = pd.read_csv(PATH_CARTOES)
df_estatisticas = pd.read_csv(PATH_ESTATISTICAS)

## 3. Dados das Tabelas

### 3.1 Informações (PARTIDAS)

### 3.2 Analise de valores nulos (PARTIDAS)

### 3.3 Linhas totalmente Vazias (PARTIDAS)

In [14]:
df_partidas[df_partidas.isnull().all(axis=1)]

Unnamed: 0,ID,rodata,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado


### 3.4 Linhas duplicadas (PARTIDAS)

In [16]:
df_partidas.duplicated().sum()


np.int64(0)

### 3.5 Informações (GOLS)

In [5]:
df_gols.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9861 entries, 0 to 9860
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   partida_id   9861 non-null   int64 
 1   rodata       9861 non-null   int64 
 2   clube        9861 non-null   object
 3   atleta       9861 non-null   object
 4   minuto       9861 non-null   object
 5   tipo_de_gol  1183 non-null   object
dtypes: int64(2), object(4)
memory usage: 462.4+ KB


### 3.6 Analise de valores nulos (GOLS)

In [6]:
null_counts = df_gols.isnull().sum()
null_percent = (df_gols.isnull().mean() * 100).round(2)

pd.DataFrame({
    'nulos': null_counts,
    'percentual_%': null_percent
}).sort_values('percentual_%', ascending=False)

Unnamed: 0,nulos,percentual_%
tipo_de_gol,8678,88.0
partida_id,0,0.0
rodata,0,0.0
clube,0,0.0
atleta,0,0.0
minuto,0,0.0


### 3.7 Linhas totalmente Vazias (GOLS)

In [9]:
df_gols[df_gols.isnull().all(axis=1)]

Unnamed: 0,partida_id,rodata,clube,atleta,minuto,tipo_de_gol


### 3.8 Informações (CARTÕES)

In [11]:
df_cartoes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20953 entries, 0 to 20952
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   partida_id  20953 non-null  int64  
 1   rodata      20953 non-null  int64  
 2   clube       20953 non-null  object 
 3   cartao      20953 non-null  object 
 4   atleta      20947 non-null  object 
 5   num_camisa  20567 non-null  float64
 6   posicao     19755 non-null  object 
 7   minuto      20953 non-null  object 
dtypes: float64(1), int64(2), object(5)
memory usage: 1.3+ MB


### 3.9 Analise de valores nulos (CARTÕES)

In [13]:
null_counts = df_cartoes.isnull().sum()
null_percent = (df_cartoes.isnull().mean() * 100).round(2)

pd.DataFrame({
    'nulos': null_counts,
    'percentual_%': null_percent
}).sort_values('percentual_%', ascending=False)

Unnamed: 0,nulos,percentual_%
posicao,1198,5.72
num_camisa,386,1.84
atleta,6,0.03
partida_id,0,0.0
cartao,0,0.0
clube,0,0.0
rodata,0,0.0
minuto,0,0.0


### 3.10 Linhas totalmente Vazias (CARTÕES)

In [14]:
df_gols[df_gols.isnull().all(axis=1)]

Unnamed: 0,partida_id,rodata,clube,atleta,minuto,tipo_de_gol


### 3.11 Informações (ESTASTITICA)

In [16]:
df_estatisticas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17570 entries, 0 to 17569
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   partida_id       17570 non-null  int64 
 1   rodata           17570 non-null  int64 
 2   clube            17570 non-null  object
 3   chutes           17570 non-null  int64 
 4   chutes_no_alvo   17570 non-null  int64 
 5   posse_de_bola    6820 non-null   object
 6   passes           17570 non-null  int64 
 7   precisao_passes  4512 non-null   object
 8   faltas           17570 non-null  int64 
 9   cartao_amarelo   17570 non-null  int64 
 10  cartao_vermelho  17570 non-null  int64 
 11  impedimentos     17570 non-null  int64 
 12  escanteios       17570 non-null  int64 
dtypes: int64(10), object(3)
memory usage: 1.7+ MB


### 3.12 Analise de valores nulos (ESTATISTICA)

In [17]:
null_counts = df_estatisticas.isnull().sum()
null_percent = (df_estatisticas.isnull().mean() * 100).round(2)

pd.DataFrame({
    'nulos': null_counts,
    'percentual_%': null_percent
}).sort_values('percentual_%', ascending=False)

Unnamed: 0,nulos,percentual_%
precisao_passes,13058,74.32
posse_de_bola,10750,61.18
clube,0,0.0
rodata,0,0.0
partida_id,0,0.0
chutes_no_alvo,0,0.0
chutes,0,0.0
passes,0,0.0
faltas,0,0.0
cartao_amarelo,0,0.0


### 3.13 Linhas totalmente Vazias (ESTATISTICA)

In [18]:
df_estatisticas[df_estatisticas.isnull().all(axis=1)]

Unnamed: 0,partida_id,rodata,clube,chutes,chutes_no_alvo,posse_de_bola,passes,precisao_passes,faltas,cartao_amarelo,cartao_vermelho,impedimentos,escanteios


### 3.13 Linhas totalmente Vazias (ESTATISTICA)


In [None]:
df_partidas['ano'] = pd.to_datetime(df_partidas['data'], format='%d/%m/%Y', errors='coerce').dt.year

partidas_por_ano = df_partidas['ano'].value_counts().sort_index()

fig, ax = plt.subplots(figsize=(16, 6))

ax.plot(partidas_por_ano.index, partidas_por_ano.values, marker='o', linewidth=2, markersize=8, color='#2E86AB')
ax.fill_between(partidas_por_ano.index, partidas_por_ano.values, alpha=0.3, color='#2E86AB')

ax.set_xlabel('Ano', fontsize=12)
ax.set_ylabel('Número de Partidas', fontsize=12)
ax.set_title('Evolução do Número de Partidas por Ano (2003-2023)', fontsize=14, fontweight='bold')
ax.grid(True, alpha=0.3)

for x, y in zip(partidas_por_ano.index, partidas_por_ano.values):
    ax.text(x, y + 5, str(int(y)), ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.show()

print(f"\nPeríodo: {int(partidas_por_ano.index.min())} - {int(partidas_por_ano.index.max())}")
print(f"Total de anos: {len(partidas_por_ano)}")
print(f"Média de partidas/ano: {partidas_por_ano.mean():.0f}")

## 4. Análise Temporal das Partidas


df_partidas['ano'] = pd.to_datetime(df_partidas['data'], format='%d/%m/%Y', errors='coerce').dt.year

partidas_por_ano = df_partidas['ano'].value_counts().sort_index()

fig, ax = plt.subplots(figsize=(16, 6))

ax.plot(partidas_por_ano.index, partidas_por_ano.values, marker='o', linewidth=2, markersize=8, color='#2E86AB')
ax.fill_between(partidas_por_ano.index, partidas_por_ano.values, alpha=0.3, color='#2E86AB')

ax.set_xlabel('Ano', fontsize=12)
ax.set_ylabel('Número de Partidas', fontsize=12)
ax.set_title('Evolução do Número de Partidas por Ano (2003-2023)', fontsize=14, fontweight='bold')
ax.grid(True, alpha=0.3)

for x, y in zip(partidas_por_ano.index, partidas_por_ano.values):
    ax.text(x, y + 5, str(int(y)), ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.show()

print(f"\nPeríodo: {int(partidas_por_ano.index.min())} - {int(partidas_por_ano.index.max())}")
print(f"Total de anos: {len(partidas_por_ano)}")
print(f"Média de partidas/ano: {partidas_por_ano.mean():.0f}")

## 5. Análise de Times


In [None]:
times_mandante = set(df_partidas['mandante'].unique())
times_visitante = set(df_partidas['visitante'].unique())
todos_times = times_mandante.union(times_visitante)

print(f"Total de times únicos: {len(todos_times)}")
print(f"Times como mandante: {len(times_mandante)}")
print(f"Times como visitante: {len(times_visitante)}")

participacoes_mandante = df_partidas['mandante'].value_counts()
participacoes_visitante = df_partidas['visitante'].value_counts()

total_participacoes = (participacoes_mandante + participacoes_visitante).fillna(0).astype(int).sort_values(ascending=False)

top_15_times = total_participacoes.head(15)

fig, ax = plt.subplots(figsize=(12, 8))

colors = sns.color_palette('viridis', n_colors=len(top_15_times))

bars = ax.barh(top_15_times.index, top_15_times.values, color=colors)

ax.set_xlabel('Total de Partidas', fontsize=12)
ax.set_title('Top 15 Times com Mais Participações (2003-2023)', fontsize=14, fontweight='bold')

ax.invert_yaxis()

for i, (time, valor) in enumerate(top_15_times.items()):
    ax.text(valor, i, f' {valor:,}', ha='left', va='center', fontsize=10, fontweight='bold')

plt.tight_layout()
plt.show()

## 6. Análise de Gols


print(f"Total de gols registrados: {len(df_gols):,}")

tipos_gols = df_gols['tipo_de_gol'].fillna('Gol Normal').value_counts()

print("\nDistribuição por tipo de gol:")
for tipo, qtd in tipos_gols.items():
    pct = (qtd / len(df_gols)) * 100
    print(f"  {tipo if tipo else 'Gol Normal'}: {qtd:,} ({pct:.1f}%)")

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

colors_bar = sns.color_palette('Set2', n_colors=len(tipos_gols))

ax1.bar(range(len(tipos_gols)), tipos_gols.values, color=colors_bar)

ax1.set_xticks(range(len(tipos_gols)))

ax1.set_xticklabels([t if t else 'Normal' for t in tipos_gols.index], rotation=45, ha='right')

ax1.set_ylabel('Quantidade')
ax1.set_title('Distribuição de Gols por Tipo', fontsize=14, fontweight='bold')

for i, v in enumerate(tipos_gols.values):
    ax1.text(i, v + 50, f'{v:,}', ha='center', va='bottom', fontweight='bold')

colors_pie = sns.color_palette('pastel', n_colors=len(tipos_gols))

wedges, texts, autotexts = ax2.pie(tipos_gols.values, labels=[t if t else 'Normal' for t in tipos_gols.index], 
                                     autopct='%1.1f%%', startangle=90, colors=colors_pie)

ax2.set_title('Proporção de Tipos de Gol', fontsize=14, fontweight='bold')

for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_fontweight('bold')

plt.tight_layout()
plt.show()

### 6.1 Top Artilheiros
