
# 📊 Análise de Dados do Campeonato Brasileiro

Neste notebook, exploramos e analisamos os dados do Campeonato Brasileiro. A análise abrange várias métricas, como desempenho dos times, vitórias por mandante e visitante, entre outras estatísticas interessantes. Utilizamos a biblioteca **Pandas** para manipular os dados.

## Passo 1: Carregar e Estruturar os Dados

Primeiramente, carregaremos os dados e faremos algumas preparações, como a criação de colunas que indicam o saldo de gols e o resultado dos mandantes.


In [1]:

import pandas as pd

# Carregar o arquivo CSV no Pandas
df = pd.read_csv('campeonato-brasileiro-full.csv')

# Converter a coluna 'data' para o formato datetime
df['data'] = pd.to_datetime(df['data'], format='%d/%m/%Y', errors='coerce')

# Criar a coluna 'saldo_de_gols' (diferença entre mandante_Placar e visitante_Placar)
df['saldo_de_gols'] = df['mandante_Placar'] - df['visitante_Placar']

# Criar a coluna 'resultado_mandante' (Vitória, Empate ou Derrota)
df['resultado_mandante'] = df.apply(
    lambda row: 'Vitória' if row['saldo_de_gols'] > 0 else 'Derrota' if row['saldo_de_gols'] < 0 else 'Empate',
    axis=1
)

# Exibir as primeiras linhas do DataFrame
df.head()


Unnamed: 0,ID,rodata,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado,saldo_de_gols,resultado_mandante
0,1,1,2003-03-29,16:00,Guarani,Vasco,,,,,Guarani,Brinco de Ouro,4,2,SP,RJ,2,Vitória
1,2,1,2003-03-29,16:00,Athletico-PR,Gremio,,,,,Athletico-PR,Arena da Baixada,2,0,PR,RS,2,Vitória
2,3,1,2003-03-30,16:00,Flamengo,Coritiba,,,,,-,Maracanã,1,1,RJ,PR,0,Empate
3,4,1,2003-03-30,16:00,Goias,Paysandu,,,,,-,Serra Dourada,2,2,GO,PA,0,Empate
4,5,1,2003-03-30,16:00,Internacional,Ponte Preta,,,,,-,Beira Rio,1,1,RS,SP,0,Empate



## Passo 2: Desempenho Geral dos Times

Agora vamos analisar o desempenho geral dos times, começando pela contagem de jogos como mandante e visitante, e a contagem de vitórias para mandante e visitante.


In [3]:

# Contagem de jogos como mandante e visitante
jogos_mandante = df['mandante'].value_counts().sort_values(ascending=False)
jogos_visitante = df['visitante'].value_counts().sort_values(ascending=False)

print("Jogos como mandante: ", jogos_mandante.head())
print(" Jogos como visitante: ", jogos_visitante.head())


Jogos como mandante:  mandante
Sao Paulo        409
Fluminense       409
Santos           409
Flamengo         408
Internacional    390
Name: count, dtype: int64
 Jogos como visitante:  visitante
Flamengo        410
Santos          409
Fluminense      409
Sao Paulo       409
Athletico-PR    390
Name: count, dtype: int64


In [4]:

# Contagem de vitórias dos mandantes e visitantes
vitorias_mandante = df[df['resultado_mandante'] == 'Vitória']['mandante'].value_counts()
vitorias_visitante = df[df['vencedor'] == df['visitante']]['visitante'].value_counts()

print("Vitórias como mandante:", vitorias_mandante.head())
print("Vitórias como visitante:", vitorias_visitante.head())


Vitórias como mandante: mandante
Sao Paulo        234
Santos           230
Internacional    229
Flamengo         224
Athletico-PR     221
Name: count, dtype: int64
Vitórias como visitante: visitante
Sao Paulo     131
Flamengo      130
Palmeiras     117
Fluminense    117
Cruzeiro      116
Name: count, dtype: int64



## Passo 3: Análise dos Resultados

Agora vamos analisar a distribuição dos resultados dos jogos (vitória, empate e derrota), assim como os placares mais comuns registrados nas partidas.


In [None]:

# Distribuição de resultados (mandantes)
resultados = df['resultado_mandante'].value_counts()
print("Distribuição de resultados (Mandantes): ", resultados)

# Placar mais comum
placares_comuns = df.groupby(['mandante_Placar', 'visitante_Placar']).size().sort_values(ascending=False)
print(" Placar mais comum: ", placares_comuns.head())



## Passo 4: Desempenho Temporal

Vamos agora observar o desempenho dos times ao longo do tempo, por rodada e ano. Isso pode nos ajudar a identificar tendências ao longo da temporada ou entre diferentes temporadas.


In [8]:

# Desempenho por rodada (vitórias dos mandantes)
rodadas_vitorias = df[df['resultado_mandante'] == 'Vitória'].groupby('rodata').size()
print("Vitórias por rodada (mandante): ", rodadas_vitorias.head())

# Desempenho por ano (vitórias dos mandantes)
df['ano'] = df['data'].dt.year
vitorias_ano = df.groupby('ano')['resultado_mandante'].apply(lambda x: (x == 'Vitória').sum())
print("Vitórias por ano: ", vitorias_ano)


Vitórias por rodada (mandante):  rodata
1    105
2    105
3    103
4    108
5    108
dtype: int64
Vitórias por ano:  ano
2003    297
2004    288
2005    235
2006    191
2007    192
2008    208
2009    195
2010    179
2011    184
2012    183
2013    184
2014    197
2015    200
2016    202
2017    167
2018    202
2019    184
2020    117
2021    228
2022    168
2023    178
Name: resultado_mandante, dtype: int64



## Passo 5: Análise Geográfica

Nesta análise, vamos ver como os times de diferentes estados se comportam, analisando vitórias de mandantes e visitantes por estado.


In [None]:

# Vitórias por estado (mandantes)
vitorias_estado = df[df['resultado_mandante'] == 'Vitória'].groupby('mandante_Estado').size().sort_values(ascending=False)
print("Vitórias por estado (mandantes): ", vitorias_estado)

# Vitórias fora do estado (visitantes)
vitorias_fora_estado = df[df['vencedor'] == df['visitante']].groupby('visitante_Estado').size().sort_values(ascending=False)
print(" Vitórias fora do estado (visitantes): ", vitorias_fora_estado)



## Passo 6: Arena e Local dos Jogos

Agora vamos analisar a influência das arenas nos resultados, observando as vitórias e os gols registrados em cada arena.


In [13]:

# Arenas com mais vitórias dos mandantes
vitorias_arena = df[df['resultado_mandante'] == 'Vitória'].groupby('arena').size().sort_values(ascending=False)
print("Arenas com mais vitórias dos mandantes: ", vitorias_arena.head())

# Arenas com mais gols
gols_arena = df.groupby('arena')['mandante_Placar', 'visitante_Placar'].sum()
print(" Arenas com mais gols: ", gols_arena.head())


Arenas com mais vitórias dos mandantes:  arena
 Maracanã         324
 Mineirão         246
 Morumbi          229
 Couto Pereira    140
 Beira Rio        117
dtype: int64


ValueError: Cannot subset columns with a tuple with more than one element. Use a list instead.


## Passo 7: Análise de Gols

Nesta seção, vamos explorar as médias de gols dos mandantes e visitantes, além de identificar jogos com goleadas (diferença de gols maior ou igual a 3).


In [17]:

# Média de gols dos mandantes e visitantes
media_gols_mandante = df['mandante_Placar'].mean()
media_gols_visitante = df['visitante_Placar'].mean()
print(f"Média de gols dos mandantes: {media_gols_mandante}")
print(f"Média de gols dos visitantes: {media_gols_visitante}")


goleadas = df[(df['mandante_Placar'] - df['visitante_Placar']).abs() >= 3]

print(f"Número de goleadas (diferença >= 3 gols): {goleadas.shape[0]}")


Média de gols dos mandantes: 1.5412254610350982
Média de gols dos visitantes: 1.0270077334919692
Número de goleadas (diferença >= 3 gols): 1047



## Passo 8: Outras Estatísticas Interessantes

Finalmente, vamos explorar algumas estatísticas adicionais, como o jogo com o maior número de gols e a quantidade de empates sem gols (0x0).


In [18]:

# Jogo com o maior número de gols
jogo_com_mais_gols = df[df['mandante_Placar'] + df['visitante_Placar'] == (df['mandante_Placar'] + df['visitante_Placar']).max()]
print("Jogo com maior número de gols: ", jogo_com_mais_gols[['mandante', 'visitante', 'mandante_Placar', 'visitante_Placar']])

# Número de empates por 0x0
empates_sem_gols = df[(df['mandante_Placar'] == 0) & (df['visitante_Placar'] == 0)].shape[0]
print(f"Número de empates por 0x0: {empates_sem_gols}")

# Número de jogos com viradas
viradas = df[(df['saldo_de_gols'] < 0) & (df['vencedor'] == df['visitante'])].shape[0]
print(f"Jogos com viradas (vitória do visitante): {viradas}")


Jogo com maior número de gols:      mandante visitante  mandante_Placar  visitante_Placar
450    Bahia    Santos                4                 7
Número de empates por 0x0: 671
Jogos com viradas (vitória do visitante): 2005
