# Projeto Final - Análise de Dados do Campeonato Brasileiro 2023

### Participantes:
- Renan Alves Zago
- Ronan Antonio Pereira Junior

## Determinação do Conjunto de Dados
### Link da base de dados: 
https://www.kaggle.com/datasets/adaoduque/campeonato-brasileiro-de-futebol 

### Descrição geral da base
A base de dados utilizada consiste nos dados do Campeonato Brasileiro de 2003 a 2023, possui 8405 linhas e 15 atributos, sendo eles:

- Rodada: etapa que o campeonato se encontra (de 1-38)
- Data: data da realização do jogo, no formato DD/MM/AAAA
- Hora: hora da realização do jogo, no formato 24h
- Mandante: time que está jogando na sua própria arena
- Visitante: time que está jogando na arena do adversário
- Formação Mandante: esquema tático do mandante
- Formação Visitante: esquema tático do visitante
- Técnico Mandante: nome do técnico mandante
- Técnico Visitante: nome do técnico visitante
- Vencedor: time que mais fez gols na partida, se o número de gols for igual, então não existe vencedor, o jogo é considerado empatado.
- Arena: nome do estádio que aconteceu a partida
- Mandante Placar: número de gols do mandante
- Visitante Placar: número de gols do visitante
- Mandante Estado: sigla do estado do mandante
- Visitante Estado: sigla do estado do visitante


# Análise Introdutória
Conhecendo o dataset...

In [1]:
# Importando biblioteca
import pandas as pd

# Importando conjunto de dados
dfBrasileirao = pd.read_csv("campeonato-brasileiro-full.csv", usecols=lambda column: column != 'ID') # Tirando a coluna ID pra evitar repetição na visualizaçaõ

In [2]:
# Visualizando as primeiras linhas do dataset
dfBrasileirao.head()

Unnamed: 0,rodata,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado
0,1,29/03/2003,16:00,Guarani,Vasco,,,,,Guarani,Brinco de Ouro,4,2,SP,RJ
1,1,29/03/2003,16:00,Athletico-PR,Gremio,,,,,Athletico-PR,Arena da Baixada,2,0,PR,RS
2,1,30/03/2003,16:00,Flamengo,Coritiba,,,,,-,Maracanã,1,1,RJ,PR
3,1,30/03/2003,16:00,Goias,Paysandu,,,,,-,Serra Dourada,2,2,GO,PA
4,1,30/03/2003,16:00,Internacional,Ponte Preta,,,,,-,Beira Rio,1,1,RS,SP


In [3]:
# Visualizando as últimas linhas do dataset
dfBrasileirao.tail()

Unnamed: 0,rodata,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado
8400,38,06/12/2023,21:32,Bahia,Atletico-MG,3-4-2-1,4-4-2,R. Ceni,L. Scolari,Bahia,Itaipava Arena Fonte Nova,4,1,BA,MG
8401,38,06/12/2023,21:32,Cuiaba,Athletico-PR,5-3-2,3-4-3,A. Cardoso de Oliveira,W. Carvalho,Cuiaba,Arena Pantanal,3,0,MT,PR
8402,38,06/12/2023,21:32,Santos,Fortaleza,3-4-1-2,4-2-3-1,M. Fernandes,J. Vojvoda,Fortaleza,Estádio Urbano Caldeira,1,2,SP,CE
8403,38,06/12/2023,21:32,Sao Paulo,Flamengo,4-2-3-1,4-2-3-1,D. Silvestre Júnior,A. Bacchi,Sao Paulo,Morumbi,1,0,SP,RJ
8404,38,06/12/2023,21:32,Vasco,Bragantino,4-4-2,4-3-3,R. Díaz,P. Faria Caixinha,Vasco,Estádio São Januário,2,1,RJ,SP


In [4]:
# Descobrindo número de linhas e colunas 
numLinhas, numColunas = dfBrasileirao.shape
print(f"Número de linhas: {numLinhas}")
print(f"Número de colunas: {numColunas}")

Número de linhas: 8405
Número de colunas: 15


In [5]:
# Visualizando informações do dataset
dfBrasileirao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8405 entries, 0 to 8404
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   rodata              8405 non-null   int64 
 1   data                8405 non-null   object
 2   hora                8405 non-null   object
 3   mandante            8405 non-null   object
 4   visitante           8405 non-null   object
 5   formacao_mandante   3431 non-null   object
 6   formacao_visitante  3431 non-null   object
 7   tecnico_mandante    3795 non-null   object
 8   tecnico_visitante   3795 non-null   object
 9   vencedor            8405 non-null   object
 10  arena               8405 non-null   object
 11  mandante_Placar     8405 non-null   int64 
 12  visitante_Placar    8405 non-null   int64 
 13  mandante_Estado     8405 non-null   object
 14  visitante_Estado    8405 non-null   object
dtypes: int64(3), object(12)
memory usage: 985.1+ KB


Observando as informações acima, é possivel notar que os atributos "Formacao Mandante", "Formacao Visitante", "Tecnico Mandante" e "Tecnico Visitante" tem um deficit de dados, possuem quantidade significativa dos dados nulos.

# Formatando Aparência dos dadaos 

In [6]:
# Formatando a 1° letra pra maiúscula
dfBrasileirao.columns = dfBrasileirao.columns.str.title()

# Substituindo "_" por espaço 
dfBrasileirao.columns = dfBrasileirao.columns.str.replace('_', ' ')

dfBrasileirao.columns = dfBrasileirao.columns.str.replace('Rodata', 'Rodada')

# Visualizando as primeiras linhas do dataset
dfBrasileirao.head()

Unnamed: 0,Rodada,Data,Hora,Mandante,Visitante,Formacao Mandante,Formacao Visitante,Tecnico Mandante,Tecnico Visitante,Vencedor,Arena,Mandante Placar,Visitante Placar,Mandante Estado,Visitante Estado
0,1,29/03/2003,16:00,Guarani,Vasco,,,,,Guarani,Brinco de Ouro,4,2,SP,RJ
1,1,29/03/2003,16:00,Athletico-PR,Gremio,,,,,Athletico-PR,Arena da Baixada,2,0,PR,RS
2,1,30/03/2003,16:00,Flamengo,Coritiba,,,,,-,Maracanã,1,1,RJ,PR
3,1,30/03/2003,16:00,Goias,Paysandu,,,,,-,Serra Dourada,2,2,GO,PA
4,1,30/03/2003,16:00,Internacional,Ponte Preta,,,,,-,Beira Rio,1,1,RS,SP


# Filtrando Ano Alvo da Análise (2023)

In [14]:
# Convertendo a coluna 'Data' para o tipo datetime
dfBrasileirao['Data'] = pd.to_datetime(dfBrasileirao['Data'], format='%d/%m/%Y')

# Filtrando as datas a partir de 2023
filter_data = dfBrasileirao['Data'] >= '2023-01-01'
brasileirao2023 = dfBrasileirao[filter_data]

brasileirao2023.head()


Unnamed: 0,Rodada,Data,Hora,Mandante,Visitante,Formacao Mandante,Formacao Visitante,Tecnico Mandante,Tecnico Visitante,Vencedor,Arena,Mandante Placar,Visitante Placar,Mandante Estado,Visitante Estado
8025,1,2023-04-15,16:01,Palmeiras,Cuiaba,4-2-3-1,4-2-3-1,A. Moreira Ferreira,I. Abreu Vieira,Palmeiras,Allianz Parque,2,1,SP,MT
8026,1,2023-04-15,16:02,America-MG,Fluminense,4-2-3-1,4-2-2-2,V. Carmo Mancini,F. Diniz Silva,Fluminense,Estádio Raimundo Sampaio,0,3,MG,RJ
8027,1,2023-04-15,18:31,Bragantino,Bahia,4-2-3-1,3-4-3,P. Faria Caixinha,R. Alves Paiva,Bragantino,Nabizão,2,1,SP,BA
8028,1,2023-04-15,18:31,Athletico-PR,Goias,4-2-3-1,4-2-3-1,P. Turra,E. Rodrigues de Ávila,Athletico-PR,Ligga Arena,2,0,PR,GO
8029,1,2023-04-15,18:32,Fortaleza,Internacional,4-2-2-2,4-2-3-1,J. Vojvoda,L. Venker de Menezes,-,Arena Castelão,1,1,CE,RS


# Preparação dos dados
## Manipulação de possíveis atributos faltantes

In [8]:
# Contando o número de valores ausentes por linha (todos)
num_linhas_com_ausentes = dfBrasileirao.isnull().sum(axis=1)

# Filtrando apenas as linhas que contêm pelo menos um valor ausente
linhas_com_ausentes = num_linhas_com_ausentes[num_linhas_com_ausentes > 0]

# Exibindo a contagem total de linhas com valores ausentes
total_linhas_com_ausentes = len(linhas_com_ausentes)
print(f'Total de linhas com valores ausentes: {total_linhas_com_ausentes}')


Total de linhas com valores ausentes: 4977


In [9]:
# Contando o número de valores ausentes por linha (2023)
num_linhas_com_ausentes = brasileirao2023.isnull().sum(axis=1)

linhas_com_ausentes = num_linhas_com_ausentes[num_linhas_com_ausentes > 0]

total_linhas_com_ausentes = len(linhas_com_ausentes)
print(f'Total de linhas com valores ausentes: {total_linhas_com_ausentes}')


Total de linhas com valores ausentes: 0


Podemos notar que não existem valores nulos no ano que nós vamos usar, porém, para exemplificar, vamos manipular os valores nulos que existem no dataset de algumas maneiras possíveis.

In [10]:
# Removendo a linha com valores nulos
dfBrasileiraoLinhasApagadas = dfBrasileirao.dropna()

# Mostrando n° linhas com valores ausentes após a remoção
num_linhas_com_ausentes = dfBrasileiraoLinhasApagadas.isnull().sum(axis=1)
linhas_com_ausentes = num_linhas_com_ausentes[num_linhas_com_ausentes > 0]
total_linhas_com_ausentes = len(linhas_com_ausentes)
print(f'Total de linhas com valores ausentes: {total_linhas_com_ausentes}')

# colocar outras formas de lidar com dados nulos


Total de linhas com valores ausentes: 0


In [11]:
# Removendo as linhas correspondentes a empates
brasileirao2023_sem_empates = brasileirao2023[brasileirao2023['Vencedor'] != '-']

# Contando o número de vitórias para cada time
vitorias_por_time = brasileirao2023_sem_empates['Vencedor'].value_counts()

# Exibindo os três times mais vitoriosos
tres_times_mais_vitoriosos = vitorias_por_time.head(20)

print("Times mais vitoriosos:")
print(tres_times_mais_vitoriosos)

Times mais vitoriosos:
Gremio           21
Palmeiras        20
Atletico-MG      19
Flamengo         19
Botafogo-RJ      18
Bragantino       17
Fluminense       16
Internacional    15
Fortaleza        15
Athletico-PR     14
Sao Paulo        14
Cuiaba           14
Vasco            12
Corinthians      12
Bahia            12
Cruzeiro         11
Santos           11
Goias             9
Coritiba          8
America-MG        5
Name: Vencedor, dtype: int64


In [12]:
# Filtrando empates representados como '-'
empates = brasileirao2023[brasileirao2023['Vencedor'] == '-']

# Concatenando as séries de Mandante e Visitante e contando o número de empates para cada time
empates_por_time = pd.concat([empates['Mandante'], empates['Visitante']]).value_counts()

# Exibindo os três times que mais empataram
tres_times_mais_empataram = empates_por_time.nlargest(3)

print("Os três times que mais empataram:")
print(tres_times_mais_empataram)

Os três times que mais empataram:
Cruzeiro        14
Athletico-PR    14
Corinthians     14
dtype: int64


In [13]:
# Inicializando um dicionário para armazenar as estatísticas de cada time
estatisticas_times = {'Time': [], 'Pontos': [], 'Vitórias': [], 'Empates': [], 'Derrotas': [], 'Gols Marcados': [], 'Gols Sofridos': [], 'Saldo de Gols': []}

# Obtendo a lista única de times no DataFrame
times = pd.concat([brasileirao2023['Mandante'], brasileirao2023['Visitante']]).unique()

# Iterando sobre cada time para calcular as estatísticas
for time in times:
    # Filtrando partidas em que o time foi mandante ou visitante
    partidas_time = brasileirao2023[(brasileirao2023['Mandante'] == time) | (brasileirao2023['Visitante'] == time)]
    
    # Calculando estatísticas
    vitorias = partidas_time[partidas_time['Vencedor'] == time].shape[0]
    empates = partidas_time[partidas_time['Vencedor'] == '-'].shape[0]
    derrotas = partidas_time.shape[0] - vitorias - empates
    gols_marcados = partidas_time['Mandante Placar'].sum() + partidas_time['Visitante Placar'].sum()
    gols_sofridos = partidas_time[partidas_time['Mandante'] == time]['Visitante Placar'].sum() + partidas_time[partidas_time['Visitante'] == time]['Mandante Placar'].sum()
    saldo_gols = gols_marcados - gols_sofridos
    pontos = vitorias * 3 + empates
    
    # Adicionando estatísticas ao dicionário
    estatisticas_times['Time'].append(time)
    estatisticas_times['Pontos'].append(pontos)
    estatisticas_times['Vitórias'].append(vitorias)
    estatisticas_times['Empates'].append(empates)
    estatisticas_times['Derrotas'].append(derrotas)
    estatisticas_times['Gols Marcados'].append(gols_marcados)
    estatisticas_times['Gols Sofridos'].append(gols_sofridos)
    estatisticas_times['Saldo de Gols'].append(saldo_gols)
    

# Criando um DataFrame com as estatísticas
tabela_simplificada = pd.DataFrame(estatisticas_times)

# Ordenando a tabela pelo número de pontos em ordem decrescente
tabela_simplificada = tabela_simplificada.sort_values(by='Pontos', ascending=False)

# Exibindo a tabela
tabela_simplificada

Unnamed: 0,Time,Pontos,Vitórias,Empates,Derrotas,Gols Marcados,Gols Sofridos,Saldo de Gols
0,Palmeiras,70,20,10,8,97,33,64
9,Gremio,68,21,5,12,119,56,63
6,Atletico-MG,66,19,9,10,84,32,52
7,Flamengo,66,19,9,10,98,42,56
5,Botafogo-RJ,64,18,10,10,95,37,58
2,Bragantino,62,17,11,10,84,35,49
10,Fluminense,56,16,8,14,98,47,51
3,Athletico-PR,56,14,14,10,94,43,51
14,Internacional,55,15,10,13,91,45,46
4,Fortaleza,54,15,9,14,89,44,45


Algumas perguntas que vieram a nossa mente foram:

### Desempenho dos Times:
Quais times têm o melhor desempenho geral? E os piores?
Quais times têm a melhor média de gols por partida?
Quais times têm a melhor média de gols marcados em casa e fora de casa?

### Estatísticas de Placares:
Qual é a média de gols por partida no campeonato?
Quais foram as partidas com maior número de gols?
Quais times têm a defesa mais sólida (menos gols sofridos)?

### Desempenho em Casa e Fora:
Quais times têm um desempenho melhor em casa? E fora de casa?
Existe uma correlação entre o desempenho de um time em casa e a posição na tabela?

### Técnicos e Formações:
Quais técnicos têm a melhor taxa de vitórias?
Existe uma formação que geralmente leva a melhores resultados?

### Distribuição Geográfica:
Como os resultados variam entre os times de diferentes estados?
Existem padrões nas partidas entre times de estados específicos?

### Análise Temporal:
Há alguma tendência temporal ao longo das rodadas?
Algum time teve um desempenho significativamente melhor ou pior em determinado período?

### Desempenho nos Estádios:
Como os times se saem em diferentes arenas?
Existem estádios que são particularmente difíceis para os times visitantes?

### Correlações entre Atributos:
Existe uma correlação entre o número de gols marcados e a posição na tabela?
Há alguma correlação entre a formação escolhida e o resultado da partida?

### Mudanças de Técnicos:
Como as mudanças de técnicos afetam o desempenho do time?