# Projeto Final - Análise de Dados do Campeonato Brasileiro 2023

### Participantes:
- Renan Alves Zago
- Ronan Antonio Pereira Junior

## Determinação do Conjunto de Dados
### Link da base de dados: 
https://www.kaggle.com/datasets/adaoduque/campeonato-brasileiro-de-futebol 

### Descrição geral da base
A base de dados utilizada consiste nos dados do Campeonato Brasileiro de 2003 a 2023, possui 8405 linhas e 15 atributos, sendo eles:

- Rodada: etapa que o campeonato se encontra (de 1-38)
- Data: data da realização do jogo, no formato DD/MM/AAAA
- Hora: hora da realização do jogo, no formato 24h
- Mandante: time que está jogando na sua própria arena
- Visitante: time que está jogando na arena do adversário
- Formação Mandante: esquema tático do mandante
- Formação Visitante: esquema tático do visitante
- Técnico Mandante: nome do técnico mandante
- Técnico Visitante: nome do técnico visitante
- Vencedor: time que mais fez gols na partida, se o número de gols for igual, então não existe vencedor, o jogo é considerado empatado.
- Arena: nome do estádio que aconteceu a partida
- Mandante Placar: número de gols do mandante
- Visitante Placar: número de gols do visitante
- Mandante Estado: sigla do estado do mandante
- Visitante Estado: sigla do estado do visitante


# Análise Introdutória
Conhecendo o dataset...

In [1]:
# Importando biblioteca
import pandas as pd

# Importando conjunto de dados
dfBrasileirao = pd.read_csv("campeonato-brasileiro-full.csv", usecols=lambda column: column != 'ID') # Tirando a coluna ID pra evitar repetição na visualizaçaõ

FileNotFoundError: [Errno 2] No such file or directory: 'campeonato-brasileiro-full.csv'

In [None]:
# Visualizando as primeiras linhas do dataset
dfBrasileirao.head()

In [None]:
# Visualizando as últimas linhas do dataset
dfBrasileirao.tail()

In [None]:
# Descobrindo número de linhas e colunas 
numLinhas, numColunas = dfBrasileirao.shape
print(f"Número de linhas: {numLinhas}")
print(f"Número de colunas: {numColunas}")

In [None]:
# Visualizando informações do dataset
dfBrasileirao.info()

Observando as informações acima, é possivel notar que os atributos "Formacao Mandante", "Formacao Visitante", "Tecnico Mandante" e "Tecnico Visitante" tem um deficit de dados, possuem quantidade significativa dos dados nulos.

# Formatando Aparência dos dadaos 

In [None]:
# Formatando a 1° letra pra maiúscula
dfBrasileirao.columns = dfBrasileirao.columns.str.title()

# Substituindo "_" por espaço 
dfBrasileirao.columns = dfBrasileirao.columns.str.replace('_', ' ')

dfBrasileirao.columns = dfBrasileirao.columns.str.replace('Rodata', 'Rodada')

# Visualizando as primeiras linhas do dataset
dfBrasileirao.head()

# Filtrando Ano Alvo da Análise (2023)

In [None]:
# Convertendo a coluna 'Data' para o tipo datetime
dfBrasileirao['Data'] = pd.to_datetime(dfBrasileirao['Data'], format='%d/%m/%Y')

# Filtrando as datas a partir de 2023
filter_data = dfBrasileirao['Data'] >= '2023-01-01'
brasileirao2023 = dfBrasileirao[filter_data]

brasileirao2023.head()


# Preparação dos dados
## Manipulação de possíveis atributos faltantes

In [None]:
# Contando o número de valores ausentes por linha (todos)
num_linhas_com_ausentes = dfBrasileirao.isnull().sum(axis=1)

# Filtrando apenas as linhas que contêm pelo menos um valor ausente
linhas_com_ausentes = num_linhas_com_ausentes[num_linhas_com_ausentes > 0]

# Exibindo a contagem total de linhas com valores ausentes
total_linhas_com_ausentes = len(linhas_com_ausentes)
print(f'Total de linhas com valores ausentes: {total_linhas_com_ausentes}')


In [None]:
# Contando o número de valores ausentes por linha (2023)
num_linhas_com_ausentes = brasileirao2023.isnull().sum(axis=1)

linhas_com_ausentes = num_linhas_com_ausentes[num_linhas_com_ausentes > 0]

total_linhas_com_ausentes = len(linhas_com_ausentes)
print(f'Total de linhas com valores ausentes: {total_linhas_com_ausentes}')


Podemos notar que não existem valores nulos no ano que nós vamos usar, porém, para exemplificar, vamos manipular os valores nulos que existem no dataset de algumas maneiras possíveis.

In [None]:
# Removendo a linha com valores nulos
dfBrasileiraoLinhasApagadas = dfBrasileirao.dropna()

# Mostrando n° linhas com valores ausentes após a remoção
num_linhas_com_ausentes = dfBrasileiraoLinhasApagadas.isnull().sum(axis=1)
linhas_com_ausentes = num_linhas_com_ausentes[num_linhas_com_ausentes > 0]
total_linhas_com_ausentes = len(linhas_com_ausentes)
print(f'Total de linhas com valores ausentes: {total_linhas_com_ausentes}')

# colocar outras formas de lidar com dados nulos


In [None]:
### Desempenho dos Times:
Quais times têm o melhor desempenho geral? E os piores?
Quais times têm a melhor média de gols por partida?
Quais times têm a melhor média de gols marcados em casa e fora de casa?


In [None]:
# Removendo as linhas correspondentes a empates
brasileirao2023_sem_empates = brasileirao2023[brasileirao2023['Vencedor'] != '-']

# Contando o número de vitórias para cada time
vitorias_por_time = brasileirao2023_sem_empates['Vencedor'].value_counts()

# Exibindo os três times mais vitoriosos
tres_times_mais_vitoriosos = vitorias_por_time.head(20)

print("Times mais vitoriosos:")
print(tres_times_mais_vitoriosos)

In [None]:
# Filtrando empates representados como '-'
empates = brasileirao2023[brasileirao2023['Vencedor'] == '-']

# Concatenando as séries de Mandante e Visitante e contando o número de empates para cada time
empates_por_time = pd.concat([empates['Mandante'], empates['Visitante']]).value_counts()

# Exibindo os três times que mais empataram
tres_times_mais_empataram = empates_por_time.nlargest(3)

print("Os três times que mais empataram:")
print(tres_times_mais_empataram)

In [None]:
# Inicializando um dicionário para armazenar as estatísticas de cada time
estatisticas_times = {'Time': [], 'Pontos': [], 'Vitórias': [], 'Empates': [], 'Derrotas': [], 'Gols Marcados': [], 'Gols Sofridos': [], 'Saldo de Gols': []}

# Obtendo a lista única de times no DataFrame
times = pd.concat([brasileirao2023['Mandante'], brasileirao2023['Visitante']]).unique()

# Iterando sobre cada time para calcular as estatísticas
for time in times:
    # Filtrando partidas em que o time foi mandante ou visitante
    partidas_time = brasileirao2023[(brasileirao2023['Mandante'] == time) | (brasileirao2023['Visitante'] == time)]
    
    # Calculando estatísticas
    vitorias = partidas_time[partidas_time['Vencedor'] == time].shape[0]
    empates = partidas_time[partidas_time['Vencedor'] == '-'].shape[0]
    derrotas = partidas_time.shape[0] - vitorias - empates
    gols_marcados = partidas_time['Mandante Placar'].sum() + partidas_time['Visitante Placar'].sum()
    gols_sofridos = partidas_time[partidas_time['Mandante'] == time]['Visitante Placar'].sum() + partidas_time[partidas_time['Visitante'] == time]['Mandante Placar'].sum()
    saldo_gols = gols_marcados - gols_sofridos
    pontos = vitorias * 3 + empates
    
    # Adicionando estatísticas ao dicionário
    estatisticas_times['Time'].append(time)
    estatisticas_times['Pontos'].append(pontos)
    estatisticas_times['Vitórias'].append(vitorias)
    estatisticas_times['Empates'].append(empates)
    estatisticas_times['Derrotas'].append(derrotas)
    estatisticas_times['Gols Marcados'].append(gols_marcados)
    estatisticas_times['Gols Sofridos'].append(gols_sofridos)
    estatisticas_times['Saldo de Gols'].append(saldo_gols)
    

# Criando um DataFrame com as estatísticas
tabela_simplificada = pd.DataFrame(estatisticas_times)

# Ordenando a tabela pelo número de pontos em ordem decrescente
tabela_simplificada = tabela_simplificada.sort_values(by='Pontos', ascending=False)

# Exibindo a tabela
tabela_simplificada

Algumas perguntas que vieram a nossa mente foram:


### Estatísticas de Placares:
Qual é a média de gols por partida no campeonato?
Quais foram as partidas com maior número de gols?
Quais times têm a defesa mais sólida (menos gols sofridos)?

### Desempenho em Casa e Fora:
Quais times têm um desempenho melhor em casa? E fora de casa?
Existe uma correlação entre o desempenho de um time em casa e a posição na tabela?

### Técnicos e Formações:
Quais técnicos têm a melhor taxa de vitórias?
Existe uma formação que geralmente leva a melhores resultados?

### Distribuição Geográfica:
Como os resultados variam entre os times de diferentes estados?
Existem padrões nas partidas entre times de estados específicos?

### Análise Temporal:
Há alguma tendência temporal ao longo das rodadas?
Algum time teve um desempenho significativamente melhor ou pior em determinado período?

### Desempenho nos Estádios:
Como os times se saem em diferentes arenas?
Existem estádios que são particularmente difíceis para os times visitantes?

### Correlações entre Atributos:
Existe uma correlação entre o número de gols marcados e a posição na tabela?
Há alguma correlação entre a formação escolhida e o resultado da partida?

### Mudanças de Técnicos:
Como as mudanças de técnicos afetam o desempenho do time?