In [None]:
# Importando biblioteca e criando o dataframe (ESSA CÉLULA DEVE SER EXECUTADA)

import pandas as pd

df = pd.read_csv('../data/brasileirao.csv')

df

#Com o dataframe em mãos, a partir de agora, nas próximas células de código, será feita extração de alguns dados com alguns 
# insights embutidos e utilizaremos a lib matplot para criação de um gráfico para a exibição desses insights


In [None]:
# Os 5 times mais goleadores do Brasileirão (2003 - 2024)

# 1 - Extraindo os 5 times que mais fizeram gols no período de 2003 à 2024

df_goals = df[['team', 'goals']].groupby('team').sum().reset_index()

df_5_team_more_goals = df_goals.sort_values(by='goals', ascending=False).head()

df_5_team_more_goals = df_5_team_more_goals.sort_values(by='goals', ascending=True)

df_5_team_more_goals


# 2 - Criaremos um gráfico de barras para exibir os 5 times com maior numero de gols

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10,7))

ax = sns.barplot(x='goals', y='team', data=df_5_team_more_goals, palette='viridis')

for p in ax.patches:
    width = p.get_width()
    plt.text(
        width + 2,
        p.get_y() + p.get_height()/2,
        f'{int(width)}',
        va='center',
        fontsize=10,
        color='black'
    )

plt.title('Os 5 times que mais fizeram gols no brasileirão (2003 - 2024)')
plt.ylabel('Times')
plt.xlabel('Quantidade de gols')

min_goal = df_5_team_more_goals['goals'].min()
max_goal = df_5_team_more_goals['goals'].max()

plt.xlim(min_goal - (max_goal - min_goal) * 0.1, max_goal + (max_goal - min_goal) * 0.1 + 10) 


plt.grid(axis='x', linestyle='--', alpha=0.7) # Grid apenas no eixo X para auxiliar a leitura dos valores
plt.show()


In [None]:
# Os 5 times mais vitoriosos do brasileirão (2003 - 2024)

# 1 - Extraindo os 5 times que mais tiveram vitórias no período de 2003 à 2024

df_wins = df[['team', 'won']].groupby('team').sum()

df_5_team_more_wins = df_wins.sort_values(by='won', ascending=False).head()

df_5_team_more_wins = df_5_team_more_wins.sort_values(by='won', ascending=True)

df_5_team_more_wins

# 2 - Criaremos um gráfico de barras para exibir os 5 times com maior numero de vitórias


import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10,7))

ax = sns.barplot(x='won', y='team', data=df_5_team_more_wins, palette='viridis')

for p in ax.patches:
    width = p.get_width()
    plt.text(
        width + 2,
        p.get_y() + p.get_height()/2,
        f'{int(width)}',
        va='center',
        fontsize=10,
        color='black'
    )

plt.title('Os 5 times mais vitoriosos do brasileirão (2003 - 2024)')
plt.ylabel('Times')
plt.xlabel('Quantidade de vitórias')

min_win = df_5_team_more_wins['won'].min()
max_win = df_5_team_more_wins['won'].max()

plt.xlim(min_win - (max_win - min_win) * 0.1, max_win + (max_win - min_win) * 0.1 + 10) 


plt.grid(axis='x', linestyle='--', alpha=0.7) # Grid apenas no eixo X para auxiliar a leitura dos valores
plt.show()

In [None]:
# A evolução da média de pontos dos times por temporada (2003 - 2024)

# 1 - Extraindo a média da pontuação em cada umas das temporadas 

df_points_mean = df[['season', 'points']].groupby('season').mean().reset_index()

df_points_mean

# 2 - Criaremos um gráfico de linha para mostrar a média da pontuação em cada uma das temporadas

import matplotlib.pyplot as plt 

plt.figure(figsize=(8,6))

plt.plot(
    df_points_mean['season'],
    df_points_mean['points'],
    marker='o',
    linestyle='-',
    label='Pontos',
    color='green'
)

plt.xticks(df_points_mean['season'], rotation=45, ha='center', va='top')

plt.xlabel('Temporadas')
plt.ylabel('Média de pontos')
plt.title('Evolução da média de pontos adquiridos por temporada (2003 - 2024)')
plt.legend()
plt.tight_layout()
plt.grid(True, linestyle='--', alpha=0.7)

In [None]:
# A evolução da média de média de gols feitos por temporada (2003 - 2024)


# 1 - Extraindo a média de gols feitos em cada umas das temporadas 

df_goals_did = df[['season', 'goals']].groupby('season').mean().round(2).reset_index()

df_goals_did


# 2 - Criaremos um gráfico de linha para mostrar a média de gols feitos em cada uma das temporadas

import matplotlib.pyplot as plt 

plt.figure(figsize=(8,6))

plt.plot(
    df_goals_did['season'],
    df_goals_did['goals'],
    marker='o',
    linestyle='-',
    label='Gols feitos',
    color='blue'
)

plt.xticks(df_goals_did['season'], rotation=45, ha='center', va='top')

plt.xlabel('Temporadas')
plt.ylabel('Média de gols')
plt.title('Evolução da média de gols feitos por temporada (2003 - 2024)')
plt.legend()
plt.tight_layout()
plt.grid(True, linestyle='--', alpha=0.7)

In [None]:
# Correlação entre a quantidade de gols feitos e número de pontos

# 1 - Extraindo o total de pontos e o total de gols feitos de cada time 

df_team_points_goals = df[['team', 'points', 'goals']].groupby('team').sum().reset_index()


# 2 - Criaremos um gráfico de dispersão para conseguir visualizar se há a correlação entre as variaveis (pontos e gols)

import matplotlib.pyplot as plt 

plt.figure(figsize=(10,6))

plt.scatter(
    x=df_team_points_goals['goals'],
    y=df_team_points_goals['points'],
    s=100,
    alpha=0.8,
    edgecolors='w',
    linewidths=0.5
)

plt.title('Correlação entre a quantidade total de gols feitos e quantidade total de pontos (2003 - 2024)')
plt.xlabel('Gols feitos')
plt.ylabel('Pontos')


plt.grid(True, linestyle='--', alpha=0.6)


plt.show()

In [None]:
# Quantos porcento cada estado do Brasil tem da pontuação total do campeonato

# 1 -

team_state_map = {
    'América Mineiro': 'MG', 'América-RN': 'RN', 'Athletico Paranaense': 'PR',
    'Atlético Goianiense': 'GO', 'Atlético Mineiro': 'MG', 'Avaí': 'SC',
    'Bahia': 'BA', 'Botafogo': 'RJ', 'Brasiliense': 'DF', 'CSA': 'AL',
    'Ceará': 'CE', 'Chapecoense': 'SC', 'Corinthians': 'SP', 'Coritiba': 'PR',
    'Criciúma': 'SC', 'Cruzeiro': 'MG', 'Cuiabá': 'MT', 'Figueirense': 'SC',
    'Flamengo': 'RJ', 'Fluminense': 'RJ', 'Fortaleza': 'CE', 'Goiás': 'GO',
    'Grêmio': 'RS', 'Grêmio Barueri': 'SP', 'Guarani': 'SP', 'Internacional': 'RS',
    'Ipatinga': 'MG', 'Joinville': 'SC', 'Juventude': 'RS', 'Náutico': 'PE',
    'Palmeiras': 'SP', 'Paraná': 'PR', 'Paysandu': 'PA', 'Ponte Preta': 'SP',
    'Portuguesa': 'SP', 'Red Bull Bragantino': 'SP', 'Santa Cruz': 'PE',
    'Santo André': 'SP', 'Santos': 'SP', 'Sport': 'PE', 'São Caetano': 'SP',
    'São Paulo': 'SP', 'Vasco': 'RJ', 'Vitória': 'BA'
}


df_teams = df[['team', 'points']]

df_teams['estado'] = df_teams['team'].map(team_state_map)

pontos_por_estado = df_teams[['estado', 'points']].groupby('estado').sum()

pontos_por_estado = pontos_por_estado.sort_values(by='points' ,ascending=False)



# 2 -

import matplotlib.pyplot as plt 

def autopct_format(pct):
    return f'{pct:.1f}%' if pct > 2 else ''

plt.figure(figsize=(8, 6))
plt.pie(pontos_por_estado['points'], labels=pontos_por_estado.index,  autopct=autopct_format, startangle=140)
plt.title('Porcentagem de pontos por estado no Brasileirão (2003–2024)')
plt.axis('equal')
plt.tight_layout()
plt.show()

In [None]:
# Diferença de pontos entre o primeiro e quarto colocado em cada campeonato

# 1 - Extraindo os dados da diferença de pontuação entre o primeiro colocado (maximo de pontos) e quarto colocado (minimo)

df_top4 = df[df['place'] <= 4].groupby('season')['points'].agg(['max', 'min'])
df_top4['diferença'] = df_top4['max'] - df_top4['min']


# 2 - Ordenando os valores e criando o gráfico 

df_top4['diferença'].sort_values().plot(
    kind='barh', 
    title='Diferença de pontos entre o primeiro e o quarto colocado em cada campeonato',
    xlabel='Pontos',
    ylabel='Temporadas')




In [None]:
# Top 5 maiores campanhas

# 1 - Extraindo as 5 melhores campanhas

top5_campanhas = df[['season', 'team', 'points']].sort_values(by='points', ascending=False).head()

top5_campanhas

# 2 - Criaremos o gráfico de barras para exibir as melhores campanhas

import matplotlib.pyplot as plt

plt.figure(figsize=(8,5))
bars = plt.barh(
    top5_campanhas['team'] + ' (' + top5_campanhas['season'].astype(str) + ')',
    top5_campanhas['points'],
    color='skyblue'
)

plt.title('Top 5 melhores campanhas do Brasileirão (2003–2024)')
plt.xlabel('Pontos')
plt.ylabel('Time (Temporada)')

for bar in bars:
    width = bar.get_width()
    plt.text(width + 1,             
             bar.get_y() + bar.get_height() / 2,  
             f'{int(width)}',       
             va='center', fontsize=10)
    
plt.tight_layout()
plt.show()
