# INTRODUÇÃO
 Este projeto tem como objetivo realizar uma análise detalhada do Campeonato Brasileiro de Futebol, utilizando técnicas de ciência de dados e programação em Python. Com um total de 8.404 partidas realizadas entre os anos de 2003 e 2023, este trabalho abrange duas décadas de dados, oferecendo uma oportunidade de identificar padrões, tendências e insights relevantes sobre o desempenho das equipes, jogadores e outros aspectos do torneio.

In [None]:
pip install pandas




In [None]:

pip install numpy



In [None]:
import pandas as pd
import numpy as np


# Carregar o arquivo CSV
df = pd.read_csv('campeonato-brasileiro-full.csv')

# Exibir as primeiras linhas do DataFrame de forma interativa
df.head(10)


Unnamed: 0,ID,rodata,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado
0,1,1,29/03/2003,16:00,Guarani,Vasco,,,,,Guarani,Brinco de Ouro,4,2,SP,RJ
1,2,1,29/03/2003,16:00,Athletico-PR,Gremio,,,,,Athletico-PR,Arena da Baixada,2,0,PR,RS
2,3,1,30/03/2003,16:00,Flamengo,Coritiba,,,,,-,Maracanã,1,1,RJ,PR
3,4,1,30/03/2003,16:00,Goias,Paysandu,,,,,-,Serra Dourada,2,2,GO,PA
4,5,1,30/03/2003,16:00,Internacional,Ponte Preta,,,,,-,Beira Rio,1,1,RS,SP
5,6,1,30/03/2003,16:00,Criciuma,Fluminense,,,,,Criciuma,Heriberto Hulse,2,0,SC,RJ
6,7,1,30/03/2003,16:00,Juventude,Sao Paulo,,,,,-,Alfredo Jaconi,2,2,RS,SP
7,8,1,30/03/2003,16:00,Fortaleza,Bahia,,,,,-,Castelão,0,0,CE,BA
8,9,1,30/03/2003,16:00,Cruzeiro,Sao Caetano,,,,,-,Mineirão,2,2,MG,SP
9,10,1,30/03/2003,16:00,Vitoria,Figueirense,,,,,-,Barradão,1,1,BA,SC


In [None]:
# Exibir os tipos de cada componente do DataFrame
print(df.dtypes)

ID                     int64
rodata                 int64
data                  object
hora                  object
mandante              object
visitante             object
formacao_mandante     object
formacao_visitante    object
tecnico_mandante      object
tecnico_visitante     object
vencedor              object
arena                 object
mandante_Placar        int64
visitante_Placar       int64
mandante_Estado       object
visitante_Estado      object
dtype: object


In [None]:
# Exibindo colunas do DataFrame
print(df.columns)


Index(['ID', 'rodata', 'data', 'hora', 'mandante', 'visitante',
       'formacao_mandante', 'formacao_visitante', 'tecnico_mandante',
       'tecnico_visitante', 'vencedor', 'arena', 'mandante_Placar',
       'visitante_Placar', 'mandante_Estado', 'visitante_Estado'],
      dtype='object')


In [None]:
# Criando nova coluna calculando a diferença dos gols entre as partidas

df['diferenca_gols'] = df['mandante_Placar'] - df['visitante_Placar']

print(df)

        ID  rodata        data   hora       mandante     visitante  \
0        1       1  29/03/2003  16:00        Guarani         Vasco   
1        2       1  29/03/2003  16:00   Athletico-PR        Gremio   
2        3       1  30/03/2003  16:00       Flamengo      Coritiba   
3        4       1  30/03/2003  16:00          Goias      Paysandu   
4        5       1  30/03/2003  16:00  Internacional   Ponte Preta   
...    ...     ...         ...    ...            ...           ...   
8400  8401      38  06/12/2023  21:32          Bahia   Atletico-MG   
8401  8402      38  06/12/2023  21:32         Cuiaba  Athletico-PR   
8402  8403      38  06/12/2023  21:32         Santos     Fortaleza   
8403  8404      38  06/12/2023  21:32      Sao Paulo      Flamengo   
8404  8405      38  06/12/2023  21:32          Vasco    Bragantino   

     formacao_mandante formacao_visitante        tecnico_mandante  \
0                  NaN                NaN                     NaN   
1                  Na

In [None]:
# Exibindo nova coluna criada
df.head(10)


Unnamed: 0,ID,rodata,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado,diferenca_gols
0,1,1,29/03/2003,16:00,Guarani,Vasco,,,,,Guarani,Brinco de Ouro,4,2,SP,RJ,2
1,2,1,29/03/2003,16:00,Athletico-PR,Gremio,,,,,Athletico-PR,Arena da Baixada,2,0,PR,RS,2
2,3,1,30/03/2003,16:00,Flamengo,Coritiba,,,,,-,Maracanã,1,1,RJ,PR,0
3,4,1,30/03/2003,16:00,Goias,Paysandu,,,,,-,Serra Dourada,2,2,GO,PA,0
4,5,1,30/03/2003,16:00,Internacional,Ponte Preta,,,,,-,Beira Rio,1,1,RS,SP,0
5,6,1,30/03/2003,16:00,Criciuma,Fluminense,,,,,Criciuma,Heriberto Hulse,2,0,SC,RJ,2
6,7,1,30/03/2003,16:00,Juventude,Sao Paulo,,,,,-,Alfredo Jaconi,2,2,RS,SP,0
7,8,1,30/03/2003,16:00,Fortaleza,Bahia,,,,,-,Castelão,0,0,CE,BA,0
8,9,1,30/03/2003,16:00,Cruzeiro,Sao Caetano,,,,,-,Mineirão,2,2,MG,SP,0
9,10,1,30/03/2003,16:00,Vitoria,Figueirense,,,,,-,Barradão,1,1,BA,SC,0


In [None]:
# Substituir NaN por 0 em todo o DataFrame
df.fillna(0, inplace=True)

# Verificar se os NaNs foram substituídos
df.head(10)

Unnamed: 0,ID,rodata,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado,diferenca_gols
0,1,1,29/03/2003,16:00,Guarani,Vasco,0,0,0,0,Guarani,Brinco de Ouro,4,2,SP,RJ,2
1,2,1,29/03/2003,16:00,Athletico-PR,Gremio,0,0,0,0,Athletico-PR,Arena da Baixada,2,0,PR,RS,2
2,3,1,30/03/2003,16:00,Flamengo,Coritiba,0,0,0,0,-,Maracanã,1,1,RJ,PR,0
3,4,1,30/03/2003,16:00,Goias,Paysandu,0,0,0,0,-,Serra Dourada,2,2,GO,PA,0
4,5,1,30/03/2003,16:00,Internacional,Ponte Preta,0,0,0,0,-,Beira Rio,1,1,RS,SP,0
5,6,1,30/03/2003,16:00,Criciuma,Fluminense,0,0,0,0,Criciuma,Heriberto Hulse,2,0,SC,RJ,2
6,7,1,30/03/2003,16:00,Juventude,Sao Paulo,0,0,0,0,-,Alfredo Jaconi,2,2,RS,SP,0
7,8,1,30/03/2003,16:00,Fortaleza,Bahia,0,0,0,0,-,Castelão,0,0,CE,BA,0
8,9,1,30/03/2003,16:00,Cruzeiro,Sao Caetano,0,0,0,0,-,Mineirão,2,2,MG,SP,0
9,10,1,30/03/2003,16:00,Vitoria,Figueirense,0,0,0,0,-,Barradão,1,1,BA,SC,0


In [None]:
# Calculando maiores vencedores de 2003 até 2023

vitorias = df['vencedor'].value_counts()

print(vitorias)

vencedor
-                  2221
Sao Paulo           365
Flamengo            354
Santos              340
Internacional       339
Palmeiras           329
Atletico-MG         327
Corinthians         326
Fluminense          322
Gremio              316
Athletico-PR        309
Cruzeiro            304
Botafogo-RJ         247
Goias               209
Vasco               208
Coritiba            189
Figueirense         142
Sport               131
Bahia               127
Vitoria             123
Ponte Preta         114
Fortaleza           108
Juventude            85
Parana               83
Atletico-GO          72
Ceara                72
Chapecoense          70
Avai                 66
Sao Caetano          65
America-MG           58
Bragantino           55
Nautico              54
Criciuma             50
Paysandu             41
Guarani              36
Cuiaba               34
Portuguesa           31
Santa Cruz           15
Barueri              12
Santo Andre          11
Brasiliense          10
Ipating

In [None]:
# Alterando nome da coluna de indice 1
df.columns.values[1] = 'rodada'
print(df.columns)

Index(['ID', 'rodada', 'data', 'hora', 'mandante', 'visitante',
       'formacao_mandante', 'formacao_visitante', 'tecnico_mandante',
       'tecnico_visitante', 'vencedor', 'arena', 'mandante_Placar',
       'visitante_Placar', 'mandante_Estado', 'visitante_Estado',
       'diferenca_gols'],
      dtype='object')


In [None]:
# Filtrar o DataFrame para incluir apenas as partidas da primeira rodada
primeira_rodada = df[df['rodata'] == 1]

# Remover linhas onde a coluna 'vencedor' está vazia ou nula
primeira_rodada = primeira_rodada.dropna(subset=['vencedor'])

# Exibir apenas os vencedores da primeira rodada em casa
print(primeira_rodada['vencedor'])


0            Guarani
1       Athletico-PR
2                  -
3                  -
4                  -
            ...     
8030     Botafogo-RJ
8031           Vasco
8032        Flamengo
8033     Corinthians
8034          Gremio
Name: vencedor, Length: 215, dtype: object


In [None]:
# Filtrar confrontos que resultaram em um vencedor
confrontos_vencedores_casa = df[(df['diferenca_gols'] > 0) & (df['vencedor'].notnull())]

# Exibir os confrontos que saíram um vencedor em casa
print("Confrontos com vencedor e diferença de gols em casa:")
print(confrontos_vencedores_casa)

Confrontos com vencedor e diferença de gols em casa:
        ID  rodada        data   hora       mandante     visitante  \
0        1       1  29/03/2003  16:00        Guarani         Vasco   
1        2       1  29/03/2003  16:00   Athletico-PR        Gremio   
5        6       1  30/03/2003  16:00       Criciuma    Fluminense   
15      16       2  05/04/2003  18:00         Gremio       Guarani   
19      20       2  06/04/2003  16:00    Ponte Preta     Juventude   
...    ...     ...         ...    ...            ...           ...   
8396  8397      38  06/12/2023  21:32  Internacional   Botafogo-RJ   
8400  8401      38  06/12/2023  21:32          Bahia   Atletico-MG   
8401  8402      38  06/12/2023  21:32         Cuiaba  Athletico-PR   
8403  8404      38  06/12/2023  21:32      Sao Paulo      Flamengo   
8404  8405      38  06/12/2023  21:32          Vasco    Bragantino   

     formacao_mandante formacao_visitante        tecnico_mandante  \
0                    0               

In [None]:
# Filtrar confrontos que resultaram em um vencedor fora de casa

confrontos_vencedores_fora = df[(df['diferenca_gols'] < 0) & (df['vencedor'].notnull())]

# Exibir os confrontos que saíram um vencedor fora de casa
print("Confrontos com vencedor e diferença de gols fora de casa:")
print(confrontos_vencedores_fora)

Confrontos com vencedor e diferença de gols fora de casa:
        ID  rodada        data   hora     mandante      visitante  \
11      12       1  30/03/2003  18:00  Corinthians    Atletico-MG   
14      15       2  05/04/2003  16:00     Coritiba  Internacional   
16      17       2  06/04/2003  16:00        Bahia       Flamengo   
18      19       2  06/04/2003  16:00     Paysandu        Vitoria   
22      23       2  06/04/2003  18:00    Sao Paulo       Cruzeiro   
...    ...     ...         ...    ...          ...            ...   
8384  8385      36  30/11/2023  20:29   Bragantino      Fortaleza   
8385  8386      37  02/12/2023  18:00  Corinthians  Internacional   
8397  8398      38  06/12/2023  21:32     Coritiba    Corinthians   
8398  8399      38  06/12/2023  21:32   Fluminense         Gremio   
8402  8403      38  06/12/2023  21:32       Santos      Fortaleza   

     formacao_mandante formacao_visitante      tecnico_mandante  \
11                   0                  0     

In [None]:
# Contar o número de vitórias de cada time
vitorias = df['vencedor'].value_counts()

# Defina os nomes dos times que você deseja consultar
times_pe = ['Sport', 'Nautico', 'Santa Cruz']

# Puxar as vitórias dos times
vitorias_pe = vitorias.loc[times_pe]

# Exibir os resultados
print("Vitórias dos times:")
print(vitorias_pe)

Vitórias dos times:
vencedor
Sport         131
Nautico        54
Santa Cruz     15
Name: count, dtype: int64


In [None]:
times_pe = ['Sport', 'Nautico', 'Santa Cruz']

# Dicionário para armazenar o numero de jogos de mandante para cada time
jogos_mandante = {}

# Contar o numero de jogos de mandante para cada time na lista
for time in times_pe:
    jogos_mandante[time] = df[df['mandante'] == time].shape[0]

# Exibir os resultados
for time, count in jogos_mandante.items():
    print(f"Número de jogos de mandante do {time}: {count} ")

Número de jogos de mandante do Sport: 209 
Número de jogos de mandante do Nautico: 95 
Número de jogos de mandante do Santa Cruz: 38 


In [None]:
#Faz o mesmo passo a passo do codigo acima apenas trazendo o numero de jogos fora de casa

times_pe = ['Sport', 'Nautico', 'Santa Cruz']


jogos_visitante = {}

for time in times_pe:
    jogos_visitante[time] = df[df['visitante'] == time].shape[0]

for time, count in jogos_visitante.items():
    print(f"Número de jogos de visitante do {time}: {count} ")

Número de jogos de visitante do Sport: 209 
Número de jogos de visitante do Nautico: 95 
Número de jogos de visitante do Santa Cruz: 38 


In [None]:
# Verificar o DataFrame resultante
print(df.head())

# Se quiser salvar o arquivo novamente após a exclusão das colunas
df.to_excel('campeonato-brasileiro-atualizado.xlsx', index=False)

# Baixar o arquivo no Google Colab
from google.colab import files
files.download('campeonato-brasileiro-atualizado.xlsx')

   ID  rodada        data   hora       mandante    visitante  \
0   1       1  29/03/2003  16:00        Guarani        Vasco   
1   2       1  29/03/2003  16:00   Athletico-PR       Gremio   
2   3       1  30/03/2003  16:00       Flamengo     Coritiba   
3   4       1  30/03/2003  16:00          Goias     Paysandu   
4   5       1  30/03/2003  16:00  Internacional  Ponte Preta   

  formacao_mandante formacao_visitante tecnico_mandante tecnico_visitante  \
0                 0                  0                0                 0   
1                 0                  0                0                 0   
2                 0                  0                0                 0   
3                 0                  0                0                 0   
4                 0                  0                0                 0   

       vencedor              arena  mandante_Placar  visitante_Placar  \
0       Guarani     Brinco de Ouro                4                 2   
1  Ath

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
# Criar uma lista com os nomes de todos os técnicos da coluna tecnico_mandante
tecnicos_mandantes = df['tecnico_mandante'].unique().tolist()

# Imprimir a lista de técnicos
print("Técnicos mandantes:")
for tecnico in tecnicos_mandantes:
  print(tecnico)

# Criar uma lista com os nomes de todos os técnicos da coluna tecnico_visitante
tecnicos_visitantes = df['tecnico_visitante'].unique().tolist()

# Imprimir a lista de técnicos
print("\nTécnicos visitantes:")
for tecnico in tecnicos_visitantes:
  print(tecnico)

Técnicos mandantes:
0
C. Borges dos Santos
A. da Silva Braga
G. Dal Pozzo
M. dos Santos Gonçalves
M. Ramalho
M. Portugal Vicario
P. Autuori de Mello
J. de Almeida Filho
O. de Oliveira Filho
L. Saroli Caio Júnior
C. Juarez Roth
G. Kleina
N. da Silveira Júnior
M. de Oliveira Santos
V. Carmo Mancini
L. Venker de Menezes
E. Baptista
V. Eutrópio
E. Alves Moreira
S. Drubscky de Campos
W. Lopes
L. Culpi
A. Valentim do Carmo Neto
A. Ferreira
C. Amadeu
C. Rodrigues
R. Gareca Nardi
J. da Silva
D. Ghidoni Junior
V. Luxemburgo da Silva
A. Fucks
C. Fabian
L. Scolari
C. dos Santos Oliveira
D. Silvestre Júnior
A. Cecílio Sobrinho
L. Vieira
M. Mendes
M. Cruz
H. Pinto dos Anjos
A. Bacchi
M. Fernandes
D. Aguirre Camblor
H. Maria
J. Freitas
J. Osorio
R. Machado Marques
A. Batista
A. César
J. Camargo
P. Lopes de Gusmão
O. Hellmann
R. Rodrigues Simões
J. de Amorim Campos
H. Coutinho
Falcao
A. Alves da Silva Neto
F. Moreira
D. Sérgio
R. Maia Cabral
E. Pacheco
S. Lobo
D. Giacomini
A. Stival
E. Da Conceição S

In [None]:
from collections import Counter

# Contar as vitórias dos técnicos
vitorias_tecnicos = Counter(
    row['tecnico_mandante'] if row['vencedor'] == row['mandante'] else row['tecnico_visitante']
    for _, row in df[df['vencedor'].notnull()].iterrows()
)

# Listar os 4 técnicos mais vitoriosos, excluindo o primeiro
for i, (tecnico, vitorias) in enumerate(vitorias_tecnicos.most_common()[1:5], start=1):
    print(f"{i}. Técnico: {tecnico}, Vitórias: {vitorias}")


1. Técnico: L. Venker de Menezes, Vitórias: 150
2. Técnico: Renato Gaúcho, Vitórias: 147
3. Técnico: A. Stival, Vitórias: 126
4. Técnico: D. Silvestre Júnior, Vitórias: 121
