In [1]:
# Importando as bibliotecas pandas e numpy
import pandas as pd
import numpy as np

In [2]:
#Leitura do arquivo 'campetonato-brasileiro-full.csv' para acessar dados
df = pd.read_csv('C:/Users/cassi/Documents/Python/Github/RepositórioDeDados/campeonato-brasileiro-full/campeonato-brasileiro-full.csv')

In [3]:
#visualizando as primeiras linhas para entender a estrutura do dataframe
df.head ()

Unnamed: 0,ID,Rodada,Data,Horário,Dia,Mandante,Visitante,Vencedor,Arena,Mandante Placar,Visitante Placar,Estado Mandante,Estado Visitante,Estado Vencedor
0,1,1,2000-07-29,16h00,Sábado,Fluminense,Bahia,Fluminense,Maracanã,2,0,RJ,BA,RJ
1,2,1,2000-07-29,16h00,Sábado,Vasco,Sport,Sport,São Januário,0,2,RJ,PE,PE
2,3,1,2000-07-29,16h00,Sábado,Vitória,Palmeiras,Vitória,Barradão,4,1,ES,SP,ES
3,4,1,2000-07-30,17h00,Domingo,Botafogo-RJ,Atlético-MG,-,Caio Martins,0,0,RJ,MG,-
4,5,1,2000-07-30,18h30,Domingo,Juventude,Flamengo,-,Alfredo Jaconi,1,1,RS,RJ,-


## Qual jogo e em qual dia, aconteceu a partida localizada na linha 310?

In [4]:
# Função loc, permite buscar na variável df, a linha 310.
df.loc[310]

ID                           311
Rodada              SEGUNDA FASE
Data                  2000-11-26
Horário                    17h00
Dia                      Domingo
Mandante                CRUZEIRO
Visitante               MALUTROM
Vencedor                       -
Arena                   Mineirão
Mandante Placar                1
Visitante Placar               1
Estado Mandante               MG
Estado Visitante              PR
Estado Vencedor                -
Name: 310, dtype: object

In [6]:
# Aqui, aprofundamos a busca, filtrando pelas colunas Data, Dia, Mandante e Visitante.
df.loc[310][['Data', 'Dia', 'Mandante', 'Visitante']]

Data         2000-11-26
Dia             Domingo
Mandante       CRUZEIRO
Visitante      MALUTROM
Name: 310, dtype: object

## Qual é o total de gols feitos campeonato brasileiro?

In [16]:
# Para saber o número total de gols, é preciso antes criar uma variável unindo os gols dos mandantes e visitantes.
df['Total de gols'] = df['Mandante Placar'] + df['Visitante Placar']
# Após criar a variável, ele soma o valor do Mandante e Visitante por linha, mas queremos o total do campeonato, então adicionamos o sum.
df['Total de gols'].sum()

21977

## Qual o horário que teve mais jogos?

In [18]:
# Para saber o horário, selecionamos a coluna de horário, usamos a função value counts para saber a quantidade por horários e acrescentamos a função head para mostrar somente os 3 primeiros resultados.
df['Horário'].value_counts().head(3)

16h00    1804
20h30     683
18h30     643
Name: Horário, dtype: int64

# Qual dia da semana teve mais jogos?

In [19]:
# Mesma estrutura utilizada para o horário.
df['Dia'].value_counts()

Domingo          3807
Sábado           1925
Quarta-feira     1559
Quinta-feira      657
Segunda-feira     108
Terça-feira        85
Quarta-Feira       83
Quinta-Feira       39
Sexta-feira        24
Segunda-Feira      23
Sexta-Feira         5
Terça-Feira         4
Name: Dia, dtype: int64

## Qual time mais empatou como Mandante?

In [67]:
# Para não haver erros na contagem, vamos deixar todas as stings com letra maiúscula.
df['Mandante'] = df['Mandante'].str.upper()

In [68]:
# Para saber qual time mais empatou, filtramos o df sendo 'Vencedor' igual a '-', que é o sinal de empate. Em seguida fazemos a contagem por 'Mandante' utilizando value_counts.
df[df['Vencedor'] == '-']['Mandante'].value_counts().head(1)

FLUMINENSE    106
Name: Mandante, dtype: int64

## Qual time mais empatou como Visitante?

In [69]:
# Mesmo processo da pergunta anterior.
df['Visitante'] = df['Visitante'].str.upper()

In [70]:
# Mesmo processo da pergunta anterior.
df[df['Vencedor'] == '-']['Visitante'].value_counts().head(1)

CORINTHIANS    111
Name: Visitante, dtype: int64

## Qual o time com o maior número de gols como Mandante?

In [71]:
# Para saber qual é o time com maior número de gols por 'Mandante' é preciso agrupa-lo primeiro com esse critério
por_mandante = df.groupby('Mandante')
# Em seguida utilizamos a variável com o df agrupado e somamos o número de gols do Mandante, por ordem descendente.
por_mandante['Mandante Placar'].sum().sort_values(ascending = False).head(1)

Mandante
SANTOS    736
Name: Mandante Placar, dtype: int64

## Qual time mais empatou como mandante no ano de 2019?

In [57]:
# Nesse caso, não temos no data frame, uma coluna informando apenas o ano, mas temos a data completa.
df['Data']

0       2000-07-29
1       2000-07-29
2       2000-07-29
3       2000-07-30
4       2000-07-30
           ...    
8314    2021-02-25
8315    2021-02-25
8316    2021-02-25
8317    2021-02-25
8318    2021-02-25
Name: Data, Length: 8319, dtype: object

In [58]:
# Podemos extrair o ano da data, criando uma função com o recurso lambda, onde a coluna Data será "cortada", separando dia, mes e ano.
df['Ano'] = df['Data'].apply(lambda data : data.split('-')[0])

In [59]:
# Assim temos agora somente o ano.
df['Ano']

0       2000
1       2000
2       2000
3       2000
4       2000
        ... 
8314    2021
8315    2021
8316    2021
8317    2021
8318    2021
Name: Ano, Length: 8319, dtype: object

In [72]:
# Levando em consideração a pergunta, nós temos dois fatores importantes, que são:
# "qual time mais empatou", representado pela tupla (df['Vendedor'] == '-')
# "no ano de 2019", representado pela tupla (df['Ano'] == '2019')
# por último, filtramos "como mandante", fazendo uma contagem das linhas.
df[(df['Vencedor'] == '-')&(df['Ano'] == '2019')]['Mandante'].value_counts().head(1)

AVAÍ    9
Name: Mandante, dtype: int64