#**Importando Bibliotecas**

In [1]:
import pandas as pd                 # Manipulação dos dados
import warnings as wa               # Ignorar avisos gerados pelo uso do "pandas" (https://cursos.alura.com.br/forum/topico-como-fazer-para-evitar-o-warning-205682)
import seaborn as sns               # Construção dos gráficos
import matplotlib.pyplot as plt     # Construção dos gráficos

### Ignorando warnings (avisos) do tipo FutureWarning (Aviso futuro) ###
wa.simplefilter(action = 'ignore', category = FutureWarning)
pd.options.mode.chained_assignment = None

#**Carregando Dados do Brasileirão**

In [2]:
### Carrega datasets diretamente do GitHub ###
path_periodo = "https://github.com/juvenalfonseca/python/blob/master/datasets/campeonato-brasileiro-pontos-corridos-2003-2020-periodo.csv?raw=true"
path_jogos   = "https://github.com/juvenalfonseca/python/blob/master/datasets/campeonato-brasileiro-pontos-corridos-2003-2020-jogos.csv?raw=true"

### Leitura dos arquivos ###
df_periodo = pd.read_csv(path_periodo, delimiter = ";")  # Dados separados por ";"
df_jogos   = pd.read_csv(path_jogos  , delimiter = ";")  # Dados separados por ";"

#**Visualizando a tabela de períodos**

In [3]:
#display(df_periodo)
print(df_periodo.head())

   Torneio      Inicio         Fim
0  BRA2003  29/03/2003  14/12/2003
1  BRA2004  21/04/2004  19/12/2004
2  BRA2005  11/04/2005  09/12/2005
3  BRA2006  15/04/2006  03/12/2006
4  BRA2007  12/05/2007  02/12/2007


#**Visualizando a tabela de jogos**


In [4]:
display(df_jogos)
#display(df_jogos.head())   # Melhor visualização que usando o "print()"

Unnamed: 0,Rodada,Data,Horário,Dia,Mandante,Visitante,Vencedor,Arena,Mandante Placar,Visitante Placar,Estado Mandante,Estado Visitante,Estado Vencedor
0,1,29/03/2003,16h00,Sábado,Athlético-PR,Grêmio,Athlético-PR,Arena da Baixada,2,0,PR,RS,PR
1,1,29/03/2003,16h00,Sábado,Guarani,Vasco,Guarani,Brinco de Ouro,4,2,SP,RJ,SP
2,1,30/03/2003,16h00,Domingo,Fortaleza,Bahia,-,Castelão,0,0,CE,BA,-
3,1,30/03/2003,16h00,Domingo,Flamengo,Coritiba,-,Maracanã,1,1,RJ,PR,-
4,1,30/03/2003,16h00,Domingo,Vitória,Figueirense,-,Barradão,1,1,ES,SC,-
...,...,...,...,...,...,...,...,...,...,...,...,...,...
7261,38,25/02/2021,21:30,Quinta-Feira,Internacional,Corinthians,-,Beira Rio,0,0,RS,SP,-
7262,38,25/02/2021,21:30,Quinta-Feira,Bahia,Santos,Bahia,Itaipava Arena Fonte Nova,2,0,BA,SP,BA
7263,38,25/02/2021,21:30,Quinta-Feira,Athlético-PR,Sport,Athlético-PR,Arena da Baixada,2,0,PR,PE,PR
7264,38,25/02/2021,21:30,Quinta-Feira,Ceará,Botafogo-RJ,Ceará,Castelão,2,1,CE,RJ,CE


#**Tratamento dos Dados**

In [5]:
### Padronização da caixa dos nomes das colunas ###
df_periodo.columns = df_periodo.columns.str.lower()
df_jogos.columns   = df_jogos.columns.str.lower()
#display(df_jogos.head())

### Alteração dos campos de datas de "char" para "date" ###
df_periodo['inicio' ] = pd.to_datetime(df_periodo['inicio'], format = "%d/%m/%Y")
df_periodo['fim'    ] = pd.to_datetime(df_periodo['fim'   ], format = "%d/%m/%Y")
df_jogos['data'     ] = pd.to_datetime(df_jogos['data'    ], format = "%d/%m/%Y")
display(df_periodo)

### Captalização dos nomes nas linhas das colunas ###
df_jogos['dia'      ] = df_jogos['dia'      ].str.title()
df_jogos['mandante' ] = df_jogos['mandante' ].str.title()
df_jogos['visitante'] = df_jogos['visitante'].str.title()
df_jogos['vencedor' ] = df_jogos['vencedor' ].str.title()
df_jogos['arena'    ] = df_jogos['arena'    ].str.title()
#display(df_jogos.head())

### Junta os datasets e retorna apenas os registros corretos criados na junção ###
df_periodo['key'] = 1
df_jogos['key'] = 1

df = pd.merge(df_periodo, df_jogos, on ='key').drop("key", 1)
df = df.query('data >= inicio & data <= fim')
display(df.head())

Unnamed: 0,torneio,inicio,fim
0,BRA2003,2003-03-29,2003-12-14
1,BRA2004,2004-04-21,2004-12-19
2,BRA2005,2005-04-11,2005-12-09
3,BRA2006,2006-04-15,2006-12-03
4,BRA2007,2007-05-12,2007-12-02
5,BRA2008,2008-05-09,2008-12-07
6,BRA2009,2009-05-09,2009-12-06
7,BRA2010,2010-05-07,2010-12-05
8,BRA2011,2011-05-20,2011-12-04
9,BRA2012,2012-05-18,2012-12-09


Unnamed: 0,torneio,inicio,fim,rodada,data,horário,dia,mandante,visitante,vencedor,arena,mandante placar,visitante placar,estado mandante,estado visitante,estado vencedor
0,BRA2003,2003-03-29,2003-12-14,1,2003-03-29,16h00,Sábado,Athlético-Pr,Grêmio,Athlético-Pr,Arena Da Baixada,2,0,PR,RS,PR
1,BRA2003,2003-03-29,2003-12-14,1,2003-03-29,16h00,Sábado,Guarani,Vasco,Guarani,Brinco De Ouro,4,2,SP,RJ,SP
2,BRA2003,2003-03-29,2003-12-14,1,2003-03-30,16h00,Domingo,Fortaleza,Bahia,-,Castelão,0,0,CE,BA,-
3,BRA2003,2003-03-29,2003-12-14,1,2003-03-30,16h00,Domingo,Flamengo,Coritiba,-,Maracanã,1,1,RJ,PR,-
4,BRA2003,2003-03-29,2003-12-14,1,2003-03-30,16h00,Domingo,Vitória,Figueirense,-,Barradão,1,1,ES,SC,-




1. ***merge***: método utilizado para a junção entre os dataframes;
2. ***on***:    indica o campo que será utilizado na junção;
3. ***drop***:  remove a coluna do dataframe;
4. ***query***: filtra os registros conforme o critério especificado.



# **Análise de Gols**

1. ***groupby:*** agrupa um conjunto de dados em um ou mais atributos;
2. ***sum:*** utilizado no formato lambda com o método de agrupamento ***agg***, soma os valores encontrados na propriedade em questão;
3. ***reset_index:*** desagrupa o conjunto de dados realizada pelo método *groupby*.
4. O atributo ***inplace=True*** indica que a operação deve ser efetivada no conjunto de dados.

In [6]:
### Gols por edição ###
gols_mandante = df[['torneio', 'mandante placar']].groupby('torneio').agg(lambda x: sum(x)).reset_index()
gols_mandante.rename(columns = {"mandante placar": "gols_mandante"}, inplace=True)

gols_visitante = df.groupby('torneio')['visitante placar'].sum().sort_values(ascending=False).reset_index()
gols_visitante.rename(columns = {"visitante placar": "gols_visitante"}, inplace=True)

gols_edicao = pd.merge(gols_mandante, gols_visitante, on="torneio")
gols_edicao['gols_total'] = gols_edicao['gols_mandante'] + gols_edicao['gols_visitante']
gols_edicao['gols_mandante_perc'  ] = (gols_edicao['gols_mandante' ]/gols_edicao['gols_total'])*100
gols_edicao['gols_visitantes_perc'] = (gols_edicao['gols_visitante']/gols_edicao['gols_total'])*100

display(gols_edicao)

Unnamed: 0,torneio,gols_mandante,gols_visitante,gols_total,gols_mandante_perc,gols_visitantes_perc
0,BRA2003,982,610,1592,61.683417,38.316583
1,BRA2004,947,587,1534,61.734029,38.265971
2,BRA2005,835,616,1451,57.54652,42.45348
3,BRA2006,604,426,1030,58.640777,41.359223
4,BRA2007,638,414,1052,60.646388,39.353612
5,BRA2008,654,376,1030,63.495146,36.504854
6,BRA2009,659,435,1094,60.23766,39.76234
7,BRA2010,581,397,978,59.406953,40.593047
8,BRA2011,610,407,1017,59.980334,40.019666
9,BRA2012,559,380,939,59.531416,40.468584


Análise por Ataque e Defesa