# Tratamento dos dados

Aqui está documentado o processo de tratamento aplicado aos dados coletados no [notebook 1](1-coleta.ipynb).

Os dados coletados durante o webscraping foram armazenados da forma mais crua possível. Via de regra, representam as strings que puderam ser extraídas de elementos HTML específicos, com o auxílio da biblioteca **BeautifulSoup**.

Na maioria dos casos, essas strings já possuem um dado atomizado, merecendo, talvez, algum tratamento de conversão de tipo (para números ou datetimes, por exemplo) ou padronização (como os nomes das equipes).


Em outros, os dados representam algum tipo de coleção (como no caso do local da partida, que contém o nome do estádio e, muitas vezes, também a cidade e o Estado, ou da relação de gols marcados por equipe), precisando, portanto, serem desmembrados para que cada componente receba um tratamento específico.

## Setup

Utilizaremos as bibliotecas **datetime** para parsing de datas e **re** para manipulação de strings. A biblioteca **locale** auxiliará no parsing das strings de data escritas em português brasileiro. Por fim, as bibliotecas **numpy** e **pandas** oferecem as ferramentas para o tratamento agregado dos dados e posterior exportação do resultado.

In [51]:
from datetime import datetime
import locale
import os
import re

import numpy as np
import pandas as pd
import pyarrow

In [52]:
locale.setlocale(locale.LC_TIME, 'pt_BR')

'pt_BR'

## Carregando os dados brutos

Os dados originais foram salvos sem qualquer identificação dos campos. Por ora, utilizaremos nomes genéricos paras colunas. Depois de carregados, poderemos identificar a quais campos correspondem.

In [53]:
# o csv de dados brutos possui 16 colunas
cols = ['col%02d'%n for n in range(1, 17)]

# carregamento
raw = pd.read_csv('dados/raw-scrap.csv', names=cols)
# amostra
raw.head()

Unnamed: 0,col01,col02,col03,col04,col05,col06,col07,col08,col09,col10,col11,col12,col13,col14,col15,col16
0,campeonato-brasileiro-serie-a,2012,1,São Januário - Rio de Janeiro - RJ,Domingo,20 de Maio de 2012,18:30,2,Vasco da Gama - RJ,,1.0,Grêmio - RS,,,0.0,0.0
1,campeonato-brasileiro-serie-a,2012,2,Pituaçu - Salvador - BA,Domingo,20 de Maio de 2012,18:30,0,Bahia - BA,,0.0,Santos - SP,,,0.0,0.0
2,campeonato-brasileiro-serie-a,2012,3,Pacaembu - Sao Paulo - SP,Sábado,19 de Maio de 2012,18:30,1,Palmeiras - SP,,1.0,Portuguesa - SP,,,0.0,0.0
3,campeonato-brasileiro-serie-a,2012,4,Orlando Scarpelli - Florianopolis - SC,Sábado,19 de Maio de 2012,21:00,2,Figueirense - SC,,1.0,Náutico - PE,,,0.0,0.0
4,campeonato-brasileiro-serie-a,2012,5,Pacaembu - Sao Paulo - SP,Domingo,20 de Maio de 2012,16:00,0,Corinthians - SP,,1.0,Fluminense - RJ,,,0.0,0.0


A amostra acima indica a existência dos seguintes campos em cada coluna:
- col01: competição
- col02: temporada
- col03: id_partida
- col04: estádio [, cidade, uf]
- col05: dia da semana
- col06: data por extenso
- col07: hora
- col08: placar do tempo normal para a equipe mandante
- col09: nome da equipe mandante
- col10: jogadores marcaram gols a favor da equipe mandante
- col11: placar do tempo normal para a equipe visitante
- col12: nome da equipe visitante
- col13: jogadores que marcaram gols a favor da equipe visitante
- col14: jogadores que marcaram gol contra a própria equipe
- col15: placar de disputa de pênaltis para a equipe mandante
- col16: placar de disputa de pênaltis para a equipe visitante

Vejamos, agora, algumas informações preliminares sobre o formato, os tipos de dados e possíveis faltantes do dataset:

In [54]:
raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5405 entries, 0 to 5404
Data columns (total 16 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   col01   5405 non-null   object 
 1   col02   5405 non-null   int64  
 2   col03   5405 non-null   int64  
 3   col04   5405 non-null   object 
 4   col05   5405 non-null   object 
 5   col06   5405 non-null   object 
 6   col07   5405 non-null   object 
 7   col08   5405 non-null   object 
 8   col09   5341 non-null   object 
 9   col10   3734 non-null   object 
 10  col11   5341 non-null   float64
 11  col12   5341 non-null   object 
 12  col13   3039 non-null   object 
 13  col14   325 non-null    object 
 14  col15   5340 non-null   float64
 15  col16   5339 non-null   float64
dtypes: float64(3), int64(2), object(11)
memory usage: 675.8+ KB


A célula indica confirma que o dataset possui 5.214 linhas e 16 colunas.

Em relação aos tipos, observamos que entre as colunas em que eram esperados números inteiros (aquelas correspondentes a temporada, id da partida e placares), as colunas `col11`, `col14`e `col15` estão tipadas como float64, possivelmente por possuírem valores `nan` nos registros faltantes.

E, ainda sobre dados faltantes, vemos que algumas colunas não deveriam possuí-los, como em `col09` (nome da equipe mandante) e `col15`/`col16` (placar de pênaltis, que deveriam possuir par diferente de 0/0 nas partidas com disputa de pênaltis e 0/0 em todos os demais casos). Como, dentre estes casos, a `col16` é a que parece ter maior número de faltantes, podemos começar a investigar a partir dela:

In [55]:
# armazenando as linhas com valor nulo na col16 no dataframe col16_null
col16_null = raw[raw['col16'].isnull()].copy()
col16_null

Unnamed: 0,col01,col02,col03,col04,col05,col06,col07,col08,col09,col10,col11,col12,col13,col14,col15,col16
1051,campeonato-brasileiro-serie-a,2014,292,Ilha do Retiro - Recife - PE,Quarta,22 de Outubro de 2014,22:30,0,Sport - PE,,1.0,Goiás - GO,Esquerdinha 45' (2ºT),,,
1897,campeonato-brasileiro-serie-a,2016,378,Arena Condá - Chapeco - SC,Domingo,11 de Dezembro de 2016,17:00,Chapecoense - SC,,Atlético - MG,,,0,0,,
3928,copa-brasil-masculino,2012,29,Presidente Vargas/CE - Fortaleza - CE,Quarta,14 de Março de 2012,20:30,Ceará - CE,,Gama - DF,,,0,0,,
3930,copa-brasil-masculino,2012,31,João Lamego - Ipatinga - MG,Quarta,14 de Março de 2012,20:30,Betim - MG,,Real Noroeste Capixaba - ES,,,0,0,,
3932,copa-brasil-masculino,2012,33,Alfredo Jaconi - Caxias do Sul - RS,Quarta,14 de Março de 2012,20:30,Juventude - RS,,Operario Ferroviario Esporte C - PR,,,0,0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4602,copa-brasil-masculino,2016,61,Nabi Abi Chedid - Braganca Paulista - SP,Terça,26 de Abril de 2016,19:15,Bragantino - SP,,Brasília - DF,,,0,0,,
4609,copa-brasil-masculino,2016,68,Couto Pereira - Curitiba - PR,Quarta,27 de Abril de 2016,19:30,Coritiba - PR,,Guarany - CE,,,0,0,,
4645,copa-brasil-masculino,2016,104,Mineirão - Belo Horizonte - MG,Terça,17 de Maio de 2016,21:30,Cruzeiro - MG,,Londrina - PR,,,0,0,,
4647,copa-brasil-masculino,2016,106,Vila Belmiro - Santos - SP,Quarta,18 de Maio de 2016,19:30,Santos - SP,,Galvez - AC,,,0,0,,


Em consulta ao site da CBF pelo nome da competição, edição e id da partida (usando a url **cbf.com.br/futebol-brasileiro/competicoes/`{competicao}`/`{temporada}`/`{id_partida}`?ref=linha** para cada caso), constatamos que:
- O primeiro (linha 1051) refere-se a uma partida cuja página tem formatação levemente diferente no trecho do HTML que identificaria eventual disputa de pênaltis, o que deve ter quebrado a lógica da raspagem e impedido a anotação dos valores `0` nos campos adequados
- O segundo (linha 1897) refere-se a uma partida da época em que ocorreu o acidente aéreo que vitimou os jogadores da Chapecoense - SC. O WO duplo foi acordado com a equipe adversária e a partida não foi realizada (mais detalhes [aqui](https://www.uol.com.br/esporte/futebol/ultimas-noticias/2016/12/05/presidente-da-chape-diz-que-cbf-ja-cancelou-jogo-contra-o-atletico-mg.htm)).
- Os demais correspondem a jogos da Copa do Brasil, de diferentes edições, que não foram realizados por conta da regra que prevê, nas fases iniciais da competição, a dispensa do jogo de volta se a equipe visitante vencer o jogo de ida por dois ou mais gols de diferença.
  - Nestas linhas, é possível observar que as colunas `col09` e `col15` também possuem valores nulos, sugerindo que a remoção destas linhas também deve servir como tratamento para os valores faltantes destas colunas.

Sendo assim, podemos apenas corrigir o primeiro caso e remover os demais do dataset:

**Corrigindo o primeiro caso:**

In [56]:
# corrigindo a linha 1051
raw.at[1051, 'col15'] = 0
raw.at[1051, 'col16'] = 0
raw.iloc[1051]

col01    campeonato-brasileiro-serie-a
col02                             2014
col03                              292
col04     Ilha do Retiro - Recife - PE
col05                           Quarta
col06            22 de Outubro de 2014
col07                            22:30
col08                                0
col09                       Sport - PE
col10                              NaN
col11                              1.0
col12                       Goiás - GO
col13           Esquerdinha 45' (2ºT) 
col14                              NaN
col15                              0.0
col16                              0.0
Name: 1051, dtype: object

<br>

**Removendo os demais:**

In [57]:
# remove a primeira linha do df col16_null
col16_null.drop(index=1051, inplace=True)
# coleta os índices do df col16_null
index_drop = col16_null.index
# dropa do df original as linhas correspondentes aos índices coletados
raw.drop(index=index_drop, inplace=True)
# confere se o df original ainda possui linhas com valor nulo na col16
raw[raw['col16'].isnull()]

Unnamed: 0,col01,col02,col03,col04,col05,col06,col07,col08,col09,col10,col11,col12,col13,col14,col15,col16


Agora, podemos testas as colunas `col09` e `col15` para verificar se ainda possuem valores nulos:

In [58]:
raw[raw['col09'].isnull()]

Unnamed: 0,col01,col02,col03,col04,col05,col06,col07,col08,col09,col10,col11,col12,col13,col14,col15,col16


In [59]:
raw[raw['col15'].isnull()]

Unnamed: 0,col01,col02,col03,col04,col05,col06,col07,col08,col09,col10,col11,col12,col13,col14,col15,col16


In [60]:
raw.shape

(5340, 16)

## Criando o dataset de dados tratados das partidas

Com estes procedimentos preliminares, conseguimos endereçar os principais casos de valores nulos e podemos iniciar a criação do dataset que deve conter os dados principais das partidas já tratados. Criamos um dataset vazio e começamos a populá-lo com as colunas que não precisam de tratamento (correspondentes ao nome da competição, à temporada e ao id de cada partida):

In [61]:
partidas = pd.DataFrame()

partidas['competicao'] = raw['col01']
mapper_competicao = {'campeonato-brasileiro-serie-a':'Brasileirao', 
                  'copa-brasil-masculino':'Copa-do-Brasil'}
competicao = pd.Categorical(raw['col01'].replace(mapper_competicao),
                            categories=['Brasileirao', 'Copa-do-Brasil'])
partidas['competicao'] = competicao

partidas['temporada'] = raw['col02']
partidas['id_partida'] = raw['col03']

Para os dados sobre o local da partida, desmembramos a coluna `col04` dos dados originais, que traz o nome do estádio e, na maioria dos casos, também a cidade e o Estado onde se encontra:

In [62]:
local = raw['col04'].str.split(' - ', expand=True)
local.columns = ['estadio', 'cidade', 'uf']
partidas = pd.concat([partidas, local], axis=1)

Antes de incorporar os dias da semana ao dataset tratado, primeiro faremos uma verificação dos valores existentes na coluna: 

In [63]:
raw['col05'].value_counts()

Domingo    1786
Quarta     1740
Sábado      872
Quinta      618
Segunda     153
Terça       148
Sexta        23
Name: col05, dtype: int64

Uma vez confirmada a correção dos valores, podemos convertê-los para o tipo categórico antes de incorporá-los ao dataset tratado, o que tornará mais fácil eventuais análises temporais que demandem a ordem correta dos dias da semana. A esta altura, também podemos incorporar os registros de data/hora das partidas, convertendo-os para os tipos date/time da biblioteca **datetime**:

In [64]:
dias_da_semana = ['Domingo', 'Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sábado']
partidas['dia_semana'] = pd.Categorical(raw['col05'], categories=dias_da_semana, ordered=True)
partidas['data'] = raw['col06'].apply(lambda d: datetime.strptime(d, ' %d de %B de %Y').date())
partidas['hora'] = raw['col07'].apply(lambda h: datetime.strptime(h, '%H:%M').time())

Chegamos às colunas `col09` e `col12` - aquelas que contêm os nomes das equipes e, provavelmente, oferecem os maiores desafios de tratamento. Vejamos uma amostra dos nomes de equipes existentes no dataset:

In [65]:
equipes = pd.concat([raw['col09'], raw['col12']]).unique()
equipes.sort()
print('Total de nomes distintos:', len(equipes))
print(' * '.join(equipes))

Total de nomes distintos: 299
4 de Julho - PI * 7 de Setembro - MS * A.b.c. - RN * A.s.a. - AL * ABC - RN * Abc - RN * Afogados - PE * Aguia - PA * Aguia Negra - MS * Aimoré - RS * Alecrim - RN * Altos - PI * Amadense - SE * America - MG * America Fc - MG * Americano - RJ * América - MG * América - RN * América Fc Saf - MG * América de Natal - RN * Anapolina - GO * Anápolis - GO * Aparecidense - GO * Aquidauanense - MS * Aquidauanense Futebol Clube - MS * Aracruz - ES * Arapongas Esporte Clube - PR * Asa - AL * Athletico Paranaense - PR * Atletico - ES * Atletico - PR * Atlético - AC * Atlético - BA * Atlético - GO * Atlético - MG * Atlético - PR * Atlético Cearense - CE * Atlético Mineiro - MG * Atlético Paranaense - PR * Audax - SP * Auto Esporte - PB * Avaí - SC * Avenida - RS * Azuriz - PR * Bahia - BA * Bahia de Feira - BA * Bangu - RJ * Barbalha - CE * Betim - MG * Boa - MG * Boavista - RJ * Boavista Sport Club (antigo Esporte Clube Barreira) - RJ * Botafogo - PB * Botafogo - RJ 

Entre os diversos pontos de atenção nos valores existentes para estas colunas, podemos destacar:
- Nomes abreviados com e sem pontuação. Ex: ***A.b.c* - RN** e ***ABC* - RN**
- Menção aos termos *Esporte Clube* (**Arapongas *Esporte Clube* - PR**), *Futebol Clube* (**Paulista *Futebol Clube* - SP**), *FC* (**América *Fc***) etc., que são comuns à maioria dos nomes das equipes, mas que só aparecem grifados em alguns casos.
  - Ainda, há casos em que o nome da mesma equipe aparece com e sem os termos, como **Santos - SP** e **Santos Fc - SP**
- Nomes semelhantes com diferentes grafias. Ex: **Crici*u*ma - SC** e **Crici*ú*ma - SC**
- Nomes que possuem a referência geográfica da equipe em alguns registro e não em outros. Ex: **América - RN** e **América *de Natal* - RN**

Além destes, há também os casos mais comuns de excesso de espaço antes, entre ou ao final das palavras, capitalização geral dos caracteres, acentuação etc.

Tentaremos endereçar todos estes casos numa única função, a ser aplicada a todos os nomes:

In [66]:
def normaliza_nome(nome):
    nome = nome.strip().upper().replace('.', '')
    nome = re.sub('[EF]\s?C\s', '', nome)
    nome = nome.replace('FUTEBOL CLUBE', '').replace('ESPORTE CLUBE', '')
    com_acento = 'ÄÁÀÃÂËÉÈÊÏÍÌÎÖÓÒÕÔÜÚÙÛÇÑ'
    sem_acento = 'AAAAAEEEEIIIIOOOOOUUUUCN'
    table = nome.maketrans(com_acento, sem_acento)
    nome = nome.translate(table)
    nome = nome.replace('ATHLETICO', 'ATLETICO')
    nome = nome.replace('C R B', 'CRB')
    nome = nome.replace('DE NATAL - RN', '- RN')\
                .replace('PARANAENSE - PR', '- PR')\
                .replace('CEARENSE - CE', '- CE')\
                .replace('MINEIRO - MG', '- MG')\
                .replace('DO PIAUI - PI', '- PI')
    nome = re.sub('\s+', ' ', nome)
    return nome

Agora, aplicamos a função e conferimos uma amostra menor dos nomes das equipes, para verificação dos resultados:

In [67]:
partidas

Unnamed: 0,competicao,temporada,id_partida,estadio,cidade,uf,dia_semana,data,hora
0,Brasileirao,2012,1,São Januário,Rio de Janeiro,RJ,Domingo,2012-05-20,18:30:00
1,Brasileirao,2012,2,Pituaçu,Salvador,BA,Domingo,2012-05-20,18:30:00
2,Brasileirao,2012,3,Pacaembu,Sao Paulo,SP,Sábado,2012-05-19,18:30:00
3,Brasileirao,2012,4,Orlando Scarpelli,Florianopolis,SC,Sábado,2012-05-19,21:00:00
4,Brasileirao,2012,5,Pacaembu,Sao Paulo,SP,Domingo,2012-05-20,16:00:00
...,...,...,...,...,...,...,...,...,...
5400,Copa-do-Brasil,2022,87,Arena Barueri,Barueri,SP,Quinta,2022-05-12,19:30:00
5401,Copa-do-Brasil,2022,88,Nilton Santos,Rio de Janeiro,RJ,Quinta,2022-05-12,21:30:00
5402,Copa-do-Brasil,2022,89,Vila Belmiro,Santos,SP,Quinta,2022-05-12,21:30:00
5403,Copa-do-Brasil,2022,90,Nabi Abi Chedid,Braganca Paulista,SP,Terça,2022-05-31,21:30:00


In [68]:
mandante = raw['col09'].apply(normaliza_nome)
visitante = raw['col12'].apply(normaliza_nome)
cat_equipes = pd.concat([mandante, visitante]).unique()
cat_equipes.sort()

partidas['mandante'] = pd.Categorical(mandante, categories=cat_equipes)
partidas['visitante'] = pd.Categorical(visitante, categories=cat_equipes)

print('Total de nomes distintos:', len(cat_equipes))
'  *  '.join(np.random.choice(cat_equipes, 50))

Total de nomes distintos: 275


'FERROVIARIA - SP  *  PALMAS LTDA - TO  *  CAPIVARIANO - SP  *  ATLETICO - MG  *  RESENDE - RJ  *  GURUPI - TO  *  UBERLANDIA - MG  *  SANTO ANDRE - SP  *  4 DE JULHO - PI  *  GALVEZ - AC  *  4 DE JULHO - PI  *  MADUREIRA - RJ  *  GREMIO ESPORTIVO SAPUCAIENSE - RS  *  CABOFRIENSE - RJ  *  PAYSANDU - PA  *  UNIAO DE RONDONOPOLIS - MT  *  DESPORTIVA - ES  *  SERGIPE - SE  *  LUVERDENSE - MT  *  PALMAS LTDA - TO  *  NOVA IGUACU - RJ  *  SANTA QUITERIA - MA  *  AGUIA - PA  *  CAPIVARIANO - SP  *  ESTANCIANO - SE  *  ATLETICO - GO  *  AFOGADOS - PE  *  JUVENTUDE - MA  *  LUZIANIA - DF  *  SAO RAIMUNDO - RR  *  NAUTICO - PE  *  CORITIBA - PR  *  NOVA VENECIA - ES  *  ATLETICO - PR  *  NOVOPERARIO - MS  *  SAO BENTO - SP  *  SOUZA - PB  *  BANGU - RJ  *  ESPORTIVO - RS  *  RIO BRANCO - AC  *  JOINVILLE - SC  *  GOIAS - GO  *  NOVA MUTUM - MT  *  FORTALEZA - CE  *  REAL BRASILIA - DF  *  MIRASSOL - SP  *  IVINHEMA - MS  *  ATLETICO - AC  *  SFRANCISCO - PA  *  TUPI - MG'

Também podemos ver que o número de nomes distintos foi reduzido de 279 para 256, pois a aplicação da função de padronização identificou variantes dos nomes de algumas equipes.

Agora, acrescentamos ao dataset tratado os placares do tempo normal de jogo e de eventual disputas de pênaltis:

In [69]:
# placar do tempo normal
partidas['mand_placar'] = raw['col08'].apply(lambda g: int(g))
partidas['visit_placar'] = raw['col11'].apply(lambda g: int(g))
# flag para identificação de jogos com disputas de pênaltis
mand_zero_penaltis = raw['col15'].fillna(0).apply(lambda x: x==0)
visit_zero_penaltis = raw['col16'].fillna(0).apply(lambda x: x==0)
zero_penaltis = mand_zero_penaltis * visit_zero_penaltis
raw[~zero_penaltis]
partidas['disputa_penaltis'] = ~zero_penaltis
# placar das disputas de pênaltis
partidas['mand_penaltis'] = raw['col15'].fillna(0).apply(lambda p: int(p))
partidas['visit_penaltis'] = raw['col16'].fillna(0).apply(lambda p: int(p))

Finalmente, podemos conferir o dataset com todos os dados tratados:

In [70]:
partidas.sort_values(by=['data', 'temporada', 'id_partida'], inplace=True)
partidas

Unnamed: 0,competicao,temporada,id_partida,estadio,cidade,uf,dia_semana,data,hora,mandante,visitante,mand_placar,visit_placar,disputa_penaltis,mand_penaltis,visit_penaltis
3900,Copa-do-Brasil,2012,1,Valmir Bezerra,Gama,DF,Quarta,2012-03-07,19:30:00,GAMA - DF,CEARA - CE,0,2,False,0,0
3901,Copa-do-Brasil,2012,2,Horácio Domingos,Horizonte,CE,Quarta,2012-03-07,20:30:00,HORIZONTE - CE,AMERICA - RN,2,0,False,0,0
3902,Copa-do-Brasil,2012,3,Passo das Emas,Lucas do Rio Verde,MT,Quarta,2012-03-07,20:30:00,LUVERDENSE - MT,PARANA - PR,2,2,False,0,0
3903,Copa-do-Brasil,2012,4,Nhozinho Santos,Sao Luis,MA,Quarta,2012-03-07,20:30:00,SAMPAIO CORREA - MA,ATLETICO - PR,2,1,False,0,0
3904,Copa-do-Brasil,2012,5,José Oimpio,Aguia Branca,ES,Quarta,2012-03-07,20:30:00,REAL NOROESTE CAPIXABA - ES,BETIM - MG,0,2,False,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3895,Brasileirao,2022,96,Alfredo Jaconi,Caxias do Sul,RS,Quarta,2022-06-08,19:00:00,JUVENTUDE - RS,ATLETICO - PR,1,3,False,0,0
3897,Brasileirao,2022,98,Antônio Accioly,Goiania,GO,Quarta,2022-06-08,20:30:00,ATLETICO - GO,AVAI - SC,2,1,False,0,0
3893,Brasileirao,2022,94,Allianz Parque,Sao Paulo,SP,Quinta,2022-06-09,19:00:00,PALMEIRAS - SP,BOTAFOGO - RJ,4,0,False,0,0
3896,Brasileirao,2022,97,Arena Castelão,Fortaleza,CE,Quinta,2022-06-09,20:00:00,FORTALEZA - CE,GOIAS - GO,1,1,False,0,0


Para persistir os resultados do tratamento, vamos salvar o dataset em arquivo. Teremos uma versão em csv, pela sua versatilidade de uso em outras ferramentas, e outra em parquet, pela possibilidade deste formato incorporar os tipos de dados atribuídos durante o tratamento (o que não é possível com o formato csv).

In [71]:
# salvando em parque para consumo imediato
partidas.to_parquet('dados/partidas.parquet')

In [72]:
# salvando em csv para repositório
for competicao in partidas['competicao'].unique():
    for temporada in partidas['temporada'].unique():
        path_dir = os.path.join('dados', competicao, str(temporada))
        if not os.path.exists(path_dir):
            os.makedirs(path_dir, exist_ok=True)
        path_partidas = os.path.join(path_dir, 'partidas.csv')
        partidas.to_csv(path_partidas, index=False, encoding='utf8', mode='w+')

## Criando o dataset de dados tratados dos gols marcados em cada partida

O dataset anterior agrupa todos os dados de cada partida que podem ser acomodados numa única linha do dataset. São dados de caracterização da partida existentes nas páginas raspadas, como identificador, data, hora, local, equipes e placar final.

No entanto, uma única partida pode ter nenhum, um ou muitos gols, marcados por qualquer das equipes, e cada gol pode ser anotado por quaisquer um dos jogadores que tenham atuado durante o jogo. Daí, a necessidade de serem armazenados num dataset à parte.

Aqui, o dataset também será criado a partir do tratamento dos dados brutos .

Começemos pelas colunas `col10`, `col13`, que trazem coleções de registros de gols marcados a favor da equipe mandante ou da equipe visitante, respectivamente, e também pela coluna `col14`, que identifica eventuais gols contra.

Primeiro, vamos segmentar os valores não nulos desta coluna pelo caracter `|`, que separa os registros de gol de cada coluna:

In [73]:
dados_gols = raw[['col10', 'col13', 'col14']].fillna('').copy()
dados_gols = pd.concat([partidas, dados_gols], axis=1)

In [74]:
dados_gols.sample(3)

Unnamed: 0,competicao,temporada,id_partida,estadio,cidade,uf,dia_semana,data,hora,mandante,visitante,mand_placar,visit_placar,disputa_penaltis,mand_penaltis,visit_penaltis,col10,col13,col14
2340,Brasileirao,2018,61,Independência,Belo Horizonte,MG,Sábado,2018-05-26,21:00:00,ATLETICO - MG,FLAMENGO - RJ,0,1,False,0,0,,Éverton Ribeiro 34' (2ºT),
2234,Brasileirao,2017,335,Olímpico Pedro Ludovico,Goiania,GO,Domingo,2017-11-12,17:00:00,ATLETICO - GO,SPORT - PE,2,0,False,0,0,Diego Rosa 41' (1ºT) | Diego Rosa 31' (2ºT),,
69,Brasileirao,2012,70,João Havelange,Rio de Janeiro,RJ,Domingo,2012-07-01,18:30:00,FLAMENGO - RJ,ATLETICO - GO,3,2,False,0,0,,,


In [75]:
for col in dados_gols.columns[-3:]:
    dados_gols[col] = dados_gols[col].apply(lambda x: [g.strip() for g in x.split('|')])

Agora, os valores das colunas `col10` e `col13` compreendem listas cujos tamanhos são iguais aos placares do mandantes e visitantes, respectivamentes (a coluna `col14` possui valores pontuais pois, como dito antes, identifica eventuais gols contra).

In [76]:
def valida_col_gols(x):
    return False if x==[''] else True

col10_gols = [valida_col_gols(x) for x in dados_gols['col10']]
col13_gols = [valida_col_gols(x) for x in dados_gols['col13']]
col14_gols = [valida_col_gols(x) for x in dados_gols['col14']]
mask_gols = [any([a, b, c]) for a, b, c in zip(col10_gols, col13_gols, col14_gols)]

dados_gols[mask_gols][['competicao', 'temporada', 'id_partida', 'mandante', 'mand_placar', 
                         'visit_placar', 'visitante', 'col10', 'col13', 'col14']].head(5)

Unnamed: 0,competicao,temporada,id_partida,mandante,mand_placar,visit_placar,visitante,col10,col13,col14
103,Brasileirao,2012,104,INTERNACIONAL - RS,4,1,ATLETICO - GO,"[Elton 20' (1ºT), Dagoberto 1' (2ºT), Jakson A...",[Renie 27' (1ºT)],[]
116,Brasileirao,2012,117,ATLETICO - GO,4,3,SAO PAULO - SP,[Wesley 16' (1ºT)],[João Schmidt 3' (2ºT)],[]
380,Brasileirao,2013,1,VASCO DA GAMA - RJ,1,0,PORTUGUESA - SP,[Carlos 2' (2ºT)],[],[]
381,Brasileirao,2013,2,FLUMINENSE - RJ,2,1,ATLETICO - PR,"[Rafael Sobis 15' (1ºT), Samuel 8' (2ºT)]",[Manoel 27' (1ºT)],[]
382,Brasileirao,2013,3,CORINTHIANS - SP,1,1,BOTAFOGO - RJ,[Paulinho 28' (2ºT)],[Rafael Marques 25' (1ºT)],[]


Importante observar que a primeira partida com registro do autor de um gol é aquela da linha 103, sendo pouco provável que as quase 100 partidas anteriores tenham terminado em zero a zero. Conferindo o site da CBF, observamos que somente na temporada de 2013 as páginas das partidas passaram a apresentar os autores de cada gol.

Agora, definimos uma função capaz de receber cada registro existente nas listas das colunas `col10` e `col13` e extrair o nome do jogador e o minuto de jogo correspondente ao gol anotado:

In [77]:
def format_marcacao_gol(jogador_minuto_periodo):
    periodo = jogador_minuto_periodo[-4:-1]
    jogador_minuto = jogador_minuto_periodo[:-7]
    jogador = re.sub(r'[\d]{1,2}(\+[\d]{1,2})?$', '', jogador_minuto).strip()
    minuto = jogador_minuto.replace(jogador, '').strip()
    if minuto.find('+') > 0:
        minuto = 45.5 # atribui o valor 45.5 a qualquer gol anotado nos acréscimos
    elif int(minuto) > 45:
        minuto = 45.5 # idem
    minuto = float(minuto)
    if periodo=='2ºT':
        minuto += 45
    return [jogador, minuto]

Uma coisa a ser observada é que a forma como o tempo de jogo é originalmente expresso nos registros (**`8' (1ºT)`**, **`45+3' (1ºT)`** ou **`21' (2ºT)`**, por exemplo) torna um pouco mais difícil sua manipulação como variável ordinal. Por isso, os valores de tempo de jogo foram convertidos para o intervalo entre 1 e 90.5, sendo que o valor 45.5 representa os gols marcados nos acréscimos do primeiro tempo, os valores acima de 45.5 os gols marcados durante o segundo tempo e o valor 90.5 os gols marcados nos acréscimos do segundo tempo.

Podemos, agora, aplicar a função definida anteriormente e coletar os resultados da lógica abaixo na variável `registro_gols`:

In [78]:
registro_gols = []

for idx, row in dados_gols.iterrows():
    if row['col10']!=['']:
        for m in row['col10']:
            registro = [row['competicao'], row['temporada'], row['id_partida'],
                        row['estadio'], 'mandante', row['mandante']]
            lado = 'pro'
            if m in row['col14']:
                lado = 'contra'
            jogador, minuto = format_marcacao_gol(m)
            registro += [lado, jogador, minuto]
            registro_gols.append(registro)
    if row['col13']!=['']:
        for n in row['col13']:
            registro = [row['competicao'], row['temporada'], row['id_partida'],
                        row['estadio'], 'visitante', row['visitante']]
            lado = 'pro'
            if n in row['col14']:
                lado = 'contra'
            jogador, minuto = format_marcacao_gol(n)
            registro += [lado, jogador, minuto]
            registro_gols.append(registro)

A variável `registro_gols` é uma lista homogênea de listas com o mesmo comprimento. Sua estrutura tabular nos permite popular um dataframe:

In [79]:
cols = ['competicao', 'temporada', 'id_partida', 'estadio', 'campo', 'equipe', 'pro_contra', 'jogador', 'minuto']
gols = pd.DataFrame(registro_gols, columns=cols)
gols.sort_values(by=['competicao', 'temporada', 'id_partida', 'minuto'], inplace=True)

In [80]:
gols['competicao'] = pd.Categorical(gols['competicao'],
                            categories=['Brasileirao', 'Copa-do-Brasil'])

gols['equipe'] = pd.Categorical(gols['equipe'],
                            categories=cat_equipes)

Assim, temos um dataframe contendo todos os gols extraídos do dataset original:

In [81]:
gols.sort_values(by=['competicao', 'temporada', 'id_partida', 'minuto'], inplace=True)
gols

Unnamed: 0,competicao,temporada,id_partida,estadio,campo,equipe,pro_contra,jogador,minuto
0,Brasileirao,2012,104,Beira-Rio,mandante,INTERNACIONAL - RS,pro,Elton,20.0
4,Brasileirao,2012,104,Beira-Rio,visitante,ATLETICO - GO,pro,Renie,27.0
1,Brasileirao,2012,104,Beira-Rio,mandante,INTERNACIONAL - RS,pro,Dagoberto,46.0
2,Brasileirao,2012,104,Beira-Rio,mandante,INTERNACIONAL - RS,pro,Jakson Avelino,58.0
3,Brasileirao,2012,104,Beira-Rio,mandante,INTERNACIONAL - RS,pro,Fred,76.0
...,...,...,...,...,...,...,...,...,...
11399,Copa-do-Brasil,2022,89,Vila Belmiro,mandante,SANTOS - SP,pro,Madson,61.0
11400,Copa-do-Brasil,2022,89,Vila Belmiro,mandante,SANTOS - SP,pro,Rodrigo,63.0
11401,Copa-do-Brasil,2022,90,Nabi Abi Chedid,visitante,GOIAS - GO,pro,Matheus Sales,43.0
11402,Copa-do-Brasil,2022,91,Raulino de Oliveira,mandante,FLAMENGO - RJ,pro,Gabriel Barbosa,58.0


Por fim, vamos armazenar em arquivo os dados de gols já tratados. Utilizaremos a mesma estratégia adotada para os dados das partidas, gerando um csv e um parquet:

In [82]:
gols.to_parquet('dados/gols.parquet')

In [84]:
# salvando em csv para repositório
for competicao in gols['competicao'].unique():
    for temporada in gols['temporada'].unique():
        # não precisamos checar novamente se diretórios existem
        path_gols = os.path.join('dados', competicao, str(temporada), 'gols.csv')
        gols.to_csv(path_gols, index=False, encoding='utf8')