#CartolaFC

O CartolaFC é o futebol de fantasia mais popular do Brasil. Antes de cada rodada do Campeonato Brasileiro (1ª divisão), os jogadores escolhem quais atletas querem para suas equipes e marcam pontos com base em suas performances na vida real. Ativo deste 2014, o jogo vem em crescente sucesso, tendo pouco mais de [8,5 milhões de contas criadas no ano de 2018](https://www.gazetadopovo.com.br/vozes/cartoleiros/cartola-milhoes-globo/). 

No game, os jogadores de cada clube da competição nacional podem ser escalados pelos usuários. Cada jogador receberá uma nota de acordo com seu rendimento em campo seguindo algumas regras de pontuação que podem ser consultadas [aqui](https://docs.google.com/spreadsheets/d/1dEihc-1BTNudkgDnANfztk70D6ga8V6xe2ji-TgI90k/edit?usp=sharing).


## Dados
Os dados dos anos de 2014 até 2017 foram disponibilizados no [kaggle](https://www.kaggle.com/schiller/cartolafc).
Dados do ano de 2018 e outros dados complementares, foram coletados do repositório [caRtola](https://github.com/henriquepgomide/caRtola/tree/master/data).


### Inconsistências

Como os dados são provenientes da API oficial do game, e esta sofreu alterações na forma em que disponibiliza os dados ao longo destes anos, então há inconsistências nos dados que impede o uso do dataset completo de forma fácil. Algumas dessas inconsistências são:

**2014:**
* Os identificadores das colunas são diferentes das tabelas dos outros anos.
* Alguns jogadores possui valores inconsistentes no campo de id do clube.

**2015:**
* Os identificadores das colunas são diferentes das tabelas dos outros anos.
* Não há informações sobre a posição do jogador.
* Não há registros da última rodada do campeonato.
* Os scouts são cumulativos, ou seja, os scouts dos jogadores vão sendo somados a cada rodada.
* Não fornece nenhum campo que identifique se o jogador participou ou não de uma rodada.

**2016:**
* Não há informações sobre a posição do jogador.

**2017 e 2018:**
* Ao contrário do que é feito nas anteriores, apresenta o nome do clube e sua abreviação, e não o identificador.
* Não fornece nenhum campo que identifique se o jogador participou ou não de uma rodada. Apenas seu status no mercado.
* Os scouts são cumulativos, ou seja, os scouts dos jogadores vão sendo somados a cada rodada.
* Os dados de 2018 estão separados em arquivos diferentes para cada rodada.

**Gerais:**
* ID de alguns clubes são diferentes em anos diferentes.
* Algumas tabelas contém valores nulos em campos importantes, como nome ou identificador do clube.

### Objetivo
O objetivo é padronizar os dados, eliminando as inconsistências citadas e resolver problemas de compatibilidade. E ainda, através desses dados extrair informações sobre as equipes do campeonato brasileiro para cada rodada de cada edição. 

In [0]:
import pandas as pd

In [0]:
team_dict = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/times_ids.csv')

In [0]:
def get_round(round, year=2018):
    data = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/' + str(year) + '/rodada-' + str(round) + '.csv')
    return data

scouts_2018 = pd.DataFrame()
all_rounds = []
for i in range(1, 39):
    all_rounds.append(get_round(i))
    
scouts_2018 = pd.concat(all_rounds, ignore_index=True, sort=False)

In [0]:
scouts_2014 = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/2014/2014_scouts_raw.csv')
scouts_2015 = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/2015/2015_scouts_raw.csv')
scouts_2016 = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/2016/2016_scouts_raw.csv')
scouts_2017 = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/2017/2017_scouts_raw.csv')

In [0]:
players_2016 = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/2016/2016_jogadores.csv')
players_2015 = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/2015/2015_jogadores.csv')
players_2014 = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/2014/2014_jogadores.csv')
positions = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/posicoes_ids.csv')
teams_2017 = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/2017/2017_times.csv', sep=';')


Para facilitar a manipulação do dados, incialmente é feita uma padronização dos identifcadores de cada coluna.

In [0]:
dict_2014 = {'Atleta': 'atleta_id','Rodada':'rodada','Clube':'clube_id',
             'Posicao':'atleta_posicao_id','Pontos':'pontuacao',
             'PontosMedia':'pontuacao_media','Preco':'preco','PrecoVariacao':'preco_variacao'}

dict_2015 = {"Rodada":'rodada',"ClubeID":'clube_id',"AtletaID":'atleta_id',"Pontos":'pontuacao',
             "PontosMedia":'pontuacao_media',"Preco":'preco',"PrecoVariacao":'preco_variacao'}

dict_2016 = {"Rodada":'rodada',"ClubeID":'clube_id',"AtletaID":'atleta_id',"Pontos":'pontuacao',
             "PontosMedia":'pontuacao_media',"Preco":'preco',"PrecoVariacao":'preco_variacao'}

dict_2017 = {'atletas.apelido':'atleta_apelido','atletas.atleta_id':'atleta_id',
             'atletas.clube.id.full.name':'clube_nome','atletas.clube_id':'clube_id',
             'atletas.media_num':'pontuacao_media','atletas.nome':'atleta_nome',
             'atletas.pontos_num':'pontuacao','atletas.posicao_id':'posicao',
             'atletas.preco_num':'preco','Rodada':'rodada','atletas.variacao_num':'preco_variacao'}

dict_2018 = {"atletas.nome":'atleta_nome',"atletas.slug":'atleta_slug',"atletas.apelido":'atleta_apelido',
             "atletas.atleta_id":'atleta_id',"atletas.rodada_id":'rodada',"atletas.clube_id":'clube_id',
             "atletas.posicao_id":'posicao',"atletas.pontos_num":'pontuacao',"atletas.preco_num":'preco',
             "atletas.variacao_num":'preco_variacao',"atletas.media_num":'pontuacao_media',
             "atletas.clube.id.full.name":'clube_nome'}

In [0]:
scouts_2014.rename(columns=dict_2014, inplace=True)
scouts_2015.rename(columns=dict_2015, inplace=True)
scouts_2016.rename(columns=dict_2016, inplace=True)
scouts_2017.rename(columns=dict_2017, inplace=True)
scouts_2018.rename(columns=dict_2018, inplace=True)

Como os dados de 2014, 2015 e 2016 não contam com a abreviação da posição do jogador, é necessário buscar em outra tabela através do id fornecido.

In [0]:
def position_abbr_2015(id):
  pos_id = players_2015[players_2015['ID'] == id]['PosicaoID'].values[0]
  pos = positions[positions['Cod'] == pos_id]['abbr'].values[0]
  
  return pos


def position_abbr_2016(id):
  pos_id = players_2016[players_2016['ID'] == id]['PosicaoID'].values[0]
  pos = positions[positions['Cod'] == pos_id]['abbr'].values[0]
  
  return pos


def position_abbr_2014(id):
  pos_id = players_2014[players_2014['ID'] == id]['PosicaoID'].values[0]
  pos = positions[positions['Cod'] == pos_id]['abbr'].values[0]
  
  return pos

In [0]:
scouts_2014['posicao'] = scouts_2014.apply(lambda  row: position_abbr_2014(row['atleta_id']), axis=1)
scouts_2015['posicao'] = scouts_2015.apply(lambda  row: position_abbr_2015(row['atleta_id']), axis=1)
scouts_2016['posicao'] = scouts_2016.apply(lambda  row: position_abbr_2016(row['atleta_id']), axis=1)

Adicionando os id's dos clubes.


In [0]:
def clube_id_2017(name):
  id = teams_2017[teams_2017['Nome'] == name]['ID'].values[0]
  
  return id


def clube_id_2014(atleta_id):
  id = players_2014[players_2014['ID'] == atleta_id]['ClubeID'].values[0]
  
  return id


def clube_id_2016(atleta_id):
  id = players_2016[players_2016['ID'] == atleta_id]['ClubeID'].values[0]
  
  return id


def clube_id_2018(name):
  id = team_dict[team_dict['nome.cartola'] == name]['id'].values[0]
  
  return id

In [0]:
# Remove jogadores que não possuem o campo do nome do time 
scouts_2017 = scouts_2017.drop(scouts_2017[scouts_2017['clube_nome'] != scouts_2017['clube_nome']].index)
scouts_2017['clube_id'] = scouts_2017.apply(lambda  row: clube_id_2017(row['clube_nome']), axis=1)

scouts_2014['clube_id'] = scouts_2014.apply(lambda  row: clube_id_2014(row['atleta_id']), axis=1)

# Altera o antigo id de clubes que tiveram o identificador alterado na plataforma
scouts_2014.loc[scouts_2014['clube_id'] == 288, 'clube_id'] = 206
scouts_2015.loc[scouts_2015['clube_id'] == 317, 'clube_id'] = 215

scouts_2016['clube_id'] = scouts_2016.apply(lambda  row: clube_id_2016(row['atleta_id']), axis=1)
scouts_2018['clube_id'] = scouts_2018.apply(lambda  row: clube_id_2018(row['atletas.clube.id.full.name']), axis=1)

Padroniza a ordem das colunas e remove colunas desnecessárias.

In [0]:
columns = ['rodada', 'atleta_id', 'clube_id', 'pontuacao', 'pontuacao_media', 
           'preco', 'preco_variacao', 'posicao', 'FS', 'PE', 'A', 'FT', 'FD', 'FF', 
           'G', 'I', 'PP', 'RB', 'FC', 'GC', 'CA', 'CV', 'SG', 'DD', 'DP', 'GS']

scouts_2014 = scouts_2014[columns]
scouts_2015 = scouts_2015[columns]
scouts_2016 = scouts_2016[columns]
scouts_2017 = scouts_2017[columns]
scouts_2018 = scouts_2018[columns]

Adiciona a informação sobre a participação do jogador em cada rodada.

In [0]:
def played_match(row):
  score = row['pontuacao']
  variation = row['preco_variacao']
  
  if 0 == score == variation:
    return False
  
  return True

In [0]:
scouts_2014['participou'] = scouts_2014.apply(lambda  row: played_match(row), axis=1)
scouts_2015['participou'] = scouts_2015.apply(lambda  row: played_match(row), axis=1)
scouts_2016['participou'] = scouts_2016.apply(lambda  row: played_match(row), axis=1)
scouts_2017['participou'] = scouts_2017.apply(lambda  row: played_match(row), axis=1)
scouts_2018['participou'] = scouts_2018.apply(lambda  row: played_match(row), axis=1)

Tornando cumulativos os dados dos scouts de 2014 e 2016.

In [0]:
def fill_cumulative_data(data, cols):
  
  data = data.sort_values(by=['rodada'])
  
  for index, row in data.iterrows():
    for column in cols:
      round = row['rodada']
      player = row['atleta_id']

      if round > 1:
        last = data[(data['atleta_id'] == player) & (data['rodada'] == round-1)]

        if len(last[column].values) > 0:
          n = row[column]
          if n != n:
            n = 0
          m = last[column].values[0]
          data.loc[index, column] = n + m
  
  return data

In [0]:
columns = ['FS', 'PE', 'A', 'FT', 'FD', 'FF', 'G', 'I', 'PP', 'RB', 'FC', 'GC', 
           'CA', 'CV', 'SG', 'DD', 'DP', 'GS']

scouts_2014 = fill_cumulative_data(scouts_2014, columns)
scouts_2016 = fill_cumulative_data(scouts_2016, columns)

## Extração de dados das equipes
Para esse processo, é necessário também as informações sobre os resultados das partidas de cada edição do campeonato, e também uma tabela com as identificações dos times. 
Como os dados dos scouts já estão todos padronizados, os procedimentos a seguir podem ser feitos para todos eles. Para ficar mais compreensível farei o processo apenas com os dados de 2014.

In [0]:
year = '2014'

team_dict = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/times_ids.csv')
matchs = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/'+year+'/'+year+'_partidas.csv')
# scouts = pd.read_csv('/content/gdrive/My Drive/Data Science/Cartola/Standardized/scouts_'+year+'.csv')

scouts = scouts_2014

Como a tabela de resultados das partidas identifica os times pelos nomes e no scout pelo id, para facilitar é preciso substituir o nome pelo id do clube.

In [0]:
def replace_slug_by_id(slug):
  name = team_dict[team_dict['nome.cbf'] == slug]['id'].values
  return name[0]

In [0]:
matchs['home_team'] = matchs.apply(lambda  row: replace_slug_by_id(row['home_team']), axis=1)
matchs['away_team'] = matchs.apply(lambda  row: replace_slug_by_id(row['away_team']), axis=1)

Criando o dataframe que conterá as informações dos 20 times, em todas as 38 rodadas.

In [0]:
team_ids = matchs['home_team'].unique()
tr = pd.DataFrame({'team': [], 'round': []})

for i in range(1, 39):
    df = pd.DataFrame({'team': team_ids,
                       'round': [i] * 20})
    tr = tr.append(df, sort=False)

    
# sem dados para a última rodada do campeonato de 2015
if year == '2015':
  tr = tr[:-20]
    
tr['round'] = tr['round'].astype(int)

Adiciona o resultado da partida jogada em cada rodada.

* 0 - derrota
* 1 - empate
* 3 - vitória



In [0]:
def match_result(team, round):
  match = matchs[((matchs['home_team'] == team) | 
                  (matchs['away_team'] == team)) & 
                 (matchs['round'] == round)]['score'].values[0]
  
  if len(match) < 5:
    return 0
  
  match = match.split('x')
  
  is_home = matchs[(matchs['home_team'] == team) & (matchs['round'] == round)].shape[0]
  
  if is_home == 1:
    if int(match[0]) > int(match[1]):
      return 3
    
    elif int(match[0]) < int(match[1]):
      return 0
    
    return 1
    
  if int(match[0]) > int(match[1]):
    return 0

  elif int(match[0]) < int(match[1]):
    return 3

  return 1

In [0]:
tr['result_match'] = tr.apply(lambda row: match_result(row['team'], row['round']), axis=1)

Calcula a pontuação das equipes em cada uma das rodadas.

In [0]:
def cs_per_round(row, data):
  team = row['team']
  round = row['round']
  
  data = data[data['team'] == team]
  data = data[data['round'] <= round]
  
  score = data['result_match'].sum()
  
  return score

In [0]:
tr['championship_score'] = tr.apply(lambda row: cs_per_round(row, tr), axis=1)

Informação sobre o mando de campo.

In [0]:
def is_home_team(team, round):
  is_home = matchs[(matchs['home_team'] == team) & 
                   (matchs['round'] == round)].shape[0]
  return is_home

In [0]:
tr['home_team'] = tr.apply(lambda row: is_home_team(row['team'], row['round']), axis=1)

Conta a quantidade de gols sofridos pelo time até a rodada corrente, assim como a média de gols sofridos.

In [0]:
def goals_conceded(team, round): 
  
  data = scouts[scouts['rodada'] == round]
  
  team = data[data['clube_id'] == team]
  
  return team['GS'].sum()


def ag_conceded(team, round):
  
  goals = goals_conceded(team, round)
  avg = goals/round
  
  return avg

In [0]:
tr['goals_conceded'] = tr.apply(lambda row: goals_conceded(row['team'], row['round']), axis=1)
tr['ag_conceded'] = tr.apply(lambda row: ag_conceded(row['team'], row['round']), axis=1)

De forma similar, calcula a quantidade de gols marcados e a média.

In [0]:
def goals_scored(team, round):
  
  data = scouts[scouts['rodada'] == round]
  
  team = data[data['clube_id'] == team]
  
  return team['G'].sum()


def ag_scored(team, round):
  
  goals = goals_scored(team, round)
  avg = goals/round
  
  return avg

In [0]:
tr['goals_scored'] = tr.apply(lambda row: goals_scored(row['team'], row['round']), axis=1)
tr['ag_scored'] = tr.apply(lambda row: ag_scored(row['team'], row['round']), axis=1) # goal average scored

Adiciona a quantidade de partidas até a rodada corrente em que o time não sofreu gols.

In [0]:
def wcg	(team, round): 
  
  data = scouts[scouts['rodada'] == round]
  
  team = data[(data['clube_id'] == team) 
             & (data['posicao'] == 'gol')]
  
  return team['SG'].sum()

In [0]:
# without conceding a goal
tr['wcg'] = tr.apply(lambda row: wcg(row['team'], row['round']), axis=1) 

Para facilitar a visualização, acrescenta o nome da equipe.

In [0]:
def add_column_name(id):
  name = team_dict[team_dict['id'] == id]['nome.cartola'].values[0]
  return name

In [0]:
tr['club_name'] = tr.apply(lambda row: add_column_name(row['team']), axis=1)


Os dados relacionados à quantidade de gols sofridos, marcados e o número de partidas sem sofrer gols são calculados levando em consideração os jogadores que estão na equipe na rodada. Caso o jogador marque 2 gols na 1ª rodada, e seja transferido na 2ª para outro time, esses gols não serão levado em consideração a partir dessa rodada.

### Tabela final do campeonato 

In [41]:
tr = tr[['round', 'club_name', 'team', 'championship_score', 
        'result_match', 'home_team','goals_conceded', 'ag_conceded',
        'goals_scored', 'ag_scored', 'wcg']]

final = tr.tail(20)
final.sort_values(by=['championship_score'], ascending=False)

Unnamed: 0,round,club_name,team,championship_score,result_match,home_team,goals_conceded,ag_conceded,goals_scored,ag_scored,wcg
15,38,Cruzeiro,283.0,80,3,1,39,1.026316,68,1.789474,11
2,38,São Paulo,276.0,70,0,0,40,1.052632,56,1.473684,13
7,38,Internacional,285.0,69,3,0,40,1.052632,51,1.342105,16
12,38,Corinthians,264.0,69,3,1,31,0.815789,44,1.157895,15
5,38,Atlético-MG,282.0,62,1,0,39,1.026316,45,1.184211,14
17,38,Grêmio,284.0,61,1,1,23,0.605263,34,0.894737,21
1,38,Fluminense,266.0,61,0,0,42,1.105263,57,1.5,14
4,38,Atlético-PR,293.0,54,1,0,42,1.105263,42,1.105263,12
3,38,Santos,277.0,53,3,0,35,0.921053,41,1.078947,15
0,38,Flamengo,262.0,52,1,0,47,1.236842,46,1.210526,12
