In [1]:
import pandas as pd

### Renaming the datasets

In [2]:
clubes = pd.read_csv('datasets//2016_clubes.csv')
clubes.rename(columns={'nome': 'Clube', 'abreviacao': 'Sigla', 'id': 'clube_id'}, inplace=True)
clubes.head(3)

Unnamed: 0,clube_id,Clube,Sigla,slug
0,262,Flamengo,FLA,Flamengo
1,263,Botafogo,BOT,Botafogo
2,264,Corinthians,COR,Corinthians


In [3]:
jogadores = pd.read_csv('datasets/2016_atletas.csv')
jogadores.rename(columns={'apelido': 'Nome', 'id': 'atleta_id'}, inplace=True)
jogadores.head()

Unnamed: 0,atleta_id,Nome,clube_id,posicao_id
0,89258,Daniel,262,1
1,68873,Paulo Victor,262,1
2,79066,Alex Muralha,262,1
3,91194,Thiago,262,1
4,38109,Jefferson,263,1


In [4]:
partidas = pd.read_csv('datasets/2016_partidas.csv')
partidas.head()

Unnamed: 0,id,rodada,clube_casa_id,clube_visitante_id,placar_oficial_mandante,placar_oficial_visitante
0,201226,1,262,292,1.0,0.0
1,201227,1,263,276,0.0,1.0
2,201228,1,264,284,0.0,0.0
3,201229,1,275,293,4.0,0.0
4,201234,1,282,277,1.0,0.0


In [5]:
pontuacao = pd.read_csv('datasets/2016_scouts.csv')
pontuacao.rename(columns={'preco_num': 'Preço', 'pontos_num': 'Pontos', 'media_num': 'Media'}, inplace=True)
pontuacao.head()

Unnamed: 0,atleta_id,rodada,clube_id,participou,Pontos,Media,Preço,variacao_num,FS,PE,...,PP,RB,FC,GC,CA,CV,SG,DD,DP,GS
0,50301,0,262.0,False,0.0,0.0,13.0,0.0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,36540,0,262.0,False,0.0,0.0,7.0,0.0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,68685,0,262.0,False,0.0,0.0,10.0,0.0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,68711,0,262.0,False,0.0,0.0,3.0,0.0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,88065,0,262.0,False,0.0,0.0,15.0,0.0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [6]:
posicoes = pd.read_csv('datasets/posicoes.csv')
posicoes.rename(columns={'id': 'posicao_id', 'nome': 'Posicao'}, inplace="True")

### Merging datasets

In [7]:
resultados = pd.merge(pontuacao, jogadores, on=["atleta_id", "clube_id"])
resultados = pd.merge(resultados, clubes, on=["clube_id"])
resultados = pd.merge(resultados, posicoes, on=["posicao_id"])
resultados.head()

Unnamed: 0,atleta_id,rodada,clube_id,participou,Pontos,Media,Preço,variacao_num,FS,PE,...,DD,DP,GS,Nome,posicao_id,Clube,Sigla,slug,Posicao,abreviacao
0,50301,0,262.0,False,0.0,0.0,13.0,0.0,0,0,...,0,0,0,Everton,4,Flamengo,FLA,Flamengo,Meia,mei
1,50301,1,262.0,True,9.4,9.4,16.47,3.47,1,5,...,0,0,0,Everton,4,Flamengo,FLA,Flamengo,Meia,mei
2,50301,2,262.0,True,-0.1,4.65,15.54,-0.93,4,1,...,0,0,0,Everton,4,Flamengo,FLA,Flamengo,Meia,mei
3,50301,3,262.0,True,3.0,4.1,15.25,-0.29,0,2,...,0,0,0,Everton,4,Flamengo,FLA,Flamengo,Meia,mei
4,50301,4,262.0,False,0.0,4.1,15.25,0.0,0,0,...,0,0,0,Everton,4,Flamengo,FLA,Flamengo,Meia,mei


In [8]:
resultados.columns

Index(['atleta_id', 'rodada', 'clube_id', 'participou', 'Pontos', 'Media',
       'Preço', 'variacao_num', 'FS', 'PE', 'A', 'FT', 'FD', 'FF', 'G', 'I',
       'PP', 'RB', 'FC', 'GC', 'CA', 'CV', 'SG', 'DD', 'DP', 'GS', 'Nome',
       'posicao_id', 'Clube', 'Sigla', 'slug', 'Posicao', 'abreviacao'],
      dtype='object')

### Creating a dataset with only the columns needed for analysis.

In [9]:
pontuacao_final = resultados.groupby(['Nome', 'Clube', 'Posicao'], as_index=False)['Pontos'].sum()
pontuacao_final.rename(columns={'Pontos': 'Pontuação Final'}, inplace=True)
pontuacao_final.head()

Unnamed: 0,Nome,Clube,Posicao,Pontuação Final
0,Abuda,Ponte Preta,Meia,3.2
1,Adalberto,América-MG,Zagueiro,23.3
2,Adriano Teixeira,Santa Cruz,Técnico,23.88
3,Adryan,Flamengo,Meia,-0.4
4,Adryelson,Sport,Zagueiro,0.0


### Creating function to list the top 10 players

In [10]:
def top():
    top10 = pontuacao_final.sort_values('Pontuação Final', ascending=False)[:10]
    print('%s' % ('*' * 70))
    print('%s TOP 10 dos jogadores que mais pontuaram em 2016' %(' ' * 10))
    print('%s\n\n' % ('*' * 70))
    print(top10)

top()

**********************************************************************
           TOP 10 dos jogadores que mais pontuaram em 2016
**********************************************************************


                 Nome       Clube   Posicao  Pontuação Final
621           Marinho     Vitória  Atacante            211.0
901         Vanderlei      Santos   Goleiro            189.3
59         Arrascaeta    Cruzeiro      Meia            183.7
444             Jorge    Flamengo   Lateral            176.7
928       Vitor Bueno      Santos      Meia            171.8
488              Keno  Santa Cruz  Atacante            169.4
215       Diego Souza       Sport      Meia            167.0
385    Gustavo Scarpa  Fluminense      Meia            164.3
972            Wilson    Coritiba   Goleiro            164.2
952  Wellington Silva  Fluminense   Lateral            157.9


### Creating function to list the best players of a certain function

In [11]:
por_posicao = pontuacao_final[pontuacao_final['Posicao'] == 'Zagueiro']
por_posicao = por_posicao[por_posicao['Pontuação Final'] == por_posicao['Pontuação Final'].max()]
por_posicao

Unnamed: 0,Nome,Clube,Posicao,Pontuação Final
741,Pedro Geromel,Grêmio,Zagueiro,154.0


In [12]:
def max_for_position(position):
    por_posicao = pontuacao_final[pontuacao_final['Posicao'] == position]
    por_posicao = por_posicao[por_posicao['Pontuação Final'] == por_posicao['Pontuação Final'].max()]
    return por_posicao

In [13]:
max_for_position('Atacante')

Unnamed: 0,Nome,Clube,Posicao,Pontuação Final
621,Marinho,Vitória,Atacante,211.0


### Creating function to list the best players in each position 

In [14]:
print('\n%s' %('*' * 50))
print('%s Maiores pontuadores de cada posição' %(' ' * 10))
print('%s\n' %('*' * 50))

top_all_positions = [
    max_for_position(posicao) 
    for posicao in posicoes['Posicao']
]

resultado = pd.DataFrame()
for i in range(0, len(top_all_positions)):
    resultado = resultado.append(top_all_positions[i])
    
print(resultado)


**************************************************
           Maiores pontuadores de cada posição
**************************************************

              Nome     Clube   Posicao  Pontuação Final
901      Vanderlei    Santos   Goleiro           189.30
444          Jorge  Flamengo   Lateral           176.70
741  Pedro Geromel    Grêmio  Zagueiro           154.00
59      Arrascaeta  Cruzeiro      Meia           183.70
621        Marinho   Vitória  Atacante           211.00
989     Zé Ricardo  Flamengo   Técnico           150.98


#### This jupyter notebook originated a CLI script: https://github.com/werberth/cartola-stats-cli