In [1]:
#Importa as bibliotecas
import pandas as pd

In [2]:
#Importa o arquivo csv e cria o dataframe
player_df_final = pd.read_csv('player_data_final.csv')

Preparar dados adicionando qualificadores de linha

O DataFrame de Pandas player_df_final contém dados de 40 jogadores. As primeiras 26 linhas representam jogadores humanos e as últimas 17 representam o Tune Squad. Nós vamos criar um aplicativo que ajude o técnico a decidir qual jogador deve fazer um intervalo para tomar água durante a partida, sem arriscar o jogo nem desgastar muito nenhum dos jogadores. Neste módulo, lidaremos somente com o Tune Squad. Portanto, podemos nos concentrar nas últimas 16 linhas de dados.

Antes de começarmos a criar o aplicativo, precisamos garantir que os dados estejam prontos para ingestão por ele.

Vamos começar criando um DataFrame que represente apenas os jogadores do Tune Squad. Esse código escolhe todas as linhas, começando na linha 27 (índice 26, porque o DataFrame é baseado em zero), e todas as colunas:

In [3]:
#Criar um dataframe somente com os jogadores do Tune Squad
ts_df = player_df_final.iloc[26: , :]
ts_df

Unnamed: 0,ID,player,points,possessions,team_pace,GP,MPG,TS%,AST,TO,USG,ORR,DRR,REBR,PER
26,31,tune_squad1,2049.0,1434.0,110.0,64.0,38.8,0.619,31.5,14.9,35.5,8.3,17.6,12.8,28.44
27,32,tune_squad2,1795.0,1481.8,112.1,62.0,35.4,0.608,31.9,14.5,32.0,6.5,22.5,12.9,23.34
28,33,tune_squad3,1805.0,1509.9,108.6,64.0,35.4,0.622,27.9,13.9,36.0,5.9,27.7,12.2,22.41
29,34,tune_squad4,1743.0,1422.4,112.9,64.0,36.3,0.619,30.9,15.6,34.5,5.9,18.9,14.8,29.853138
30,35,tune_squad5,1963.0,1539.1,117.4,59.771429,35.208333,0.633,32.3,16.2,34.0,5.9,19.8,13.1,27.16
31,36,tune_squad6,2062.0,1505.7,111.5,59.771429,37.0,0.62,29.8,15.6,36.2,4.9,23.9,14.7,27.86
32,37,tune_squad7,1845.0,1435.7,113.1,69.0,36.9,0.634,33.2,14.0,36.5,4.1,21.5,16.4,34.26
33,38,tune_squad8,1778.0,1526.4,109.3,66.0,34.9,0.612,30.6,15.9,35.9,5.5,18.8,13.7,28.65
34,39,tune_squad9,1901.0,1444.1,109.7,67.0,36.5,0.609,27.2,14.8,35.5,5.0,21.8,8.9,20.12
35,41,tune_squad11,2030.0,1431.0,112.3,68.0,37.0,0.618,32.5,15.3,34.5,5.7,15.7,13.2,30.07


Vamos entender esses dados um pouco melhor. Podemos ver que os títulos de algumas colunas são acrônimos. Vamos detalhar os nomes das colunas:

ID: um identificador exclusivo para cada jogador no conjunto de dados

jogador: um identificador exclusivo criado para controlar qual jogador é do Tune Squad e qual é humano

pontos: total de pontos marcados por um jogador em uma temporada

posses de bola: total de posses de bola por jogador em uma temporada

team_pace: número médio de posses de bola que uma equipe usa por jogo

GP: jogos disputados por jogador em uma temporada

MPG: média de minutos disputados por jogador em um jogo

TS%: percentual real de arremessos, o percentual de arremessos de um jogador, contabilizando lances livres e cestas de três pontos

AST: Taxa de assistência: o percentual de posses de bola de um jogador que resultam em uma assistência

TO: Taxa de perda: o percentual de posses de bola de um jogador que resultam em perda

USG: Taxa de uso: o número de posses de bola de um jogador durante 40 minutos

ORR: taxa de rebote ofensivo

DRR: taxa de rebote defensivo

REBR: Taxa de rebote: o percentual de arremessos perdidos em que um jogador consegue retomar a posse de bola

PER: classificação de eficiência do jogador, a medida da produtividade de um jogador na quadra por minuto


O mais importante é entender que cada uma dessas colunas contém dados que podem ser contados durante uma partida, exceto pela coluna PER (classificação de eficiência do jogador). O cálculo da PER é baseado em todas as outras estatísticas do jogador. Ela determina o quanto um jogador "é bom". Essa coluna pode ajudar a prever a eficiência de um jogador durante uma partida. Quando este módulo foi escrito, o jogador de basquete com a PER mais alta era Michael Jordan, com uma classificação de 27,91. O jogador de basquete com a segunda classificação mais alta e com a classificação mais alta entre os jogadores de basquete ativos, era LeBron James, com uma pontuação de 27,49.

O cálculo da PER não é perfeito, e alguns fãs e cientistas de dados podem optar por avaliar os jogadores de maneiras diferentes. No entanto, neste módulo, usaremos a PER como a medida que ajudará o técnico a decidir qual jogador deve fazer um pequeno intervalo para tomar água durante um jogo.

In [4]:
#Importar dados do Tune Squad para mesclar com os dados dos jogadores
#como o arquivo tune_squad é separado por tabulação é definido sep='\t'ao chamar a função pd.read_csv():
ts_name_df = pd.read_csv('tune_squad.csv', sep='\t')
ts_name_df

Unnamed: 0,ID,player
0,31,Sylvester
1,32,Marvin the Martian
2,33,Road Runner
3,34,Foghorn Leghorn
4,35,Bugs Bunny
5,36,Elmer Fudd
6,37,Lola Bunny
7,38,Porky Pig
8,39,Tasmanian Devil
9,40,Yosemite Sam


In [5]:
# Mescla os dois dataframes
ts_df = pd.merge(ts_df, ts_name_df, on='ID', how='left', suffixes=('_type', '_name'))
ts_df.head()

Unnamed: 0,ID,player_type,points,possessions,team_pace,GP,MPG,TS%,AST,TO,USG,ORR,DRR,REBR,PER,player_name
0,31,tune_squad1,2049.0,1434.0,110.0,64.0,38.8,0.619,31.5,14.9,35.5,8.3,17.6,12.8,28.44,Sylvester
1,32,tune_squad2,1795.0,1481.8,112.1,62.0,35.4,0.608,31.9,14.5,32.0,6.5,22.5,12.9,23.34,Marvin the Martian
2,33,tune_squad3,1805.0,1509.9,108.6,64.0,35.4,0.622,27.9,13.9,36.0,5.9,27.7,12.2,22.41,Road Runner
3,34,tune_squad4,1743.0,1422.4,112.9,64.0,36.3,0.619,30.9,15.6,34.5,5.9,18.9,14.8,29.853138,Foghorn Leghorn
4,35,tune_squad5,1963.0,1539.1,117.4,59.771429,35.208333,0.633,32.3,16.2,34.0,5.9,19.8,13.1,27.16,Bugs Bunny


In [6]:
#Organização do dataframe para melhor leitura dos dados
#Rearranjo das colunas para colocar o nome do jogador e o ID lado a lado
column_list = list(ts_df)

player_name = column_list.pop()
column_list[1] = player_name

ts_df = ts_df[column_list]
ts_df.head()

Unnamed: 0,ID,player_name,points,possessions,team_pace,GP,MPG,TS%,AST,TO,USG,ORR,DRR,REBR,PER
0,31,Sylvester,2049.0,1434.0,110.0,64.0,38.8,0.619,31.5,14.9,35.5,8.3,17.6,12.8,28.44
1,32,Marvin the Martian,1795.0,1481.8,112.1,62.0,35.4,0.608,31.9,14.5,32.0,6.5,22.5,12.9,23.34
2,33,Road Runner,1805.0,1509.9,108.6,64.0,35.4,0.622,27.9,13.9,36.0,5.9,27.7,12.2,22.41
3,34,Foghorn Leghorn,1743.0,1422.4,112.9,64.0,36.3,0.619,30.9,15.6,34.5,5.9,18.9,14.8,29.853138
4,35,Bugs Bunny,1963.0,1539.1,117.4,59.771429,35.208333,0.633,32.3,16.2,34.0,5.9,19.8,13.1,27.16


Criação do modelo de machine learning baseado nos dados dos jogadores 

Nossa meta é usar os dados que temos sobre cada jogador do Tune Squad para tomar decisões rápidas durante o jogo. Sabemos que queremos usar a PER porque trata-se de uma medida por minuto da produtividade do jogador na quadra. Embora no basquete profissional a PER dos jogadores seja calculada com base em seu desempenho durante uma temporada completa, podemos usá-la como um substituto aproximado do desempenho do jogador em somente um jogo. Para usar a PER dessa forma, precisaremos das seguintes estatísticas de cada jogador:

TS%: o percentual de arremessos de um jogador, contabilizando lances livres e cestas de três pontos

AST: o percentual de posses de bola de um jogador que resultam em uma assistência

TO: o percentual de posses de bola de um jogador que resultam em uma perda

USG: o número de posses de bola que um jogador usa a cada 40 minutos

ORR: a taxa de rebote ofensivo do jogador

DRR: a taxa de rebote defensivo do jogador

REBR: o percentual de arremessos perdidos em que um jogador consegue retomar a posse de bola

Usaremos o desvio padrão das estatísticas dos jogadores para simular como eles podem se sair em um jogo. Como não temos dados de vários jogos para nossos jogadores, vamos usar o desvio padrão de cada estatística para os jogadores que temos.

É claro que essa abordagem não nos dará uma visão precisa do desempenho que podemos esperar dos jogadores em um jogo real, mas podemos usar esses dados para cumprir nossa meta principal: saber como podemos usar a ciência de dados em um cenário real.

Para facilitar o processo, vamos criar uma Série de Pandas de pesquisa para os desvios padrão de cada estatística. Basicamente, uma série é um DataFrame de uma coluna. Defina os nomes das estatísticas como o índice da Série para facilitar a pesquisa mais tarde.

In [7]:
# Cria a lista de colunas que estamos interessados (TS%, AST, TO, USG, ORR, DRR e REBR)
game_stat_cols = list(ts_df.iloc[:, 7:-1])
game_stat_stdevs = []

# Cria a lista de desvios padrão para cada status
for stat in game_stat_cols:
    game_stat_stdevs.append(ts_df[stat].std())

# Cria uma série de desvios padrão com o nome do status como índice
stdev_s = pd.Series(game_stat_stdevs, index=game_stat_cols)
stdev_s

TS%     0.008262
AST     2.140494
TO      0.797197
USG     1.892718
ORR     1.139465
DRR     3.017962
REBR    1.802564
dtype: float64

Com esta Série, podemos executar uma simulação dos dados dos jogadores. Queremos ver se, com nossas suposições bastante amplas, a PER de um jogador pode nos ajudar a fazer escolhas sobre ele: devemos permitir que o jogador faça um intervalo para tomar água ou devemos mantê-lo no jogo?

Treinar um modelo de machine learning baseado nos dados dos jogadores

Para treinar um modelo de machine learning para prever a PER de um jogador usando estatísticas específicas do jogador para um jogo simulado, usaremos todos os dados que baixamos inicialmente, incluindo os dados dos jogadores humanos. Para isso, precisaremos dividir os dados em duas partes:

X: os dados de entrada usados para prever y

y: o valor de saída que você deseja que o modelo de machine learning preveja

Os dados de entrada (X) são todos os dados que você deseja que o modelo de machine learning use para prever a saída (y). Nesse caso, queremos que X represente as sete colunas nas quais estamos especialmente interessados. Os dados de saída (y) são o número que queremos prever quando todas as colunas em X são consideradas. Em nosso caso, y será PER. Para criar essas duas variáveis, precisamos apenas usar as oito últimas colunas, exceto pela última, para X. Capturaremos a última coluna apenas para uso para y.

In [8]:
# Importa as bibliotecas necessárias
from sklearn.linear_model import LinearRegression
from numpy.random import randn

# Obtém as variáveis dependentes e independentes para a modelagem do PER
X = player_df_final.iloc[:, 7:-1].to_numpy()
y = player_df_final.iloc[:, -1]

Em seguida, precisamos treinar (ou ajustar) o modelo de machine learning. Estamos usando a biblioteca Scikit-learn LinearRegression, que é um modelo de machine learning de regressão linear pré-escrito que aprenderá automaticamente a prever y com base em X.

In [9]:
# Define e ajusta o modelo
lin_reg = LinearRegression()
lin_reg.fit(X, y)

LinearRegression()

Esse código fornece um modelo de machine learning (lin_reg) que podemos usar para prever a PER com base em um conjunto de sete estatísticas de entrada que usamos para treinar o modelo (TS%, AST, TO, USG, ORR, DRR e REBR).

Testar um modelo de machine learning com números aleatórios com base no desvio padrão

Após ajustar o modelo, podemos usá-lo para prever a PER de um jogador com base em novos dados nas sete colunas. Vamos explorar o desempenho desse modelo. Podemos usar o modelo para prever a PER baseada em dados aleatórios dos jogadores em 10 iterações.

Para cada iteração, realizaremos as seguintes etapas:

- Criar um DataFrame vazio contendo apenas os nomes dos jogadores.

- Para cada estatística desse jogador, gerar um número aleatório dentro do desvio padrão do jogador com relação à estatística.

- Salvar esse número gerado aleatoriamente no DataFrame.

- Prever a PER de cada jogador com base no novo DataFrame de números gerados aleatoriamente.

- Imprimir cada iteração, com o jogador com a PER mais baixa e o jogador com a PER mais alta.

In [10]:
# Mostra o jogador com o maior e memor PER para cada iteração.
print('Iteration # \thigh PER \tlow PER')

# Roda a simulação 10 vezes
for i in range(10):

    # Define um dataframe vazio temporariamente para cada iteração 
    # As colunas deste dataframe são os status dos jogadores e o indice os nomes dos jogadores
    game_df = pd.DataFrame(columns=game_stat_cols, index=list(ts_df['player_name']))
    
    # Loop através de todos os status.
    for stat in game_stat_cols:
        
        # Cada status dos jogadores são usados para gerar um valor aleatório para cada iteração.
        game_df[stat] = list(ts_df[stat] + randn(len(ts_df)) * stdev_s[stat])
    
    # Usa o modelo ajustado para a predição do PER dos jogadores baseado nos dados aleatórios.
    game_df['PER'] = lin_reg.predict(game_df)

    # Mostra o jogador com o maior e memor PER para cada iteração.
    print('Iteration {}'.format(i+1) + ' \t' + game_df['PER'].idxmax() + ' \t' + game_df['PER'].idxmin())

Iteration # 	high PER 	low PER
Iteration 1 	Porky Pig 	Tasmanian Devil
Iteration 2 	Wile E. Coyote 	Bugs Bunny
Iteration 3 	Lola Bunny 	Tasmanian Devil
Iteration 4 	Lola Bunny 	Marvin the Martian
Iteration 5 	Lola Bunny 	Tasmanian Devil
Iteration 6 	Porky Pig 	Penelope
Iteration 7 	Lola Bunny 	Elmer Fudd
Iteration 8 	Bugs Bunny 	Road Runner
Iteration 9 	Lola Bunny 	Penelope
Iteration 10 	Lola Bunny 	Penelope


Usar o machine learning e o desvio padrão para criar dados de jogos fictícios

Não podemos obter dados dos jogos em tempo real enquanto o Tune Squad joga. Não temos como assistir a uma partida de basquete com os 15 personagens do Tune Squad e testar nosso modelo em um aplicativo real.

Mas nós podemos usar o truque que aprendemos, de testar nosso modelo para criar um conjunto de dados que simulará um jogo!

O aplicativo Web que criaremos nas próximas unidades nos ajudará a decidir qual jogador fará um intervalo para tomar água a cada 12 minutos de um jogo padrão de 48 minutos. Portanto, devemos criar um arquivo CSV com os dados dos jogadores randomizados em quatro iterações: 0 minutos (o início do jogo), 12 minutos, 24 minutos e 36 minutos:

In [11]:
# Inicia quatro dataframes vazios, um para cada dos períodos de 12 minutos do jogo
number_of_iterations = 4
df_list = [pd.DataFrame(columns=game_stat_cols, index=list(ts_df['player_name'])) for i in range(number_of_iterations)]

# Para cada período, gera um dado aleatório de jogador e faz a previsão com do PER.
# Usa o modelo ajustado anteriormente.
for df in df_list:
    for stat in game_stat_cols:
        df[stat] = list(ts_df[stat] + randn(len(ts_df)) * stdev_s[stat])
    df['PER'] = lin_reg.predict(df)

# Concatena os dataframes e transforma os nomes dos jogadores em índice.
game_df = pd.concat(df_list)
game_df.rename_axis('player_name', inplace=True)

# Cria outro índice para o período em questão.
minutes = [(x // len(ts_df)) * 12 for x in range(len(game_df))]
game_df['minutes'] = minutes
game_df.set_index('minutes', append=True, inplace=True)
game_df = game_df.swaplevel()

game_df

Unnamed: 0_level_0,Unnamed: 1_level_0,TS%,AST,TO,USG,ORR,DRR,REBR,PER
minutes,player_name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,Sylvester,0.618278,27.903304,14.158254,34.925471,8.199563,17.146856,14.903293,31.230059
0,Marvin the Martian,0.621301,31.599762,14.257681,29.79683,7.261751,21.751142,8.763005,17.498461
0,Road Runner,0.615173,27.938026,13.609587,36.406052,3.421556,23.229209,9.951564,22.807012
0,Foghorn Leghorn,0.623137,32.724486,16.202051,35.056607,5.62675,16.01209,12.2171,28.543001
0,Bugs Bunny,0.620939,34.063082,16.144089,32.511334,5.921397,24.152545,11.993912,21.630733
0,Elmer Fudd,0.63218,30.20904,17.660222,35.568315,5.002529,17.9226,15.333669,31.605549
0,Lola Bunny,0.630738,29.690801,12.829612,38.576829,5.21553,21.575388,15.147828,33.38688
0,Porky Pig,0.614801,31.629936,16.634434,34.492241,5.549731,18.832013,12.832473,26.508808
0,Tasmanian Devil,0.595941,25.242144,15.053388,35.657716,5.86202,19.876343,11.098674,23.251825
0,Gossamer,0.623436,31.077812,16.243667,30.698478,4.826031,16.612211,10.87755,23.734305


O DataFrame final parece estar completo. Podemos salvá-lo como um arquivo CSV para usá-lo em nosso aplicativo Web. Ao salvar esse DataFrame como um arquivo CSV, queremos manter os índices, pois os definimos como os nomes dos jogadores.

In [12]:
# Exportyao dataframe finalziado em csv
game_df.to_csv('game_stats.csv')