In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
from sklearn import linear_model
from sklearn.model_selection import train_test_split


# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

In [None]:
df = pd.read_csv("../input/nba-players-data/all_seasons.csv")

In [None]:
# normalizando a temporada
new = df['season'].str.split('-', n=1, expand=True)
df['season'] = pd.to_numeric(new[0])

In [None]:
print(df.shape)
df[df['player_name'] == 'A.J. Guyton']

In [None]:
# removendo dados com nomes iguais, deixando apenas os com as menores seasons / ages
df = df.loc[df.groupby("player_name")["age"].idxmin()]

print(df.shape)
df[df['player_name'] == 'A.J. Guyton']

In [None]:
# incluindo colunas para cada universidade onde para um jogador X a coluna correspondente
# a universidade Y tem o valor 1 se X percence a Y e 0 caso contrário

colleges = df['college'].unique()
for college in colleges:
    college_column_name = college.lower().replace(" ", "_")
    df[college_column_name] = df['college'].apply(lambda c: 1 if c==college else 0)


# testing

# each player should be in only one college
assert df[df['player_name'] == 'A.J. Guyton']['indiana'].values[0] == 1

# the sum of all college columns for each player should be 1
s = 0
for college in colleges:
    college_column_name = college.lower().replace(" ", "_")
    s+=df[df['player_name'] == 'A.J. Guyton'][college_column_name]

assert s.values[0] == 1

Abaixo, observamos se há um comportamento tendenciosos entre as universidades e os jogaores draftados

In [None]:
df['drafted'] = df['draft_year'].apply(lambda c: 1 if c!='Undrafted' else 0)

# df.groupby('college')['drafted'].sum().plot.bar()

plt.boxplot(df.groupby('college')['drafted'].sum())
df = df[df['college'] != 'None']
# df.groupby('college')['drafted'].sum()['None']
plt.boxplot(df.groupby('college')['drafted'].sum())
plt.show()

# plota o grafico com a quantidade de jogadores draftados por universidade
# df.groupby('college')['drafted'].sum().sort_values()[-40:-1].plot.bar()
# plt.show()

print(df.groupby('college')['drafted'].sum().sort_values()[::-1])

## Teste de permutação

Pelo que parece há uma tendencia entre as universidades e a quantidade de jogadores draftados visto que há uma grande quantidade de outliers segundo o boxplot, observando que dentro de um consjunto de 286 universidades, cerca de pouco mais de 30 universidades já enviaram mais de 15 jogaores no total para a NBA

Argumenta-se que um bom jogador participa de um grande número de lances no jogo. Ou seja, o percentual de participação do jogador na partida (usg_pct) é alto. Surge, então, a pergunta, partindo de um conjunto de variáveis sobre um jogador, é possível prever a porcentagem de participação de tal jogador nas partidas?

Primeiro verificamos se existe uma relação entre um jogador ser draftado e ser participativo nas partidas de basquete. Isso é feito com um teste de permutação onde é permutado o parametro "drafted" que indica se tal jogador foi draftado (1) ou não (0). Então plotamos, em um histograma, a diferença entre as médias do parâmetro "usg_pct" para jogadores draftados e não draftados. Dessa forma, é possível observar o comportamento para a média encontrada no dataset e concluir, com um intervalo de confiança, se tal comportamente é aleatório ou não.

In [None]:
teste = df.copy()

t_obs = teste[teste['drafted'] == 1]['usg_pct'].mean() - teste[teste['drafted'] != 1]['usg_pct'].mean()
t_obs

In [None]:
N = 10000
diferencas = np.zeros(N)

for i in range(N):
    np.random.shuffle(teste['drafted'].values)
    diff = teste[teste['drafted'] == 1]['usg_pct'].mean() - teste[teste['drafted'] != 1]['usg_pct'].mean()
    diferencas[i] = diff

In [None]:
plt.figure(num=None, figsize=(8, 6), dpi=80, facecolor='w', edgecolor='k')

plt.hist(diferencas, bins=50, density=True, edgecolor='k')
plt.xlabel('Diferença na Permutação')
plt.ylabel('Pr(diff)')
plt.axvline(t_obs, color='red', linestyle='solid')
plt.show()

In [None]:
print("Intervalo de confiança: [{}, {}]".format(np.percentile(diferencas, 2.5), np.percentile(diferencas, 97.5)))

Observamos que em um mundo aleatório, 95% dos nossos dados ficaria dentro do intervalo acima. No entando, visto que a média observada pelos dados reais, representada pela linha vermelha a direita do gráfico, é maior do que o limite superior do intervalo, podemos afirmar, com 95% de certeza, que o valor observado não apresenta um comportamento aleatório. O que nos motiva ao próximo passo, efetuar uma regressão e traçar um modelo de previsão do parâmetro 'usg_pct'.

## Regressão Linear

Queremos fazer uma regressão linear nos dados baseando-se em 10 atributos de jogadores para tentar prever a participação percentual de um dado jogador em um dado jogo. Assim, conseguimos definir se tal jogador tem um alta probabilidade de ser draftado, pois, como demonstrado, o atributo "usg_pct" é um forte influenciador na classificação de um jogador como "drafted" ou não.

### Análise dos atributos obtidos

Primeiro gostariamos de fazer uma breve análise de relação de cada um dos atributos com o "usg_pct", indicando, assim, se tal atributo possui ou não uma correlação com o atributo o qual estamos tentando prever.

In [None]:
attrs = ['age', 'player_height', 'player_weight', 'gp', 'pts', 'reb', 'ast', 'net_rating', 'oreb_pct', 'ts_pct']
y = df['usg_pct']
X = df[attrs]

for attr in attrs:
    plt.scatter(X[attr], y, edgecolor='k', alpha=0.6)
    plt.xlabel(attr)
    plt.ylabel('usg_pct')
    plt.show()

### Separação: Teste/Treino

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

print (X_train.shape, y_train.shape)
print (X_test.shape, y_test.shape)

### Regressão

In [None]:
def score(alpha, X_train, Y_train, X_test, Y_test):
    model =  linear_model.Ridge(alpha=alpha)
    model.fit(X_train, Y_train)
    return model.score(X_test, Y_test)

def find_best_alpha(X_train, Y_train, X_test, Y_test):
    alphas =[0.01*(10**i) for i in range(5)]
    return max([(alpha, score(alpha, X_train, Y_train, X_test, Y_test)) for alpha in alphas], key=lambda e:e[1])

alpha, score = find_best_alpha(X_train, y_train, X_test, y_test)

lm = linear_model.Ridge(alpha=alpha)

model = lm.fit(X_train,y_train)
predictions = lm.predict(X_test)

plt.scatter(y_test, predictions, edgecolor='k', alpha=0.6)
plt.xlabel("True Values")
plt.ylabel("Predictions")

### Resultados

In [None]:
print("Coeficientes:", model.coef_)
print("Intercept:", model.intercept_)
print("Score (R2):", model.score(X_test, y_test))

Observamos, portanto, que conseguimos sim prever o valor de "usg_pct" baseando-se em diferentes atributos dos jogadores. Isto é feito utlizando uma regressão linear com regularização de Ridge, onde o parametro "alpha" foi escolhido de tal forma a maximizar o Score, ou R2, achando assim, um modelo que melhor se ajusta aos dados sem comprometer a variância.