<a href="https://colab.research.google.com/github/raissamiranda/NBA-Data-Science-Analysis/blob/main/TP_ICD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1991-2021 NBA Stats**

> **Introdução**

Este trabalho tem como objetivo analisar o conjunto de dados que contém estatísticas da NBA dos anos entre 1991 e 2021 referentes aos jogadores, equipes e MVPs.
O tema relacionado a liga profissional de basquete foi escolhido pelo interesse do grupo em visualizar como as estatísticas dos jogos mudaram ao longo dos anos e entender as relações entre características dos times, dos jogadores e a performance geral na liga.



> **Imports básicos**

In [None]:
# -*- coding: utf8

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

plt.ion()
plt.style.use('seaborn-colorblind')
plt.rcParams['figure.figsize']  = (12, 8)

def despine(ax=None):
    if ax is None:
        ax = plt.gca()

    # Only show ticks on the left and bottom spines
    ax.yaxis.set_ticks_position('left')
    ax.xaxis.set_ticks_position('bottom')

> **Metodologia**

Aqui são importados os arquivos referentes aos dataframes utilizados. O conjunto de dados é organizado em 5 tabelas, cada uma com dados de um conteúdo específico da NBA. A seguir é mostrado brevemente um recorte de cada uma das tabelas, juntamente com sua especificação.

In [None]:
mvps = pd.read_csv('https://raw.githubusercontent.com/GabrielTeixeiraC/NBA-ICD/main/mvps.csv', encoding = "ISO-8859-1", sep=';')
nicknames = pd.read_csv('https://raw.githubusercontent.com/GabrielTeixeiraC/NBA-ICD/main/nicknames.csv', encoding = "ISO-8859-1", sep=';')
player_mvp_stats = pd.read_csv('https://raw.githubusercontent.com/GabrielTeixeiraC/NBA-ICD/main/player_mvp_stats.csv', encoding = "ISO-8859-1", sep=';')
players = pd.read_csv('https://raw.githubusercontent.com/GabrielTeixeiraC/NBA-ICD/main/players.csv', encoding = "ISO-8859-1", sep=';')
teams = pd.read_csv('https://raw.githubusercontent.com/GabrielTeixeiraC/NBA-ICD/main/teams.csv', encoding = "ISO-8859-1", sep=';')

As tabela "mvps", "player_mvp_stats" e "players" são referentes aos dados dos jogadores da NBA e às características que selecionaram os melhores jogadores. Como elas possuem interseção entre alguns dados e uma grande quantidade de colunas, selecionamos abaixo algumas das principais informações presentes nessas tabelas:

*   Player: nome do jogador
*   Rk: posição no rank do jogador
*   Pos: posição em que ele joga
*   Age: idade do jogador
*   Tm: time que ele se encontra
*   MP: número de minutos jogados por jogo
*   TRB: número total de rebotes
*   AST: número de assistências por jogo
*   BLK: número de bloqueios por jogo
*   STL: número de roubos por jogo
*   Year: ano da liga
*   W: número de vitórias
*   L: número de derrotas
*   3P: número de cestas de 3 pontos
*   2P: número de cestas de 2 pontos
*   AST: número de assistências por jogo
*   PTS: número de pontos por jogo
*   Year: ano da liga

A seguir são mostradas as primeiras 5 linhas de cada uma dessas tabelas.

In [None]:
mvps.head()

In [None]:
player_mvp_stats.head()

In [None]:
players.head()

A tabela "nicknames" é referente às abreviações do nome dos times que participaram da liga. É possível observar abaixo as informações presentes nessa tabela:

*   Abbreviation: sigla com a abreviação do nome do time
*   Name: nome completo do time

A seguir são mostradas as primeiras 5 linhas dessa tabela.



In [None]:
nicknames.head()

A tabela "teams" é referente aos times que participaram da liga. É possível observar abaixo as principais informações presentes nessa tabela:



*   W: número de vitórias
*   L: número de derrotas
*   PS/G: pontos por jogo
*   PA/G: pontos dos oponentes por jogo
*   W/L%: taxa de vitória
*   Year: ano da liga
*   Team: nome do time








In [None]:
teams.head()

> **Perguntas da Pesquisa**

As seguintes perguntas foram consideradas interessantes para serem respondidas com a realização desse trabalho:


1.   Como a média de pontos por jogo variou durante os anos? Quais estatísticas de jogo interferem nesse valor?
2.   Michael Jordan é realmente destaque em comparação aos outros jogadores?
3.   É possível adivinhar a posição de um jogador de acordo com suas estatísticas?
4.   Qual o valor esperado para taxa de vitória/derrota de um time de acordo com a média de pontos por jogo?





# 1 - Média de pontos da NBA ao longo dos anos
É interessante observar como a dinâmica dos jogos se modificou ao longo dos anos. Para isso, aqui é calculada a média de pontos por partida de todos os jogos referentes aos anos 1991-2020.
A aposentadoria ou o início de carreira de jogadores considerados destaques não influencia diretamente na média geral de pontos por partida de toda a liga. Mas, é fato que, pelo menos, nos últimos 10 anos, a média de pontos por partida está crescendo.

> **Método utilizado**

Para fazer esse estudo, foram utilizados conhecimentos de Limpeza, Análise Exploratória e Visualização de Dados.


In [None]:
# Limpeza dos dados 
players = players[~players["Player"].str.contains("Player")].copy()

players = players.apply(pd.to_numeric, errors='ignore')
groupby = players.groupby('Year')['PTS'].mean()

plt.plot(groupby)
plt.title("Média de pontos da NBA ao longo dos anos")
plt.xlabel('Anos')
plt.ylabel('Média de pontos por ano')
plt.axvline(x = 2003, ls='--', color ='r')
plt.axvline(x = 2009, ls='--', color ='g')
plt.legend(["Média de pontos", "Aposentadoria Michael Jordan", "Entrada Stephen Curry"])
despine()

Como foi percebida uma diferença na média de pontos ao longo dos anos, é sugestivo imaginar que o estilo de jogo com o passar do tempo adquiriu diferentes características. Para tentar capturar essas mudanças, os gráficos com as médias para diferentes atributos são interessantes para identificar essas características e ajudam a explicar a variação da média de pontos anual por jogador mostrada anteriormente.


In [None]:
groupby3P = players.groupby('Year')['3P'].mean()

groupby2P = players.groupby('Year')['2P'].mean()

groupbyTRB = players.groupby('Year')['TRB'].mean()

groupbyAST = players.groupby('Year')['AST'].mean()

groupbySTL = players.groupby('Year')['STL'].mean()

groupbyBLK = players.groupby('Year')['BLK'].mean()

In [None]:
f, axs = plt.subplots(2, 3, figsize=(15,8))
axs[0, 0].plot(groupby2P)
axs[0, 0].set_title('Média de cestas de 2 pontos da NBA')
axs[0, 0].set_xlabel('Anos')
axs[0, 0].set_ylabel('Cestas de 2 pontos')

axs[0, 1].plot(groupby3P)
axs[0, 1].set_title('Média de cestas de 3 pontos da NBA')
axs[0, 1].set_xlabel('Anos')
axs[0, 1].set_ylabel('Cestas de 3 pontos')

axs[0, 2].plot(groupbyTRB)
axs[0, 2].set_title('Média de rebotes da NBA')
axs[0, 2].set_xlabel('Anos')
axs[0, 2].set_ylabel('Rebotes')

axs[1, 0].plot(groupbyAST)
axs[1, 0].set_title('Média de assistências da NBA')
axs[1, 0].set_xlabel('Anos')
axs[1, 0].set_ylabel('Assistências')

axs[1, 1].plot(groupbySTL)
axs[1, 1].set_title('Média de roubos da NBA')
axs[1, 1].set_xlabel('Anos')
axs[1, 1].set_ylabel('Roubos')

axs[1, 2].plot(groupbyBLK)
axs[1, 2].set_title('Média de bloqueios da NBA')
axs[1, 2].set_xlabel('Anos')
axs[1, 2].set_ylabel('Bloqueios')

f.subplots_adjust(wspace=0.4, hspace=0.4)
plt.show()

> **Conclusões/Previsões**

Além de perceber que a variável "média de pontos por partida" é resultado da combinação entre diversas outras estatísticas, podemos propor que a crescente na média de pontos, observada em alguns momentos do período analisado, é justificada pela combinação do aumento da média de cestas de 3 pontos e a diminuição de roubos (que caracteriza ataques bem sucedidos).

# 2 - Intervalo de Confiança para os pontos por partida de Michael Jordan
É interessante observar os dados de um jogador considerado destaque historicamente em relação aos outros jogadores. 

> **Método utilizado**

Podemos construir um teste de hipótese, considerando a média de pontos por partida ao longo dos anos, sendo:

  H0: Michael Jordan é um jogador dentro da média.

  H1: Michael Jordan é um jogador acima da média.

Para testar as hipóteses, é possível construir um intervalo de 95% de confiança para a média de pontos por partida dos jogadores utilizando o bootstrap.



In [None]:
def bootstrap_mean(df, column, n=5000, size=None):
    '''
    Faz um boostrap da média. Gera amostras.
    
    Parâmetros
    ----------
    df: o dataframe
    column: a coluna que queremos focar
    n: número de amostras para o bootstrap
    size: tamanho de cada amostra, por padrão vira o tamanho do df.
    '''
    if size is None:
        size = len(df)
    values = np.zeros(n)
    for i in range(n):
        sample = df[column].sample(size, replace=True)
        values[i] = sample.mean()
    return values

In [None]:
# Faz um IC boostrap da média. Gera um Intervalo.
def ic_bootstrap(df, column, n=5000, size=None):
    '''
    Parâmetros
      df: o dataframe
      column: a coluna que queremos focar
      n: número de amostras para o bootstrap
      size: tamanho de cada amostra, por padrão vira o tamanho do df.
    '''

    values = bootstrap_mean(df, column, n, size)
    return (np.percentile(values, 2.5), np.percentile(values, 97.5))

In [None]:
# Limpeza dos dados
players["Player"] = players["Player"].str.replace("*", "", regex=False)
players['PTS'] = pd.to_numeric(players['PTS'])
players['MP'] = pd.to_numeric(players['MP'])

# Filtragem dos dados
jordan_like_players = players[players['Year'] < 2004]
jordan_like_players = players[players['Pos'] == 'SG']
jordan_like_players = players[players['MP'] > 11.3]
jordan_like_players = players[players['PTS'] > 10]
groupby = jordan_like_players.groupby('Player')['PTS'].mean()
groupby = groupby.to_frame().reset_index()

In [None]:
# Comparacao da media de Jordan com os outros jogadores
jordan_mean = players['PTS'][players['Player'] == 'Michael Jordan'].mean()
total_mean = players['PTS'].mean()

print('Media de pontos por partida de Michael Jordan: ', jordan_mean)
print('Media geral de pontos por partida: ', total_mean)

In [None]:
print(ic_bootstrap(groupby, 'PTS'))
groupby[groupby['Player'] == 'Michael Jordan']['PTS']

# Intervalo de confianca da media de pontos por partida
values = bootstrap_mean(groupby, 'PTS')
plt.hist(values, bins=20, edgecolor='k');
plt.xlabel('Media da Amostra')
plt.ylabel('P(media)')
plt.axvline(x = jordan_mean, ls='--', color ='g')
plt.legend(["Média de pontos de Michael Jordan"])
despine()

> **Resultados**

Ao analisar o intervalo de confiança e onde Michael Jordan se encontra em relação aos demais jogadores, percebemos como ele está fora do intervalo, o que mostra que ele era acima da média, satisfazendo a hipótese alternativa.

# 3 - Classificação das posições dos jogadores
  Queremos descobrir a posição de um jogador a partir das suas estatísticas de jogo. 
  
> **Método utilizado**

  Para isso, foi utilizado o algoritmo de aprendizado supervisionado Random Forest Classifier, visto na matéria. Esse classificador atua gerando várias árvores de classificação em amostras aleatórias e o resultado é a classe que foi escolhida por mais árvores durante o teste. Além disso, foi feito um processo de Validação Cruzada Estratificado, com número de divisões igual a 5.


In [None]:
from sklearn.model_selection import StratifiedKFold
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import precision_score

# Seleção das colunas relevantes
columns = ['MP', 'FG', 'FGA', 'FG%','3P', '3PA', '3P%', '2P', '2PA', '2P%', 
           'eFG%', 'FT', 'FTA', 'FT%', 'ORB', 'DRB', 'TRB', 'AST', 'STL', 
           "BLK", 'TOV', 'PF', 'PTS']

# Remoção de linhas não utilizadas
X = players[~players["Player"].str.contains("Player")].copy()

# Remoção das linhas referentes ao LeBron James, para ser testadas depois
lebron = X[X['Player'] == 'LeBron James']
X = X[~X["Player"].str.contains("LeBron")].copy()

# Somente posições simples são utilizadas, removendo posições como SF-PF
X = X[~X["Pos"].str.contains("-")].copy() 

# Seleção do X e Y
Y = X['Pos']
X = X[columns]

# Criação do modelo e da validação cruzada estratificada
skf = StratifiedKFold(n_splits = 5, shuffle = True, random_state=1)
model = RandomForestClassifier(n_estimators=200, criterion='entropy')
fold = 1

# Ajuste do modelo aos dados e obtenção da precisão
for train_index, test_index in skf.split(X, Y):
  model.fit(X.values[train_index], Y.values[train_index])
  Y_true = Y.values[test_index]
  Y_pred = model.predict(X.values[test_index])
  precision = precision_score(Y_true, Y_pred, average='micro')
  print('Precisão fold', fold, ':', round(precision * 100, 2), '%')
  fold = fold + 1


> **Previsões**

Somente para fins de exemplificar o funcionamento do classificador, segue um exemplo com LeBron James, com estatísticas que ele alcançou em anos que ele jogou em posições diferentes. Os dados do LeBron foram previamente separados do conjunto de treino.

In [None]:
lebronX = lebron[columns]
lebronY = lebron['Pos']
for i in range(len(lebronX)):
  stats = lebronX.iloc[i].values
  position = lebronY.iloc[i]
  print('Posição prevista pelo modelo:', model.predict([stats])[0], end = ' | ')
  print('Posição real:', position)


> **Conclusões**

Essa estratégia de classificação gerou uma acurácia de aproximadamente 65%. Para aumentar esse valor, outro modelo de aprendizado poderia ser escolhido e outros valores para os hiperparâmetros poderiam ser escolhidos.

# 4 - Qual o valor esperado para taxa de vitória/derrota de um time de acordo com a média de pontos por jogo?

Queremos descobrir se há uma correlação forte entre a média de pontos e a taxa de vitória de um time.

> **Método utilizado**

Foi utilizada a regressão linear para estimar a taxa de vitória de um time a partir da sua média de pontos por jogo. A regressão linear captura a reta que minimiza o erro quadrado médio. Com isso, podemos estimar uma taxa de vitória a partir de uma dada média de pontos por jogo.

In [None]:
# Limpeza dos dados
teams = teams[~teams["W"].str.contains("Division")].copy()
teams['PS/G'] = pd.to_numeric(teams['PS/G'])

pontos_jogo = teams['PS/G']
pontos_jogo.head()

In [None]:
teams['W/L%'] = pd.to_numeric(teams['W/L%'])

taxa_vitoria = teams['W/L%']
taxa_vitoria.head()

In [None]:
plt.scatter(pontos_jogo, taxa_vitoria, edgecolors='k', s=80, alpha=0.6)
plt.title('Taxa de vitória dos times da NBA')
plt.ylabel(r'Taxa de Vitória')
plt.xlabel(r'Pontos por jogo')
despine()

In [None]:
import seaborn as sns
sns.regplot(x='PS/G', y='W/L%', data=teams, n_boot=10000,
            line_kws={'color':'magenta', 'lw':4},
            scatter_kws={'edgecolor':'k', 's':80, 'alpha':0.8})
plt.title('Taxa de vitória dos times da NBA')
plt.ylabel(r'Taxa de Vitória')
plt.xlabel(r'Pontos por jogo')
despine()

É possível descobrir se essa regressão realizada explica bem os dados ao calcular o coeficiente de determinação (R-quadrado ou R2), que mede a fração da variação total na variável dependente que é capturada pelo modelo. A seguir é feito esse cálculo.


In [None]:
import scipy.stats as ss

# Encontra alpha e beta
model = ss.linregress(pontos_jogo, taxa_vitoria)
beta = model.slope
alpha = model.intercept
print('Beta:', model.slope, 'Alpha:', model.intercept)

In [None]:
# Definindo valor R2
def error(alpha, beta, x, y):
  y_model = beta * x + alpha
  erro = y - y_model
  return erro

def sum_of_squared_errors(alpha, beta, x, y):
  e_sq = error(alpha, beta, x, y) ** 2
  e_sq = e_sq.sum()
  return e_sq
  
def r_squared(alpha, beta, x, y):
  r2 = 1.0 - (sum_of_squared_errors(alpha, beta, x, y) / ((y - y.mean()) ** 2).sum())
  return r2

In [None]:
R2 = r_squared(alpha, beta, pontos_jogo, taxa_vitoria)
print('R2:' , R2)

> **Conclusões**

O valor de R2 varia entre 0 e 1 e, quanto maior for, melhor o modelo se ajusta aos dados. Obtivemos 0.10 para esse valor, o que significa que este foi um modelo fraco para explicar esses dados e com certeza existem fatores que influenciam a taxa de vitórias de um time além da média de número de pontos. 



> **Previsões**

Para testar o modelo, a seguir foi calculada a taxa de vitória para a média de 105 pontos. A taxa encontrada foi de 53%, mas é possível verificar no gráfico que há um intervalo muito grande de taxas para o valor de 105 pontos. Isso atesta o fato de que o modelo não explica bem os dados.



In [None]:
# Exemplo

nova_media_pontos2 = 105
taxa_esperada2 = beta * nova_media_pontos2 + alpha
print("Taxa de vitorias para uma média de 105 pontos: ", taxa_esperada2)

In [None]:
sns.regplot(x='PS/G', y='W/L%', data=teams, n_boot=10000,
            line_kws={'color':'magenta', 'lw':4},
            scatter_kws={'edgecolor':'k', 's':80, 'alpha':0.8})
plt.axvline(x = 105, ls='--', color ='r')
plt.title('Taxa de vitória dos times da NBA')
plt.ylabel(r'Taxa de Vitória')
plt.xlabel(r'Pontos por jogo')
despine()