# Análise Exploratória e Previsão de Arremessos da NBA

# Objetivo
    Este projeto visa primeiramente, realizar uma análise exploratória dos dados obtidos das últimas 12 temporadas regulares da NBA (2009-10 a 2020-21) e treinar diferentes modelos de machine learning com o intuito de prever se um arremesso é bem-sucedido ou não.


# Conjunto de Dados
    Os dados foram obtidos através da API da NBA, o script 'get_players_shot_charts.ipynb' criado e a planilha com os ID's dos jogadores pode ser encontrados em:
    
    - (https://github.com/ArthurPatricio/Analise_Exploratoria_e_Previsao_de_Arremessos_da_NBA)

    Os conjuntos de dados foram salvos por temporada em arquivos .xlsx (Ex: 'nba_shots_2020-21')

    O conjunto de dados é formado pelos arremessos de todos os jogadores que jogam atualmente na NBA durante as últimas 12 temporadas regulares da liga. Esse conjunto não nos fornece em totalidade os arremessos das temporadas anteriores a atual porém é suficiente para notar padrões e comportamentos que serão discutidos a seguir.


# Linguagem, Bibliotecas e Pacotes
    O trabalho foi feito todo em Python 3. Abaixo, segue a listagem de todas bibliotecas e pacotes utilizados:


In [None]:
#Import Libs

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import missingno as msno
from pandas_profiling import ProfileReport
import plotly.express as px
import matplotlib as mpl
import time
from matplotlib.patches import Circle, Rectangle, Arc, ConnectionPatch
from matplotlib.patches import Polygon
from matplotlib.collections import PatchCollection
from matplotlib.colors import LinearSegmentedColormap, ListedColormap, BoundaryNorm
from matplotlib.path import Path
from matplotlib.patches import PathPatch

In [None]:
# Import Libs

from sklearn.feature_selection import VarianceThreshold
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
import xgboost as xgb

# Leitura dos Dados
    As 12 planilhas foram importandas e inseridas em Dataframes utilizando a biblioteca pandas.

In [None]:
#Read NBA Shots excel files

nba_shots_2020_21 = pd.read_excel('nba_shots_2020-21.xlsx', engine='openpyxl')
nba_shots_2019_20 = pd.read_excel('nba_shots_2019-20.xlsx', engine='openpyxl')
nba_shots_2018_19 = pd.read_excel('nba_shots_2018-19.xlsx', engine='openpyxl')
nba_shots_2017_18 = pd.read_excel('nba_shots_2017-18.xlsx', engine='openpyxl')
nba_shots_2016_17 = pd.read_excel('nba_shots_2016-17.xlsx', engine='openpyxl')
nba_shots_2015_16 = pd.read_excel('nba_shots_2015-16.xlsx', engine='openpyxl')
nba_shots_2014_15 = pd.read_excel('nba_shots_2014-15.xlsx', engine='openpyxl')
nba_shots_2013_14 = pd.read_excel('nba_shots_2013-14.xlsx', engine='openpyxl')
nba_shots_2012_13 = pd.read_excel('nba_shots_2012-13.xlsx', engine='openpyxl')
nba_shots_2011_12 = pd.read_excel('nba_shots_2011-12.xlsx', engine='openpyxl')
nba_shots_2010_11 = pd.read_excel('nba_shots_2010-11.xlsx', engine='openpyxl')
nba_shots_2009_10 = pd.read_excel('nba_shots_2009-10.xlsx', engine='openpyxl')

Cada Dataframe tem a coluna "Unnamed: 0" retirada e a coluna "SEASON_ID" adicionada sendo inserida a respectiva temporada do Dataframe em questão.

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2020_21

nba_shots_2020_21.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2020_21['SEASON_ID'] = '2020-21'
nba_shots_2020_21.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2019_20

nba_shots_2019_20.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2019_20['SEASON_ID'] = '2019-20'
nba_shots_2019_20.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2018_19

nba_shots_2018_19.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2018_19['SEASON_ID'] = '2018-19'
nba_shots_2018_19.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2017_18

nba_shots_2017_18.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2017_18['SEASON_ID'] = '2017-18'
nba_shots_2017_18.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2016_17

nba_shots_2016_17.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2016_17['SEASON_ID'] = '2016-17'
nba_shots_2016_17.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2015_16

nba_shots_2015_16.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2015_16['SEASON_ID'] = '2015-16'
nba_shots_2015_16.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2014_15

nba_shots_2014_15.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2014_15['SEASON_ID'] = '2014-15'
nba_shots_2014_15.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2013_14

nba_shots_2013_14.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2013_14['SEASON_ID'] = '2013-14'
nba_shots_2013_14.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2012_13

nba_shots_2012_13.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2012_13['SEASON_ID'] = '2012-13'
nba_shots_2012_13.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2011_12

nba_shots_2011_12.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2011_12['SEASON_ID'] = '2011-12'
nba_shots_2011_12.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2010_11

nba_shots_2010_11.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2010_11['SEASON_ID'] = '2010-11'
nba_shots_2010_11.head()

In [None]:
#Drop "Unnamed: 0" column, Add "SEASON_ID" column in nba_shots_2009_10

nba_shots_2009_10.drop(['Unnamed: 0'], axis=1, inplace=True)
nba_shots_2009_10['SEASON_ID'] = '2009-10'
nba_shots_2009_10.head()

Os 12 Dataframes são concatenados em um único novo Dataframe chamado 'nba_shots'.

In [None]:
#Create nba_shots as a concatenation of the 10 Dataframes from each reagular season

nba_shots = pd.concat([nba_shots_2020_21, nba_shots_2019_20, nba_shots_2018_19, nba_shots_2017_18, nba_shots_2016_17, nba_shots_2015_16, nba_shots_2014_15, nba_shots_2013_14,
                        nba_shots_2012_13, nba_shots_2011_12, nba_shots_2010_11, nba_shots_2009_10], sort=False)

nba_shots.head()

# Análise Inicial de nba_shots

    O dataset nba_shots possui 2401273 registros e 25 atributos.

In [None]:
#Get nba_shots dataframe shape

nba_shots.shape

In [None]:
#Get nba_shots dataframe columns

nba_shots.columns

In [None]:
#Get nba_shots dataframe describe

nba_shots.describe()

In [None]:
#Get nba_shots dataframe info

nba_shots.info()

# Checagem de valores nulos
    nba_shots não possui nenhum valor faltante.

    Foi utilizado a biblioteca missingno para realizar a checagem.

In [None]:
#Check for messing values in the nba_shots dataframe

msno.matrix(nba_shots)

# Relatório Pandas Profile

    Foi gerado o 'Pandas Profile Report' que oferece uma análise extensa do conjunto de dados que está sendo abordado.

In [None]:
#Generate and export as a .html file the Pandas Profile Report of the nba_shots dataframe

profile_shots = ProfileReport(nba_shots, title ='nba_shots')
profile_shots.to_file("nba_shots_pandas_profile_report.html")

In [None]:
#Show Profile Report in this notebook

profile_shots.to_notebook_iframe()

# Função para desenhar a quadra
    A função 'create_court' abaixo foi obtida do seguinte artigo: 
    
    - (https://towardsdatascience.com/make-a-simple-nba-shot-chart-with-python-e5d70db45d0d)

    Esta função cria desenha uma quadra de basquete nas proporções da NBA utilizando matplotlib.

In [None]:
# Function to draw basketball court

def create_court(ax, color):
    
    # Short corner 3PT lines
    ax.plot([-220, -220], [0, 140], linewidth=2, color=color)
    ax.plot([220, 220], [0, 140], linewidth=2, color=color)
    
    # 3PT Arc
    ax.add_artist(mpl.patches.Arc((0, 140), 440, 315, theta1=0, theta2=180, facecolor='none', edgecolor=color, lw=2))
    
    # Lane and Key
    ax.plot([-80, -80], [0, 190], linewidth=2, color=color)
    ax.plot([80, 80], [0, 190], linewidth=2, color=color)
    ax.plot([-60, -60], [0, 190], linewidth=2, color=color)
    ax.plot([60, 60], [0, 190], linewidth=2, color=color)
    ax.plot([-80, 80], [190, 190], linewidth=2, color=color)
    ax.add_artist(mpl.patches.Circle((0, 190), 60, facecolor='none', edgecolor=color, lw=2))
    
    # Rim
    ax.add_artist(mpl.patches.Circle((0, 60), 15, facecolor='none', edgecolor=color, lw=2))
    
    # Backboard
    ax.plot([-30, 30], [40, 40], linewidth=2, color=color)
    
    # Remove ticks
    ax.set_xticks([])
    ax.set_yticks([])
    
    # Set axis limits
    ax.set_xlim(-250, 250)
    ax.set_ylim(0, 470)

    # General plot parameters
    #mpl.rcParams['font.family'] = 'Avenir'
    mpl.rcParams['font.size'] = 18
    mpl.rcParams['axes.linewidth'] = 2
    
    return ax


# Análise Exploratória


# 1. Arremessos por Jogador
    De ínicio foram plotados todos os arremessos tentados na temporada 2020-21 de 3 atletas da liga (James Harden, Stephen Curry e Nikola Jokic). 

In [None]:
# JAMES HARDEN 2020-21 REGULAR SEASON SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Shots Scatter Plots
ax.scatter(nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1) & (nba_shots['PLAYER_NAME'] == 'James Harden')]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1) & (nba_shots['PLAYER_NAME'] == 'James Harden')]['LOC_Y'] +60, marker = "o", color = "Green")

ax.scatter(nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==0) & (nba_shots['PLAYER_NAME'] == 'James Harden')]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==0) & (nba_shots['PLAYER_NAME'] == 'James Harden')]['LOC_Y'] +60, marker = "x", color = "Red")

plt.title('JAMES HARDEN 2020-21 REGULAR SEASON SHOTS', fontsize = 20)
plt.show()

In [None]:
# SEPHEN CURRY 2020-21 REGULAR SEASON SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.scatter(nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1) & (nba_shots['PLAYER_NAME'] == 'Stephen Curry')]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1) & (nba_shots['PLAYER_NAME'] == 'Stephen Curry')]['LOC_Y'] +60, marker = "o", color = "Green")

ax.scatter(nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==0) & (nba_shots['PLAYER_NAME'] == 'Stephen Curry')]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==0) & (nba_shots['PLAYER_NAME'] == 'Stephen Curry')]['LOC_Y'] +60, marker = "x", color = "Red")

plt.title('STEPHEN CURRY 2020-21 REGULAR SEASON SHOTS', fontsize = 20)
plt.show()

In [None]:
# NIKOLA JOKIC 2020-21 REGULAR SEASON SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.scatter(nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1) & (nba_shots['PLAYER_NAME'] == 'Nikola Jokic')]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1) & (nba_shots['PLAYER_NAME'] == 'Nikola Jokic')]['LOC_Y'] +60, marker = "o", color = "Green")

ax.scatter(nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==0) & (nba_shots['PLAYER_NAME'] == 'Nikola Jokic')]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==0) & (nba_shots['PLAYER_NAME'] == 'Nikola Jokic')]['LOC_Y'] +60, marker = "x", color = "Red")

plt.title('NIKOLA JOKIC 2020-21 REGULAR SEASON SHOTS', fontsize = 20)
plt.show()

# 2. Arremessos Acertados por Temporada
    Abaixo temos as plotagens utilizando a função .hexbin da biblioteca matplotlib.
    
    Nessa sequência de gráficos possível notar como o arremesso de 3 pontos se tornou cada vez mais o arremesso* mais popular na liga com o passar das temporadas.

    *Arremessos não incluem ações ofensivas como bandejas e enterradas, que são feitas próximas da cesta e que continuam proeminentes na liga como pode ser notado em todas as imagens.

In [None]:
# 2020-21 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2020-21 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2019-20 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2019-20') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2019-20') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2019-20 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2018-19 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2018-19') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2018-19') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2018-19 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2017-18 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2017-18') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2017-18') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2017-18 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2016-17 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2016-17') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2016-17') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2016-17 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2015-16 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2015-16') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2015-16') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2015-16 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2014-15 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2014-15') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2014-15') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2014-15 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2013-14 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2013-14') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2013-14') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2013-14 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2012-13 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2012-13') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2012-13') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2012-13 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2011-12 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2011-12') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2011-12') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2011-12 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2010-11 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2010-11') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2010-11') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2010-11 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

In [None]:
# 2009-10 REGULAR SEASON MADE SHOTS

# Create figure and axes
fig = plt.figure(figsize=(10, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
ax.hexbin(nba_shots[(nba_shots['SEASON_ID'] == '2009-10') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2009-10') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] +60, gridsize=(30, 30), extent=(-300, 300, 0, 940), bins='log', cmap='Greens')

plt.title('2009-10 REGULAR SEASON MADE SHOTS', fontsize = 20)
plt.show()

# 3. Outras Visualizações de Arremessos
    Os dados obtidos permitem ainda outras plotagens dos arremessos a seguir são mostradas 3 diferentes formas de enxergar os arremessos de acordo com sua posição em quadra.

Arremessos acertados por região da quadra

    O atributo 'SHOT_ZONE_AREA' oferece as regiões da quadra utilizadas nessa plotagem.


In [None]:
# 2020-21 REGULAR SEASON SHOTS MADE PER ZONE AREA

# Create figure and axes
fig = plt.figure(figsize=(20, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
sns.scatterplot(nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] + 60, hue = nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['SHOT_ZONE_AREA'])

plt.title('2020-21 REGULAR SEASON SHOTS MADE PER ZONE AREA', fontsize = 20)
plt.show()

Arremessos acertados por zonas de distância.

    O atributo 'SHOT_ZONE_RANGE' oferece as zonas por diferentes distâncias utilizadas nessa plotagem.

In [None]:
# 2020-21 REGULAR SEASON SHOTS MADE PER ZONE RANGE

# Create figure and axes
fig = plt.figure(figsize=(20, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
sns.scatterplot(nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] + 60, hue = nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['SHOT_ZONE_RANGE'])

plt.title('2020-21 REGULAR SEASON SHOTS MADE PER ZONE RANGE', fontsize = 20)
plt.show()

Arremessos acertados por regiões da quadra (simplificado).

    O atributo 'SHOT_ZONE_BASIC' oferece regiões da quadra, diferentes das presentes em 'SHOT_ZONE_AREA', utilizadas nessa plotagem.



In [None]:
# 2020-21 REGULAR SEASON SHOTS MADE PER ZONE AREA (BASIC)

# Create figure and axes
fig = plt.figure(figsize=(20, 9))
ax = fig.add_axes([0, 0, 1, 1])

# Draw court
ax = create_court(ax, 'black')

# Plot scatter of shots
sns.scatterplot(nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_X'],
            nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['LOC_Y'] + 60, hue = nba_shots[(nba_shots['SEASON_ID'] == '2020-21') & (nba_shots['SHOT_MADE_FLAG']==1)]['SHOT_ZONE_BASIC'])

plt.title('2020-21 REGULAR SEASON SHOTS MADE PER ZONE AREA (BASIC)', fontsize = 20)
plt.show()

# 4. Distribuição de arrmessos por distância e tipo de Arremesso (2 ou 3 pontos)

    O gráfico abaixo apresenta a distribuição dos arremessos das 12 temporadas em análise, pela distância em que os arremessos foram feitos e pelo tipo de arremesso (2 ou 3 pontos).

    Nele nota-se ainda o predomínio dos arremessos de 2 pontos, bandejas ou enterradas feitos bem próximos da cesta. Com o arremesso de longa distância, de 3 pontos, já com quantidade considerável.

    Nos gráficos a seguir  onde comparamos as distribuições da primeira e útima do nosso dataset, vemos que hoje, há o predomínio da bola lonfa, de 3 pontos.

In [None]:
# SHOT DISTANCE DISTRIBUTION PLOT

plt.figure(figsize=(20,12))
fig1 = sns.histplot(data=nba_shots, x='SHOT_DISTANCE', hue = 'SHOT_TYPE')
fig1.set_xlabel('SHOT_DISTANCE', fontsize=20)
fig1.set_ylabel('COUNT', fontsize=20)
fig1.tick_params(labelsize=15)
plt.title('SHOT DISTANCE DISTRIBUTION', fontsize = 20)
plt.xlim(0,40)
plt.show()

Analisando as plotagens abaixo, distribuições tais como a anterior só que agora específicas para as temporadas 2009-10 e 2020-21, respectivamente primeira e última temporadas do nosso conjunto de dados, notamos com clareza a mudança no padrão das ações ofensivas com o passar dos anos. Arremessos de média distância deram espaço para os arremesos de 3 pontos.

In [None]:
# SHOT DISTANCE DISTRIBUTION PLOT 2009-10 SEASON

plt.figure(figsize=(20,12))
fig2 = sns.histplot(data=nba_shots, 
                    x=nba_shots[nba_shots['SEASON_ID'] == '2009-10']['SHOT_DISTANCE'], 
                    hue = nba_shots[nba_shots['SEASON_ID'] == '2009-10']['SHOT_TYPE'])
fig2.set_xlabel('SHOT_DISTANCE', fontsize=20)
fig2.set_ylabel('COUNT', fontsize=20)
fig2.tick_params(labelsize=15)
plt.title('SHOT DISTANCE DISTRIBUTION 2009-10 SEASON', fontsize = 20)
plt.xlim(0,40)
plt.show()

In [None]:
# SHOT DISTANCE DISTRIBUTION PLOT 2020-21 SEASON

plt.figure(figsize=(20,12))
fig3 = sns.histplot(data=nba_shots, 
                    x=nba_shots[nba_shots['SEASON_ID'] == '2020-21']['SHOT_DISTANCE'], 
                    hue = nba_shots[nba_shots['SEASON_ID'] == '2020-21']['SHOT_TYPE'])
fig3.set_xlabel('SHOT_DISTANCE', fontsize=20)
fig3.set_ylabel('COUNT', fontsize=20)
fig3.tick_params(labelsize=15)
plt.title('SHOT DISTANCE DISTRIBUTION 2020-21 SEASON', fontsize = 20)
plt.xlim(0,40)
plt.show()

# 5. Tipos de Arremessos

O gráfico a seguir mostra todos os arremessos tentados nas 12 temporadas pelo tipo de arremesso tentado (2 ou 3 pontos)

In [None]:
# SHOT TYPE BAR PLOT

plt.figure(figsize=(20,12))
fig4 = sns.countplot(data=nba_shots, x='SHOT_TYPE', palette = 'husl')
fig4.set_xlabel('SHOT_TYPE', fontsize=20)
fig4.set_ylabel('COUNT', fontsize=20)
fig4.tick_params(labelsize=20)
plt.title('SHOT TYPE', fontsize = 20)
for p in fig4.patches:
    txt = str(p.get_height().round(2))
    txt_x = p.get_x() 
    txt_y = p.get_height()
    fig4.text(txt_x,txt_y,txt)
plt.show()

O gráfico a seguir mostra todos os arremessos tentados nas 12 temporadas pelo tipo de arremesso tentado (2 ou 3 pontos) e resultado do arremesso.

In [None]:
# SHOT TYPE (MADE/MISSED) BAR PLOT

plt.figure(figsize=(20,12))
fig5 = sns.countplot(data=nba_shots, x='SHOT_TYPE', palette = 'husl', hue = 'EVENT_TYPE')
fig5.set_xlabel('SHOT_TYPE', fontsize=20)
fig5.set_ylabel('COUNT', fontsize=20)
fig5.tick_params(labelsize=20)
plt.title('SHOT TYPE (MADE/MISSED)', fontsize = 20)
for p in fig5.patches:
    txt = str(p.get_height().round(2))
    txt_x = p.get_x() 
    txt_y = p.get_height()
    fig5.text(txt_x,txt_y,txt)
plt.show()

Análogo ao que foi feito com os gráficos de distribuição, como pode ser visto abaixo, plotando os gráficos de barra por tipo de arremesso vemos que proporcionalmente a quantidade de arremessos de 2 e 3 pontos é muito mais próxima na temporada 2020-21 do que era na temporada 2009-10.

In [None]:
# SHOT TYPE BAR PLOT

plt.figure(figsize=(20,12))
fig6 = sns.countplot(data=nba_shots, x=nba_shots[nba_shots['SEASON_ID'] == '2009-10']['SHOT_TYPE'], palette = 'husl')
fig6.set_xlabel('SHOT_TYPE', fontsize=20)
fig6.set_ylabel('COUNT', fontsize=20)
fig6.tick_params(labelsize=20)
plt.title('SHOT TYPE 2009-10 SEASON', fontsize = 20)
for p in fig6.patches:
    txt = str(p.get_height().round(2))
    txt_x = p.get_x() 
    txt_y = p.get_height()
    fig6.text(txt_x,txt_y,txt)
plt.show()

In [None]:
# SHOT TYPE BAR PLOT

plt.figure(figsize=(20,12))
fig7 = sns.countplot(data=nba_shots, x=nba_shots[nba_shots['SEASON_ID'] == '2020-21']['SHOT_TYPE'], palette = 'husl')
fig7.set_xlabel('SHOT_TYPE', fontsize=20)
fig7.set_ylabel('COUNT', fontsize=20)
fig7.tick_params(labelsize=20)
plt.title('SHOT TYPE 2020-21 SEASON', fontsize = 20)
for p in fig7.patches:
    txt = str(p.get_height().round(2))
    txt_x = p.get_x() 
    txt_y = p.get_height()
    fig7.text(txt_x,txt_y,txt)
plt.show()

# 6. Arremessos por Tipo de Acão ofensiva

    O gráfico abaixo mostra todos os arremesoss tentados nas 10 temporadas pelo tipo de ação ofensiva.

    Nele nota-se que o 'jump shot' (ou arremesso) é o tipo de arremesso mais tentado na liga.

    Pare esclarecer a confusão que a tradução dos termos pode deixar, arremesso pode significar 'shot' que é um arremesso  qualquer ou 'jump shot' que é um tipo específico de arremesso. 

In [None]:
# SHOT ACTION TYPE BAR PLOT

plt.figure(figsize=(45,12))
fig8 = sns.countplot(data=nba_shots, x='ACTION_TYPE', palette = 'husl') 
fig8.set_xlabel('ACTION_TYPE', fontsize=20)
fig8.set_ylabel('COUNT', fontsize=20)
fig8.tick_params(labelsize=20)
fig8.tick_params(axis = 'x', rotation = 90)
plt.title('SHOT ACTION TYPE', fontsize = 20)
for p in fig8.patches:
    txt = str(p.get_height().round(2))
    txt_x = p.get_x() 
    txt_y = p.get_height()
    fig8.text(txt_x,txt_y,txt)
plt.show()

# 7. Arremessos por Período

    Outra forma interessante de se enxergar a efetividade dos arremessos é através dos períodos de um jogo de basquete. Um jogo tem 4 períodos e se ao final o jogo permanecer empatado, períodos extra mais curtos, são jogados até que ao final de um deles um time esteja vencendo.

    Abaixo podemos ver que média de acerto cai com o avanço dos períodos, algo que pode-se considerar esperado. Já que com o passar do jogo, cada arremesso tende a carregar maior importância, sendo esse um aspecto mental que pode afetar os atletas. Outro fator é o físico, quando mais se joga mais cansados estão os atletas, o que os leva em momentos a não conseguir performar o movimento do arremesso corretamente. 

In [None]:
# SHOT PER GAME PERIOD BAR PLOT

plt.figure(figsize=(20,12))
fig5 = sns.countplot(data=nba_shots, x='PERIOD', palette = 'husl', hue = 'EVENT_TYPE')
fig5.set_xlabel('SHOT_TYPE', fontsize=20)
fig5.set_ylabel('COUNT', fontsize=20)
fig5.tick_params(labelsize=20)
plt.title('SHOT TYPE PER GAME PERIOD', fontsize = 20)
for p in fig5.patches:
    txt = str(p.get_height().round(2))
    txt_x = p.get_x() 
    txt_y = p.get_height()
    fig5.text(txt_x,txt_y,txt)
plt.show()

Média Primeiro Período: 291535/(333488 + 291535) = 0,4664 -> 46,64%

Média Segundo Período: 276689/(324187 + 276689) = 0,4605 -> 46,05%
 
Média Terceiro Período: 268154/(320667 + 268154) = 0,4554 -> 45,54%
 
Média Quarto Período: 253673/(316060 + 253673) = 0,4452 -> 44,52%

# Previsão de Arremessos utilizando modelos de Machine Learming

    A partir destre ponto o conjunto de dados foi tratado a fim de alimentar modelos de Machine Learning com o intuito de prever o resultado de arremessos.

# Sub Conjuntos de Dados

    Dada a dimensão do nosso conjunto principal de dados que possui, 2401273 registros e 25 atributos. Foi decidido trabalhar com os modelos de machine learning utilizando sub conjuntos de dados.

    Foram criadas duas funções 'choose_player' e 'choose_season'. 'choose_player' permite criar um sub conjunto de dados de um jogador da NBA. 'choose_season' permite criar um sub conjunto de dados de uma temporada da NBA.

    Em ambas os sub conjuntos sofrem as seguintes operações:
    
    * Redução de Dimensão: Os atributos 'PLAYER_NAME', 'EVENT_TYPE' e 'TEAM_NAME' são retirados por serem redundantes em informação fornecida com os atributos 'PLAYER_ID', 'SHOT_MADE_FLAG' e 'TEAM_ID' respectivamente.

    * Dummy Coding: Aplicado nos seguintes atrobutos categóricos  'GRID_TYPE', 'ACTION_TYPE', 'SHOT_TYPE', 'SHOT_ZONE_BASIC', 
      'SHOT_ZONE_AREA', 'SHOT_ZONE_RANGE', 'HTM', 'VTM' e 'SEASON_ID'.

    * Train/Test split: Os conjuntos de Treino e Teste foram criados com os seguintes parâmetros:

      - Razão treino/teste igual a 0.2
      - Random state igual a 100 para permitir reproducibilidade ods conjuntos de treino e teste.
      - Estratificação ativada para permitir uma divisão equilibrada entre os resultados do sub conjunto de dados escolhido.

    * Checagem e tratamento de atributos vom variância igual a zero: Foram calculadas as variâncias de todos os atributos e os com valor 0 foram retirados das bases de Treino e Teste.

    * Normalização: Os dados das bases de Treino e Teste foram normalizados. É uma etapa fundamental pois o conjunto de dados possui atributos numéricos em escalas bastante distintas, como por exmplo 'TEAM_ID' e 'PERIOD'. Essa diferença pode levar os modelos a uma menor eficiência.


  Para o treinamento dos modelos que virão a seguir, iremos trabalhar com o sub conjunto de arremessos do jogador Stephen Curry. Treinamentos também foram feitos utilizando sub conjuntos de uma temporada inteira (2020-21) e os resultados não se distanciaram significativamente dos resultados obtidos utilizando apenas os arremessos do jogador.


# Análise exploratória do sub conjunto de dados

    Decidido o sub conjunto de dados que iremos utilizar para o treinamento e avaliação dos nossos modelos, é interessante repetir agora algumas das avaliações que fizemos anteriormente, apenas considerando os arremessos do Stephen Curry.

Como pode ser visto na distribuição de arremessos por distância e tipo apresentada abaixo. O jogador possui um perfil de arremessar preferencialmente bolas de 3 pontos.

In [None]:
# SHOT DISTANCE DISTRIBUTION PLOT STEPHEN CURRY

plt.figure(figsize=(20,12))
fig9 = sns.histplot(data=nba_shots, 
                    x=nba_shots[nba_shots['PLAYER_NAME'] == 'Stephen Curry']['SHOT_DISTANCE'], 
                    hue = nba_shots[nba_shots['PLAYER_NAME'] == 'Stephen Curry']['SHOT_TYPE'])
fig9.set_xlabel('SHOT_DISTANCE', fontsize=20)
fig9.set_ylabel('COUNT', fontsize=20)
fig9.tick_params(labelsize=15)
plt.title('SHOT DISTANCE DISTRIBUTION STEPHEN CURRY', fontsize = 20)
plt.xlim(0,40)
plt.show()

Nos gráficos de barra abaixo, que mostram os arremessos divididos pelo tipo (2 e 3 pontos) e por tipo e resultado respsctivamente. Notamos que o Stephen Curry foge do comportamento visto nestes mesmos gráficos que foram plotados considerando o dataset inteiro.

Em 12 temporadas, o atleta estreou na temporada 2009-10, Curry arremesou um pouco mais bolas de 2 do que de 3 e deve inverter essa ordem dentro das próximas temporadas visto que a diferença é de apenas 219 arremessos e que ele tem tentado mais arremessos de 3 do que de 2 nas últimas 6 temporadas.  

Esses números eram algo impensável antes do surgimento do mesmo. Vale lembrar que ele já é considerado quase que unanimamente por mídia especializada e fãs, como o melhor arremessador de 3 pontos da história da liga. Tendo sob seu nome vários recordes como por exemplo, mais arremessos de 3 pontos acertados em uma temporada regular (2015-2016) e mais arremessos de 3 pontos acertados em playoffs (na história).[1]

In [None]:
# SHOT TYPE BAR PLOT STEPHEN CURRY

plt.figure(figsize=(20,12))
fig10 = sns.countplot(data=nba_shots, x=nba_shots[nba_shots['PLAYER_NAME'] == 'Stephen Curry']['SHOT_TYPE'], palette = 'husl')
fig10.set_xlabel('SHOT_TYPE', fontsize=20)
fig10.set_ylabel('COUNT', fontsize=20)
fig10.tick_params(labelsize=20)
plt.title('SHOT TYPE STEPHEN CURRY', fontsize = 20)
for p in fig10.patches:
    txt = str(p.get_height().round(2))
    txt_x = p.get_x() 
    txt_y = p.get_height()
    fig10.text(txt_x,txt_y,txt)
plt.show()

In [None]:
# SHOT TYPE (MADE/MISSED) BAR PLOT STEPHEN CURRY

plt.figure(figsize=(20,12))
fig11 = sns.countplot(data=nba_shots, x=nba_shots[nba_shots['PLAYER_NAME'] == 'Stephen Curry']['SHOT_TYPE'], 
                    palette = 'husl', 
                    hue = nba_shots[nba_shots['PLAYER_NAME'] == 'Stephen Curry']['EVENT_TYPE'])
fig11.set_xlabel('SHOT_TYPE', fontsize=20)
fig11.set_ylabel('COUNT', fontsize=20)
fig11.tick_params(labelsize=20)
plt.title('SHOT TYPE (MADE/MISSED) STEPHEN CURRY', fontsize = 20)
for p in fig11.patches:
    txt = str(p.get_height().round(2))
    txt_x = p.get_x() 
    txt_y = p.get_height()
    fig11.text(txt_x,txt_y,txt)
plt.show()

Apesar de sua extrema capacidade na bola de 3, Curry ainda sim acerta percentualmente mais bolas de 2 do que de 3, como pode ser visto no gráfico abaixo. 

Média nos arremessos de 2 pontos: 3508/(3248 + 3508) = 0,5192 -> 51,92%

Media nos arremessos de 3 pontos: 2830/(3707 + 2830) = 0,4329 -> 43,29%

Média geral: (3508 + 2830)/(3508 + 3248 + 2830 + 3707) = 0,4668 -> 46,68%

A diferença nas médias é absolutamente normal dada a natureza do jogo de basquete, a bola de 3 é uma ação ofensiva de maior risco e maior recompensa. A média de 43,29% na carreira no arremesso de 3 é atualmente a sétima melhor marca na história da liga e considerando que Curry arremessa bem mais do que os 6 acima, isso torna o seu rendimento ainda mais impressionante. [2]

Hoje, os times notam que esse maior risco vale ser encarado. Tendo em consideração as médias do Curry. Como calculado, ele acerta em média 51,92% dos seus arremessos de 2 pontos, em um cenário em que tente 10 desses arremessos, ele acertaria 5 e isso resultaria num total de 10 pontos. Já se fizer as mesmas 10 tentativas para a bola de 3, com sua média de 43,29%, acertaria 4 bolas que somariam um total de 12 pontos.

Obviamente que esse cenário que ignora dezenas de fatores que levam ao sucesso ou não de um arremesso em um jogo oficial de basquete na NBA. Porém, essa lógica é a base do pensamento que levam hoje muitos dos times e sua comissões técnicas a priorizarem a bola de 3 mesmo que isso faça com que a média de acerto dos arremessos caia.

Diferente do que foi visto para o dataset geral, se analizarmos a performance de acerto de arremessos por período de jogo, Curry não aparenta seguir o mesmo padrão que o resto da liga, onde as médias de acerto caem com o avançar do jogo.

In [None]:
# SHOT PER GAME PERIOD BAR PLOT STEPHEN CURRY

plt.figure(figsize=(20,12))
fig12 = sns.countplot(data=nba_shots, x=nba_shots[nba_shots['PLAYER_NAME'] == 'Stephen Curry']['PERIOD'],
                        palette = 'husl', 
                        hue = nba_shots[nba_shots['PLAYER_NAME'] == 'Stephen Curry']['EVENT_TYPE'])
fig12.set_xlabel('SHOT_TYPE', fontsize=20)
fig12.set_ylabel('COUNT', fontsize=20)
fig12.tick_params(labelsize=20)
fig12.legend(loc=1, title='EVENT_TYPE')
plt.title('SHOT TYPE PER GAME PERIOD STEPHEN CURRY', fontsize = 20)
for p in fig12.patches:
    txt = str(p.get_height().round(2))
    txt_x = p.get_x() 
    txt_y = p.get_height()
    fig12.text(txt_x,txt_y,txt)
plt.show()

Média Primeiro Período: 1891/(2078 + 1891) = 0,4764 -> 47,64%

Média Segundo Período: 1337/(1429 + 1337) = 0,4834 -> 48,34%
 
Média Terceiro Período: 1940/(2112 + 1940) = 0,4788 -> 47,88%
 
Média Quarto Período: 1128/(1280 + 1128) = 0,4684 -> 46,84%

# Função choose_player


In [None]:
# Due to the large amount of the dataset, everything past this point you be done per player. The function below creates a sub dataset from nba_shots with the data form the chosen player. 

def choose_player (player_name):
    player_shots = nba_shots[nba_shots['PLAYER_NAME'] == player_name]
    print(player_shots.head())
    
    # Dimensional Reduction: Columns PLAYER_ID and PLAYER_NAME carry the same type of information, PLAYER_NAME is going to be droped. 
    # The same happens to columns EVENT_TYPE and SHOT_MADE_FLAG, EVENT_TYPE is going to be droped.
    # It also happens for TEAM_ID and TEAM_NAME, TEAM_NAME is going to be droped.

    nba_shots_ml = player_shots.drop(['PLAYER_NAME', 'EVENT_TYPE', 'TEAM_NAME'], axis = 1)
    
    # Apply Dummy Coding to the categorial attributes of the dataset

    categorical_columns = ['GRID_TYPE', 'ACTION_TYPE', 'SHOT_TYPE', 'SHOT_ZONE_BASIC', 
    'SHOT_ZONE_AREA', 'SHOT_ZONE_RANGE', 'HTM', 'VTM', 'SEASON_ID']

    for i in categorical_columns:

        nba_shots_ml = pd.get_dummies(nba_shots_ml, columns=[i], drop_first=True)

    #Train/Test split

    X = nba_shots_ml.loc[:, nba_shots_ml.columns != 'SHOT_MADE_FLAG']
    y = nba_shots_ml['SHOT_MADE_FLAG']
    X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                        test_size= 0.2, 
                                                        random_state = 100, 
                                                        stratify = y,
                                                        )

    # Check columns with variance equal to zero and drop them

    zero_var_filter = VarianceThreshold()
    X_train = zero_var_filter.fit_transform(X_train)
    X_test = zero_var_filter.transform(X_test)
    print('X_train e X_test possuíam', (zero_var_filter.variances_ == 0).sum(), 'atributo(s) com variância igual a zero')

    print('X_train:', X_train.shape)
    print('X_test:', X_test.shape)
    print('y_train:', y_train.shape)
    print('y_test:', y_test.shape)

    # Normalize the data

    scaler = StandardScaler().fit(X_train)
    X_train = scaler.transform(X_train)
    X_test = scaler.transform(X_test)

    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = choose_player('Blake Griffin')

# Função choose_player_and_shot_type

In [None]:
# Due to the large amount of the dataset, everything past this point you be done per player. The function below creates a sub dataset from nba_shots with the data form the chosen player. 

def choose_player_and_shot_type (player_name, shot_type):
    player_shots = nba_shots[(nba_shots['PLAYER_NAME'] == player_name) & (nba_shots['SHOT_TYPE'] == shot_type)]
    print(player_shots.head())
    
    # Dimensional Reduction: Columns PLAYER_ID and PLAYER_NAME carry the same type of information, PLAYER_NAME is going to be droped. 
    # The same happens to columns EVENT_TYPE and SHOT_MADE_FLAG, EVENT_TYPE is going to be droped.
    # It also happens for TEAM_ID and TEAM_NAME, TEAM_NAME is going to be droped.

    nba_shots_ml = player_shots.drop(['PLAYER_NAME', 'EVENT_TYPE', 'TEAM_NAME'], axis = 1)
    
    # Apply Dummy Coding to the categorial attributes of the dataset

    categorical_columns = ['GRID_TYPE', 'ACTION_TYPE', 'SHOT_TYPE', 'SHOT_ZONE_BASIC', 
    'SHOT_ZONE_AREA', 'SHOT_ZONE_RANGE', 'HTM', 'VTM', 'SEASON_ID']

    for i in categorical_columns:

        nba_shots_ml = pd.get_dummies(nba_shots_ml, columns=[i], drop_first=True)

    #Train/Test split

    X = nba_shots_ml.loc[:, nba_shots_ml.columns != 'SHOT_MADE_FLAG']
    y = nba_shots_ml['SHOT_MADE_FLAG']
    X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                        test_size= 0.2, 
                                                        random_state = 100, 
                                                        stratify = y,
                                                        )

    # Check columns with variance equal to zero and drop them

    zero_var_filter = VarianceThreshold()
    X_train = zero_var_filter.fit_transform(X_train)
    X_test = zero_var_filter.transform(X_test)
    print('X_train e X_test possuíam', (zero_var_filter.variances_ == 0).sum(), 'atributo(s) com variância igual a zero')

    print('X_train:', X_train.shape)
    print('X_test:', X_test.shape)
    print('y_train:', y_train.shape)
    print('y_test:', y_test.shape)

    # Normalize the data

    scaler = StandardScaler().fit(X_train)
    X_train = scaler.transform(X_train)
    X_test = scaler.transform(X_test)

    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = choose_player_and_shot_type('Stephen Curry', '3PT Field Goal')

# Função choose_season

In [None]:
# Due to the large amount of the dataset, everything past this point you be done per season. The function below creates a sub dataset from nba_shots with the data form the chosen season. 

def choose_season (season_id):
    season_shots = nba_shots[nba_shots['SEASON_ID'] == season_id]
    print(season_shots.head())
    
    # Dimensional Reduction: Columns PLAYER_ID and PLAYER_NAME carry the same type of information, PLAYER_NAME is going to be droped. 
    # The same happens to columns EVENT_TYPE and SHOT_MADE_FLAG, EVENT_TYPE is going to be droped.
    # It also happens for TEAM_ID and TEAM_NAME, TEAM_NAME is going to be droped.

    nba_shots_ml = season_shots.drop(['PLAYER_NAME', 'EVENT_TYPE', 'TEAM_NAME'], axis = 1)
    
    # Apply Dummy Coding to the categorial attributes of the dataset

    categorical_columns = ['GRID_TYPE', 'ACTION_TYPE', 'SHOT_TYPE', 'SHOT_ZONE_BASIC', 
    'SHOT_ZONE_AREA', 'SHOT_ZONE_RANGE', 'HTM', 'VTM', 'SEASON_ID']

    for i in categorical_columns:

        nba_shots_ml = pd.get_dummies(nba_shots_ml, columns=[i], drop_first=True)

    #Train/Test split

    X = nba_shots_ml.loc[:, nba_shots_ml.columns != 'SHOT_MADE_FLAG']
    y = nba_shots_ml['SHOT_MADE_FLAG']
    X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                        test_size= 0.2, 
                                                        random_state = 100, 
                                                        stratify = y
                                                        )

    # Check columns with variance equal to zero and drop them

    zero_var_filter = VarianceThreshold()
    X_train = zero_var_filter.fit_transform(X_train)
    X_test = zero_var_filter.transform(X_test)
    print('X_train e X_test possuíam', (zero_var_filter.variances_ == 0).sum(), 'atributo(s) com variância igual a zero')

    print('X_train:', X_train.shape)
    print('X_test:', X_test.shape)
    print('y_train:', y_train.shape)
    print('y_test:', y_test.shape)

    # Normalize the data

    scaler = StandardScaler().fit(X_train)
    X_train = scaler.transform(X_train)
    X_test = scaler.transform(X_test)

    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = choose_season('2020-21')

# Modelos de Machine Learning

    Todos os modelos de machine learning que serão usados nesse trabalho são do tipo supervisionado e de classificação. A escolha de quais tipos de modelos usar passa pela natureza dos dados que serão trabalhados como também o que deseja-se ser capaz de prever com tais modelos.

    Nós estamos trabalhando com um dataset de arremessos de jogadores da NBA. O nosso conjunto possui o resultado de cada arremesso logo, faz sentido usarmos modelos supervisionados, aqueles que são treinados tendo conhecimento do resultado de cada registro a ser usado no treinamento. 

    Dentro do grupo de modelos supervisionados, utilizaremos os de classificação já que, nosso intuito é poder prever se um arremesso entrou ou não.

# SVM
    

In [None]:
# Train and predict SVM model with hyperparameter tuning (GridSearchCV)

def train_svm_GS(X_train, X_test, y_test):
    tuned_parameters = [{'kernel': ['rbf', 'poly', 'sigmoid'],
                        'gamma': [1e-1, 1e-2, 1e-3, 1e-4],
                        'C': [0.1, 1, 10, 100, 1000]
                        }]
                        
    print("Hyperparameter Tuning for accuracy")
    print()

    model = GridSearchCV(SVC(random_state=100), 
                            tuned_parameters, 
                            scoring='accuracy',
                            )
    model.fit(X_train, y_train)
    return model

model_SVM_GS = train_svm_GS(X_train, X_test, y_test)
y_pred_SVM_GS = model_SVM_GS.predict(X_test)
print(classification_report(y_test, y_pred_SVM_GS))
print()
print("BEST TUNED PARAMETERS", model_SVM_GS.best_params_)


In [None]:
# Evaluate SVM model with hyper-parameters tuning (GridSearchCV)

def evaluate_SVM_GS(y_test, y_pred_SVM_GS):

  # Acurácia
  from sklearn.metrics import accuracy_score
  accuracy = accuracy_score(y_test, y_pred_SVM_GS)
  print('Acurácia: ', accuracy)

  # Kappa
  from sklearn.metrics import cohen_kappa_score
  kappa = cohen_kappa_score(y_test, y_pred_SVM_GS)
  print('Kappa: ', kappa)

  # F1
  from sklearn.metrics import f1_score
  f1 = f1_score(y_test, y_pred_SVM_GS)
  print('F1: ', f1)

  # Matriz de confusão
  from sklearn.metrics import confusion_matrix
  confMatrix = confusion_matrix(y_pred_SVM_GS, y_test)

  plt.figure(figsize=(20,12))
  ax = plt.subplot()
  sns.heatmap(confMatrix, annot=True, fmt=".0f", cmap ="YlGnBu", annot_kws={"fontsize":20})
  plt.xlabel('REAL')
  plt.ylabel('PRED')
  plt.title('CONFUSION MATRIX SVM')

  # Colocar os nomes
  ax.xaxis.set_ticklabels(['OUT', 'IN']) 
  ax.yaxis.set_ticklabels(['OUT', 'IN'])

evaluate_SVM_GS(y_test, y_pred_SVM_GS)

In [None]:
# Train and predict SVM model

def train_SVM(X_train, y_train):
  model = SVC(random_state=100,
              C=100,
              gamma=0.0001,
              kernel='rbf'
              )
  model.fit(X_train, y_train)
  return model

model_SVM = train_SVM(X_train, y_train)
y_pred_SVM = model_SVM.predict(X_test)

train_SVM(X_train, y_train)

In [None]:
# Evaluate SVM model

def evaluate_SVM(X_test, y_test):

  # Acurácia
  from sklearn.metrics import accuracy_score
  accuracy = accuracy_score(y_test, y_pred_SVM)
  print('Acurácia: ', accuracy)

  # Kappa
  from sklearn.metrics import cohen_kappa_score
  kappa = cohen_kappa_score(y_test, y_pred_SVM)
  print('Kappa: ', kappa)

  # F1
  from sklearn.metrics import f1_score
  f1 = f1_score(y_test, y_pred_SVM)
  print('F1: ', f1)

  # Matriz de confusão
  from sklearn.metrics import confusion_matrix
  confMatrix = confusion_matrix(y_pred_SVM, y_test)

  plt.figure(figsize=(20,12))
  ax = plt.subplot()
  sns.heatmap(confMatrix, annot=True, fmt=".0f", cmap ="YlGnBu", annot_kws={"fontsize":20})
  plt.xlabel('REAL')
  plt.ylabel('PRED')
  plt.title('CONFUSION MATRIX SVM')

  # Colocar os nomes
  ax.xaxis.set_ticklabels(['OUT', 'IN']) 
  ax.yaxis.set_ticklabels(['OUT', 'IN'])

evaluate_SVM(X_test, y_test)

# Decision Tree

In [None]:
# Train and predict Decision Tree model with hyper-parameters tuning (GridSearchCV)

def train_DT_GS(X_train, X_test, y_test):

    tuned_parameters = [{'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20], 
                            'min_samples_leaf': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]}]

    print("Hyperparameter Tuning for accuracy")
    print()

    model = GridSearchCV(DecisionTreeClassifier(random_state=100), tuned_parameters, scoring='f1')
    model.fit(X_train, y_train)
    return model

model_DT_GS = train_DT_GS(X_train, X_test, y_test)
y_pred_DT_GS = model_DT_GS.predict(X_test)
print(classification_report(y_test, y_pred_DT_GS))
print()
print("BEST TUNED PARAMETERS", model_DT_GS.best_params_)

In [None]:
# Evaluate Decision Tree model with hyper-parameters tuning (GridSearchCV)

def evaluate_DT_GS(y_test, y_pred_DT_GS):  

  # Acurácia
  from sklearn.metrics import accuracy_score
  accuracy = accuracy_score(y_test, y_pred_DT_GS)
  print('Acurácia: ', accuracy)

  # Kappa
  from sklearn.metrics import cohen_kappa_score
  kappa = cohen_kappa_score(y_test, y_pred_DT_GS)
  print('Kappa: ', kappa)

  # F1
  from sklearn.metrics import f1_score
  f1 = f1_score(y_test, y_pred_DT_GS, average='weighted')
  print('F1: ', f1)

  # Matriz de confusão
  from sklearn.metrics import confusion_matrix
  confMatrix = confusion_matrix(y_pred_DT_GS, y_test)

  plt.figure(figsize=(20,12))
  ax = plt.subplot()
  sns.heatmap(confMatrix, annot=True, fmt=".0f", cmap ="YlGnBu", annot_kws={"fontsize":20})
  plt.xlabel('REAL')
  plt.ylabel('PRED')
  plt.title('CONFUSION MATRIX DECISION TREE')

  # Colocar os nomes
  ax.xaxis.set_ticklabels(['OUT', 'IN']) 
  ax.yaxis.set_ticklabels(['OUT', 'IN'])
  plt.show()

evaluate_DT_GS(y_test, y_pred_DT_GS)

In [None]:
# Train and predict Decision Tree model

def train_DT(X_train, y_train):
  model = DecisionTreeClassifier(max_depth = 5, 
                                  min_samples_leaf = 5,
                                  min_samples_split = 10, 
                                  random_state=100
                                  )
  model.fit(X_train, y_train)
  return model

model_DT = train_DT(X_train, y_train)
y_pred_DT = model_DT.predict(X_test)

In [None]:
# Evaluate Decision Tree model

def evaluate_DT_GS(y_test, y_pred_DT):

  # Acurácia
  from sklearn.metrics import accuracy_score
  accuracy = accuracy_score(y_test, y_pred_DT)
  print('Acurácia: ', accuracy)

  # Kappa
  from sklearn.metrics import cohen_kappa_score
  kappa = cohen_kappa_score(y_test, y_pred_DT)
  print('Kappa: ', kappa)

  # F1
  from sklearn.metrics import f1_score
  f1 = f1_score(y_test, y_pred_DT, average='weighted')
  print('F1: ', f1)

  # Matriz de confusão
  from sklearn.metrics import confusion_matrix
  confMatrix = confusion_matrix(y_pred_DT, y_test)

  plt.figure(figsize=(20,12))
  ax = plt.subplot()
  sns.heatmap(confMatrix, annot=True, fmt=".0f", cmap ="YlGnBu", annot_kws={"fontsize":20})
  plt.xlabel('REAL')
  plt.ylabel('PRED')
  plt.title('CONFUSION MATRIX DECISION TREE')

  # Colocar os nomes
  ax.xaxis.set_ticklabels(['OUT', 'IN']) 
  ax.yaxis.set_ticklabels(['OUT', 'IN'])
  plt.show()

evaluate_DT_GS(y_test, y_pred_DT)

In [None]:
# Plot decision tree

plt.figure(figsize=(20, 10))
tree.plot_tree(model_DT, class_names=["OUT", "IN"], filled=True, rounded=True);

# Random Forest

In [None]:
# Train and predict Random Forest model with hyper-parameters tuning (GridSearchCV)

def train_RF_GS(X_train, X_test, y_test):

    tuned_parameters = [{'n_estimators': [20, 50, 100, 150, 200, 300, 400, 500],
                        'max_features': [3,4,8,9,10,11],
                        'min_samples_leaf': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
                        'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]}]

    print("Hyperparameter Tuning for accuracy")
    print()

    model = GridSearchCV(RandomForestClassifier(n_jobs=50, verbose=1, random_state=100), 
                        tuned_parameters, 
                        scoring='accuracy'
                        )
    model.fit(X_train, y_train)
    return model

model_RF_GS = train_RF_GS(X_train, X_test, y_test)
y_pred_RF_GS = model_RF_GS.predict(X_test)
print(classification_report(y_test, y_pred_RF_GS))
print()
print("BEST TUNED PARAMETERS", model_RF_GS.best_params_)

train_RF_GS(X_train, X_test, y_test)

In [None]:
# Evaluate Random Forest model with hyper-parameters tuning (GridSearchCV)

def evaluate_RF_GS(y_test, y_pred_RF_GS):  

  # Acurácia
  from sklearn.metrics import accuracy_score
  accuracy = accuracy_score(y_test, y_pred_RF_GS)
  print('Acurácia: ', accuracy)

  # Kappa
  from sklearn.metrics import cohen_kappa_score
  kappa = cohen_kappa_score(y_test, y_pred_RF_GS)
  print('Kappa: ', kappa)

  # F1
  from sklearn.metrics import f1_score
  f1 = f1_score(y_test, y_pred_RF_GS, average='weighted')
  print('F1: ', f1)

  # Matriz de confusão
  from sklearn.metrics import confusion_matrix
  confMatrix = confusion_matrix(y_pred_RF_GS, y_test)

  plt.figure(figsize=(20,12))
  ax = plt.subplot()
  sns.heatmap(confMatrix, annot=True, fmt=".0f", cmap="YlGnBu", annot_kws={"fontsize":20})
  plt.xlabel('REAL')
  plt.ylabel('PRED')
  plt.title('CONFUSION MATRIX RANDOM FOREST')

  # Colocar os nomes
  ax.xaxis.set_ticklabels(['OUT', 'IN']) 
  ax.yaxis.set_ticklabels(['OUT', 'IN'])
  plt.show()

evaluate_RF_GS(y_test, y_pred_RF_GS)

In [None]:
# Train and predict Random Forest model

def train_RF(X_train, y_train):
  model = RandomForestClassifier(random_state=100,
                                min_samples_leaf=8,
                                min_samples_split=10,
                                max_depth=12,
                                max_features='auto', 
                                n_estimators=5000,
                                n_jobs=100, 
                                verbose=1
                                )
  model.fit(X_train, y_train);
  return model

model_RF = train_RF(X_train, y_train)
y_pred_RF = model_RF.predict(X_test)

In [None]:
# Evaluate Random Forest model

def evaluate_RF(y_test, y_pred_RF):  

  # Acurácia
  from sklearn.metrics import accuracy_score
  accuracy = accuracy_score(y_test, y_pred_RF)
  print('Acurácia: ', accuracy)

  # Kappa
  from sklearn.metrics import cohen_kappa_score
  kappa = cohen_kappa_score(y_test, y_pred_RF)
  print('Kappa: ', kappa)

  # F1
  from sklearn.metrics import f1_score
  f1 = f1_score(y_test, y_pred_RF, average='weighted')
  print('F1: ', f1)

  # Matriz de confusão
  from sklearn.metrics import confusion_matrix
  confMatrix = confusion_matrix(y_pred_RF, y_test)

  plt.figure(figsize=(20,12))
  ax = plt.subplot()
  sns.heatmap(confMatrix, annot=True, fmt=".0f", cmap="YlGnBu", annot_kws={"fontsize":20})
  plt.xlabel('REAL')
  plt.ylabel('PRED')
  plt.title('CONFUSION MATRIX RANDOM FOREST')

  # Colocar os nomes
  ax.xaxis.set_ticklabels(['OUT', 'IN']) 
  ax.yaxis.set_ticklabels(['OUT', 'IN'])
  plt.show()

evaluate_RF(y_test, y_pred_RF)

In [None]:
model_RF.feature_importances_

In [None]:
# Plot the importance of the attributes to the model

importances = model_RF.feature_importances_
std = np.std([tree.feature_importances_ for tree in model_RF.estimators_],
             axis=0)
indices = np.argsort(importances)

plt.figure(figsize=(20,50))
plt.title("FEATURE IMPORTANCES RANDOM FOREST")
plt.barh(range(X_train.shape[1]), importances[indices],
       color="g", align="center")
plt.yticks(range(X_train.shape[1]), indices)
plt.ylim([-1, X_train.shape[1]])
plt.show()

# XGBOOST

In [None]:
# Train and predict XGBOOST model with hyper-parameters tuning (GridSearchCV)

tuned_parameters = {
                    #'learning_rate': [0.1, 0.3, 0.5, 0.7, 0.9],
                    #'max_depth': [4,5,6,7,8,9,10,11,12], 
                    #'alpha': [10,20,50,100,500],
                    #'lambda': [5,6,7,8,9,10,11,12,13,14,15,17,18,19,20],
                    #'min_child_weight': [1,2,3,4,5,6],
                    #'colsample_bytree': [0.5,0.6,0.7,0.8,0.9],
                    #'subsample': [0.5,0.6,0.7,0.8,0.9],
                    #'gamma': [0,0.1,0.2,0.3,0.4],
                    #'n_estimators': [50, 100, 200, 300, 400, 500, 1000]
                    }

print('Hyperparameter Tuning for accuracy')

model_XGB_GS = GridSearchCV(xgb.XGBClassifier(
                                            n_estimators=1000, 
                                            objective="reg:logistic",
                                            use_label_encoder=False,
                                            booster='gbtree',
                                            reg_alpha=1e-5, 
                                            alpha=10, 
                                            max_depth=10,
                                            gamma=0,
                                            #colsample_bytree=0.8,
                                            min_child_weight=5,
                                            learning_rate=0.1,
                                            scale_pos_weight = 1,
                                            #subsample=0.8,
                                            random_state=100), 
                                            tuned_parameters,
                                            scoring='f1'
                                            )
model_XGB_GS.fit(X_train, y_train)

y_pred_XGB_GS = model_XGB_GS.predict(X_test)
print(classification_report(y_test, y_pred_XGB_GS))
print()
print("BEST TUNED PARAMETERS", model_XGB_GS.best_params_)
                    

In [None]:
# Evaluate XGBOOST model with hyper-parameters tuning (GridSearchCV)

def evaluate_XGB_CV(y_test, y_pred_XGB_GS):

  # Acurácia
  from sklearn.metrics import accuracy_score
  accuracy = accuracy_score(y_test, y_pred_XGB_GS)
  print('Acurácia: ', accuracy)

  # Kappa
  from sklearn.metrics import cohen_kappa_score
  kappa = cohen_kappa_score(y_test, y_pred_XGB_GS)
  print('Kappa: ', kappa)

  # F1
  from sklearn.metrics import f1_score
  f1 = f1_score(y_test, y_pred_XGB_GS)
  print('F1: ', f1)

  # Matriz de confusão
  from sklearn.metrics import confusion_matrix
  confMatrix = confusion_matrix(y_pred_XGB_GS, y_test)

  plt.figure(figsize=(20,12))
  ax = plt.subplot()
  sns.heatmap(confMatrix, annot=True, fmt=".0f", cmap ="YlGnBu", annot_kws={"fontsize":20})
  plt.xlabel('REAL')
  plt.ylabel('PRED')
  plt.title('CONFUSION MATRIX')

  # Colocar os nomes
  ax.xaxis.set_ticklabels(['OUT', 'IN']) 
  ax.yaxis.set_ticklabels(['OUT', 'IN'])

evaluate_XGB_CV(y_test, y_pred_XGB_GS)

In [None]:
# Train and predict XGBOOST model

def train_XGB (X_train, y_train):
    model = xgb.XGBClassifier(n_estimators=5000, 
                              objective="reg:logistic",
                              use_label_encoder=False,
                              booster='gbtree', 
                              #reg_alpha=100,
                              alpha=10, 
                              max_depth=12,
                              gamma=0,
                              colsample_bytree=0.8,
                              min_child_weight=5,
                              learning_rate=0.01,
                              scale_pos_weight = 1,
                              #subsample=0.7,
                              random_state=100)
    model.fit(X_train, y_train)
    return model

model_XGB = train_XGB(X_train, y_train)
y_pred_XGB = model_XGB.predict(X_test)

In [None]:
# Evaluate XGBOOST model

def evaluate_XGB(X_test, y_test):

  # Acurácia
  from sklearn.metrics import accuracy_score
  accuracy = accuracy_score(y_test, y_pred_XGB)
  print('Acurácia: ', accuracy)

  # Kappa
  from sklearn.metrics import cohen_kappa_score
  kappa = cohen_kappa_score(y_test, y_pred_XGB)
  print('Kappa: ', kappa)

  # F1
  from sklearn.metrics import f1_score
  f1 = f1_score(y_test, y_pred_XGB)
  print('F1: ', f1)

  # Matriz de confusão
  from sklearn.metrics import confusion_matrix
  confMatrix = confusion_matrix(y_pred_XGB, y_test)

  plt.figure(figsize=(20,12))
  ax = plt.subplot()
  sns.heatmap(confMatrix, annot=True, fmt=".0f", cmap ="YlGnBu", annot_kws={"fontsize":20})
  plt.xlabel('REAL')
  plt.ylabel('PRED')
  plt.title('CONFUSION MATRIX XGBOOST')

  # Colocar os nomes
  ax.xaxis.set_ticklabels(['OUT', 'IN']) 
  ax.yaxis.set_ticklabels(['OUT', 'IN'])

evaluate_XGB(X_test, y_test)

In [None]:
# Plot the importance of the attributes to the model

xgb.plot_importance(model_XGB)
plt.rcParams['figure.figsize'] = [30, 30]
plt.show()


In [None]:
# SHOT TYPE BAR PLOT BLAKE GRIFFIN

plt.figure(figsize=(20,12))
fig10 = sns.countplot(data=nba_shots, x=nba_shots[nba_shots['PLAYER_NAME'] == 'Blake Griffin']['SHOT_TYPE'], palette = 'husl')
fig10.set_xlabel('SHOT_TYPE', fontsize=20)
fig10.set_ylabel('COUNT', fontsize=20)
fig10.tick_params(labelsize=20)
plt.title('SHOT TYPE', fontsize = 20)
for p in fig10.patches:
    txt = str(p.get_height().round(2))
    txt_x = p.get_x() 
    txt_y = p.get_height()
    fig10.text(txt_x,txt_y,txt)
plt.show()

# Conclusão

Após a avaliação de todos os modelos treinados, ficou claro que os modelos do tipo Comitê são os melhores entre os testados. Random Forest Classifier, que utiliza o método de bagging e XGBOOST, que utiliza boosting, foram os que obtiveram as melhores performances. Os resultados foram os esperados se considerarmos que os modelos do tipo Comitê são reconhecidamente bons para cenários onde temos um conjunto muito grande de dados e o problema é muito complexo. A complexidade do problema é um fator a ser bastante considerado pois, estamos tratando de de um tipo de evento, arremesso de basquete, que possui ínumeras variáveis que compõe e afetam o resultado.

Esses resultados corroboram o favoritismo desses tipos de modelos para a previsão de arremessos. Resultados semelhantes foram encontrados por Brett Meehan em "Predicting NBA Shots" e Max Murakami-Moses em "Analysis of Machine Learning Models Predicting Basketball Shot Success". Vale reassaltar que, apesar de próximos e indicarem um mesmo caminho, os resultados obtidos nesse estudo e nos mencionados foram diferentes e isso era esperado, visto que estamos falando de bases de dados que se diferenciam em quandidade e qualidade de atributos e quantidade de registros disponíveis. Além do fato principal que aqui, focamos em realizar o treinmanto de modelos usando dados de jogadores separadamente euquanto os outros trabalharam, com o conjunto de uma ou mais temporadas inteiras para o treinamento e previsão de seus modelos.  [7][8]

Outro resultado interessante foi perceber que comparando as previsões dos arremessos de 2 e 3 pontos de Stephen Curry separadamante e depois compararando com as previsões dos arremessos de Blake Griffin, que arremessou quase que exclusivamente bolas de 2 na maior parte de sua carreira, que os modelos cujo os conjuntos de Treino e Teste possuiam em sua maioria ou exclusivamente arremressos de 2 pontos e de um tipo bem específico, obtiveram performance superior comparados aos outros cenários apresentados. Isso nos leva a crer que a grande complexidade e variedade associada a um arremesso de basquete e todos os fatores que entram em consideração, limitam a performance dos modelos de machine learning e que um caminho possível para obter melhores resultados seja a segmentação dos arremessos em suas diferentes categorias e tratá-los como problemas de previsão independentes.

# Referências

    [1] Stephen Curry career stats. https://www.basketball-reference.com/players/c/curryst01.html, 2021.

    [2] NBA & ABA Career Leaders and Records for 3-Pt Field Goal Pct. https://www.basketball-reference.com/leaders/fg3_pct_career.html, 2021.

    [3] Support Vector Classifier. https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html, 2021.

    [4] Decision Tree Classifier. https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html, 2021.

    [5] Random Forest Classifier. https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html, 2021.

    [6] XGBOOST. https://xgboost.readthedocs.io/en/latest/, 2021.

    [7] B. Meehan. Predicting NBA Shots. http://cs229.stanford.edu/proj2017/final-reports/5132133.pdf, 2017.

    [8] M. Murakami-Moses. Analysis of Machine Learning Models Predicting Basketball Shot Success. https://www.the-iyrc.org/uploads/1/2/9/7/129787256/20_iyrc2020_35_final.pdf.