In [1]:
import numpy as np
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
import keras
import h5py
import PIL
import seaborn as sns
import plotly
import sklearn_pandas
from IPython.display import Image
from IPython.core.display import HTML 
from sklearn.preprocessing import MinMaxScaler

In [2]:
# Esta celda lo que hace es obtener el dataset que se encuentra en el repositorio, utilizando un path relativo
path = '..//TP2//Seasons_Stats.csv'
data = pd.read_csv(path)

In [3]:
# Con esta celda buscamos reducir la cantidad de columnas que posee el dataset, eliminando las columnas que pensamos no son necesarias para realizar la predicción.
columns = ['blanl','blank2', 'Tm']
data = data.drop(columns, axis=1)

In [4]:
# Eliminamos todas las filas de datos que sean anteriores al año 1980. Elegimos este año ya que a partir de aquí se comienzan a tener en cuenta estadísticas como, por ejemplo, los tiros de 3 puntos.
# Esto lo hacemos ya que, antes de ese año, el dataset poseía muchas estadísticas que todavía no se tenian en cuenta y había muchos valores en NaN
data = data.drop(data[data.Year < 1980].index, axis=0)
# Además, eliminamos todos los datos en NaN para evitar inconsistencias en el dataset.
#data = data.dropna()

#Con esta linea mostramos todas las columnas del dataset
pd.set_option('display.max_columns', 100)

In [5]:
df = pd.DataFrame(data)

In [6]:
df[['3P%','FT%', '2P%', '3PAr', 'FTr', 'FG%', 'eFG%', 'TS%', 'TOV%']] = df[['3P%','FT%', '2P%', '3PAr', 'FTr', 'FG%', 'eFG%', 'TS%', 'TOV%']].fillna(0)

In [7]:
# Este celda elimina los años que figuran mas de una vez para un mismo jugador.

df = df.drop_duplicates(subset=['Player','Year'])

In [8]:
# Esta celda renombra la primer columna del dataFrame (denominada 'Unnamed: 0') y le setea el nombre de "id"
df = df.rename(columns = {'Unnamed: 0' : 'id'})

In [9]:
# Con esta celda, creamos la que será nuestra columna TARGET y la llamamos "morePoints" ("Mas Puntos")
# Dicha columna podrá tener solo dos valores "Yes"/"No" dependiendo si el jugador hizo mas puntos que la temporada anterior
# Cabe recalcar que si es la 1er temporada del jugador o si una temporada no jugo por algun motivo, se colocará en "Yes" ya que consideramos que al no haber jugado efectivamente realizó mas puntos.
df.insert(18, 'morePoints', 'No', allow_duplicates = True)

In [10]:
# Esta es una funcion que realizamos para setear la columna "morePoints"
# Buscamos el año anterior y comparamos los puntos que realizó en ese año y el año actual.
# Si efectivamente hizo mas puntos no hacemos nada, pero si no seteamos la columna en "No"
def funcionSetMorePoints(id):
    auxiliar = df.loc[id]
    temporadaSiguiente = df.loc[(df.Player == auxiliar.Player) & (df.Year == auxiliar.Year  + 1)]      
    if ((not temporadaSiguiente.empty) and (auxiliar.PTS <= temporadaSiguiente.PTS.item())):
        df.loc[df.id == id,'morePoints'] = 'Yes'
    else:
        if temporadaSiguiente.empty:
            df.loc[df.id == id,'morePoints'] = 'None'
    return id

In [11]:
# Llamamos a la funcion defenida anteriormente
df.id = df.id.apply(funcionSetMorePoints)

In [13]:
df = df[df['morePoints'] != 'None']
display(df.PTS)

5727     2034.0
5728      362.0
5729     1118.0
5730     1131.0
5731       86.0
          ...  
24090     154.0
24091     392.0
24092    1102.0
24093     638.0
24094     364.0
Name: PTS, Length: 12099, dtype: float64

# TP N° 2 - Experimentación

## Métrica a utilizar

Accuracy<br>
Accuracy nos indica el porcentaje de casos que se acertaron. 
Los problemas que pueden aparecer al utilizar esta métrica no aplicarían para este modelo, ya que: 
•	Como pudimos apreciar en el análisis exploratorio de datos, no poseemos un gran desbalanceo en los datos. 
•	El resultado de la predicción no tiene diferente impacto (tiene igual impacto errar por Si o por No). Creemos que el costo de obtener falsos positivos no es alto. 
Por esta razón consideramos que la métrica Accuracy es la que más se adapta a nuestro caso de estudio.


**No tenemos ninguno de estos dos problemas, para mi podría ser Accuracy ANASHEEEIIII.**

## Técnica de feature engineering

Podría ser Binning (para achicar los decimales). Data pasada creemos que no xq tendríamos que tener los registros de cada jugador al momento de predecir y no los vamos a tener

In [25]:
#esto es para probar el binning, agrupando los PTS en distintos grupos
data = df.squeeze()
bins = [0,250,500,750,1000,1250,1500,1750,2000,2250,2500,2750,3000,3250,3500,3750,4000]
binned_Data = pd.cut(data.PTS, bins)
display(binned_Data)

5727     (2000, 2250]
5728       (250, 500]
5729     (1000, 1250]
5730     (1000, 1250]
5731         (0, 250]
             ...     
24090        (0, 250]
24091      (250, 500]
24092    (1000, 1250]
24093      (500, 750]
24094      (250, 500]
Name: PTS, Length: 12099, dtype: category
Categories (16, interval[int64]): [(0, 250] < (250, 500] < (500, 750] < (750, 1000] ... (3000, 3250] < (3250, 3500] < (3500, 3750] < (3750, 4000]]

In [26]:
#Cambio la columna PTS por la columna creada.
df['PTS'] = binned_Data

In [27]:
display(df)

Unnamed: 0,id,Year,Player,Pos,Age,G,GS,MP,PER,TS%,3PAr,FTr,ORB%,DRB%,TRB%,AST%,STL%,BLK%,morePoints,TOV%,USG%,OWS,DWS,WS,WS/48,OBPM,DBPM,BPM,VORP,FG,FGA,FG%,3P,3PA,3P%,2P,2PA,2P%,eFG%,FT,FTA,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
5727,5727,1980.0,Kareem Abdul-Jabbar*,C,32.0,82.0,,3143.0,25.3,0.639,0.001,0.344,7.2,22.2,15.4,16.5,1.2,4.6,Yes,15.7,24.1,9.5,5.3,14.8,0.227,4.0,2.7,6.7,6.8,835.0,1383.0,0.604,0.0,1.0,0.000,835.0,1382.0,0.604,0.604,364.0,476.0,0.765,190.0,696.0,886.0,371.0,81.0,280.0,297.0,216.0,"(2000, 2250]"
5728,5728,1980.0,Tom Abernethy,PF,25.0,67.0,,1222.0,11.0,0.511,0.003,0.258,5.4,12.0,8.6,9.3,1.4,0.6,No,9.9,13.3,1.2,0.8,2.0,0.080,-1.5,-0.1,-1.6,0.1,153.0,318.0,0.481,0.0,1.0,0.000,153.0,317.0,0.483,0.481,56.0,82.0,0.683,62.0,129.0,191.0,87.0,35.0,12.0,39.0,118.0,"(250, 500]"
5729,5729,1980.0,Alvan Adams,C,25.0,75.0,,2168.0,19.2,0.571,0.002,0.270,8.2,22.4,15.4,21.6,2.3,1.4,No,18.2,21.9,3.1,3.9,7.0,0.155,1.6,2.8,4.4,3.5,465.0,875.0,0.531,0.0,2.0,0.000,465.0,873.0,0.533,0.531,188.0,236.0,0.797,158.0,451.0,609.0,322.0,108.0,55.0,218.0,237.0,"(1000, 1250]"
5730,5730,1980.0,Tiny Archibald*,PG,31.0,80.0,80.0,2864.0,15.3,0.574,0.023,0.548,2.3,5.3,3.8,30.2,1.7,0.2,No,19.7,17.0,5.9,2.9,8.9,0.148,1.1,-1.1,0.0,1.5,383.0,794.0,0.482,4.0,18.0,0.222,379.0,776.0,0.488,0.485,361.0,435.0,0.830,59.0,138.0,197.0,671.0,106.0,10.0,242.0,218.0,"(1000, 1250]"
5731,5731,1980.0,Dennis Awtrey,C,31.0,26.0,,560.0,7.4,0.524,0.000,0.833,6.0,16.9,11.5,9.0,1.0,1.5,Yes,24.8,7.9,0.1,0.5,0.6,0.053,-2.9,1.5,-1.4,0.1,27.0,60.0,0.450,0.0,0.0,0.000,27.0,60.0,0.450,0.450,32.0,50.0,0.640,29.0,86.0,115.0,40.0,12.0,15.0,27.0,66.0,"(0, 250]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24090,24090,2016.0,Joe Young,PG,23.0,41.0,0.0,384.0,9.9,0.428,0.272,0.148,1.7,12.5,7.1,26.9,1.9,0.0,No,15.5,24.4,-0.5,0.5,-0.1,-0.009,-3.9,-1.5,-5.4,-0.3,62.0,169.0,0.367,10.0,46.0,0.217,52.0,123.0,0.423,0.396,20.0,25.0,0.800,6.0,44.0,50.0,65.0,15.0,0.0,33.0,30.0,"(0, 250]"
24091,24091,2016.0,Nick Young,SG,30.0,54.0,2.0,1033.0,9.1,0.483,0.637,0.204,1.4,9.0,5.1,5.4,1.1,0.5,Yes,6.9,18.5,0.1,0.0,0.1,0.003,-1.4,-3.5,-4.8,-0.7,126.0,372.0,0.339,77.0,237.0,0.325,49.0,135.0,0.363,0.442,63.0,76.0,0.829,14.0,83.0,97.0,34.0,23.0,7.0,30.0,50.0,"(250, 500]"
24092,24092,2016.0,Thaddeus Young,PF,27.0,73.0,73.0,2407.0,17.5,0.533,0.031,0.169,8.1,23.0,15.4,9.5,2.3,1.2,No,11.6,21.6,1.9,2.2,4.1,0.081,-0.5,0.6,0.1,1.3,495.0,963.0,0.514,7.0,30.0,0.233,488.0,933.0,0.523,0.518,105.0,163.0,0.644,176.0,484.0,660.0,135.0,112.0,37.0,136.0,182.0,"(1000, 1250]"
24093,24093,2016.0,Cody Zeller,C,23.0,73.0,60.0,1774.0,16.1,0.592,0.023,0.531,8.4,19.7,14.0,6.3,1.6,2.9,Yes,11.2,15.4,3.6,2.7,6.3,0.169,-1.0,2.0,1.0,1.3,231.0,437.0,0.529,1.0,10.0,0.100,230.0,427.0,0.539,0.530,175.0,232.0,0.754,138.0,317.0,455.0,71.0,57.0,63.0,68.0,204.0,"(500, 750]"
