 # <span style=color:DarkBlue>**S08 T01: Tasca Feature Engineering**</span>
 
 _**OBJETIVOS DE LA ACTIVIDAD**_
 
 * Aplicar algunas técnicas de pre procesamiento de datos para mejorar el desempeño de los modelos predictivos
 * Normalizar, estandarizar y reestructurar los atributos de un data set

In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from datetime import datetime
import seaborn as sns


 #### <span style=color:DarkBlue >**EJERCICIO 1**</span>
 
Normalizar los atributos categóricos en dummy. Estandarizar los atributos numéricos con StandardScaler
 
_**DATOS A UTILIZAR**_

El set de datos a utilizar, <span style=color:DarkBlue>'shot_logs.csv'</span> hace referencia a los lanzamientos realizados por los jugadores de la NBA durante la temporada de 2014-2015. Los atributos recolectados en el DF se describen a continuación:

* <span style=color:DarkBlue>GAME_ID1:</span> Identificador de partido
* <span style=color:DarkBlue>MATCHUP:</span> Fecha del encuentro y equipos involucrados
* <span style=color:DarkBlue>LOCATION:</span> Hace referencia a si el jugador que toma el lanzamiento juega de Local o de Visitante (A / H) 
* <span style=color:DarkBlue>W:</span> Hace referencia a si el equipo del jugador que toma el lanzamiento ganó o perdió el partido (W / L)
* <span style=color:DarkBlue>FINAL_MARGIN:</span> Diferencia final en el marcador del encuentro
* <span style=color:DarkBlue>SHOT_NUMBER:</span> Numero de lanzamiento del jugador en el encuentro
* <span style=color:DarkBlue>PERIOD:</span> Periodo del encuentro en el que se realizó el lanzamiento
* <span style=color:DarkBlue>GAME_CLOCK:</span> Minutos transcurridos del periodo en el que se realizó el lanzamiento
* <span style=color:DarkBlue>SHOT_CLOCK:</span> Segundos de tiempo de poseción transcurridos en el que se tomo el lanzamiento
* <span style=color:DarkBlue>DRIBBLES:</span> Numero de botes de balon del jugados antes de efectuar el lanzamiento
* <span style=color:DarkBlue>TOUCH_TIME:</span> Tiempo de poseción del balon por el jugador antes de efectuar el lanzamiento
* <span style=color:DarkBlue>SHOT_DIST:</span> Distancia del lanzamiento (En pies)
* <span style=color:DarkBlue>PTS_TYPE:</span> Valor del punto, 2 o 3 puntos.
* <span style=color:DarkBlue>SHOT_RESULT:</span> Resultado del lanzamiento. Acertado o fallado
* <span style=color:DarkBlue>CLOSEST_DEFENDER:</span> Defensor mas cercano
* <span style=color:DarkBlue>CLOSEST_DEFENDER_PLAYER_ID:</span> Identificador del defensor
* <span style=color:DarkBlue>CLOSE_DEF_DIST:</span> Distancia del defensor al lanzador
* <span style=color:DarkBlue>FGM:</span> Numero de lanzamientos que un jugador o equipo a acertado
* <span style=color:DarkBlue>PTS:</span> Puntos obtenidos en el lanzamiento
* <span style=color:DarkBlue>player_name:</span> Nombre del jugador que tomó el lanzamiento
* <span style=color:DarkBlue>player_id:</span> Identificador del lanzador

In [2]:
sport_df = pd.read_csv ('Data\shot_logs.csv', sep = ',')

In [3]:
sport_df.head()

Unnamed: 0,GAME_ID1,MATCHUP,LOCATION,W,FINAL_MARGIN,SHOT_NUMBER,PERIOD,GAME_CLOCK,SHOT_CLOCK,DRIBBLES,...,SHOT_DIST,PTS_TYPE,SHOT_RESULT,CLOSEST_DEFENDER,CLOSEST_DEFENDER_PLAYER_ID,CLOSE_DEF_DIST,FGM,PTS,player_name,player_id
0,21400899,"MAR 04, 2015 - CHA @ BKN",A,W,24,1,1,01:09,10.8,2,...,7.7,2,made,"Anderson, Alan",101187,1.3,1,2,brian roberts,203148
1,21400899,"MAR 04, 2015 - CHA @ BKN",A,W,24,2,1,00:14,3.4,0,...,28.2,3,missed,"Bogdanovic, Bojan",202711,6.1,0,0,brian roberts,203148
2,21400899,"MAR 04, 2015 - CHA @ BKN",A,W,24,3,1,00:00,,3,...,10.1,2,missed,"Bogdanovic, Bojan",202711,0.9,0,0,brian roberts,203148
3,21400899,"MAR 04, 2015 - CHA @ BKN",A,W,24,4,2,11:47,10.3,2,...,17.2,2,missed,"Brown, Markel",203900,3.4,0,0,brian roberts,203148
4,21400899,"MAR 04, 2015 - CHA @ BKN",A,W,24,5,2,10:34,10.9,2,...,3.7,2,missed,"Young, Thaddeus",201152,1.1,0,0,brian roberts,203148


In [4]:
sport_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128069 entries, 0 to 128068
Data columns (total 21 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   GAME_ID1                    128069 non-null  int64  
 1   MATCHUP                     128069 non-null  object 
 2   LOCATION                    128069 non-null  object 
 3   W                           128069 non-null  object 
 4   FINAL_MARGIN                128069 non-null  int64  
 5   SHOT_NUMBER                 128069 non-null  int64  
 6   PERIOD                      128069 non-null  int64  
 7   GAME_CLOCK                  128069 non-null  object 
 8   SHOT_CLOCK                  122502 non-null  float64
 9   DRIBBLES                    128069 non-null  int64  
 10  TOUCH_TIME                  128069 non-null  float64
 11  SHOT_DIST                   128069 non-null  float64
 12  PTS_TYPE                    128069 non-null  int64  
 13  SHOT_RESULT   

_**EJERCICIO 1.1**_

Plantearemos como variable target el atributo de 'SHOT_RESULT'. 

Aplicaremos **dummies a atributos categóricos** que puedan influir con el resultado del lanzamiento. En este caso lo aplicaremos a los atributos de: **'LOCATION', 'W', 'PERIOD', 'PTS_TYPE'**

'PERIOD' y 'PTS_TYPE' son atributos numéricos, que tendremos que pasar a categóricos antes de aplicar el dummies.

In [5]:
sport_df = sport_df.astype({'PERIOD': str,'PTS_TYPE': str })

In [6]:
dummies = pd.get_dummies (sport_df[['LOCATION', 'W','PERIOD','PTS_TYPE']])

In [7]:
sport_df = pd.concat ([sport_df,dummies], axis = 1)

In [8]:
sport_df.drop (['LOCATION', 'W','PERIOD','PTS_TYPE'], axis = 1, inplace = True)

In [9]:
sport_df.rename (columns = {'LOCATION_A' : 'AWAY', 'LOCATION_H': 'HOME', 
                            'W_L': 'WIN', 'W_W': 'LOOS',
                            'PTS_TYPE_2': '2_POINTS','PTS_TYPE_3': '3_POINTS'}, inplace = True)

In [10]:
sport_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128069 entries, 0 to 128068
Data columns (total 30 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   GAME_ID1                    128069 non-null  int64  
 1   MATCHUP                     128069 non-null  object 
 2   FINAL_MARGIN                128069 non-null  int64  
 3   SHOT_NUMBER                 128069 non-null  int64  
 4   GAME_CLOCK                  128069 non-null  object 
 5   SHOT_CLOCK                  122502 non-null  float64
 6   DRIBBLES                    128069 non-null  int64  
 7   TOUCH_TIME                  128069 non-null  float64
 8   SHOT_DIST                   128069 non-null  float64
 9   SHOT_RESULT                 128069 non-null  object 
 10  CLOSEST_DEFENDER            128069 non-null  object 
 11  CLOSEST_DEFENDER_PLAYER_ID  128069 non-null  int64  
 12  CLOSE_DEF_DIST              128069 non-null  float64
 13  FGM           

_**EJERCICIO 1.2**_

Para standarizar los valores numéricos primero seleccionaremos las columnas que consideramos puedan influir en el resultado del lanzamiento. En este caso seleccionaremos: 'GAME_CLOCK', 'SHOT_CLOCK', 'DRIBBLES', 'SHOT_DIST, 'CLOSE_DEF_DIST'

Los atributos con formato horario los pasarems a segundos para poder tener una única unidad en estas columnas. En este caso, el único atributo con formato horario es el de GAME_CLOCK. 

Para aplicar el Scaler tenemos que tratar los valores NaN de cada columna, de lo contrario la desviación estandard  el mean resultante serán NaN.

La columna con valores NaN es la de SHOT_CLOCK, con 5.567 valores NaN, que pueden hacer referencia a lanzamiento fuera de tiempo, lo que no aportan valor para el estudio. Podemos eliminar estas filas.

In [11]:
def time_to_sec (date_time):
    timedelta = date_time - datetime(1900, 1, 1)
    seconds = timedelta.total_seconds()
    return seconds

In [12]:
sport_df['GAME_CLOCK_SECONDS'] = pd.to_datetime(sport_df['GAME_CLOCK'], format = '%M:%S')

In [13]:
sport_df['GAME_CLOCK_SECONDS'] = sport_df['GAME_CLOCK_SECONDS'].apply (lambda X : time_to_sec (X))

In [14]:
sport_df = sport_df.dropna(subset = ['SHOT_CLOCK'])

In [15]:
sport_df.reset_index(drop = True, inplace = True)

In [16]:
scaler = StandardScaler()

In [17]:
scaler_array = scaler.fit_transform(sport_df[['GAME_CLOCK_SECONDS', 'SHOT_CLOCK', 'DRIBBLES', 'SHOT_DIST','CLOSE_DEF_DIST']])

In [18]:
scaler_df = pd.DataFrame(scaler_array)

In [19]:
scaler_df.rename(columns = {0 : 'GAME_CLOCK_STAND', 1 : 'SHOT_CLOCK_STAND',  2: 'DRIBBLES_STAND',
                           3 : 'SHOT_DIST_STAND',4 : 'CLOSE_DEF_DIST_STAND'}, inplace = True)

In [20]:
scaler_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122502 entries, 0 to 122501
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   GAME_CLOCK_STAND      122502 non-null  float64
 1   SHOT_CLOCK_STAND      122502 non-null  float64
 2   DRIBBLES_STAND        122502 non-null  float64
 3   SHOT_DIST_STAND       122502 non-null  float64
 4   CLOSE_DEF_DIST_STAND  122502 non-null  float64
dtypes: float64(5)
memory usage: 4.7 MB


In [21]:
sport_df.drop (['GAME_ID1','MATCHUP','FINAL_MARGIN','SHOT_NUMBER','TOUCH_TIME',
               'CLOSEST_DEFENDER','CLOSEST_DEFENDER_PLAYER_ID','FGM','PTS',
               'player_name','player_id','GAME_CLOCK_SECONDS', 'GAME_CLOCK',
               'SHOT_CLOCK','DRIBBLES','SHOT_DIST','CLOSE_DEF_DIST'], inplace = True, axis = 1)

In [22]:
final_sport_df = pd.concat([sport_df,scaler_df], axis = 1)

In [23]:
final_sport_df.tail()

Unnamed: 0,SHOT_RESULT,AWAY,HOME,WIN,LOOS,PERIOD_1,PERIOD_2,PERIOD_3,PERIOD_4,PERIOD_5,PERIOD_6,PERIOD_7,2_POINTS,3_POINTS,GAME_CLOCK_STAND,SHOT_CLOCK_STAND,DRIBBLES_STAND,SHOT_DIST_STAND,CLOSE_DEF_DIST_STAND
122497,made,1,0,1,0,0,1,0,0,0,0,0,1,0,-0.277535,0.493933,0.003156,-0.517685,0.573596
122498,missed,1,0,1,0,0,0,1,0,0,0,0,1,0,-1.232869,1.014474,0.882619,-0.540471,-1.207201
122499,made,1,0,1,0,0,0,0,1,0,0,0,1,0,1.618284,1.274744,0.589465,-1.46333,-1.279887
122500,made,1,0,1,0,0,0,0,1,0,0,0,1,0,1.529185,1.829987,0.003156,0.393781,0.028454
122501,missed,1,0,1,0,0,0,0,1,0,0,0,1,0,-1.010122,-0.58185,0.589465,0.553287,-0.407659


 #### <span style=color:DarkBlue >**EJERCICIO 2**</span>
 
Aplicar el Análisis de componentes principales (PCA) al Data Set.

Aplicaremos el PCA sobre el DF previamente trabajado <span style=color:DarkBlue >*'final_sport_df'*</span>. el análisis del componente principal lo aplicaremos retirando el atributo Target que, en este caso es el SHOT_RESULT. Haremos una reducción de cmponentes de 18 a 4.

In [24]:
final_sport_df_1 = final_sport_df.drop (['SHOT_RESULT'], axis = 1)

In [25]:
final_sport_df_1.shape

(122502, 18)

In [26]:
pca = PCA(4)

In [27]:
principalComponens = pca.fit_transform (final_sport_df_1)

In [28]:
pca_df = pd.DataFrame(data = principalComponens, columns = ['pca1','pca2','pca3','pca4'])

In [29]:
final_df = pd.concat ([pca_df, final_sport_df[['SHOT_RESULT']]], axis = 1)

In [30]:
final_df.shape

(122502, 5)