# Desafio 5

Neste desafio, vamos praticar sobre redução de dimensionalidade com PCA e seleção de variáveis com RFE. Utilizaremos o _data set_ [Fifa 2019](https://www.kaggle.com/karangadiya/fifa19), contendo originalmente 89 variáveis de mais de 18 mil jogadores do _game_ FIFA 2019.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [1]:
from math import sqrt

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
import statsmodels.api as sm
import statsmodels.stats as st
from sklearn.decomposition import PCA

#from loguru import logger

In [2]:
# Algumas configurações para o matplotlib.
#%matplotlib inline

from IPython.core.pylabtools import figsize


figsize(12, 8)

sns.set()

In [3]:
fifa = pd.read_csv("data.csv")

In [4]:
columns_to_drop = ["Unnamed: 0", "ID", "Name", "Photo", "Nationality", "Flag",
                   "Club", "Club Logo", "Value", "Wage", "Special", "Preferred Foot",
                   "International Reputation", "Weak Foot", "Skill Moves", "Work Rate",
                   "Body Type", "Real Face", "Position", "Jersey Number", "Joined",
                   "Loaned From", "Contract Valid Until", "Height", "Weight", "LS",
                   "ST", "RS", "LW", "LF", "CF", "RF", "RW", "LAM", "CAM", "RAM", "LM",
                   "LCM", "CM", "RCM", "RM", "LWB", "LDM", "CDM", "RDM", "RWB", "LB", "LCB",
                   "CB", "RCB", "RB", "Release Clause"
]

try:
    fifa.drop(columns_to_drop, axis=1, inplace=True)
except KeyError:
    logger.warning(f"Columns already dropped")

## Inicia sua análise a partir daqui

In [5]:
fifa.shape,fifa.columns

((18207, 37), Index(['Age', 'Overall', 'Potential', 'Crossing', 'Finishing',
        'HeadingAccuracy', 'ShortPassing', 'Volleys', 'Dribbling', 'Curve',
        'FKAccuracy', 'LongPassing', 'BallControl', 'Acceleration',
        'SprintSpeed', 'Agility', 'Reactions', 'Balance', 'ShotPower',
        'Jumping', 'Stamina', 'Strength', 'LongShots', 'Aggression',
        'Interceptions', 'Positioning', 'Vision', 'Penalties', 'Composure',
        'Marking', 'StandingTackle', 'SlidingTackle', 'GKDiving', 'GKHandling',
        'GKKicking', 'GKPositioning', 'GKReflexes'],
       dtype='object'))

In [6]:
for x in fifa.columns:
    print(x,fifa[x].nunique())

Age 29
Overall 48
Potential 47
Crossing 89
Finishing 93
HeadingAccuracy 91
ShortPassing 85
Volleys 87
Dribbling 94
Curve 89
FKAccuracy 90
LongPassing 84
BallControl 90
Acceleration 86
SprintSpeed 85
Agility 81
Reactions 68
Balance 81
ShotPower 92
Jumping 74
Stamina 85
Strength 74
LongShots 92
Aggression 85
Interceptions 89
Positioning 94
Vision 85
Penalties 87
Composure 84
Marking 92
StandingTackle 90
SlidingTackle 88
GKDiving 71
GKHandling 70
GKKicking 79
GKPositioning 79
GKReflexes 76


In [7]:
fifa.isna().sum()

Age                 0
Overall             0
Potential           0
Crossing           48
Finishing          48
HeadingAccuracy    48
ShortPassing       48
Volleys            48
Dribbling          48
Curve              48
FKAccuracy         48
LongPassing        48
BallControl        48
Acceleration       48
SprintSpeed        48
Agility            48
Reactions          48
Balance            48
ShotPower          48
Jumping            48
Stamina            48
Strength           48
LongShots          48
Aggression         48
Interceptions      48
Positioning        48
Vision             48
Penalties          48
Composure          48
Marking            48
StandingTackle     48
SlidingTackle      48
GKDiving           48
GKHandling         48
GKKicking          48
GKPositioning      48
GKReflexes         48
dtype: int64

In [8]:
fifa.dropna(inplace=True)

In [9]:
pca=PCA('mle')

In [10]:
pca.fit(fifa)

PCA(n_components='mle')

In [11]:
pca.explained_variance_ratio_

array([0.56528056, 0.18102522, 0.05952834, 0.04342693, 0.02635323,
       0.01207077, 0.01035505, 0.00852951, 0.00787863, 0.00720417,
       0.0071818 , 0.00632894, 0.00519242, 0.00490798, 0.00474209,
       0.00462772, 0.00425173, 0.00386288, 0.00376588, 0.00375093,
       0.00347815, 0.00326731, 0.00303138, 0.00297416, 0.00256798,
       0.00230353, 0.00214815, 0.00156136, 0.00155352, 0.00108664,
       0.00106824, 0.00105892, 0.00095814, 0.00088921, 0.00085973,
       0.00073461])

## Questão 1

Qual fração da variância consegue ser explicada pelo primeiro componente principal de `fifa`? Responda como um único float (entre 0 e 1) arredondado para três casas decimais.

In [12]:
def q1():
    # Retorne aqui o resultado da questão 1.
    return float(pca.explained_variance_ratio_[0].round(3))

## Questão 2

Quantos componentes principais precisamos para explicar 95% da variância total? Responda como un único escalar inteiro.

In [13]:
pca=PCA(0.95)
pca.fit(fifa)

PCA(n_components=0.95)

In [14]:
pca.explained_variance_ratio_.size

15

In [15]:
def q2():
    # Retorne aqui o resultado da questão 2.
    pca=PCA(0.95)
    pca.fit(fifa)
    return pca.explained_variance_ratio_.size

## Questão 3

Qual são as coordenadas (primeiro e segundo componentes principais) do ponto `x` abaixo? O vetor abaixo já está centralizado. Cuidado para __não__ centralizar o vetor novamente (por exemplo, invocando `PCA.transform()` nele). Responda como uma tupla de float arredondados para três casas decimais.

In [16]:
x = [0.87747123,  -1.24990363,  -1.3191255, -36.7341814,
     -35.55091139, -37.29814417, -28.68671182, -30.90902583,
     -42.37100061, -32.17082438, -28.86315326, -22.71193348,
     -38.36945867, -20.61407566, -22.72696734, -25.50360703,
     2.16339005, -27.96657305, -33.46004736,  -5.08943224,
     -30.21994603,   3.68803348, -36.10997302, -30.86899058,
     -22.69827634, -37.95847789, -22.40090313, -30.54859849,
     -26.64827358, -19.28162344, -34.69783578, -34.6614351,
     48.38377664,  47.60840355,  45.76793876,  44.61110193,
     49.28911284
]

In [19]:
def q3():
    pca=PCA(37)
    pca.fit(fifa)
    return tuple(pca.components_.dot(x)[[0,1]].round(3))

## Questão 4

Realiza RFE com estimador de regressão linear para selecionar cinco variáveis, eliminando uma a uma. Quais são as variáveis selecionadas? Responda como uma lista de nomes de variáveis.

In [20]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

Considerando coluna Overall como variável de medição

In [41]:
fifa_x=fifa.drop(columns='Overall')
fifa_y=fifa.Overall

In [42]:
lr = LinearRegression()
lr.fit(fifa_x,fifa_y)
selector = RFE(lr,n_features_to_select=5,step=1)

In [43]:
selector.fit(fifa_x,fifa_y)

RFE(estimator=LinearRegression(), n_features_to_select=5)

In [44]:
s=[]
for i in range(fifa_x.shape[1]):
    if selector.support_[i]:
        s=np.append(s,fifa_x.columns[i])

In [45]:
def q4():
    # Retorne aqui o resultado da questão 4.
    return list(s)