# Desafio 5

Neste desafio, vamos praticar sobre redução de dimensionalidade com PCA e seleção de variáveis com RFE. Utilizaremos o _data set_ [Fifa 2019](https://www.kaggle.com/karangadiya/fifa19), contendo originalmente 89 variáveis de mais de 18 mil jogadores do _game_ FIFA 2019.

> Obs.: Por favor, não modifique o nome das funções de resposta.

## _Setup_ geral

In [1]:
#!pip install loguru

In [2]:
from math import sqrt

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as sct
import seaborn as sns
import statsmodels.api as sm
import statsmodels.stats as st
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE

from loguru import logger

In [3]:
# Algumas configurações para o matplotlib.
#%matplotlib inline

#from IPython.core.pylabtools import figsize


#figsize(12, 8)

#sns.set()

In [4]:
fifa = pd.read_csv("fifa.csv")
fifa.dtypes

Unnamed: 0          int64
ID                  int64
Name               object
Age                 int64
Photo              object
                   ...   
GKHandling        float64
GKKicking         float64
GKPositioning     float64
GKReflexes        float64
Release Clause     object
Length: 89, dtype: object

In [5]:
columns_to_drop = ["Unnamed: 0", "ID", "Name", "Photo", "Nationality", "Flag",
                   "Club", "Club Logo", "Value", "Wage", "Special", "Preferred Foot",
                   "International Reputation", "Weak Foot", "Skill Moves", "Work Rate",
                   "Body Type", "Real Face", "Position", "Jersey Number", "Joined",
                   "Loaned From", "Contract Valid Until", "Height", "Weight", "LS",
                   "ST", "RS", "LW", "LF", "CF", "RF", "RW", "LAM", "CAM", "RAM", "LM",
                   "LCM", "CM", "RCM", "RM", "LWB", "LDM", "CDM", "RDM", "RWB", "LB", "LCB",
                   "CB", "RCB", "RB", "Release Clause"
]

try:
    fifa.drop(columns_to_drop, axis=1, inplace=True)
except KeyError:
    logger.warning(f"Columns already dropped")

## Inicia sua análise a partir daqui

In [6]:
# Sua análise começa aqui.
pca = PCA(n_components=1)
fifa.dropna(inplace=True)
pca.fit(fifa.values)
pca.components_.shape

(1, 37)

In [7]:
fifa.columns

Index(['Age', 'Overall', 'Potential', 'Crossing', 'Finishing',
       'HeadingAccuracy', 'ShortPassing', 'Volleys', 'Dribbling', 'Curve',
       'FKAccuracy', 'LongPassing', 'BallControl', 'Acceleration',
       'SprintSpeed', 'Agility', 'Reactions', 'Balance', 'ShotPower',
       'Jumping', 'Stamina', 'Strength', 'LongShots', 'Aggression',
       'Interceptions', 'Positioning', 'Vision', 'Penalties', 'Composure',
       'Marking', 'StandingTackle', 'SlidingTackle', 'GKDiving', 'GKHandling',
       'GKKicking', 'GKPositioning', 'GKReflexes'],
      dtype='object')

## Questão 1

Qual fração da variância consegue ser explicada pelo primeiro componente principal de `fifa`? Responda como um único float (entre 0 e 1) arredondado para três casas decimais.

In [8]:
def q1():
    pca = PCA(n_components=1)
    fifa.dropna(inplace=True)
    pca.fit(fifa.values)
    return float(pca.explained_variance_ratio_[0].round(3))
q1()

0.565

## Questão 2

Quantos componentes principais precisamos para explicar 95% da variância total? Responda como um único escalar inteiro.

In [9]:
def q2():
    pca = PCA(n_components=fifa.shape[1])
    fifa.dropna(inplace=True)
    pca.fit(fifa.values)
    exp = n = 0
    while exp <= 0.95:
        exp += pca.explained_variance_ratio_[n]
        n += 1
    return n
q2()

15

## Questão 3

Quais são as coordenadas (primeiro e segundo componentes principais) do ponto `x` abaixo? O vetor abaixo já está centralizado. Cuidado para __não__ centralizar o vetor novamente (por exemplo, invocando `PCA.transform()` nele). Responda como uma tupla de float arredondados para três casas decimais.

In [10]:
x = [0.87747123,  -1.24990363,  -1.3191255, -36.7341814,
     -35.55091139, -37.29814417, -28.68671182, -30.90902583,
     -42.37100061, -32.17082438, -28.86315326, -22.71193348,
     -38.36945867, -20.61407566, -22.72696734, -25.50360703,
     2.16339005, -27.96657305, -33.46004736,  -5.08943224,
     -30.21994603,   3.68803348, -36.10997302, -30.86899058,
     -22.69827634, -37.95847789, -22.40090313, -30.54859849,
     -26.64827358, -19.28162344, -34.69783578, -34.6614351,
     48.38377664,  47.60840355,  45.76793876,  44.61110193,
     49.28911284
]

In [11]:
pca = PCA()
fifa.dropna(inplace=True)
pca.fit(fifa.values)
pca.components_.dot(x)

array([186.55588031,  -6.59243177,  25.4834327 ,  -2.96024292,
        -7.22512658,  -3.90633171,  -8.12910134,   3.10036953,
         1.74415237,  -3.52033027,   6.94809076,  -2.32745513,
        -4.77964501,  -4.76727453,   5.85580577,  -3.98535062,
        -3.41866059,   5.75870118,  -8.25242687,  -6.00011928,
         1.08057472,   7.33207696,  -7.8027797 ,   5.35629303,
         1.42749919,  -2.6387093 ,  -3.86659436,  -2.20866723,
        -1.69345041,   0.40567645,   0.76464046,   1.12460179,
         0.6384386 ,  -2.22279044,   0.30941617,  -0.65050582,
         0.63389379])

In [12]:
def q3():
    #(186.556, -6.592)
    pca = PCA()
    fifa.dropna(inplace=True)
    pca.fit(fifa.values)
    return tuple(pca.components_.dot(x)[:2].round(3))
    
q3()

(186.556, -6.592)

## Questão 4

Realize RFE com estimador de regressão linear para selecionar cinco variáveis, eliminando uma a uma. Quais são as variáveis selecionadas? Responda como uma lista de nomes de variáveis.

In [13]:
def q4():
    #['Age', 'Potential', 'GKReflexes', 'BallControl', 'Reactions']
    X = fifa.drop('Overall', axis=1)
    y = fifa['Overall']
    model = LinearRegression()
    model.fit(X, y)
    selector = RFE(model, n_features_to_select=5)
    selector.fit(X, y)
    my_answer = []
    for num in range(len(selector.support_)):
        if selector.support_[num]:
            my_answer.append(X.columns[num])
    return my_answer
q4()

['Age', 'Potential', 'BallControl', 'Reactions', 'GKReflexes']