# PCA - Redução de dimensionalidade

### Objetivo: Reduzir o número de variáveis não correlacionadas sem reduzir a variancia, esta técnica é utilizada para capturar padrões fortes em um DataFrame (pode ser utilizada para compressão de imagens, reconhecimento facial, neurociência e computação gráfica).
### Modelo: PCA, algoritmo não supervisionado

In [37]:
# Importing libs

import numpy as np
import pandas as pd
from sklearn.decomposition import PCA

In [38]:
# Importing Dataset Iris 

from sklearn import datasets
iris = datasets.load_iris()
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [40]:
iris_df = pd.DataFrame(iris['data'], columns = iris['feature_names'])
iris_df['species'] = iris['target']

iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [41]:
# Creating the algorithm

pca = PCA(n_components = 2) # Iremos reduzir a dimensionalidde em duas dimensões
pca.fit(iris_df)

PCA(n_components=2)

In [45]:
# Evaluation the algorithm

# Explained variance ratio é a taxa de variancia explicada de cada componente principal disponível na variável
print(pca.explained_variance_ratio_)

# O PCA indicou que o primeiro componente explica 92% da variancia e o segundo componente explica 5%, em resumo ambos explicam 97% da variabilidade do Dataframe.

[0.92264373 0.04812763]


In [47]:
# Choosing the right number of dimensions - Escolhendo o número certo de dimensões

pca = PCA()
pca.fit(iris_df)
cumsum = np.cumsum(pca.explained_variance_ratio_)
right_dimensions = np.argmax(X >= 0.95) + 1 # O PCA retornará o numero correto de dimensões que tenha variancia de até 95%

In [48]:
pca = PCA(n_components = 0.95)
X_reduced = pca.fit_transform(iris_df)

In [51]:
X_reduced

# Podemos notar que o PCA reafirmou que apenas duas features explicam 95% da variancia

array([[-2.86541481e+00,  2.96294592e-01],
       [-2.89204667e+00, -1.83785089e-01],
       [-3.05498018e+00, -1.74826556e-01],
       [-2.92022951e+00, -3.31581792e-01],
       [-2.90685193e+00,  2.95916920e-01],
       [-2.48985229e+00,  7.33821200e-01],
       [-2.99073479e+00, -1.23337756e-01],
       [-2.81072341e+00,  1.49253233e-01],
       [-3.05102452e+00, -5.96522880e-01],
       [-2.85367989e+00, -1.18129504e-01],
       [-2.70121731e+00,  6.30088258e-01],
       [-2.79746912e+00,  1.83420106e-03],
       [-2.95910703e+00, -2.45743109e-01],
       [-3.36629732e+00, -5.60864364e-01],
       [-2.83188903e+00,  1.14006491e+00],
       [-2.58993648e+00,  1.30218121e+00],
       [-2.81008938e+00,  7.72676709e-01],
       [-2.83175695e+00,  2.89400035e-01],
       [-2.41526804e+00,  8.78798583e-01],
       [-2.77580155e+00,  4.85110874e-01],
       [-2.51699488e+00,  4.05235787e-01],
       [-2.73410906e+00,  4.09741412e-01],
       [-3.36069900e+00,  5.93621201e-02],
       [-2.

### Now we will use the model  SelectKBest
##### Objective: Reevaluate the PCA model

In [56]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

X = iris_df[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)']]
y = iris_df[['species']]

In [57]:
# Função para seleção de variáveis

best_var = SelectKBest(score_func = chi2, k=2)

# Executa a função de pontuação em (X,y) e obtem os recursos selecionados

fit = best_var.fit(X,y)

# Reduz para os recursos selecionados
features = fit.transform(X)

In [58]:
# Resultados
print('\nNúmero original e features:', X.shape[1])
print('\nNúmero reduzido de features:', features.shape[1])
print('\nVariaveis selecionadas: n\n', features[0])
X

# Logo as features mais importantes são 'petal length (cm)','petal width (cm)'


Número original e features: 4

Número reduzido de features: 2

Variaveis selecionadas: n
 [1.4 0.2]


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
