---

Reconecte ao Drive.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import os
DRIVE_DIRECTORY = "curso_ml"
DRIVE_DIRECTORY = os.path.join("/content/drive/MyDrive", DRIVE_DIRECTORY)

---

In [3]:
import pickle

from sklearn.decomposition import KernelPCA, PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import train_test_split

## Redução de dimensionalidade

Neste exercício você vai utilizar a base de dados de cobertura vegetal mais uma vez, mas você já pode recuperar da pasta no Drive as variáveis `X` e `y` geradas no exercício anterior, que estão armazenadas no arquivo `cover_type_num.pkl`. Lembre-se, `X` contém os atributos numéricos depois de normalização, e `y` contém a variável alvo codificada com `LabelEncoder`.

In [4]:
with open(os.path.join(DRIVE_DIRECTORY, "cover_type_num.pkl"), "rb") as f:
    X, y = pickle.load(f)

In [5]:
X

array([[0.4477459 , 0.18333333, 0.30909091, ..., 0.66666667, 0.384     ,
        0.31482517],
       [0.42571721, 0.44444444, 0.34545455, ..., 0.90666667, 0.508     ,
        0.35160839],
       [0.2392418 , 0.18055556, 0.12727273, ..., 0.81333333, 0.536     ,
        0.04741259],
       ...,
       [0.59375   , 0.21944444, 0.34545455, ..., 0.66      , 0.34      ,
        0.20839161],
       [0.54559426, 0.16111111, 0.10909091, ..., 0.82      , 0.548     ,
        0.31888112],
       [0.40420082, 0.25277778, 0.23636364, ..., 0.76666667, 0.432     ,
        0.23230769]])

In [6]:
y

array([4, 4, 5, ..., 6, 4, 4])

Separe 25% dos dados para o split de teste, e restante para o treinamento.

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

Exiba o `shape` das variáveis `X`.

In [8]:
X_train.shape, X_test.shape

((7500, 10), (2500, 10))

Pelo `shape` nós evidenciamos que estes dados possuem 10 atributos.

Instancie um PCA com 6 componentes, e aplique ele às variáveis `X` de treino e teste.

In [9]:
pca = PCA(n_components=6)

In [10]:
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

Exiba o `shape` das variáveis geradas.

In [11]:
X_train_pca.shape, X_test_pca.shape

((7500, 6), (2500, 6))

Exiba a variância explicada por PC, e depois sua soma.

In [12]:
pca.explained_variance_ratio_

array([0.38414421, 0.21396693, 0.09374258, 0.09046713, 0.08626326,
       0.06021123])

In [13]:
pca.explained_variance_ratio_.sum()

np.float64(0.9287953418126457)

Instancie e treine um classificador do tipo `RandomForestClassifier`, com `random_state=0`.

In [14]:
tree_classifier = RandomForestClassifier(random_state=0)
tree_classifier.fit(X_train_pca, y_train)

Gere predições com os dados de teste, e calcule a acurácia.

In [15]:
y_pred = tree_classifier.predict(X_test_pca)

In [16]:
accuracy_score(y_test, y_pred)

0.6756

### Kernel PCA

Repita o exercício, agora com Kernel PCA, utilizando o mesmo número de componentes, e `kernel="rbf"`.

In [17]:
kpca = KernelPCA(n_components=6, kernel="rbf")
X_train_kpca = kpca.fit_transform(X_train)
X_test_kpca = kpca.transform(X_test)

In [18]:
tree_classifier = RandomForestClassifier(random_state=0)
tree_classifier.fit(X_train_kpca, y_train)

In [19]:
y_pred = tree_classifier.predict(X_test_kpca)

In [20]:
accuracy_score(y_test, y_pred)

0.6712

### LDA

Mais uma vez repita o exercício, agora com LDA de 6 componentes.

In [21]:
lda = LinearDiscriminantAnalysis(n_components=6)
X_train_lda = lda.fit_transform(X_train, y_train)
X_test_lda = lda.transform(X_test)

In [22]:
tree_classifier = RandomForestClassifier(random_state=0)
tree_classifier.fit(X_train_lda, y_train)

In [23]:
y_pred = tree_classifier.predict(X_test_lda)

In [24]:
accuracy_score(y_test, y_pred)

0.7332