# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [20]:
import pandas as pd
import time

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

filename_features = "../Dados/UCI HAR Dataset/features.txt"
filename_labels = "../Dados/UCI HAR Dataset/activity_labels.txt"

filename_subtrain = "../Dados/UCI HAR Dataset/train/subject_train.txt"
filename_xtrain = "../Dados/UCI HAR Dataset/train/X_train.txt"
filename_ytrain = "../Dados/UCI HAR Dataset/train/y_train.txt"

filename_subtest = "../Dados/UCI HAR Dataset/test/subject_test.txt"
ffilename_xtest = "../Dados/UCI HAR Dataset/test/X_test.txt"
filename_ytest = "../Dados/UCI HAR Dataset/test/y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#").squeeze()
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id']).squeeze()
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id']).squeeze()
X_test = pd.read_csv(ffilename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [21]:
%%time

clf = DecisionTreeClassifier(ccp_alpha=0.001, random_state=42)
clf.fit(X_train, y_train)

train_accuracy = accuracy_score(y_train, clf.predict(X_train))
test_accuracy = accuracy_score(y_test, clf.predict(X_test))

print(f"Acurácia na base de treinamento: {train_accuracy*100:.2f}")
print(f"Acurácia na base de teste: {test_accuracy*100:.2f}\n")

Acurácia na base de treinamento: 97.58
Acurácia na base de teste: 87.99

CPU times: total: 4.3 s
Wall time: 4.32 s


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [22]:
%%time

pca = PCA(n_components=1)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

clf_pca = DecisionTreeClassifier(ccp_alpha=0.001, random_state=42)
clf_pca.fit(X_train_pca, y_train)

print(f'Dimensões da base de treinamento: {X_train_pca.shape}')
print(f'Dimensões da base de teste: {X_test_pca.shape}')

train_accuracy_pca = accuracy_score(y_train, clf_pca.predict(X_train_pca))
test_accuracy_pca = accuracy_score(y_test, clf_pca.predict(X_test_pca))

print(f"Acurácia na base de treinamento com PCA: {train_accuracy_pca*100:.2f}")
print(f"Acurácia na base de teste com PCA: {test_accuracy_pca*100:.2f}\n")

Dimensões da base de treinamento: (7352, 1)
Dimensões da base de teste: (2947, 1)
Acurácia na base de treinamento com PCA: 49.97
Acurácia na base de teste com PCA: 45.71

CPU times: total: 1.16 s
Wall time: 174 ms


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [23]:
%%time

componentes = [1, 2, 5, 10, 25, 50]

for n in componentes:
    pca = PCA(n_components=n)
    X_train_pca = pca.fit_transform(X_train)
    X_test_pca = pca.transform(X_test)

    clf_pca = DecisionTreeClassifier(ccp_alpha=0.001, random_state=42)
    clf_pca.fit(X_train_pca, y_train)
    
    print(f'Dimensões da base de treinamento: {X_train_pca.shape}')
    print(f'Dimensões da base de teste: {X_test_pca.shape}')

    train_accuracy_pca = accuracy_score(y_train, clf_pca.predict(X_train_pca))
    test_accuracy_pca = accuracy_score(y_test, clf_pca.predict(X_test_pca))

    print(f"Acurácia na base de treinamento com PCA: {train_accuracy_pca*100:.2f}")
    print(f"Acurácia na base de teste com PCA: {test_accuracy_pca*100:.2f}\n")

Dimensões da base de treinamento: (7352, 1)
Dimensões da base de teste: (2947, 1)
Acurácia na base de treinamento com PCA: 49.97
Acurácia na base de teste com PCA: 45.71

Dimensões da base de treinamento: (7352, 2)
Dimensões da base de teste: (2947, 2)
Acurácia na base de treinamento com PCA: 61.28
Acurácia na base de teste com PCA: 58.47

Dimensões da base de treinamento: (7352, 5)
Dimensões da base de teste: (2947, 5)
Acurácia na base de treinamento com PCA: 84.60
Acurácia na base de teste com PCA: 78.86

Dimensões da base de treinamento: (7352, 10)
Dimensões da base de teste: (2947, 10)
Acurácia na base de treinamento com PCA: 89.45
Acurácia na base de teste com PCA: 82.15

Dimensões da base de treinamento: (7352, 25)
Dimensões da base de teste: (2947, 25)
Acurácia na base de treinamento com PCA: 91.19
Acurácia na base de teste com PCA: 82.46

Dimensões da base de treinamento: (7352, 50)
Dimensões da base de teste: (2947, 50)
Acurácia na base de treinamento com PCA: 91.50
Acurácia n

## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

Ao reduzir a dimensionalidade utilizando a técnica de Análise de Componentes Principais (PCA), observamos que a principal mudança e mais perceptível ocorre em relação ao tempo de processamento. A árvore de decisão executada com o conjunto de dados completo, contendo todas as 561 variáveis, levou aproximadamente 4,3 segundos para ser executada, resultando em uma acurácia de 87,99% na base de teste. No entanto, ao utilizar o PCA com apenas um componente, o tempo de processamento foi reduzido para pouco menos de 200 ms, porém a acurácia na base de testes foi de 45%.

Aumentando o número de componentes, foi possível aumentar gradualmente a acurácia na base de testes. Com 50 componentes, foi atingida uma acurácia de até 83%, com um tempo de processamento de aproximadamente 2 segundos para executar todas as 5 combinações de números diferentes de componentes. Portanto, podemos concluir que é possível obter uma acurácia semelhante à árvore com todas as variáveis do conjunto de dados, porém com um tempo de processamento reduzido em menos da metade. É importante ressaltar que os componentes são formados a partir da combinação linear das variáveis originais.