# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [1]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA

In [35]:
filename_features = "dados/features.txt"
filename_labels = "dados/activity_labels.txt"

filename_subtrain = "dados/subject_train.txt"
filename_xtrain = "dados/X_train.txt"
filename_ytrain = "dados/y_train.txt"

filename_subtest = "dados/subject_test.txt"
ffilename_xtest = "dados/X_test.txt"
filename_ytest = "dados/y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#")
features = features.squeeze(1)
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
subject_train = subject_train.squeeze(1)
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])
subject_test = subject_test.squeeze(1)
X_test = pd.read_csv(ffilename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [36]:
%%time

clf = DecisionTreeClassifier(ccp_alpha=0.001, random_state=1234)
clf.fit(X_train, y_train)

train_score = clf.score(X_train, y_train)
test_score  = clf.score(X_test, y_test)

CPU times: user 5.67 s, sys: 0 ns, total: 5.67 s
Wall time: 5.67 s


In [37]:
print(f'Acurácia na base de treino:    {train_score*100:.1f}')
print(f'Acurácia na base de teste:     {test_score*100:.1f}')

Acurácia na base de treino:    97.6
Acurácia na base de teste:     88.0


**A acurácia na base de treino foi de 97.6% e na base de teste 88%. Tempo de processamento de 5.67 segundos**

## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [38]:
%%time

dpca = PCA(n_components = 1)
dpca.set_output(transform="pandas")
dpca.fit(X_train)

pc_treino = dpca.transform(X_train)
pc_teste  = dpca.transform(X_test)

CPU times: user 735 ms, sys: 367 ms, total: 1.1 s
Wall time: 298 ms


In [39]:
%%time

pc_clf = DecisionTreeClassifier(ccp_alpha=0.001, random_state=1234)
pc_clf.fit(pc_treino, y_train)

pc_train_score = pc_clf.score(pc_treino, y_train)
pc_test_score  = pc_clf.score(pc_teste, y_test)

CPU times: user 88.9 ms, sys: 0 ns, total: 88.9 ms
Wall time: 85 ms


In [40]:
print(f'Acurácia na base de treino:    {pc_train_score*100:.1f}')
print(f'Acurácia na base de teste:     {pc_test_score*100:.1f}')

Acurácia na base de treino:    50.0
Acurácia na base de teste:     45.7


**Mantendo o ccp_alpha=0.001, a acurácia da árvore de decisão na base de treino foi de 50% e na base de teste 45,7%. Tempo de processamento foi muito mais rápido, apenas 85ms**

## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [45]:
def testar_componentes(n: int):
    pca = PCA(n_components = n)
    pca.set_output(transform="pandas")
    pca.fit(X_train)

    treino = pca.transform(X_train)
    teste  = pca.transform(X_test)

    clf = DecisionTreeClassifier(ccp_alpha=0.001, random_state=1234)
    clf.fit(treino, y_train)

    train_score = clf.score(treino, y_train)
    test_score  = clf.score(teste, y_test)
    
    print(f'Quantidades de componentes:    {n}')
    print(f'Acurácia na base de treino:    {train_score*100:.1f}')
    print(f'Acurácia na base de teste:     {test_score*100:.1f}')
    print('\n')

In [47]:
%%time
testar_componentes(1)

Quantidades de componentes:    1
Acurácia na base de treino:    50.0
Acurácia na base de teste:     45.7


CPU times: user 975 ms, sys: 549 ms, total: 1.52 s
Wall time: 419 ms


In [48]:
%%time
testar_componentes(2)

Quantidades de componentes:    2
Acurácia na base de treino:    61.3
Acurácia na base de teste:     58.5


CPU times: user 917 ms, sys: 459 ms, total: 1.38 s
Wall time: 359 ms


In [49]:
%%time
testar_componentes(5)

Quantidades de componentes:    5
Acurácia na base de treino:    84.6
Acurácia na base de teste:     78.9


CPU times: user 802 ms, sys: 622 ms, total: 1.42 s
Wall time: 373 ms


In [50]:
%%time
testar_componentes(10)

Quantidades de componentes:    10
Acurácia na base de treino:    89.3
Acurácia na base de teste:     82.4


CPU times: user 1.09 s, sys: 523 ms, total: 1.61 s
Wall time: 464 ms


In [51]:
%%time
testar_componentes(50)

Quantidades de componentes:    50
Acurácia na base de treino:    91.6
Acurácia na base de teste:     82.7


CPU times: user 2.34 s, sys: 838 ms, total: 3.18 s
Wall time: 1.24 s


**Mantendo o ccp_alpha=0.001, a acurácia da árvore de decisão com 50 componentes na base de treino foi de 91.6% e na base de teste 82.7%. Tempo de processamento foi muito mais rápido, 1.24 segundos**

## Conclua

- O que aconteceu com a acurácia?
> A acurácia na base de treino e teste foi aumentando de acordo com o aumento da quantidade de componentes. A árvore com 50 componentes foi a mais próxima da árvore com todas as variáveis. 

- O que aconteceu com o tempo de processamento?
> O tempo de processamento também foi aumentando de acordo com o aumento da quantidade de componentes, mas com 50 componentes o tempo foi muito inferior em comparação com a árvore com todas as variáveis.