![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [1]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

filename_features = "features.txt"
filename_labels = "activity_labels.txt"

filename_subtrain = "train/subject_train.txt"
filename_xtrain = "train/X_train.txt"
filename_ytrain = "train/y_train.txt"

filename_subtest = "test/subject_test.txt"
ffilename_xtest = "test/X_test.txt"
filename_ytest = "test/y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#")['nome_var']
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])['subject_id']
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])['subject_id']
X_test = pd.read_csv(ffilename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [2]:
# dividindo treino e validação
from sklearn.model_selection import train_test_split
X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train)

In [3]:
%%time
clf = DecisionTreeClassifier(ccp_alpha=0.001,random_state=1234).fit(X_train, y_train)

CPU times: total: 5.59 s
Wall time: 5.59 s


In [4]:
# avaliando o modelo
print(f'A acurácia na base de treino foi: {clf.score(X_train, y_train)}')
print(f'A acurácia na base de validação foi: {clf.score(X_valid, y_valid)}')

A acurácia na base de treino foi: 0.9791439970982952
A acurácia na base de validação foi: 0.9461371055495104


*Neste primeiro teste o tempo de de processamento foi aproximadamente 6 segundos com acurácia de 97% no treino e 95% na validação*

## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [5]:
%%time
prcomp = PCA(n_components=1).fit(X_train)

pc_treino = prcomp.transform(X_train)
pc_valid = prcomp.transform(X_valid)

pc_treino.shape

CPU times: total: 656 ms
Wall time: 96.7 ms


(5514, 1)

In [16]:
%%time
clf_1 = DecisionTreeClassifier(ccp_alpha=0.001,random_state=1234).fit(pc_treino, y_train)

CPU times: total: 31.2 ms
Wall time: 37.9 ms


In [10]:
# avaliando o modelo
print(f'A acurácia na base de treino foi: {clf_1.score(pc_treino, y_train)}')
print(f'A acurácia na base de validação foi: {clf_1.score(pc_valid, y_valid)}')

A acurácia na base de treino foi: 0.5012694958287994
A acurácia na base de validação foi: 0.49347116430903154


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [None]:
%%time
prcomp_2 = PCA(n_components=2).fit(X_train)

pc_treino_2 = prcomp_2.transform(X_train)
pc_valida_2 = prcomp_2.transform(X_valid)

pc_treino_2.shape

CPU times: total: 531 ms
Wall time: 94.7 ms


(5514, 2)

In [17]:
%%time
clf_2 = DecisionTreeClassifier(ccp_alpha=0.001,random_state=1234).fit(pc_treino_2, y_train)

CPU times: total: 46.9 ms
Wall time: 40.9 ms


In [18]:
# avaliando o modelo
print(f'A acurácia na base de treino foi: {clf_2.score(pc_treino_2, y_train)}')
print(f'A acurácia na base de validação foi: {clf_2.score(pc_valida_2, y_valid)}')

A acurácia na base de treino foi: 0.6349292709466812
A acurácia na base de validação foi: 0.5946681175190425


In [21]:
%%time
# 5 compononentes
prcomp_5 = PCA(n_components=5).fit(X_train)

pc_treino_5 = prcomp_5.transform(X_train)
pc_valida_5 = prcomp_5.transform(X_valid)

pc_treino_5.shape

CPU times: total: 516 ms
Wall time: 111 ms


(5514, 5)

In [22]:
%%time
clf_5 = DecisionTreeClassifier(ccp_alpha=0.001,random_state=1234).fit(pc_treino_5, y_train)

CPU times: total: 78.1 ms
Wall time: 57.8 ms


In [23]:
# avaliando o modelo
print(f'A acurácia na base de treino foi: {clf_5.score(pc_treino_5, y_train)}')
print(f'A acurácia na base de validação foi: {clf_5.score(pc_valida_5, y_valid)}')

A acurácia na base de treino foi: 0.8616249546608633
A acurácia na base de validação foi: 0.8133841131664853


In [24]:
%%time
# 10 componentes
prcomp_10 = PCA(n_components=10).fit(X_train)
pc_treino_10 = prcomp_10.transform(X_train)
pc_valida_10 = prcomp_10.transform(X_valid)
pc_treino_10.shape


CPU times: total: 1.34 s
Wall time: 191 ms


(5514, 10)

In [25]:
%%time
clf_10 = DecisionTreeClassifier(ccp_alpha=0.001,random_state=1234).fit(pc_treino_10, y_train)

CPU times: total: 125 ms
Wall time: 123 ms


In [27]:
# avaliando o modelo
print(f'A acurácia na base de treino foi: {clf_10.score(pc_treino_10, y_train)}')
print(f'A acurácia na base de validação foi: {clf_10.score(pc_valida_10, y_valid)}')

A acurácia na base de treino foi: 0.901342038447588
A acurácia na base de validação foi: 0.8465723612622416


In [31]:
%%time
# 50 componentes
prcomp_50 = PCA(n_components=50).fit(X_train)
pc_treino_50 = prcomp_50.transform(X_train)
pc_valida_50 = prcomp_50.transform(X_valid)
pc_treino_50.shape

CPU times: total: 1.16 s
Wall time: 159 ms


(5514, 50)

In [32]:
%%time
clf_50 = DecisionTreeClassifier(ccp_alpha=0.001,random_state=1234).fit(pc_treino_50, y_train)

CPU times: total: 625 ms
Wall time: 615 ms


In [33]:
#avaliando o modelo
print(f'A acurácia na base de treino foi: {clf_50.score(pc_treino_50, y_train)}')
print(f'A acurácia na base de validação foi: {clf_50.score(pc_valida_50, y_valid)}')

A acurácia na base de treino foi: 0.9316285817918026
A acurácia na base de validação foi: 0.8574537540805223


## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

*No início, quando utilizamos apenas 1 componente, a acurácia caiu bastante, ficando em aproximadamente 60%, mas o tempo de execução também foi bem menor. À medida que fui adicionando mais componentes, a acurácia também foi aumentando, chegando a 93% na base de treino e 86% na base de teste com 50 componentes. Conseguimos alcançar uma acurácia bem próxima da obtida utilizando todas as variáveis da base, porém em um tempo muito menor de apenas 1 segundo, enquanto que ao usar toda a base, foram necessários aproximadamente 6 segundos*