![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [8]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

filename_features = r"C:\Users\Acer\Documents\Ciência dos Dados\curso-cienciadosdados-ebac\modulo_27\features.txt"
filename_labels = r"C:\Users\Acer\Documents\Ciência dos Dados\curso-cienciadosdados-ebac\modulo_27\activity_labels.txt"

filename_subtrain = r"C:\Users\Acer\Documents\Ciência dos Dados\curso-cienciadosdados-ebac\modulo_27\train\subject_train.txt"
filename_xtrain = r"C:\Users\Acer\Documents\Ciência dos Dados\curso-cienciadosdados-ebac\modulo_27\train\X_train.txt"
filename_ytrain = r"C:\Users\Acer\Documents\Ciência dos Dados\curso-cienciadosdados-ebac\modulo_27\train\y_train.txt"

filename_subtest = r"C:\Users\Acer\Documents\Ciência dos Dados\curso-cienciadosdados-ebac\modulo_27\test\subject_test.txt"
ffilename_xtest = r"C:\Users\Acer\Documents\Ciência dos Dados\curso-cienciadosdados-ebac\modulo_27\test\X_test.txt"
filename_ytest = r"C:\Users\Acer\Documents\Ciência dos Dados\curso-cienciadosdados-ebac\modulo_27\test\y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#").squeeze("columns")
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id']).squeeze("columns")
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id']).squeeze("columns")
X_test = pd.read_csv(ffilename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [22]:
%%time
clf = DecisionTreeClassifier(random_state=2360873, ccp_alpha=0.001).fit(X_train, y_train)
train_score = clf.score(X_train, y_train)
test_score = clf.score(X_test, y_test)

print(f'Acurácia da árvore na base de treino:{train_score*100:.1f}')
print(f'Acurácia da árvore na base de teste: {test_score*100:.1f}')

Acurácia da árvore na base de treino:97.6
Acurácia da árvore na base de teste: 87.9
Wall time: 4.08 s


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [23]:
%%time
prcomp = PCA(n_components=1).fit(X_train)

pc_treino = prcomp.transform(X_train)
pc_teste  = prcomp.transform(X_test)

pc_train = pd.DataFrame(pc_treino).rename(columns={0:'cp1'})
pc_test  = pd.DataFrame(pc_teste).rename(columns={0:'cp1'})

clf = DecisionTreeClassifier(random_state=1234).fit(pc_train, y_train)

train_scores = clf.score(pc_train, y_train)
test_scores = clf.score(pc_test, y_test)

print(f'Acurácia da árvore na base de treino:{train_scores*100:.1f}')
print(f'Acurácia da árvore na base de teste: {test_scores*100:.1f}')

Acurácia da árvore na base de treino:100.0
Acurácia da árvore na base de teste: 41.0
Wall time: 224 ms


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [32]:
%%time
def avalia_pca(n: int) -> float:
    prcomp = PCA(n_components=n).fit(X_train)

    pc_treino = prcomp.transform(X_train)
    pc_teste  = prcomp.transform(X_test)

    colunas = ['cp'+str(x+1) for x in list(range(n))]
    pc_train = pd.DataFrame(pc_treino, columns = colunas)
    pc_test  = pd.DataFrame(pc_teste, columns = colunas)

    clf = DecisionTreeClassifier(random_state=1234).fit(pc_train, y_train)

    train_scores = clf.score(pc_train, y_train)
    test_scores = clf.score(pc_test, y_test)

    return train_scores, test_scores

componentes = [1, 2, 5, 10, 50]

for i in range(0,len(componentes)):
    train_scores, test_scores = avalia_pca(componentes[i])
    print(f'Com {componentes[i]} componente(s), a acurácia da árvore na base de treino:{train_scores*100:.1f}')
    print(f'Com {componentes[i]} componente(s), a acurácia da árvore na base de teste: {test_scores*100:.1f}')  
    print('')

Com 1 componente(s), a acurácia da árvore na base de treino:100.0
Com 1 componente(s), a acurácia da árvore na base de teste: 41.0

Com 2 componente(s), a acurácia da árvore na base de treino:100.0
Com 2 componente(s), a acurácia da árvore na base de teste: 51.7

Com 5 componente(s), a acurácia da árvore na base de treino:100.0
Com 5 componente(s), a acurácia da árvore na base de teste: 75.3

Com 10 componente(s), a acurácia da árvore na base de treino:100.0
Com 10 componente(s), a acurácia da árvore na base de teste: 78.9

Com 50 componente(s), a acurácia da árvore na base de treino:100.0
Com 50 componente(s), a acurácia da árvore na base de teste: 80.5

Wall time: 1.68 s


## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

A acurácia aumentou como esperado, afinal estamos aumentando a quantidade de variáveis que explicam o modelo, mas em contrapartida o tempo de execução também se elevou conforme mais componentes foram inseridas.