![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [18]:
import pandas as pd
import time
from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score, GridSearchCV

base_path = r"C:\Users\Lopes\Desktop\atividades\Modulo 27\arquivos"

filename_features = f"{base_path}\\features.txt"
filename_labels = f"{base_path}\\activity_labels.txt"

filename_subtrain = f"{base_path}\\subject_train.txt"
filename_xtrain = f"{base_path}\\X_train.txt"
filename_ytrain = f"{base_path}\\y_train.txt"

filename_subtest = f"{base_path}\\subject_test.txt"
filename_xtest = f"{base_path}\\X_test.txt"
filename_ytest = f"{base_path}\\y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#", encoding='latin1')['nome_var']
labels = pd.read_csv(filename_labels, sep=r'\s+', header=None, names=['cod_label', 'label'], encoding='latin1')

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
X_train = pd.read_csv(filename_xtrain, sep=r'\s+', header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])
X_test = pd.read_csv(filename_xtest, sep=r'\s+', header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [22]:
start_time = time.time()

arvore = DecisionTreeClassifier(ccp_alpha=0.001, random_state=42)
arvore.fit(X_train, y_train)

y_pred_train = arvore.predict(X_train)
y_pred_test = arvore.predict(X_test)

acc_train = accuracy_score(y_train, y_pred_train)
acc_test = accuracy_score(y_test, y_pred_test)

end_time = time.time()
tempo_total = end_time - start_time

print(f"Acurácia na base de treino: {acc_train:.4f}")
print(f"Acurácia na base de teste:  {acc_test:.4f}")
print(f"Tempo de processamento:     {tempo_total:.4f} segundos")

Acurácia na base de treino: 0.5007
Acurácia na base de teste:  0.3811
Tempo de processamento:     0.0575 segundos


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [24]:
%%time
start_time = time.time()

pca = PCA(n_components=1)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

arvore_pca = DecisionTreeClassifier(random_state=42)
arvore_pca.fit(X_train_pca, y_train)

y_pred_train_pca = arvore_pca.predict(X_train_pca)
y_pred_test_pca = arvore_pca.predict(X_test_pca)

acc_train_pca = accuracy_score(y_train, y_pred_train_pca)
acc_test_pca = accuracy_score(y_test, y_pred_test_pca)

end_time = time.time()
tempo_total_pca = end_time - start_time

print(f"Acurácia (PCA 1 componente) - Treino: {acc_train_pca:.4f}")
print(f"Acurácia (PCA 1 componente) - Teste:  {acc_test_pca:.4f}")
print(f"Tempo de processamento:              {tempo_total_pca:.4f} segundos")

Acurácia (PCA 1 componente) - Treino: 1.0000
Acurácia (PCA 1 componente) - Teste:  0.3251
Tempo de processamento:              0.0530 segundos
CPU times: total: 31.2 ms
Wall time: 53 ms


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [32]:
print(X_train.shape)
print(X_test.shape)

(7352, 1)
(2947, 1)


In [42]:
componentes = [1, 2, 5, 10, 50]

for n in componentes:
    start_time = time.time()

    pca = PCA(n_components=1)
    X_train_pca = pca.fit_transform(X_train)
    X_test_pca = pca.transform(X_test)

    arvore = DecisionTreeClassifier(random_state=42, ccp_alpha=0.01)
    arvore.fit(X_train_pca, y_train)
    y_pred_train = arvore.predict(X_train_pca)
    y_pred_test = arvore.predict(X_test_pca)

    acuracia_treino = accuracy_score(y_train, y_pred_train)
    acuracia_teste = accuracy_score(y_test, y_pred_test)

    tempo_processamento = time.time() - start_time

    print(f"Acurácia Treino: {acuracia_treino}")
    print(f"Acurácia Teste: {acuracia_teste}")
    print(f"Tempo: {tempo_processamento} segundos")
    print(f" ")

Acurácia Treino: 0.43715995647442873
Acurácia Teste: 0.39429928741092635
Tempo: 0.054000139236450195 segundos
 
Acurácia Treino: 0.43715995647442873
Acurácia Teste: 0.39429928741092635
Tempo: 0.051000118255615234 segundos
 
Acurácia Treino: 0.43715995647442873
Acurácia Teste: 0.39429928741092635
Tempo: 0.05000042915344238 segundos
 
Acurácia Treino: 0.43715995647442873
Acurácia Teste: 0.39429928741092635
Tempo: 0.05099987983703613 segundos
 
Acurácia Treino: 0.43715995647442873
Acurácia Teste: 0.39429928741092635
Tempo: 0.051000118255615234 segundos
 


## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

A acurácia de treino e teste não melhorou significativamente com a regularização e PCA, permanecendo em torno de 43% e 39%, respectivamente. O modelo parece ainda ter dificuldades em generalizar

O tempo de processamento foi rápido.