![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [3]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score, GridSearchCV

# Arquivos
filename_features = "features.txt"
filename_labels = "activity_labels.txt"

filename_subtrain = "subject_train.txt"
filename_xtrain = "X_train.txt"
filename_ytrain = "y_train.txt"

filename_subtest = "subject_test.txt"
filename_xtest = "X_test.txt"
filename_ytest = "y_test.txt"

# Leitura dos dados
features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#")['nome_var']
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])
X_test = pd.read_csv(filename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])


  labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])
  X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
  X_test = pd.read_csv(filename_xtest, delim_whitespace=True, header=None, names=features.tolist())


## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [7]:
import time

filename_features = "features.txt"
filename_labels = "activity_labels.txt"
filename_subtrain = "subject_train.txt"
filename_xtrain = "X_train.txt"
filename_ytrain = "y_train.txt"
filename_subtest = "subject_test.txt"
filename_xtest = "X_test.txt"
filename_ytest = "y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#")['nome_var']
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label']).squeeze()

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])
X_test = pd.read_csv(filename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label']).squeeze()

start_time = time.time()

clf = DecisionTreeClassifier(random_state=42, ccp_alpha=0.001)
clf.fit(X_train, y_train)

train_acc = accuracy_score(y_train, clf.predict(X_train))
test_acc = accuracy_score(y_test, clf.predict(X_test))

end_time = time.time()
execution_time = end_time - start_time

print(f"Acurácia (Treinamento): {train_acc:.4f}")
print(f"Acurácia (Teste): {test_acc:.4f}")
print(f"Tempo de execução: {execution_time:.2f} segundos")


  labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])
  X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
  X_test = pd.read_csv(filename_xtest, delim_whitespace=True, header=None, names=features.tolist())


Acurácia (Treinamento): 0.9758
Acurácia (Teste): 0.8799
Tempo de execução: 5.22 segundos


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [9]:
pca = PCA(n_components=1)

start_time = time.time()

X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

clf_pca = DecisionTreeClassifier(random_state=42, ccp_alpha=0.001)
clf_pca.fit(X_train_pca, y_train)

train_acc_pca = accuracy_score(y_train, clf_pca.predict(X_train_pca))
test_acc_pca = accuracy_score(y_test, clf_pca.predict(X_test_pca))

end_time = time.time()
execution_time_pca = end_time - start_time

print(f"Acurácia (Treinamento): {train_acc_pca:.4f}")
print(f"Acurácia (Teste): {test_acc_pca:.4f}")
print(f"Tempo de execução: {execution_time_pca:.2f} segundos")

Acurácia (Treinamento): 0.4997
Acurácia (Teste): 0.4571
Tempo de execução: 0.22 segundos


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [10]:
n_components_list = [1, 2, 5, 10, 50]

resultados = []

for n in n_components_list:
    pca = PCA(n_components=n)
    
    start_time = time.time()
    
    X_train_pca = pca.fit_transform(X_train)
    X_test_pca = pca.transform(X_test)
    
    clf = DecisionTreeClassifier(random_state=42, ccp_alpha=0.001)
    clf.fit(X_train_pca, y_train)
    
    train_acc = accuracy_score(y_train, clf.predict(X_train_pca))
    test_acc = accuracy_score(y_test, clf.predict(X_test_pca))
    
    end_time = time.time()
    duration = end_time - start_time
    
    resultados.append({
        'Componentes': n,
        'Acurácia Treino': round(train_acc, 4),
        'Acurácia Teste': round(test_acc, 4),
        'Tempo (s)': round(duration, 2)
    })

df_resultados = pd.DataFrame(resultados)
print(df_resultados)

   Componentes  Acurácia Treino  Acurácia Teste  Tempo (s)
0            1           0.4997          0.4571       0.18
1            2           0.6128          0.5847       0.14
2            5           0.8460          0.7886       0.14
3           10           0.8927          0.8242       0.21
4           50           0.9193          0.8229       0.69


## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

Com poucas componentes, a acurácia cai, mas o tempo é rápido. Aumentando componentes, a acurácia melhora e o tempo cresce, chegando perto do modelo original com menos custo. PCA equilibra desempenho e eficiência.