![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

import warnings
warnings.filterwarnings("ignore")

In [4]:
import pandas as pd

# File paths
filename_features = "./features.txt"
filename_labels = "./activity_labels.txt"

filename_subtrain = "./train/subject_train.txt"
filename_xtrain = "./train/X_train.txt"
filename_ytrain = "./train/y_train.txt"

filename_subtest = "./test/subject_test.txt"
filename_xtest = "./test/X_test.txt"
filename_ytest = "./test/y_test.txt"

# Load data
features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#")
features = features['nome_var']  # Convert to Series manually
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None)  # Assuming feature names are correct
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])
X_test = pd.read_csv(filename_xtest, delim_whitespace=True, header=None)  # Assuming feature names are correct
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [5]:
import time

start_time = time.time()

clf = DecisionTreeClassifier(ccp_alpha=0.001)

clf.fit(X_train, y_train)

y_train_pred = clf.predict(X_train)

y_test_pred = clf.predict(X_test)

train_accuracy = accuracy_score(y_train, y_train_pred)
test_accuracy = accuracy_score(y_test, y_test_pred)

end_time = time.time()

processing_time = end_time - start_time

print(f"Acurácia Treino: {train_accuracy:.4f}")
print(f"Acurácia Teste: {test_accuracy:.4f}")
print(f"Tempo de Processamento: {processing_time:.2f} seconds")

Acurácia Treino: 0.9758
Acurácia Teste: 0.8795
Tempo de Processamento: 3.62 seconds


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [6]:
# PCA com uma única componente
pca = PCA(n_components=1)

# Ajustar PCA nas variáveis explicativas (X_train e X_test)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

# Início da contagem de tempo
start_time = time.time()

# Treinar uma árvore de decisão usando a primeira componente principal como variável
clf_pca = DecisionTreeClassifier(ccp_alpha=0.001)
clf_pca.fit(X_train_pca, y_train)

# Predições
y_train_pred_pca = clf_pca.predict(X_train_pca)
y_test_pred_pca = clf_pca.predict(X_test_pca)

# Avaliação da acurácia
train_accuracy_pca = accuracy_score(y_train, y_train_pred_pca)
test_accuracy_pca = accuracy_score(y_test, y_test_pred_pca)

# Fim da contagem de tempo
end_time = time.time()
processing_time_pca = end_time - start_time

# Resultados
print(f"Acurácia Treino (PCA 1 componente): {train_accuracy_pca:.4f}")
print(f"Acurácia Teste (PCA 1 componente): {test_accuracy_pca:.4f}")
print(f"Tempo de Processamento (PCA 1 componente): {processing_time_pca:.2f} segundos")

Acurácia Treino (PCA 1 componente): 0.4997
Acurácia Teste (PCA 1 componente): 0.4571
Tempo de Processamento (PCA 1 componente): 0.04 segundos


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [7]:
# List of number of components to test
components_to_test = [1, 2, 5, 10, 50]

# Dictionary to store results
results = {
    'n_components': [],
    'train_accuracy': [],
    'test_accuracy': [],
    'processing_time': []
}

# Loop through different numbers of PCA components
for n_components in components_to_test:
    print(f"\nTesting with {n_components} components:")
    
    # Apply PCA with the specified number of components
    pca = PCA(n_components=n_components)
    X_train_pca = pca.fit_transform(X_train)
    X_test_pca = pca.transform(X_test)
    
    # Início da contagem de tempo
    start_time = time.time()
    
    # Train Decision Tree Classifier
    clf_pca = DecisionTreeClassifier(ccp_alpha=0.001)
    clf_pca.fit(X_train_pca, y_train)
    
    # Predições
    y_train_pred_pca = clf_pca.predict(X_train_pca)
    y_test_pred_pca = clf_pca.predict(X_test_pca)
    
    # Avaliação da acurácia
    train_accuracy_pca = accuracy_score(y_train, y_train_pred_pca)
    test_accuracy_pca = accuracy_score(y_test, y_test_pred_pca)
    
    # Fim da contagem de tempo
    end_time = time.time()
    processing_time_pca = end_time - start_time
    
    # Store the results
    results['n_components'].append(n_components)
    results['train_accuracy'].append(train_accuracy_pca)
    results['test_accuracy'].append(test_accuracy_pca)
    results['processing_time'].append(processing_time_pca)
    
    # Print results for this iteration
    print(f" - Acurácia Treino: {train_accuracy_pca:.4f}")
    print(f" - Acurácia Teste: {test_accuracy_pca:.4f}")
    print(f" - Tempo de Processamento: {processing_time_pca:.2f} segundos")

# Convert the results dictionary to a DataFrame for better visualization
results_df = pd.DataFrame(results)

# Display the final results
print("\nResumo dos Resultados:")
print(results_df)


Testing with 1 components:
 - Acurácia Treino: 0.4997
 - Acurácia Teste: 0.4571
 - Tempo de Processamento: 0.03 segundos

Testing with 2 components:
 - Acurácia Treino: 0.6128
 - Acurácia Teste: 0.5847
 - Tempo de Processamento: 0.03 segundos

Testing with 5 components:
 - Acurácia Treino: 0.8460
 - Acurácia Teste: 0.7893
 - Tempo de Processamento: 0.05 segundos

Testing with 10 components:
 - Acurácia Treino: 0.8932
 - Acurácia Teste: 0.8235
 - Tempo de Processamento: 0.10 segundos

Testing with 50 components:
 - Acurácia Treino: 0.9187
 - Acurácia Teste: 0.8239
 - Tempo de Processamento: 0.47 segundos

Resumo dos Resultados:
   n_components  train_accuracy  test_accuracy  processing_time
0             1        0.499728       0.457075         0.032001
1             2        0.612758       0.584662         0.035000
2             5        0.846028       0.789277         0.045499
3            10        0.893226       0.823549         0.096999
4            50        0.918662       0.8238

## Conclua

- O que aconteceu com a acurácia?

Quando utilizamos apenas uma componente principal, a acurácia caiu drasticamente para cerca de 50% nos dados de treino e 45% nos dados de teste. Isso ocorre porque uma única componente não é suficiente para capturar toda a variabilidade dos dados originais. Assim, o modelo perde muita informação relevante.
À medida que aumentamos o número de componentes, a acurácia melhora significativamente:
Com 2 componentes, a acurácia aumenta para 61% no treino e 58% no teste.
Com 5 componentes, a acurácia atinge 84% no treino e 79% no teste.
Com 10 componentes, a acurácia chega a 89% no treino e 82% no teste, e já começa a se estabilizar.
Com 50 componentes, a acurácia no treino sobe para 91%, mas a acurácia no teste permanece em 82%. Isso sugere que, além desse ponto, o aumento de componentes não traz muitos ganhos em termos de generalização.Conforme mais componentes são adicionados, o modelo consegue capturar mais variabilidade dos dados, levando a um aumento de acurácia tanto no treino quanto no teste.
No entanto, após cerca de 10 componentes, o ganho de acurácia se estabiliza, o que indica que mais componentes podem capturar variações que não são necessariamente úteis para a generalização (potencialmente ruído ou overfitting).

- O que aconteceu com o tempo de processamento?

Com uma única componente, o tempo de processamento foi muito rápido (apenas 0.03 segundos), já que há menos variáveis para a árvore de decisão processar.
À medida que o número de componentes aumenta, o tempo de processamento também aumenta:
Com 2 componentes, o tempo permanece em 0.03 segundos.
Com 5 componentes, sobe ligeiramente para 0.05 segundos.
Com 10 componentes, o tempo é 0.10 segundos.
Com 50 componentes, o tempo é 0.47 segundos, mostrando um aumento significativo.O tempo de processamento cresce à medida que mais componentes são incluídos, pois a árvore de decisão tem que lidar com um espaço de variáveis mais complexo.
O crescimento no tempo de processamento é relativamente pequeno até 10 componentes, mas com 50 componentes, o tempo aumenta consideravelmente (quase 0.5 segundos). Embora isso ainda seja rápido, vemos que o custo computacional aumenta à medida que mais componentes são incluídos.