# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [33]:
import pandas as pd
import time

from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

filename_features = "Dados/UCI HAR Dataset/features.txt"
filename_labels = "Dados/UCI HAR Dataset/activity_labels.txt"
filename_subtrain = "Dados/UCI HAR Dataset/train/subject_train.txt"
filename_xtrain = "Dados/UCI HAR Dataset/train/X_train.txt"
filename_ytrain = "Dados/UCI HAR Dataset/train/y_train.txt"
filename_subtest = "Dados/UCI HAR Dataset/test/subject_test.txt"
filename_xtest = "Dados/UCI HAR Dataset/test/X_test.txt"
filename_ytest = "Dados/UCI HAR Dataset/test/y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#")['nome_var']
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])
X_test = pd.read_csv(filename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [34]:
%%time

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Inicializando a árvore de decisão com o parâmetro ccp_alpha
clf = DecisionTreeClassifier(ccp_alpha=0.001, random_state=0)

# Medindo o tempo de início
start_time = time.time()

# Treinando o modelo
clf.fit(X_train, y_train)

# Fazendo as predições
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)

# Calculando a acurácia
acc_train = accuracy_score(y_train, y_pred_train)
acc_test = accuracy_score(y_test, y_pred_test)

# Medindo o tempo de término
end_time = time.time()

# Imprimindo os resultados
print(f"Acurácia em treinamento: {acc_train:.4f}")
print(f"Acurácia em teste: {acc_test:.4f}")
print(f"Tempo de processamento: {end_time - start_time:.4f} segundos")

Acurácia em treinamento: 0.9758
Acurácia em teste: 0.8799
Tempo de processamento: 10.4080 segundos
CPU times: total: 10.4 s
Wall time: 10.4 s


## Árvore com PCA

Faça uma análise de componentes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [35]:
%%time

# Realizando PCA
pca = PCA(n_components=1)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

# Treinando a Árvore de Decisão
start_time = time.time()

clf = DecisionTreeClassifier(ccp_alpha=0.001)
clf.fit(X_train_pca, y_train)

end_time = time.time()
processing_time = end_time - start_time

# Predições e avaliação da acurácia
y_train_pred = clf.predict(X_train_pca)
y_test_pred = clf.predict(X_test_pca)

train_accuracy = accuracy_score(y_train, y_train_pred)
test_accuracy = accuracy_score(y_test, y_test_pred)

print(f"Acurácia no conjunto de treinamento: {train_accuracy:.4f}")
print(f"Acurácia no conjunto de teste: {test_accuracy:.4f}")
print(f"Tempo de processamento: {processing_time:.4f} segundos")

Acurácia no conjunto de treinamento: 0.4997
Acurácia no conjunto de teste: 0.4571
Tempo de processamento: 0.0909 segundos
CPU times: total: 719 ms
Wall time: 218 ms


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [37]:
%%time

# Lista de quantidades de componentes a serem testados
n_components_list = [1, 2, 5, 10, 50]

# Listas para armazenar resultados
train_accuracies = []
test_accuracies = []
processing_times = []

for n_components in n_components_list:
    print(f"\nTestando com {n_components} componentes principais:")
    
    # 1. Realizar PCA
    pca = PCA(n_components=n_components)
    X_train_pca = pca.fit_transform(X_train)
    X_test_pca = pca.transform(X_test)
    
    # 2. Treinar Árvore de Decisão
    start_time = time.time()
    
    clf = DecisionTreeClassifier(ccp_alpha=0.001)
    clf.fit(X_train_pca, y_train)
    
    end_time = time.time()
    
    # 3. Avaliar acurácia
    y_train_pred = clf.predict(X_train_pca)
    y_test_pred = clf.predict(X_test_pca)
    
    train_accuracy = accuracy_score(y_train, y_train_pred)
    test_accuracy = accuracy_score(y_test, y_test_pred)
    
    processing_time = end_time - start_time
    
    # Armazenar resultados
    train_accuracies.append(train_accuracy)
    test_accuracies.append(test_accuracy)
    processing_times.append(processing_time)
    
    print(f"Acurácia no conjunto de treinamento: {train_accuracy:.4f}")
    print(f"Acurácia no conjunto de teste: {test_accuracy:.4f}")
    print(f"Tempo de processamento: {processing_time:.4f} segundos")

# Exibindo um resumo dos resultados
results_df = pd.DataFrame({
    'Nº de Componentes': n_components_list,
    'Acurácia (Treino)': train_accuracies,
    'Acurácia (Teste)': test_accuracies,
    'Tempo de Processamento (s)': processing_times
})

results_df


Testando com 1 componentes principais:
Acurácia no conjunto de treinamento: 0.4997
Acurácia no conjunto de teste: 0.4571
Tempo de processamento: 0.1070 segundos

Testando com 2 componentes principais:
Acurácia no conjunto de treinamento: 0.6128
Acurácia no conjunto de teste: 0.5847
Tempo de processamento: 0.1049 segundos

Testando com 5 componentes principais:
Acurácia no conjunto de treinamento: 0.8460
Acurácia no conjunto de teste: 0.7889
Tempo de processamento: 0.1399 segundos

Testando com 10 componentes principais:
Acurácia no conjunto de treinamento: 0.8924
Acurácia no conjunto de teste: 0.8239
Tempo de processamento: 0.2819 segundos

Testando com 50 componentes principais:
Acurácia no conjunto de treinamento: 0.9163
Acurácia no conjunto de teste: 0.8235
Tempo de processamento: 1.2583 segundos
CPU times: total: 7.17 s
Wall time: 2.76 s


Unnamed: 0,Nº de Componentes,Acurácia (Treino),Acurácia (Teste),Tempo de Processamento (s)
0,1,0.499728,0.457075,0.107012
1,2,0.612758,0.584662,0.104938
2,5,0.846028,0.788938,0.139918
3,10,0.89241,0.823889,0.281851
4,50,0.916349,0.823549,1.258289


## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

**Acurácia:**

- Com apenas 1 componente principal, o modelo teve uma performance consideravelmente baixa (em torno de 45-50%).
-  Ao usar 2 componentes, a acurácia aumentou significativamente, chegando a cerca de 58-61%.
- Com 5 componentes, a acurácia deu um salto para cerca de 79-85%.
- Com 10 componentes, a acurácia aumentou novamente, para aproximadamente 82-89%.
- Curiosamente, ao usar 50 componentes, a acurácia no conjunto de teste não aumentou em relação a usar 10 componentes, mas a acurácia no conjunto de treinamento teve um leve aumento.
<br><br>
**Tempo de Processamento:**

- O tempo de processamento aumenta à medida que usamos mais componentes principais. O modelo treinado com 50 componentes levou mais tempo do que o modelo treinado com apenas 1 componente.