![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [1]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
import time

filename_features = "UCI HAR Dataset/features.txt"
filename_labels = "UCI HAR Dataset/activity_labels.txt"

filename_subtrain = "UCI HAR Dataset/train/subject_train.txt"
filename_xtrain = "UCI HAR Dataset/train/X_train.txt"
filename_ytrain = "UCI HAR Dataset/train/y_train.txt"

filename_subtest = "UCI HAR Dataset/test/subject_test.txt"
ffilename_xtest = "UCI HAR Dataset/test/X_test.txt"
filename_ytest = "UCI HAR Dataset/test/y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#").squeeze("columns")
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id']).squeeze("columns")
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id']).squeeze("columns")
X_test = pd.read_csv(ffilename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [2]:
%%time
# Criando o modelo de Árvore de Decisão com ccp_alpha=0.001
clf = DecisionTreeClassifier(random_state=23, ccp_alpha=0.001).fit(X_train, y_train)

# Calculando a acurácia nos dados de treinamento e teste
train_score = clf.score(X_train, y_train)
test_score = clf.score(X_test, y_test)

print(f'Acurácia da árvore na base de treino:{train_score*100:.2f}')
print(f'Acurácia da árvore na base de teste: {test_score*100:.2f}')

Acurácia da árvore na base de treino:97.58
Acurácia da árvore na base de teste: 88.02
CPU times: user 5.47 s, sys: 27.5 ms, total: 5.5 s
Wall time: 5.51 s


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [3]:
%%time
# Aplicando o PCA com apenas uma componente principal
pca = PCA(n_components=1).fit(X_train)
X_train_pca = pca.transform(X_train)
X_test_pca = pca.transform(X_test)

# Criando o modelo de Árvore de Decisão com a componente principal do PCA
clf_pca = DecisionTreeClassifier(random_state=23, ccp_alpha=0.001).fit(X_train_pca, y_train)

# Calculando a acurácia nos dados de treinamento e teste
train_score_pca = clf_pca.score(X_train_pca, y_train)
test_score_pca = clf_pca.score(X_test_pca, y_test)

print(f'Acurácia da árvore com PCA na base de treino: {train_score_pca*100:.2f}')
print(f'Acurácia da árvore com PCA na base de teste: {test_score_pca*100:.2f}')

Acurácia da árvore com PCA na base de treino: 49.97
Acurácia da árvore com PCA na base de teste: 45.71
CPU times: user 742 ms, sys: 80.5 ms, total: 822 ms
Wall time: 236 ms


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [4]:
%%time

# Lista de possibilidades de quantidades de componentes
lista = [1, 2, 5, 10, 50]

for n in lista:
    print(f"Número de Componentes: {n}")
    
    # Aplicando o PCA com o número de componentes escolhido
    pca = PCA(n_components=n).fit(X_train)
    X_train_pca = pca.transform(X_train)
    X_test_pca = pca.transform(X_test)
    
    # Criando o modelo de Árvore de Decisão
    clf_pca = DecisionTreeClassifier(random_state=23, ccp_alpha=0.001)
    
    # Medindo o tempo de processamento
    start_time = time.time()
    
    # Treinando o modelo
    clf_pca.fit(X_train_pca, y_train)
    
    # Calculando a acurácia nos dados de treinamento e teste
    train_score_pca = clf_pca.score(X_train_pca, y_train)
    test_score_pca = clf_pca.score(X_test_pca, y_test)
    
    # Calculando o tempo de processamento
    end_time = time.time()
    processing_time = end_time - start_time
    
    print(f'Acurácia da árvore com PCA na base de treino: {train_score_pca*100:.2f}')
    print(f'Acurácia da árvore com PCA na base de teste: {test_score_pca*100:.2f}')
    print(f'Tempo de processamento: {processing_time:.4f} segundos')
    print()


Número de Componentes: 1
Acurácia da árvore com PCA na base de treino: 49.97
Acurácia da árvore com PCA na base de teste: 45.71
Tempo de processamento: 0.0641 segundos

Número de Componentes: 2
Acurácia da árvore com PCA na base de treino: 61.28
Acurácia da árvore com PCA na base de teste: 58.47
Tempo de processamento: 0.0545 segundos

Número de Componentes: 5
Acurácia da árvore com PCA na base de treino: 84.60
Acurácia da árvore com PCA na base de teste: 78.89
Tempo de processamento: 0.0663 segundos

Número de Componentes: 10
Acurácia da árvore com PCA na base de treino: 89.27
Acurácia da árvore com PCA na base de teste: 82.39
Tempo de processamento: 0.1334 segundos

Número de Componentes: 50
Acurácia da árvore com PCA na base de treino: 92.07
Acurácia da árvore com PCA na base de teste: 83.31
Tempo de processamento: 0.7012 segundos

CPU times: user 5.54 s, sys: 460 ms, total: 6 s
Wall time: 2.08 s


## Conclua

- O que aconteceu com a acurácia?

<span style="color: darkolivegreen;">Conforme o número de componentes principais aumenta, a acurácia da árvore de decisão com PCA aumenta tanto na base de treino quanto na base de teste. Isso já era esperado, porque quanto mais variáveis são utilizadas para a modelagem, o modelo tem mais chance de fazer previsões precisas.</span>

- O que aconteceu com o tempo de processamento?

<span style="color: darkolivegreen;">Conforme o número de componentes aumenta, o tempo de processamento também aumenta. Isso ocorre porque, com mais componentes, a complexidade do modelo aumenta, e a árvore de decisão com PCA precisa fazer mais cálculos durante o treinamento e previsões.</span>