![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [10]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
import warnings

warnings.filterwarnings("ignore")

filename_features = "features.txt"
filename_labels = "activity_labels.txt"

filename_subtrain = "train/subject_train.txt"
filename_xtrain = "train/X_train.txt"
filename_ytrain = "train/y_train.txt"

filename_subtest = "test/subject_test.txt"
filename_xtest = "test/X_test.txt"
filename_ytest = "test/y_test.txt"

# Lendo os arquivos
features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#")['nome_var']
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])
X_test = pd.read_csv(filename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [18]:
%%time

modelo = DecisionTreeClassifier(ccp_alpha=0.001)
modelo.fit(X_train, y_train)

train = modelo.predict(X_train)
test = modelo.predict(X_test)

train_accuracy = accuracy_score(y_train, train)
test_accuracy = accuracy_score(y_test, test)

print(f'Acuracia do conjunto de treino: {train_accuracy:.2f}')
print(f'Acuracio do conjunto de teste: {test_accuracy:.2f}')

Acuracia do conjunto de treino: 0.98
Acuracio do conjunto de teste: 0.88
CPU times: total: 2.67 s
Wall time: 3.63 s


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [22]:
%%time


pca = PCA(n_components=1)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

modelo = DecisionTreeClassifier()
modelo.fit(X_train_pca, y_train)

train = modelo.predict(X_train_pca)
test = modelo.predict(X_test_pca)

train_accuracy = accuracy_score(y_train, train)
test_accuracy = accuracy_score(y_test, test)

print(f'Acuracia do conjunto de treino: {train_accuracy:.2f}')
print(f'Acuracio do conjunto de teste: {test_accuracy:.2f}')

Acuracia do conjunto de treino: 1.00
Acuracio do conjunto de teste: 0.41
CPU times: total: 62.5 ms
Wall time: 427 ms


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [30]:
%%time

n_components = [1, 2, 5, 10, 50]

results = []

for n_component in n_components:
    pca = PCA(n_components=n_component)
    X_train_pca = pca.fit_transform(X_train)
    X_test_pca = pca.transform(X_test)

    modelo = DecisionTreeClassifier()
    modelo.fit(X_train_pca, y_train)

    train = modelo.predict(X_train_pca)
    test = modelo.predict(X_test_pca)

    train_accuracy = accuracy_score(y_train, train)
    test_accuracy = accuracy_score(y_test, test)

    print(f'Acuracia do conjunto de treino: {train_accuracy:.2f} com {n_component}')
    print(f'Acuracio do conjunto de teste: {test_accuracy:.2f} com {n_component}')
    

Acuracia do conjunto de treino: 1.00 com 1
Acuracio do conjunto de teste: 0.41 com 1
Acuracia do conjunto de treino: 1.00 com 2
Acuracio do conjunto de teste: 0.51 com 2
Acuracia do conjunto de treino: 1.00 com 5
Acuracio do conjunto de teste: 0.76 com 5
Acuracia do conjunto de treino: 1.00 com 10
Acuracio do conjunto de teste: 0.80 com 10
Acuracia do conjunto de treino: 1.00 com 50
Acuracio do conjunto de teste: 0.80 com 50
CPU times: total: 734 ms
Wall time: 1.16 s


## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

Quanto mais aumentava o número de components maior era a acurácia até chegar em 10 componentes, depois disso manteve a mesma acurácia.  

O tempo de processamento reduziu do primeiro para o segundo exercicio. O terceiro teve um "aumento", porem por conta da quantidade de modelos criados.