![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [64]:
import pandas as pd
import time

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV


X_train = pd.read_csv('X_train_df.csv')
X_test = pd.read_csv('X_test_df.csv')
y_train = pd.read_csv('./train/y_train.txt', header=None)
y_test = pd.read_csv('./test/y_test.txt', header=None)

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [42]:
%%time

clf = DecisionTreeClassifier(ccp_alpha=0.001)

clf.fit(X_train, y_train)

CPU times: user 3.92 s, sys: 38.6 ms, total: 3.96 s
Wall time: 3.96 s


DecisionTreeClassifier(ccp_alpha=0.001)

In [43]:
train_score = clf.score(X_train, y_train)
test_score = clf.score(X_test, y_test)

print(f'Acurácia do modelo na base de treino é de: {round(train_score, 3) * 100}%')
print(f'Acurácia do modelo na base de teste é de: {round(test_score, 3) * 100}%')

Acurácia do modelo na base de treino é de: 97.7%
Acurácia do modelo na base de teste é de: 87.8%


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [41]:
%%time

prcomp = PCA(n_components=1).fit(X_train)

pc_train = prcomp.transform(X_train)
pc_test  = prcomp.transform(X_test)

CPU times: user 477 ms, sys: 60.6 ms, total: 537 ms
Wall time: 236 ms


In [50]:
clf_pc = DecisionTreeClassifier(ccp_alpha=0.001)
clf_pc.fit(pc_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.001)

In [51]:
pc_train_score = clf_pc.score(pc_train, y_train)
pc_test_score = clf_pc.score(pc_test, y_test)

print(f'Acurácia do modelo na base de treino com PCA é de: {round(pc_train_score, 3) * 100}%')
print(f'Acurácia do modelo na base de teste com PCA é de: {round(pc_test_score, 3) * 100}%')

Acurácia do modelo na base de treino com PCA é de: 98.7%
Acurácia do modelo na base de teste com PCA é de: 13.3%


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [59]:
%%time

i=2

prcomp = PCA(n_components=i).fit(X_train)

pc_train = prcomp.transform(X_train)
pc_test  = prcomp.transform(X_test)
    
clf_pc = DecisionTreeClassifier(ccp_alpha=0.001)
clf_pc.fit(pc_train, y_train)
    
pc_train_score = clf_pc.score(pc_train, y_train)
pc_test_score = clf_pc.score(pc_test, y_test)
    
print(f'PCA --- {i}')
print(f'Acurácia do modelo na base de treino com PCA de {i} é de: {round(pc_train_score, 3) * 100}%')
print(f'Acurácia do modelo na base de teste com PCA de {i} é de: {round(pc_test_score, 3) * 100}%')

PCA --- 2
Acurácia do modelo na base de treino com PCA de 2 é de: 87.8%
Acurácia do modelo na base de teste com PCA de 2 é de: 38.3%
CPU times: user 592 ms, sys: 52.1 ms, total: 644 ms
Wall time: 264 ms


In [60]:
%%time

i=5

prcomp = PCA(n_components=i).fit(X_train)

pc_train = prcomp.transform(X_train)
pc_test  = prcomp.transform(X_test)
    
clf_pc = DecisionTreeClassifier(ccp_alpha=0.001)
clf_pc.fit(pc_train, y_train)
    
pc_train_score = clf_pc.score(pc_train, y_train)
pc_test_score = clf_pc.score(pc_test, y_test)
    
print(f'PCA --- {i}')
print(f'Acurácia do modelo na base de treino com PCA de {i} é de: {round(pc_train_score, 3) * 100}%')
print(f'Acurácia do modelo na base de teste com PCA de {i} é de: {round(pc_test_score, 3) * 100}%')

PCA --- 5
Acurácia do modelo na base de treino com PCA de 5 é de: 87.3%
Acurácia do modelo na base de teste com PCA de 5 é de: 67.5%
CPU times: user 717 ms, sys: 70.9 ms, total: 788 ms
Wall time: 307 ms


In [61]:
%%time
i=10

prcomp = PCA(n_components=i).fit(X_train)

pc_train = prcomp.transform(X_train)
pc_test  = prcomp.transform(X_test)
    
clf_pc = DecisionTreeClassifier(ccp_alpha=0.001)
clf_pc.fit(pc_train, y_train)
    
pc_train_score = clf_pc.score(pc_train, y_train)
pc_test_score = clf_pc.score(pc_test, y_test)
    
print(f'PCA --- {i}')
print(f'Acurácia do modelo na base de treino com PCA de {i} é de: {round(pc_train_score, 3) * 100}%')
print(f'Acurácia do modelo na base de teste com PCA de {i} é de: {round(pc_test_score, 3) * 100}%')

PCA --- 10
Acurácia do modelo na base de treino com PCA de 10 é de: 89.3%
Acurácia do modelo na base de teste com PCA de 10 é de: 72.1%
CPU times: user 857 ms, sys: 31.9 ms, total: 889 ms
Wall time: 339 ms


In [62]:
%%time

i=50

prcomp = PCA(n_components=i).fit(X_train)

pc_train = prcomp.transform(X_train)
pc_test  = prcomp.transform(X_test)
    
clf_pc = DecisionTreeClassifier(ccp_alpha=0.001)
clf_pc.fit(pc_train, y_train)
    
pc_train_score = clf_pc.score(pc_train, y_train)
pc_test_score = clf_pc.score(pc_test, y_test)
    
print(f'PCA --- {i}')
print(f'Acurácia do modelo na base de treino com PCA de {i} é de: {round(pc_train_score, 3) * 100}%')
print(f'Acurácia do modelo na base de teste com PCA de {i} é de: {round(pc_test_score, 3) * 100}%')

PCA --- 50
Acurácia do modelo na base de treino com PCA de 50 é de: 92.0%
Acurácia do modelo na base de teste com PCA de 50 é de: 72.8%
CPU times: user 1.39 s, sys: 23.7 ms, total: 1.41 s
Wall time: 715 ms


In [70]:
%%time

n = [1,2,5,10,50]

for i in n:
    t1 = time.time()
    prcomp = PCA(n_components=i).fit(X_train)

    pc_train = prcomp.transform(X_train)
    pc_test  = prcomp.transform(X_test)
    
    clf_pc = DecisionTreeClassifier(ccp_alpha=0.001)
    clf_pc.fit(pc_train, y_train)
    
    pc_train_score = clf_pc.score(pc_train, y_train)
    pc_test_score = clf_pc.score(pc_test, y_test)
    time.time()
    tempoExec = time.time() - t1
    
    print(f'PCA --- {i}')
    print(f'Acurácia do modelo na base de treino com PCA de {i} é de: {round(pc_train_score, 3) * 100}%')
    print(f'Acurácia do modelo na base de teste com PCA de {i} é de: {round(pc_test_score, 3) * 100}%')
    print(f'Tempo de execução: {round(tempoExec, 4)} segundos')
    print('--------------------------------------------------------------------------------------------')
    print('--------------------------------------------------------------------------------------------')

PCA --- 1
Acurácia do modelo na base de treino com PCA de 1 é de: 98.7%
Acurácia do modelo na base de teste com PCA de 1 é de: 13.3%
Tempo de execução: 0.3308 segundos
--------------------------------------------------------------------------------------------
--------------------------------------------------------------------------------------------
PCA --- 2
Acurácia do modelo na base de treino com PCA de 2 é de: 87.8%
Acurácia do modelo na base de teste com PCA de 2 é de: 38.3%
Tempo de execução: 0.2464 segundos
--------------------------------------------------------------------------------------------
--------------------------------------------------------------------------------------------
PCA --- 5
Acurácia do modelo na base de treino com PCA de 5 é de: 87.3%
Acurácia do modelo na base de teste com PCA de 5 é de: 67.5%
Tempo de execução: 0.2859 segundos
--------------------------------------------------------------------------------------------
-------------------------------

## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

<p>Conforme aumenta o número de dimensionalidade com a função PCA, a acurácia também aumenta, <code>n=50</code>,  teve uma acurácia de <b>73%</b>, já <code>n=1</code>, teve a pior com <b>13%</b>.</p>

<p>Como registrado o tempo foi aumentando conforme o número fosse aumentando, mas ainda bem longe de do tempo sem o uso de PCA.</p>