# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [64]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score, GridSearchCV
import numpy as np

features_df = pd.read_fwf('features.txt', header=None)
subject_train = pd.read_fwf('./train/subject_train.txt', header=None)
X_train = pd.read_fwf('./train/X_train.txt', header=None)

X_train.columns = features_df
X_train['Individual'] = subject_train
X_train.set_index('Individual', append=True, inplace=True)

X_train.to_csv('X_train_final.csv')

features_df = pd.read_fwf('features.txt', header=None)
subject_test = pd.read_fwf('./test/subject_test.txt', header=None)
X_test = pd.read_fwf('./test/X_test.txt', header=None)

X_test.columns = features_df
X_test['Individual'] = subject_test
X_test.set_index('Individual', append=True, inplace=True)

X_test.to_csv('X_test_final.csv')

y_train = pd.read_fwf('./train/y_train.txt', header=None)
y_test = pd.read_fwf('./test/y_test.txt', header=None)


In [83]:
import numpy as np

In [65]:
X_train.reset_index(inplace=True)
X_train.drop(columns=["Individual"], inplace=True)

X_test.reset_index(inplace=True)
X_test.drop(columns=["Individual"], inplace=True)

In [66]:
X_train.drop(columns=['level_0'], inplace=True)
X_test.drop(columns=['level_0'], inplace=True)

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [68]:
%%time

clf0 = DecisionTreeClassifier(random_state=2360873, ccp_alpha=0.001).fit(X_train, y_train)

CPU times: total: 3.97 s
Wall time: 4.75 s


In [69]:
train_scores = clf0.score(X_train, y_train)
test_scores  = clf0.score(X_test, y_test)

In [70]:
print('Accuracy na base de treino: ' + str(train_scores))
print('Accuracy na base de testes: ' + str(test_scores))

Accuracy na base de treino: 0.9757889009793254
Accuracy na base de testes: 0.8791991856124872


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [75]:
%%time

prcomp = PCA().fit(X_train)

pc_treino = prcomp.transform(X_train)
pc_teste = prcomp.transform(X_test)


CPU times: total: 406 ms
Wall time: 220 ms


In [77]:
n =  1
list(range(n))

[0]

In [79]:
colunas = ['cp' + str(x+1) for x in list(range(n))]

pc_train = pd.DataFrame(pc_treino[:,:n], columns = colunas)
pc_test = pd.DataFrame(pc_teste[:,:n], columns = colunas)

pc_train.shape

(7352, 1)

In [85]:
%%time

clf = DecisionTreeClassifier(random_state=1234, ccp_alpha=0.001).fit(pc_train, y_train)

CPU times: total: 4.72 s
Wall time: 5.15 s


In [87]:
train_scores = clf.score(pc_train, y_train)
test_scores  = clf.score(pc_test, y_test)

In [89]:
print('Accuracy na base de treino: ' + str(train_scores))
print('Accuracy na base de testes: ' + str(test_scores))

Accuracy na base de treino: 0.1913764961915125
Accuracy na base de testes: 0.18221920597217509


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [101]:
%%time
n = 2
colunas = ['cp' + str(x+1) for x in list(range(n))]

pc_train = pd.DataFrame(pc_treino[:,:n], columns = colunas)
pc_test = pd.DataFrame(pc_teste[:,:n], columns = colunas)

pc_train.shape

clf = DecisionTreeClassifier(random_state=1234, ccp_alpha=0.001).fit(pc_train, y_train)

train_scores = clf.score(pc_train, y_train)
test_scores  = clf.score(pc_test, y_test)

print('Accuracy na base de treino: ' + str(train_scores))
print('Accuracy na base de testes: ' + str(test_scores))

Accuracy na base de treino: 0.6145266594124048
Accuracy na base de testes: 0.5856803529012555
CPU times: total: 31.2 ms
Wall time: 50.6 ms


In [103]:
%%time
n = 5
colunas = ['cp' + str(x+1) for x in list(range(n))]

pc_train = pd.DataFrame(pc_treino[:,:n], columns = colunas)
pc_test = pd.DataFrame(pc_teste[:,:n], columns = colunas)

pc_train.shape

clf = DecisionTreeClassifier(random_state=1234, ccp_alpha=0.001).fit(pc_train, y_train)

train_scores = clf.score(pc_train, y_train)
test_scores  = clf.score(pc_test, y_test)

print('Accuracy na base de treino: ' + str(train_scores))
print('Accuracy na base de testes: ' + str(test_scores))

Accuracy na base de treino: 0.8513329706202394
Accuracy na base de testes: 0.7885985748218527
CPU times: total: 31.2 ms
Wall time: 59.5 ms


In [105]:
%%time
n = 10
colunas = ['cp' + str(x+1) for x in list(range(n))]

pc_train = pd.DataFrame(pc_treino[:,:n], columns = colunas)
pc_test = pd.DataFrame(pc_teste[:,:n], columns = colunas)

pc_train.shape

clf = DecisionTreeClassifier(random_state=1234, ccp_alpha=0.001).fit(pc_train, y_train)

train_scores = clf.score(pc_train, y_train)
test_scores  = clf.score(pc_test, y_test)

print('Accuracy na base de treino: ' + str(train_scores))
print('Accuracy na base de testes: ' + str(test_scores))

Accuracy na base de treino: 0.8865614798694232
Accuracy na base de testes: 0.8025110281642348
CPU times: total: 93.8 ms
Wall time: 111 ms


In [107]:
%%time
n = 50
colunas = ['cp' + str(x+1) for x in list(range(n))]

pc_train = pd.DataFrame(pc_treino[:,:n], columns = colunas)
pc_test = pd.DataFrame(pc_teste[:,:n], columns = colunas)

pc_train.shape

clf = DecisionTreeClassifier(random_state=1234, ccp_alpha=0.001).fit(pc_train, y_train)

train_scores = clf.score(pc_train, y_train)
test_scores  = clf.score(pc_test, y_test)

print('Accuracy na base de treino: ' + str(train_scores))
print('Accuracy na base de testes: ' + str(test_scores))

Accuracy na base de treino: 0.919885745375408
Accuracy na base de testes: 0.8116728876823889
CPU times: total: 469 ms
Wall time: 560 ms


## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

### A acurácia apresentou valores muito ruins para somente 1 variável, porém, a medida em que incrementamos mais variáveis, nossa acurácia foi se mostrando cada vez mais satisfatória, porém, se aproximando de um "teto".

###