![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [1]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

filename_features = "./Dados/UCI HAR Dataset/features.txt"
filename_labels = "./Dados/UCI HAR Dataset/activity_labels.txt"

filename_subtrain = "./Dados/UCI HAR Dataset/train/subject_train.txt"
filename_xtrain = "./Dados/UCI HAR Dataset/train/X_train.txt"
filename_ytrain = "./Dados/UCI HAR Dataset/train/y_train.txt"

filename_subtest = "./Dados/UCI HAR Dataset/test/subject_test.txt"
ffilename_xtest = "./Dados/UCI HAR Dataset/test/X_test.txt"
filename_ytest = "./Dados/UCI HAR Dataset/test/y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#")
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.nome_var)
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])
X_test = pd.read_csv(ffilename_xtest, delim_whitespace=True, header=None, names=features.nome_var)
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [2]:
%%time

clf = DecisionTreeClassifier(ccp_alpha=0.001, random_state=123)
clf.fit(X_train, y_train)

CPU times: total: 78.1 ms
Wall time: 9.79 s


In [3]:
train_score = clf.score(X_train,y_train)
test_score = clf.score(X_test, y_test)

print(f"Acurácia Train: {round(train_score*100,2)}%")
print(f" Acurácia Test: {round(test_score*100,2)}%")

Acurácia Train: 97.58%
 Acurácia Test: 88.23%


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [4]:
n=1
prcomp = PCA(n_components=n).fit(X_train)
colunas = ['cp'+str(x+1) for x in list(range(n))]

In [5]:
pc_train = pd.DataFrame(prcomp.transform(X_train), columns=colunas)
pc_test = pd.DataFrame(prcomp.transform(X_test), columns=colunas)

pc_train.head()

Unnamed: 0,cp1
0,-5.52028
1,-5.53535
2,-5.474988
3,-5.677232
4,-5.748749


In [6]:
%%time

clf2 = DecisionTreeClassifier(ccp_alpha=0.001, random_state=123)
clf2.fit(pc_train, y_train)

CPU times: total: 46.9 ms
Wall time: 79.4 ms


In [7]:
pctrain_score = clf2.score(pc_train,y_train)
pctest_score = clf2.score(pc_test, y_test)

print(f"Acurácia Train: {round(pctrain_score*100,2)}%")
print(f" Acurácia Test: {round(pctest_score*100,2)}%")

Acurácia Train: 49.97%
 Acurácia Test: 45.71%


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [8]:
clf3 = PCA()

parametros = {'n_components': [1, 2, 5, 10, 50],
              'svd_solver': ['auto', 'full', 'arpack', 'randomized']}

grid = GridSearchCV(estimator  = clf3,
                    param_grid = parametros,
                    cv         = 5)

In [9]:
%%time

grid.fit(X_train)

CPU times: total: 10.5 s
Wall time: 18.8 s


In [10]:
grid.best_estimator_

In [11]:
n=50
prcomp2 = PCA(n_components=n, svd_solver='arpack').fit(X_train)
colunas2 = ['cp'+str(x+1) for x in list(range(n))]

In [12]:
pc_train2 = pd.DataFrame(prcomp2.transform(X_train), columns=colunas2)
pc_test2 = pd.DataFrame(prcomp2.transform(X_test), columns=colunas2)

pc_train2.head()

Unnamed: 0,cp1,cp2,cp3,cp4,cp5,cp6,cp7,cp8,cp9,cp10,...,cp41,cp42,cp43,cp44,cp45,cp46,cp47,cp48,cp49,cp50
0,-5.52028,-0.290278,-1.529929,1.333242,1.425089,-0.194708,0.577454,0.69149,-1.222865,-0.363414,...,0.339005,0.118137,0.040823,0.159727,-0.322296,0.482241,-0.36446,0.496481,0.66118,0.399789
1,-5.53535,-0.08253,-1.924804,0.671273,0.67126,0.735144,-0.616908,-0.771714,-0.615496,-0.895525,...,-0.148162,-0.290389,-0.119111,0.087993,0.546724,0.319875,-0.068621,-0.35927,-0.027141,-0.377172
2,-5.474988,0.287387,-2.144642,0.531806,0.207824,-0.037772,0.057628,0.093917,-0.063147,-0.216898,...,-0.367382,-0.08681,-0.319287,-0.007604,0.049801,-0.068046,-0.216373,-0.452846,0.124825,-0.183324
3,-5.677232,0.897031,-2.01822,0.157125,0.759085,1.079547,-0.267805,-0.731391,0.281296,0.466269,...,0.030151,-0.235269,-0.255478,-0.108338,0.205582,-0.045836,-0.219071,-0.314889,0.038295,-0.266276
4,-5.748749,1.162952,-2.139533,0.207823,0.47309,0.463035,-0.152227,-0.107509,0.289819,0.539206,...,-0.097418,0.03751,-0.206792,-0.093646,0.219298,-0.020432,0.136069,-0.218826,-0.122678,-0.163272


In [13]:
%%time

clf4 = DecisionTreeClassifier(ccp_alpha=0.001, random_state=123)
clf4.fit(pc_train2, y_train)

CPU times: total: 1 s
Wall time: 1.48 s


In [14]:
pctrain_score2 = clf4.score(pc_train2,y_train)
pctest_score2 = clf4.score(pc_test2, y_test)

print(f"Acurácia Train: {round(pctrain_score2*100,2)}%")
print(f" Acurácia Test: {round(pctest_score2*100,2)}%")

Acurácia Train: 91.93%
 Acurácia Test: 82.29%


## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

**Resposta:** 

- Utilizando apenas a árvore de decisão com todas as variáveis, a acurácia foi muito boa, porém corremos o risco de errar na preditiva devido ao grande número de colunas que consta no nosso banco de dados. O tempo de processamento foi ruim.

- Já no PCA com apenas 1 componente, o tempo de processamento foi bem rápido, porém a acurácia foi muito ruim.

- No último exemplo encontramos o número de componentes encontrado no GridSearchCV, dentro dos parametros indicados no enunciado do exercício. Nele conseguimos uma boa acurácia e mas contando com o GridSearchCV, tivemos o pior tempo de processamento.

**Árvore de Decisão com todas as variáveis:** 9.79s<br>
**PCA com uma componente:** 79.4ms<br>
**GridSearchCV e PCA com 50 componentes:** 18.8s + 1.48s = 20.28s