# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [23]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

In [2]:
filename_features = r"C:\Users\Bill_\Desktop\Projetos\EBAC\DataScience\Modulo 27 - PCA\UCI HAR Dataset\features.txt"
filename_labels = r"C:\Users\Bill_\Desktop\Projetos\EBAC\DataScience\Modulo 27 - PCA\UCI HAR Dataset\activity_labels.txt"

filename_subtrain = r"C:\Users\Bill_\Desktop\Projetos\EBAC\DataScience\Modulo 27 - PCA\UCI HAR Dataset\train\subject_train.txt"
filename_xtrain = r"C:\Users\Bill_\Desktop\Projetos\EBAC\DataScience\Modulo 27 - PCA\UCI HAR Dataset\train\X_train.txt"
filename_ytrain = r"C:\Users\Bill_\Desktop\Projetos\EBAC\DataScience\Modulo 27 - PCA\UCI HAR Dataset\train\y_train.txt"

filename_subtest = r"C:\Users\Bill_\Desktop\Projetos\EBAC\DataScience\Modulo 27 - PCA\UCI HAR Dataset\test\subject_test.txt"
ffilename_xtest = r"C:\Users\Bill_\Desktop\Projetos\EBAC\DataScience\Modulo 27 - PCA\UCI HAR Dataset\test\X_test.txt"
filename_ytest = r"C:\Users\Bill_\Desktop\Projetos\EBAC\DataScience\Modulo 27 - PCA\UCI HAR Dataset\test\y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], squeeze=True, sep="#")
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'], squeeze=True)
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'], squeeze=True)
X_test = pd.read_csv(ffilename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])



  features = pd.read_csv(filename_features, header=None, names=['nome_var'], squeeze=True, sep="#")


  subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'], squeeze=True)


  subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'], squeeze=True)


## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [3]:
%%time
clf = DecisionTreeClassifier(random_state=1, ccp_alpha = 0.001).fit(X_train, y_train)
clf.fit(X_train, y_train)

# Fazendo predição dos dados
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)

# Medindo a acurácia
accuracy_train = accuracy_score(y_train, y_pred_train)
accuracy_test = accuracy_score(y_test, y_pred_test)

print(f"Acurácia usando os dados de treino: {accuracy_train}")
print(f"Acurácia usando os dados de teste (não vistos): {accuracy_test}")

Acurácia usando os dados de treino: 0.9757889009793254
Acurácia usando os dados de teste (não vistos): 0.8802171700033933
CPU times: total: 20.5 s
Wall time: 20.6 s


#### As acurácias de treino e teste ficaram bastantes distântes não usando nenhuma outra técnica fora o fator de complexidade aplicado pelo ccp_alpha em 0.001.

## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [4]:
%%time
# 'Treinando' para capitar o principal componente(feature, coluna) passado por n_components
pc_1 = PCA(n_components=1).fit(X_train)

# Usando o componante principal captado na etapa de treino para classificar os dados
X_train_pca1 = pc_1.transform(X_train)
X_test_pca1 = pc_1.transform(X_test)

# Criando um modelo de classificação árvore usando o conjunto de dados explicados por 1 feature
clf_pca = DecisionTreeClassifier(random_state=1)
clf_pca.fit(X_train_pca1, y_train)

# Fazendo as predições com a feature mais esplicativa
y_pred_train_pca1 = clf_pca.predict(X_train_pca1)
y_pred_test_pca1 = clf_pca.predict(X_test_pca1)

# Medindo a acurácia após obter as predições usando apenas 1 feature(a que mais trás informações)
accuracy_train_pca1 = accuracy_score(y_train, y_pred_train_pca1)
accuracy_test_pca1 = accuracy_score(y_test, y_pred_test_pca1)

print("Resultados obtidos usando apenas a feature de maior importância captado pelo PCA:")
print(f"Acurácia usando os dados de treino: {accuracy_train_pca1}")
print(f"Acurácia usando os dados de teste (não vistos): {accuracy_test_pca1}")

Resultados obtidos usando apenas a feature de maior importância captado pelo PCA:
Acurácia usando os dados de treino: 1.0
Acurácia usando os dados de teste (não vistos): 0.41024770953512046
CPU times: total: 1.41 s
Wall time: 297 ms


#### O resultado foi péssimo, os dados de treino foram 100% enquanto os dados de teste só acertaram 41,10% dos casos, sendo um modelo com overfit muito presente e sendo necessário o uso de mais features.

## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [24]:
%%time

# Criando uma lista para iterar os componentes
components = [1, 2, 5, 10, 50]
acuracia_components = {}

for n in components:
    # 'Treinando' para capitar os principais componentes(feature, coluna) passado pela lista components
    pc_n = PCA(n_components=n).fit(X_train)

    # Usando o componante da lista captado na etapa de treino para classificar os dados
    X_train_pca_n = pc_n.transform(X_train)
    X_test_pca_n = pc_n.transform(X_test)

    # Criando um modelo de classificação árvore usando o conjunto de dados explicados por N feature(s)
    clf_pca = RandomForestClassifier(random_state=1)
    clf_pca.fit(X_train_pca_n, y_train)

    y_pred_train_pca_n = clf_pca.predict(X_train_pca_n)
    y_pred_test_pca_n = clf_pca.predict(X_test_pca_n)

    accuracy_train_pca_n = accuracy_score(y_train, y_pred_train_pca_n)
    accuracy_test_pca_n = accuracy_score(y_test, y_pred_test_pca_n)

    acuracia_components[n] = {f'acurácia treino: {accuracy_train_pca_n}', 
                             f'acurácia teste: {accuracy_test_pca_n}'}


acuracia_components


  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)


CPU times: total: 35.6 s
Wall time: 27.7 s


{1: {'acurácia teste: 0.41024770953512046',
  'acurácia treino: 0.999455930359086'},
 2: {'acurácia teste: 0.5503902273498473',
  'acurácia treino: 0.9998639825897715'},
 5: {'acurácia teste: 0.7960637936884968', 'acurácia treino: 1.0'},
 10: {'acurácia teste: 0.8578215134034611', 'acurácia treino: 1.0'},
 50: {'acurácia teste: 0.8992195453003053', 'acurácia treino: 1.0'}}

## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

#### Como continuei obtendo um treino de 100%, resolvi aplicar um RandomForest para que o modelo ficasse um pouco mais robusto, de acordo com o dicionário mostrado, mesmo com 1 feature a base de treino ainda chega em 99% de precisão e a diferença para a base de teste diminui conforme foi aumentando o número de features. Seria assim necessário outros métodos como cross validation e um grid search nas árvores para ajustar os melhores parâmetros para obter um resultado melhor.

#### Já o tempo naturalmente aumenta conforme o número de iterações também aumentam e conforme mais verificações são feitas o aumento do tempo de processamento pode ser exponencial.