![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [9]:
import pandas as pd
import time

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

filename_features = 'https://raw.githubusercontent.com/RodzMoraes/curso-ebac/main/M%C3%B3dulo%2027/Dados/UCI%20HAR%20Dataset/features.txt'
filename_labels = 'https://raw.githubusercontent.com/RodzMoraes/curso-ebac/main/M%C3%B3dulo%2027/Dados/UCI%20HAR%20Dataset/activity_labels.txt'

filename_subtrain = 'https://raw.githubusercontent.com/RodzMoraes/curso-ebac/main/M%C3%B3dulo%2027/Dados/UCI%20HAR%20Dataset/train/subject_train.txt'
filename_xtrain = 'https://raw.githubusercontent.com/RodzMoraes/curso-ebac/main/M%C3%B3dulo%2027/Dados/UCI%20HAR%20Dataset/train/X_train.txt'
filename_ytrain = 'https://raw.githubusercontent.com/RodzMoraes/curso-ebac/main/M%C3%B3dulo%2027/Dados/UCI%20HAR%20Dataset/train/y_train.txt'

filename_subtest = 'https://raw.githubusercontent.com/RodzMoraes/curso-ebac/main/M%C3%B3dulo%2027/Dados/UCI%20HAR%20Dataset/test/subject_test.txt'
ffilename_xtest = 'https://raw.githubusercontent.com/RodzMoraes/curso-ebac/main/M%C3%B3dulo%2027/Dados/UCI%20HAR%20Dataset/test/X_test.txt'
filename_ytest = 'https://raw.githubusercontent.com/RodzMoraes/curso-ebac/main/M%C3%B3dulo%2027/Dados/UCI%20HAR%20Dataset/test/y_test.txt'

features = pd.read_csv(filename_features, header=None, names=['nome_var'], squeeze=True, sep="#")
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'], squeeze=True)
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'], squeeze=True)
X_test = pd.read_csv(ffilename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [13]:
%%time

# Exercício 1

tree = DecisionTreeClassifier(ccp_alpha=0.001)

start_time = time.time()
tree.fit(X_train, y_train)
training_time = time.time() - start_time

y_train_pred = tree.predict(X_train)

train_accuracy = accuracy_score(y_train, y_train_pred)

start_time = time.time()
y_test_pred = tree.predict(X_test)
prediction_time = time.time() - start_time

test_accuracy = accuracy_score(y_test, y_test_pred)

print("Acurácia nos dados de treinamento:", train_accuracy)
print("Acurácia nos dados de teste:", test_accuracy)
print("Tempo de processamento (treinamento):", training_time, "segundos")
print("Tempo de processamento (predição):", prediction_time, "segundos")

Acurácia nos dados de treinamento: 0.9757889009793254
Acurácia nos dados de teste: 0.8798778418730913
Tempo de processamento (treinamento): 4.001285076141357 segundos
Tempo de processamento (predição): 0.009507894515991211 segundos
CPU times: user 4.01 s, sys: 14.7 ms, total: 4.02 s
Wall time: 4.02 s


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [14]:
%%time

# Exercício 2

pca = PCA(n_components=1)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

tree = DecisionTreeClassifier()

start_time = time.time()
tree.fit(X_train_pca, y_train)
training_time = time.time() - start_time

y_train_pred = tree.predict(X_train_pca)

train_accuracy = accuracy_score(y_train, y_train_pred)

start_time = time.time()
y_test_pred = tree.predict(X_test_pca)
prediction_time = time.time() - start_time

test_accuracy = accuracy_score(y_test, y_test_pred)

print("Acurácia nos dados de treinamento:", train_accuracy)
print("Acurácia nos dados de teste:", test_accuracy)
print("Tempo de processamento (treinamento):", training_time, "segundos")
print("Tempo de processamento (predição):", prediction_time, "segundos")

Acurácia nos dados de treinamento: 1.0
Acurácia nos dados de teste: 0.41024770953512046
Tempo de processamento (treinamento): 0.018483877182006836 segundos
Tempo de processamento (predição): 0.001542806625366211 segundos
CPU times: user 345 ms, sys: 70.8 ms, total: 416 ms
Wall time: 135 ms


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [15]:
%%time

# Exercício 3

n_components_list = [1, 2, 5, 10, 50]

for n_components in n_components_list:
    print(f"Testing with n_components={n_components}")
    
    pca = PCA(n_components=n_components)
    X_train_pca = pca.fit_transform(X_train)
    X_test_pca = pca.transform(X_test)

    tree = DecisionTreeClassifier()

    start_time = time.time()
    tree.fit(X_train_pca, y_train)
    training_time = time.time() - start_time

    y_train_pred = tree.predict(X_train_pca)

    train_accuracy = accuracy_score(y_train, y_train_pred)

    start_time = time.time()
    y_test_pred = tree.predict(X_test_pca)
    prediction_time = time.time() - start_time

    test_accuracy = accuracy_score(y_test, y_test_pred)

    print("Acurácia nos dados de treinamento:", train_accuracy)
    print("Acurácia nos dados de teste:", test_accuracy)
    print("Tempo de processamento (treinamento):", training_time, "segundos")
    print("Tempo de processamento (predição):", prediction_time, "segundos")
    print()

Testing with n_components=1
Acurácia nos dados de treinamento: 1.0
Acurácia nos dados de teste: 0.41024770953512046
Tempo de processamento (treinamento): 0.022769927978515625 segundos
Tempo de processamento (predição): 0.000789642333984375 segundos

Testing with n_components=2
Acurácia nos dados de treinamento: 1.0
Acurácia nos dados de teste: 0.5201900237529691
Tempo de processamento (treinamento): 0.03681683540344238 segundos
Tempo de processamento (predição): 0.0005829334259033203 segundos

Testing with n_components=5
Acurácia nos dados de treinamento: 1.0
Acurácia nos dados de teste: 0.7475398710553105
Tempo de processamento (treinamento): 0.0437321662902832 segundos
Tempo de processamento (predição): 0.0004029273986816406 segundos

Testing with n_components=10
Acurácia nos dados de treinamento: 1.0
Acurácia nos dados de teste: 0.7926705123854768
Tempo de processamento (treinamento): 0.08780598640441895 segundos
Tempo de processamento (predição): 0.00040411949157714844 segundos

Te

## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

### Acurácia
- No Exercício 1, onde utilizamos todas as variáveis originais, obtivemos uma alta acurácia tanto nos dados de treinamento (97.6%) quanto nos dados de teste (87.9%).
- No Exercício 2, ao utilizar apenas uma componente principal, a acurácia nos dados de treinamento foi de 100%, indicando um possível overfitting. No entanto, a acurácia nos dados de teste foi baixa (41.0%), sugerindo uma baixa capacidade de generalização do modelo.
- No Exercício 3, onde testamos diferentes quantidades de componentes principais, a acurácia nos dados de treinamento foi sempre de 100%. A acurácia nos dados de teste aumentou à medida que o número de componentes principais aumentou, indicando que o modelo foi capaz de capturar mais informações relevantes dos dados. No entanto, mesmo com um aumento na acurácia, ela ainda ficou abaixo da acurácia obtida no exercício 1, indicando uma perda de informação ao reduzir a dimensionalidade dos dados.

### Tempo de processamento
- O tempo de processamento nos Exercícios 1 e 2 foi relativamente rápido, em torno de alguns segundos. Isso ocorre porque não houve a necessidade de fazer a transformação dos dados através do PCA.
- No Exercício 3, onde aplicamos o PCA com diferentes quantidades de componentes principais, o tempo de processamento aumentou à medida que o número de componentes aumentou. Isso ocorre porque a transformação dos dados usando o PCA requer cálculos adicionais para encontrar as componentes principais. No entanto, mesmo com um aumento no tempo de processamento, ele ainda permaneceu em uma faixa aceitável para o conjunto de dados utilizado.

Vimos que a redução de dimensionalidade através do PCA pode levar a uma perda de informação e, consequentemente, a uma diminuição na acurácia do modelo. Além disso, é importante considerar o tempo de processamento necessário para realizar a transformação dos dados utilizando o PCA, pois esse tempo pode aumentar à medida que o número de componentes principais aumenta.

### Conclusões
- O uso de todas as variáveis originais (Exercício 1) resultou em uma boa acurácia tanto nos dados de treinamento quanto nos dados de teste.
- Ao reduzir as variáveis para apenas uma componente principal (Exercício 2), a acurácia nos dados de teste diminuiu consideravelmente, indicando que uma única componente não é suficiente para explicar adequadamente a variação nos dados.
- Ao aumentar o número de componentes principais (Exercício 3), houve um aumento gradual na acurácia nos dados de teste. No entanto, é importante notar que, a partir de um certo número de componentes (por exemplo, a partir de 10), o ganho em acurácia se torna marginal.
- O tempo de processamento aumentou à medida que o número de componentes principais aumentou, devido ao cálculo adicional necessário para transformar os dados usando o PCA.
- Portanto verifica-se há um trade-off entre acurácia e tempo de processamento ao ajustar a quantidade de componentes principais. É necessário encontrar um equilíbrio adequado, considerando a importância da acurácia e a disponibilidade de recursos computacionais.