# Atividade 01

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [1]:
# Importar bibliotecas necessárias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from prettytable import PrettyTable
from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.model_selection import cross_val_score, GridSearchCV

# Definir os caminhos dos arquivos de dados
caminho_features = "./data/UCI HAR Dataset/features.txt"
caminho_labels = "./data/UCI HAR Dataset/activity_labels.txt"
caminho_subtrain = "./data/UCI HAR Dataset/train/subject_train.txt"
caminho_xtrain = "./data/UCI HAR Dataset/train/X_train.txt"
caminho_ytrain = "./data/UCI HAR Dataset/train/y_train.txt"
caminho_subtest = "./data/UCI HAR Dataset/test/subject_test.txt"
caminho_xtest = "./data/UCI HAR Dataset/test/X_test.txt"
caminho_ytest = "./data/UCI HAR Dataset/test/y_test.txt"

# Ler as características e rótulos
caracteristicas = pd.read_csv(caminho_features, header=None, names=['nome_var'], sep=r'\s+')
rotulos = pd.read_csv(caminho_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

# Ler os dados de treinamento
sujeito_treino = pd.read_csv(caminho_subtrain, header=None, names=['subject_id'])
colunas_x_treino = [f"feature_{i}" for i in range(1, len(caracteristicas) + 1)]
X_treino = pd.read_csv(caminho_xtrain, delim_whitespace=True, header=None, names=colunas_x_treino)
y_treino = pd.read_csv(caminho_ytrain, header=None, names=['cod_label'])

# Ler os dados de teste
sujeito_teste = pd.read_csv(caminho_subtest, header=None, names=['subject_id'])
colunas_x_teste = [f"feature_{i}" for i in range(1, len(caracteristicas) + 1)]
X_teste = pd.read_csv(caminho_xtest, delim_whitespace=True, header=None, names=colunas_x_teste)
y_teste = pd.read_csv(caminho_ytest, header=None, names=['cod_label'])

## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [2]:
%%time
# Criar e treinar a árvore de decisão com ccp_alpha=0.001
clf = DecisionTreeClassifier(ccp_alpha=0.001, random_state=42)
clf.fit(X_treino, y_treino.values.ravel())

# Avaliar a acurácia nos conjuntos de treinamento e teste
acc_treino = accuracy_score(y_treino, clf.predict(X_treino))
acc_teste = accuracy_score(y_teste, clf.predict(X_teste))

# Criar uma tabela com os resultados
tabela = PrettyTable(["Métrica", "Valor"])
tabela.add_row(["Acurácia no treinamento", f"{acc_treino:.4f}"])
tabela.add_row(["Acurácia no teste", f"{acc_teste:.4f}"])
print(tabela)

+-------------------------+--------+
|         Métrica         | Valor  |
+-------------------------+--------+
| Acurácia no treinamento | 0.9758 |
|    Acurácia no teste    | 0.8799 |
+-------------------------+--------+
CPU times: total: 2.94 s
Wall time: 4.68 s


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [3]:
%%time
# Realizar a Análise de Componentes Principais (PCA)
pca = PCA(n_components=1)
X_train_pca = pca.fit_transform(X_treino)
X_test_pca = pca.transform(X_teste)

# Criar e treinar a árvore de decisão com a única componente principal
clf_pca = DecisionTreeClassifier(ccp_alpha=0.001, random_state=42)
clf_pca.fit(X_train_pca, y_treino.values.ravel())

# Avaliar a acurácia nos conjuntos de treinamento e teste (PCA)
acc_treino_pca = accuracy_score(y_treino, clf_pca.predict(X_train_pca))
acc_teste_pca = accuracy_score(y_teste, clf_pca.predict(X_test_pca))

# Criar uma tabela com os resultados (PCA)
tabela_pca = PrettyTable(["Métrica", "Valor"])
tabela_pca.add_row(["Acurácia no treinamento (PCA)", f"{acc_treino_pca:.4f}"])
tabela_pca.add_row(["Acurácia no teste (PCA)", f"{acc_teste_pca:.4f}"])
print(tabela_pca)

+-------------------------------+--------+
|            Métrica            | Valor  |
+-------------------------------+--------+
| Acurácia no treinamento (PCA) | 0.4997 |
|    Acurácia no teste (PCA)    | 0.4571 |
+-------------------------------+--------+
CPU times: total: 172 ms
Wall time: 228 ms


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [4]:
%%time
# Definir a lista de componentes a serem testados
componentes = [1, 2, 5, 10, 50]

# Criar tabela geral para armazenar os resultados
tabela_geral = PrettyTable(["# Componentes", "Acurácia no Treinamento", "Acurácia no Teste"])

# Para cada número de componentes
for n_comp in componentes:
    print(f"\nUtilizando {n_comp} componente(s) principal(is):")
    
    # Realizar a Análise de Componentes Principais (PCA)
    pca = PCA(n_components=n_comp)
    X_train_pca = pca.fit_transform(X_treino)
    X_test_pca = pca.transform(X_teste)
    
    # Criar um dicionário de parâmetros para GridSearchCV
    param_grid = {
        'max_depth': [3, 5, 7, None],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4]
    }
    
    # Criar o GridSearchCV
    grid_search = GridSearchCV(estimator=DecisionTreeClassifier(ccp_alpha=0.001, random_state=42),
                               param_grid=param_grid,
                               scoring='accuracy',
                               cv=5,
                               n_jobs=-1)
    
    # Ajustar o GridSearchCV
    grid_search.fit(X_train_pca, y_treino.values.ravel())
    
    # Avaliar a acurácia nos conjuntos de treinamento e teste com os melhores parâmetros
    clf_pca = grid_search.best_estimator_
    acc_treino_pca = accuracy_score(y_treino, clf_pca.predict(X_train_pca))
    acc_teste_pca = accuracy_score(y_teste, clf_pca.predict(X_test_pca))
    
    # Adicionar resultados à tabela geral
    tabela_geral.add_row([n_comp, f"{acc_treino_pca:.4f}", f"{acc_teste_pca:.4f}"])

print(tabela_geral)


Utilizando 1 componente(s) principal(is):

Utilizando 2 componente(s) principal(is):

Utilizando 5 componente(s) principal(is):

Utilizando 10 componente(s) principal(is):

Utilizando 50 componente(s) principal(is):
+---------------+-------------------------+-------------------+
| # Componentes | Acurácia no Treinamento | Acurácia no Teste |
+---------------+-------------------------+-------------------+
|       1       |          0.4954         |       0.4693      |
|       2       |          0.6128         |       0.5847      |
|       5       |          0.8460         |       0.7889      |
|       10      |          0.8924         |       0.8242      |
|       50      |          0.8996         |       0.8140      |
+---------------+-------------------------+-------------------+
CPU times: total: 2.89 s
Wall time: 19.6 s


## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

---------------------------------------------------------------

A árvore de decisão, sem a aplicação do PCA, apresentou uma acurácia superior, porém exigiu um tempo de processamento maior;

O aumento no número de componentes principais melhorou consideravelmente a acurácia do modelo de Árvore de Decisão, tanto no conjunto de treinamento quanto no conjunto de teste;

À medida que mais componentes são adicionados, o tempo de processamento tende a aumentar, pois o modelo precisa lidar com um maior número de variáveis;

Existe um trade-off entre acurácia e velocidade de processamento.

# Atividade 02

## Classificação de Atividade Humana com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

## PCA com variáveis padronizadas

Reflexão sobre a escala das variáveis:

**Variáveis em métricas muito diferentes** podem interferir na análise de componentes principais. Lembra que variância é informação pra nós? Pois bem, tipicamente se há uma variável monetária como salário, vai ter uma ordem de variabilidade bem maior que número de filhos, tempo de emprego ou qualquer variável dummy. Assim, as variáveis de maior variância tendem a "dominar" a análise. Nesses casos é comum usar a padronização das variáveis.

Faça duas análises de componentes principais para a base do HAR - com e sem padronização e compare:

- A variância explicada por componente
- A variância explicada acumulada por componente
- A variância percentual por componente
- A variância percentual acumulada por componente
- Quantas componentes você escolheria, em cada caso para explicar 90% da variância?

In [5]:
%%time
# Definindo a função
def padroniza(s):
    if s.std() > 0:
        s = (s - s.mean())/s.std()
    return s

# Padronizar os dados de treinamento
X_train_pad = X_treino.apply(padroniza, axis=1)
X_train_pad.head()

# Realizar a Análise de Componentes Principais (PCA) sem padronização
pca = PCA()
X_train_pca = pca.fit_transform(X_treino)

# Criar tabela para variância explicada sem padronização
tabela_sem_pad = PrettyTable()
tabela_sem_pad.field_names = ["Componente", "Variância Explicada", "Variância Explicada Acumulada", "Variância Percentual", "Variância Percentual Acumulada"]
for i in range(len(pca.explained_variance_ratio_)):
    tabela_sem_pad.add_row([i+1, pca.explained_variance_[i], pca.explained_variance_ratio_.cumsum()[i], pca.explained_variance_ratio_[i] * 100, (pca.explained_variance_ratio_.cumsum()[i]) * 100])

print("Análise de Componentes Principais (Sem Padronização):\n")
print(tabela_sem_pad)

# Quantidade de componentes para explicar 90% da variância (Sem Padronização)
variancia_acumulada = pca.explained_variance_ratio_.cumsum()
n_componentes_90 = np.argmax(variancia_acumulada >= 0.9) + 1
print(f"\nQuantidade de componentes para explicar 90% da variância (Sem Padronização): {n_componentes_90}")

# Realizar a Análise de Componentes Principais (PCA) com padronização
pca_pad = PCA()
X_train_pca_pad = pca_pad.fit_transform(X_train_pad)

# Criar tabela para variância explicada com padronização
tabela_com_pad = PrettyTable()
tabela_com_pad.field_names = ["Componente", "Variância Explicada", "Variância Explicada Acumulada", "Variância Percentual", "Variância Percentual Acumulada"]
for i in range(len(pca_pad.explained_variance_ratio_)):
    tabela_com_pad.add_row([i+1, pca_pad.explained_variance_[i], pca_pad.explained_variance_ratio_.cumsum()[i], pca_pad.explained_variance_ratio_[i] * 100, (pca_pad.explained_variance_ratio_.cumsum()[i]) * 100])

print("\nAnálise de Componentes Principais (Com Padronização):\n")
print(tabela_com_pad)

# Quantidade de componentes para explicar 90% da variância (Com Padronização)
variancia_acumulada_pad = pca_pad.explained_variance_ratio_.cumsum()
n_componentes_90_pad = np.argmax(variancia_acumulada_pad >= 0.9) + 1
print(f"\nQuantidade de componentes para explicar 90% da variância (Com Padronização): {n_componentes_90_pad}")

Análise de Componentes Principais (Sem Padronização):

+------------+------------------------+-------------------------------+------------------------+--------------------------------+
| Componente |  Variância Explicada   | Variância Explicada Acumulada |  Variância Percentual  | Variância Percentual Acumulada |
+------------+------------------------+-------------------------------+------------------------+--------------------------------+
|     1      |   34.82363040636598    |       0.6255443998293541      |   62.554439982935406   |       62.554439982935406       |
|     2      |   2.735046265200904    |       0.6746746270487957      |   4.913022721944159    |       67.46746270487957        |
|     3      |   2.294392841716929    |       0.7158893015786003      |   4.121467452980464    |       71.58893015786003        |
|     4      |   1.043775294668482    |       0.7346388628001306      |   1.874956122153029    |       73.46388628001306        |
|     5      |    0.94351700278306 

## Árvore com PCA

Faça duas uma árvore de decisão com 10 componentes principais - uma com base em dados padronizados e outra sem padronizar. Utilize o ```ccp_alpha=0.001```.

Compare a acurácia na base de treino e teste.

In [6]:
%%time
# Árvore de Decisão com 10 componentes principais (sem padronização)
pca = PCA(n_components=10)
X_train_pca = pca.fit_transform(X_treino)
X_test_pca = pca.transform(X_teste)

clf_pca = DecisionTreeClassifier(ccp_alpha=0.001, random_state=42)
clf_pca.fit(X_train_pca, y_treino.values.ravel())

acc_treino_pca = accuracy_score(y_treino, clf_pca.predict(X_train_pca))
acc_teste_pca = accuracy_score(y_teste, clf_pca.predict(X_test_pca))

# Árvore de Decisão com 10 componentes principais (com padronização)
pca_pad = PCA(n_components=10)
X_train_pca_pad = pca_pad.fit_transform(X_train_pad)
X_test_pca_pad = pca_pad.transform(X_teste)

clf_pca_pad = DecisionTreeClassifier(ccp_alpha=0.001, random_state=42)
clf_pca_pad.fit(X_train_pca_pad, y_treino.values.ravel())

acc_treino_pca_pad = accuracy_score(y_treino, clf_pca_pad.predict(X_train_pca_pad))
acc_teste_pca_pad = accuracy_score(y_teste, clf_pca_pad.predict(X_test_pca_pad))

# Criar a tabela para exibir os resultados
table = PrettyTable()
table.field_names = ["Configuração", "Acurácia no Treinamento", "Acurácia no Teste"]
table.add_row(["PCA - Sem Padronização", f"{acc_treino_pca:.4f}", f"{acc_teste_pca:.4f}"])
table.add_row(["PCA - Com Padronização", f"{acc_treino_pca_pad:.4f}", f"{acc_teste_pca_pad:.4f}"])

print("Resultados de acurácia:")
print(table)

Resultados de acurácia:
+------------------------+-------------------------+-------------------+
|      Configuração      | Acurácia no Treinamento | Acurácia no Teste |
+------------------------+-------------------------+-------------------+
| PCA - Sem Padronização |          0.8924         |       0.8239      |
| PCA - Com Padronização |          0.8928         |       0.4757      |
+------------------------+-------------------------+-------------------+
CPU times: total: 484 ms
Wall time: 512 ms


- A acurácia do modelo com padronização parece ter overfitado o que prejudicou o score na fase de testes.