![Cabec%CC%A7alho_notebook.png](cabecalho_notebook.png)

# Classificação de Atividade Humana com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

In [13]:
import pandas as pd
import numpy as np

from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

filename_features = "./Dados/UCI HAR Dataset/features.txt"
filename_labels = "./Dados/UCI HAR Dataset/activity_labels.txt"

filename_subtrain = "./Dados/UCI HAR Dataset/train/subject_train.txt"
filename_xtrain = "./Dados/UCI HAR Dataset/train/X_train.txt"
filename_ytrain = "./Dados/UCI HAR Dataset/train/y_train.txt"

filename_subtest = "./Dados/UCI HAR Dataset/test/subject_test.txt"
ffilename_xtest = "./Dados/UCI HAR Dataset/test/X_test.txt"
filename_ytest = "./Dados/UCI HAR Dataset/test/y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#")
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features['nome_var'].tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])
X_test = pd.read_csv(ffilename_xtest, delim_whitespace=True, header=None, names=features['nome_var'].tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])

## PCA com variáveis padronizadas

Reflexão sobre a escala das variáveis:

**Variáveis em métricas muito diferentes** podem interferir na análise de componentes principais. Lembra que variância é informação pra nós? Pois bem, tipicamente se há uma variável monetária como salário, vai ter uma ordem de variabilidade bem maior que número de filhos, tempo de emprego ou qualquer variável dummy. Assim, as variáveis de maior variância tendem a "dominar" a análise. Nesses casos é comum usar a padronização das variáveis.

Faça duas análises de componentes principais para a base do HAR - com e sem padronização e compare:

- A variância explicada por componente
- A variância explicada acumulada por componente
- A variância percentual por componente
- A variância percentual acumulada por componente
- Quantas componentes você escolheria, em cada caso para explicar 90% da variância?

In [14]:
%%time

def padroniza(s):
    if s.std() > 0:
        s = (s - s.mean())/s.std()
    return s

X_train_pad = pd.DataFrame(X_train).apply(padroniza, axis=0)

# Realizando a Análise de Componentes Principais (PCA) sem padronização
pca = PCA()
pca.fit(X_train)
variance_explained = pca.explained_variance_
cumulative_variance = np.cumsum(variance_explained)
explained_ratio = pca.explained_variance_ratio_
cumulative_explained_ratio = np.cumsum(explained_ratio)

print("Análise de Componentes Principais sem padronização:")
print("Variância explicada por componente:", variance_explained)
print("Variância explicada acumulada por componente:", cumulative_variance)
print("Variância percentual por componente:", explained_ratio)
print("Variância percentual acumulada por componente:", cumulative_explained_ratio)

# Realizando a Análise de Componentes Principais (PCA) com padronização
scaler = StandardScaler()
X_train_standardized = scaler.fit_transform(X_train)
pca.fit(X_train_standardized)
variance_explained_std = pca.explained_variance_
cumulative_variance_std = np.cumsum(variance_explained_std)
explained_ratio_std = pca.explained_variance_ratio_
cumulative_explained_ratio_std = np.cumsum(explained_ratio_std)

print("\nAnálise de Componentes Principais com padronização:")
print("Variância explicada por componente:", variance_explained_std)
print("Variância explicada acumulada por componente:", cumulative_variance_std)
print("Variância percentual por componente:", explained_ratio_std)
print("Variância percentual acumulada por componente:", cumulative_explained_ratio_std)

Análise de Componentes Principais sem padronização:
Variância explicada por componente: [3.48236304e+01 2.73504627e+00 2.29439284e+00 1.04377529e+00
 9.43517003e-01 7.08152304e-01 6.55052596e-01 5.95090075e-01
 5.39647116e-01 4.77652868e-01 4.24368278e-01 3.74345916e-01
 3.22558940e-01 3.10568349e-01 2.77748554e-01 2.64394540e-01
 2.60087117e-01 2.40278721e-01 2.36992739e-01 2.28464121e-01
 2.19338452e-01 2.08932138e-01 1.96193981e-01 1.88919079e-01
 1.84899516e-01 1.77823828e-01 1.67998396e-01 1.62433371e-01
 1.61201621e-01 1.56947282e-01 1.54039313e-01 1.46630230e-01
 1.42127492e-01 1.31304929e-01 1.28402565e-01 1.24503411e-01
 1.24113706e-01 1.17059207e-01 1.16010916e-01 1.13996152e-01
 1.07361875e-01 1.05147999e-01 1.00861815e-01 9.99112269e-02
 9.59336404e-02 8.91833277e-02 8.74228172e-02 8.71933877e-02
 8.51572724e-02 8.36995318e-02 8.07860435e-02 7.82934140e-02
 7.61695834e-02 7.06209292e-02 6.95900524e-02 6.66596559e-02
 6.57564914e-02 6.40168729e-02 6.29522517e-02 6.10522916e-


Análise de Componentes Principais com padronização:
Variância explicada por componente: [2.84921131e+02 3.69226384e+01 1.57462521e+01 1.40490858e+01
 1.05947200e+01 9.67299169e+00 7.69242064e+00 6.72774087e+00
 5.58753186e+00 5.41487229e+00 4.82554611e+00 4.49018687e+00
 4.28660268e+00 3.62078775e+00 3.54782215e+00 3.36489861e+00
 3.29211698e+00 3.22847460e+00 3.18647049e+00 2.95853173e+00
 2.80741787e+00 2.74034389e+00 2.68309940e+00 2.62899563e+00
 2.52085563e+00 2.36228414e+00 2.34517939e+00 2.27555929e+00
 2.17991709e+00 2.17146658e+00 2.05330859e+00 1.98931505e+00
 1.95222356e+00 1.89187701e+00 1.84973956e+00 1.84153691e+00
 1.79841499e+00 1.65862541e+00 1.60873157e+00 1.59948577e+00
 1.50798419e+00 1.49033012e+00 1.47790862e+00 1.45234939e+00
 1.39738790e+00 1.38560059e+00 1.35039799e+00 1.32478577e+00
 1.29204013e+00 1.27682592e+00 1.23529198e+00 1.19771269e+00
 1.16538051e+00 1.13616058e+00 1.12091513e+00 1.10953192e+00
 1.09002331e+00 1.06737565e+00 1.05518756e+00 1.04481370e

## Árvore com PCA

Faça duas uma árvore de decisão com 10 componentes principais - uma com base em dados padronizados e outra sem padronizar. Utilize o ```ccp_alpha=0.001```.

Compare a acurácia na base de treino e teste.

In [15]:
%%time

# Realizando a Análise de Componentes Principais (PCA) com 10 componentes
n_components = 10
pca = PCA(n_components=n_components)

# Ajustando e transformando os dados de treinamento e teste com PCA
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

# Criando o modelo de Árvore de Decisão sem padronização
tree_model = DecisionTreeClassifier(ccp_alpha=0.001, random_state=42)
tree_model.fit(X_train_pca, y_train['cod_label'])

# Avaliando a acurácia nos dados de treinamento e teste sem padronização
train_accuracy = tree_model.score(X_train_pca, y_train['cod_label'])
test_accuracy = tree_model.score(X_test_pca, y_test['cod_label'])

print("Acurácia nos dados de treinamento (sem padronização):", round(train_accuracy, 2))
print("Acurácia nos dados de teste (sem padronização):", round(test_accuracy, 2))
print()

# Padronizando os dados de treinamento e teste
X_train_pca_std = (X_train_pca - X_train_pca.mean()) / X_train_pca.std()
X_test_pca_std = (X_test_pca - X_test_pca.mean()) / X_test_pca.std()

# Criando o modelo de Árvore de Decisão com padronização
tree_model_std = DecisionTreeClassifier(ccp_alpha=0.001, random_state=42)
tree_model_std.fit(X_train_pca_std, y_train['cod_label'])

# Avaliando a acurácia nos dados de treinamento e teste com padronização
train_accuracy_std = tree_model_std.score(X_train_pca_std, y_train['cod_label'])
test_accuracy_std = tree_model_std.score(X_test_pca_std, y_test['cod_label'])

print("Acurácia nos dados de treinamento (com padronização):", round(train_accuracy_std, 2))
print("Acurácia nos dados de teste (com padronização):", round(test_accuracy_std, 2))
print("-" * 60)

Acurácia nos dados de treinamento (sem padronização): 0.89
Acurácia nos dados de teste (sem padronização): 0.82

Acurácia nos dados de treinamento (com padronização): 0.89
Acurácia nos dados de teste (com padronização): 0.82
------------------------------------------------------------
CPU times: total: 969 ms
Wall time: 860 ms


> * A padronização não teve um grande impacto na acurácia deste modelo, os resultados obtidos foram consistentes entre os dois casos, sendo as acurácias iguais, 0,89 para treinamento e 0,82 para teste. No entanto é importante evidenciar que a padronização pode ter um impacto significativo a depender do conjunto de dados e do algoritmo utilizado. 