## PCA e Classifica√ß√£o com √Årvore de Decis√£o: Otimiza√ß√£o da Dimensionalidade

## Introdu√ß√£o
Nesta an√°lise, exploramos a aplica√ß√£o da An√°lise de Componentes Principais (PCA) para reduzir a dimensionalidade do conjunto de dados HAR (Human Activity Recognition) e avaliamos seu impacto no desempenho de um classificador baseado em √°rvore de decis√£o.

Os principais objetivos s√£o:
- Avaliar a acur√°cia do modelo sem redu√ß√£o de dimensionalidade.
- Aplicar o PCA e testar a influ√™ncia da varia√ß√£o no n√∫mero de componentes principais.
- Comparar o desempenho computacional e a acur√°cia nas bases de treino e teste.

In [1]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

In [4]:
filename_features = "features.txt"
filename_labels = "activity_labels.txt"

filename_subtrain = "subject_train.txt"
filename_xtrain = "X_train.txt"
filename_ytrain = "y_train.txt"

filename_subtest = "subject_test.txt"
ffilename_xtest = "X_test.txt"
filename_ytest = "y_test.txt"

features = pd.read_csv(filename_features, header=None, names=['nome_var'], squeeze=True, sep="#")
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'], squeeze=True)
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'], squeeze=True)
X_test = pd.read_csv(ffilename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])



  features = pd.read_csv(filename_features, header=None, names=['nome_var'], squeeze=True, sep="#")


  subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'], squeeze=True)


  subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'], squeeze=True)


## Constru√ß√£o da √Årvore de Decis√£o sem Redu√ß√£o de Dimensionalidade
Inicialmente, treinamos uma √°rvore de decis√£o utilizando todas as 561 vari√°veis dispon√≠veis no dataset, sem nenhuma t√©cnica de redu√ß√£o de dimensionalidade.

üîπ **Hiperpar√¢metro utilizado:**

`ccp_alpha = 0.001`: Aplica√ß√£o de poda para evitar overfitting.

**Resultados Obtidos:**

- Acur√°cia na base de treino: $88%$
- Acur√°cia na base de teste: $87%$
- Tempo de processamento: $\sim3.19$ segundos

Esse desempenho reflete a capacidade do modelo de aprender padr√µes complexos nos dados, mas tamb√©m sugere que a alta dimensionalidade pode estar influenciando a generaliza√ß√£o.

In [6]:
%%time
# Medindo o tempo de processamento
# A partir deste ponto, ser√° cronometrado o tempo necess√°rio para executar o c√≥digo abaixo.

# Cria√ß√£o do classificador de √°rvore de decis√£o com ccp_alpha=0.001
clf = DecisionTreeClassifier(ccp_alpha=0.001)

# Treinamento do classificador utilizando os dados de treinamento
clf.fit(X_train, y_train)

# Avalia√ß√£o da acur√°cia do classificador nos dados de treinamento
print(f'Acur√°cia na base de treinamento: {clf.score(X_train, y_train)}')
# Avalia√ß√£o da acur√°cia do classificador nos dados de teste
print(f'Acur√°cia na base de teste: {clf.score(X_test, y_test)}\n')

Acur√°cia na base de treinamento: 0.9757889009793254
Acur√°cia na base de teste: 0.8812351543942993

CPU times: total: 2.55 s
Wall time: 3.19 s


## Aplica√ß√£o do PCA e Avalia√ß√£o da √Årvore de Decis√£o
O PCA foi aplicado ao conjunto de dados para reduzir a dimensionalidade, transformando as vari√°veis originais em componentes principais ortogonais. Para essa an√°lise inicial, utilizamos apenas uma componente principal, avaliando sua influ√™ncia na classifica√ß√£o.

#### Resultados com PCA ($k=1$ componente):

- Acur√°cia na base de treino: $49.97%$
- Acur√°cia na base de teste: $45.70%$
- Tempo de processamento: $\sim955$ ms

Observa√ß√£o: Com apenas uma componente principal, houve uma redu√ß√£o dr√°stica no tempo de processamento, mas a acur√°cia caiu significativamente. Isso sugere que uma √∫nica componente n√£o captura informa√ß√µes suficientes para a correta diferencia√ß√£o das atividades.

In [7]:
%%time

# Aplica o PCA com 1 componente aos dados de treinamento
prcomp = PCA(n_components=1).fit(X_train)

# Transforma os dados de treinamento e teste utilizando as componentes principais encontradas pelo PCA
pc_treino = prcomp.transform(X_train)
pc_teste  = prcomp.transform(X_test)

# Imprime a forma dos dados de treinamento e teste ap√≥s a transforma√ß√£o
print(f'Dimens√µes da base de treinamento: {pc_treino.shape}')
print(f'Dimens√µes da base de teste: {pc_teste.shape}')

# Inicializa um classificador de √°rvore de decis√£o com ccp_alpha=0.001 e treina-o com os dados de treinamento transformados
clf = DecisionTreeClassifier(ccp_alpha=0.001)
clf.fit(pc_treino, y_train)

# Calcula e imprime a acur√°cia do classificador nos dados de treinamento e teste
print(f'Acur√°cia na base de treinamento: {clf.score(pc_treino, y_train)}')
print(f'Acur√°cia na base de teste: {clf.score(pc_teste, y_test)}\n')

Dimens√µes da base de treinamento: (7352, 1)
Dimens√µes da base de teste: (2947, 1)
Acur√°cia na base de treinamento: 0.499727965179543
Acur√°cia na base de teste: 0.45707499151679676

CPU times: total: 312 ms
Wall time: 955 ms


## Teste com Diferentes N√∫meros de Componentes
Para entender o impacto do n√∫mero de componentes principais ($k$), testamos os seguintes valores:

$$ k \in {1, 2, 5, 10, 50} $$


In [8]:
%%time

componentes = [1, 2, 5, 10, 50]

# Loop sobre os diferentes n√∫meros de componentes
for n in componentes:
    # Executa o PCA com o n√∫mero de componentes atual
    prcomp = PCA(n_components=n).fit(X_train)

    # Transforma os dados de treinamento e teste nos componentes principais
    pc_treino = prcomp.transform(X_train)
    pc_teste  = prcomp.transform(X_test)

    # Imprime as dimens√µes dos dados transformados
    print(f'Dimens√µes da base de treinamento: {pc_treino.shape}')
    print(f'Dimens√µes da base de teste: {pc_teste.shape}')

    # Cria e treina um classificador de √°rvore de decis√£o
    clf = DecisionTreeClassifier(ccp_alpha=0.001)
    clf.fit(pc_treino, y_train)

    # Avalia a acur√°cia na base de treinamento e teste
    print(f'Acur√°cia na base de treinamento: {clf.score(pc_treino, y_train)}')
    print(f'Acur√°cia na base de teste: {clf.score(pc_teste, y_test)}\n')

Dimens√µes da base de treinamento: (7352, 1)
Dimens√µes da base de teste: (2947, 1)
Acur√°cia na base de treinamento: 0.499727965179543
Acur√°cia na base de teste: 0.45707499151679676

Dimens√µes da base de treinamento: (7352, 2)
Dimens√µes da base de teste: (2947, 2)
Acur√°cia na base de treinamento: 0.6127584330794341
Acur√°cia na base de teste: 0.5846623685103495

Dimens√µes da base de treinamento: (7352, 5)
Dimens√µes da base de teste: (2947, 5)
Acur√°cia na base de treinamento: 0.8460282916213275
Acur√°cia na base de teste: 0.7885985748218527

Dimens√µes da base de treinamento: (7352, 10)
Dimens√µes da base de teste: (2947, 10)
Acur√°cia na base de treinamento: 0.8926822633297062
Acur√°cia na base de teste: 0.8238887003732609

Dimens√µes da base de treinamento: (7352, 50)
Dimens√µes da base de teste: (2947, 50)
Acur√°cia na base de treinamento: 0.9171653971708379
Acur√°cia na base de teste: 0.823549372242959

CPU times: total: 3.98 s
Wall time: 1.93 s


Observa√ß√µes:
- O aumento do n√∫mero de componentes melhora progressivamente a acur√°cia, demonstrando que informa√ß√µes importantes estavam distribu√≠das entre m√∫ltiplas dimens√µes.
- Com 50 componentes principais, atingimos 82% de acur√°cia na base de teste, um desempenho pr√≥ximo ao modelo original, por√©m com redu√ß√£o do tempo de processamento pela metade.
- A curva de aprendizado do modelo sugere que o uso de um n√∫mero intermedi√°rio de componentes pode equilibrar efici√™ncia computacional e performance preditiva.

##  Conclus√£o
Principais aprendizados deste estudo:
- Redu√ß√£o de Dimensionalidade: O PCA permitiu reduzir drasticamente o tempo de processamento, tornando o modelo mais eficiente.
- Impacto na Acur√°cia: Com poucas componentes, houve grande perda de performance. No entanto, com 50 componentes, o modelo se aproximou do desempenho original.
- Equil√≠brio Ideal: Utilizar um n√∫mero adequado de componentes pode preservar a maior parte da informa√ß√£o relevante, reduzindo a complexidade sem perda excessiva de precis√£o.