<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo 27** | PCA
Caderno de **exercício 01**<br>




## Discente: Samuel Saturno

# PCA - Tarefa 01: *HAR* com PCA

Vamos trabalhar com a base da demonstração feita em aula, mas vamos explorar um pouco melhor como é o desempenho da árvore variando o número de componentes principais.

## Importando as Bibliotecas

In [6]:
import pandas as pd

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

## Carrregando o Banco de dados UCI HAR

In [8]:
# Caminhos dos arquivos
filename_features = "/content/features.txt"
filename_labels = "/content/activity_labels.txt"

filename_subtrain = "/content/subject_train.txt"
filename_xtrain = "/content/X_train.txt"
filename_ytrain = "/content/y_train.txt"

filename_subtest = "/content/subject_test.txt"
filename_xtest = "/content/X_test.txt"
filename_ytest = "/content/y_test.txt"

# Leitura dos arquivos
features = pd.read_csv(filename_features, header=None, names=['nome_var'], sep="#")['nome_var']
labels = pd.read_csv(filename_labels, delim_whitespace=True, header=None, names=['cod_label', 'label'])

subject_train = pd.read_csv(filename_subtrain, header=None, names=['subject_id'])['subject_id']
X_train = pd.read_csv(filename_xtrain, delim_whitespace=True, header=None, names=features.tolist())
y_train = pd.read_csv(filename_ytrain, header=None, names=['cod_label'])['cod_label']

subject_test = pd.read_csv(filename_subtest, header=None, names=['subject_id'])['subject_id']
X_test = pd.read_csv(filename_xtest, delim_whitespace=True, header=None, names=features.tolist())
y_test = pd.read_csv(filename_ytest, header=None, names=['cod_label'])['cod_label']


## Árvore de decisão

Rode uma árvore de decisão com todas as variáveis, utilizando o ```ccp_alpha=0.001```. Avalie a acurácia nas bases de treinamento e teste. Avalie o tempo de processamento.

In [9]:
%%time
# Medindo o tempo de processamento
# A partir deste ponto, será cronometrado o tempo necessário para executar o código abaixo.

# Criação do classificador de árvore de decisão com ccp_alpha=0.001
clf = DecisionTreeClassifier(ccp_alpha=0.001)

# Treinamento do classificador utilizando os dados de treinamento
clf.fit(X_train, y_train)

# Avaliação da acurácia do classificador nos dados de treinamento
print(f'Acurácia na base de treinamento: {clf.score(X_train, y_train)}')
# Avaliação da acurácia do classificador nos dados de teste
print(f'Acurácia na base de teste: {clf.score(X_test, y_test)}\n')



Acurácia na base de treinamento: 0.9757889009793254
Acurácia na base de teste: 0.8802171700033933

CPU times: user 6.45 s, sys: 0 ns, total: 6.45 s
Wall time: 8.14 s


## Árvore com PCA

Faça uma análise de componemtes principais das variáveis originais. Utilize apenas uma componente. Faça uma árvore de decisão com esta componente como variável explicativa.

- Avalie a acurácia nas bases de treinamento e teste
- Avalie o tempo de processamento

In [10]:
%%time

# Aplica o PCA com 1 componente aos dados de treinamento
prcomp = PCA(n_components=1).fit(X_train)

# Transforma os dados de treinamento e teste utilizando as componentes principais encontradas pelo PCA
pc_treino = prcomp.transform(X_train)
pc_teste  = prcomp.transform(X_test)

# Imprime a forma dos dados de treinamento e teste após a transformação
print(f'Dimensões da base de treinamento: {pc_treino.shape}')
print(f'Dimensões da base de teste: {pc_teste.shape}')

# Inicializa um classificador de árvore de decisão com ccp_alpha=0.001 e treina-o com os dados de treinamento transformados
clf = DecisionTreeClassifier(ccp_alpha=0.001)
clf.fit(pc_treino, y_train)

# Calcula e imprime a acurácia do classificador nos dados de treinamento e teste
print(f'Acurácia na base de treinamento: {clf.score(pc_treino, y_train)}')
print(f'Acurácia na base de teste: {clf.score(pc_teste, y_test)}\n')

Dimensões da base de treinamento: (7352, 1)
Dimensões da base de teste: (2947, 1)
Acurácia na base de treinamento: 0.499727965179543
Acurácia na base de teste: 0.45707499151679676

CPU times: user 646 ms, sys: 109 ms, total: 756 ms
Wall time: 1.77 s


## Testando o número de componentes

Com base no código acima, teste a árvore de classificação com pelo menos as seguintes possibilidades de quantidades de componentes: ```[1, 2, 5, 10, 50]```. Avalie para cada uma delas:

- Acurácia nas bases de treino e teste
- Tempo de processamento


In [11]:
%%time

componentes = [1, 2, 5, 10, 50]

# Loop sobre os diferentes números de componentes
for n in componentes:
    # Executa o PCA com o número de componentes atual
    prcomp = PCA(n_components=n).fit(X_train)

    # Transforma os dados de treinamento e teste nos componentes principais
    pc_treino = prcomp.transform(X_train)
    pc_teste  = prcomp.transform(X_test)

    # Imprime as dimensões dos dados transformados
    print(f'Dimensões da base de treinamento: {pc_treino.shape}')
    print(f'Dimensões da base de teste: {pc_teste.shape}')

    # Cria e treina um classificador de árvore de decisão
    clf = DecisionTreeClassifier(ccp_alpha=0.001)
    clf.fit(pc_treino, y_train)

    # Avalia a acurácia na base de treinamento e teste
    print(f'Acurácia na base de treinamento: {clf.score(pc_treino, y_train)}')
    print(f'Acurácia na base de teste: {clf.score(pc_teste, y_test)}\n')


Dimensões da base de treinamento: (7352, 1)
Dimensões da base de teste: (2947, 1)
Acurácia na base de treinamento: 0.499727965179543
Acurácia na base de teste: 0.45707499151679676

Dimensões da base de treinamento: (7352, 2)
Dimensões da base de teste: (2947, 2)
Acurácia na base de treinamento: 0.6127584330794341
Acurácia na base de teste: 0.5846623685103495

Dimensões da base de treinamento: (7352, 5)
Dimensões da base de teste: (2947, 5)
Acurácia na base de treinamento: 0.8460282916213275
Acurácia na base de teste: 0.7885985748218527

Dimensões da base de treinamento: (7352, 10)
Dimensões da base de teste: (2947, 10)
Acurácia na base de treinamento: 0.8926822633297062
Acurácia na base de teste: 0.8238887003732609

Dimensões da base de treinamento: (7352, 50)
Dimensões da base de teste: (2947, 50)
Acurácia na base de treinamento: 0.9186615886833515
Acurácia na base de teste: 0.8262639972853749

CPU times: user 4.52 s, sys: 2 s, total: 6.52 s
Wall time: 4.39 s


## Conclua

- O que aconteceu com a acurácia?
- O que aconteceu com o tempo de processamento?

<h3><font  color=""><strong>
Insight:
</strong></font></h3>

<h3><font  color=""><i>
Observamos uma relação entre as dimensões dos dados de treinamento e teste e a acurácia dos modelos treinados. Vamos analisar cada conjunto de dimensões em relação à acurácia e ao tempo de processamento:
</i></font></h3>

<h3><font  color="Blue"><strong>
1. Dimensões da base de treinamento: (7352, 1)
</strong></font></h3>


<h3><font  color=""><i>

* A acurácia na base de treinamento é baixa, em torno de 49.97%.

* A acurácia na base de teste é semelhante, cerca de 45.71%.

* Isso sugere que o modelo está sofrendo de underfitting, ou seja, não está conseguindo capturar os padrões dos dados de treinamento e, portanto, não generaliza bem para os dados de teste.

* O tempo de processamento provavelmente é baixo, pois a quantidade de dados é pequena.
</i></font></h3>


<h3><font  color="Blue"><strong>
2. Dimensões da base de treinamento: (7352, 2)
</strong></font></h3>

<h3><font  color=""><i>

* A acurácia na base de treinamento aumentou em relação ao caso anterior, alcançando cerca de 61.28%.

* A acurácia na base de teste também aumentou para aproximadamente 58.47%.

* O aumento da dimensionalidade permitiu que o modelo capturasse mais informações, resultando em um melhor desempenho tanto nos dados de treinamento quanto nos dados de teste.

* O tempo de processamento pode ser ligeiramente maior devido à presença de mais features, mas ainda deve ser relativamente baixo.
</i></font></h3>

<h3><font  color="Blue"><strong>
3. Dimensões da base de treinamento: (7352, 5)
</strong></font></h3>

<h3><font  color=""><i>

* Com o aumento para 5 dimensões, houve um salto significativo na acurácia, atingindo cerca de 84.60% na base de treinamento e 78.86% na base de teste.

* Isso sugere que o modelo está se ajustando melhor aos dados e conseguindo generalizar de forma mais eficaz.

* O tempo de processamento pode ser um pouco mais elevado, mas ainda deve ser razoável.
</i></font></h3>

<h3><font  color="Blue"><strong>
4. Dimensões da base de treinamento: (7352, 10)
</strong></font></h3>

<h3><font  color=""><i>

* Com mais 5 dimensões adicionadas, a acurácia continuou a aumentar, alcançando aproximadamente 89.27% na base de treinamento e 82.39% na base de teste.

* Isso indica que o modelo está se ajustando ainda melhor aos dados e generalizando de forma mais precisa.

* O tempo de processamento pode ser um pouco mais alto devido à presença de mais features, mas ainda deve ser gerenciável.

</i></font></h3>


<h3><font  color="Blue"><strong>
5. Dimensões da base de treinamento: (7352, 50)
</strong></font></h3>

<h3><font  color=""><i>

* Com um aumento significativo para 50 dimensões, a acurácia continuou a aumentar, atingindo cerca de 91.87% na base de treinamento e 82.63% na base de teste.

* O modelo está agora capturando uma quantidade substancial de informações dos dados, resultando em uma boa capacidade de generalização.

* O tempo de processamento pode ser significativamente maior devido ao grande número de features, o que pode afetar a escalabilidade do modelo.

</i></font></h3>

<h3><font  color=""><i>
Resumindo, à medida que aumentamos a dimensionalidade dos dados, a acurácia geralmente melhora, indicando que o modelo está capturando melhor os padrões nos dados. No entanto, à medida que a dimensionalidade aumenta, o tempo de processamento também pode aumentar, especialmente quando o número de features é alto, o que pode limitar a escalabilidade do modelo.
</i></font></h3>

