# Árvores II - Tarefa 2

### 1. Carregar as bases

Vamos carregar as bases lidas na tarefa passada. Se você salvou essas bases em arquivo texto, basta fazer a leitura com o comando ```pd.read_csv``` das seguintes bases:

- X_train
- Y_train
- X_test
- Y_test

Não se esqueça de considerar a leitura dos índices dos arquivos no ```read_csv()```!

In [21]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix

# Task 1: Load datasets
X_train = pd.read_csv('/content/X_train.txt', index_col=0)
Y_train = pd.read_csv('/content/y_train.txt', index_col=0)
X_test = pd.read_csv('/content/X_test.txt', index_col=0)
Y_test = pd.read_csv('/content/y_test.txt', index_col=0)

### 2. Divisão da base em Treino, Validação e Teste

A base já se encontra dividida em Treino e Validação. O que vamos fazer então é extrair uma base de Validação da base de Treino.

Extraia 25% da base de treino como base de validação.

In [22]:
# Task 2: Split the dataset into Train, Validation, and Test sets
X_train, X_val, Y_train, Y_val = train_test_split(X_train, Y_train, test_size=0.25, random_state=42)

### 3. Melhores 3 variáveis

Rode uma árvore com profundidade máxima igual a 4 para prever a atividade humana com todas as variáveis.
Observe a importância das variáveis e considere as 3 variáveis com maior importância para os próximos passos.
Dica: utilize o atributo ```clf.feature_importances_``` da árvore treinada.

In [43]:
# Árvores II - Tarefa 2

### 1. Carregar as bases

# Carregue X_train com o delimitador apropriado, se necessário
X_train = pd.read_csv('/content/X_train.txt', sep='\s+', header=None, index_col=0)

# Exiba as primeiras linhas de X_train
print("Primeiras linhas de X_train:")
print(X_train.head())

# Exiba os tipos de dados e a forma de X_train
print("\nTipos de dados de X_train:")
print(X_train.dtypes)
print("\nFormato de X_train:", X_train.shape)


# Verifique se X_train possui colunas
if X_train.shape[1] == 0:
    raise ValueError("X_train não contém nenhuma coluna. Por favor, verifique o carregamento ou pré-processamento dos seus dados.")

# Converta X_train para um array NumPy usando to_numpy()
X_train_np = X_train.to_numpy()

# Continue com o restante do código
clf_top3.fit(X_train_np, Y_train_1d)
feature_importance_top3 = clf_top3.feature_importances_
top3_features = X_train.columns[np.argsort(feature_importance_top3)[::-1][:3]]



Primeiras linhas de X_train:
               1         2         3         4         5         6    \
0                                                                      
0.288585 -0.020294 -0.132905 -0.995279 -0.983111 -0.913526 -0.995112   
0.278419 -0.016411 -0.123520 -0.998245 -0.975300 -0.960322 -0.998807   
0.279653 -0.019467 -0.113462 -0.995380 -0.967187 -0.978944 -0.996520   
0.279174 -0.026201 -0.123283 -0.996091 -0.983403 -0.990675 -0.997099   
0.276629 -0.016570 -0.115362 -0.998139 -0.980817 -0.990482 -0.998321   

               7         8         9         10   ...       551       552  \
0                                                 ...                       
0.288585 -0.983185 -0.923527 -0.934724 -0.567378  ... -0.074323 -0.298676   
0.278419 -0.974914 -0.957686 -0.943068 -0.557851  ...  0.158075 -0.595051   
0.279653 -0.963668 -0.977469 -0.938692 -0.557851  ...  0.414503 -0.390748   
0.279174 -0.982750 -0.989302 -0.938692 -0.576159  ...  0.404573 -0.117290   
0.27

### 4. Construa uma árvore com as 3 melhores variáveis

Utilizando as três variáveis encontradas acima, construa uma árvore de decisão. Encontre o melhor ```ccp_alpha``` utilizando a base de validação, conforme a estrutura que vimos em aula.

In [45]:
%%time

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# Seleciona apenas as três melhores variáveis
X_train_top3 = X_train[top3_features]

# Inicializa um DecisionTreeClassifier
clf_top3 = DecisionTreeClassifier(random_state=42)

# Define os parâmetros a serem testados, incluindo ccp_alpha
param_grid = {
    'ccp_alpha': [0.001, 0.005, 0.01, 0.05, 0.1, 0.5, 1.0]
}

# Inicializa um GridSearchCV para encontrar o melhor ccp_alpha
grid_search = GridSearchCV(clf_top3, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train_top3, Y_train_1d)

# Obtém o melhor modelo
best_clf_top3 = grid_search.best_estimator_

# Exibe o melhor ccp_alpha encontrado
print("Melhor ccp_alpha:", best_clf_top3.ccp_alpha)


Melhor ccp_alpha: 0.01
CPU times: user 1.15 s, sys: 7.79 ms, total: 1.16 s
Wall time: 1.16 s


### 5. Avaliação do modelo

Avalie a árvore encontrada no item anterior na base de testes.

In [68]:
# Carregue Y_test
Y_test = pd.read_csv('/content/y_test.txt', sep='\s+', header=None, squeeze=True)

# Exiba as primeiras linhas de Y_test
print("Primeiras linhas de Y_test:")
print(Y_test.head())

Primeiras linhas de Y_test:
0    5
1    5
2    5
3    5
4    5
Name: 0, dtype: int64




  Y_test = pd.read_csv('/content/y_test.txt', sep='\s+', header=None, squeeze=True)


In [67]:
# Avalie o modelo na base de testes
y_pred_test_top3 = best_clf_top3.predict(X_test[top3_features])
accuracy_test_top3 = accuracy_score(Y_test.values.ravel(), y_pred_test_top3)
print("Acurácia na base de testes com as 3 melhores variáveis:", accuracy_test_top3)


Acurácia na base de testes com as 3 melhores variáveis: 0.7387173396674585
