In [1]:
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import learning_curve
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA
from matplotlib import pyplot as plt
import seaborn as sns
import numpy as np

In [None]:
# Carregar os dados preparados
x_treino = np.load('x_treino.npy')  
y_treino = np.load('y_treino.npy')  
z_treino = np.load('z_treino.npy')

x_validacao = np.load('x_validacao.npy')  
y_validacao = np.load('y_validacao.npy')  
z_validacao = np.load('z_validacao.npy')

x_teste = np.load('x_teste.npy')  
y_teste = np.load('y_teste.npy')  
z_teste = np.load('z_teste.npy')

print(np.shape(x_treino))
print(np.shape(x_validacao))
print(np.shape(x_teste))

In [3]:
def plotar_matriz_confusao(respostas, predicoes, rotulos):
    cm = confusion_matrix(respostas, predicoes)
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=rotulos, yticklabels=rotulos)
    plt.xlabel('Rótulos previstos')
    plt.ylabel('Rótulos verdadeiros')
    plt.title('Matriz de confusão')
    plt.show()

In [None]:
pca = PCA(n_components=0.95) 
x_treino_pca = pca.fit_transform(x_treino)
x_validacao_pca = pca.transform(x_validacao)
x_teste_pca = pca.transform(x_teste)

print("TREINAMENTO")
print(f"Dimensões originais: {np.shape(x_treino)}")
print(f"Dimensões após PCA: {np.shape(x_treino_pca)}")
print("VALIDAÇÃO")
print(f"Dimensões originais: {np.shape(x_validacao)}")
print(f"Dimensões após PCA: {np.shape(x_validacao_pca)}")
print("TESTE")
print(f"Dimensões originais: {np.shape(x_teste)}")
print(f"Dimensões após PCA: {np.shape(x_teste_pca)}")

# TREE padrão:
- criterion: "gini"
- splitter: "best"
- max_depth: None
- min_samples_split: 2
- min_samples_leaf: 1
- min_weight_fraction_leaf: 0
- max_features: None
- random_state: None
- max_leaf_nodes: None
- min_impurity_decrease: 0
- class_weight: None
- ccp_alpha: 0

In [None]:
arvore_padrao = DecisionTreeClassifier(random_state=42)

In [None]:
train_sizes, train_scores, test_scores = learning_curve(
    arvore_padrao, x_treino_pca, y_treino, cv=5, scoring='accuracy', train_sizes=np.linspace(0.1, 1.0, 10)
)

train_mean = np.mean(train_scores, axis=1)
test_mean = np.mean(test_scores, axis=1)

plt.figure(figsize=(8, 6))
plt.plot(train_sizes, train_mean, label='Acurácia no Treinamento', marker='o', color='blue')
plt.plot(train_sizes, test_mean, label='Acurácia no Teste', marker='o', color='orange')
plt.xlabel('Tamanho do Conjunto de Treinamento')
plt.ylabel('Acurácia')
plt.title('Curvas de Aprendizado')
plt.legend()
plt.grid()
plt.show()

In [None]:
arvore_padrao.fit(x_treino_pca, y_treino)

In [None]:
predicao_validacao_padrao = arvore_padrao.predict(x_validacao_pca)
treino_acuracia_padrao = accuracy_score(y_validacao, predicao_validacao_padrao)
print("Acurácia (modelo inicial):", treino_acuracia_padrao)
print("Relatório de Classificação (modelo inicial):\n", classification_report(y_validacao, predicao_validacao_padrao))

In [None]:
predicao_teste_padrao = arvore_padrao.predict(x_teste_pca)
teste_acuracia_padrao = accuracy_score(y_teste, predicao_teste_padrao)
print("Acurácia (modelo inicial):", teste_acuracia_padrao)
print("Relatório de Classificação (modelo inicial):\n", classification_report(y_teste, predicao_teste_padrao))

In [None]:
# Código para gerar a matriz de confusão.
letras = ["A", "B", "C", "D", "E", "F", "G", "I", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "Y"]
y_prob_teste = arvore_padrao.predict_proba(x_teste_pca)

plotar_matriz_confusao(y_teste, predicao_teste_padrao, letras)


In [None]:
x_teste_ruidosa = x_teste_pca + np.random.normal(0, 0.1, x_teste_pca.shape)
x_teste_ruidosa = np.clip(x_teste_ruidosa, 0, 1)

y_pred_ruidosa = arvore_padrao.predict(x_teste_ruidosa)
teste_acuracia_padrao = accuracy_score(y_teste, y_pred_ruidosa)

print("Acurácia:", teste_acuracia_padrao)

# TREE otimizado:
- criterion: 'entropy'
- max_depth: 10
- min_samples_leaf: 50
- min_samples_split: 10

In [None]:
parametros = {
    'max_depth': [10, 40],
    'min_samples_split': [2, 10],
    'min_samples_leaf': [1, 50]
}

arvore_padrao = DecisionTreeClassifier(random_state=42)

grid_search = GridSearchCV(
    estimator=arvore_padrao,
    param_grid=parametros,
    cv=2,  
    scoring='accuracy',  
    n_jobs=-1  
)

grid_search.fit(x_treino_pca, y_treino)

In [None]:
print("Melhores parâmetros encontrados:", grid_search.best_params_)
print("Melhor score encontrado:", grid_search.best_score_)

In [None]:
arvore_otimizada = grid_search.best_estimator_ 

In [None]:
train_sizes, train_scores, test_scores = learning_curve(
    arvore_otimizada, x_treino_pca, y_treino, cv=5, scoring='accuracy', train_sizes=np.linspace(0.1, 1.0, 10)
)

train_mean = np.mean(train_scores, axis=1)
test_mean = np.mean(test_scores, axis=1)

plt.figure(figsize=(8, 6))
plt.plot(train_sizes, train_mean, label='Acurácia no Treinamento', marker='o', color='blue')
plt.plot(train_sizes, test_mean, label='Acurácia no Teste', marker='o', color='orange')
plt.xlabel('Tamanho do Conjunto de Treinamento')
plt.ylabel('Acurácia')
plt.title('Curvas de Aprendizado')
plt.legend()
plt.grid()
plt.show()

In [None]:
arvore_otimizada.fit(x_treino_pca, y_treino)

In [None]:
predicao_validacao_otimizado = arvore_otimizada.predict(x_validacao_pca)
treino_acuracia_otimizado = accuracy_score(y_validacao, predicao_validacao_otimizado)
print("Acurácia (modelo inicial):", treino_acuracia_otimizado)
print("Relatório de Classificação (modelo inicial):\n", classification_report(y_validacao, predicao_validacao_otimizado))

In [None]:
predicao_teste_otimizado = arvore_otimizada.predict(x_teste_pca)
teste_acuracia_otimizado = accuracy_score(y_teste, predicao_teste_otimizado)
print("Acurácia (modelo inicial):", teste_acuracia_otimizado)
print("Relatório de Classificação (modelo inicial):\n", classification_report(y_teste, predicao_teste_otimizado))

In [None]:
# Código para gerar a matriz de confusão.
letras = ["A", "B", "C", "D", "E", "F", "G", "I", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "Y"]
y_prob_teste = arvore_otimizada.predict_proba(x_teste_pca)

plotar_matriz_confusao(y_teste, predicao_teste_otimizado, letras)

In [None]:
x_teste_ruidosa = x_teste_pca + np.random.normal(0, 0.1, x_teste_pca.shape)
x_teste_ruidosa = np.clip(x_teste_ruidosa, 0, 1)

y_pred_ruidosa = arvore_otimizada.predict(x_teste_ruidosa)
teste_acuracia_padrao = accuracy_score(y_teste, y_pred_ruidosa)

print("Acurácia:", teste_acuracia_padrao)