In [3]:
import ast
import numpy as np
import pandas as pd
from sklearn.model_selection import cross_val_score, KFold
from sklearn.neighbors import NearestCentroid

import joblib

In [4]:
# abrindo os dados de treinamento
df = pd.read_csv("./../ansatz_result/data.csv")
X = df.drop(columns=["target"]).to_numpy()
y = pd.DataFrame(df['target'].apply(ast.literal_eval).tolist()).to_numpy()

# Para cada amostra, identificar o ansatz com maior acurácia
y_best_ansatz = np.argmax(y, axis=1)  # Retorna índices 0-29

In [5]:
# criando kfold
kf = KFold(n_splits=3, shuffle=True, random_state=42)

nearest_centroid_clf = NearestCentroid()

score = cross_val_score(nearest_centroid_clf, X, y_best_ansatz, cv=kf, scoring='accuracy')
print("Scores:", score)
print("Média:", score.mean())
print("Desvio padrão:", score.std())

Scores: [0.18333333 0.08333333 0.10833333]
Média: 0.125
Desvio padrão: 0.042491829279939865




In [6]:
# treinando o modelo
nearest_centroid_clf.fit(X, y_best_ansatz)



In [7]:
#probabilidades
probabilities = nearest_centroid_clf.predict_proba(X[6].reshape(1, -1))  # Shape: (n_amostras, n_classes)

# Top 3 ansatzes mais prováveis para a primeira amostra
top_3 = np.argsort(-probabilities, axis=1)[:, :3]
print(f"Top 3 ansatzes para a amostra: {top_3[0]}")
print(f"Probabilidades: {probabilities[0][top_3[0]]}")

Top 3 ansatzes para a amostra: [ 6  1 12]
Probabilidades: [0.96312193 0.01712928 0.01104764]


In [8]:
# Salvar modelo
joblib.dump(nearest_centroid_clf, './models_salvos/Neares_Centroid_clf.joblib')

['./models_salvos/Neares_Centroid_clf.joblib']