In [3]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import pickle

# Percorso della cartella dei risultati
result_folder = 'ResidualProducts'

# Carica il dataset originale
df = pd.read_csv(f'{result_folder}/ID-Features-Vote.csv')

# Carica il modello Random Forest addestrato
with open(f'{result_folder}/random_forest_model_iteration_9.pkl', 'rb') as file:
    rf_model = pickle.load(file)

# Seleziona le features utilizzate dalla RF (supponiamo che siano le stesse del modello salvato)
# Se hai salvato le features selezionate, puoi caricarle da un file o da una variabile
selected_features = ['min_fixations_per_area',
'max_fixations_per_area',
'mean_fixations_per_area',
'last_series_num_fixations',
'last_is_longest_duration',
'total_duration_fixations',
'min_dilatation',
'max_dilatation',
'mean_dilatation',
'std_dilatation',
'instance_area_mean_dilatation_min',
'instance_area_mean_dilatation_std',
'is_max_dilatation_in_first_instance_area',
'returns_to_initial_area',
'initial_instance_area_duration_ms',
'initial_instance_area_n_fixations']  # Sostituisci con le features effettive selezionate dalla RF


https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations
https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations


In [4]:

# Crea il dataset con le features selezionate
X = df[selected_features]

# Usa la RF per predire le etichette (0 o 1)
y_pred = rf_model.predict(X)

# Aggiungi le etichette predette al dataset originale
df['RFLabel'] = y_pred

# Salva il nuovo dataset etichettato
df.to_csv(f'{result_folder}/RFLabeled_ID-Features-Vote.csv', index=False)

print(f"Dataset etichettato salvato in '{result_folder}/RFLabeled_ID-Features-Vote.csv'.")

# Ora addestriamo un albero decisionale per mimare la RF
# Separiamo le features e il target (le etichette predette dalla RF)
X_train = df[selected_features]
y_train = df['RFLabel']

# Crea e addestra l'albero decisionale
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)

# Valuta l'albero decisionale (opzionale, per verificare quanto bene mima la RF)
y_pred_dt = dt_model.predict(X_train)
accuracy = accuracy_score(y_train, y_pred_dt)
print(f"Accuracy dell'albero decisionale sul training set: {accuracy}")

# Save the final model to a file
with open(f'{result_folder}/decision_tree_mimic.pkl', 'wb') as file:
    pickle.dump(dt_model, file)

print(f"Albero decisionale salvato in '{result_folder}/decision_tree_mimic.pkl'.")

Dataset etichettato salvato in 'ResidualProducts/RFLabeled_ID-Features-Vote.csv'.
Accuracy dell'albero decisionale sul training set: 1.0
Albero decisionale salvato in 'ResidualProducts/decision_tree_mimic.pkl'.
