tutorial sklearn 

link https://scikit-learn.org/stable/auto_examples/inspection/plot_permutation_importance_multicollinear.html#sphx-glr-auto-examples-inspection-plot-permutation-importance-multicollinear-py

In questo esempio, calcoliamo l'importanza della permutazione sul set di dati del cancro al seno del Wisconsin utilizzando permutation_importance. RandomForestClassifier può facilmente ottenere una precisione di circa il 97% su un set di dati di test. Poiché questo set di dati contiene caratteristiche multicollineari, l'importanza della permutazione mostrerà che nessuna delle caratteristiche è importante. Un approccio alla gestione della multicollinearità consiste nell'eseguire il raggruppamento gerarchico sulle correlazioni di ordine di classificazione di Spearman delle caratteristiche, selezionare una soglia e mantenere una singola caratteristica da ciascun cluster.

In [1]:
print(__doc__)
from collections import defaultdict

import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import spearmanr
from scipy.cluster import hierarchy

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.inspection import permutation_importance
from sklearn.model_selection import train_test_split


Automatically created module for IPython interactive environment


Innanzitutto, addestriamo una foresta casuale sul set di dati del cancro al seno e ne valutiamo l'accuratezza su un set di test:

In [None]:
data = load_breast_cancer()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)
print("Accuracy on test data: {:.2f}".format(clf.score(X_test, y_test)))


Il grafico dell'importanza della permutazione mostra che la permutazione di una caratteristica riduce la precisione al massimo di 0,012, il che suggerisce che nessuna delle caratteristiche è importante. Ciò è in contraddizione con l'elevata accuratezza del test calcolata sopra: alcune caratteristiche devono essere importanti. L'importanza della permutazione viene calcolata sul set di addestramento per mostrare quanto il modello si basi su ciascuna caratteristica durante il training.

In [None]:
result = permutation_importance(clf, X_train, y_train, n_repeats=10,
                                random_state=42)
perm_sorted_idx = result.importances_mean.argsort()

tree_importance_sorted_idx = np.argsort(clf.feature_importances_)
tree_indices = np.arange(0, len(clf.feature_importances_)) + 0.5

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 8))
ax1.barh(tree_indices,
         clf.feature_importances_[tree_importance_sorted_idx], height=0.7)
ax1.set_yticks(tree_indices)
ax1.set_yticklabels(data.feature_names[tree_importance_sorted_idx])
ax1.set_ylim((0, len(clf.feature_importances_)))
ax2.boxplot(result.importances[perm_sorted_idx].T, vert=False,
            labels=data.feature_names[perm_sorted_idx])
fig.tight_layout()
plt.show()

Quando le caratteristiche sono allineate, la permutazione di una caratteristica avrà scarso effetto sulle prestazioni dei modelli perché può ottenere le stesse informazioni da una caratteristica correlata. Un modo per gestire le funzionalità multicollineari è eseguire il clustering gerarchico sulle correlazioni di ordine di classificazione di Spearman, selezionare una soglia e mantenere una singola funzionalità da ciascun cluster. Per prima cosa, tracciamo una mappa termica delle caratteristiche correlate:

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 8))
corr = spearmanr(X).correlation
corr_linkage = hierarchy.ward(corr)
dendro = hierarchy.dendrogram(
    corr_linkage, labels=data.feature_names.tolist(), ax=ax1, leaf_rotation=90
)
dendro_idx = np.arange(0, len(dendro['ivl']))

ax2.imshow(corr[dendro['leaves'], :][:, dendro['leaves']])
ax2.set_xticks(dendro_idx)
ax2.set_yticks(dendro_idx)
ax2.set_xticklabels(dendro['ivl'], rotation='vertical')
ax2.set_yticklabels(dendro['ivl'])
fig.tight_layout()
plt.show()

Successivamente, selezioniamo manualmente una soglia mediante ispezione visiva del dendrogramma per raggruppare le nostre caratteristiche in cluster e scegliamo una caratteristica da ogni cluster da mantenere, selezioniamo quelle caratteristiche dal nostro set di dati e addestriamo una nuova foresta casuale. L'accuratezza del test della nuova foresta casuale non è cambiata molto rispetto alla foresta casuale addestrata sul set di dati completo.

In [None]:
cluster_ids = hierarchy.fcluster(corr_linkage, 1, criterion='distance')
cluster_id_to_feature_ids = defaultdict(list)
for idx, cluster_id in enumerate(cluster_ids):
    cluster_id_to_feature_ids[cluster_id].append(idx)
selected_features = [v[0] for v in cluster_id_to_feature_ids.values()]

X_train_sel = X_train[:, selected_features]
X_test_sel = X_test[:, selected_features]

clf_sel = RandomForestClassifier(n_estimators=100, random_state=42)
clf_sel.fit(X_train_sel, y_train)
print("Accuracy on test data with features removed: {:.2f}".format(
      clf_sel.score(X_test_sel, y_test)))
