In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

def extract_feature_with_decisiontree(df, removeNotImportantFeature=True):
    # Estrai le colonne delle features e della variabile target
    features_columns = df.columns[:-1]
    target_column = df.columns[-1]
    
    # Estrai le colonne delle feature (X) e della variabile target (y)
    X = df.iloc[:, :-1]
    y = df.iloc[:, -1]
    
    # Crea un modello di albero decisionale
    clf = DecisionTreeClassifier()
    
    # Addestra il modello sull'intero dataset
    clf.fit(X, y)
    
    # Estrai le feature più importanti
    feature_importance = clf.feature_importances_
    
    # Crea un DataFrame con le feature e le relative importanze
    feature_importance_df = pd.DataFrame({'Feature': X.columns, 'Importance': feature_importance})
    
    if removeNotImportantFeature:
        # Rimuovi le features con importanza 0
        non_zero_importance_df = feature_importance_df[feature_importance_df['Importance'] > 0]
        return non_zero_importance_df
    else:
        return feature_importance_df

def sort_df_features(df, colonna_target='target'):
    # Verifica se la colonna del target esiste nel DataFrame
    if colonna_target in df.columns:
        # Rimuovi la colonna del target
        features_df = df.drop(columns=[colonna_target])

        # Ordina le colonne alfabeticamente
        features_df_sorted = features_df.sort_index(axis=1)

        # Unisci le colonne delle features ordinate con la colonna del target
        df_sorted = pd.concat([features_df_sorted, df[colonna_target]], axis=1)

        return df_sorted
    else:
        print(f"La colonna del target '{colonna_target}' non è presente nel DataFrame.")
        return df

def extract_X(df):
    # Estrai le colonne delle feature (X) e della variabile target (y)
    return df.iloc[:, :-1]

def extract_y(df):
    # estrae target - ultima colonna
    return df.iloc[:, -1]


csv_file_path = 'XMAS_data2023.csv'
df = pd.read_csv(csv_file_path, index_col=0)
# Set pandas options to display all columns and rows
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.expand_frame_repr', False)

feature_extracted_df=extract_feature_with_decisiontree(df,removeNotImportantFeature=True)
# feature_extracted_df_sorted=extract_feature_with_decisiontree(sort_df_features(df,'target'),removeNotImportantFeature=True)

print(feature_extracted_df)
# print(feature_extracted_df_sorted)


   Feature  Importance
1        I    0.129349
3        A    0.171102
4        R    0.145764
17       L    0.129638
19       O    0.188522
24       V    0.173410
47       ?    0.062216


In [4]:
non_zero_columns = feature_extracted_df['Feature'].tolist()

In [None]:

df[non_zero_columns + ['target']]

In [15]:
# Estrai il nome delle colonne con importanza maggiore di 0
non_zero_columns = feature_extracted_df['Feature'].tolist()
# Seleziona solo le colonne desiderate nel DataFrame originale
ascii_df = df[non_zero_columns + ['target']]
# Crea una nuova colonna con la fusione delle prime sette feature
ascii_df['binary'] = df[non_zero_columns].astype(str).agg(''.join, axis=1)
# Stampa il nuovo DataFrame
print(ascii_df)

      I  A  R  L  O  V  ?  target   binary
0     0  0  1  1  0  1  1       0  0011011
1     0  1  0  1  1  0  1       0  0101101
2     0  1  1  1  1  1  1       0  0111111
3     0  1  1  0  0  1  0       0  0110010
4     0  1  1  0  1  0  1       1  0110101
5     0  0  1  1  1  1  1       0  0011111
6     0  1  1  1  1  0  1       0  0111101
7     0  1  0  0  1  0  0       0  0100100
8     0  0  1  0  1  1  1       0  0010111
9     0  1  1  0  1  1  1       0  0110111
10    0  1  0  1  1  0  1       0  0101101
11    0  1  0  1  0  1  1       0  0101011
12    0  1  1  1  1  0  1       0  0111101
13    0  0  1  1  1  0  1       0  0011101
14    0  1  1  0  0  0  1       0  0110001
15    0  1  1  0  0  0  0       0  0110000
16    0  0  0  0  0  0  1       0  0000001
17    1  1  1  0  1  0  1       0  1110101
18    0  1  1  0  1  0  1       1  0110101
19    0  1  1  0  1  0  1       1  0110101
20    0  1  1  0  0  1  1       0  0110011
21    0  1  1  0  0  0  1       0  0110001
22    0  1 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  ascii_df['binary'] = df[non_zero_columns].astype(str).agg(''.join, axis=1)
