In [1]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.decomposition import TruncatedSVD
import numpy as np

In [2]:
# Пример данных с категориальными и числовыми признаками
data = pd.DataFrame({
    'feature1': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C'],
    'feature2': ['X', 'Y', 'X', 'Z', 'Y', 'X', 'Z', 'Y', 'Z', 'X'],
    'feature3_num': [5, 3, 6, 7, 2, 4, 5, 6, 3, 8],
    'feature4_num': [10.5, 8.2, 9.0, 7.1, 11.3, 12.0, 10.8, 9.5, 7.9, 6.8],
    'target': [1, 0, 1, 0, 1, 1, 0, 0, 1, 0]
})

# Выделяем целевую переменную
target = data['target']
features = data.drop(columns=['target'])

# Применяем OneHotEncoding для категориальных признаков
categorical_features = features.select_dtypes(include=['object'])
encoder = OneHotEncoder(sparse=False)
encoded_categorical = encoder.fit_transform(categorical_features)

# Нормализуем числовые признаки
numerical_features = features.select_dtypes(include=[np.number])
scaler = StandardScaler()
scaled_numerical = scaler.fit_transform(numerical_features)

# Объединяем закодированные категориальные и числовые признаки
processed_features = np.hstack((encoded_categorical, scaled_numerical))

# Применяем SVD
svd = TruncatedSVD(n_components=min(processed_features.shape)-1)
svd.fit(processed_features)

# Оцениваем важность признаков по первой компоненте
importance = np.abs(svd.components_[0])





In [3]:

# Соотносим важность с исходными признаками
feature_names = list(encoder.get_feature_names_out(categorical_features.columns)) + list(numerical_features.columns)
importance_df = pd.DataFrame({'feature': feature_names, 'importance': importance})
importance_df = importance_df.sort_values(by='importance', ascending=False)

print(importance_df)

        feature  importance
6  feature3_num    0.688377
7  feature4_num    0.624717
2    feature1_C    0.247419
1    feature1_B    0.164244
4    feature2_Y    0.164244
5    feature2_Z    0.093404
0    feature1_A    0.084557
3    feature2_X    0.069457
