In [None]:
!pip install Boruta

In [None]:
import pandas as pd
from boruta import BorutaPy
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

# Загрузка данных (пример с Iris dataset)
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)

# Инициализация модели RandomForest
rf = RandomForestClassifier(n_jobs=-1, max_depth=5, random_state=42)

# Инициализация Boruta
boruta = BorutaPy(rf, n_estimators='auto', random_state=42)

# Применение Boruta
boruta.fit(X.values, y.values)

# Отображение выбранных признаков
print("Признаки, выбранные Boruta:", X.columns[boruta.support_])
# check selected features - first 5 features are selected


# check ranking of features
print(boruta.ranking_)
print(rf.feature_importances_)





# Вывод выбранных признаков
selected_features = X.columns[boruta.support_]
print("Выбранные признаки:", selected_features)

# Вывод всех признаков с их рангами
feature_ranking = pd.DataFrame({
    'Feature': X.columns,
    'Ranking': boruta.ranking_
}).sort_values(by='Ranking')

print("\nПризнаки с рангами:")
print(feature_ranking)

In [None]:
# Обучение случайного леса
rf.fit(X, y)

# Важность признаков с помощью RandomForest
rf_feature_importance = pd.DataFrame({
    'Feature': X.columns,
    'Importance': rf.feature_importances_
}).sort_values(by='Importance', ascending=False)

print("\nВажность признаков по RandomForest:")
print(rf_feature_importance)

# Сравнение: сколько признаков выбраны обеими методами
common_features = list(set(selected_features) & set(rf_feature_importance['Feature'].head(len(selected_features))))
print("\nОбщие признаки между Boruta и RandomForest:", common_features)

In [None]:
X.columns