1.Провести жорстке та м'яке голосування.  

In [23]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.metrics import accuracy_score, classification_report

# Шлях до файлу з даними
file_path = "hayes-roth.data"

# Задайте імена колонок
column_names = ["name", "hobby", "age", "educational level", "marital status", "class"]

# Завантаження даних
data = pd.read_csv(file_path, names=column_names)

# Розділіть дані на X (характеристики) та Y (цільова змінна/клас)
X = data.drop(columns=['class'])
y = data['class']

# Розділіть дані на навчальну та тестову вибірки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Ініціалізуємо базові класифікатори
log_reg = LogisticRegression(max_iter=1000)
dec_tree = DecisionTreeClassifier()
knn = KNeighborsClassifier()

# Побудуємо жорстке голосування
hard_voting_clf = VotingClassifier(estimators=[('lr', log_reg), ('dt', dec_tree), ('knn', knn)], voting='hard')
hard_voting_clf.fit(X_train, y_train)

# Побудуємо м'яке голосування
soft_voting_clf = VotingClassifier(estimators=[('lr', log_reg), ('dt', dec_tree), ('knn', knn)], voting='soft')
soft_voting_clf.fit(X_train, y_train)

# Оцінимо результати
hard_voting_pred = hard_voting_clf.predict(X_test)
soft_voting_pred = soft_voting_clf.predict(X_test)

print("Жорстке голосування:")
print("Точність:", accuracy_score(y_test, hard_voting_pred))
print("Звіт про класифікацію:")
print(classification_report(y_test, hard_voting_pred))

print("\nМ'яке голосування:")
print("Точність:", accuracy_score(y_test, soft_voting_pred))
print("Звіт про класифікацію:")
print(classification_report(y_test, soft_voting_pred))



Жорстке голосування:
Точність: 0.625
Звіт про класифікацію:
              precision    recall  f1-score   support

           1       0.65      0.58      0.61        19
           2       0.40      0.60      0.48        10
           3       1.00      0.73      0.84        11

    accuracy                           0.62        40
   macro avg       0.68      0.64      0.64        40
weighted avg       0.68      0.62      0.64        40


М'яке голосування:
Точність: 0.775
Звіт про класифікацію:
              precision    recall  f1-score   support

           1       0.86      0.63      0.73        19
           2       0.53      0.80      0.64        10
           3       1.00      1.00      1.00        11

    accuracy                           0.78        40
   macro avg       0.80      0.81      0.79        40
weighted avg       0.82      0.78      0.78        40



2.Провести стекінкг, блендінг.  

In [24]:
from sklearn.model_selection import cross_val_predict
from sklearn.ensemble import StackingClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score, classification_report

# Ініціалізуємо базові класифікатори
base_classifiers = [
    ('log_reg', LogisticRegression(max_iter=1000)),
    ('dec_tree', DecisionTreeClassifier()),
    ('knn', KNeighborsClassifier())
]

# Побудуємо та навчимо стекінг класифікатор
stacking_clf = StackingClassifier(estimators=base_classifiers, final_estimator=RandomForestClassifier())
stacking_clf.fit(X_train, y_train)

# Побудуємо та навчимо блендінг класифікатор
blend_clf = StackingClassifier(estimators=base_classifiers, final_estimator=GradientBoostingClassifier())
blend_clf.fit(X_train, y_train)

# Оцінимо результати для стекінгу
stacking_pred = stacking_clf.predict(X_test)
print("Стекінг:")
print("Точність:", accuracy_score(y_test, stacking_pred))
print("Звіт про класифікацію:")
print(classification_report(y_test, stacking_pred))

# Оцінимо результати для блендінгу
blend_pred = blend_clf.predict(X_test)
print("\nБлендінг:")
print("Точність:", accuracy_score(y_test, blend_pred))
print("Звіт про класифікацію:")
print(classification_report(y_test, blend_pred))


Стекінг:
Точність: 0.85
Звіт про класифікацію:
              precision    recall  f1-score   support

           1       1.00      0.68      0.81        19
           2       0.62      1.00      0.77        10
           3       1.00      1.00      1.00        11

    accuracy                           0.85        40
   macro avg       0.88      0.89      0.86        40
weighted avg       0.91      0.85      0.85        40


Блендінг:
Точність: 0.85
Звіт про класифікацію:
              precision    recall  f1-score   support

           1       1.00      0.68      0.81        19
           2       0.62      1.00      0.77        10
           3       1.00      1.00      1.00        11

    accuracy                           0.85        40
   macro avg       0.88      0.89      0.86        40
weighted avg       0.91      0.85      0.85        40



3.Застосувати бекінг, побудувавши випадковий ліс

In [35]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.metrics import accuracy_score, classification_report

# Ініціалізуємо базові класифікатори
log_reg = LogisticRegression(max_iter=1000)
dec_tree = DecisionTreeClassifier()
knn = KNeighborsClassifier()

# Побудуємо бекінг з використанням випадкового лісу
rf = RandomForestClassifier()
backing_clf = VotingClassifier(estimators=[('lr', log_reg), ('dt', dec_tree), ('knn', knn), ('rf', rf)], voting='hard')
backing_clf.fit(X_train, y_train)

# Оцінимо результати
backing_pred = backing_clf.predict(X_test)

print("Бекінг з використанням випадкового лісу:")
print("Точність:", accuracy_score(y_test, backing_pred))
print("Звіт про класифікацію:")
print(classification_report(y_test, backing_pred))

Бекінг з використанням випадкового лісу:
Точність: 0.7
Звіт про класифікацію:
              precision    recall  f1-score   support

           1       0.79      0.58      0.67        19
           2       0.44      0.70      0.54        10
           3       1.00      0.91      0.95        11

    accuracy                           0.70        40
   macro avg       0.74      0.73      0.72        40
weighted avg       0.76      0.70      0.71        40



4.Застосувати бустінг.

In [37]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score, classification_report

# Ініціалізуємо базові класифікатори
log_reg = LogisticRegression(max_iter=1000)
dec_tree = DecisionTreeClassifier()
knn = KNeighborsClassifier()

# Побудуємо бустінг з використанням GradientBoostingClassifier
boosting_clf = GradientBoostingClassifier()
boosting_clf.fit(X_train, y_train)

# Оцінимо результати
boosting_pred = boosting_clf.predict(X_test)

print("Бустинг:")
print("Точність:", accuracy_score(y_test, boosting_pred))
print("Звіт про класифікацію:")
print(classification_report(y_test, boosting_pred))


Бустинг:
Точність: 0.75
Звіт про класифікацію:
              precision    recall  f1-score   support

           1       0.85      0.58      0.69        19
           2       0.50      0.80      0.62        10
           3       1.00      1.00      1.00        11

    accuracy                           0.75        40
   macro avg       0.78      0.79      0.77        40
weighted avg       0.80      0.75      0.76        40



5.Визначити найкращий ансамбль серед всіх побудованих

In [38]:
# Створення списку прогнозів для усіх ансамблів
predictions = {
    "Жорстке голосування": hard_voting_pred,
    "М'яке голосування": soft_voting_pred,
    "Стекінг": stacking_pred,
    "Блендінг": blend_pred,
    "Випадковий ліс": backing_pred,
    "Градієнтний бустінг": boosting_pred
}

# Обчислення точності для кожного ансамблю
accuracies = {}
for name, preds in predictions.items():
    accuracies[name] = accuracy_score(y_test, preds)

# Визначення найкращого ансамблю за точністю
best_ensemble = max(accuracies, key=accuracies.get)

# Виведення результатів
print("Результати ефективності ансамблів:")
for name, accuracy in accuracies.items():
    print(f"{name}: Точність = {accuracy}")

print(f"\nНайкращий ансамбль: {best_ensemble} з точністю {accuracies[best_ensemble]}")


Результати ефективності ансамблів:
Жорстке голосування: Точність = 0.625
М'яке голосування: Точність = 0.775
Стекінг: Точність = 0.85
Блендінг: Точність = 0.85
Випадковий ліс: Точність = 0.7
Градієнтний бустінг: Точність = 0.75

Найкращий ансамбль: Стекінг з точністю 0.85


6.Визначити найважливіші ознаки в своєму датасеті

In [32]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier

# Завантаження датасету "hayes-roth.data"
file_path = "hayes-roth.data"
column_names = ["name", "hobby", "age", "educational level", "marital status", "class"]
hayes_roth_data = pd.read_csv(file_path, names=column_names)

# Розділення на ознаки (X) та цільову змінну (y)
X = hayes_roth_data.drop('class', axis=1)
y = hayes_roth_data['class']

# Побудова моделі RandomForestClassifier
rf_classifier = RandomForestClassifier()
rf_classifier.fit(X, y)

# Отримання важливості ознак
importances = rf_classifier.feature_importances_

# Створення словника з назвами ознак та їх важливостями
feature_importance_dict = dict(zip(X.columns, importances))

# Виведення найважливіших ознак
print("Найважливіші ознаки:")
for feature, importance in sorted(feature_importance_dict.items(), key=lambda x: x[1], reverse=True):
    print(feature, ":", importance)


Найважливіші ознаки:
name : 0.26516811207471974
educational level : 0.24259952851406524
marital status : 0.22542945782531423
age : 0.2240350290889576
hobby : 0.04276787249694316
