Крок 1: Завантаження та розділення набору даних

In [13]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# Завантаження даних
breast_cancer = load_breast_cancer()
X = breast_cancer.data
y = breast_cancer.target

# Розділення даних на тренувальний та тестовий набори (70% тренувальний, 30% тестовий)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Тепер ми можемо застосувати алгоритми SVM та Random Forest для визначення важливих ознак. Потім побудуємо графік або таблицю, щоб показати важливість кожної ознаки в аналізі.

Крок 2: Визначення важливих ознак за допомогою SVM

In [14]:
from sklearn.svm import SVC
from sklearn.feature_selection import SelectFromModel

# Створення та навчання моделі SVM
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train)

# Визначення важливих ознак
svm_feature_importance = SelectFromModel(svm_model, prefit=True).get_support()

# Побудова таблиці для показу важливості кожної ознаки
svm_feature_table = {breast_cancer.feature_names[i]: svm_feature_importance[i] for i in range(len(breast_cancer.feature_names))}

print("Важливість ознак за допомогою SVM:")
for feature, importance in svm_feature_table.items():
    print(f"{feature}: {'Важлива' if importance else 'Не важлива'}")

Важливість ознак за допомогою SVM:
mean radius: Важлива
mean texture: Не важлива
mean perimeter: Не важлива
mean area: Не важлива
mean smoothness: Не важлива
mean compactness: Не важлива
mean concavity: Важлива
mean concave points: Не важлива
mean symmetry: Не важлива
mean fractal dimension: Не важлива
radius error: Не важлива
texture error: Важлива
perimeter error: Важлива
area error: Не важлива
smoothness error: Не важлива
compactness error: Не важлива
concavity error: Не важлива
concave points error: Не важлива
symmetry error: Не важлива
fractal dimension error: Не важлива
worst radius: Не важлива
worst texture: Не важлива
worst perimeter: Не важлива
worst area: Не важлива
worst smoothness: Важлива
worst compactness: Важлива
worst concavity: Важлива
worst concave points: Важлива
worst symmetry: Важлива
worst fractal dimension: Не важлива


Крок 3: Визначення важливих ознак за допомогою Random Forest:

In [15]:
from sklearn.ensemble import RandomForestClassifier

# Створення та навчання моделі Random Forest
rf_model = RandomForestClassifier()
rf_model.fit(X_train, y_train)

# Визначення важливих ознак
rf_feature_importance = rf_model.feature_importances_

# Побудова таблиці для показу важливості кожної ознаки
rf_feature_table = {breast_cancer.feature_names[i]: rf_feature_importance[i] for i in range(len(breast_cancer.feature_names))}

print("\nВажливість ознак за допомогою Random Forest:")
for feature, importance in rf_feature_table.items():
    print(f"{feature}: {importance:.4f}")


Важливість ознак за допомогою Random Forest:
mean radius: 0.0396
mean texture: 0.0141
mean perimeter: 0.0622
mean area: 0.0344
mean smoothness: 0.0076
mean compactness: 0.0065
mean concavity: 0.0339
mean concave points: 0.1299
mean symmetry: 0.0046
mean fractal dimension: 0.0038
radius error: 0.0161
texture error: 0.0054
perimeter error: 0.0167
area error: 0.0693
smoothness error: 0.0086
compactness error: 0.0047
concavity error: 0.0043
concave points error: 0.0059
symmetry error: 0.0040
fractal dimension error: 0.0049
worst radius: 0.0891
worst texture: 0.0139
worst perimeter: 0.1397
worst area: 0.0615
worst smoothness: 0.0124
worst compactness: 0.0184
worst concavity: 0.0545
worst concave points: 0.1104
worst symmetry: 0.0197
worst fractal dimension: 0.0041


Крок 4: Обчислення точності обох алгоритмів і порівняння їх результатів:

In [16]:
from sklearn.metrics import accuracy_score

# Прогнозування класів для SVM
y_pred_svm = svm_model.predict(X_test)

# Прогнозування класів для Random Forest
y_pred_rf = rf_model.predict(X_test)

# Визначення точності для SVM та Random Forest
accuracy_svm = accuracy_score(y_test, y_pred_svm)
accuracy_rf = accuracy_score(y_test, y_pred_rf)

# Виведення точності
print(f"Точність SVM: {accuracy_svm}")
print(f"Точність Random Forest: {accuracy_rf}")

if accuracy_svm > accuracy_rf:
    print("Модель SVM має кращу точність.")
elif accuracy_rf > accuracy_svm:
    print("Модель Random Forest має кращу точність.")
else:
    print("Обидві моделі мають однакову точність.")

Точність SVM: 0.9649122807017544
Точність Random Forest: 0.9707602339181286
Модель Random Forest має кращу точність.


Висновки:

- Random Forest показав кращу точність у цьому конкретному наборі даних про рак молочної залози. Це може свідчити про те, що ансамблеві методи, такі як Random Forest, можуть бути ефективні для цього типу завдань.
- Важливість ознак може варіюватися в залежності від вибору алгоритму та специфіки набору даних.
- Обидва методи, SVM та Random Forest, виявилися ефективними для цього конкретного завдання класифікації раку молочної залози, проте Random Forest показав кращий результат у цьому випадку.