<a href="https://colab.research.google.com/github/Tutyanka/labs_for_wonderful/blob/main/lab3_bd.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [19]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [20]:
# завантажую вбудований датасет
data = load_breast_cancer()

# датафрейм з ознаками
df = pd.DataFrame(data.data, columns=data.feature_names)

# додаю цільовий стовпець (0 - benign, 1 - malignant)
df["target"] = data.target

print("Перші рядки датасету:")
print(df.head())

print("\nІнформація про датафрейм:")
print(df.info())

print("\nОписова статистика:")
print(df.describe())

print("\nБаланс класів (0 - доброякісна, 1 - злоякісна):")
print(df["target"].value_counts())

Перші рядки датасету:
   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst texture  worst perimeter  worst 

In [21]:
# відокремлюю ознаки та ціль
X = df.drop("target", axis=1)
y = df["target"]

# ділю дані на тренувальну і тестову вибірки (80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print("Форма X_train:", X_train.shape)
print("Форма X_test :", X_test.shape)

Форма X_train: (455, 30)
Форма X_test : (114, 30)


In [22]:
# масштабування ознак для моделей, яким це потрібно (LR і SVM)
scaler = StandardScaler()

# навчаю скейлер на тренувальних даних
X_train_scaled = scaler.fit_transform(X_train)

# застосовую ті самі параметри до тестових
X_test_scaled = scaler.transform(X_test)

In [23]:
# Логістична регресія (лінійна модель, працює на масштабованих даних)

model_lr = LogisticRegression(max_iter=500)
model_lr.fit(X_train_scaled, y_train)

# передбачення на тестовій вибірці
y_pred_lr = model_lr.predict(X_test_scaled)

# метрики
lr_acc = accuracy_score(y_test, y_pred_lr)
lr_prec = precision_score(y_test, y_pred_lr)
lr_rec = recall_score(y_test, y_pred_lr)
lr_f1 = f1_score(y_test, y_pred_lr)

print("Logistic Regression")
print("Accuracy :", lr_acc)
print("Precision:", lr_prec)
print("Recall   :", lr_rec)
print("F1-score :", lr_f1)

Logistic Regression
Accuracy : 0.9736842105263158
Precision: 0.9722222222222222
Recall   : 0.9859154929577465
F1-score : 0.9790209790209791


In [24]:
# SVM з лінійним ядром (також потребує масштабування)

model_svm_linear = SVC(kernel="linear")
model_svm_linear.fit(X_train_scaled, y_train)

y_pred_svm_lin = model_svm_linear.predict(X_test_scaled)

svm_lin_acc = accuracy_score(y_test, y_pred_svm_lin)
svm_lin_prec = precision_score(y_test, y_pred_svm_lin)
svm_lin_rec = recall_score(y_test, y_pred_svm_lin)
svm_lin_f1 = f1_score(y_test, y_pred_svm_lin)

print("SVM (linear kernel)")
print("Accuracy :", svm_lin_acc)
print("Precision:", svm_lin_prec)
print("Recall   :", svm_lin_rec)
print("F1-score :", svm_lin_f1)

SVM (linear kernel)
Accuracy : 0.956140350877193
Precision: 0.9714285714285714
Recall   : 0.9577464788732394
F1-score : 0.9645390070921985


In [25]:
# SVM з rbf-ядром (нелінійний варіант)

model_svm_rbf = SVC(kernel="rbf")
model_svm_rbf.fit(X_train_scaled, y_train)

y_pred_svm_rbf = model_svm_rbf.predict(X_test_scaled)

svm_rbf_acc = accuracy_score(y_test, y_pred_svm_rbf)
svm_rbf_prec = precision_score(y_test, y_pred_svm_rbf)
svm_rbf_rec = recall_score(y_test, y_pred_svm_rbf)
svm_rbf_f1 = f1_score(y_test, y_pred_svm_rbf)

print("SVM (rbf kernel)")
print("Accuracy :", svm_rbf_acc)
print("Precision:", svm_rbf_prec)
print("Recall   :", svm_rbf_rec)
print("F1-score :", svm_rbf_f1)

SVM (rbf kernel)
Accuracy : 0.9824561403508771
Precision: 0.9726027397260274
Recall   : 1.0
F1-score : 0.9861111111111112


In [26]:
# Random Forest (дерева, працюють на немасштабованих ознаках)

model_rf = RandomForestClassifier(random_state=42)
model_rf.fit(X_train, y_train)

y_pred_rf = model_rf.predict(X_test)

rf_acc = accuracy_score(y_test, y_pred_rf)
rf_prec = precision_score(y_test, y_pred_rf)
rf_rec = recall_score(y_test, y_pred_rf)
rf_f1 = f1_score(y_test, y_pred_rf)

print("Random Forest")
print("Accuracy :", rf_acc)
print("Precision:", rf_prec)
print("Recall   :", rf_rec)
print("F1-score :", rf_f1)

Random Forest
Accuracy : 0.9649122807017544
Precision: 0.958904109589041
Recall   : 0.9859154929577465
F1-score : 0.9722222222222222


In [27]:
# зводжу всі результати в одну таблицю для порівняння

results = pd.DataFrame({
    "Model": ["Logistic Regression", "SVM (Linear)", "SVM (RBF)", "Random Forest"],
    "Accuracy": [lr_acc, svm_lin_acc, svm_rbf_acc, rf_acc],
    "Precision": [lr_prec, svm_lin_prec, svm_rbf_prec, rf_prec],
    "Recall": [lr_rec, svm_lin_rec, svm_rbf_rec, rf_rec],
    "F1-score": [lr_f1, svm_lin_f1, svm_rbf_f1, rf_f1]
})

print("Порівняльні метрики моделей:")
print(results)

Порівняльні метрики моделей:
                 Model  Accuracy  Precision    Recall  F1-score
0  Logistic Regression  0.973684   0.972222  0.985915  0.979021
1         SVM (Linear)  0.956140   0.971429  0.957746  0.964539
2            SVM (RBF)  0.982456   0.972603  1.000000  0.986111
3        Random Forest  0.964912   0.958904  0.985915  0.972222
