Завдання 1

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import pandas as pd

In [2]:
data = load_breast_cancer()

# Створення DataFrame для зручного перегляду даних
df = pd.DataFrame(data.data, columns=data.feature_names)

In [3]:
df['target'] = data.target

In [4]:
print(df.head())

   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst texture  worst perimeter  worst area  \
0             

In [5]:
print(df.columns)
print(df.dtypes)

Index(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error', 'fractal dimension error',
       'worst radius', 'worst texture', 'worst perimeter', 'worst area',
       'worst smoothness', 'worst compactness', 'worst concavity',
       'worst concave points', 'worst symmetry', 'worst fractal dimension',
       'target'],
      dtype='object')
mean radius                float64
mean texture               float64
mean perimeter             float64
mean area                  float64
mean smoothness            float64
mean compactness           float64
mean concavity             float64
mean concave points        float64
mean symmetry              float64
mean fr

In [6]:
# Перевірка наявності пропущених значень
missing_values = df.isnull().sum()
print(missing_values)

mean radius                0
mean texture               0
mean perimeter             0
mean area                  0
mean smoothness            0
mean compactness           0
mean concavity             0
mean concave points        0
mean symmetry              0
mean fractal dimension     0
radius error               0
texture error              0
perimeter error            0
area error                 0
smoothness error           0
compactness error          0
concavity error            0
concave points error       0
symmetry error             0
fractal dimension error    0
worst radius               0
worst texture              0
worst perimeter            0
worst area                 0
worst smoothness           0
worst compactness          0
worst concavity            0
worst concave points       0
worst symmetry             0
worst fractal dimension    0
target                     0
dtype: int64


In [7]:
# Дослідження розміру даних
print(f"Розмір даних: {df.shape}")


Розмір даних: (569, 31)


2. Побудова і налаштування моделей:

2.1

In [8]:
# Розділення даних на ознаки (X) і цільову змінну (y)
X = df.drop(columns=['target'])
y = df['target']

In [9]:
# Розділення на навчальний і тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [10]:
print(f"Розмір навчального набору: X_train: {X_train.shape}, y_train: {y_train.shape}")
print(f"Розмір тестового набору: X_test: {X_test.shape}, y_test: {y_test.shape}")

Розмір навчального набору: X_train: (455, 30), y_train: (455,)
Розмір тестового набору: X_test: (114, 30), y_test: (114,)


2.2

In [11]:
# 1. Логістична регресія
logreg = LogisticRegression(max_iter=10000, random_state=42)
logreg.fit(X_train, y_train)
y_pred_logreg = logreg.predict(X_test)
logreg_accuracy = accuracy_score(y_test, y_pred_logreg)
print(f"Точність Логістичної регресії: {logreg_accuracy:.4f}")


Точність Логістичної регресії: 0.9561


In [12]:
# 2. Дерево рішень
decision_tree = DecisionTreeClassifier(random_state=42)
decision_tree.fit(X_train, y_train)
y_pred_tree = decision_tree.predict(X_test)
tree_accuracy = accuracy_score(y_test, y_pred_tree)
print(f"Точність Дерева рішень: {tree_accuracy:.4f}")

Точність Дерева рішень: 0.9474


In [13]:
# 3. Випадковий ліс
random_forest = RandomForestClassifier(random_state=42)
random_forest.fit(X_train, y_train)
y_pred_forest = random_forest.predict(X_test)
forest_accuracy = accuracy_score(y_test, y_pred_forest)
print(f"Точність Випадкового лісу: {forest_accuracy:.4f}")

Точність Випадкового лісу: 0.9649


2.3

In [14]:
logreg = LogisticRegression(max_iter=10000, random_state=42)
param_grid_logreg = {
    'C': [0.1, 1, 10, 100],
    'solver': ['lbfgs', 'liblinear'],
}
grid_search_logreg = GridSearchCV(logreg, param_grid_logreg, cv=5, scoring='accuracy')
grid_search_logreg.fit(X_train, y_train)
print(f"Найкращі параметри для Логістичної регресії: {grid_search_logreg.best_params_}")
print(f"Найкраща точність для Логістичної регресії: {grid_search_logreg.best_score_:.4f}")

Найкращі параметри для Логістичної регресії: {'C': 100, 'solver': 'lbfgs'}
Найкраща точність для Логістичної регресії: 0.9648


In [15]:
# 2. Дерево рішень - підбір параметрів
decision_tree = DecisionTreeClassifier(random_state=42)
param_grid_tree = {
    'max_depth': [3, 5, 7, 10, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
}
grid_search_tree = GridSearchCV(decision_tree, param_grid_tree, cv=5, scoring='accuracy')
grid_search_tree.fit(X_train, y_train)
print(f"Найкращі параметри для Дерева рішень: {grid_search_tree.best_params_}")
print(f"Найкраща точність для Дерева рішень: {grid_search_tree.best_score_:.4f}")

Найкращі параметри для Дерева рішень: {'max_depth': 3, 'min_samples_leaf': 1, 'min_samples_split': 2}
Найкраща точність для Дерева рішень: 0.9319


In [16]:
# 3. Випадковий ліс - підбір параметрів
random_forest = RandomForestClassifier(random_state=42)
param_grid_forest = {
    'n_estimators': [50, 100],
    'max_depth': [3, 5, 10, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [ 2, 4],
}
grid_search_forest = GridSearchCV(random_forest, param_grid_forest, cv=5, scoring='accuracy')
grid_search_forest.fit(X_train, y_train)
print(f"Найкращі параметри для Випадкового лісу: {grid_search_forest.best_params_}")
print(f"Найкраща точність для Випадкового лісу: {grid_search_forest.best_score_:.4f}")

Найкращі параметри для Випадкового лісу: {'max_depth': 5, 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 50}
Найкраща точність для Випадкового лісу: 0.9604


2.4

In [17]:

# Оцінка моделей на тестовому наборі

# 1. Логістична регресія
best_logreg = grid_search_logreg.best_estimator_
y_pred_logreg = best_logreg.predict(X_test)
logreg_accuracy = accuracy_score(y_test, y_pred_logreg)
print(f"Точність Логістичної регресії: {logreg_accuracy:.4f}")
print("Матриця помилок для Логістичної регресії:")
print(confusion_matrix(y_test, y_pred_logreg))
print("Звіт про класифікацію для Логістичної регресії:")
print(classification_report(y_test, y_pred_logreg))

Точність Логістичної регресії: 0.9561
Матриця помилок для Логістичної регресії:
[[39  4]
 [ 1 70]]
Звіт про класифікацію для Логістичної регресії:
              precision    recall  f1-score   support

           0       0.97      0.91      0.94        43
           1       0.95      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.96      0.95      0.95       114
weighted avg       0.96      0.96      0.96       114



In [18]:
# 2. Дерево рішень
best_tree = grid_search_tree.best_estimator_
y_pred_tree = best_tree.predict(X_test)
tree_accuracy = accuracy_score(y_test, y_pred_tree)
print(f"Точність Дерева рішень: {tree_accuracy:.4f}")
print("Матриця помилок для Дерева рішень:")
print(confusion_matrix(y_test, y_pred_tree))
print("Звіт про класифікацію для Дерева рішень:")
print(classification_report(y_test, y_pred_tree))

Точність Дерева рішень: 0.9474
Матриця помилок для Дерева рішень:
[[39  4]
 [ 2 69]]
Звіт про класифікацію для Дерева рішень:
              precision    recall  f1-score   support

           0       0.95      0.91      0.93        43
           1       0.95      0.97      0.96        71

    accuracy                           0.95       114
   macro avg       0.95      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114



In [19]:
# 3. Випадковий ліс
best_forest = grid_search_forest.best_estimator_
y_pred_forest = best_forest.predict(X_test)
forest_accuracy = accuracy_score(y_test, y_pred_forest)
print(f"Точність Випадкового лісу: {forest_accuracy:.4f}")
print("Матриця помилок для Випадкового лісу:")
print(confusion_matrix(y_test, y_pred_forest))
print("Звіт про класифікацію для Випадкового лісу:")
print(classification_report(y_test, y_pred_forest))

Точність Випадкового лісу: 0.9649
Матриця помилок для Випадкового лісу:
[[40  3]
 [ 1 70]]
Звіт про класифікацію для Випадкового лісу:
              precision    recall  f1-score   support

           0       0.98      0.93      0.95        43
           1       0.96      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114

