<a href="https://colab.research.google.com/github/NastiiaKoval/Machine-Learning/blob/main/%D0%9A%D0%BE%D0%B2%D0%B0%D0%BB%D1%8C_%D0%BF%D1%80_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Класифікація на основі Breast Cancer Dataset

Опис Датасету Breast Cancer
Класифікація раку молочної залози на основі ознак, які вказують
на доброякісний (benign) чи злоякісний (malignant) характер
пухлини.

Датасет доступний у бібліотеці scikit-learn та отриманий з вивчення
медичних зображень.

1. Кількість зразків: 569
2. Кількість ознак: 30
Ознаки представляють різні характеристики клітинних ядер пухлини,
наприклад, радіус, текстуру, периметр, площу, гладкість тощо. Усі
ознаки числові.
- mean radius
- mean texture
- mean perimeter
- mean area
- mean smoothness

(інші 25 ознак, що вимірюються як середні значення,
стандартні відхилення та "worst" показники)
3. Цільова змінна: target
Класи:
- 0 (доброякісний, benign)
- 1 (злоякісний, malignant)

## Завантаження даних та попередній аналіз

- Перегляньте перші кілька рядків.
- Перевірте назви стовпців та типи даних.
- Перевірте наявність пропущених значень.
- Досліджуйте розмір даних

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Завантаження даних
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)

In [None]:
# Налаштування Pandas для виведення всіх колонок без обмежень
pd.set_option('display.max_columns', None)

# Перегляд перших кількох рядків
X.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,radius error,texture error,perimeter error,area error,smoothness error,compactness error,concavity error,concave points error,symmetry error,fractal dimension error,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,1.095,0.9053,8.589,153.4,0.006399,0.04904,0.05373,0.01587,0.03003,0.006193,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,0.5435,0.7339,3.398,74.08,0.005225,0.01308,0.0186,0.0134,0.01389,0.003532,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,0.7456,0.7869,4.585,94.03,0.00615,0.04006,0.03832,0.02058,0.0225,0.004571,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,0.4956,1.156,3.445,27.23,0.00911,0.07458,0.05661,0.01867,0.05963,0.009208,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,0.7572,0.7813,5.438,94.44,0.01149,0.02461,0.05688,0.01885,0.01756,0.005115,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [None]:
# Перевірка назв стовпців та типів даних
display(X.columns, X.dtypes)

Index(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error', 'fractal dimension error',
       'worst radius', 'worst texture', 'worst perimeter', 'worst area',
       'worst smoothness', 'worst compactness', 'worst concavity',
       'worst concave points', 'worst symmetry', 'worst fractal dimension'],
      dtype='object')

Unnamed: 0,0
mean radius,float64
mean texture,float64
mean perimeter,float64
mean area,float64
mean smoothness,float64
mean compactness,float64
mean concavity,float64
mean concave points,float64
mean symmetry,float64
mean fractal dimension,float64


In [None]:
# Перевірка наявності пропущених значень
X.isnull().sum()

Unnamed: 0,0
mean radius,0
mean texture,0
mean perimeter,0
mean area,0
mean smoothness,0
mean compactness,0
mean concavity,0
mean concave points,0
mean symmetry,0
mean fractal dimension,0


In [None]:
# Дослідження розміру даних
X.shape

(569, 30)

## Побудова та налаштування моделей
- Розділіть дані на навчальний і тестовий набори.
- Побудуйте три моделі класифікації (на власний вибір),
наприклад:
Логістична регресія.
Дерево рішень.
Випадковий ліс (Random Forest).
- Підберіть оптимальні параметри для кожної моделі за допомогою
GridSearchCV (можна вибрати інший оптимізатор).
- Оцініть моделі. Виведіть точність (accuracy) – обов’язково, матрицю
помилок (confusion matrix) – за вибором та звіт про класифікацію
(classification report) для кожної моделі

In [None]:
# Поділ на навчальний і тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабування даних
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Моделі класифікації
models = {
    'Logistic Regression': LogisticRegression(max_iter=10000, random_state=42),
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42)
}

In [None]:
# Параметри для GridSearchCV
params = {
    'Logistic Regression': {
        'C': [0.1, 1, 10, 100],
        'solver': ['liblinear']
    },
    'Decision Tree': {
        'max_depth': [None, 10, 20, 30],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4]
    },
    'Random Forest': {
        'n_estimators': [50, 100, 200],
        'max_depth': [None, 10, 20, 30],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4]
    }
}

In [None]:
# Налаштування та навчання моделей з GridSearchCV
best_models = {}
for model_name in models:
    grid = GridSearchCV(models[model_name], params[model_name], cv=5, n_jobs=-1, verbose=1)
    grid.fit(X_train_scaled, y_train)
    best_models[model_name] = grid.best_estimator_
    print(f'Найкращі параметри для {model_name}: {grid.best_params_}')

Fitting 5 folds for each of 4 candidates, totalling 20 fits
Найкращі параметри для Logistic Regression: {'C': 0.1, 'solver': 'liblinear'}
Fitting 5 folds for each of 36 candidates, totalling 180 fits
Найкращі параметри для Decision Tree: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 10}
Fitting 5 folds for each of 108 candidates, totalling 540 fits
Найкращі параметри для Random Forest: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 200}


## Оцінка моделей

In [None]:
for model_name, model in best_models.items():
    y_pred = model.predict(X_test_scaled)
    print(f'\nМодель: {model_name}')
    print(f'Accuracy: {accuracy_score(y_test, y_pred)}')
    print('Confusion Matrix:')
    print(confusion_matrix(y_test, y_pred))
    print('Classification Report:')
    print(classification_report(y_test, y_pred))



Модель: Logistic Regression
Accuracy: 0.9912280701754386
Confusion Matrix:
[[42  1]
 [ 0 71]]
Classification Report:
              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.99      1.00      0.99        71

    accuracy                           0.99       114
   macro avg       0.99      0.99      0.99       114
weighted avg       0.99      0.99      0.99       114


Модель: Decision Tree
Accuracy: 0.9473684210526315
Confusion Matrix:
[[40  3]
 [ 3 68]]
Classification Report:
              precision    recall  f1-score   support

           0       0.93      0.93      0.93        43
           1       0.96      0.96      0.96        71

    accuracy                           0.95       114
   macro avg       0.94      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114


Модель: Random Forest
Accuracy: 0.9649122807017544
Confusion Matrix:
[[40  3]
 [ 1 70]]
Classification Report:
    

Логістична регресія має найкраший score - 0.99

## Прогнозування та висновки

- Оберіть найкращу модель на основі метрик продуктивності.
-  Зробіть прогноз на тестовій вибірці.
- Виведіть результати прогнозування

In [None]:
# Вибір найкращої моделі (на основі Accuracy)
best_model_name = max(best_models, key=lambda name: accuracy_score(y_test, best_models[name].predict(X_test_scaled)))
best_model = best_models[best_model_name]

# Прогноз на тестовій вибірці
y_pred_best = best_model.predict(X_test_scaled)

# Виведення результатів
print(f'Найкраща модель: {best_model_name}')
print(f'Прогноз на тестовій вибірці: {y_pred_best[:10]}')

Найкраща модель: Logistic Regression
Прогноз на тестовій вибірці: [1 0 0 1 1 0 0 0 1 1]


# Класифікація на основі Titanic Dataset

PassengerId: Ідентифікатор пасажира.

Survived: Цільова змінна, що вказує на те, чи вижив пасажир (1) чи ні (0).

Pclass: Клас квитка (1, 2, 3).

Name: Ім'я пасажира.

Sex: Стать пасажира.

Age: Вік пасажира.

SibSp: Кількість братів, сестер, чоловіка/дружини на борту.

Parch: Кількість батьків/дітей на борту.

Ticket: Номер квитка.

Fare: Вартість квитка.

Cabin: Номер каюти (може бути відсутній).

Embarked: Порт посадки (C = Cherbourg; Q = Queenstown; S = Southampton).

## Завантаження даних та попередній аналіз

In [None]:
# Завантаження даних
titanic_df = pd.read_csv('titanic.csv')

In [None]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [None]:
# Перевірка назв стовпців та типів даних
display(titanic_df.columns, titanic_df.dtypes)

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Unnamed: 0,0
PassengerId,int64
Survived,int64
Pclass,int64
Name,object
Sex,object
Age,float64
SibSp,int64
Parch,int64
Ticket,object
Fare,float64


In [None]:
titanic_df.isnull().sum()

Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,86
SibSp,0
Parch,0
Ticket,0
Fare,1


In [None]:
titanic_df['Age'].fillna(titanic_df['Age'].mean(), inplace=True)
titanic_df['Cabin'].fillna(titanic_df['Cabin'].mode(), inplace=True)
titanic_df['Fare'].fillna(titanic_df['Fare'].mean(), inplace=True)

In [None]:
titanic_df.isnull().sum()

Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,0
SibSp,0
Parch,0
Ticket,0
Fare,0


In [None]:
print(f"Розмір даних: {titanic_df.shape}")


Розмір даних: (418, 12)


In [None]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,418.0,418.0,418.0,418.0,418.0
mean,1100.5,0.363636,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.481622,0.841838,12.634534,0.89676,0.981429,55.8405
min,892.0,0.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,0.0,1.0,23.0,0.0,0.0,7.8958
50%,1100.5,0.0,3.0,30.27259,0.0,0.0,14.4542
75%,1204.75,1.0,3.0,35.75,1.0,0.0,31.5
max,1309.0,1.0,3.0,76.0,8.0,9.0,512.3292


In [None]:
# Описова статистика категоріальних змінних
print(titanic_df.describe(include=['O']))

                    Name   Sex    Ticket            Cabin Embarked
count                418   418       418               91      418
unique               418     2       363               76        3
top     Kelly, Mr. James  male  PC 17608  B57 B59 B63 B66        S
freq                   1   266         5                3      270


In [None]:
# Перетворення категоріальних змінних у числові
titanic_df = pd.get_dummies(titanic_df, columns=['Sex', 'Embarked'], drop_first=True)

In [None]:
# Видалення непотрібних колонок
titanic_df.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

In [None]:
# Перевірка наявності дублікатів
print(f"Кількість дублікатів: {titanic_df.duplicated().sum()}")

Кількість дублікатів: 0


In [None]:
# Аналіз розподілу класів у цільовій змінній (Survived)
print(titanic_df['Survived'].value_counts(normalize=True))

Survived
0    0.636364
1    0.363636
Name: proportion, dtype: float64


## Побудова та налаштування моделей

In [None]:
# Визначення ознак і цільової змінної
X = titanic_df.drop('Survived', axis=1)
y = titanic_df['Survived']

# Поділ даних на навчальний і тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Масштабування даних
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
# Моделі класифікації
models = {
    'Logistic Regression': LogisticRegression(max_iter=10000, random_state=42),
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42)
}

In [None]:
# Параметри для GridSearchCV
params = {
    'Logistic Regression': {
        'C': [0.1, 1, 10],
        'solver': ['liblinear']
    },
    'Decision Tree': {
        'max_depth': [None, 10],
        'min_samples_split': [2, 5],
        'min_samples_leaf': [1, 2]
    },
    'Random Forest': {
        'n_estimators': [50, 100],
        'max_depth': [10, 20],
        'min_samples_split': [2, 5],
        'min_samples_leaf': [1, 2]
    }
}


In [None]:
# Налаштування та навчання моделей з GridSearchCV
best_models = {}
for model_name in models:
    grid = GridSearchCV(models[model_name], params[model_name], cv=5, n_jobs=-1, verbose=1)
    grid.fit(X_train_scaled, y_train)
    best_models[model_name] = grid.best_estimator_
    print(f'Найкращі параметри для {model_name}: {grid.best_params_}')

Fitting 5 folds for each of 3 candidates, totalling 15 fits
Найкращі параметри для Logistic Regression: {'C': 0.1, 'solver': 'liblinear'}
Fitting 5 folds for each of 8 candidates, totalling 40 fits
Найкращі параметри для Decision Tree: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2}
Fitting 5 folds for each of 16 candidates, totalling 80 fits
Найкращі параметри для Random Forest: {'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 50}


## Оцінка моделей

In [None]:
# Оцінка моделей
for model_name, model in best_models.items():
    y_pred = model.predict(X_test_scaled)
    print(f'\nМодель: {model_name}')
    print(f'Accuracy: {accuracy_score(y_test, y_pred)}')
    print('Confusion Matrix:')
    print(confusion_matrix(y_test, y_pred))
    print('Classification Report:')
    print(classification_report(y_test, y_pred))


Модель: Logistic Regression
Accuracy: 1.0
Confusion Matrix:
[[50  0]
 [ 0 34]]
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       1.00      1.00      1.00        34

    accuracy                           1.00        84
   macro avg       1.00      1.00      1.00        84
weighted avg       1.00      1.00      1.00        84


Модель: Decision Tree
Accuracy: 1.0
Confusion Matrix:
[[50  0]
 [ 0 34]]
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       1.00      1.00      1.00        34

    accuracy                           1.00        84
   macro avg       1.00      1.00      1.00        84
weighted avg       1.00      1.00      1.00        84


Модель: Random Forest
Accuracy: 1.0
Confusion Matrix:
[[50  0]
 [ 0 34]]
Classification Report:
              precision    recall  f1-score   sup

In [None]:
# Вибір найкращої моделі на основі метрики Accuracy
best_model_name = max(best_models, key=lambda name: accuracy_score(y_test, best_models[name].predict(X_test_scaled)))
best_model = best_models[best_model_name]

# Прогноз для тестової вибірки
y_pred_best = best_model.predict(X_test_scaled)

In [None]:
# Виведення результатів прогнозування
print(f'\nНайкраща модель: {best_model_name}')
print(f'Accuracy: {accuracy_score(y_test, y_pred)}')


Найкраща модель: Logistic Regression
Accuracy: 1.0


Але всі моделі дають однаковий ідеальний f1-score, що може означати, що вони перенавчені й потребують регуляризації.