In [2]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.svm import SVC

In [3]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer

# Завантаження датасету Wine
data = load_breast_cancer()

# Перетворення на DataFrame
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# Виведення перших рядків DataFrame
df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


In [4]:
#Перевірте назви стовпців та типи даних.
print("\nColumn names:")
df.columns


Column names:


Index(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error', 'fractal dimension error',
       'worst radius', 'worst texture', 'worst perimeter', 'worst area',
       'worst smoothness', 'worst compactness', 'worst concavity',
       'worst concave points', 'worst symmetry', 'worst fractal dimension',
       'target'],
      dtype='object')

In [5]:
print("\nData types of each column:")
df.dtypes


Data types of each column:


Unnamed: 0,0
mean radius,float64
mean texture,float64
mean perimeter,float64
mean area,float64
mean smoothness,float64
mean compactness,float64
mean concavity,float64
mean concave points,float64
mean symmetry,float64
mean fractal dimension,float64


In [6]:
#Перевірте наявність пропущених значень.
print("Missing values:")
df.isnull().sum()

Missing values:


Unnamed: 0,0
mean radius,0
mean texture,0
mean perimeter,0
mean area,0
mean smoothness,0
mean compactness,0
mean concavity,0
mean concave points,0
mean symmetry,0
mean fractal dimension,0


In [7]:
#Досліджуйте розмір даних.
print("Size of the DataFrame:")
df.shape

Size of the DataFrame:


(569, 31)

In [8]:
#Розділіть дані на навчальний і тестовий набори
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# Масштабування даних
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [9]:
# Логістична регресія
log_reg = LogisticRegression(max_iter=10000)
# Random Forest
rf_clf = RandomForestClassifier(random_state=42)
# Дерево рішень
tree_clf = DecisionTreeClassifier(random_state=42)
# Набір параметрів для GridSearch
param_grid_log_reg = {
    'C': [0.1, 1.0, 10.0],
    'penalty': ['l2'],
    'solver': ['lbfgs', 'liblinear']
}
param_grid_rf = {
    'n_estimators': [50, 100],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}
param_grid_tree = {
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}

# Використання GridSearchCV для підбору параметрів
grid_search_log_reg = GridSearchCV(log_reg, param_grid_log_reg, cv=5, scoring='accuracy')
grid_search_rf = GridSearchCV(rf_clf, param_grid_rf, cv=5, scoring='accuracy')
grid_search_tree = GridSearchCV(tree_clf, param_grid_tree, cv=5, scoring='accuracy')

grid_search_log_reg.fit(X_train, y_train)
grid_search_rf.fit(X_train, y_train)
grid_search_tree.fit(X_train, y_train)

best_log_reg = grid_search_log_reg.best_estimator_
best_rf = grid_search_rf.best_estimator_
best_tree = grid_search_tree.best_estimator_

# Прогнозування
y_pred_log_reg = best_log_reg.predict(X_test)
y_pred_rf = best_rf.predict(X_test)
y_pred_tree = best_tree.predict(X_test)

# Оцінка точності моделей
accuracy_log_reg = accuracy_score(y_test, y_pred_log_reg)
accuracy_rf = accuracy_score(y_test, y_pred_rf)
accuracy_tree = accuracy_score(y_test, y_pred_tree)

# Виведення результатів
print(f"Логістична регресія - Точність: {accuracy_log_reg:.4f}")
print(f"Random Forest - Точність: {accuracy_rf:.4f}")
print(f"Дерево рішень - Точність: {accuracy_tree:.4f}")

print("\nОптимальні параметри для Логістичної регресії:", grid_search_log_reg.best_params_)
print("Оптимальні параметри для Random Forest:", grid_search_rf.best_params_)
print("Оптимальні параметри для Дерева рішень:", grid_search_tree.best_params_)

Логістична регресія - Точність: 0.9942
Random Forest - Точність: 0.9591
Дерево рішень - Точність: 0.9415

Оптимальні параметри для Логістичної регресії: {'C': 0.1, 'penalty': 'l2', 'solver': 'liblinear'}
Оптимальні параметри для Random Forest: {'max_depth': None, 'min_samples_leaf': 2, 'min_samples_split': 5, 'n_estimators': 100}
Оптимальні параметри для Дерева рішень: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 5}


In [10]:
# Виведення звіту про класифікацію для Логістичної регресії
print("Звіт про класифікацію для Логістичної регресії:")
print(classification_report(y_test, y_pred_log_reg))

# Виведення звіту про класифікацію для Random Forest
print("\nЗвіт про класифікацію для Random Forest:")
print(classification_report(y_test, y_pred_rf))

# Виведення звіту про класифікацію для Дерева рішень
print("\nЗвіт про класифікацію для Дерева рішень:")
print(classification_report(y_test, y_pred_tree))

Звіт про класифікацію для Логістичної регресії:
              precision    recall  f1-score   support

           0       1.00      0.98      0.99        63
           1       0.99      1.00      1.00       108

    accuracy                           0.99       171
   macro avg       1.00      0.99      0.99       171
weighted avg       0.99      0.99      0.99       171


Звіт про класифікацію для Random Forest:
              precision    recall  f1-score   support

           0       0.97      0.92      0.94        63
           1       0.95      0.98      0.97       108

    accuracy                           0.96       171
   macro avg       0.96      0.95      0.96       171
weighted avg       0.96      0.96      0.96       171


Звіт про класифікацію для Дерева рішень:
              precision    recall  f1-score   support

           0       0.90      0.95      0.92        63
           1       0.97      0.94      0.95       108

    accuracy                           0.94       

In [11]:
print(f"\nНайкраща модель: Логістична регресія")

# Виведення результатів прогнозування для найкращої моделі
print("\nПрогнозовані значення:")
print(y_pred_log_reg)

# Виведення справжніх значень
print("\nСправжні значення:")
print(y_test)


Найкраща модель: Логістична регресія

Прогнозовані значення:
[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 0 1 1 0 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0 1 0 1 1 1 0 1 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 1 0 1 0 1 1 0 1 0 0
 0 1 0 1 1 1 1 0 0 1 1 1 1 1 1 1 0 1 1 1 1 0 1]

Справжні значення:
[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 0 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 0 1 1 0 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0 1 0 1 1 1 0 1 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 1 0 1 0 1 1 0 1 0 0
 0 1 0 1 1 1 1 0 0 1 1 1 1 1 1 1 0 1 1 1 1 0 1]


**Висновок:**
Під час роботи з датасетом load_breast_cancer після ряду операцій попереднього аналізу даних були побудовані три моделі: логістична регресія, випадковий ліс і дерево рішень. Для кожної моделі за допомогою GridSearch було підібрано оптимальні параметри. Основні метрики продуктивності моделей оцінювалися на тестовій вибірці, і я отримав точність, звіт про класифікацію та порівняв різні показники.
На основі результатів я визначив, що логістична регресія є найбільш ефективною моделлю для цього завдання, оскільки вона продемонстрував найвищу точність та кращі метрики в загальному порівнянні з іншими моделями.
Були виведені справжні і прогнозовані значення допомогли перевірити, як модель справляється з класифікацією на тестовій вибірці.

**Задання 2:**

In [12]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [13]:
#1. Вивести перших 5 рядків.
file_path = '/content/drive/My Drive/titanic.csv'
df = pd.read_csv(file_path)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [14]:
#2. Визначити розмір датасета
df.shape

(418, 12)

In [15]:
#3. Визначити тип даних.
print("Data types of each row:\n", df.dtypes)

Data types of each row:
 PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object


In [16]:
#Визначити наявність пропущених значень
df.isnull().sum()

Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,86
SibSp,0
Parch,0
Ticket,0
Fare,1


In [17]:
#4. Визначити наявність пропущених значень. При наявності, замінити
#пропущені значення на середнє значення.
df = df.replace({'-': np.NaN})
df = df.fillna(df.mean(numeric_only=True), axis = 0)
#8. Видалити стовпчик Cabin
df.drop('Cabin', axis = 1, inplace=True)
df = df[['Survived', 'Pclass', 'Sex', 'Age', 'Fare']]

In [18]:
#5. Перевірка
df.isnull().sum()

Unnamed: 0,0
Survived,0
Pclass,0
Sex,0
Age,0
Fare,0


In [19]:
#6. Перевірити наявність дублікатів. При наявності видалити дублікати.
df_unique = df.drop_duplicates()
print(df_unique)

     Survived  Pclass     Sex       Age      Fare
0           0       3    male  34.50000    7.8292
1           1       3  female  47.00000    7.0000
2           0       2    male  62.00000    9.6875
3           0       3    male  27.00000    8.6625
4           1       3  female  22.00000   12.2875
..        ...     ...     ...       ...       ...
411         1       1  female  37.00000   90.0000
412         1       3  female  28.00000    7.7750
414         1       1  female  39.00000  108.9000
415         0       3    male  38.50000    7.2500
417         0       3    male  30.27259   22.3583

[372 rows x 5 columns]


In [20]:
#7. Вивести описову статистику датасету describe()
descrip = df.describe()
print("Description:\n", descrip)

Description:
          Survived      Pclass         Age        Fare
count  418.000000  418.000000  418.000000  418.000000
mean     0.363636    2.265550   30.272590   35.627188
std      0.481622    0.841838   12.634534   55.840500
min      0.000000    1.000000    0.170000    0.000000
25%      0.000000    1.000000   23.000000    7.895800
50%      0.000000    3.000000   30.272590   14.454200
75%      1.000000    3.000000   35.750000   31.500000
max      1.000000    3.000000   76.000000  512.329200


In [21]:
#10.Замінити бінарні ознаки (Стать) на 0 і 1 (але перевірте унікальні
#значення даного стовпчика).
df['Sex'] = df['Sex'].replace({'female':1,'male':0}).astype(int)
df.dtypes
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,Fare
0,0,3,0,34.5,7.8292
1,1,3,1,47.0,7.0
2,0,2,0,62.0,9.6875
3,0,3,0,27.0,8.6625
4,1,3,1,22.0,12.2875


In [22]:
# 2. Підготовка ознак (X) та цільової змінної (y)
X = df.drop(columns=['Survived'])
y = df['Survived']

X = X.fillna(X.mean())

# 3. Розділення на навчальний і тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 4. Масштабування даних
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [23]:
# Логістична регресія
log_reg = LogisticRegression(max_iter=10000)
# Random Forest
rf_clf = RandomForestClassifier(random_state=42)
# Дерево рішень
tree_clf = DecisionTreeClassifier(random_state=42)

param_grid_log_reg = {
    'C': [0.1, 1.0, 10.0],
    'penalty': ['l2'],
    'solver': ['lbfgs', 'liblinear']
}
param_grid_rf = {
    'n_estimators': [50, 100],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}
param_grid_tree = {
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}

# Використання GridSearchCV для підбору параметрів
grid_search_log_reg = GridSearchCV(log_reg, param_grid_log_reg, cv=5, scoring='accuracy')
grid_search_rf = GridSearchCV(rf_clf, param_grid_rf, cv=5, scoring='accuracy')
grid_search_tree = GridSearchCV(tree_clf, param_grid_tree, cv=5, scoring='accuracy')

grid_search_log_reg.fit(X_train, y_train)
grid_search_rf.fit(X_train, y_train)
grid_search_tree.fit(X_train, y_train)

best_log_reg = grid_search_log_reg.best_estimator_
best_rf = grid_search_rf.best_estimator_
best_tree = grid_search_tree.best_estimator_

# Прогнозування
y_pred_log_reg = best_log_reg.predict(X_test)
y_pred_rf = best_rf.predict(X_test)
y_pred_tree = best_tree.predict(X_test)

# Оцінка точності моделей
accuracy_log_reg = accuracy_score(y_test, y_pred_log_reg)
accuracy_rf = accuracy_score(y_test, y_pred_rf)
accuracy_tree = accuracy_score(y_test, y_pred_tree)

# Виведення результатів
print(f"Логістична регресія - Точність: {accuracy_log_reg:.4f}")
print(f"Random Forest - Точність: {accuracy_rf:.4f}")
print(f"Дерево рішень - Точність: {accuracy_tree:.4f}")

print("\nОптимальні параметри для Логістичної регресії:", grid_search_log_reg.best_params_)
print("Оптимальні параметри для Random Forest:", grid_search_rf.best_params_)
print("Оптимальні параметри для Дерева рішень:", grid_search_tree.best_params_)

Логістична регресія - Точність: 1.0000
Random Forest - Точність: 1.0000
Дерево рішень - Точність: 1.0000

Оптимальні параметри для Логістичної регресії: {'C': 0.1, 'penalty': 'l2', 'solver': 'lbfgs'}
Оптимальні параметри для Random Forest: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 50}
Оптимальні параметри для Дерева рішень: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2}


In [24]:
# Виведення звіту про класифікацію для Логістичної регресії
print("Звіт про класифікацію для Логістичної регресії:")
print(classification_report(y_test, y_pred_log_reg))

# Виведення звіту про класифікацію для Random Forest
print("\nЗвіт про класифікацію для Random Forest:")
print(classification_report(y_test, y_pred_rf))

# Виведення звіту про класифікацію для Дерева рішень
print("\nЗвіт про класифікацію для Дерева рішень:")
print(classification_report(y_test, y_pred_tree))

Звіт про класифікацію для Логістичної регресії:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        85
           1       1.00      1.00      1.00        41

    accuracy                           1.00       126
   macro avg       1.00      1.00      1.00       126
weighted avg       1.00      1.00      1.00       126


Звіт про класифікацію для Random Forest:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        85
           1       1.00      1.00      1.00        41

    accuracy                           1.00       126
   macro avg       1.00      1.00      1.00       126
weighted avg       1.00      1.00      1.00       126


Звіт про класифікацію для Дерева рішень:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        85
           1       1.00      1.00      1.00        41

    accuracy                           1.00       

In [25]:
print(f"\nУсі три моделі дали ідеальний результат. Наприклад: Логістична регресія")

# Виведення результатів прогнозування для найкращої моделі
print("\nПрогнозовані значення:")
print(y_pred_log_reg)

# Виведення справжніх значень
print("\nСправжні значення:")
print(y_test)


Найкраща модель: Логістична регресія

Прогнозовані значення:
[0 1 0 0 1 0 1 0 1 0 0 1 1 1 0 0 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 1 1 0 1 0 1
 0 1 0 1 1 0 0 0 0 1 1 1 0 0 1 1 0 0 1 0 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1
 0 1 0 1 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0
 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0]

Справжні значення:
321    0
324    1
388    0
56     0
153    1
      ..
101    0
310    0
29     0
195    0
390    0
Name: Survived, Length: 126, dtype: int64


**Висновок:**
Під час роботи з датасетом Titanic я виконав кілька важливих кроків. Спершу я завантажив дані та провів їх попередню обробку, включаючи обробку пропущених значень та вибір цільової змінної. Потім розділив дані на тренувальну та тестову вибірки, а також масштабував ознаки для коректної роботи моделей.
Після цього я побудував три моделі: логістичну регресію, Random Forest і дерево рішень. Для кожної моделі було підібрано оптимальні параметри за допомогою GridSearchCV. Оцінив продуктивність моделей за точністю, де всі три моделі показали рівно ідеальні результати.
Завершальним етапом оцінка, наскільки точними є прогнози моделей у конкретних випадках