In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

In [2]:
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
columns = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']

# Завантажуємо дані
data = pd.read_csv(url, names=columns)

# Вивчаємо перші рядки набору даних
data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


Набір даних Pima Indians Diabetes Dataset містить інформацію про жінок з індіанського племені Піма (США) і використовується для прогнозування наявності діабету (бінарна класифікація). Усі пацієнти — жінки віком від 21 року. Набір даних відомий своєю медичною спрямованістю і широко застосовується для навчання та тестування алгоритмів машинного навчання.

Загальні характеристики:
- Кількість записів: 768
- Кількість ознак: 8

Тип завдання: бінарна класифікація (прогнозування наявності діабету).
Цей набір даних є відомим у медичних дослідженнях і використовується для побудови моделей, які прогнозують ризик розвитку діабету на основі різних медичних показників.

**Опис ознак:**

- Набір даних містить 8 ознак (незалежних змінних) і 1 цільову змінну (незалежна змінна).

- Number of pregnancies (кількість вагітностей). Кількість разів, коли жінка була вагітна.

- Plasma glucose concentration (Glucose). Концентрація глюкози в плазмі через 2 години після тесту на толерантність до глюкози.

- Diastolic blood pressure (BloodPressure). Діастолічний артеріальний тиск (мм рт. ст.).

- Triceps skin fold thickness (SkinThickness). Товщина шкірної складки на трицепсі (мм).

- 2-Hour serum insulin (Insulin). Рівень інсуліну в сироватці крові через 2 години (міжнародні одиниці/мл).

- Body mass index (BMI). Індекс маси тіла (вага в кг / (зріст в м²)).

- Diabetes pedigree function. Функція родоводу діабету (ймовірність виникнення діабету на основі сімейної історії).

- Age (Вік). Вік пацієнтки в роках.

*Цільова змінна*: Outcome (Diabetes): Наявність або відсутність діабету (0 — немає діабету, 1 — є діабет).


**Завдання 1**
Розділіть дані на ознаки та цільову змінну
скористайтеся методом drop:
```
df.drop('target', axis=1)
```



In [3]:
X = data.drop(['Outcome'], axis=1)
y = data['Outcome']

**Завдання 2**

Розділіть дані на тренувальну і тестову вибірку у відношенні 70/30

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)

**Завдання 3**

Використайте StandardScaler для масштабування тренувальних і тестових даних.

In [5]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

**Завдання 4**

Визначне модель логістичної регресії (як екземпляр класа LogisticRegression()), натренуйте модель на відмасштабованих навчальних даних та зробіть прогнози y_pred_log_reg на тестових відмасштабованих даних.

In [6]:
log_reg = LogisticRegression(random_state=0)

log_reg.fit(X_train, y_train)

y_pred_log_reg = log_reg.predict(X_test)

y_pred_log_reg

array([1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1,
       0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0])

**Завдання 5**

Аналогічне завдання, але для дерева рішень. Використайте DecisionTreeClassifier().

Визначне модель логістичної регресії (як екземпляр класа DecisionTreeClassifier()), натренуйте модель на відмасштабованих навчальних даних та зробіть прогнози y_pred_tree на тестових відмасштабованих даних.

In [7]:
tree_model = DecisionTreeClassifier(random_state=0)

tree_model.fit(X_train, y_train)

y_pred_tree = tree_model.predict(X_test)

y_pred_tree

array([1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1,
       0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1,
       0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1,
       0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
       0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0,
       0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0])

У висновку в звіті порівняйте дві моделі. Для цього скористайтеся кодом нижче. Звертайте увагу лише на метрики у рядку 1.

In [8]:
# Оцінка точності та звіти

print("Logistic Regression Accuracy:", accuracy_score(y_test, y_pred_log_reg))
print("Decision Tree Accuracy:", accuracy_score(y_test, y_pred_tree))

print("\nLogistic Regression Classification Report:\n", classification_report(y_test, y_pred_log_reg))
print("\nDecision Tree Classification Report:\n", classification_report(y_test, y_pred_tree))


Logistic Regression Accuracy: 0.7792207792207793
Decision Tree Accuracy: 0.7229437229437229

Logistic Regression Classification Report:
               precision    recall  f1-score   support

           0       0.80      0.90      0.85       157
           1       0.71      0.53      0.60        74

    accuracy                           0.78       231
   macro avg       0.76      0.71      0.73       231
weighted avg       0.77      0.78      0.77       231


Decision Tree Classification Report:
               precision    recall  f1-score   support

           0       0.80      0.79      0.79       157
           1       0.57      0.58      0.57        74

    accuracy                           0.72       231
   macro avg       0.68      0.69      0.68       231
weighted avg       0.72      0.72      0.72       231



# **Контрольні питання**

1) Розкажіть про модель логістичної регресії (можна без формул, описово). Яку задачу вона розв'язує: регресії чи класифікації? (3-10 речень)

2) В чому сутність дерев рішень? (3-10 речень)

3) Розкажіть про метрики якості для задачі бінарної класифікації, про які ви знаєте. (3-10 речень)

In [9]:
y.unique()

array([1, 0])

In [11]:
counts = data['Outcome'].value_counts()
counts

Unnamed: 0_level_0,count
Outcome,Unnamed: 1_level_1
0,500
1,268


In [13]:
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred_log_reg)

print('Confusion matrix\n\n', cm)

print('\nTrue Positives(TP) = ', cm[0,0])

print('\nTrue Negatives(TN) = ', cm[1,1])

print('\nFalse Positives(FP) = ', cm[0,1])

print('\nFalse Negatives(FN) = ', cm[1,0])

Confusion matrix

 [[141  16]
 [ 35  39]]

True Positives(TP) =  141

True Negatives(TN) =  39

False Positives(FP) =  16

False Negatives(FN) =  35


In [14]:
cm = confusion_matrix(y_test, y_pred_tree)

print('Confusion matrix\n\n', cm)

print('\nTrue Positives(TP) = ', cm[0,0])

print('\nTrue Negatives(TN) = ', cm[1,1])

print('\nFalse Positives(FP) = ', cm[0,1])

print('\nFalse Negatives(FN) = ', cm[1,0])

Confusion matrix

 [[124  33]
 [ 31  43]]

True Positives(TP) =  124

True Negatives(TN) =  43

False Positives(FP) =  33

False Negatives(FN) =  31
