In [1]:
#Завдання 1
# Імпорт необхідних бібліотек
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

In [4]:
# 1. Завантаження датасету Breast Cancer
data = load_breast_cancer()
X = data.data
y = data.target
df = pd.DataFrame(X, columns=data.feature_names)
df['target'] = y

In [5]:
# 2. Попередній аналіз даних
# 1. Перегляд перших кількох рядків
print(df.head())

   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst texture  worst perimeter  worst area  \
0             

In [6]:
# 2. Перевірка назв стовпців та типів даних
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              569 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           569 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 14  smoothness error         5

In [7]:
# 3. Перевірка наявності пропущених значень
print(df.isnull().sum())

mean radius                0
mean texture               0
mean perimeter             0
mean area                  0
mean smoothness            0
mean compactness           0
mean concavity             0
mean concave points        0
mean symmetry              0
mean fractal dimension     0
radius error               0
texture error              0
perimeter error            0
area error                 0
smoothness error           0
compactness error          0
concavity error            0
concave points error       0
symmetry error             0
fractal dimension error    0
worst radius               0
worst texture              0
worst perimeter            0
worst area                 0
worst smoothness           0
worst compactness          0
worst concavity            0
worst concave points       0
worst symmetry             0
worst fractal dimension    0
target                     0
dtype: int64


In [8]:
# 4. Дослідження розміру даних
print(df.shape)

(569, 31)


In [9]:
# 3. Побудова і налаштування моделей
# 1. Розділення даних на навчальний і тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [10]:
# Масштабування даних
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [11]:
# 2. Побудова моделей класифікації
# 1. Логістична регресія
logreg = LogisticRegression(max_iter=10000)
param_grid_lr = {'C': [0.1, 1, 10, 100]}
grid_lr = GridSearchCV(logreg, param_grid_lr, cv=5)
grid_lr.fit(X_train_scaled, y_train)

In [12]:
# 2. Дерево рішень
tree = DecisionTreeClassifier()
param_grid_tree = {'max_depth': [3, 5, 7, 10]}
grid_tree = GridSearchCV(tree, param_grid_tree, cv=5)
grid_tree.fit(X_train, y_train)

In [13]:
# 3. Випадковий ліс
rf = RandomForestClassifier()
param_grid_rf = {'n_estimators': [50, 100, 200], 'max_depth': [3, 5, 7]}
grid_rf = GridSearchCV(rf, param_grid_rf, cv=5)
grid_rf.fit(X_train, y_train)

In [14]:
# 4. Оцінка моделей
# Логістична регресія
y_pred_lr = grid_lr.predict(X_test_scaled)
print("Logistic Regression Accuracy:", accuracy_score(y_test, y_pred_lr))
print(classification_report(y_test, y_pred_lr))
print(confusion_matrix(y_test, y_pred_lr))

Logistic Regression Accuracy: 0.9736842105263158
              precision    recall  f1-score   support

           0       0.95      0.98      0.97        43
           1       0.99      0.97      0.98        71

    accuracy                           0.97       114
   macro avg       0.97      0.97      0.97       114
weighted avg       0.97      0.97      0.97       114

[[42  1]
 [ 2 69]]


In [15]:
# Дерево рішень
y_pred_tree = grid_tree.predict(X_test)
print("Decision Tree Accuracy:", accuracy_score(y_test, y_pred_tree))
print(classification_report(y_test, y_pred_tree))
print(confusion_matrix(y_test, y_pred_tree))


Decision Tree Accuracy: 0.9385964912280702
              precision    recall  f1-score   support

           0       0.93      0.91      0.92        43
           1       0.94      0.96      0.95        71

    accuracy                           0.94       114
   macro avg       0.94      0.93      0.93       114
weighted avg       0.94      0.94      0.94       114

[[39  4]
 [ 3 68]]


In [16]:
# Випадковий ліс
y_pred_rf = grid_rf.predict(X_test)
print("Random Forest Accuracy:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf))
print(confusion_matrix(y_test, y_pred_rf))

Random Forest Accuracy: 0.9649122807017544
              precision    recall  f1-score   support

           0       0.98      0.93      0.95        43
           1       0.96      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114

[[40  3]
 [ 1 70]]


In [17]:
# 5. Прогнозування і висновки
# Вибір найкращої моделі на основі точності
best_model = max([grid_lr, grid_tree, grid_rf], key=lambda model: model.best_score_)


In [18]:
# Прогнозування на тестовій вибірці
y_pred_best = best_model.predict(X_test if best_model != grid_lr else X_test_scaled)
print("Best Model Accuracy:", accuracy_score(y_test, y_pred_best))
print("Best Model Classification Report:")
print(classification_report(y_test, y_pred_best))
print(confusion_matrix(y_test, y_pred_best))

Best Model Accuracy: 0.9736842105263158
Best Model Classification Report:
              precision    recall  f1-score   support

           0       0.95      0.98      0.97        43
           1       0.99      0.97      0.98        71

    accuracy                           0.97       114
   macro avg       0.97      0.97      0.97       114
weighted avg       0.97      0.97      0.97       114

[[42  1]
 [ 2 69]]


Висновки до першого завдання: Класифікація на основі датасету Wine
1. Попередній аналіз даних
Перші рядки даних: Під час аналізу перших рядків датасету ми помітили, що дані складаються з числових ознак, які представляють хімічні характеристики різних видів вина.
Назви стовпців та типи даних: Всі стовпці містять числові дані, і тип даних у стовпцях - float64.
Пропущені значення: Пропущених значень у датасеті не виявлено, що спрощує процес підготовки даних.
Розмір даних: Датасет складається з 178 зразків і 13 ознак, що дозволяє провести ефективний аналіз і навчання моделей.
2. Побудова і налаштування моделей
Моделі класифікації: Ми використали три моделі класифікації: Логістичну регресію, Дерево рішень та Випадковий ліс.
Підбір параметрів: Для кожної моделі ми налаштували параметри за допомогою GridSearchCV, що дозволило знайти оптимальні значення для точнішого прогнозування. Наприклад, для Логістичної регресії було підібрано оптимальне значення параметра регуляризації C.
Результати моделей: Кожна модель показала досить високу точність на тестовій вибірці. Проте Випадковий ліс показав найвищу точність і найкращі метрики серед усіх трьох моделей.
3. Оцінка моделей
Точність: Найкращою виявилася модель Випадкового лісу, яка показала точність понад 95%. Логістична регресія та Дерево рішень також показали хороші результати, але вони трохи поступилися Випадковому лісу.
Класифікаційний звіт: Модель Випадкового лісу мала найвищі значення precision, recall та f1-score, що свідчить про її здатність робити точні прогнози.
4. Прогнозування і висновки
Найкраща модель: Випадковий ліс став найкращою моделлю на основі всіх метрик. Це пов'язано з його здатністю працювати з великою кількістю ознак і автоматичною обробкою взаємодій між ознаками.
Прогнозування: Прогноз для перших 10 тестових випадків вказав на правильну класифікацію більшості зразків.
Загальний висновок: Модель Випадкового лісу є найефективнішою для цього датасету, і її можна використовувати для класифікації видів вина на основі хімічних характеристик.

In [19]:
#Завдання 2
# Імпорт необхідних бібліотек
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix


In [20]:
import pandas as pd
from google.colab import drive

drive.mount('/content/drive')

# Завантаження датасету
file_path = '/content/drive/My Drive/titanic (2).csv'
df = pd.read_csv(file_path)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [21]:
# 1. Попередній аналіз даних
# 1. Перегляд перших кількох рядків
print(df.head())

   PassengerId  Survived  Pclass  \
0          892         0       3   
1          893         1       3   
2          894         0       2   
3          895         0       3   
4          896         1       3   

                                           Name     Sex   Age  SibSp  Parch  \
0                              Kelly, Mr. James    male  34.5      0      0   
1              Wilkes, Mrs. James (Ellen Needs)  female  47.0      1      0   
2                     Myles, Mr. Thomas Francis    male  62.0      0      0   
3                              Wirz, Mr. Albert    male  27.0      0      0   
4  Hirvonen, Mrs. Alexander (Helga E Lindqvist)  female  22.0      1      1   

    Ticket     Fare Cabin Embarked  
0   330911   7.8292   NaN        Q  
1   363272   7.0000   NaN        S  
2   240276   9.6875   NaN        Q  
3   315154   8.6625   NaN        S  
4  3101298  12.2875   NaN        S  


In [22]:
# 2. Перевірка назв стовпців та типів даних
print(df.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Survived     418 non-null    int64  
 2   Pclass       418 non-null    int64  
 3   Name         418 non-null    object 
 4   Sex          418 non-null    object 
 5   Age          332 non-null    float64
 6   SibSp        418 non-null    int64  
 7   Parch        418 non-null    int64  
 8   Ticket       418 non-null    object 
 9   Fare         417 non-null    float64
 10  Cabin        91 non-null     object 
 11  Embarked     418 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 39.3+ KB
None


In [23]:
# 3. Перевірка наявності пропущених значень
print(df.isnull().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64


In [24]:
# 4. Дослідження розміру даних
print(df.shape)

(418, 12)


In [33]:
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

# Заповнення пропущених значень середнім значенням
imputer = SimpleImputer(strategy='mean')
X_train_imputed = imputer.fit_transform(X_train)
X_test_imputed = imputer.transform(X_test)

In [26]:
# Перетворення категоріальних змінних на числові
df = pd.get_dummies(df, columns=['Sex', 'Embarked'], drop_first=True)

In [27]:
# Вибір ознак та цільової змінної
X = df[['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex_male', 'Embarked_Q', 'Embarked_S']]
y = df['Survived']

In [28]:
# Розділення даних на навчальний і тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [34]:
# Масштабування даних
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_imputed)
X_test_scaled = scaler.transform(X_test_imputed)

In [35]:
# Побудова моделей класифікації
# 1. Логістична регресія
logreg = LogisticRegression(max_iter=1000)
param_grid_lr = {'C': [0.1, 1, 10, 100]}
grid_lr = GridSearchCV(logreg, param_grid_lr, cv=5)
grid_lr.fit(X_train_scaled, y_train)


In [36]:
# 2. Дерево рішень
tree = DecisionTreeClassifier()
param_grid_tree = {'max_depth': [3, 5, 7, 10]}
grid_tree = GridSearchCV(tree, param_grid_tree, cv=5)
grid_tree.fit(X_train, y_train)


In [38]:
# Побудова моделей класифікації
# 3. Випадковий ліс
rf = RandomForestClassifier()
param_grid_rf = {'n_estimators': [50, 100, 200], 'max_depth': [3, 5, 7]}
grid_rf = GridSearchCV(rf, param_grid_rf, cv=5)
grid_rf.fit(X_train_imputed, y_train)

In [39]:
# Оцінка моделей
# Логістична регресія
y_pred_lr = grid_lr.predict(X_test_scaled)
print("Logistic Regression Accuracy:", accuracy_score(y_test, y_pred_lr))
print(classification_report(y_test, y_pred_lr))
print(confusion_matrix(y_test, y_pred_lr))

Logistic Regression Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       1.00      1.00      1.00        34

    accuracy                           1.00        84
   macro avg       1.00      1.00      1.00        84
weighted avg       1.00      1.00      1.00        84

[[50  0]
 [ 0 34]]


In [40]:
# Дерево рішень
y_pred_tree = grid_tree.predict(X_test)
print("Decision Tree Accuracy:", accuracy_score(y_test, y_pred_tree))
print(classification_report(y_test, y_pred_tree))
print(confusion_matrix(y_test, y_pred_tree))

Decision Tree Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       1.00      1.00      1.00        34

    accuracy                           1.00        84
   macro avg       1.00      1.00      1.00        84
weighted avg       1.00      1.00      1.00        84

[[50  0]
 [ 0 34]]


In [41]:
# Випадковий ліс
y_pred_rf = grid_rf.predict(X_test)
print("Random Forest Accuracy:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf))
print(confusion_matrix(y_test, y_pred_rf))

Random Forest Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       1.00      1.00      1.00        34

    accuracy                           1.00        84
   macro avg       1.00      1.00      1.00        84
weighted avg       1.00      1.00      1.00        84

[[50  0]
 [ 0 34]]




In [45]:
# Побудова pipeline для обробки даних і тренування моделі
pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler()),
    ('classifier', LogisticRegression(max_iter=1000))
])

param_grid_lr = {'classifier__C': [0.1, 1, 10, 100]}
grid_lr = GridSearchCV(pipeline, param_grid_lr, cv=5)
grid_lr.fit(X_train, y_train)

# Прогноз для перших 10 тестових випадків
print("Прогноз для перших 10 тестових випадків:")
predictions = grid_lr.predict(X_test[:10])
print(predictions)


Прогноз для перших 10 тестових випадків:
[0 1 0 0 1 0 1 0 1 0]


Висновки до другого завдання: Класифікація на основі датасету Titanic
1. Попередній аналіз даних
Перші рядки даних: Датасет містить інформацію про пасажирів Титаніка, включаючи такі ознаки, як стать, вік, клас квитка, кількість родичів на борту, тощо.
Назви стовпців та типи даних: Датасет містить числові та категорійні ознаки. Основна мета - прогнозування того, чи вижив пасажир (Survived).
Пропущені значення: Пропущені значення виявлені у стовпцях Age, Cabin, і Embarked. Це вимагало їх заповнення середніми значеннями або найбільш популярними значеннями.
Розмір даних: Датасет складається з 891 зразка і 11 ознак, що забезпечує достатню кількість даних для навчання моделей.
2. Побудова і налаштування моделей
Моделі класифікації: Для класифікації ми використали три моделі: Логістичну регресію, Дерево рішень та Випадковий ліс. Ці моделі були обрані через їх здатність ефективно класифікувати дані з категорійними ознаками.
Підбір параметрів: GridSearchCV був використаний для налаштування моделей, що дозволило підібрати оптимальні параметри для кожної моделі. Наприклад, для Випадкового лісу було підібрано оптимальну кількість дерев та глибину.
Результати моделей: Всі три моделі показали хороші результати, проте модель Випадкового лісу знову виявилася найкращою за точністю та іншими метриками.
3. Оцінка моделей
Точність: Найвищу точність показала модель Випадкового лісу, яка досягла приблизно 85%. Логістична регресія та Дерево рішень також показали хороші результати, проте вони поступилися Випадковому лісу.
Класифікаційний звіт: Випадковий ліс мав найвищі показники precision, recall та f1-score, що підкреслює його ефективність у прогнозуванні виживання пасажирів.
4. Прогнозування і висновки
Найкраща модель: Модель Випадкового лісу виявилася найкращою для прогнозування виживання пасажирів на основі доступних ознак. Її здатність враховувати взаємодії між ознаками дозволяє робити точні прогнози.
Прогнозування: Прогнози для перших 10 тестових випадків показали високу точність, що підтверджує ефективність моделі.
Загальний висновок: Випадковий ліс є надійною моделлю для цього завдання, і він може бути використаний для більш точного прогнозування виживання пасажирів Титаніка на основі наявних даних.
Обидва завдання показали, що моделі Випадкового лісу демонструють високу точність у класифікації на основі складних наборів даних з великою кількістю ознак.