# Завдання 1. Dataset: load_breast_cancer

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 1. Завантажити датасет Breast Cancer
data = load_breast_cancer()

# Створення DataFrame з даних
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# 2. Попередній аналіз даних
# 1. Перегляд перших кількох рядків
print("Завдання 2.1: Перші кілька рядків:")
print(df.head())

# 2. Перевірка назв стовпців та типів даних
print("\nЗавдання 2.2: Назви стовпців і типи даних:")
print(df.dtypes)

# 3. Перевірка наявності пропущених значень
print("\nЗавдання 2.3: Перевірка наявності пропущених значень:")
print(df.isnull().sum())

# 4. Дослідження розміру даних
print("\nЗавдання 2.4: Розмір даних (кількість рядків і стовпців):")
print(df.shape)

# 3. Побудова і налаштування моделей
# 1. Розділити дані на навчальний і тестовий набори
X = df.drop(columns='target')
y = df['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. Побудова трьох моделей класифікації

# Логістична регресія
log_reg = LogisticRegression(max_iter=10000)
log_reg.fit(X_train, y_train)

# Дерево рішень
tree_clf = DecisionTreeClassifier()
tree_clf.fit(X_train, y_train)

# Випадковий ліс (Random Forest)
rf_clf = RandomForestClassifier()
rf_clf.fit(X_train, y_train)

# 3. Підбір параметрів за допомогою GridSearchCV (для прикладу лише для RandomForest)
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30]
}
grid_search = GridSearchCV(rf_clf, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Виведення найкращих параметрів для Random Forest
print("\nЗавдання 3.3: Найкращі параметри для Random Forest:")
print(grid_search.best_params_)

# 4. Оцінка моделей

# Логістична регресія
y_pred_log_reg = log_reg.predict(X_test)
accuracy_log_reg = accuracy_score(y_test, y_pred_log_reg)
print("\nЗавдання 4.1: Точність Логістичної регресії:", accuracy_log_reg)
print("\nМатриця помилок Логістичної регресії:")
print(confusion_matrix(y_test, y_pred_log_reg))
print("\nЗвіт про класифікацію Логістичної регресії:")
print(classification_report(y_test, y_pred_log_reg))

# Дерево рішень
y_pred_tree_clf = tree_clf.predict(X_test)
accuracy_tree_clf = accuracy_score(y_test, y_pred_tree_clf)
print("\nЗавдання 4.1: Точність Дерева рішень:", accuracy_tree_clf)
print("\nМатриця помилок Дерева рішень:")
print(confusion_matrix(y_test, y_pred_tree_clf))
print("\nЗвіт про класифікацію Дерева рішень:")
print(classification_report(y_test, y_pred_tree_clf))

# Випадковий ліс (Random Forest) з найкращими параметрами
best_rf_clf = grid_search.best_estimator_
y_pred_rf_clf = best_rf_clf.predict(X_test)
accuracy_rf_clf = accuracy_score(y_test, y_pred_rf_clf)
print("\nЗавдання 4.1: Точність Random Forest:", accuracy_rf_clf)
print("\nМатриця помилок Random Forest:")
print(confusion_matrix(y_test, y_pred_rf_clf))
print("\nЗвіт про класифікацію Random Forest:")
print(classification_report(y_test, y_pred_rf_clf))

# 5. Прогнозування і висновки
# 1. Найкраща модель на основі метрик продуктивності
best_model_name = "Random Forest" if accuracy_rf_clf > max(accuracy_log_reg, accuracy_tree_clf) else ("Логістична регресія" if accuracy_log_reg > accuracy_tree_clf else "Дерево рішень")
print(f"\nЗавдання 5.1: Найкраща модель на основі точності: {best_model_name}")

# 2. Прогноз на тестовій вибірці для найкращої моделі
best_model_predictions = y_pred_rf_clf if best_model_name == "Random Forest" else (y_pred_log_reg if best_model_name == "Логістична регресія" else y_pred_tree_clf)
print(f"\nЗавдання 5.2: Прогноз на тестовій вибірці за допомогою {best_model_name}:")
print(best_model_predictions[:10])

# 3. Виведення результатів прогнозування
print("\nЗавдання 5.3: Справжні і прогнозовані значення для перших 10 тестових випадків:")
print(pd.DataFrame({'Справжнє значення': y_test[:10], 'Прогнозоване значення': best_model_predictions[:10]}))


Завдання 2.1: Перші кілька рядків:
   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst texture  worst peri

# Завдання 2. Dataset: titanic

In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Завантаження даних
titanic_df = pd.read_csv('./titanic (2).csv')

# Перегляд перших рядків
print("Завдання 2. Перші рядки датасету Titanic:")
print(titanic_df.head())

# Перевірка наявності пропущених значень
print("\nЗавдання 2. Пропущені значення:")
print(titanic_df.isnull().sum())

# Заповнення пропущених значень
titanic_df['Age'].fillna(titanic_df['Age'].mean(), inplace=True)
titanic_df['Fare'].fillna(titanic_df['Fare'].mean(), inplace=True)

# Видалення колонки Cabin через значну кількість пропусків
titanic_df.drop(columns=['Cabin'], inplace=True)

# Закодування бінарних змінних
titanic_df['Sex'] = titanic_df['Sex'].map({'male': 0, 'female': 1})

# One-hot encoding для колонки Embarked
titanic_df = pd.get_dummies(titanic_df, columns=['Embarked'], drop_first=True)

# Перегляд оброблених даних
print("\nЗавдання 2. Оброблені дані:")
print(titanic_df.head())

# Розділення на ознаки та цільову змінну
X = titanic_df.drop(columns=['Survived', 'Name', 'Ticket', 'PassengerId'])
y = titanic_df['Survived']

# Розділення на навчальну і тестову вибірки (80% на навчання, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Створення моделей
log_reg = LogisticRegression(max_iter=1000)
tree_clf = DecisionTreeClassifier()
forest_clf = RandomForestClassifier()

# Тренування моделей
log_reg.fit(X_train, y_train)
tree_clf.fit(X_train, y_train)
forest_clf.fit(X_train, y_train)

# Прогнози для тестової вибірки
log_reg_preds = log_reg.predict(X_test)
tree_clf_preds = tree_clf.predict(X_test)
forest_clf_preds = forest_clf.predict(X_test)

# Оцінка точності моделей
log_reg_acc = accuracy_score(y_test, log_reg_preds)
tree_clf_acc = accuracy_score(y_test, tree_clf_preds)
forest_clf_acc = accuracy_score(y_test, forest_clf_preds)

# Виведення точності
print("\nЗавдання 2. Точність моделей:")
print(f"Логістична регресія: {log_reg_acc:.4f}")
print(f"Дерево рішень: {tree_clf_acc:.4f}")
print(f"Випадковий ліс: {forest_clf_acc:.4f}")

# Звіт про класифікацію
print("\nЗавдання 2. Звіт про класифікацію (Логістична регресія):")
print(classification_report(y_test, log_reg_preds))

print("\nЗавдання 2. Звіт про класифікацію (Дерево рішень):")
print(classification_report(y_test, tree_clf_preds))

print("\nЗавдання 2. Звіт про класифікацію (Випадковий ліс):")
print(classification_report(y_test, forest_clf_preds))


Завдання 2. Перші рядки датасету Titanic:
   PassengerId  Survived  Pclass  \
0          892         0       3   
1          893         1       3   
2          894         0       2   
3          895         0       3   
4          896         1       3   

                                           Name     Sex   Age  SibSp  Parch  \
0                              Kelly, Mr. James    male  34.5      0      0   
1              Wilkes, Mrs. James (Ellen Needs)  female  47.0      1      0   
2                     Myles, Mr. Thomas Francis    male  62.0      0      0   
3                              Wirz, Mr. Albert    male  27.0      0      0   
4  Hirvonen, Mrs. Alexander (Helga E Lindqvist)  female  22.0      1      1   

    Ticket     Fare Cabin Embarked  
0   330911   7.8292   NaN        Q  
1   363272   7.0000   NaN        S  
2   240276   9.6875   NaN        Q  
3   315154   8.6625   NaN        S  
4  3101298  12.2875   NaN        S  

Завдання 2. Пропущені значення:
PassengerId