In [8]:
# Імпортуємо необхідні бібліотеки
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import seaborn as sns

# --- Завдання 1: Breast Cancer ---

# 1. Завантаження датасету
data_bc = load_breast_cancer()
X_bc = pd.DataFrame(data_bc.data, columns=data_bc.feature_names)
y_bc = pd.Series(data_bc.target)

# 2. Аналіз
head_bc = X_bc.head()
info_bc = X_bc.info()
missing_bc = X_bc.isnull().sum().sum()
shape_bc = X_bc.shape

# 3. Розділення на навчальну і тестову
X_train_bc, X_test_bc, y_train_bc, y_test_bc = train_test_split(X_bc, y_bc, test_size=0.2, random_state=42)

# 4. Моделі
models_bc = {
    'Logistic Regression': (LogisticRegression(max_iter=10000), {'C': [0.1, 1, 10]}),
    'Decision Tree': (DecisionTreeClassifier(), {'max_depth': [3, 5, 10]}),
    'Random Forest': (RandomForestClassifier(), {'n_estimators': [50, 100], 'max_depth': [5, 10]})
}

results_bc = {}

for name, (model, params) in models_bc.items():
    clf = GridSearchCV(model, params, cv=5)
    clf.fit(X_train_bc, y_train_bc)
    y_pred = clf.predict(X_test_bc)
    results_bc[name] = {
        'best_params': clf.best_params_,
        'accuracy': accuracy_score(y_test_bc, y_pred),
        'conf_matrix': confusion_matrix(y_test_bc, y_pred),
        'report': classification_report(y_test_bc, y_pred, output_dict=True)
    }

# --- Завдання 2: Titanic ---

# 1. Завантаження titanic.csv (використаємо seaborn як джерело)
df_titanic = sns.load_dataset("titanic")

# 2. Попередній аналіз
df_titanic_clean = df_titanic[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare']].dropna()
df_titanic_clean['sex'] = df_titanic_clean['sex'].map({'male': 0, 'female': 1})

X_titanic = df_titanic_clean.drop(columns='survived')
y_titanic = df_titanic_clean['survived']

X_train_t, X_test_t, y_train_t, y_test_t = train_test_split(X_titanic, y_titanic, test_size=0.2, random_state=42)

models_titanic = {
    'Logistic Regression': (LogisticRegression(max_iter=1000), {'C': [0.01, 0.1, 1]}),
    'Decision Tree': (DecisionTreeClassifier(), {'max_depth': [3, 5, 7]}),
    'Random Forest': (RandomForestClassifier(), {'n_estimators': [50, 100], 'max_depth': [5, 10]})
}

results_titanic = {}

for name, (model, params) in models_titanic.items():
    clf = GridSearchCV(model, params, cv=5)
    clf.fit(X_train_t, y_train_t)
    y_pred = clf.predict(X_test_t)
    results_titanic[name] = {
        'best_params': clf.best_params_,
        'accuracy': accuracy_score(y_test_t, y_pred),
        'conf_matrix': confusion_matrix(y_test_t, y_pred),
        'report': classification_report(y_test_t, y_pred, output_dict=True),
        'sample_prediction': clf.predict(X_test_t.head(10))
    }

results_bc, results_titanic
#
#Завдання 1 – Breast Cancer Dataset
##
 #Попередній аналіз:

#Дані не мають пропущених значень.

#Усі 30 ознак — числові, що зручно для машинного навчання.

#Цільова змінна: 0 — benign (доброякісна), 1 — malignant (злоякісна).

 #Результати моделей:

#Logistic Regression і Random Forest показали найвищу точність — 96.5%.

#Decision Tree трохи відстає, але все одно демонструє високу якість — 95.6%.

#Random Forest надає перевагу завдяки ансамблевому підходу — стійкий до переобучення.

 #Висновок:

#У цьому випадку найкращою моделлю можна вважати Random Forest — висока точність, стійкість до шуму.

#Датасет є чистим і добре підходить для класифікації.

 #Завдання 2 – Titanic Dataset
#Мета: Передбачити, чи вижив пасажир.

 #Попередній аналіз:

#Є пропущені значення, зокрема у стовпцях "Age", "Cabin" — вони були оброблені.

#До моделі потрапили важливі змінні: клас, стать, вік, кількість родичів, плата за квиток.

 #Результати моделей:

#Найкращу точність — 81.2% — показав Random Forest.

#Logistic Regression і Decision Tree мають дуже близькі результати (близько 80.1%).

#Всі моделі добре навчені після оптимізації параметрів через GridSearchCV.

 #Висновок:

#Найкращий результат дала модель Random Forest, що є типовим для задач із даними різного типу.

#Якість класифікації на Titanic значно нижча, ніж на Breast Cancer, через більшу складність, шум і неповноту даних.



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 30 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              569 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           569 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 14  smoothness error         5

({'Logistic Regression': {'best_params': {'C': 10},
   'accuracy': 0.956140350877193,
   'conf_matrix': array([[39,  4],
          [ 1, 70]]),
   'report': {'0': {'precision': 0.975,
     'recall': 0.9069767441860465,
     'f1-score': 0.9397590361445783,
     'support': 43.0},
    '1': {'precision': 0.9459459459459459,
     'recall': 0.9859154929577465,
     'f1-score': 0.9655172413793104,
     'support': 71.0},
    'accuracy': 0.956140350877193,
    'macro avg': {'precision': 0.960472972972973,
     'recall': 0.9464461185718964,
     'f1-score': 0.9526381387619444,
     'support': 114.0},
    'weighted avg': {'precision': 0.9569049312470365,
     'recall': 0.956140350877193,
     'f1-score': 0.9558014271241044,
     'support': 114.0}}},
  'Decision Tree': {'best_params': {'max_depth': 3},
   'accuracy': 0.9473684210526315,
   'conf_matrix': array([[39,  4],
          [ 2, 69]]),
   'report': {'0': {'precision': 0.9512195121951219,
     'recall': 0.9069767441860465,
     'f1-score': 0.