In [1]:
# Імпорт бібліотек
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# --- Завдання 1: Аналіз даних про рак молочної залози ---

# Завантаження датасету Breast Cancer
cancer_data = load_breast_cancer()

# Перетворення у DataFrame
X = pd.DataFrame(cancer_data.data, columns=cancer_data.feature_names)
y = pd.Series(cancer_data.target)

# Попередній аналіз даних
print("Перші 5 рядків датасету Breast Cancer:")
print(X.head())

print("\nНазви стовпців та типи даних:")
print(X.dtypes)

print("\nПеревірка наявності пропущених значень:")
print(X.isnull().sum())

print("\nРозмір даних:")
print(X.shape)

# Розділення даних на навчальний та тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Побудова та налаштування моделей
models = {
    "Логістична регресія": LogisticRegression(max_iter=10000),
    "Дерево рішень": DecisionTreeClassifier(),
    "Випадковий ліс": RandomForestClassifier()
}

best_model_name = ""
best_accuracy = 0
results = {}

for model_name, model in models.items():
    # Оптимізація параметрів за допомогою GridSearchCV
    if model_name == "Логістична регресія":
        param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100]}
    elif model_name == "Дерево рішень":
        param_grid = {'max_depth': [None, 5, 10, 15, 20]}
    else:  # Випадковий ліс
        param_grid = {'n_estimators': [10, 50, 100], 'max_depth': [None, 5, 10, 15, 20]}
    
    grid_search = GridSearchCV(model, param_grid, cv=5)
    grid_search.fit(X_train, y_train)
    
    best_model = grid_search.best_estimator_
    
    # Оцінка моделі
    y_pred = best_model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    results[model_name] = {
        "accuracy": accuracy,
        "confusion_matrix": confusion_matrix(y_test, y_pred),
        "classification_report": classification_report(y_test, y_pred)
    }
    
    print(f"\n{model_name}:")
    print(f"Точність (accuracy): {accuracy:.4f}")
    print("Матриця помилок:")
    print(results[model_name]["confusion_matrix"])
    print("Звіт про класифікацію:")
    print(results[model_name]["classification_report"])
    
    # Зберігаємо найкращу модель
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_model_name = model_name

# Виведення найкращої моделі
print(f"\nНайкраща модель: {best_model_name} з точністю {best_accuracy:.4f}")

# --- Завдання 2: Аналіз даних про Титанік ---

# Завантаження датасету Titanic
titanic_data = pd.read_csv(r'C:\Users\paukd\Downloads\titanic.csv')

# Перегляд перших кількох рядків
print("\nПерші 5 рядків датасету Titanic:")
print(titanic_data.head())

# Попередній аналіз даних
print("\nНазви стовпців та типи даних:")
print(titanic_data.dtypes)

print("\nПеревірка наявності пропущених значень:")
print(titanic_data.isnull().sum())

# Приведення даних до відповідного формату (можливо, потрібно обрати лише певні стовпці)
titanic_data['Sex'] = titanic_data['Sex'].map({'male': 0, 'female': 1})  # Перетворення статі на числовий формат
titanic_data = titanic_data[['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']].dropna()

# Визначення ознак і цільової змінної
X_titanic = titanic_data.drop('Survived', axis=1)
y_titanic = titanic_data['Survived']

# Розділення даних на навчальний та тестовий набори
X_train_titanic, X_test_titanic, y_train_titanic, y_test_titanic = train_test_split(X_titanic, y_titanic, test_size=0.2, random_state=42)

# Побудова та налаштування моделей для Титаніка
models_titanic = {
    "Логістична регресія": LogisticRegression(max_iter=10000),
    "Дерево рішень": DecisionTreeClassifier(),
    "Випадковий ліс": RandomForestClassifier()
}

best_model_titanic_name = ""
best_accuracy_titanic = 0
results_titanic = {}

for model_name, model in models_titanic.items():
    # Оптимізація параметрів за допомогою GridSearchCV
    if model_name == "Логістична регресія":
        param_grid_titanic = {'C': [0.001, 0.01, 0.1, 1, 10, 100]}
    elif model_name == "Дерево рішень":
        param_grid_titanic = {'max_depth': [None, 5, 10, 15, 20]}
    else:  # Випадковий ліс
        param_grid_titanic = {'n_estimators': [10, 50, 100], 'max_depth': [None, 5, 10, 15, 20]}
    
    grid_search_titanic = GridSearchCV(model, param_grid_titanic, cv=5)
    grid_search_titanic.fit(X_train_titanic, y_train_titanic)
    
    best_model_titanic = grid_search_titanic.best_estimator_
    
    # Оцінка моделі
    y_pred_titanic = best_model_titanic.predict(X_test_titanic)
    accuracy_titanic = accuracy_score(y_test_titanic, y_pred_titanic)
    results_titanic[model_name] = {
        "accuracy": accuracy_titanic,
        "confusion_matrix": confusion_matrix(y_test_titanic, y_pred_titanic),
        "classification_report": classification_report(y_test_titanic, y_pred_titanic)
    }
    
    print(f"\n{model_name} для Титаніка:")
    print(f"Точність (accuracy): {accuracy_titanic:.4f}")
    print("Матриця помилок:")
    print(results_titanic[model_name]["confusion_matrix"])
    print("Звіт про класифікацію:")
    print(results_titanic[model_name]["classification_report"])
    
    # Зберігаємо найкращу модель
    if accuracy_titanic > best_accuracy_titanic:
        best_accuracy_titanic = accuracy_titanic
        best_model_titanic_name = model_name

# Виведення найкращої моделі для Титаніка
print(f"\nНайкраща модель для Титаніка: {best_model_titanic_name} з точністю {best_accuracy_titanic:.4f}")

# Прогнозування для 10 випадків (наприклад, перші 10 рядків тестового набору)
sample_predictions = best_model_titanic.predict(X_test_titanic[:10])
print("\nПрогнози для перших 10 випадків Титаніка:")
print(sample_predictions)


Перші 5 рядків датасету Breast Cancer:
   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst radius  worst t

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt


Логістична регресія:
Точність (accuracy): 0.9561
Матриця помилок:
[[39  4]
 [ 1 70]]
Звіт про класифікацію:
              precision    recall  f1-score   support

           0       0.97      0.91      0.94        43
           1       0.95      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.96      0.95      0.95       114
weighted avg       0.96      0.96      0.96       114


Дерево рішень:
Точність (accuracy): 0.9386
Матриця помилок:
[[40  3]
 [ 4 67]]
Звіт про класифікацію:
              precision    recall  f1-score   support

           0       0.91      0.93      0.92        43
           1       0.96      0.94      0.95        71

    accuracy                           0.94       114
   macro avg       0.93      0.94      0.93       114
weighted avg       0.94      0.94      0.94       114


Випадковий ліс:
Точність (accuracy): 0.9649
Матриця помилок:
[[40  3]
 [ 1 70]]
Звіт про класифікацію:
              precision    rec