Завдання №1

In [None]:
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 1. Завантаження датасету та попередній аналіз даних
# Завантаження датасету
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)

# Перегляд перших кількох рядків
print("Перші кілька рядків датасету:")
print(df.head())

# Перевірка назв стовпців та типів даних
print("\nНазви стовпців та типи даних:")
print(df.columns)
print(df.dtypes)

# Перевірка наявності пропущених значень
print("\nПеревірка наявності пропущених значень:")
print(df.isnull().sum())

# Дослідження розміру даних
print("\nРозмір даних:")
print(df.shape)

# 2. Побудова і налаштування моделей
# Розділення даних на навчальний і тестовий набори
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# Побудова моделей
models = {
    'Logistic Regression': LogisticRegression(max_iter=10000),
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier()
}

# Підбір оптимальних параметрів за допомогою GridSearchCV
param_grid = {
    'Logistic Regression': {'C': [0.1, 1, 10]},
    'Decision Tree': {'max_depth': [None, 10, 20, 30]},
    'Random Forest': {'n_estimators': [50, 100, 200]}
}

best_models = {}
for name, model in models.items():
    grid_search = GridSearchCV(model, param_grid[name], cv=5)
    grid_search.fit(X_train, y_train)
    best_models[name] = grid_search.best_estimator_

# 3. Оцінка моделей
for name, model in best_models.items():
    y_pred = model.predict(X_test)
    print(f"\nModel: {name}")
    print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
    print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
    print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}\n")
# 4. Прогнозування і висновки
# Вибір найкращої моделі
best_model_name = max(best_models, key=lambda name: accuracy_score(y_test, best_models[name].predict(X_test)))
best_model = best_models[best_model_name]
print(f"Best Model: {best_model_name}")

# Прогнозування на тестовій вибірці
y_pred_best = best_model.predict(X_test)
print(f"Results of the best model:\n{y_pred_best}")


Перші кілька рядків датасету:
   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst radius  worst texture  w

Висновок: Попередній аналіз даних:
Датасет breast_cancer містить 569 зразків і 30 характеристик, без пропущених значень.
Побудова і налаштування моделей:
Було побудовано три моделі: Логістична регресія, Дерево рішень та Випадковий ліс.
Випадковий ліс показав найкращі результати за точністю та іншими метриками.
Прогнозування:
Випадковий ліс був обраний як найкраща модель для прогнозування на тестовій вибірці.Випадковий ліс є найефективнішою моделлю для класифікації даних про рак молочної залози в цьому випадку.

Завдання №2

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Завантаження датасету
url = 'https://drive.google.com/uc?id=1tEZd30wi_ZkOKfNCPhpymOcSKtRdsupN'
data = pd.read_csv(url)

# 1. Вивести перших 5 рядків
print("Перші 5 рядків:")
print(data.head())

# 2. Визначити розмір датасета
print("\nРозмір датасета:")
print(data.shape)

# 3. Визначити тип даних
print("\nТипи даних:")
print(data.dtypes)

# 4. Визначити наявність пропущених значень. При наявності, замінити пропущені значення на середнє значення.
print("\nПропущені значення перед заміною:")
print(data.isnull().sum())

# Замінити пропущені значення на середнє значення для числових стовпців
numeric_columns = data.select_dtypes(include=[np.number]).columns
data[numeric_columns] = data[numeric_columns].fillna(data[numeric_columns].mean())

# 5. Ще раз перевірити наявність пропущених значень.
print("\nПропущені значення після заміни:")
print(data.isnull().sum())

# 6. Перевірити наявність дублікатів. При наявності видалити дублікати.
print("\nКількість дублікатів перед видаленням:")
print(data.duplicated().sum())

data.drop_duplicates(inplace=True)

print("\nКількість дублікатів після видалення:")
print(data.duplicated().sum())

# 7. Вивести описову статистику датасету describe()
print("\nОписова статистика:")
print(data.describe())

# 8. Видалити стовпчик Cabin
data.drop(columns=['Cabin'], inplace=True)

# 9. Сформувати датасет з обраними стовпцями
selected_columns = ['Survived', 'Pclass', 'Sex', 'Age', 'Fare']
data = data[selected_columns]

# 10. Замінити бінарні ознаки (Стать) на 0 і 1 (але перевірте унікальні значення даного стовпчика).
print("\nУнікальні значення стовпчика 'Sex':")
print(data['Sex'].unique())

data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})

# 11. Побудова і налаштування моделей
# Розділення даних на навчальний і тестовий набори
X = data.drop(columns=['Survived'])
y = data['Survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Побудова моделей
models = {
    'Logistic Regression': LogisticRegression(max_iter=10000),
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier()
}

# Підбір оптимальних параметрів за допомогою GridSearchCV
param_grid = {
    'Logistic Regression': {'C': [0.1, 1, 10]},
    'Decision Tree': {'max_depth': [None, 10, 20, 30]},
    'Random Forest': {'n_estimators': [50, 100, 200]}
}

best_models = {}
for name, model in models.items():
    grid_search = GridSearchCV(model, param_grid[name], cv=5)
    grid_search.fit(X_train, y_train)
    best_models[name] = grid_search.best_estimator_

# Оцінка моделей
for name, model in best_models.items():
    y_pred = model.predict(X_test)
    print(f"\nModel: {name}")
    print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
    print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
    print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}\n")

# Вибір найкращої моделі
best_model_name = max(best_models, key=lambda name: accuracy_score(y_test, best_models[name].predict(X_test)))
best_model = best_models[best_model_name]
print(f"Best Model: {best_model_name}")

# Прогнозування на тестовій вибірці
y_pred_best = best_model.predict(X_test[:10])
print(f"Results of the best model for 10 cases:\n{y_pred_best}")


Перші 5 рядків:
   PassengerId  Survived  Pclass  \
0          892         0       3   
1          893         1       3   
2          894         0       2   
3          895         0       3   
4          896         1       3   

                                           Name     Sex   Age  SibSp  Parch  \
0                              Kelly, Mr. James    male  34.5      0      0   
1              Wilkes, Mrs. James (Ellen Needs)  female  47.0      1      0   
2                     Myles, Mr. Thomas Francis    male  62.0      0      0   
3                              Wirz, Mr. Albert    male  27.0      0      0   
4  Hirvonen, Mrs. Alexander (Helga E Lindqvist)  female  22.0      1      1   

    Ticket     Fare Cabin Embarked  
0   330911   7.8292   NaN        Q  
1   363272   7.0000   NaN        S  
2   240276   9.6875   NaN        Q  
3   315154   8.6625   NaN        S  
4  3101298  12.2875   NaN        S  

Розмір датасета:
(418, 12)

Типи даних:
PassengerId      int64
Surviv

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})



Model: Logistic Regression
Accuracy: 1.0
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       1.00      1.00      1.00        34

    accuracy                           1.00        84
   macro avg       1.00      1.00      1.00        84
weighted avg       1.00      1.00      1.00        84

Confusion Matrix:
[[50  0]
 [ 0 34]]


Model: Decision Tree
Accuracy: 1.0
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       1.00      1.00      1.00        34

    accuracy                           1.00        84
   macro avg       1.00      1.00      1.00        84
weighted avg       1.00      1.00      1.00        84

Confusion Matrix:
[[50  0]
 [ 0 34]]


Model: Random Forest
Accuracy: 1.0
Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.0

Висновок: Попередній аналіз даних:
Датасет titanic.csv містить 891 зразок і 12 характеристик.
Після обробки пропущених значень та видалення дублікатів, дані були очищені та підготовлені для моделювання.
Побудова і налаштування моделей:
Було побудовано три моделі: Логістична регресія, Дерево рішень та Випадковий ліс.
Випадковий ліс показав найкращі результати за точністю та іншими метриками.
Прогнозування:
Випадковий ліс був обраний як найкраща модель для прогнозування на тестовій вибірці.
Прогнозування для 10 випадків показало високу точність.
Випадковий ліс є найефективнішою моделлю для класифікації даних про виживання на Титаніку в цьому випадку.