# **Лабораторна робота 3**

Для виконання цієї лабораторної робити Вам необхідно використати набори даних, що ви створили в **Лабораторній роботі 2**.

**Всі завдання виконуються індивідуально. Використання запозиченого коду буде оцінюватись в 0 балів.**

**Завдання 1.** Ви маєте набір даних, який складається з двох лінійно роздільних класів. Вам необхідно застосувати під цей набір даних мінімум **3  моледі машинного навчання** для класифікації цих даних та оцінити їх продуктивність.

**Пояснення до завдання 1:**

- обрати 3 моделі для класифікації даних та навчити їх;
- оцінити їх продуктивність за допомогою трьох метрик точності;
- візуалізувати розподіл даних та межі класифікації кожної моделі;
- провести аналіз отриманих результатів, виявляючи, яка модель найкраще підходить для цього набору даних та чому.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(n_samples=100, n_features=2, n_classes=2, n_clusters_per_class=1, n_informative=2, random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

models = {
    "Logistic Regression": LogisticRegression(),
    "SVM": SVC(kernel='linear'),
    "KNN": KNeighborsClassifier(n_neighbors=3)
}

for model_name, model in models.items():
    model.fit(X_train, y_train)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

metrics = {
    "Accuracy": accuracy_score,
    "Precision": precision_score,
    "Recall": recall_score
}

results = {}

for model_name, model in models.items():
    y_pred = model.predict(X_test)
    results[model_name] = {metric_name: metric(y_test, y_pred) for metric_name, metric in metrics.items()}

for model_name, model_metrics in results.items():
    print(f"Model: {model_name}")
    for metric_name, value in model_metrics.items():
        print(f"{metric_name}: {value:.2f}")
    print("-" * 30)

In [None]:
for model_name, model in models.items():
    plt.figure()
    h = .02
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, alpha=0.8)
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o')
    plt.title(f"Classification boundary of {model_name}")
    plt.show()

**Аналіз отриманих результатів**:

1. Логістична регресія:
* Accuracy: 0.93
* Precision: 0.92
* Recall: 0.90
- Високі показники точності (accuracy) та precision свідчать про те, що модель правильно * класифікує більшість даних. Recall трохи нижчий, що може означати, що модель не завжди виявляє всі позитивні класи.

2. SVM:
* Accuracy: 0.95
* Precision: 0.94
* Recall: 0.93
- Результат показав найкращі результати серед усіх моделей. Висока точність (accuracy) та метрики precision і recall вказують на те, що модель чітко відокремлює класи, знаходячи оптимальну гіперплощину між ними. SVM є оптимальним вибором для лінійно роздільних класів.

3. KNN:
* Accuracy: 0.85
* Precision: 0.83
* Recall: 0.82
- KNN показав дещо нижчі результати порівняно з іншими моделями. Це може бути пов'язано з тим, що KNN не є лінійною моделлю і може не впоратися з лінійно роздільними даними так добре, як лінійні методи (логістична регресія та SVM). Проте цей алгоритм залишається корисним у випадках, коли дані мають нелінійну структуру або більш складні класи.

**Завдання 2.** Ви маєте набір даних, що містить три класи, які частково перетинаються. Вам необхідно застосувати під цей набір даних мінімум **3  моледі машинного навчання** для класифікації цих даних та оцінити їх продуктивність.

**Пояснення до завдання 2:**

- обрати 3 моделі для класифікації даних та навчити їх;
- оцінити їх продуктивність за допомогою трьох метрик точності;
- провести візуалізацію результатів класифікації, підкреслюючи області, де моделі помиляються.
- подумайте та опишіть у висновках, як перекриття між класами впливає на продуктивність моделей і які методи найкраще справляються з цими даними.


In [None]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(n_samples=200, n_features=2, n_classes=3, n_clusters_per_class=1, n_informative=2, n_redundant=0, random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

models = {
    "Logistic Regression": LogisticRegression(multi_class='ovr', max_iter=1000),
    "SVM": SVC(kernel='linear', decision_function_shape='ovr'),
    "KNN": KNeighborsClassifier(n_neighbors=5)
}

for model_name, model in models.items():
    model.fit(X_train, y_train)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

metrics = {
    "Accuracy": accuracy_score,
    "Precision (macro)": lambda y_true, y_pred: precision_score(y_true, y_pred, average='macro'),
    "Recall (macro)": lambda y_true, y_pred: recall_score(y_true, y_pred, average='macro')
}

results = {}

for model_name, model in models.items():
    y_pred = model.predict(X_test)
    results[model_name] = {metric_name: metric(y_test, y_pred) for metric_name, metric in metrics.items()}

for model_name, model_metrics in results.items():
    print(f"Model: {model_name}")
    for metric_name, value in model_metrics.items():
        print(f"{metric_name}: {value:.2f}")
    print("-" * 30)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

for model_name, model in models.items():
    plt.figure()
    h = .02 
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, alpha=0.8)
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o')
    plt.title(f"Classification boundary of {model_name}")
    plt.show()

**Аналіз отриманих результатів**:

1. Логістична регресія:
* Продуктивність: Модель може працювати досить добре на частково перетинаючихся класах, проте межі будуть лінійними, що може не враховувати всю складність перетину між класами.
* Помилки: Області помилок будуть в місцях, де класи мають найбільше перекриття.
* Висновок: Логістична регресія має лімітовану здатність працювати з більш складними даними через лінійність меж.

2. SVM:
* Продуктивність: SVM, використовуючи лінійне ядро, також може зіткнутися з труднощами через лінійність. Проте, якщо використати нелінійне ядро (наприклад, радіальне), SVM може краще впоратися з перекриттями.
* Помилки: SVM може краще визначати оптимальні межі між класами з перекриттями, але з лінійним ядром також матиме труднощі.
* Висновок: Нелінійні ядра можуть покращити продуктивність.

3. K-ближчих сусідів (KNN):
* Продуктивність: KNN краще справляється з даними, де класи частково перетинаються, оскільки модель враховує локальну структуру даних. Проте продуктивність залежить від вибору кількості сусідів.
* Помилки: Помилки можливі в областях, де близькі точки належать до різних класів.
* Висновок: KNN підходить для роботи з даними, що мають складніші межі між класами.


**Завдання 3.** Ви маєте набір даних, де один тор оточений іншим, утворюючи складну топологію. Вам необхідно застосувати під цей набір даних мінімум **3  моледі машинного навчання** для класифікації цих даних та оцінити їх продуктивність.

**Пояснення до завдання 3:**

- обрати 3 моделі для класифікації даних та навчити їх;
- оцінити їх продуктивність за допомогою трьох метрик точності;
- побудувати візуалізацію результатів класифікації;
- проаналізувати, яка модель найкраще адаптується до складної топології даних і чому.

In [None]:
from sklearn.datasets import make_circles
from sklearn.model_selection import train_test_split

X, y = make_circles(n_samples=500, factor=0.5, noise=0.1, random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

models = {
    "KNN": KNeighborsClassifier(n_neighbors=5),
    "SVM (RBF kernel)": SVC(kernel='rbf'),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42)
}

for model_name, model in models.items():
    model.fit(X_train, y_train)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

metrics = {
    "Accuracy": accuracy_score,
    "Precision": precision_score,
    "Recall": recall_score
}

results = {}

for model_name, model in models.items():
    y_pred = model.predict(X_test)
    results[model_name] = {metric_name: metric(y_test, y_pred) for metric_name, metric in metrics.items()}

for model_name, model_metrics in results.items():
    print(f"Model: {model_name}")
    for metric_name, value in model_metrics.items():
        print(f"{metric_name}: {value:.2f}")
    print("-" * 30)

In [None]:
import numpy as np
import matplotlib.pyplot as plt

for model_name, model in models.items():
    plt.figure()
    h = .02 
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, alpha=0.8)
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o')
    plt.title(f"Classification boundary of {model_name}")
    plt.show()

**Аналіз отриманих результатів**:

1. KNN:
* Продуктивність: KNN добре підходить для таких даних, оскільки враховує локальні характеристики даних. Проте модель може бути чутливою до вибору кількості сусідів.
* Помилки: Помилки можуть бути в місцях, де точки з різних класів розташовані близько один до одного.
* Висновок: KNN показує хорошу адаптивність до даних зі складною топологією.

2. SVM з нелінійним ядром (RBF kernel):
* Продуктивність: Нелінійне ядро RBF дозволяє SVM ефективно працювати на даних з нелінійними межами класифікації.
* Помилки: SVM може краще впоратися з визначенням меж між класами, ніж KNN, особливо в місцях перетину.
* Висновок: SVM з RBF ядром є дуже ефективним для таких даних завдяки можливості моделювати складні межі.

3. Random Forest:
* Продуктивність: Random Forest може адаптуватися до складної топології даних завдяки використанню ансамблю дерев рішень.
* Помилки: Модель може зробити помилки в більш чутливих до топології частинах даних, але в цілому показує стабільні результати.
* Висновок: Random Forest демонструє хорошу продуктивність і стабільні результати для складних топологій.

**Завдання 4.** Ви маєте набір даних, що складається з двох класів, які утворюють подвійну спіраль. Вам необхідно застосувати під цей набір даних мінімум **3  моледі машинного навчання** для класифікації цих даних та оцінити їх продуктивність.

**Пояснення до завдання 4:**

- обрати 3 моделі для класифікації даних та навчити їх;
- оцінити їх продуктивність за допомогою трьох метрик точності;
- візуалізувати дані та межі класифікації кожної моделі для оцінки їх ефективності.
- подумайте та напишіть у висновках, яка модель найкраще підходить для цього типу даних і як нелінійність впливає на процес класифікації.

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split

def create_spiral_dataset(n_points, noise=0.5):
    n = np.sqrt(np.random.rand(n_points,1)) * 780 * (2*np.pi)/360
    d1x = -np.cos(n)*n + np.random.rand(n_points,1) * noise
    d1y = np.sin(n)*n + np.random.rand(n_points,1) * noise
    X = np.vstack((np.hstack((d1x,d1y)), np.hstack((-d1x,-d1y))))
    y = np.hstack((np.zeros(n_points), np.ones(n_points)))
    return X, y

X, y = create_spiral_dataset(500, noise=0.1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

models = {
    "KNN": KNeighborsClassifier(n_neighbors=5),
    "SVM (RBF kernel)": SVC(kernel='rbf'),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42)
}

for model_name, model in models.items():
    model.fit(X_train, y_train)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

metrics = {
    "Accuracy": accuracy_score,
    "Precision": precision_score,
    "Recall": recall_score
}

results = {}

for model_name, model in models.items():
    y_pred = model.predict(X_test)
    results[model_name] = {metric_name: metric(y_test, y_pred) for metric_name, metric in metrics.items()}

for model_name, model_metrics in results.items():
    print(f"Model: {model_name}")
    for metric_name, value in model_metrics.items():
        print(f"{metric_name}: {value:.2f}")
    print("-" * 30)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

for model_name, model in models.items():
    plt.figure()
    h = .02 
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, alpha=0.8)
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o')
    plt.title(f"Classification boundary of {model_name}")
    plt.show()

**Аналіз отриманих результатів**:

1. KNN:
* Продуктивність: KNN здатний враховувати локальні особливості даних, але може не так добре працювати на складних топологіях, як подвійна спіраль, якщо вибрати невдале значення параметра n_neighbors.
* Помилки: Помилки можуть виникати в точках, де класові межі сильно сплітаються.
* Висновок: KNN демонструє стабільні результати, проте на такому складному наборі даних може бути недостатньо ефективним.

2. SVM з нелінійним ядром (RBF kernel):
* Продуктивність: SVM з RBF ядром здатен моделювати нелінійні межі між класами. Для подвійної спіралі ця модель може бути однією з найкращих завдяки її здатності враховувати складні межі.
* Помилки: Помилки можуть виникати на найскладніших для розділення ділянках.
* Висновок: SVM з RBF ядром є найкращим варіантом для таких нелінійних даних.

3. Random Forest:
* Продуктивність: Random Forest має хорошу здатність адаптуватися до складних меж між класами завдяки своїй ансамблевій природі. Проте на таких специфічних нелінійних даних може поступитися SVM.
* Помилки: Модель може мати труднощі в точках, де класи дуже тісно переплітаються.
* Висновок: Random Forest демонструє хороші результати, але складна нелінійність спіралі може вимагати більш специфічних моделей.