In [5]:
# Завантаження необхідних бібліотек
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.preprocessing import StandardScaler

# Завантаження даних
data = pd.read_csv('data_multivar_nb.txt', sep='\t', header=None)

# Розділення значень у кожній комірці за комами
data = data[0].str.split(',', expand=True)

# Переведення значень у числовий тип
data = data.apply(pd.to_numeric)

# Перевіряємо структуру даних
print(data.head())
print(data.info())

# Поділ на ознаки (X) і мітки (y) (припустимо, що остання колонка - це мітки)
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

# Перевіряємо розміри X та y
print(X.shape)
print(y.shape)

# Поділ на навчальну та тестову вибірки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Масштабування ознак
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 1. Класифікація за допомогою машини опорних векторів (SVM)
svm_model = SVC(kernel='linear')
svm_model.fit(X_train_scaled, y_train)
y_pred_svm = svm_model.predict(X_test_scaled)

# Розрахунок показників якості для SVM
accuracy_svm = accuracy_score(y_test, y_pred_svm)
precision_svm = precision_score(y_test, y_pred_svm, average='weighted')
recall_svm = recall_score(y_test, y_pred_svm, average='weighted')
f1_svm = f1_score(y_test, y_pred_svm, average='weighted')

# 2. Класифікація за допомогою Наївного Байєсівського Класифікатора
nb_model = GaussianNB()
nb_model.fit(X_train, y_train)
y_pred_nb = nb_model.predict(X_test)

# Розрахунок показників якості для Наївного Байєсівського Класифікатора
accuracy_nb = accuracy_score(y_test, y_pred_nb)
precision_nb = precision_score(y_test, y_pred_nb, average='weighted')
recall_nb = recall_score(y_test, y_pred_nb, average='weighted')
f1_nb = f1_score(y_test, y_pred_nb, average='weighted')

# Порівняння результатів
print("SVM:")
print(f"Точність: {accuracy_svm}")
print(f"Точність (Precision): {precision_svm}")
print(f"Повнота (Recall): {recall_svm}")
print(f"F1-міра: {f1_svm}")

print("\nНаївний Байєс:")
print(f"Точність: {accuracy_nb}")
print(f"Точність (Precision): {precision_nb}")
print(f"Повнота (Recall): {recall_nb}")
print(f"F1-міра: {f1_nb}")

# Висновки
if accuracy_svm > accuracy_nb:
    print("\nSVM показав кращу точність. Краще обрати SVM.")
else:
    print("\nНаївний Байєс показав кращу точність. Краще обрати Наївний Байєс.")

      0     1  2
0  2.18  0.57  0
1  4.13  5.12  1
2  9.87  1.95  2
3  4.02 -0.80  3
4  1.18  1.03  0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       400 non-null    float64
 1   1       400 non-null    float64
 2   2       400 non-null    int64  
dtypes: float64(2), int64(1)
memory usage: 9.5 KB
None
(400, 2)
(400,)
SVM:
Точність: 0.9916666666666667
Точність (Precision): 0.992013888888889
Повнота (Recall): 0.9916666666666667
F1-міра: 0.9916891815827985

Наївний Байєс:
Точність: 0.9916666666666667
Точність (Precision): 0.992013888888889
Повнота (Recall): 0.9916666666666667
F1-міра: 0.9916891815827985

Наївний Байєс показав кращу точність. Краще обрати Наївний Байєс.
