In [25]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier

# Загрузка данных
congressional_data = pd.read_csv('/kaggle/input/lab2dataset/congressional_voting_dataset.csv')
heart_disease_data = pd.read_csv('/kaggle/input/lab2dataset/heart_disease_dataset.csv')

In [27]:

def preprocess_data(data):
    label_encoder = LabelEncoder()
    for column in data.columns:
        if data[column].dtype == 'object':
            data[column] = label_encoder.fit_transform(data[column].astype(str))

    imputer = SimpleImputer(strategy='most_frequent')
    data_filled = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

    return data_filled

congressional_data_processed = preprocess_data(congressional_data)
heart_disease_data_processed = preprocess_data(heart_disease_data)


In [28]:

X_congressional = congressional_data_processed.drop('political_party', axis=1)
y_congressional = congressional_data_processed['political_party']
X_heart_disease = heart_disease_data_processed.drop('num', axis=1)
y_heart_disease = heart_disease_data_processed['num']

X_train_congressional, X_test_congressional, y_train_congressional, y_test_congressional = train_test_split(
    X_congressional, y_congressional, test_size=0.2, random_state=42
)
X_train_heart_disease, X_test_heart_disease, y_train_heart_disease, y_test_heart_disease = train_test_split(
    X_heart_disease, y_heart_disease, test_size=0.2, random_state=42
)

models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Support Vector Machine": SVC(),
    "Decision Tree": DecisionTreeClassifier(),
    "k-Nearest Neighbors": KNeighborsClassifier()
}

for model_name, model in models.items():
    model.fit(X_train_congressional, y_train_congressional)
    y_pred_congressional = model.predict(X_test_congressional)
    accuracy_congressional = accuracy_score(y_test_congressional, y_pred_congressional)
    precision_congressional = precision_score(y_test_congressional, y_pred_congressional,zero_division=0)
    recall_congressional = recall_score(y_test_congressional, y_pred_congressional)
    f1_congressional = f1_score(y_test_congressional, y_pred_congressional,zero_division=0)

    model.fit(X_train_heart_disease, y_train_heart_disease)
    y_pred_heart_disease = model.predict(X_test_heart_disease)
    accuracy_heart_disease = accuracy_score(y_test_heart_disease, y_pred_heart_disease)
    precision_heart_disease = precision_score(y_test_heart_disease, y_pred_heart_disease,zero_division=0)
    recall_heart_disease = recall_score(y_test_heart_disease, y_pred_heart_disease)
    f1_heart_disease = f1_score(y_test_heart_disease, y_pred_heart_disease,zero_division=0)

    print(f"\nМодель: {model_name}")
    print("Метрики набора данных Конгресса:")
    print(f"Точность: {accuracy_congressional:.4f}")
    print(f"Точность предсказания: {precision_congressional:.4f}")
    print(f"Полнота: {recall_congressional:.4f}")
    print(f"F1-мера: {f1_congressional:.4f}")

    print("\nМетрики набора данных по заболеваниям сердца:")
    print(f"Точность: {accuracy_heart_disease:.4f}")
    print(f"Точность предсказания: {precision_heart_disease:.4f}")
    print(f"Полнота: {recall_heart_disease:.4f}")
    print(f"F1-мера: {f1_heart_disease:.4f}")



Модель: Logistic Regression
Метрики набора данных Конгресса:
Точность: 0.9655
Точность предсказания: 1.0000
Полнота: 0.9032
F1-мера: 0.9492

Метрики набора данных по заболеваниям сердца:
Точность: 0.8361
Точность предсказания: 0.8929
Полнота: 0.7812
F1-мера: 0.8333

Модель: Support Vector Machine
Метрики набора данных Конгресса:
Точность: 0.9425
Точность предсказания: 0.9333
Полнота: 0.9032
F1-мера: 0.9180

Метрики набора данных по заболеваниям сердца:
Точность: 0.4754
Точность предсказания: 0.0000
Полнота: 0.0000
F1-мера: 0.0000

Модель: Decision Tree
Метрики набора данных Конгресса:
Точность: 0.9310
Точность предсказания: 0.9310
Полнота: 0.8710
F1-мера: 0.9000

Метрики набора данных по заболеваниям сердца:
Точность: 0.7377
Точность предсказания: 0.7857
Полнота: 0.6875
F1-мера: 0.7333

Модель: k-Nearest Neighbors
Метрики набора данных Конгресса:
Точность: 0.9080
Точность предсказания: 0.8710
Полнота: 0.8710
F1-мера: 0.8710

Метрики набора данных по заболеваниям сердца:
Точность: 0.67

Для модели логистической регрессии:

На наборе данных Конгресса точность предсказания составляет 100%, что может указывать на переобучение модели или идеальное соответствие данных.
Полнота также высокая (90%), что означает, что модель хорошо идентифицирует положительные случаи, но может пропускать некоторые.
На наборе данных по заболеваниям сердца результаты не такие высокие, но все еще довольно неплохие.
Для модели метода опорных векторов (SVM):

На данных Конгресса результаты точности и полноты выше среднего.
Однако на данных о заболеваниях сердца результаты гораздо менее удовлетворительные, возможно, из-за сложности данных или несбалансированности классов.
Для модели дерева решений:

Хорошие результаты на обеих выборках данных, но немного ниже, чем у логистической регрессии, особенно по метрикам по заболеваниям сердца.
Для модели k-Nearest Neighbors:

Сравнительно хорошие результаты на обеих выборках данных, но также немного ниже, чем у логистической регрессии и дерева решений.

Из этих данных можно сделать вывод, что модель логистической регрессии показывает лучшие результаты с точки зрения обеих групп данных.