In [24]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier

# Загрузка данных
congressional_data = pd.read_csv('datasets/congressional_voting_dataset.csv')
heart_disease_data = pd.read_csv('datasets/heart_disease_dataset.csv')

In [25]:

# Предварительный анализ данных
print("Congressional Voting Dataset:")
print(congressional_data.info())
print("\nHeart Disease Dataset:")
print(heart_disease_data.info())

Congressional Voting Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 435 entries, 0 to 434
Data columns (total 17 columns):
 #   Column                                  Non-Null Count  Dtype 
---  ------                                  --------------  ----- 
 0   handicapped_infants                     435 non-null    object
 1   water_project_cost_sharing              435 non-null    object
 2   adoption_of_the_budget_resolution       435 non-null    object
 3   physician_fee_freeze                    435 non-null    object
 4   el_salvador_aid                         435 non-null    object
 5   religious_groups_in_schools             435 non-null    object
 6   anti_satellite_test_ban                 435 non-null    object
 7   aid_to_nicaraguan_contras               435 non-null    object
 8   mx_missile                              435 non-null    object
 9   immigration                             435 non-null    object
 10  synfuels_corporation_cutback            435 

In [26]:

# Предобработка данных
def preprocess_data(data):
    # Замена строковых значений на числа для бинарных признаков
    label_encoder = LabelEncoder()
    for column in data.columns:
        if data[column].dtype == 'object':
            data[column] = label_encoder.fit_transform(data[column].astype(str))

    # Заполнение пропущенных значений
    imputer = SimpleImputer(strategy='most_frequent')
    data_filled = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

    return data_filled

# Подготовка и предобработка данных
congressional_data_processed = preprocess_data(congressional_data)
heart_disease_data_processed = preprocess_data(heart_disease_data)


In [27]:

# Разделение данных на обучающую и тестовую выборки
X_congressional = congressional_data_processed.drop('political_party', axis=1)
y_congressional = congressional_data_processed['political_party']
X_heart_disease = heart_disease_data_processed.drop('num', axis=1)
y_heart_disease = heart_disease_data_processed['num']

X_train_congressional, X_test_congressional, y_train_congressional, y_test_congressional = train_test_split(
    X_congressional, y_congressional, test_size=0.2, random_state=42
)
X_train_heart_disease, X_test_heart_disease, y_train_heart_disease, y_test_heart_disease = train_test_split(
    X_heart_disease, y_heart_disease, test_size=0.2, random_state=42
)

# Модели и их обучение
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Support Vector Machine": SVC(),
    "Decision Tree": DecisionTreeClassifier(),
    "k-Nearest Neighbors": KNeighborsClassifier()
}

for model_name, model in models.items():
    # Обучение модели на Congressional Voting Dataset
    model.fit(X_train_congressional, y_train_congressional)
    # Предсказание
    y_pred_congressional = model.predict(X_test_congressional)
    # Оценка метрик
    accuracy_congressional = accuracy_score(y_test_congressional, y_pred_congressional)
    precision_congressional = precision_score(y_test_congressional, y_pred_congressional,zero_division=0)
    recall_congressional = recall_score(y_test_congressional, y_pred_congressional)
    f1_congressional = f1_score(y_test_congressional, y_pred_congressional,zero_division=0)

    # Обучение модели на Heart Disease Dataset
    model.fit(X_train_heart_disease, y_train_heart_disease)
    # Предсказание
    y_pred_heart_disease = model.predict(X_test_heart_disease)
    # Оценка метрик
    accuracy_heart_disease = accuracy_score(y_test_heart_disease, y_pred_heart_disease)
    precision_heart_disease = precision_score(y_test_heart_disease, y_pred_heart_disease,zero_division=0)
    recall_heart_disease = recall_score(y_test_heart_disease, y_pred_heart_disease)
    f1_heart_disease = f1_score(y_test_heart_disease, y_pred_heart_disease,zero_division=0)

    # Вывод результатов
    print(f"\nModel: {model_name}")
    print("Congressional Voting Dataset Metrics:")
    print(f"Accuracy: {accuracy_congressional:.4f}")
    print(f"Precision: {precision_congressional:.4f}")
    print(f"Recall: {recall_congressional:.4f}")
    print(f"F1 Score: {f1_congressional:.4f}")

    print("\nHeart Disease Dataset Metrics:")
    print(f"Accuracy: {accuracy_heart_disease:.4f}")
    print(f"Precision: {precision_heart_disease:.4f}")
    print(f"Recall: {recall_heart_disease:.4f}")
    print(f"F1 Score: {f1_heart_disease:.4f}")



Model: Logistic Regression
Congressional Voting Dataset Metrics:
Accuracy: 0.9655
Precision: 1.0000
Recall: 0.9032
F1 Score: 0.9492

Heart Disease Dataset Metrics:
Accuracy: 0.8361
Precision: 0.8929
Recall: 0.7812
F1 Score: 0.8333

Model: Support Vector Machine
Congressional Voting Dataset Metrics:
Accuracy: 0.9425
Precision: 0.9333
Recall: 0.9032
F1 Score: 0.9180

Heart Disease Dataset Metrics:
Accuracy: 0.4754
Precision: 0.0000
Recall: 0.0000
F1 Score: 0.0000

Model: Decision Tree
Congressional Voting Dataset Metrics:
Accuracy: 0.9310
Precision: 0.9310
Recall: 0.8710
F1 Score: 0.9000

Heart Disease Dataset Metrics:
Accuracy: 0.7377
Precision: 0.7857
Recall: 0.6875
F1 Score: 0.7333

Model: k-Nearest Neighbors
Congressional Voting Dataset Metrics:
Accuracy: 0.9080
Precision: 0.8710
Recall: 0.8710
F1 Score: 0.8710

Heart Disease Dataset Metrics:
Accuracy: 0.6721
Precision: 0.7143
Recall: 0.6250
F1 Score: 0.6667


**Congressional Voting Dataset:**
 - Логистическая Регрессия: Весьма высокие показатели метрик, что может свидетельствовать о хорошей обобщающей способности модели.
 - Метод Опорных Векторов (SVM): Также хорошие показатели, но слегка хуже, чем у логистической регрессии.
 - Деревья Принятия Решений: Хорошие результаты, но признаки как "precision" и "recall" несколько ниже,
чем у логистической регрессии.
 - k-Nearest Neighbors (kNN): Показывает хорошие результаты, но сравнительно ниже, чем логистическая
   регрессия.


**Heart Disease Dataset:**
  - Логистическая Регрессия: Accuracy в порядке, но precision, recall и F1 Score немного ниже. Возможно, нужна дополнительная настройка модели.
  - Метод Опорных Векторов (SVM): Показывает низкие результаты, что может говорить о том, что SVM может не быть оптимальным выбором для данного датасета.
  - Деревья Принятия Решений: Показывает удовлетворительные результаты, но также имеет потенциал для улучшения.
  - k-Nearest Neighbors (kNN): Accuracy ниже по сравнению с другими моделями. Требуется возможная настройка параметров.

**Общие выводы:**
        Логистическая Регрессия: В целом, логистическая регрессия предоставляет наилучшие результаты для обоих датасетов, обеспечивая хороший баланс между precision и recall.
        Метод Опорных Векторов (SVM): Не оптимален для второго датасета.
        Деревья Принятия Решений: Показывают удовлетворительные результаты, но могут требовать настройки гиперпараметров.
        k-Nearest Neighbors (kNN): Показывают хорошие результаты, но также требуют настройки параметров.