In [13]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
import time

# Список моделей
models = {
    # Логистическая регрессия: 
    # - Простой и интерпретируемый метод
    # - Хорошо работает с бинарной классификацией
    # - Эффективен для линейно разделимых данных
    'Logistic Regression': LogisticRegression(max_iter=1000),
    # Дерево решений:
    # - Интуитивно понятен и легко интерпретируется
    # - Может моделировать нелинейные зависимости
    # - Хорошо подходит для смешанных типов данных
    'Decision Tree': DecisionTreeClassifier(max_depth=5),
    # k-ближайших соседей:
    # - Простой и не требует предположений о распределении данных
    # - Эффективен для задач с локальной структурой данных
    # - Подходит для небольших и средних датасетов
    'K-Nearest Neighbors': KNeighborsClassifier(n_neighbors=5),
    # Наивный Байес:
    # - Очень быстрый и требует мало данных для обучения
    # - Хорошо работает с независимыми признаками
    # - Прост в реализации и эффективен для базовой классификации
    'Naive Bayes': GaussianNB()
}

# Словарь для хранения результатов всех моделей по всем датасетам
all_results = {name: {'accuracy': [], 'time': []} for name in models.keys()}

# Обработка всех 12 датасетов
for i in range(1, 13):
    # Загрузка датасета
    dataset_name = f'dataset_{i}.csv'

    df = pd.read_csv(dataset_name)
    
    # Подготовка данных
    le_figure1 = LabelEncoder()
    le_figure2 = LabelEncoder()
    df['figure1'] = le_figure1.fit_transform(df['figure1'])
    df['figure2'] = le_figure2.fit_transform(df['figure2'])
    
    if 'color1' in df.columns:
        le_color1 = LabelEncoder()
        le_color2 = LabelEncoder()
        df['color1'] = le_color1.fit_transform(df['color1'])
        df['color2'] = le_color2.fit_transform(df['color2'])
    
    # Разделение данных
    X = df.drop('collision', axis=1)
    y = df['collision']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Обучение и оценка моделей
    for name, model in models.items():
        start_time = time.time()
        model.fit(X_train, y_train)
        training_time = time.time() - start_time
        accuracy = model.score(X_test, y_test)
        
        # Сохранение результатов
        all_results[name]['accuracy'].append(accuracy)
        all_results[name]['time'].append(training_time)


# Анализ результатов
print("\nСредние результаты по всем датасетам:")
summary = {}
for name in models.keys():
    avg_accuracy = sum(all_results[name]['accuracy']) / len(all_results[name]['accuracy'])
    avg_time = sum(all_results[name]['time']) / len(all_results[name]['time'])
    summary[name] = {'avg_accuracy': avg_accuracy, 'avg_time': avg_time}

# Определение лучшей модели
best_model = max(summary.items(), key=lambda x: x[1]['avg_accuracy'])
print(f"\nЛучшая модель: {best_model[0]}")
print(f"Средняя точность: {best_model[1]['avg_accuracy']:.4f}")
print(f"Среднее время обучения: {best_model[1]['avg_time']:.4f} сек")



STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(



Средние результаты по всем датасетам:

Лучшая модель: Decision Tree
Средняя точность: 0.6613
Среднее время обучения: 0.0017 сек


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
