# 1. Загрузка и подготовка данных

В этой части мы:
- загружаем датасет;
- приводим имена столбцов к аккуратному виду;
- смотрим базовую информацию (размерность, типы столбцов, наличие пропусков);
- визуализируем распределение целевой переменной `Method`.


In [None]:
# 1. Загрузка и подготовка данных

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import OneHotEncoder, StandardScaler, MinMaxScaler, KBinsDiscretizer, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

from sklearn.naive_bayes import GaussianNB, MultinomialNB, ComplementNB, BernoulliNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    roc_auc_score,
    roc_curve,
    classification_report,
    ConfusionMatrixDisplay
)

import random

# Для воспроизводимости
SEED = 42
np.random.seed(SEED)
random.seed(SEED)

# Имя файла датасета (лежит в той же папке, что и ноутбук)
DATA_PATH = "International Study on Male Genital Measurements Dataset.csv"

# Загрузка (важно: здесь у датасета не-UTF8 кодировка)
df = pd.read_csv(DATA_PATH, encoding="latin1")

# Убираем лишние пробелы в именах столбцов
df.columns = [col.strip() for col in df.columns]

df.head()


In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(x="Method", data=df)
plt.title("Распределение целевой переменной Method")
plt.xlabel("Method")
plt.ylabel("Количество стран")
plt.tight_layout()
plt.show()


## 2. Формирование признаков и разбиение выборки

В качестве целевой переменной (`y`) используем столбец `Method`, 
который кодируем в 0/1 с помощью `LabelEncoder`.

В качестве признаков (`X`) используем:
- числовые антропометрические признаки;
- размер выборки `N`;
- регион `Region` (категориальный признак).

Столбец `Country` не используем как признак, так как это просто название страны.

Далее разбиваем выборку на обучающую и тестовую, используя `train_test_split`
с параметрами `test_size=0.25` и `stratify=y`.


In [None]:
# Список числовых признаков
numeric_features = [
    "Flaccid Length (cm)",
    "Erect Length (cm)",
    "Flaccid Circumference (cm)",
    "Erect Circumference (cm)",
    "Flaccid Volume (cm³)",
    "Erect Volume (cm³)",
    "Growth Length",
    "Growth Circumference",
    "Growth Volume",
    "N"
]

# Категориальные признаки
categorical_features = ["Region"]

# Формируем матрицу признаков X и целевой вектор y
X = df[numeric_features + categorical_features]
y_raw = df["Method"]

# Кодируем целевую переменную в 0/1
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y_raw)

print("Соответствие классов:", dict(zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_))))

# Разбиение на train и test
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.25,
    random_state=SEED,
    stratify=y
)

print("Размер X_train:", X_train.shape)
print("Размер X_test:", X_test.shape)


## 3. Препроцессинг признаков

Для разных классификаторов удобны разные масштабы признаков:

- Для большинства моделей (SVM, kNN, LDA, Decision Tree, GaussianNB) 
  используем стандартизацию числовых признаков (`StandardScaler`) 
  и one-hot кодирование региона.

- Для `MultinomialNB` и `ComplementNB` важны неотрицательные признаки, 
  поэтому используем `MinMaxScaler` (0–1) + one-hot кодирование.

- Для `BernoulliNB` удобны бинарные признаки, 
  поэтому используем `KBinsDiscretizer` с двумя бинами (0/1) 
  и one-hot кодирование региона.

Все эти преобразования реализуем через `ColumnTransformer`.


In [None]:
from sklearn.preprocessing import MinMaxScaler, KBinsDiscretizer

# Препроцессинг для "обычных" моделей (SVM, kNN, LDA, DecisionTree, GaussianNB)
preprocessor_std = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), numeric_features),
        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features),
    ]
)

# Препроцессинг для MultinomialNB и ComplementNB (неотрицательные значения)
preprocessor_minmax = ColumnTransformer(
    transformers=[
        ("num", MinMaxScaler(), numeric_features),
        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features),
    ]
)

# Препроцессинг для BernoulliNB (бинарные признаки)
preprocessor_bin = ColumnTransformer(
    transformers=[
        ("num", KBinsDiscretizer(n_bins=2, encode="onehot-dense", strategy="quantile"), numeric_features),
        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features),
    ]
)


## 4. Базовые модели классификации

Здесь строим и оцениваем модели:

1. Наивный байесовский классификатор:
   - `GaussianNB`
   - `MultinomialNB`
   - `ComplementNB`
   - `BernoulliNB`
2. Дерево решений (`DecisionTreeClassifier`)
3. Линейный дискриминантный анализ (`LinearDiscriminantAnalysis`)
4. Метод опорных векторов (`SVC`)
5. Метод k-ближайших соседей (`KNeighborsClassifier`)

Для каждой модели вычисляем:
- Accuracy
- Precision
- Recall
- F1-score
- ROC-AUC

Также будем сохранять скоры для построения ROC-кривых.


In [None]:
def evaluate_classifier(name, model, X_train, X_test, y_train, y_test):
    """
    Обучает модель, вычисляет метрики и возвращает их вместе с ROC-данными.
    """
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    # Предсказанные "скор" для ROC (вероятности или decision_function)
    if hasattr(model, "predict_proba"):
        y_scores = model.predict_proba(X_test)[:, 1]
    elif hasattr(model, "decision_function"):
        y_scores = model.decision_function(X_test)
    else:
        y_scores = None

    metrics = {
        "model": name,
        "accuracy": accuracy_score(y_test, y_pred),
        "precision": precision_score(y_test, y_pred),
        "recall": recall_score(y_test, y_pred),
        "f1": f1_score(y_test, y_pred),
        "roc_auc": roc_auc_score(y_test, y_scores) if y_scores is not None else np.nan,
    }

    return metrics, y_pred, y_scores


In [None]:
# Наивные Байесовские классификаторы
pipe_gnb = Pipeline([
    ("preprocess", preprocessor_std),
    ("model", GaussianNB())
])

pipe_mnb = Pipeline([
    ("preprocess", preprocessor_minmax),
    ("model", MultinomialNB())
])

pipe_cnb = Pipeline([
    ("preprocess", preprocessor_minmax),
    ("model", ComplementNB())
])

pipe_bnb = Pipeline([
    ("preprocess", preprocessor_bin),
    ("model", BernoulliNB())
])

# Остальные модели
pipe_dt = Pipeline([
    ("preprocess", preprocessor_std),
    ("model", DecisionTreeClassifier(random_state=SEED))
])

pipe_lda = Pipeline([
    ("preprocess", preprocessor_std),
    ("model", LinearDiscriminantAnalysis())
])

pipe_svc = Pipeline([
    ("preprocess", preprocessor_std),
    ("model", SVC(kernel="rbf", probability=True, random_state=SEED))
])

pipe_knn = Pipeline([
    ("preprocess", preprocessor_std),
    ("model", KNeighborsClassifier())
])

base_models = {
    "GaussianNB": pipe_gnb,
    "MultinomialNB": pipe_mnb,
    "ComplementNB": pipe_cnb,
    "BernoulliNB": pipe_bnb,
    "DecisionTree": pipe_dt,
    "LDA": pipe_lda,
    "SVM (RBF)": pipe_svc,
    "kNN": pipe_knn,
}


In [None]:
results_base = []
roc_data_base = {}

for name, model in base_models.items():
    metrics, y_pred, y_scores = evaluate_classifier(
        name, model, X_train, X_test, y_train, y_test
    )
    results_base.append(metrics)
    if y_scores is not None:
        fpr, tpr, _ = roc_curve(y_test, y_scores)
        roc_data_base[name] = (fpr, tpr, metrics["roc_auc"])

results_base_df = pd.DataFrame(results_base).sort_values(by="f1", ascending=False)
results_base_df


## 5. Визуализация качества классификаторов

Здесь мы:

1. Строим столбчатую диаграмму по метрикам 
   (Accuracy, Precision, Recall, F1, ROC-AUC) для всех базовых моделей.
2. Строим ROC-кривые для лучшего поднабора моделей.


In [None]:
metrics_to_plot = ["accuracy", "precision", "recall", "f1", "roc_auc"]

plt.figure(figsize=(10, 6))
results_base_df.set_index("model")[metrics_to_plot].plot(
    kind="bar",
    figsize=(12, 6)
)
plt.title("Сравнение метрик базовых моделей")
plt.ylabel("Значение метрики")
plt.xticks(rotation=45, ha="right")
plt.tight_layout()
plt.show()


In [None]:
plt.figure(figsize=(8, 6))

for name, (fpr, tpr, auc_val) in roc_data_base.items():
    plt.plot(fpr, tpr, label=f"{name} (AUC = {auc_val:.2f})")

plt.plot([0, 1], [0, 1], "k--", label="Случайный классификатор")
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.title("ROC-кривые базовых моделей")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


## 6. Настройка гиперпараметров

В этом разделе мы подбираем гиперпараметры для основных моделей:

- `GaussianNB`: параметр `var_smoothing`
- `DecisionTreeClassifier`: глубина дерева, минимальный размер сплита
- `LinearDiscriminantAnalysis`: solver
- `SVC`: параметр регуляризации `C` и параметр ядра `gamma`
- `KNeighborsClassifier`: число соседей, схема взвешивания

Подбор выполняется с помощью `GridSearchCV` с кросс-валидацией (cv=5) 
и метрикой качества `f1`.


In [None]:
tuned_results = []
roc_data_tuned = {}
best_models = {}

# 6.1. GaussianNB
pipe_gnb_gs = Pipeline([
    ("preprocess", preprocessor_std),
    ("model", GaussianNB())
])

param_grid_gnb = {
    "model__var_smoothing": [1e-9, 1e-8, 1e-7, 1e-6]
}

gs_gnb = GridSearchCV(
    pipe_gnb_gs,
    param_grid_gnb,
    cv=5,
    scoring="f1",
    n_jobs=-1
)
gs_gnb.fit(X_train, y_train)
best_models["GaussianNB_tuned"] = gs_gnb.best_estimator_

# 6.2. DecisionTree
pipe_dt_gs = Pipeline([
    ("preprocess", preprocessor_std),
    ("model", DecisionTreeClassifier(random_state=SEED))
])

param_grid_dt = {
    "model__max_depth": [3, 4, 5, None],
    "model__min_samples_split": [2, 4, 6]
}

gs_dt = GridSearchCV(
    pipe_dt_gs,
    param_grid_dt,
    cv=5,
    scoring="f1",
    n_jobs=-1
)
gs_dt.fit(X_train, y_train)
best_models["DecisionTree_tuned"] = gs_dt.best_estimator_

# 6.3. LDA
pipe_lda_gs = Pipeline([
    ("preprocess", preprocessor_std),
    ("model", LinearDiscriminantAnalysis())
])

param_grid_lda = {
    "model__solver": ["svd", "lsqr", "eigen"]
}

gs_lda = GridSearchCV(
    pipe_lda_gs,
    param_grid_lda,
    cv=5,
    scoring="f1",
    n_jobs=-1
)
gs_lda.fit(X_train, y_train)
best_models["LDA_tuned"] = gs_lda.best_estimator_

# 6.4. SVM
pipe_svc_gs = Pipeline([
    ("preprocess", preprocessor_std),
    ("model", SVC(probability=True, random_state=SEED))
])

param_grid_svc = {
    "model__kernel": ["linear", "rbf"],
    "model__C": [0.1, 1.0, 10.0],
    "model__gamma": ["scale", "auto"]
}

gs_svc = GridSearchCV(
    pipe_svc_gs,
    param_grid_svc,
    cv=5,
    scoring="f1",
    n_jobs=-1
)
gs_svc.fit(X_train, y_train)
best_models["SVM_tuned"] = gs_svc.best_estimator_

# 6.5. kNN
pipe_knn_gs = Pipeline([
    ("preprocess", preprocessor_std),
    ("model", KNeighborsClassifier())
])

param_grid_knn = {
    "model__n_neighbors": [3, 5, 7, 9],
    "model__weights": ["uniform", "distance"]
}

gs_knn = GridSearchCV(
    pipe_knn_gs,
    param_grid_knn,
    cv=5,
    scoring="f1",
    n_jobs=-1
)
gs_knn.fit(X_train, y_train)
best_models["kNN_tuned"] = gs_knn.best_estimator_

# Оценка настроенных моделей
for name, model in best_models.items():
    metrics, y_pred, y_scores = evaluate_classifier(
        name, model, X_train, X_test, y_train, y_test
    )
    tuned_results.append(metrics)
    if y_scores is not None:
        fpr, tpr, _ = roc_curve(y_test, y_scores)
        roc_data_tuned[name] = (fpr, tpr, metrics["roc_auc"])

tuned_results_df = pd.DataFrame(tuned_results).sort_values(by="f1", ascending=False)
tuned_results_df


In [None]:
print("Базовые модели:")
display(results_base_df)

print("\nМодели с подобранными гиперпараметрами:")
display(tuned_results_df)


## 7. ROC-кривые для настроенных моделей

Строим ROC-кривые для моделей с подобранными гиперпараметрами 
и сравниваем их между собой.


In [None]:
plt.figure(figsize=(8, 6))

for name, (fpr, tpr, auc_val) in roc_data_tuned.items():
    plt.plot(fpr, tpr, label=f"{name} (AUC = {auc_val:.2f})")

plt.plot([0, 1], [0, 1], "k--", label="Случайный классификатор")
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.title("ROC-кривые моделей с подобранными гиперпараметрами")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


## 8. Нейронная сеть на TensorFlow и визуализация в TensorBoard

В этой части мы:

1. Повторно готовим признаки для нейронной сети:
   - стандартизация числовых признаков;
   - one-hot кодирование категориальных признаков.

2. Строим полносвязную нейронную сеть (MLP) в Keras:
   - входной слой;
   - несколько скрытых слоёв с ReLU;
   - выходной слой с сигмоидой (бинарная классификация).

3. Компилируем модель с функцией ошибки `binary_crossentropy`
   и метриками `accuracy` и `AUC`.

4. Подключаем коллбек `TensorBoard` для логирования:
   - `loss`, `accuracy`, `val_loss`, `val_accuracy`.

5. Обучаем модель и визуализируем кривые обучения.

6. Оцениваем качество на тестовой выборке и сравниваем с классическими моделями.


In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# Препроцессинг для нейросети: стандартизация + one-hot
nn_preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), numeric_features),
        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features),
    ]
)

# Обучаем препроцессор на train и применяем к train/test
X_train_nn = nn_preprocessor.fit_transform(X_train)
X_test_nn = nn_preprocessor.transform(X_test)

y_train_nn = y_train.astype("float32")
y_test_nn = y_test.astype("float32")

X_train_nn.shape, X_test_nn.shape


In [None]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

tf.random.set_seed(SEED)

input_dim = X_train_nn.shape[1]

def build_model(hidden_units=32, hidden_units2=16, dropout_rate=0.2, learning_rate=1e-3):
    model = keras.Sequential([
        layers.Input(shape=(input_dim,)),
        layers.Dense(hidden_units, activation="relu"),
        layers.Dropout(dropout_rate),
        layers.Dense(hidden_units2, activation="relu"),
        layers.Dense(1, activation="sigmoid")
    ])

    model.compile(
        optimizer=keras.optimizers.Adam(learning_rate=learning_rate),
        loss="binary_crossentropy",
        metrics=[
            "accuracy",
            tf.keras.metrics.AUC(name="auc")
        ]
    )
    return model

model = build_model()

log_dir = "logs/method_classifier"
tensorboard_cb = keras.callbacks.TensorBoard(
    log_dir=log_dir,
    histogram_freq=1
)

early_stopping_cb = keras.callbacks.EarlyStopping(
    monitor="val_loss",
    patience=10,
    restore_best_weights=True
)

history = model.fit(
    X_train_nn,
    y_train_nn,
    validation_split=0.2,
    epochs=100,
    batch_size=16,
    callbacks=[tensorboard_cb, early_stopping_cb],
    verbose=1
)


Для запуска TensorBoard из консоли VS Code:

tensorboard --logdir logs/method_classifier

In [None]:
history_df = pd.DataFrame(history.history)

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.plot(history_df["loss"], label="train_loss")
plt.plot(history_df["val_loss"], label="val_loss")
plt.xlabel("Epoch")
plt.ylabel("Loss")
plt.title("Кривые loss")
plt.legend()
plt.grid(True)

plt.subplot(1, 2, 2)
plt.plot(history_df["accuracy"], label="train_acc")
plt.plot(history_df["val_accuracy"], label="val_acc")
plt.xlabel("Epoch")
plt.ylabel("Accuracy")
plt.title("Кривые accuracy")
plt.legend()
plt.grid(True)

plt.tight_layout()
plt.show()


In [None]:
test_loss, test_acc, test_auc = model.evaluate(X_test_nn, y_test_nn, verbose=0)
print(f"Test loss: {test_loss:.4f}")
print(f"Test accuracy: {test_acc:.4f}")
print(f"Test AUC: {test_auc:.4f}")

# Предсказания и классический набор метрик
y_proba_nn = model.predict(X_test_nn).ravel()
y_pred_nn = (y_proba_nn >= 0.5).astype(int)

print("\nClassification report (нейросеть):")
print(classification_report(y_test, y_pred_nn, target_names=label_encoder.classes_))

ConfusionMatrixDisplay.from_predictions(
    y_test, y_pred_nn,
    display_labels=label_encoder.classes_,
    cmap="Blues"
)
plt.title("Confusion matrix для нейросети")
plt.tight_layout()
plt.show()

# ROC-кривая для нейросети
fpr_nn, tpr_nn, _ = roc_curve(y_test, y_proba_nn)
auc_nn = roc_auc_score(y_test, y_proba_nn)

plt.figure(figsize=(6, 5))
plt.plot(fpr_nn, tpr_nn, label=f"Нейросеть (AUC = {auc_nn:.2f})")
plt.plot([0, 1], [0, 1], "k--", label="Случайный классификатор")
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.title("ROC-кривая нейросети")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


## 9. Влияние гиперпараметров нейросети

Для исследования влияния гиперпараметров меняем:
- число нейронов в скрытых слоях,
- dropout,
- скорость обучения.

Сравниваем качество по метрикам Accuracy и AUC на тестовой выборке.


In [None]:
configs = [
    {"hidden_units": 16, "hidden_units2": 8, "dropout_rate": 0.1, "learning_rate": 1e-3},
    {"hidden_units": 32, "hidden_units2": 16, "dropout_rate": 0.2, "learning_rate": 1e-3},
    {"hidden_units": 64, "hidden_units2": 32, "dropout_rate": 0.3, "learning_rate": 5e-4},
]

nn_results = []

for cfg in configs:
    print("\nКонфигурация:", cfg)
    tf.random.set_seed(SEED)

    model_cfg = build_model(
        hidden_units=cfg["hidden_units"],
        hidden_units2=cfg["hidden_units2"],
        dropout_rate=cfg["dropout_rate"],
        learning_rate=cfg["learning_rate"]
    )

    history_cfg = model_cfg.fit(
        X_train_nn,
        y_train_nn,
        validation_split=0.2,
        epochs=60,
        batch_size=16,
        callbacks=[early_stopping_cb],
        verbose=0
    )

    loss, acc, auc_val = model_cfg.evaluate(X_test_nn, y_test_nn, verbose=0)
    print(f"Test Accuracy: {acc:.4f}, Test AUC: {auc_val:.4f}")

    nn_results.append({
        "hidden_units": cfg["hidden_units"],
        "hidden_units2": cfg["hidden_units2"],
        "dropout_rate": cfg["dropout_rate"],
        "learning_rate": cfg["learning_rate"],
        "test_accuracy": acc,
        "test_auc": auc_val
    })

nn_results_df = pd.DataFrame(nn_results)
nn_results_df
