# 🎯 Продвинутая кластеризация с оптимизацией порога расстояния

## 📋 Методология:
1. **Выбор граничного расстояния** (threshold)
2. **Разбиение выборки** на основе векторного расстояния
3. **Обучение с учителем** на полученных кластерах (классификатор)
4. **Прогноз кластеров** на тестовой выборке
5. **Оценка точности** предсказания
6. **Анализ динамики** точности от граничного расстояния

## 🔬 Алгоритм:
- Используем **иерархическую кластеризацию** или **DBSCAN** с варьируемым порогом
- Обучаем **Random Forest / SVM** на полученных метках
- Оптимизируем порог по метрикам качества классификации

## 📊 Входные данные:
CSV файл с каротажными параметрами: GR, Density, Neutron, DTP, Resistivity

## 1. Импорт библиотек

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import defaultdict
import json
import warnings
warnings.filterwarnings('ignore')

# Кластеризация
from sklearn.cluster import AgglomerativeClustering, DBSCAN
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, classification_report, silhouette_score
)

# Классификаторы
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

# Расстояния
from scipy.spatial.distance import pdist, squareform
from scipy.cluster.hierarchy import dendrogram, linkage

# Настройка
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (14, 8)

print("✅ Библиотеки загружены!")

## 1.5. Загрузка данных из LAS файлов (опционально)

Если у вас есть **LAS файлы** и таблица с **зонами/пластами**, используйте этот блок для загрузки данных.

In [None]:
# Установка библиотеки lasio (если не установлена)
# !pip install lasio

import os
import lasio
import time

print("✅ Библиотеки для работы с LAS загружены!")

In [None]:
def thick_to_dots(las, core, list_las_to_core):
    """
    Привязка данных из таблицы зон (интервалов) к каротажным данным
    
    Parameters:
    -----------
    las : DataFrame
        Каротажные данные (глубина + параметры)
    core : DataFrame  
        Таблица с зонами/интервалами (колонки: well, top, bottom, Zone)
    list_las_to_core : list
        Список колонок для переноса из core в las
    
    Returns:
    --------
    DataFrame с добавленными колонками из core
    """
    # Фильтруем core только по скважинам, которые есть в las
    core_filtered = core[core["well"].isin(las["well"].unique())].copy()

    # Создаем список для результатов
    result_list = []

    # Проходим по скважинам
    for well_name, core_part in core_filtered.groupby("well"):
        las_part = las[las["well"] == well_name].copy()

        # Мержим данные через интервал
        for _, row in core_part.iterrows():
            mask = (las_part["DEPTH"] >= row["top"]) & (las_part["DEPTH"] < row["bottom"])
            for col in list_las_to_core:
                if col in row:
                    las_part.loc[mask, col] = row[col]
        
        result_list.append(las_part)

    return pd.concat(result_list, ignore_index=True) if result_list else pd.DataFrame()


def form_df(path, DEPT, end_las, DEPTH_for_tops):
    """
    Загрузка и объединение LAS файлов из папки
    
    Parameters:
    -----------
    path : str
        Путь к папке с LAS файлами
    DEPT : str
        Название колонки глубины в LAS
    end_las : str
        Расширение LAS файлов (например, '.las')
    DEPTH_for_tops : str
        Колонка для глубины в итоговом DataFrame
    
    Returns:
    --------
    DataFrame с объединенными данными всех скважин
    """
    fac_list = []
    
    for f in os.listdir(path):
        if f.endswith(end_las):
            try:
                # Чтение LAS файла
                las_file = lasio.read(path + f)
                df_norm = las_file.df().reset_index()
                df_norm["well"] = f.replace(end_las, "")
                fac_list.append(df_norm)
                print(f"✅ Загружен: {f}")
            except Exception as e:
                print(f"⚠️ Ошибка в файле {f}: {e}")
    
    if not fac_list:
        print("❌ LAS файлы не найдены!")
        return pd.DataFrame()
    
    # Объединение всех скважин
    fac_norm_df_continuous = pd.concat(fac_list, ignore_index=True)
    
    # Округление глубины
    fac_norm_df_continuous[DEPT] = fac_norm_df_continuous[DEPT].round(1)
    
    # Усреднение по дублирующимся глубинам
    fac_norm_df_continuous = fac_norm_df_continuous.groupby(["well", DEPT]).mean().reset_index()
    
    # Создание унифицированной колонки DEPTH
    fac_norm_df_continuous['DEPTH'] = fac_norm_df_continuous[DEPTH_for_tops].round(1)
        
    return fac_norm_df_continuous


print("✅ Функции для работы с LAS определены!")

### Загрузка LAS файлов и таблицы зон

**Настройте пути к вашим данным:**

In [None]:
# ========================================
# НАСТРОЙКИ - ИЗМЕНИТЕ НА СВОИ ПУТИ
# ========================================

# Путь к папке с LAS файлами
path_las = r'\\gurentsov-new\portal\Зап-Сейхинское\new для Васи/'

# Путь к таблице с зонами (Excel)
path_zones = r'\\gurentsov-new\portal\Зап-Сейхинское\new для Васи/Zones new.xlsx'

# Параметры загрузки
DEPT = 'DEPTH'  # Название колонки глубины в LAS
end_las = '.las'  # Расширение LAS файлов
DEPTH_for_tops = 'DEPTH'  # Колонка для глубины

# ========================================
# ЗАГРУЗКА ДАННЫХ
# ========================================

# Проверка существования файлов
if os.path.exists(path_las) and os.path.exists(path_zones):
    print("🔄 Загрузка LAS файлов...\n")
    
    # Загрузка LAS файлов
    start_time = time.perf_counter()
    df_las = form_df(path_las, DEPT, end_las, DEPTH_for_tops)
    
    # Загрузка таблицы зон
    Zones = pd.read_excel(path_zones)
    
    # Приведение к нижнему регистру для сопоставления
    df_las['well'] = df_las['well'].str.lower()
    Zones['well'] = Zones['well'].str.lower()
    Zones['top'] = Zones['top'].round(2)
    Zones['bottom'] = Zones['bottom'].round(2)
    
    print(f"\n✅ Загружено LAS файлов: {df_las['well'].nunique()} скважин")
    print(f"✅ Загружено зон: {len(Zones)} интервалов")
    
    # Привязка зон к каротажу
    print("\n🔄 Привязка зон к каротажным данным...")
    lasgis_tops = thick_to_dots(df_las, Zones, ['Zone'])
    
    end_time = time.perf_counter()
    print(f"✅ Время выполнения: {end_time - start_time:.2f} секунд")
    
    # Фильтрация данных (удаление строк без зоны)
    df = lasgis_tops[lasgis_tops['Zone'] != 'nan'].copy()
    
    print(f"\n📊 Итоговый датасет:")
    print(f"  • Строк: {len(df)}")
    print(f"  • Колонок: {len(df.columns)}")
    print(f"  • Скважин: {df['well'].nunique()}")
    print(f"  • Зон: {df['Zone'].nunique()}")
    
    print(f"\n📋 Доступные колонки:")
    print(f"  {', '.join(df.columns)}")
    
    print(f"\n📊 Первые строки:")
    display(df.head())
    
    print(f"\n💡 Данные готовы для кластеризации!")
    print(f"   Используйте переменную 'df' в следующих ячейках")
    
else:
    print("❌ Файлы не найдены! Проверьте пути.")
    print(f"\nПроверка путей:")
    print(f"  LAS папка: {os.path.exists(path_las)} - {path_las}")
    print(f"  Zones файл: {os.path.exists(path_zones)} - {path_zones}")
    print(f"\n💡 Если файлы недоступны, используйте следующую ячейку с загрузкой CSV")

### Альтернатива: Загрузка из CSV

Если LAS файлы недоступны, используйте эту ячейку:

## 2. Загрузка и подготовка данных

In [None]:
# Путь к данным
input_file = 'real_well_logs.csv'

# Загрузка
try:
    df = pd.read_csv(input_file)
    print(f"✅ Данные загружены: {df.shape[0]} × {df.shape[1]}")
except FileNotFoundError:
    print("💡 Создаем ДЕМО-данные...")
    np.random.seed(42)
    n = 1000
    
    # 4 типа с разными свойствами
    cluster_types, gr_vals, rho_vals, nphi_vals, dt_vals, rt_vals = [], [], [], [], [], []
    
    for cluster_id, n_points in [(0, 250), (1, 350), (2, 200), (3, 200)]:
        cluster_types.extend([cluster_id] * n_points)
        
        if cluster_id == 0:  # Песок
            gr_vals.extend(np.random.normal(45, 8, n_points))
            rho_vals.extend(np.random.normal(2.30, 0.08, n_points))
            nphi_vals.extend(np.random.normal(0.25, 0.04, n_points))
            dt_vals.extend(np.random.normal(200, 15, n_points))
            rt_vals.extend(np.random.lognormal(1.5, 0.5, n_points))
        elif cluster_id == 1:  # Глина
            gr_vals.extend(np.random.normal(95, 12, n_points))
            rho_vals.extend(np.random.normal(2.45, 0.06, n_points))
            nphi_vals.extend(np.random.normal(0.35, 0.05, n_points))
            dt_vals.extend(np.random.normal(260, 20, n_points))
            rt_vals.extend(np.random.lognormal(0.2, 0.3, n_points))
        elif cluster_id == 2:  # Карбонат
            gr_vals.extend(np.random.normal(35, 6, n_points))
            rho_vals.extend(np.random.normal(2.70, 0.05, n_points))
            nphi_vals.extend(np.random.normal(0.12, 0.03, n_points))
            dt_vals.extend(np.random.normal(180, 12, n_points))
            rt_vals.extend(np.random.lognormal(1.2, 0.4, n_points))
        else:  # Алевролит
            gr_vals.extend(np.random.normal(65, 10, n_points))
            rho_vals.extend(np.random.normal(2.50, 0.07, n_points))
            nphi_vals.extend(np.random.normal(0.20, 0.04, n_points))
            dt_vals.extend(np.random.normal(230, 18, n_points))
            rt_vals.extend(np.random.lognormal(0.8, 0.4, n_points))
    
    indices = np.random.permutation(n)
    df = pd.DataFrame({
        'Depth': np.linspace(1000, 2000, n),
        'GR': np.array(gr_vals)[indices],
        'Density': np.array(rho_vals)[indices],
        'Neutron': np.array(nphi_vals)[indices],
        'DTP': np.array(dt_vals)[indices],
        'Resistivity': np.array(rt_vals)[indices],
        'True_Cluster': np.array(cluster_types)[indices]
    })
    print("✅ ДЕМО-данные созданы")

display(df.head())

## 3. Подготовка признаков

In [None]:
# Маппинг признаков (различные названия в разных месторождениях)
feature_mapping = {
    'GR': ['GR', 'GK', 'Gamma', 'GAMMA', 'GK_MOD'],
    'Density': ['Density', 'Rho', 'RHOB', 'DEN', 'GGKP_MOD', 'GGKP'],
    'Neutron': ['Neutron', 'NPHI', 'NEU', 'NGK', 'NGK_MOD'],
    'DTP': ['DTP', 'DT', 'AC', 'DTCO', 'DTP_MOD', 'DT_MOD'],
    'Resistivity': ['Resistivity', 'RT', 'RES', 'ILD', 'RILD', 'BK', 'BK_MOD']
}

print("🔍 Поиск признаков в данных...\n")

# Автоматический поиск колонок
selected_features = {}
for standard_name, possible_names in feature_mapping.items():
    for name in possible_names:
        if name in df.columns:
            selected_features[standard_name] = name
            print(f"✅ {standard_name:15s} → {name}")
            break
    if standard_name not in selected_features:
        print(f"⚠️ {standard_name:15s} → не найден")

if len(selected_features) < 3:
    print(f"\n❌ ОШИБКА: Найдено только {len(selected_features)} признаков!")
    print("   Минимум требуется 3 признака для кластеризации.")
    print(f"\n💡 Доступные колонки: {', '.join(df.columns)}")
    raise ValueError("Недостаточно признаков для кластеризации")

print(f"\n✅ Найдено {len(selected_features)} признаков для кластеризации")

# Создание DataFrame с выбранными признаками
feature_cols = list(selected_features.values())
X = df[feature_cols].copy()

print(f"\n📊 Исходные данные: {X.shape[0]} строк × {X.shape[1]} признаков")

In [None]:
# Логарифмирование сопротивления
if 'Resistivity' in selected_features:
    res_col = selected_features['Resistivity']
    
    print(f"🔄 Обработка сопротивления ({res_col})...")
    print(f"   Исходный диапазон: [{X[res_col].min():.3f}, {X[res_col].max():.3f}]")
    
    # Проверка на неположительные значения
    n_negative = (X[res_col] <= 0).sum()
    if n_negative > 0:
        print(f"   ⚠️ Найдено {n_negative} неположительных значений")
        min_positive = X[X[res_col] > 0][res_col].min()
        X.loc[X[res_col] <= 0, res_col] = min_positive
        print(f"   ✅ Заменены на минимальное положительное: {min_positive:.3f}")
    
    # Логарифмирование
    X['log_Resistivity'] = np.log10(X[res_col])
    X = X.drop(res_col, axis=1)
    
    print(f"   ✅ Создана колонка log_Resistivity")
    print(f"   Диапазон log10: [{X['log_Resistivity'].min():.3f}, {X['log_Resistivity'].max():.3f}]")
    
    feature_cols_processed = [col if col != res_col else 'log_Resistivity' for col in feature_cols]
else:
    feature_cols_processed = feature_cols
    print("ℹ️ Колонка Resistivity не найдена, пропускаем логарифмирование")

print(f"\n✅ Финальные признаки: {', '.join(feature_cols_processed)}")

In [None]:
# Удаление пропусков и выбросов
print("🧹 Очистка данных...\n")

n_before = len(X)

# 1. Удаление NaN
X_clean = X.dropna()
n_after_nan = len(X_clean)
print(f"1️⃣ Удалено строк с NaN: {n_before - n_after_nan} ({(n_before - n_after_nan)/n_before*100:.1f}%)")

# 2. Удаление выбросов (по методу IQR)
print(f"\n2️⃣ Удаление выбросов (метод IQR):")

outlier_mask = pd.Series([False] * len(X_clean), index=X_clean.index)

for col in X_clean.columns:
    Q1 = X_clean[col].quantile(0.25)
    Q3 = X_clean[col].quantile(0.75)
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 3 * IQR
    upper_bound = Q3 + 3 * IQR
    
    col_outliers = (X_clean[col] < lower_bound) | (X_clean[col] > upper_bound)
    n_outliers = col_outliers.sum()
    
    if n_outliers > 0:
        print(f"   {col:20s}: {n_outliers:5d} выбросов ({n_outliers/len(X_clean)*100:.2f}%)")
        outlier_mask |= col_outliers

X_clean = X_clean[~outlier_mask]
n_after_outliers = len(X_clean)
print(f"\n   Всего удалено выбросов: {n_after_nan - n_after_outliers} ({(n_after_nan - n_after_outliers)/n_after_nan*100:.1f}%)")

print(f"\n✅ Очищенные данные: {len(X_clean)} строк × {X_clean.shape[1]} признаков")
print(f"   Осталось {len(X_clean)/n_before*100:.1f}% от исходных данных")

In [None]:
# Статистика ДО нормализации
print("="*70)
print("📊 СТАТИСТИКА ПРИЗНАКОВ ДО НОРМАЛИЗАЦИИ")
print("="*70)
display(X_clean.describe())

# Нормализация (StandardScaler)
print("\n🔄 Применение StandardScaler...")
print("   Формула: z = (x - μ) / σ")
print("   где μ - среднее, σ - стандартное отклонение")

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_clean)

print("\n✅ Данные нормализованы!")

# Статистика ПОСЛЕ нормализации
print("\n" + "="*70)
print("📊 СТАТИСТИКА ПРИЗНАКОВ ПОСЛЕ НОРМАЛИЗАЦИИ")
print("="*70)
print("(Все признаки теперь имеют μ≈0 и σ≈1)\n")
df_scaled = pd.DataFrame(X_scaled, columns=X_clean.columns, index=X_clean.index)
display(df_scaled.describe())

print("\n💡 После нормализации все признаки имеют одинаковый масштаб")
print("   Это важно для корректной работы алгоритмов кластеризации!")

## 4. Расчет матрицы расстояний

Вычисляем евклидовы расстояния между всеми парами точек в многомерном пространстве признаков.

In [None]:
print("🔍 Вычисление матрицы расстояний...")

# Матрица расстояний (евклидовы)
distances = pdist(X_scaled, metric='euclidean')
distance_matrix = squareform(distances)

print(f"✅ Матрица расстояний: {distance_matrix.shape}")
print(f"   Min расстояние: {distances.min():.4f}")
print(f"   Max расстояние: {distances.max():.4f}")
print(f"   Среднее расстояние: {distances.mean():.4f}")
print(f"   Медиана расстояния: {np.median(distances):.4f}")

# Визуализация распределения расстояний
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.hist(distances, bins=100, edgecolor='black', alpha=0.7)
plt.xlabel('Евклидово расстояние')
plt.ylabel('Частота')
plt.title('Распределение попарных расстояний')
plt.axvline(np.median(distances), color='r', linestyle='--', label=f'Медиана: {np.median(distances):.2f}')
plt.legend()
plt.grid(alpha=0.3)

plt.subplot(1, 2, 2)
percentiles = np.percentile(distances, [10, 25, 50, 75, 90])
plt.boxplot(distances, vert=True)
plt.ylabel('Расстояние')
plt.title('Box plot расстояний')
plt.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\n📊 Перцентили расстояний:")
for p, val in zip([10, 25, 50, 75, 90], percentiles):
    print(f"   {p}%: {val:.4f}")

## 5. Функция кластеризации по граничному расстоянию

Используем **Agglomerative Clustering** с заданным порогом расстояния.

In [None]:
def cluster_by_distance_threshold(X, distance_threshold):
    """
    Кластеризация с заданным граничным расстоянием
    
    Parameters:
    -----------
    X : array-like
        Нормализованные признаки
    distance_threshold : float
        Граничное расстояние для объединения кластеров
    
    Returns:
    --------
    labels : array
        Метки кластеров
    n_clusters : int
        Количество кластеров
    """
    clustering = AgglomerativeClustering(
        n_clusters=None,
        distance_threshold=distance_threshold,
        linkage='ward'
    )
    labels = clustering.fit_predict(X)
    n_clusters = len(np.unique(labels))
    
    return labels, n_clusters

# Тест
test_threshold = np.median(distances)
test_labels, test_n_clusters = cluster_by_distance_threshold(X_scaled, test_threshold)
print(f"✅ Функция работает! Тест с threshold={test_threshold:.2f} → {test_n_clusters} кластеров")

## 6. Перебор граничных расстояний и обучение классификаторов

**Алгоритм:**
1. Выбираем граничное расстояние
2. Разбиваем данные на кластеры
3. Делим на train/test (80/20)
4. Обучаем классификатор на train
5. Предсказываем на test
6. Оцениваем точность

In [None]:
# Диапазон граничных расстояний для проверки
percentile_range = np.arange(5, 95, 5)  # От 5% до 90% перцентилей
distance_thresholds = [np.percentile(distances, p) for p in percentile_range]

print(f"🔍 Тестируем {len(distance_thresholds)} значений порога расстояния...")
print(f"   Диапазон: {distance_thresholds[0]:.4f} - {distance_thresholds[-1]:.4f}\n")

# Результаты
results = []

for i, threshold in enumerate(distance_thresholds):
    # 1. Кластеризация
    labels, n_clusters = cluster_by_distance_threshold(X_scaled, threshold)
    
    # Пропускаем если слишком мало или много кластеров
    if n_clusters < 2 or n_clusters > 20:
        continue
    
    # 2. Разбиение на train/test
    X_train, X_test, y_train, y_test = train_test_split(
        X_scaled, labels, test_size=0.2, random_state=42, stratify=labels
    )
    
    # 3. Обучение классификатора (Random Forest)
    clf = RandomForestClassifier(n_estimators=100, random_state=42, max_depth=10)
    clf.fit(X_train, y_train)
    
    # 4. Прогноз
    y_pred = clf.predict(X_test)
    
    # 5. Оценка точности
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)
    recall = recall_score(y_test, y_pred, average='weighted', zero_division=0)
    f1 = f1_score(y_test, y_pred, average='weighted', zero_division=0)
    
    # Cross-validation на train
    cv_scores = cross_val_score(clf, X_train, y_train, cv=5, scoring='accuracy')
    cv_mean = cv_scores.mean()
    
    # Silhouette для качества кластеризации
    try:
        silhouette = silhouette_score(X_scaled, labels)
    except:
        silhouette = -1
    
    results.append({
        'threshold': threshold,
        'percentile': percentile_range[i],
        'n_clusters': n_clusters,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1,
        'cv_accuracy': cv_mean,
        'silhouette': silhouette
    })
    
    if (i + 1) % 5 == 0:
        print(f"[{i+1}/{len(distance_thresholds)}] Threshold={threshold:.3f}, Clusters={n_clusters}, Accuracy={accuracy:.3f}")

# DataFrame результатов
df_results = pd.DataFrame(results)
print(f"\n✅ Тестирование завершено! Проверено {len(df_results)} конфигураций\n")
display(df_results.head(10))

## 7. Анализ динамики точности от граничного расстояния

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(16, 10))

# 1. Точность vs граничное расстояние
axes[0, 0].plot(df_results['threshold'], df_results['accuracy'], 'b-o', label='Test Accuracy', linewidth=2)
axes[0, 0].plot(df_results['threshold'], df_results['cv_accuracy'], 'g--s', label='CV Accuracy', linewidth=2)
axes[0, 0].set_xlabel('Граничное расстояние')
axes[0, 0].set_ylabel('Accuracy')
axes[0, 0].set_title('Точность vs Граничное расстояние')
axes[0, 0].legend()
axes[0, 0].grid(alpha=0.3)

# Оптимум
best_idx = df_results['accuracy'].idxmax()
best_threshold = df_results.loc[best_idx, 'threshold']
best_accuracy = df_results.loc[best_idx, 'accuracy']
axes[0, 0].axvline(best_threshold, color='r', linestyle='--', alpha=0.5, label=f'Оптимум: {best_threshold:.3f}')
axes[0, 0].scatter([best_threshold], [best_accuracy], color='red', s=200, zorder=5, marker='*')

# 2. Количество кластеров vs граничное расстояние
axes[0, 1].plot(df_results['threshold'], df_results['n_clusters'], 'ro-', linewidth=2)
axes[0, 1].set_xlabel('Граничное расстояние')
axes[0, 1].set_ylabel('Количество кластеров')
axes[0, 1].set_title('Кластеры vs Граничное расстояние')
axes[0, 1].grid(alpha=0.3)
axes[0, 1].axvline(best_threshold, color='r', linestyle='--', alpha=0.5)

# 3. F1-score, Precision, Recall
axes[1, 0].plot(df_results['threshold'], df_results['f1'], 'b-o', label='F1-score', linewidth=2)
axes[1, 0].plot(df_results['threshold'], df_results['precision'], 'g-s', label='Precision', linewidth=2)
axes[1, 0].plot(df_results['threshold'], df_results['recall'], 'r-^', label='Recall', linewidth=2)
axes[1, 0].set_xlabel('Граничное расстояние')
axes[1, 0].set_ylabel('Score')
axes[1, 0].set_title('Метрики качества')
axes[1, 0].legend()
axes[1, 0].grid(alpha=0.3)
axes[1, 0].axvline(best_threshold, color='r', linestyle='--', alpha=0.5)

# 4. Silhouette vs Accuracy
axes[1, 1].scatter(df_results['silhouette'], df_results['accuracy'], 
                  c=df_results['n_clusters'], cmap='viridis', s=100, alpha=0.6)
axes[1, 1].set_xlabel('Silhouette Score')
axes[1, 1].set_ylabel('Accuracy')
axes[1, 1].set_title('Silhouette vs Accuracy (цвет = кол-во кластеров)')
axes[1, 1].grid(alpha=0.3)
plt.colorbar(axes[1, 1].collections[0], ax=axes[1, 1], label='N кластеров')

plt.suptitle('Анализ зависимости точности от граничного расстояния', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

## 8. Оптимальные параметры

In [None]:
print("="*70)
print("🏆 ОПТИМАЛЬНЫЕ ПАРАМЕТРЫ")
print("="*70)

# Топ-5 конфигураций
top5 = df_results.nlargest(5, 'accuracy')

print("\nТоп-5 конфигураций по точности:\n")
print(top5[['threshold', 'n_clusters', 'accuracy', 'f1', 'silhouette']].to_string(index=False))

print(f"\n{'='*70}")
print(f"🎯 ОПТИМАЛЬНАЯ КОНФИГУРАЦИЯ:")
print(f"{'='*70}")

best_row = df_results.loc[best_idx]
print(f"\n  Граничное расстояние:  {best_row['threshold']:.4f}")
print(f"  Перцентиль:            {best_row['percentile']:.1f}%")
print(f"  Количество кластеров:  {best_row['n_clusters']:.0f}")
print(f"\n  📊 Метрики классификации:")
print(f"    • Accuracy:           {best_row['accuracy']:.4f}")
print(f"    • Precision:          {best_row['precision']:.4f}")
print(f"    • Recall:             {best_row['recall']:.4f}")
print(f"    • F1-score:           {best_row['f1']:.4f}")
print(f"    • CV Accuracy:        {best_row['cv_accuracy']:.4f}")
print(f"\n  📈 Качество кластеризации:")
print(f"    • Silhouette:         {best_row['silhouette']:.4f}")
print(f"\n{'='*70}")

## 9. Финальная кластеризация с оптимальным порогом

In [None]:
print(f"🎯 Применяем оптимальное граничное расстояние: {best_threshold:.4f}\n")

# Финальная кластеризация
final_labels, final_n_clusters = cluster_by_distance_threshold(X_scaled, best_threshold)

print(f"✅ Получено {final_n_clusters} кластеров\n")

# Распределение
unique, counts = np.unique(final_labels, return_counts=True)
print("Распределение точек по кластерам:")
for cluster_id, count in zip(unique, counts):
    percentage = (count / len(final_labels)) * 100
    print(f"  Кластер {cluster_id}: {count:5d} точек ({percentage:5.2f}%)")

# Добавление к данным
X_clean['Cluster'] = final_labels

## 10. Обучение финального классификатора

In [None]:
# Разбиение
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, final_labels, test_size=0.2, random_state=42, stratify=final_labels
)

# Обучение нескольких моделей
models = {
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42, max_depth=10),
    'Gradient Boosting': GradientBoostingClassifier(n_estimators=100, random_state=42),
    'SVM': SVC(kernel='rbf', random_state=42),
    'KNN': KNeighborsClassifier(n_neighbors=5)
}

print("🔬 Обучение классификаторов:\n")
model_results = {}

for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred, average='weighted')
    
    model_results[name] = {'accuracy': accuracy, 'f1': f1, 'model': model}
    print(f"  {name:20s}: Accuracy={accuracy:.4f}, F1={f1:.4f}")

# Лучшая модель
best_model_name = max(model_results, key=lambda k: model_results[k]['accuracy'])
best_model = model_results[best_model_name]['model']

print(f"\n🏆 Лучшая модель: {best_model_name}")

## 11. Confusion Matrix

In [None]:
# Предсказания лучшей модели
y_pred_best = best_model.predict(X_test)

# Confusion matrix
cm = confusion_matrix(y_test, y_pred_best)

plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=[f'C{i}' for i in range(final_n_clusters)],
            yticklabels=[f'C{i}' for i in range(final_n_clusters)])
plt.title(f'Confusion Matrix ({best_model_name})', fontsize=14, fontweight='bold')
plt.xlabel('Предсказанный кластер')
plt.ylabel('Истинный кластер')
plt.tight_layout()
plt.show()

# Classification report
print("\n📊 Classification Report:\n")
print(classification_report(y_test, y_pred_best, 
                          target_names=[f'Cluster_{i}' for i in range(final_n_clusters)]))

## 12. Статистика по кластерам

In [None]:
print("="*70)
print("📊 СТАТИСТИКА ПО КЛАСТЕРАМ")
print("="*70)

cluster_stats = {}

for cluster_id in range(final_n_clusters):
    cluster_data = X_clean[X_clean['Cluster'] == cluster_id]
    
    print(f"\n{'='*70}")
    print(f"Кластер {cluster_id} ({len(cluster_data)} точек, {len(cluster_data)/len(X_clean)*100:.1f}%)")
    print(f"{'='*70}")
    
    stats = {}
    
    for col in X_clean.columns:
        if col != 'Cluster' and col != 'log_Resistivity':
            mean_val = cluster_data[col].mean()
            std_val = cluster_data[col].std()
            min_val = cluster_data[col].min()
            max_val = cluster_data[col].max()
            
            stats[col] = {
                'mean': float(mean_val),
                'std': float(std_val),
                'min': float(min_val),
                'max': float(max_val)
            }
            
            print(f"  {col:15s}: {mean_val:8.3f} ± {std_val:6.3f}")
    
    cluster_stats[f'cluster_{cluster_id}'] = stats

print(f"\n{'='*70}")

## 13. Сохранение результатов

In [None]:
# Конфигурация
config = {
    'metadata': {
        'method': 'distance_threshold_clustering',
        'optimal_threshold': float(best_threshold),
        'optimal_percentile': float(best_row['percentile']),
        'n_clusters': int(final_n_clusters),
        'n_points': len(X_clean),
        'best_classifier': best_model_name,
        'test_accuracy': float(best_row['accuracy']),
        'cv_accuracy': float(best_row['cv_accuracy']),
        'f1_score': float(best_row['f1']),
        'silhouette_score': float(best_row['silhouette'])
    },
    'cluster_properties': cluster_stats,
    'optimization_results': df_results.to_dict('records')
}

# Сохранение
output_file = 'optimized_clustering_config.json'
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(config, f, indent=2, ensure_ascii=False)

print(f"✅ Конфигурация сохранена: {output_file}")

# Сохранение результатов оптимизации
df_results.to_csv('optimization_results.csv', index=False)
print(f"✅ Результаты оптимизации: optimization_results.csv")

print("\n🎯 Готово!")

## 📝 Выводы

### ✅ Реализовано:
1. ✅ Выбор граничного расстояния
2. ✅ Разбиение выборки по векторному расстоянию
3. ✅ Обучение с учителем (Random Forest, SVM, GBM, KNN)
4. ✅ Прогноз кластеров на тестовой выборке
5. ✅ Оценка точности предсказания
6. ✅ Анализ динамики точности от граничного расстояния

### 🎯 Преимущества метода:
- **Оптимизация порога** по метрикам качества классификации
- **Валидация** через supervised learning
- **Объективность** - выбор количества кластеров основан на точности предсказания
- **Интерпретируемость** - понятный физический смысл граничного расстояния

### 📊 Использование:
```python
import json
with open('optimized_clustering_config.json', 'r') as f:
    config = json.load(f)

optimal_threshold = config['metadata']['optimal_threshold']
n_clusters = config['metadata']['n_clusters']
```

---
🎯 **Продвинутая кластеризация с оптимизацией** | 2025