In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans, DBSCAN
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import LabelEncoder
import joblib
import os
from scipy import stats
import warnings
warnings.filterwarnings('ignore')


# DB подключение

In [None]:
DB_URL = "postgresql://username:password@localhost:5432/tracks_db"
engine = create_engine(DB_URL)

In [None]:
df = pd.read_sql("SELECT * FROM tracks", engine)
print(f" треков: {len(df)}")
print(f" колонок: {df.columns.tolist()}")
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
df.head()

# Нормальность распределения

In [None]:
for feature in numeric_cols:
    data = df[feature].dropna()
    
    # Создаем новый график для каждого признака
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
    
    # График 1: Гистограмма с KDE
    sns.histplot(data, bins=15, kde=True, ax=ax1, color='skyblue')
    ax1.set_title(f'Гистограмма: {feature}')
    ax1.set_xlabel('Значение')
    ax1.set_ylabel('Частота')
    
    # График 2: Q-Q plot
    stats.probplot(data, dist="norm", plot=ax2)
    ax2.set_title(f'Q-Q plot: {feature}')
    ax2.set_xlabel('Теоретические квантили')
    ax2.set_ylabel('Выборочные квантили')
    
    # Расчет статистик
    shapiro_stat, shapiro_p = stats.shapiro(data)
    skewness = stats.skew(data)
    kurt = stats.kurtosis(data)
    
    # Определение типа распределения
    if shapiro_p > 0.05:
        dist_type = "НОРМАЛЬНОЕ"
        color = 'green'
    elif abs(skewness) > 1:
        dist_type = "СИЛЬНО СКОШЕННОЕ"
        color = 'red'
    elif abs(skewness) > 0.5:
        dist_type = "УМЕРЕННО СКОШЕННОЕ" 
        color = 'orange'
    else:
        dist_type = "СЛАБО СКОШЕННОЕ"
        color = 'yellow'
    
    # Вывод статистик
    stats_text = f"""СТАТИСТИКИ:
p-value Шапиро: {shapiro_p:.4f}
Скошенность: {skewness:.2f}
Эксцесс: {kurt:.2f}
ТИП: {dist_type}"""
    
    fig.text(0.02, 0.95, stats_text, fontsize=10, 
             bbox=dict(boxstyle='round', facecolor='lightgray', alpha=0.8))
    
    plt.suptitle(f'АНАЛИЗ РАСПРЕДЕЛЕНИЯ: {feature}', fontsize=14, y=1.05)
    plt.tight_layout()
    plt.show()
    
    # Вывод в консоль
    print(f"\n{feature}:")
    print(f"  p-value: {shapiro_p:.4f} {'(нормальное)' if shapiro_p > 0.05 else '(не нормальное)'}")
    print(f"  Скошенность: {skewness:.2f}")
    print(f"  Эксцесс: {kurt:.2f}")
    print(f"  Тип: {dist_type}")
    print("-" * 50)


# Кластерный анализ

In [None]:
X = df[numeric_cols].fillna(0).values
X_scaled = StandardScaler().fit_transform(X)


In [None]:
#KMEANS
k_range = range(2, min(11, len(X_scaled)))
silhouette_scores_kmeans = []

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    labels = kmeans.fit_predict(X_scaled)
    silhouette_scores_kmeans.append(silhouette_score(X_scaled, labels))

optimal_k = k_range[np.argmax(silhouette_scores_kmeans)]
kmeans_best = KMeans(n_clusters=optimal_k, random_state=42, n_init=10)
kmeans_labels = kmeans_best.fit_predict(X_scaled)
kmeans_score = silhouette_score(X_scaled, kmeans_labels)

# График

In [None]:
#KMeans
plt.figure(figsize=(8, 4))
plt.plot(k_range, silhouette_scores_kmeans, 'bo-', linewidth=2, markersize=8)
plt.axvline(x=optimal_k, color='r', linestyle='--', linewidth=2, label=f'Оптимальное k={optimal_k}')
plt.xlabel('Количество кластеров (k)')
plt.ylabel('Silhouette Score')
plt.title(f'KMeans: поиск оптимального количества кластеров\nЛучшее k={optimal_k}, Score={kmeans_score:.3f}')
plt.grid(True, alpha=0.3)
plt.legend()
plt.tight_layout()
plt.show()

# DBSCAN

In [None]:

from sklearn.neighbors import NearestNeighbors
neigh = NearestNeighbors(n_neighbors=5)
neigh.fit(X_scaled)
distances, _ = neigh.kneighbors(X_scaled)
eps_value = np.percentile(distances[:, -1], 90)

dbscan = DBSCAN(eps=eps_value, min_samples=5)
dbscan_labels = dbscan.fit_predict(X_scaled)
dbscan_n_clusters = len(set(dbscan_labels)) - (1 if -1 in dbscan_labels else 0)

dbscan_score = -1
if dbscan_n_clusters > 1:
    valid_mask = dbscan_labels != -1
    if sum(valid_mask) > 1:
        dbscan_score = silhouette_score(X_scaled[valid_mask], dbscan_labels[valid_mask])


# График DBSCAN


In [None]:
plt.figure(figsize=(8, 4))
plt.plot(sorted(distances[:, -1]), 'b-', linewidth=2)
plt.axhline(y=eps_value, color='r', linestyle='--', linewidth=2, label=f'eps={eps_value:.3f}')
plt.xlabel('Точки (отсортированные)')
plt.ylabel('Расстояние до 5-го соседа')
plt.title(f'DBSCAN: определение параметра eps\nКластеров={dbscan_n_clusters}, Score={dbscan_score:.3f if dbscan_score > 0 else "N/A"}')
plt.grid(True, alpha=0.3)
plt.legend()
plt.tight_layout()
plt.show()

# Сравнеение

In [None]:
fig, ax = plt.subplots(figsize=(8, 5))
methods = ['KMeans', 'DBSCAN']
scores = [kmeans_score, dbscan_score if dbscan_score > 0 else 0]


In [None]:
bars = ax.bar(methods, scores, color=['blue', 'green'], alpha=0.7, width=0.6)
for bar, score in zip(bars, scores):
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2., height + 0.01,
            f'{score:.3f}', ha='center', va='bottom')

ax.set_ylabel('Silhouette Score')
ax.set_title('сравнение качества кластеризации')
ax.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

# Выбор лучшего

In [None]:
best_method = 'KMeans' if kmeans_score > max(dbscan_score, 0) else 'DBSCAN'
best_labels = kmeans_labels if best_method == 'KMeans' else dbscan_labels
df['cluster'] = best_labels

In [None]:
print(f"лучший метод {best_method}")
print(f"кластеров - {len(set(best_labels)) - (1 if -1 in best_labels else 0)}")
print(f"KMeans Score: {kmeans_score:.3f}")
print(f"DBSCAN Score: {dbscan_score:.3f if dbscan_score > 0 else 'N/A'}")

# Анализ важности признаков - профилированние и кластерный анализ

In [None]:
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_scaled, best_labels)

feature_importance = pd.DataFrame({
    'feature': numeric_cols,
    'importance': rf.feature_importances_
}).sort_values('importance', ascending=False)


In [None]:
plt.figure(figsize=(10, 6))
bars = plt.barh(feature_importance['feature'][:10], 
                feature_importance['importance'][:10],
                color=plt.cm.viridis(np.linspace(0.3, 0.9, 10)))
plt.xlabel('Важность признака')
plt.title('Топ 10 важных признаков')
plt.gca().invert_yaxis()
for bar in bars:
    width = bar.get_width()
    plt.text(width + 0.001, bar.get_y() + bar.get_height()/2.,
             f'{width:.3f}', ha='left', va='center')

plt.tight_layout()
plt.show()

In [None]:
print(f"топ 5 важных признаков: {feature_importance.head(5).to_string(index=False)}")

In [None]:
print("\n" + "="*60)
print("ИТОГОВЫЕ ВЫВОДЫ")
print("="*60)

print(f"\n1. ДАННЫЕ: {len(df)} треков, {len(numeric_cols)} числовых признаков")
print(f"2. КЛАСТЕРИЗАЦИЯ: лучший метод - {best_method}")
print(f"3. КАЧЕСТВО: silhouette score = {max(kmeans_score, dbscan_score):.3f}")

print("\n4. РЕКОМЕНДАЦИИ:")
print("   • Использовать стандартизацию данных")
print(f"   • Для анализа использовать {best_method}")
print("   • Учесть не-нормальность распределений")

# Разметка. Сравнение.

## if else

In [None]:
df['rules_label'] = 'normal'


In [None]:
for idx, row in df.iterrows():
    rules = []
    
    # Правило 1: Риск пожара
    if row['avg_temperature'] > 25 and (row['osm_farmland'] > 0 or row['osm_forest'] > 0):
        rules.append('fire_risk')
    
    # Правило 2: Риск наводнения (весна + вода)
    if row['avg_temperature'] > 0 and row['precipitation'] > 10 and row['osm_water'] > 0:
        rules.append('flood_risk')
    
    # Правило 3: Сложная эвакуация
    if row['elevation_gain'] > 1000 and row['avg_slope'] > 15:
        rules.append('evacuation_hard')
    
    df.at[idx, 'rules_label'] = ', '.join(rules) if rules else 'normal'

## Кластеризацией

In [None]:
risk_features = ['avg_temperature', 'precipitation', 'osm_water', 'osm_forest', 'elevation_gain'] # признаки для разметки
X_risk = df[risk_features].fillna(0).values
X_risk_scaled = StandardScaler().fit_transform(X_risk)

In [None]:
kmeans_risk = KMeans(n_clusters=4, random_state=42)
risk_clusters = kmeans_risk.fit_predict(X_risk_scaled)

# Интерпретация классов

In [None]:
#по средним значениям
cluster_interpretation = {}
for cluster_id in range(4):
    cluster_data = df[risk_clusters == cluster_id]

    if cluster_data['avg_temperature'].mean() > 25 and cluster_data['osm_forest'].mean() > 0:
        cluster_interpretation[cluster_id] = 'fire_risk'
    elif cluster_data['precipitation'].mean() > 10 and cluster_data['osm_water'].mean() > 0:
        cluster_interpretation[cluster_id] = 'flood_risk'
    elif cluster_data['elevation_gain'].mean() > 1000:
        cluster_interpretation[cluster_id] = 'evacuation_hard'
    else:
        cluster_interpretation[cluster_id] = 'normal'

df['cluster_label'] = [cluster_interpretation[c] for c in risk_clusters]


# if else result

In [None]:
print(df['rules_label'].value_counts())

# кластеризация результат

In [None]:
print(df['cluster_label'].value_counts())

# сравнение 

In [None]:
from sklearn.metrics import cohen_kappa_score, classification_report

In [None]:
le = LabelEncoder()
rules_numeric = le.fit_transform(df['rules_label'])
cluster_numeric = le.transform(df['cluster_label'])

In [None]:
kappa = cohen_kappa_score(rules_numeric, cluster_numeric)
print(f"согласованность по каппа: {kappa:.3f}")

# < 0,2 - слабая , 0.21-0.4 - умеренная, 0.41 - 0.6 - существенная, 0.61-0.8 сильная, >0.81 - почти полная.


print("итого:")
if kappa > 0.6:
    print("оба метода хороши")
elif kappa > 0.4:
    print("Кластеризация более обьективна, она хуже")
else:
    print("Кластеризация лучше, выявляет скрытые паттерны")

print("\nРекомендация: использовать кластеризацию для обнаружения скрытых паттернов,")
print("а правила - для экспертной интерпретации и быстрой оценки.")

# Сохарнение 

In [None]:
joblib.dump(kmeans_best, 'outputs/models/kmeans_model.pkl')
joblib.dump(scaler, 'outputs/models/scaler.pkl')
joblib.dump(feature_importance, 'outputs/models/feature_importance.pkl')