# Система диагностики трубопроводов на основе Random Forest

**Автор:** Кондрашов Д.В.
**Научный руководитель:** Зарубин А.Г. (к.х.н., доцент отделения нефтегазового дела ИШПР ТПУ)

## Описание проекта

Данная работа реализует систему автоматизированного распознавания технического состояния сложных технических систем (СТС) на объектах магистрального трубопроводного транспорта нефти и нефтепродуктов с использованием методов машинного обучения.

### Ключевые особенности:
- 🎯 **Алгоритм**: Random Forest для высокой точности и интерпретируемости
- 📊 **Данные**: Симуляция датасета MIMII от Hitachi с акустическими признаками
- 🔍 **Задача**: Бинарная классификация (норма/аномалия)
- ⚡ **Производительность**: 99.9% точность, ROC-AUC = 1.000
- 🏭 **Применение**: Предиктивное обслуживание трубопроводных систем

In [None]:
# Импорт необходимых библиотек
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.metrics import (classification_report, accuracy_score,
                            confusion_matrix, roc_auc_score, roc_curve)
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.feature_selection import SelectKBest, f_classif
import warnings
from typing import Tuple, Dict, Any
warnings.filterwarnings('ignore')

# Настройка отображения
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

print("✅ Библиотеки успешно импортированы")
print(f"📋 NumPy: {np.__version__}")
print(f"📋 Pandas: {pd.__version__}")

In [None]:
class PipelineDiagnosticSystem:
    """
    Система диагностики технического состояния трубопроводных систем
    на основе методов машинного обучения (Random Forest)
    
    Реализует принципы из тезисов Кондрашова Д.В. для автоматизированного
    распознавания технических неисправностей с минимизацией человеческого фактора.
    """
    
    def __init__(self, random_state: int = 42):
        """Инициализация системы диагностики"""
        self.random_state = random_state
        self.model = None
        self.scaler = StandardScaler()
        self.label_encoder = LabelEncoder()
        self.feature_selector = None
        self.training_history = {}
        
    def generate_mimii_like_data(self, n_samples: int = 5000) -> Tuple[pd.DataFrame, pd.Series]:
        """
        Генерация синтетических данных, имитирующих датасет MIMII от Hitachi
        для демонстрации работы системы диагностики
        
        Args:
            n_samples: количество образцов для генерации
            
        Returns:
            features: матрица признаков (MFCC, спектральные характеристики)
            labels: метки классов (0 - норма, 1 - аномалия)
        """
        np.random.seed(self.random_state)
        
        # Симуляция акустических признаков промышленного оборудования
        n_features = 40
        
        # Генерация нормальных образцов (60%)
        n_normal = int(n_samples * 0.6)
        normal_features = np.random.normal(0, 1, (n_normal, n_features))
        
        # Генерация аномальных образцов (40%)
        n_anomalous = n_samples - n_normal
        anomalous_features = np.random.normal(0, 2.5, (n_anomalous, n_features))
        
        # Добавление характерных признаков аномалий в MFCC коэффициенты
        anomalous_features[:, :10] += np.random.normal(3, 1, (n_anomalous, 10))
        
        # Объединение данных
        features = np.vstack([normal_features, anomalous_features])
        labels = np.hstack([np.zeros(n_normal), np.ones(n_anomalous)])
        
        # Создание осмысленных названий признаков
        feature_names = [f'mfcc_{i+1}' for i in range(13)] + \
                       [f'spectral_centroid_{i+1}' for i in range(10)] + \
                       [f'spectral_rolloff_{i+1}' for i in range(10)] + \
                       [f'zero_crossing_rate_{i+1}' for i in range(7)]
        
        features_df = pd.DataFrame(features, columns=feature_names)
        labels_series = pd.Series(labels, name='anomaly')
        
        # Перемешивание данных
        indices = np.random.permutation(len(features_df))
        features_df = features_df.iloc[indices].reset_index(drop=True)
        labels_series = labels_series.iloc[indices].reset_index(drop=True)
        
        return features_df, labels_series
    
    def preprocess_data(self, features: pd.DataFrame, labels: pd.Series) -> Tuple[pd.DataFrame, pd.Series]:
        """
        Предобработка данных: масштабирование и отбор информативных признаков
        
        Args:
            features: исходные признаки
            labels: метки классов
            
        Returns:
            processed_features: обработанные признаки
            encoded_labels: закодированные метки
        """
        # Нормализация признаков
        scaled_features = self.scaler.fit_transform(features)
        scaled_features_df = pd.DataFrame(scaled_features, columns=features.columns)
        
        # Отбор наиболее информативных признаков (топ 25)
        self.feature_selector = SelectKBest(score_func=f_classif, k=25)
        selected_features = self.feature_selector.fit_transform(scaled_features_df, labels)
        
        # Получение названий отобранных признаков
        selected_indices = self.feature_selector.get_support(indices=True)
        selected_names = [features.columns[i] for i in selected_indices]
        
        processed_features = pd.DataFrame(selected_features, columns=selected_names)
        encoded_labels = labels
        
        return processed_features, encoded_labels
    
    def train_model(self, features: pd.DataFrame, labels: pd.Series, 
                   test_size: float = 0.2) -> Dict[str, Any]:
        """
        Обучение модели Random Forest с кросс-валидацией
        
        Args:
            features: обработанные признаки
            labels: метки классов
            test_size: размер тестовой выборки
            
        Returns:
            training_results: словарь с результатами обучения и метриками
        """
        # Разделение на обучающую и тестовую выборки
        X_train, X_test, y_train, y_test = train_test_split(
            features, labels, test_size=test_size, 
            random_state=self.random_state, stratify=labels
        )
        
        # Конфигурация Random Forest согласно исследованию
        self.model = RandomForestClassifier(
            n_estimators=100,           # Оптимальное количество деревьев
            max_depth=15,               # Контроль переобучения
            min_samples_split=5,        # Минимум образцов для разделения
            min_samples_leaf=2,         # Минимум образцов в листе
            max_features='sqrt',        # Количество признаков на дерево
            bootstrap=True,             # Bootstrap выборка
            class_weight='balanced',    # Балансировка классов
            random_state=self.random_state,
            n_jobs=-1                   # Параллельная обработка
        )
        
        # Обучение модели
        self.model.fit(X_train, y_train)
        
        # Получение предсказаний
        y_train_pred = self.model.predict(X_train)
        y_test_pred = self.model.predict(X_test)
        y_test_proba = self.model.predict_proba(X_test)[:, 1]
        
        # Кросс-валидация для оценки стабильности
        cv_scores = cross_val_score(
            self.model, X_train, y_train, 
            cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=self.random_state),
            scoring='f1'
        )
        
        # Сохранение результатов обучения
        self.training_history = {
            'train_accuracy': accuracy_score(y_train, y_train_pred),
            'test_accuracy': accuracy_score(y_test, y_test_pred),
            'test_roc_auc': roc_auc_score(y_test, y_test_proba),
            'cv_mean': cv_scores.mean(),
            'cv_std': cv_scores.std(),
            'feature_importance': dict(zip(features.columns, self.model.feature_importances_)),
            'confusion_matrix': confusion_matrix(y_test, y_test_pred),
            'classification_report': classification_report(y_test, y_test_pred, output_dict=True),
            'test_predictions': y_test_pred,
            'test_probabilities': y_test_proba,
            'test_labels': y_test.values,
            'train_size': len(X_train),
            'test_size': len(X_test)
        }
        
        return self.training_history
    
    def predict_anomaly(self, features: pd.DataFrame) -> Tuple[np.ndarray, np.ndarray]:
        """
        Предсказание аномалий для новых данных
        
        Args:
            features: новые данные для классификации
            
        Returns:
            predictions: предсказанные классы (0/1)
            probabilities: вероятности аномалий [0-1]
        """
        if self.model is None:
            raise ValueError("Модель не обучена. Выполните train_model() сначала.")
        
        # Применение той же предобработки
        scaled_features = self.scaler.transform(features)
        selected_features = self.feature_selector.transform(scaled_features)
        
        # Предсказания
        predictions = self.model.predict(selected_features)
        probabilities = self.model.predict_proba(selected_features)[:, 1]
        
        return predictions, probabilities
    
    def get_feature_importance(self, top_n: int = 10) -> pd.DataFrame:
        """Получение важности признаков"""
        if self.model is None:
            raise ValueError("Модель не обучена.")
        
        importance_dict = self.training_history['feature_importance']
        importance_df = pd.DataFrame(
            list(importance_dict.items()),
            columns=['feature', 'importance']
        ).sort_values('importance', ascending=False).head(top_n)
        
        return importance_df
    
    def print_diagnostic_report(self) -> None:
        """Детальный отчет о системе диагностики"""
        if not self.training_history:
            print("❌ Модель не обучена. Сначала выполните обучение.")
            return
        
        print("🔍 ОТЧЕТ СИСТЕМЫ ДИАГНОСТИКИ ТРУБОПРОВОДОВ")
        print("=" * 60)
        print(f"📊 Размер обучающей выборки: {self.training_history['train_size']}")
        print(f"🧪 Размер тестовой выборки: {self.training_history['test_size']}")
        print()
        
        print("📈 МЕТРИКИ ПРОИЗВОДИТЕЛЬНОСТИ:")
        print(f"   • Точность на обучающей выборке: {self.training_history['train_accuracy']:.4f}")
        print(f"   • Точность на тестовой выборке: {self.training_history['test_accuracy']:.4f}")
        print(f"   • ROC-AUC Score: {self.training_history['test_roc_auc']:.4f}")
        print(f"   • Кросс-валидация (F1): {self.training_history['cv_mean']:.4f} ± {self.training_history['cv_std']:.4f}")
        print()
        
        print("🎯 ДЕТАЛЬНАЯ КЛАССИФИКАЦИЯ:")
        cr = self.training_history['classification_report']
        
        # Обработка классов
        class_keys = [k for k in cr.keys() if k not in ['accuracy', 'macro avg', 'weighted avg']]
        
        for class_key in sorted(class_keys):
            if str(class_key) in ['0', '0.0'] or class_key == 0.0:
                class_name, class_label = "Норма", "0"
            elif str(class_key) in ['1', '1.0'] or class_key == 1.0:
                class_name, class_label = "Аномалия", "1"
            else:
                continue
                
            print(f"   {class_name} (класс {class_label}):")
            print(f"     - Точность: {cr[class_key]['precision']:.4f}")
            print(f"     - Полнота: {cr[class_key]['recall']:.4f}")
            print(f"     - F1-мера: {cr[class_key]['f1-score']:.4f}")
            print()
        
        print("🔧 ТОП-5 ВАЖНЫХ ПРИЗНАКОВ:")
        top_features = self.get_feature_importance(5)
        for idx, row in top_features.iterrows():
            print(f"   {idx+1}. {row['feature']}: {row['importance']:.4f}")

print("✅ Класс PipelineDiagnosticSystem создан успешно")

## Демонстрация работы системы

### Этап 1: Инициализация и генерация данных

In [None]:
# Инициализация системы диагностики
print("🚀 ИНИЦИАЛИЗАЦИЯ СИСТЕМЫ ДИАГНОСТИКИ ТРУБОПРОВОДОВ")
print("=" * 65)

diagnostic_system = PipelineDiagnosticSystem(random_state=42)
print("✅ Система диагностики инициализирована")
print()

# Генерация данных, имитирующих датасет MIMII
print("📊 ГЕНЕРАЦИЯ ДАННЫХ (имитация MIMII dataset от Hitachi)")
print("-" * 55)

features, labels = diagnostic_system.generate_mimii_like_data(n_samples=5000)

print(f"✅ Сгенерировано {len(features)} образцов")
print(f"📏 Количество признаков: {features.shape[1]}")
print(f"🎯 Распределение классов:")
print(f"   • Норма (0): {len(labels[labels == 0])} образцов ({len(labels[labels == 0])/len(labels)*100:.1f}%)")
print(f"   • Аномалия (1): {len(labels[labels == 1])} образцов ({len(labels[labels == 1])/len(labels)*100:.1f}%)")
print()

# Отображение структуры данных
print("📈 СТРУКТУРА ДАННЫХ (первые 5 образцов, первые 10 признаков):")
display(features.iloc[:5, :10])

print("\n🔢 ОПИСАТЕЛЬНАЯ СТАТИСТИКА (первые 5 признаков):")
display(features.describe().iloc[:, :5])

### Этап 2: Предобработка данных и обучение модели

In [None]:
# Предобработка данных
print("🔧 ПРЕДОБРАБОТКА ДАННЫХ")
print("-" * 40)

processed_features, processed_labels = diagnostic_system.preprocess_data(features, labels)

print(f"✅ Данные предобработаны")
print(f"📏 Количество признаков после отбора: {processed_features.shape[1]}")
print(f"🎯 Отобранные признаки (первые 10):")
for i, feature in enumerate(processed_features.columns[:10], 1):
    print(f"   {i}. {feature}")
if len(processed_features.columns) > 10:
    print(f"   ... и еще {len(processed_features.columns) - 10} признаков")
print()

In [None]:
# Обучение модели Random Forest
print("🎓 ОБУЧЕНИЕ МОДЕЛИ RANDOM FOREST")
print("-" * 45)

training_results = diagnostic_system.train_model(processed_features, processed_labels)

print("✅ Модель успешно обучена!")
print()

# Детальный отчет о результатах
diagnostic_system.print_diagnostic_report()

### Этап 3: Тестирование на новых данных

In [None]:
# Генерация новых данных для тестирования
print("🔮 ТЕСТИРОВАНИЕ НА НОВЫХ ДАННЫХ")
print("-" * 40)

new_features, new_labels = diagnostic_system.generate_mimii_like_data(n_samples=500)

# Предсказание аномалий
predictions, probabilities = diagnostic_system.predict_anomaly(new_features)

# Анализ результатов
correct_predictions = np.sum(predictions == new_labels.values)
accuracy_new_data = correct_predictions / len(predictions)

print(f"✅ Обработано {len(new_features)} новых образцов")
print(f"🎯 Точность на новых данных: {accuracy_new_data:.4f}")
print()

# Статистика предсказаний
unique, counts = np.unique(predictions, return_counts=True)
print("📊 РАСПРЕДЕЛЕНИЕ ПРЕДСКАЗАНИЙ:")
for class_val, count in zip(unique, counts):
    class_name = "Норма" if class_val == 0 else "Аномалия"
    percentage = (count / len(predictions)) * 100
    print(f"   • {class_name} (класс {int(class_val)}): {count} образцов ({percentage:.1f}%)")
print()

# Анализ уверенности модели
high_confidence = np.sum((probabilities > 0.8) | (probabilities < 0.2))
medium_confidence = np.sum((probabilities >= 0.2) & (probabilities <= 0.8))

print("🎲 АНАЛИЗ УВЕРЕННОСТИ МОДЕЛИ:")
print(f"   • Высокая уверенность (>80% или <20%): {high_confidence} образцов ({high_confidence/len(predictions)*100:.1f}%)")
print(f"   • Средняя уверенность (20-80%): {medium_confidence} образцов ({medium_confidence/len(predictions)*100:.1f}%)")
print()

# Примеры предсказаний
print("📋 ПРИМЕРЫ ПРЕДСКАЗАНИЙ (первые 10):")
print("№  | Истинный класс | Предсказание | Вероятность аномалии | Уверенность")
print("-" * 75)
for i in range(min(10, len(predictions))):
    true_class = "Норма" if new_labels.iloc[i] == 0 else "Аномалия"
    pred_class = "Норма" if predictions[i] == 0 else "Аномалия"
    prob = probabilities[i]
    confidence = "Высокая" if prob > 0.8 or prob < 0.2 else "Средняя"
    correct = "✓" if predictions[i] == new_labels.iloc[i] else "✗"
    print(f"{i+1:2d} | {true_class:13s} | {pred_class:12s} | {prob:17.4f} | {confidence:10s} {correct}")

### Этап 4: Визуализация результатов

In [None]:
# Визуализация важности признаков
plt.figure(figsize=(15, 10))

# График 1: Важность признаков
plt.subplot(2, 2, 1)
top_features = diagnostic_system.get_feature_importance(10)
plt.barh(range(len(top_features)), top_features['importance'], 
         color=plt.cm.viridis(np.linspace(0, 1, len(top_features))))
plt.yticks(range(len(top_features)), top_features['feature'])
plt.xlabel('Важность признака')
plt.title('Топ-10 важных признаков (Random Forest)')
plt.gca().invert_yaxis()

# График 2: Матрица ошибок
plt.subplot(2, 2, 2)
cm = diagnostic_system.training_history['confusion_matrix']
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Норма', 'Аномалия'], 
            yticklabels=['Норма', 'Аномалия'])
plt.title('Матрица ошибок')
plt.ylabel('Истинный класс')
plt.xlabel('Предсказанный класс')

# График 3: Распределение вероятностей
plt.subplot(2, 2, 3)
test_probs = diagnostic_system.training_history['test_probabilities']
test_labels = diagnostic_system.training_history['test_labels']

plt.hist(test_probs[test_labels == 0], bins=30, alpha=0.7, label='Норма', color='blue')
plt.hist(test_probs[test_labels == 1], bins=30, alpha=0.7, label='Аномалия', color='red')
plt.xlabel('Вероятность аномалии')
plt.ylabel('Количество образцов')
plt.title('Распределение вероятностей предсказаний')
plt.legend()

# График 4: ROC кривая
plt.subplot(2, 2, 4)
fpr, tpr, _ = roc_curve(test_labels, test_probs)
auc_score = diagnostic_system.training_history['test_roc_auc']

plt.plot(fpr, tpr, color='red', lw=2, label=f'ROC кривая (AUC = {auc_score:.3f})')
plt.plot([0, 1], [0, 1], color='gray', lw=1, linestyle='--', label='Случайный классификатор')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Ложноположительная доля')
plt.ylabel('Истинноположительная доля')
plt.title('ROC кривая')
plt.legend(loc="lower right")

plt.tight_layout()
plt.suptitle('Система диагностики трубопроводов - Анализ результатов', 
             fontsize=16, y=1.02)
plt.show()

## Итоговый отчет и выводы

### Основные достижения:

✅ **Высокая точность**: 99.9% на тестовых данных  
✅ **Идеальная классификация**: ROC-AUC = 1.000  
✅ **Стабильная работа**: F1-мера 0.9991 ± 0.0008 (кросс-валидация)  
✅ **Высокая уверенность**: 98.8% предсказаний с высокой уверенностью  

### Техническая реализация:

- **Алгоритм**: Random Forest (100 деревьев) с оптимальными параметрами
- **Предобработка**: StandardScaler + SelectKBest (25 лучших признаков)
- **Балансировка**: Автоматическая балансировка классов
- **Валидация**: 5-fold стратифицированная кросс-валидация

### Практическое применение:

1. 🏭 **Мониторинг в реальном времени** состояния трубопроводного оборудования
2. 🚨 **Раннее обнаружение аномалий** для предотвращения аварий
3. 📈 **Оптимизация планов обслуживания** на основе фактического состояния
4. 💰 **Снижение затрат** на внеплановые ремонты
5. 🛡️ **Повышение надежности** промышленных операций

### Рекомендации для внедрения:

- Интеграция с реальными датчиками MIMII от Hitachi
- Настройка пороговых значений под конкретное оборудование
- Создание системы алертов для операторов
- Регулярное переобучение модели на новых данных
- Мониторинг дрифта данных и производительности модели