# SAMe System - Упрощенная демонстрация

**Search Analog Model Engine** - система поиска аналогов материально-технических ресурсов

Этот notebook демонстрирует базовую работу системы SAMe без сложных зависимостей:
- Создание тестовых данных МТР
- Извлечение параметров
- Простой поиск аналогов
- Анализ результатов

---

## 1. Настройка и импорты

Загружаем необходимые модули и создаем тестовые данные.

In [1]:
# Системные импорты
import sys
import os
import time
from datetime import datetime
from typing import List, Dict, Any

# Добавляем путь к модулям SAMe
sys.path.append(os.path.abspath('../../src'))
sys.path.append(os.path.abspath('../..'))

print("✅ Базовые импорты загружены")
print(f"📁 Рабочая директория: {os.getcwd()}")
print(f"🕐 Время запуска: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

✅ Базовые импорты загружены
📁 Рабочая директория: /Users/igor/Desktop/PythonProjects/SAMe/notebooks/demo
🕐 Время запуска: 2025-07-17 22:16:06


In [2]:
# Создание тестовых данных МТР
def create_sample_mtr_data():
    """Создает реалистичные тестовые данные МТР"""
    
    sample_data = [
        # Крепежные изделия
        "Болт М10×50 ГОСТ 7798-70 оцинкованный",
        "Болт с шестигранной головкой М12×60 DIN 933 нержавеющая сталь A2",
        "Винт М8×30 с внутренним шестигранником ГОСТ 11738-84",
        "Гайка М10 шестигранная ГОСТ 5915-70 класс прочности 8",
        "Гайка М12 DIN 934 нержавеющая сталь A4",
        "Шайба плоская 10 ГОСТ 11371-78 оцинкованная",
        
        # Электрооборудование
        "Двигатель асинхронный АИР80В2 1.5кВт 3000об/мин 220/380В",
        "Электродвигатель 4АМ100L4 4кВт 1500об/мин лапы",
        "Кабель ВВГ 3×2.5 мм² 0.66кВ медный",
        "Провод ПВС 2×1.5 мм² гибкий медный",
        
        # Трубопроводная арматура
        "Труба стальная 57×3.5 ГОСТ 8732-78 бесшовная",
        "Труба полипропиленовая PN20 32×5.4 для горячей воды",
        "Клапан шаровой ДУ25 РУ40 муфтовый латунь",
        
        # Насосы и измерительные приборы
        "Насос центробежный К50-32-125 подача 12.5м³/ч напор 20м",
        "Манометр показывающий МП3-У 0-10 кгс/см² М20×1.5"
    ]
    
    return sample_data

# Создаем тестовые данные
sample_mtr_data = create_sample_mtr_data()

print(f"✅ Создано {len(sample_mtr_data)} образцов МТР для демонстрации")
print("\n📋 Примеры данных:")
for i, item in enumerate(sample_mtr_data[:5], 1):
    print(f"{i}. {item}")
print("...")

✅ Создано 15 образцов МТР для демонстрации

📋 Примеры данных:
1. Болт М10×50 ГОСТ 7798-70 оцинкованный
2. Болт с шестигранной головкой М12×60 DIN 933 нержавеющая сталь A2
3. Винт М8×30 с внутренним шестигранником ГОСТ 11738-84
4. Гайка М10 шестигранная ГОСТ 5915-70 класс прочности 8
5. Гайка М12 DIN 934 нержавеющая сталь A4
...


---
## 2. Демонстрация извлечения параметров

Тестируем RegexParameterExtractor для извлечения технических характеристик.

In [3]:
# Демонстрация извлечения параметров
print("🔧 Демонстрация RegexParameterExtractor")
print("=" * 50)

try:
    # Импортируем экстрактор параметров
    from same.parameter_extraction.regex_extractor import RegexParameterExtractor
    
    # Создаем экстрактор
    extractor = RegexParameterExtractor()
    
    # Примеры для извлечения параметров
    parameter_samples = [
        "Болт М10×50 ГОСТ 7798-70 диаметр 10мм длина 50мм",
        "Двигатель асинхронный 4кВт 1500об/мин напряжение 380В",
        "Труба стальная 57×3.5 диаметр 57мм толщина стенки 3.5мм",
        "Кабель ВВГ 3×2.5мм² напряжение 0.66кВ сечение 2.5мм²",
        "Насос центробежный подача 12.5м³/ч напор 20м мощность 1.1кВт"
    ]
    
    print("\n📝 Примеры извлечения параметров:")
    extraction_results = []
    
    for i, text in enumerate(parameter_samples, 1):
        parameters = extractor.extract_parameters(text)
        extraction_results.append({
            'text': text,
            'parameters': parameters
        })
        
        print(f"\n{i}. Текст: '{text}'")
        print(f"   Найдено параметров: {len(parameters)}")
        
        for param in parameters:
            print(f"   - {param.name}: {param.value} {param.unit or ''} ({param.parameter_type.value})")
    
    # Статистика извлечения
    total_params = sum(len(r['parameters']) for r in extraction_results)
    param_types = {}
    
    for result in extraction_results:
        for param in result['parameters']:
            param_type = param.parameter_type.value
            param_types[param_type] = param_types.get(param_type, 0) + 1
    
    print(f"\n📊 Статистика извлечения параметров:")
    print(f"Всего извлечено параметров: {total_params}")
    print(f"Среднее количество параметров на текст: {total_params/len(parameter_samples):.1f}")
    print(f"Распределение по типам:")
    for param_type, count in param_types.items():
        print(f"  - {param_type}: {count}")
    
    print("\n✅ RegexParameterExtractor работает корректно")
    
except Exception as e:
    print(f"❌ Ошибка в извлечении параметров: {e}")
    extraction_results = []

🔧 Демонстрация RegexParameterExtractor
❌ Ошибка в извлечении параметров: No module named 'core'


---
## 3. Простой поиск аналогов

Демонстрируем базовый алгоритм поиска похожих МТР.

In [4]:
# Создание расширенного каталога для поиска
print("📚 Подготовка каталога для поиска")
print("=" * 50)

def create_extended_catalog():
    """Создает расширенный каталог МТР с вариациями"""
    
    catalog_data = []
    
    # Добавляем основные данные
    for i, item in enumerate(sample_mtr_data):
        catalog_data.append({
            'id': i + 1,
            'name': item,
            'category': 'МТР',
            'description': f'Описание для {item}'
        })
    
    # Добавляем дополнительные вариации для демонстрации поиска
    additional_items = [
        "Болт М10 длина 50мм оцинкованный",
        "Болт метрический 10х50 ГОСТ",
        "Винт М10х50 с шестигранной головкой",
        "Двигатель электрический 1.5кВт 3000об/мин",
        "Мотор асинхронный 1500Вт трехфазный",
        "Труба стальная диаметр 57мм",
        "Трубка металлическая 57х3.5",
        "Насос водяной центробежный 12м³/ч"
    ]
    
    for i, item in enumerate(additional_items):
        catalog_data.append({
            'id': len(sample_mtr_data) + i + 1,
            'name': item,
            'category': 'МТР',
            'description': f'Дополнительное описание для {item}'
        })
    
    return catalog_data

# Создаем каталог
catalog_data = create_extended_catalog()
documents = [item['name'] for item in catalog_data]
document_ids = [item['id'] for item in catalog_data]

print(f"✅ Создан каталог из {len(catalog_data)} позиций")
print(f"📊 Подготовлено для поиска:")
print(f"Документов: {len(documents)}")
print(f"ID документов: {len(document_ids)}")

# Показываем примеры каталога
print(f"\n📋 Примеры из каталога:")
for i, item in enumerate(catalog_data[:5], 1):
    print(f"{i}. ID:{item['id']} - {item['name'][:50]}...")

📚 Подготовка каталога для поиска
✅ Создан каталог из 23 позиций
📊 Подготовлено для поиска:
Документов: 23
ID документов: 23

📋 Примеры из каталога:
1. ID:1 - Болт М10×50 ГОСТ 7798-70 оцинкованный...
2. ID:2 - Болт с шестигранной головкой М12×60 DIN 933 нержав...
3. ID:3 - Винт М8×30 с внутренним шестигранником ГОСТ 11738-...
4. ID:4 - Гайка М10 шестигранная ГОСТ 5915-70 класс прочност...
5. ID:5 - Гайка М12 DIN 934 нержавеющая сталь A4...


In [5]:
# Простой алгоритм поиска аналогов
print("🔍 Демонстрация простого поиска аналогов")
print("=" * 50)

def simple_search(query: str, documents: List[str], document_ids: List[int], max_results: int = 5):
    """Простой поиск по подстрокам и ключевым словам"""
    
    matches = []
    query_lower = query.lower()
    query_words = query_lower.split()
    
    for i, doc in enumerate(documents):
        doc_lower = doc.lower()
        
        # Подсчитываем совпадения слов
        word_matches = sum(1 for word in query_words if word in doc_lower)
        
        # Проверяем точные подстроки
        substring_matches = sum(1 for word in query_words if word in doc_lower)
        
        # Вычисляем простой скор
        if word_matches > 0:
            score = word_matches / len(query_words)
            
            # Бонус за точные совпадения
            if query_lower in doc_lower:
                score += 0.5
            
            matches.append({
                'document_id': document_ids[i],
                'document': doc,
                'score': score,
                'word_matches': word_matches
            })
    
    # Сортируем по скору
    matches.sort(key=lambda x: x['score'], reverse=True)
    
    return matches[:max_results]

# Тестовые запросы
test_queries = [
    "болт м10",
    "двигатель 1.5кВт",
    "труба стальная 57",
    "насос центробежный",
    "кабель медный"
]

print("\n📝 Результаты простого поиска:")
search_results = {}

for query in test_queries:
    start_time = time.time()
    results = simple_search(query, documents, document_ids)
    search_time = time.time() - start_time
    
    search_results[query] = results
    
    print(f"\n🔍 Запрос: '{query}'")
    print(f"   Время поиска: {search_time*1000:.1f}мс")
    print(f"   Найдено результатов: {len(results)}")
    
    for i, result in enumerate(results[:3], 1):
        print(f"   {i}. {result['document'][:60]}... (скор: {result['score']:.2f})")

print("\n✅ Простой поиск работает корректно")

🔍 Демонстрация простого поиска аналогов

📝 Результаты простого поиска:

🔍 Запрос: 'болт м10'
   Время поиска: 0.3мс
   Найдено результатов: 5
   1. Болт М10×50 ГОСТ 7798-70 оцинкованный... (скор: 1.50)
   2. Болт М10 длина 50мм оцинкованный... (скор: 1.50)
   3. Болт с шестигранной головкой М12×60 DIN 933 нержавеющая стал... (скор: 0.50)

🔍 Запрос: 'двигатель 1.5кВт'
   Время поиска: 0.0мс
   Найдено результатов: 3
   1. Двигатель асинхронный АИР80В2 1.5кВт 3000об/мин 220/380В... (скор: 1.00)
   2. Двигатель электрический 1.5кВт 3000об/мин... (скор: 1.00)
   3. Электродвигатель 4АМ100L4 4кВт 1500об/мин лапы... (скор: 0.50)

🔍 Запрос: 'труба стальная 57'
   Время поиска: 0.0мс
   Найдено результатов: 4
   1. Труба стальная 57×3.5 ГОСТ 8732-78 бесшовная... (скор: 1.50)
   2. Труба стальная диаметр 57мм... (скор: 1.00)
   3. Труба полипропиленовая PN20 32×5.4 для горячей воды... (скор: 0.33)

🔍 Запрос: 'насос центробежный'
   Время поиска: 0.0мс
   Найдено результатов: 2
   1. Насос центр

---
## 4. Анализ результатов

Анализируем качество поиска и извлеченные параметры.

In [6]:
# Анализ результатов поиска
print("📊 Анализ результатов поиска")
print("=" * 50)

# Статистика поиска
total_results = sum(len(results) for results in search_results.values())
avg_results = total_results / len(search_results) if search_results else 0

print(f"\n📈 Общая статистика:")
print(f"Обработано запросов: {len(search_results)}")
print(f"Всего найдено результатов: {total_results}")
print(f"Среднее количество результатов на запрос: {avg_results:.1f}")
print(f"Размер каталога: {len(documents)}")

# Анализ качества результатов
print(f"\n🎯 Анализ качества по запросам:")

for query, results in search_results.items():
    if results:
        avg_score = sum(r['score'] for r in results) / len(results)
        max_score = max(r['score'] for r in results)
        
        print(f"\n📝 Запрос: '{query}'")
        print(f"   Результатов: {len(results)}")
        print(f"   Средний скор: {avg_score:.2f}")
        print(f"   Максимальный скор: {max_score:.2f}")
        
        # Показываем лучший результат
        best_result = results[0]
        print(f"   Лучший результат: '{best_result['document'][:50]}...'")

# Комбинированный анализ с параметрами
if 'extraction_results' in locals() and extraction_results:
    print(f"\n🔧 Комбинированный анализ с параметрами:")
    
    # Анализируем параметры в результатах поиска
    for query, results in list(search_results.items())[:2]:  # Берем первые 2 запроса
        print(f"\n🔍 Запрос: '{query}'")
        
        for i, result in enumerate(results[:2], 1):  # Анализируем топ-2 результата
            try:
                from same.parameter_extraction.regex_extractor import RegexParameterExtractor
                extractor = RegexParameterExtractor()
                params = extractor.extract_parameters(result['document'])
                
                print(f"   {i}. {result['document'][:40]}... (скор: {result['score']:.2f})")
                print(f"      Параметров: {len(params)}")
                
                for param in params[:2]:  # Показываем первые 2 параметра
                    print(f"      - {param.name}: {param.value} {param.unit or ''}")
                    
            except Exception as e:
                print(f"      Ошибка анализа параметров: {e}")

print("\n✅ Анализ результатов завершен")

📊 Анализ результатов поиска

📈 Общая статистика:
Обработано запросов: 5
Всего найдено результатов: 16
Среднее количество результатов на запрос: 3.2
Размер каталога: 23

🎯 Анализ качества по запросам:

📝 Запрос: 'болт м10'
   Результатов: 5
   Средний скор: 0.90
   Максимальный скор: 1.50
   Лучший результат: 'Болт М10×50 ГОСТ 7798-70 оцинкованный...'

📝 Запрос: 'двигатель 1.5кВт'
   Результатов: 3
   Средний скор: 0.83
   Максимальный скор: 1.00
   Лучший результат: 'Двигатель асинхронный АИР80В2 1.5кВт 3000об/мин 22...'

📝 Запрос: 'труба стальная 57'
   Результатов: 4
   Средний скор: 0.79
   Максимальный скор: 1.50
   Лучший результат: 'Труба стальная 57×3.5 ГОСТ 8732-78 бесшовная...'

📝 Запрос: 'насос центробежный'
   Результатов: 2
   Средний скор: 1.25
   Максимальный скор: 1.50
   Лучший результат: 'Насос центробежный К50-32-125 подача 12.5м³/ч напо...'

📝 Запрос: 'кабель медный'
   Результатов: 2
   Средний скор: 0.75
   Максимальный скор: 1.00
   Лучший результат: 'Кабель ВВГ 3

---
## 5. Выводы и рекомендации

Подводим итоги демонстрации упрощенной версии системы SAMe.

In [7]:
# Итоговые выводы
print("🎯 Выводы по упрощенной демонстрации системы SAMe")
print("=" * 60)

print("\n✅ Успешно продемонстрировано:")
print("   📋 Создание реалистичных тестовых данных МТР")
print("   🔧 Извлечение технических параметров через RegexParameterExtractor")
print("   📚 Создание расширенного каталога с вариациями")
print("   🔍 Простой алгоритм поиска аналогов")
print("   📊 Анализ качества результатов поиска")

print(f"\n📊 Статистика демонстрации:")
print(f"   Тестовых данных МТР: {len(sample_mtr_data)}")
print(f"   Размер каталога: {len(documents) if 'documents' in locals() else 0}")
print(f"   Обработано запросов: {len(search_results) if 'search_results' in locals() else 0}")

if 'search_results' in locals():
    total_found = sum(len(results) for results in search_results.values())
    print(f"   Найдено результатов: {total_found}")

if 'extraction_results' in locals():
    total_params = sum(len(r['parameters']) for r in extraction_results)
    print(f"   Извлечено параметров: {total_params}")

print(f"\n🚀 Возможности полной версии SAMe:")
print("   🧹 TextCleaner - очистка и нормализация текста")
print("   📚 Lemmatizer - лемматизация с SpaCy")
print("   🔍 FuzzySearchEngine - нечеткий поиск с TF-IDF")
print("   🧠 SemanticSearchEngine - семантический поиск с BERT")
print("   ⚡ HybridSearchEngine - комбинированный подход")
print("   📊 ExcelExporter - экспорт результатов в Excel")

print(f"\n💡 Рекомендации для полной функциональности:")
print("   1. Установите зависимости: pip install spacy rapidfuzz sentence-transformers faiss-cpu")
print("   2. Загрузите SpaCy модель: python -m spacy download ru_core_news_lg")
print("   3. Запустите полный notebook: jupyter notebook SAMe_Demo.ipynb")
print("   4. Настройте конфигурацию под ваши данные")
print("   5. Обучите модели на полном каталоге МТР")

print(f"\n🎉 Упрощенная демонстрация системы SAMe завершена!")
print(f"📚 Для получения дополнительной информации см. документацию в папке docs/")

🎯 Выводы по упрощенной демонстрации системы SAMe

✅ Успешно продемонстрировано:
   📋 Создание реалистичных тестовых данных МТР
   🔧 Извлечение технических параметров через RegexParameterExtractor
   📚 Создание расширенного каталога с вариациями
   🔍 Простой алгоритм поиска аналогов
   📊 Анализ качества результатов поиска

📊 Статистика демонстрации:
   Тестовых данных МТР: 15
   Размер каталога: 23
   Обработано запросов: 5
   Найдено результатов: 16
   Извлечено параметров: 0

🚀 Возможности полной версии SAMe:
   🧹 TextCleaner - очистка и нормализация текста
   📚 Lemmatizer - лемматизация с SpaCy
   🔍 FuzzySearchEngine - нечеткий поиск с TF-IDF
   🧠 SemanticSearchEngine - семантический поиск с BERT
   ⚡ HybridSearchEngine - комбинированный подход
   📊 ExcelExporter - экспорт результатов в Excel

💡 Рекомендации для полной функциональности:
   1. Установите зависимости: pip install spacy rapidfuzz sentence-transformers faiss-cpu
   2. Загрузите SpaCy модель: python -m spacy download ru_c