In [1]:
from patent_categorization import PatentCategorizer
import json
import pandas as pd

  from .autonotebook import tqdm as notebook_tqdm


## 1. Патенты как интеллектуальная собственность

In [2]:
categorizer = PatentCategorizer(model_name="allenai/scibert_scivocab_uncased")
    
with open("data/titles.txt", "r", encoding="utf-8") as file:
    all_patents = [line.strip() for line in file if line.strip()]

with open("data/categories.json", "r", encoding="utf-8") as file:
    categories = json.load(file)['tags']
    categories = {category['tag']: category['keywords'] for category in categories}

In [3]:
categorization = categorizer.categorize_by_predefined_categories(all_patents, categories)

In [4]:
categorization

{'КАРКАС ДЛЯ СВЕРХПРОВОДЯЩЕГО СОЛЕНОИДА': {'category': 'Методы получения и обработки',
  'confidence': np.float32(0.9637756),
  'all_scores': {'Ускорительная техника и физика': np.float32(0.9045067),
   'Детекторы и измерительные системы': np.float32(0.9493792),
   'Ядерная физика и радиохимия': np.float32(0.934401),
   'Нейтронная физика': np.float32(0.87867296),
   'Материаловедение и нанотехнологии': np.float32(0.95867276),
   'Методы получения и обработки': np.float32(0.9637756),
   'Аналитические методы': np.float32(0.9564667),
   'Медицинские применения': np.float32(0.8513726),
   'Электронные устройства': np.float32(0.951776),
   'Вакуумные и криогенные системы': np.float32(0.92169726),
   'Фундаментальные исследования': np.float32(0.8494854),
   'Прикладные разработки': np.float32(0.95970464),
   'Инновационные технологии': np.float32(0.9409423)}},
 'ХЕМО-ЭЛЕКТРОННЫЙ КОНВЕРТЕР НА ОСНОВЕ НАНОПОРОШКОВ СИСТЕМЫ ZRO2-Y2O3': {'category': 'Детекторы и измерительные системы',
  'confid

In [5]:
print("Категоризация патентов:")
categorization_list = []

for category in categories.keys():
    patents_in_category = [
        title for title, info in categorization.items()
        if info['category'] == category
    ]
    if patents_in_category:
        print(f"\n{category} ({len(patents_in_category)} патентов):")
        for patent in patents_in_category:
            confidence = categorization[patent]['confidence']
            print(f"  - {patent} (уверенность: {confidence:.3f})")
            categorization_list.append({
                'category': category,
                'title': patent
            })
    else:
        print(f"\n{category} (0 патентов)")

# Create DataFrame from the categorization results
categorization_df = pd.DataFrame(categorization_list)
print(f"\nСоздан DataFrame с результатами категоризации: {len(categorization_df)} патентов")
print(f"Количество категорий: {categorization_df['category'].nunique()}")

Категоризация патентов:

Ускорительная техника и физика (0 патентов)

Детекторы и измерительные системы (15 патентов):
  - ХЕМО-ЭЛЕКТРОННЫЙ КОНВЕРТЕР НА ОСНОВЕ НАНОПОРОШКОВ СИСТЕМЫ ZRO2-Y2O3 (уверенность: 0.897)
  - УСТРОЙСТВО ДЛЯ ИЗМЕРЕНИЯ УГЛА НАКЛОНА (уверенность: 0.951)
  - КОМПАКТНЫЙ НИЗКОФОНОВЫЙ СЧЕТЧИК НЕЙТРОНОВ НА ОСНОВЕ ГЕЛИЙ-3 (уверенность: 0.931)
  - ТЕЛЛУРСОДЕРЖАЩИЙ ЖИДКИЙ СЦИНТИЛЛЯТОР (уверенность: 0.957)
  - УСТРОЙCТВО ДЛЯ ИЗМЕРЕНИЯ УГЛА НАКЛОНА (уверенность: 0.951)
  - ЛАЗЕРНЫЙ ИНКЛИНОМЕТР (уверенность: 0.944)
  - ЛАЗЕРНЫЙ ИНКЛИНОМЕТР ДЛЯ ДЛИТЕЛЬНОЙ РЕГИСТРАЦИИ УГЛОВЫХ НАКЛОНОВ ЗЕМНОЙ ПОВЕРХНОСТИ (уверенность: 0.929)
  - КООРДИНАТНЫЙ ГАЗОНАПОЛНЕННЫЙ ДЕТЕКТОР (уверенность: 0.952)
  - СПОСОБ РЕГИСТРАЦИИ ЧАСТИЦ ДЕТЕКТОРАМИ НА ОСНОВЕ ДРЕЙФОВЫХ ТРУБОК (уверенность: 0.930)
  - НЕЙТРОННЫЙ СПЕКТРОМЕТР НА БАЗЕ ПРОТОННОГО ТЕЛЕСКОПА (уверенность: 0.940)
  - НАНОСТРУКТУРИРОВАННОЕ ПОКРЫТИЕ НЕСУЩЕЙ ОСНОВЫ (уверенность: 0.938)
  - БЛОК ДЕТЕКТОРОВ ДЛЯ ИЗМЕРЕНИЯ ПОТОКА НЕЙТРОНОВ (уверенн

In [6]:
categorization_df

Unnamed: 0,category,title
0,Детекторы и измерительные системы,ХЕМО-ЭЛЕКТРОННЫЙ КОНВЕРТЕР НА ОСНОВЕ НАНОПОРОШ...
1,Детекторы и измерительные системы,УСТРОЙСТВО ДЛЯ ИЗМЕРЕНИЯ УГЛА НАКЛОНА
2,Детекторы и измерительные системы,КОМПАКТНЫЙ НИЗКОФОНОВЫЙ СЧЕТЧИК НЕЙТРОНОВ НА О...
3,Детекторы и измерительные системы,ТЕЛЛУРСОДЕРЖАЩИЙ ЖИДКИЙ СЦИНТИЛЛЯТОР
4,Детекторы и измерительные системы,УСТРОЙCТВО ДЛЯ ИЗМЕРЕНИЯ УГЛА НАКЛОНА
...,...,...
275,Инновационные технологии,ВЗРЫВОЭМИССИОННЫЙ ИСТОЧНИК ИОНОВ
276,Инновационные технологии,ПЛАЗМЕННЫЙ ДИОД С МАГНИТНОЙ ИЗОЛЯЦИЕЙ
277,Инновационные технологии,ВЫСОКОВОЛЬТНЫЙ ВАКУУМНЫЙ ДИОД
278,Инновационные технологии,МУЛЬТИПЛЕКСНЫЙ СКВИД


In [7]:
categorization_df.groupby('category').size()

category
Аналитические методы                   9
Вакуумные и криогенные системы         2
Детекторы и измерительные системы     15
Инновационные технологии              38
Материаловедение и нанотехнологии      2
Медицинские применения                 8
Методы получения и обработки         109
Прикладные разработки                 23
Фундаментальные исследования          11
Электронные устройства                26
Ядерная физика и радиохимия           37
dtype: int64

Модель может быть использована при кластеризации для группировки патентов по схожести.

In [8]:
cluster_results = categorizer.cluster_patents(all_patents, n_clusters=7)

In [9]:
cluster_data = []

for cluster_id, patents in cluster_results['clusters'].items():
    for patent in patents:
        cluster_data.append({
            'cluster_id': cluster_id,
            'title': patent['title'],
            'index': patent['index']
        })

cluster_df = pd.DataFrame(cluster_data)
print(f"Создан DataFrame с {len(cluster_df)} патентами в {cluster_df['cluster_id'].nunique()} кластерах")

cluster_df.index = cluster_df['index']
cluster_df.drop(columns=['index'], inplace=True)
cluster_df.sort_index()

Создан DataFrame с 316 патентами в 7 кластерах


Unnamed: 0_level_0,cluster_id,title
index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,6,КАРКАС ДЛЯ СВЕРХПРОВОДЯЩЕГО СОЛЕНОИДА
1,6,ХЕМО-ЭЛЕКТРОННЫЙ КОНВЕРТЕР НА ОСНОВЕ НАНОПОРОШ...
2,0,СПОСОБ И СИСТЕМА ИНТЕЛЛЕКТУАЛЬНОГО САМООРГАНИЗ...
3,0,СПОСОБ ИЗМЕРЕНИЯ ВРЕМЕНИ ЖИЗНИ ВОЗБУЖДЕННЫХ СО...
4,4,МНОГОФУНКЦИОНАЛЬНОЕ УСТРОЙСТВО ТАНГЕНЦИАЛЬНОЙ ...
...,...,...
311,6,МАГНИТНЫЙ СПЕКТРОМЕТР
312,4,ВЗРЫВОЭМИССИОННЫЙ КАТОД
313,3,УСКОРИТЕЛЬ ЭЛЕКТРОНОВ
314,1,МУЛЬТИПЛЕКСНЫЙ СКВИД


## 2. Статьи как интеллектуальная собственность

In [11]:
with open("data/articles.json", "r", encoding="utf-8") as file:
    articles = json.load(file)
    articles = [article.get('title') for article in articles['articles']]

In [12]:
categorized_articles = categorizer.categorize_by_predefined_categories(articles, categories)

In [13]:
print("Категоризация статей:")
categorization_list = []

for category in categories.keys():
    articles_in_category = [
        title for title, info in categorized_articles.items()
        if info['category'] == category
    ]
    if articles_in_category:
        print(f"\n{category} ({len(articles_in_category)} статей):")
        for article in articles_in_category:
            confidence = categorized_articles[article]['confidence']
            print(f"  - {article} (уверенность: {confidence:.3f})")
            categorization_list.append({
                'category': category,
                'title': article
            })
    else:
        print(f"\n{category} (0 статей)")

# Create DataFrame from the categorization results
categorization_df = pd.DataFrame(categorization_list)
print(f"\nСоздан DataFrame с результатами категоризации: {len(categorization_df)} статей")
print(f"Количество категорий: {categorization_df['category'].nunique()}")

Категоризация статей:

Ускорительная техника и физика (0 статей)

Детекторы и измерительные системы (67 статей):
  - Библиографический указатель публикаций ОИЯИ за 2024 год (уверенность: 0.905)
  - Новые теллурсодержащие сцинтилляторы способствуют поиску безнейтринного ββ-распада (уверенность: 0.940)
  - Библиографический указатель публикаций ОИЯИ за 2023 год (уверенность: 0.906)
  - Ученые ЛНФ ОИЯИ провели биомониторинг воздуха в национальном парке Казахстана (уверенность: 0.932)
  - Описание спектрометра BM@N на ускорительном комплексе NICA (уверенность: 0.914)
  - Алгоритмы классификации сигналов МРПК на базе DRS4 (уверенность: 0.942)
  - Проявления промежуточной структуры при гамма-распаде неаналоговых резонансов (уверенность: 0.938)
  - Температурная зависимость запрещенной зоны фторированных и гидрированных углеродных нанотрубок (уверенность: 0.950)
  - Новая статья ученых ОИЯИ в журнале Physical Review C (уверенность: 0.905)
  - Ученые ОИЯИ оценили риски радиационного загрязнени

In [14]:
categorization_df

Unnamed: 0,category,title
0,Детекторы и измерительные системы,Библиографический указатель публикаций ОИЯИ за...
1,Детекторы и измерительные системы,Новые теллурсодержащие сцинтилляторы способств...
2,Детекторы и измерительные системы,Библиографический указатель публикаций ОИЯИ за...
3,Детекторы и измерительные системы,Ученые ЛНФ ОИЯИ провели биомониторинг воздуха ...
4,Детекторы и измерительные системы,Описание спектрометра BM@N на ускорительном ко...
...,...,...
650,Инновационные технологии,Фазовый переход первого рода гиперядерной мате...
651,Инновационные технологии,О кинетике импульсного бустера с инжекцией про...
652,Инновационные технологии,Новая книга об Институте
653,Инновационные технологии,О проекте NICA в мартовском номере журнала «В ...


In [15]:
categorization_df.groupby('category').size()

category
Аналитические методы                  14
Вакуумные и криогенные системы         1
Детекторы и измерительные системы     67
Инновационные технологии              29
Материаловедение и нанотехнологии      5
Методы получения и обработки         359
Прикладные разработки                 47
Фундаментальные исследования           3
Электронные устройства                54
Ядерная физика и радиохимия           76
dtype: int64

## 3. Общая категоризация патентов и статей

In [16]:
full_categorization = {**categorization, **categorized_articles}

In [17]:
print("Категоризация интеллектуальной собственности:")
categorization_list = []

for category in categories.keys():
    articles_in_category = [
        title for title, info in full_categorization.items()
        if info['category'] == category
    ]
    if articles_in_category:
        print(f"\n{category} ({len(articles_in_category)} статей):")
        for article in articles_in_category:
            confidence = full_categorization[article]['confidence']
            print(f"  - {article} (уверенность: {confidence:.3f})")
            categorization_list.append({
                'category': category,
                'title': article
            })
    else:
        print(f"\n{category} (0 статей)")

# Create DataFrame from the categorization results
categorization_df = pd.DataFrame(categorization_list)
print(f"\nСоздан DataFrame с результатами категоризации: {len(categorization_df)} объектов")
print(f"Количество категорий: {categorization_df['category'].nunique()}")

Категоризация интеллектуальной собственности:

Ускорительная техника и физика (0 статей)

Детекторы и измерительные системы (82 статей):
  - ХЕМО-ЭЛЕКТРОННЫЙ КОНВЕРТЕР НА ОСНОВЕ НАНОПОРОШКОВ СИСТЕМЫ ZRO2-Y2O3 (уверенность: 0.897)
  - УСТРОЙСТВО ДЛЯ ИЗМЕРЕНИЯ УГЛА НАКЛОНА (уверенность: 0.951)
  - КОМПАКТНЫЙ НИЗКОФОНОВЫЙ СЧЕТЧИК НЕЙТРОНОВ НА ОСНОВЕ ГЕЛИЙ-3 (уверенность: 0.931)
  - ТЕЛЛУРСОДЕРЖАЩИЙ ЖИДКИЙ СЦИНТИЛЛЯТОР (уверенность: 0.957)
  - УСТРОЙCТВО ДЛЯ ИЗМЕРЕНИЯ УГЛА НАКЛОНА (уверенность: 0.951)
  - ЛАЗЕРНЫЙ ИНКЛИНОМЕТР (уверенность: 0.944)
  - ЛАЗЕРНЫЙ ИНКЛИНОМЕТР ДЛЯ ДЛИТЕЛЬНОЙ РЕГИСТРАЦИИ УГЛОВЫХ НАКЛОНОВ ЗЕМНОЙ ПОВЕРХНОСТИ (уверенность: 0.929)
  - КООРДИНАТНЫЙ ГАЗОНАПОЛНЕННЫЙ ДЕТЕКТОР (уверенность: 0.952)
  - СПОСОБ РЕГИСТРАЦИИ ЧАСТИЦ ДЕТЕКТОРАМИ НА ОСНОВЕ ДРЕЙФОВЫХ ТРУБОК (уверенность: 0.930)
  - НЕЙТРОННЫЙ СПЕКТРОМЕТР НА БАЗЕ ПРОТОННОГО ТЕЛЕСКОПА (уверенность: 0.940)
  - НАНОСТРУКТУРИРОВАННОЕ ПОКРЫТИЕ НЕСУЩЕЙ ОСНОВЫ (уверенность: 0.938)
  - БЛОК ДЕТЕКТОРОВ ДЛЯ ИЗМЕРЕНИЯ ПОТОКА 

In [18]:
categorization_df

Unnamed: 0,category,title
0,Детекторы и измерительные системы,ХЕМО-ЭЛЕКТРОННЫЙ КОНВЕРТЕР НА ОСНОВЕ НАНОПОРОШ...
1,Детекторы и измерительные системы,УСТРОЙСТВО ДЛЯ ИЗМЕРЕНИЯ УГЛА НАКЛОНА
2,Детекторы и измерительные системы,КОМПАКТНЫЙ НИЗКОФОНОВЫЙ СЧЕТЧИК НЕЙТРОНОВ НА О...
3,Детекторы и измерительные системы,ТЕЛЛУРСОДЕРЖАЩИЙ ЖИДКИЙ СЦИНТИЛЛЯТОР
4,Детекторы и измерительные системы,УСТРОЙCТВО ДЛЯ ИЗМЕРЕНИЯ УГЛА НАКЛОНА
...,...,...
930,Инновационные технологии,Фазовый переход первого рода гиперядерной мате...
931,Инновационные технологии,О кинетике импульсного бустера с инжекцией про...
932,Инновационные технологии,Новая книга об Институте
933,Инновационные технологии,О проекте NICA в мартовском номере журнала «В ...


In [19]:
categorization_df.groupby('category').size()

category
Аналитические методы                  23
Вакуумные и криогенные системы         3
Детекторы и измерительные системы     82
Инновационные технологии              67
Материаловедение и нанотехнологии      7
Медицинские применения                 8
Методы получения и обработки         468
Прикладные разработки                 70
Фундаментальные исследования          14
Электронные устройства                80
Ядерная физика и радиохимия          113
dtype: int64

In [20]:
with open("categorized_data.json", "w", encoding="utf-8") as f:
    json.dump(categorization_df.to_dict(orient="records"), f, ensure_ascii=False, indent=4)