In [1]:
import pandas as pd
import os
import re
def preprocess_content(content):
    """
    Предобрабатывает текст: удаляет специальные символы и заменяет их словом "проблемы".
    
    Args:
        content (str): Текст для обработки.
    
    Returns:
        str: Обработанный текст.
    """
    if not isinstance(content, str):
        return content  
    content_cleaned = re.sub(r"[^\w\s]", " ", content)  
    content_cleaned = re.sub(r"\s+", " ", content_cleaned) 

    return content_cleaned.strip()
    
def process_csv_and_fetch_content(csv_file, content_dir):
    """
    Читает CSV-файл и добавляет содержимое файлов из content_dir в виде нового столбца.
    
    Args:
        csv_file (str): Путь к CSV-файлу.
        content_dir (str): Путь к папке с текстовыми файлами.
    
    Returns:
        pd.DataFrame: DataFrame с добавленным столбцом "Content" (содержимое файлов).
    """
    df = pd.read_csv(csv_file)

    content_list = []

    for idx in df.index:
        file_path = os.path.join(content_dir, f"{idx + 1}.txt")
        
        if os.path.exists(file_path):
            with open(file_path, "r", encoding="utf-8") as f:
                content = f.read()
        else:
            print(f"Файл не найден: {file_path}")
            content = None  
        processed_content = preprocess_content(content)
        content_list.append(processed_content)

    df["Content"] = content_list
    return df


In [2]:
results = process_csv_and_fetch_content("parsed_data.csv", "products_content")


In [3]:
results.head()

Unnamed: 0,title,url,status,timing,Content
0,Специальный инвестиционный контракт (СПИК 2.0),https://gisp.gov.ru/nmp/measure/10511015,Активная,,Назначение Специальный инвестиционный контракт...
1,"Программа ФРП ""Проекты развития""",https://gisp.gov.ru/nmp/measure/6628507,Активная,"Конкурсное событие, На регулярной основе",Назначение Целевой займ на реализацию проектов...
2,"Программа ФРП ""Комплектующие изделия""",https://gisp.gov.ru/nmp/measure/8124256,Активная,"Конкурсное событие, На регулярной основе",Назначение В рамках программы Фонд развития пр...
3,"Программа ФРП ""Маркировка товаров""",https://gisp.gov.ru/nmp/measure/8869240,Активная,"Конкурсное событие, На регулярной основе",Назначение В рамках данной программы льготное ...
4,"Совместные займы ФРП с РФРП по программе ""Комп...",https://gisp.gov.ru/nmp/measure/9172745,Активная,"Конкурсное событие, На регулярной основе",Назначение Федеральный и региональные фонды со...


In [4]:

import pandas as pd
import os
from transformers import pipeline

def extract_features_from_content(content, qa_pipeline):
    """
    Извлекает признаки из содержимого текста с использованием QA модели.
    
    Args:
        content (str): Текст для анализа.
        qa_pipeline: Предобученная QA модель из Hugging Face.

    Returns:
        dict: Извлечённые признаки.
    """
    if not isinstance(content, str) or not content.strip():
        return {
            'Сумма гранта': None,
            'Сфера интересов': None,
            'Критерии': None,
            'Тип': None,
            'Регион': None,
            'Документы': None,
            'Форма подачи': None,
            'Тип заявителя': None,
        }

    questions = {
        'Сумма гранта': "Какова сумма гранта?",
        'Сфера интересов': "Какая сфера интересов указана?",
        'Критерии': "Какие критерии для участия?",
        'Тип': "Какой тип гранта указан?",
        'Регион': "На какой регион распространяется грант?",
        'Документы': "Какие документы требуются для подачи заявки?",
        'Форма подачи': "Какая форма подачи заявки указана?",
        'Тип заявителя': "Кто может подавать заявку на грант?",
    }

    features = {}
    for feature, question in questions.items():
        try:
            answer = qa_pipeline(question=question, context=content)
            features[feature] = answer['answer']
        except Exception as e:
            print(f"Ошибка при извлечении '{feature}': {e}")
            features[feature] = None

    return features


def process_and_extract_features(results, qa_pipeline):
    """
    Обрабатывает DataFrame, извлекает признаки из столбца Content.

    Args:
        results (pd.DataFrame): Исходный DataFrame.
        qa_pipeline: Предобученная QA модель.

    Returns:
        pd.DataFrame: DataFrame с добавленными признаками.
    """
    extracted_features_list = []

    for idx, row in results.iterrows():
        print(idx)
        content = row['Content']
        features = extract_features_from_content(content, qa_pipeline)
        extracted_features_list.append(features)
    features_df = pd.DataFrame(extracted_features_list)
    return pd.concat([results, features_df], axis=1)

  warn(


In [5]:
results = results.head(20)
print("loading pipe")
qa_pipeline = pipeline("question-answering", model="Den4ikAI/rubert_large_squad_2")
print("extracting pipe")
features = process_and_extract_features(results, qa_pipeline)
print("done")
features_df = pd.DataFrame(features)

results = pd.concat([results.reset_index(drop=True), features_df], axis=1)

print("Обновленный DataFrame:")
display(results)

loading pipe
extracting pipe
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
done
Обновленный DataFrame:


Unnamed: 0,title,url,status,timing,Content,title.1,url.1,status.1,timing.1,Content.1,Сумма гранта,Сфера интересов,Критерии,Тип,Регион,Документы,Форма подачи,Тип заявителя
0,Специальный инвестиционный контракт (СПИК 2.0),https://gisp.gov.ru/nmp/measure/10511015,Активная,,Назначение Специальный инвестиционный контракт...,Специальный инвестиционный контракт (СПИК 2.0),https://gisp.gov.ru/nmp/measure/10511015,Активная,,Назначение Специальный инвестиционный контракт...,50 млрд руб,промышленности,дополнительный критерий Внимание,СПИК,на территории РФ,требованиям проведения конкурсного отбора,процедура актуализации перечня,инвестор
1,"Программа ФРП ""Проекты развития""",https://gisp.gov.ru/nmp/measure/6628507,Активная,"Конкурсное событие, На регулярной основе",Назначение Целевой займ на реализацию проектов...,"Программа ФРП ""Проекты развития""",https://gisp.gov.ru/nmp/measure/6628507,Активная,"Конкурсное событие, На регулярной основе",Назначение Целевой займ на реализацию проектов...,100 1000 млн рублей,импортозамещение,порядок отбора проектов,Финансовая поддержка,Территориальный уровень меры поддержки,Основные условия,банковской гарантии гарантии,ВЭБ РФ Корпорации МСП
2,"Программа ФРП ""Комплектующие изделия""",https://gisp.gov.ru/nmp/measure/8124256,Активная,"Конкурсное событие, На регулярной основе",Назначение В рамках программы Фонд развития пр...,"Программа ФРП ""Комплектующие изделия""",https://gisp.gov.ru/nmp/measure/8124256,Активная,"Конкурсное событие, На регулярной основе",Назначение В рамках программы Фонд развития пр...,50 500 млн руб до 50,импортозамещение,Условия и порядок отбора проектов,Финансовая поддержка,Территориальный уровень,Федеральный Регулярность оказания меры поддерж...,льготное заёмное финансирование,1 й заем
3,"Программа ФРП ""Маркировка товаров""",https://gisp.gov.ru/nmp/measure/8869240,Активная,"Конкурсное событие, На регулярной основе",Назначение В рамках данной программы льготное ...,"Программа ФРП ""Маркировка товаров""",https://gisp.gov.ru/nmp/measure/8869240,Активная,"Конкурсное событие, На регулярной основе",Назначение В рамках данной программы льготное ...,5 50 млн руб,Назначение,Основные условия,Финансовая поддержка,Территориальный уровень меры поддержки,банковские гарантии,банковские гарантии,Сумма займа от 5 до 50 млн руб
4,"Совместные займы ФРП с РФРП по программе ""Комп...",https://gisp.gov.ru/nmp/measure/9172745,Активная,"Конкурсное событие, На регулярной основе",Назначение Федеральный и региональные фонды со...,"Совместные займы ФРП с РФРП по программе ""Комп...",https://gisp.gov.ru/nmp/measure/9172745,Активная,"Конкурсное событие, На регулярной основе",Назначение Федеральный и региональные фонды со...,20 200 млн руб,частных инвесторов или банков,Комплектующие изделия,Финансовая поддержка,на 10 средства регионов,гарантии ВЭБ РФ Корпорации МСП или РГО,процентная ставка 5 годовых базовая 3 годовых ...,Федеральный и региональные фонды
5,"Программа ФРП ""Повышение производительности тр...",https://gisp.gov.ru/nmp/measure/9126744,Активная,"Конкурсное событие, На регулярной основе",Назначение Заемное финансирование предоставляе...,"Программа ФРП ""Повышение производительности тр...",https://gisp.gov.ru/nmp/measure/9126744,Активная,"Конкурсное событие, На регулярной основе",Назначение Заемное финансирование предоставляе...,от 50 до 300 млн руб,Федеральный центр компетенций в сфере производ...,Условия и порядок отбора проектов,Крупный бизнес,Территориальный уровень,сертификат,сертификат,Федеральный центр компетенций
6,"Программа ФРП ""Автокомпоненты""",https://gisp.gov.ru/nmp/measure/12447705,Активная,"Конкурсное событие, На регулярной основе",Назначение В рамках этой программы льготное за...,"Программа ФРП ""Автокомпоненты""",https://gisp.gov.ru/nmp/measure/12447705,Активная,"Конкурсное событие, На регулярной основе",Назначение В рамках этой программы льготное за...,100 5000 млн руб,частных инвесторов или банков,Основные условия,Финансовая поддержка,Территориальный уровень меры поддержки,Основные условия,льготное заёмное софинансирование,ВЭБ РФ Корпорации МСП
7,"Программа ФРП ""Формирование компонентной и рес...",https://gisp.gov.ru/nmp/measure/12447485,Активная,"Конкурсное событие, На регулярной основе",Назначение По этой программе льготное заёмное ...,"Программа ФРП ""Формирование компонентной и рес...",https://gisp.gov.ru/nmp/measure/12447485,Активная,"Конкурсное событие, На регулярной основе",Назначение По этой программе льготное заёмное ...,от 10 до 500 млн руб,Федеральный Регулярность оказания меры поддерж...,Условия и порядок отбора проектов,от 10 до 500 млн руб,на территории РФ,поручительство бенефициара и генерального дире...,льготное заёмное финансирование под 7 годовых,от 10 до 500 млн руб
8,"Совместные займы ФРП с РФРП по программе ""Прое...",https://gisp.gov.ru/nmp/measure/12447033,Активная,"Конкурсное событие, На регулярной основе",Назначение В рамках программы Проекты лесной п...,"Совместные займы ФРП с РФРП по программе ""Прое...",https://gisp.gov.ru/nmp/measure/12447033,Активная,"Конкурсное событие, На регулярной основе",Назначение В рамках программы Проекты лесной п...,от 20 до 100 млн рублей,Назначение,Основные условия срок займа не более 3 лет,Финансовая поддержка,федеральный и региональные фонды,при банковской гарантии или гарантии Корпораци...,банковской гарантии,федеральный и региональные фонды
9,"Совместные займы ФРП с РФРП по программе ""Повы...",https://gisp.gov.ru/nmp/measure/12446568,Активная,"Конкурсное событие, На регулярной основе",Назначение Федеральный и региональные фонды со...,"Совместные займы ФРП с РФРП по программе ""Повы...",https://gisp.gov.ru/nmp/measure/12446568,Активная,"Конкурсное событие, На регулярной основе",Назначение Федеральный и региональные фонды со...,от 20 до 200 млн руб,НИОКР,Федеральный Регулярность оказания меры поддержки,от 20 до 200 млн руб,на 10 средства регионов,сертификат,сертификат,сертификат


In [6]:
import pandas as pd
from sentence_transformers import SentenceTransformer
import hnswlib
import numpy as np

def generate_embeddings(df, embedding_model):
    """
    Генерирует эмбеддинги для текстовых признаков.
    """
    text_features = ['title', 'Content']
    df['CombinedText'] = df[text_features].fillna("").agg(" ".join, axis=1)
    print("Генерация эмбеддингов...")
    embeddings = embedding_model.encode(df['CombinedText'].tolist(), show_progress_bar=True)
    return embeddings


def cluster_embeddings(embeddings, num_clusters=20):
    """
    Кластеризует эмбеддинги с использованием HNSW и вычисляет центры кластеров.
    """
    embedding_dim = embeddings.shape[1]

    print("Инициализация HNSW...")
    index = hnswlib.Index(space='cosine', dim=embedding_dim)
    index.init_index(max_elements=embeddings.shape[0], ef_construction=200, M=16)
    index.add_items(embeddings)

    print("Кластеризация с использованием HNSW...")
    cluster_labels = np.random.randint(0, num_clusters, size=len(embeddings))  # Заглушка для меток кластеров

    print("Вычисление центров кластеров...")
    cluster_centers = []
    for cluster_id in range(num_clusters):
        cluster_points = embeddings[cluster_labels == cluster_id]
        if len(cluster_points) > 0:
            center = np.mean(cluster_points, axis=0)
        else:
            center = np.zeros(embedding_dim)  # Пустой кластер
        cluster_centers.append(center)
    cluster_centers = np.array(cluster_centers)

    return cluster_labels, cluster_centers


In [7]:
print("Загрузка модели...")
embedding_model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
embeddings = generate_embeddings(results, embedding_model)
results['Embeddings'] = embeddings.tolist()
num_clusters = 20
cluster_labels, cluster_centers = cluster_embeddings(embeddings, num_clusters=num_clusters)
results['Cluster'] = cluster_labels

cluster_centers_df = pd.DataFrame(
    cluster_centers,
    columns=[f"dim_{i}" for i in range(cluster_centers.shape[1])],
    index=[f"Cluster_{i}" for i in range(num_clusters)]
)

Загрузка модели...
Генерация эмбеддингов...


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Инициализация HNSW...
Кластеризация с использованием HNSW...
Вычисление центров кластеров...


In [8]:
def create_mock_startups():
    """
    Создает список стартапов с описанием и полями на русском языке.

    Returns:
        pd.DataFrame: DataFrame с данными о стартапах.
    """
    startups = [
        {
            'ID стартапа': 'S-1',
            'Стадия стартапа': 'Идея',
            'Отрасль': 'Технологии',
            'Выручка': 0,
            'Необходимое финансирование': 1000000,
            'Локация': 'Москва',
            'Лет на рынке': 0,
            'Размер команды': 3,
            'Инновационный фокус': 'Искусственный интеллект',
            'Описание': 'Стартап разрабатывает платформу для оптимизации логистики с использованием AI.',
            'История участия': []  
        },
        {
            'ID стартапа': 'S-2',
            'Стадия стартапа': 'Посевная стадия',
            'Отрасль': 'Здравоохранение',
            'Выручка': 500000,
            'Необходимое финансирование': 2000000,
            'Локация': 'Санкт-Петербург',
            'Лет на рынке': 2,
            'Размер команды': 15,
            'Инновационный фокус': 'Устойчивое развитие',
            'Описание': 'Компания разрабатывает умные носимые устройства для мониторинга здоровья.',
            'История участия': []  
        },
        {
            'ID стартапа': 'S-3',
            'Стадия стартапа': 'Ранняя стадия роста',
            'Отрасль': 'Образование',
            'Выручка': 2000000,
            'Необходимое финансирование': 5000000,
            'Локация': 'Казань',
            'Лет на рынке': 3,
            'Размер команды': 25,
            'Инновационный фокус': 'Технологии блокчейна',
            'Описание': 'Стартап предоставляет образовательную платформу с защитой данных на блокчейне.',
            'История участия': [] 
        },
        {
            'ID стартапа': 'S-4',
            'Стадия стартапа': 'Расширение',
            'Отрасль': 'Финансовые технологии',
            'Выручка': 7500000,
            'Необходимое финансирование': 3000000,
            'Локация': 'Екатеринбург',
            'Лет на рынке': 5,
            'Размер команды': 50,
            'Инновационный фокус': 'IoT-решения',
            'Описание': 'Стартап разрабатывает IoT-решения для автоматизации банковских операций.',
            'История участия': []  
        },
        {
            'ID стартапа': 'S-5',
            'Стадия стартапа': 'Зрелая компания',
            'Отрасль': 'Розничная торговля',
            'Выручка': 10000000,
            'Необходимое финансирование': 1000000,
            'Локация': 'Новосибирск',
            'Лет на рынке': 7,
            'Размер команды': 100,
            'Инновационный фокус': 'Экологическая устойчивость',
            'Описание': 'Стартап разрабатывает устойчивые решения для логистики в ритейле.',
            'История участия': [] 
        }
    ]

    return pd.DataFrame(startups)

In [9]:
startups = create_mock_startups()

In [10]:

def generate_startup_embeddings(startups_df, embedding_model):
    """
    Генерирует эмбеддинги для данных стартапов.

    Args:
        startups_df (pd.DataFrame): DataFrame с данными стартапов.
        embedding_model: Модель SentenceTransformer для генерации эмбеддингов.

    Returns:
        np.ndarray: Эмбеддинги размерности (n_samples, embedding_dim).
    """
    startups_df['CombinedText'] = startups_df.apply(
        lambda row: f"Стадия: {row['Стадия стартапа']}. Отрасль: {row['Отрасль']}. "
                    f"Инновационный фокус: {row['Инновационный фокус']}. "
                    f"Описание: {row['Описание']}.",
        axis=1
    )

    print("Генерация эмбеддингов для стартапов...")
    embeddings = embedding_model.encode(startups_df['CombinedText'].tolist(), show_progress_bar=True)

    return embeddings


In [11]:
embedding_model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
embeddings = generate_startup_embeddings(startups, embedding_model)
startups['Embeddings'] = embeddings.tolist()

Генерация эмбеддингов для стартапов...


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

In [12]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

def map_startups_to_clusters(startups_df, cluster_centers_df):
    """
    Сопоставляет стартапы с ближайшими кластерами на основе косинусного сходства.

    Args:
        startups_df (pd.DataFrame): DataFrame со стартапами и их эмбеддингами.
        cluster_centers_df (pd.DataFrame): DataFrame с центрами кластеров.

    Returns:
        pd.DataFrame: DataFrame с добавленным столбцом ближайшего кластера.
    """
    cluster_centers = cluster_centers_df.values  
    cluster_names = cluster_centers_df.index.tolist()  
    closest_clusters = []

    for idx, row in startups_df.iterrows():
        startup_embedding = np.array(row['Embeddings'])
        
        similarities = cosine_similarity(
            startup_embedding.reshape(1, -1),
            cluster_centers
        )[0]
        
        closest_cluster_idx = np.argmax(similarities)
        closest_cluster_name = cluster_names[closest_cluster_idx]
        
        closest_clusters.append(closest_cluster_name)

    startups_df['Closest Cluster'] = closest_clusters

    return startups_df


print("Сопоставляем стартапы с ближайшими кластерами...")
startups_df_with_clusters = map_startups_to_clusters(startups, cluster_centers_df)

print("Пример стартапов с ближайшими кластерами:")
display(startups_df_with_clusters[['ID стартапа', 'Closest Cluster']])


Сопоставляем стартапы с ближайшими кластерами...
Пример стартапов с ближайшими кластерами:


Unnamed: 0,ID стартапа,Closest Cluster
0,S-1,Cluster_18
1,S-2,Cluster_17
2,S-3,Cluster_18
3,S-4,Cluster_18
4,S-5,Cluster_17


In [14]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

def find_top_clusters_and_grants(startups_df_with_clusters, cluster_centers_df, grant_embeddings, grants_df, top_n_clusters=5, top_n_grants=5):
    """
    Находит 5 ближайших кластеров для каждого стартапа и выбирает от 1 до 5 самых близких грантов из каждого кластера.

    Args:
        startups_df_with_clusters (pd.DataFrame): DataFrame стартапов с колонкой `Closest Cluster`.
        cluster_centers_df (pd.DataFrame): DataFrame с центрами кластеров.
        grant_embeddings (np.ndarray): Эмбеддинги грантов.
        grants_df (pd.DataFrame): DataFrame с данными грантов.
        top_n_clusters (int): Число ближайших кластеров для выбора.
        top_n_grants (int): Число ближайших грантов из каждого кластера.

    Returns:
        dict: Словарь с ID стартапов и списком ближайших грантов для каждого.
    """
    cluster_centers = cluster_centers_df.values
    results = {}

    for _, startup in startups_df_with_clusters.iterrows():
        startup_id = startup['ID стартапа']
        startup_embedding = np.array(startup['Embeddings'])

        cluster_similarities = cosine_similarity(
            startup_embedding.reshape(1, -1),
            cluster_centers
        )[0]
        
        top_clusters_indices = np.argsort(cluster_similarities)[-top_n_clusters:][::-1]

        selected_grants = []
        for cluster_idx in top_clusters_indices:
            cluster_grant_indices = np.where(grants_df['Cluster'] == cluster_idx)[0]
            if len(cluster_grant_indices) == 0:
                print(f"Нет грантов в кластере {cluster_idx}. Пропускаем.")
                continue

            cluster_grant_embeddings = grant_embeddings[cluster_grant_indices]

            grant_similarities = cosine_similarity(
                startup_embedding.reshape(1, -1),
                cluster_grant_embeddings
            )[0]

            top_grant_indices = np.argsort(grant_similarities)[-top_n_grants:][::-1]
            selected_grants.extend([grants_df.iloc[idx] for idx in cluster_grant_indices[top_grant_indices]])

        results[startup_id] = selected_grants

    return results


print("Сопоставляем стартапы с ближайшими кластерами...")
startups_df_with_clusters = map_startups_to_clusters(startups, cluster_centers_df)

print("Пример стартапов с ближайшими кластерами:")
display(startups_df_with_clusters[['ID стартапа', 'Closest Cluster']])

print("Находим 5 ближайших кластеров и грантов...")
grant_recommendations = find_top_clusters_and_grants(
    startups_df_with_clusters=startups_df_with_clusters,
    cluster_centers_df=cluster_centers_df,
    grant_embeddings=np.array(results['Embeddings'].tolist()),
    grants_df=results,
    top_n_clusters=5,
    top_n_grants=5
)

for startup_id, grants in grant_recommendations.items():
    print(f"Startup {startup_id}:")
    for grant in grants:
        print(f"  - Grant: {grant['title']}")
    print("-" * 50)


Сопоставляем стартапы с ближайшими кластерами...
Пример стартапов с ближайшими кластерами:


Unnamed: 0,ID стартапа,Closest Cluster
0,S-1,Cluster_18
1,S-2,Cluster_17
2,S-3,Cluster_18
3,S-4,Cluster_18
4,S-5,Cluster_17


Находим 5 ближайших кластеров и грантов...
Startup S-1:
  - Grant: title    Кластерная инвестиционная платформа (КИП)
title    Кластерная инвестиционная платформа (КИП)
Name: 12, dtype: object
  - Grant: title    Программа ФРП "Формирование компонентной и рес...
title    Программа ФРП "Формирование компонентной и рес...
Name: 7, dtype: object
  - Grant: title    Реестр технопарков в сфере высоких технологий ...
title    Реестр технопарков в сфере высоких технологий ...
Name: 16, dtype: object
  - Grant: title    Программа ФРП "Комплектующие изделия"
title    Программа ФРП "Комплектующие изделия"
Name: 2, dtype: object
  - Grant: title    Совместные займы ФРП с РФРП по программе "Комп...
title    Совместные займы ФРП с РФРП по программе "Комп...
Name: 4, dtype: object
  - Grant: title    Специальный инвестиционный контракт (СПИК 2.0)
title    Специальный инвестиционный контракт (СПИК 2.0)
Name: 0, dtype: object
  - Grant: title    Реестр индустриальных (промышленных) парков и ...
title 