In [90]:
import math
import requests
import feedparser
import nltk
from nltk.tokenize import word_tokenize
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer
import openai
from spellchecker import SpellChecker

nltk.download('punkt_tab')
PROXY_API_KEY = "$$"

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Timur\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


### 1. Извлечение публикаций с arXiv
Функция fetch_arxiv делает запрос к arXiv API по заданной теме и возвращает список публикаций с заголовками, авторами и аннотациями

In [92]:
def fetch_arxiv(query, max_results=250):
    base_url = "http://export.arxiv.org/api/query?"
    params = {
        "search_query": f"all:{query}",
        "start": 0,
        "max_results": max_results,
        "sortBy": "submittedDate",
        "sortOrder": "descending"
    }

    response = requests.get(base_url, params=params)
    feed = feedparser.parse(response.text)
    publications = []

    for entry in feed.entries:
        pub = {
            "title": entry.title.strip(),
            "authors": [author.name for author in entry.authors],
            "summary": entry.summary.strip()
        }
        publications.append(pub)

    return publications

query = "machine learning"
publications = fetch_arxiv(query, max_results=1000)
print(f"Получено {len(publications)} публикаций")

Получено 1000 публикаций


### 2. Разбиение аннотаций на чанки
Функция chunk_text делит текст аннотаций на чанки по заданному количеству слов с параметризованным перекрытием

In [93]:
def find_average_summary_len():
    words_summary = 0

    for pub in publications:
        words_summary += len(word_tokenize(pub["summary"]))

    print(f"Среднее количество слов в аннотации публикации: {math.floor(words_summary/len(publications))}\nВсего публикаций: {len(publications)}")

find_average_summary_len()

Среднее количество слов в аннотации публикации: 203
Всего публикаций: 1000


In [94]:
def chunk_text(text, chunk_size=500, overlap=50):
    words = word_tokenize(text)
    chunks = []
    start = 0

    while start < len(words):
        chunk = words[start:start+chunk_size]
        chunks.append(" ".join(chunk))
        start += (chunk_size - overlap)

    return chunks

corpus_chunks = []

for pub in publications:
    chunks = chunk_text(pub["summary"], chunk_size=100, overlap=25)
    corpus_chunks.extend(chunks)

print(f"Общее количество чанков: {len(corpus_chunks)}")

Общее количество чанков: 3197


### 3. Векторизация текста и построение FAISS индекса
Используем модель 'all-MiniLM-L6-v2' для получения эмбеддингов и создаем FAISS индекс для быстрого поиска

In [95]:
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')

def build_faiss_index(chunks, model):
    embeddings = model.encode(chunks)
    embeddings_np = np.array(embeddings).astype("float32")
    dimension = embeddings_np.shape[1]
    index = faiss.IndexFlatL2(dimension)
    index.add(embeddings_np)

    return index, embeddings_np

index, embeddings_np = build_faiss_index(corpus_chunks, embedding_model)
print(f"Построен FAISS индекс с {index.ntotal} векторами")

Построен FAISS индекс с 3197 векторами


### 4. Интеграция с LLM для извлечения ключевых идей
Настраиваем связь с LLM через Proxy API. Функция extract_key_ideas получает ключевые идеи из текста

In [119]:
client = openai.Client(
    api_key=PROXY_API_KEY,
    base_url="https://api.proxyapi.ru/openai/v1",
)

def isNullOrWhiteSpace(str=None):
    return not str or str.isspace()

def extract_key_ideas(text, query="", model_name="gpt-4o"):
    if len(query) > 0 and not(isNullOrWhiteSpace(query)):
        prompt = f"Используя данный тебе текст и пользовательский запрос, извлеки из текста ключевые идеи и основные результаты (по пунктам). Затем, опираясь на этот текст, дай ответ на запрос пользователя (в отдельном абзаце). Если запрос некорректный, то ответ на него пропусти, не предупреждая об этом. На русском языке. Запрос: {query}\nТекст:\n\n{text}"
    else:
        prompt = f"Используя данный тебе текст, извлеки из него ключевые идеи и основные результаты (по пунктам, на русском языке):\n\n{text}"

    chat_completion = client.chat.completions.create(
        messages=[
            {
                "role": "user",
                "content": prompt,
            }
        ],
        model=model_name,
    )
    return chat_completion.choices[0].message.content

sample_chunk_index = 0
sample_chunk = corpus_chunks[sample_chunk_index]
key_ideas_sample = extract_key_ideas(sample_chunk)

print(key_ideas_sample)

1. Разработан масштабный закон взаимной информации для двудольных графов в контексте естественного языка, который описывает дальнобойные зависимости.
2. Доказано, что этот масштабный закон отличается от традиционной взаимной информации для двух точек и масштабируется независимо от неё.
3. Этот закон является ключом к пониманию моделирования языка с длинным контекстом.
4. На основе данного масштабного закона сформулировано условие моделирования языка с длинным контекстом (L²M), которое связывает способность модели эффективно работать с длинным контекстом с масштабом размера её скрытых состояний для хранения информации о прошлом.
5. Результаты были подтверждены экспериментами на трансформерных моделях.


### 5. Поиск по корпусу с обработкой опечаток
Используем библиотеку SpellChecker для автоматической коррекции опечаток в запросе.
Функция search_corpus корректирует запрос, векторизует его и ищет топ-k ближайших чанков в FAISS индексе

In [120]:
spell = SpellChecker()

def correct_query(query):
    tokens = word_tokenize(query)
    corrected_tokens = []

    for token in tokens:
        if token.isalpha():
            corrected = spell.correction(token)
            corrected_tokens.append(corrected)
        else:
            corrected_tokens.append(token)

    corrected_query = " ".join(corrected_tokens)

    return corrected_query

def search_corpus(query, index, corpus_chunks, model, k=5):
    query_corrected = correct_query(query)
    print(f"Запрос пользователя: {query_corrected}\n")

    query_embedding = model.encode([query_corrected]).astype("float32")
    distances, indices = index.search(query_embedding, k)
    results = [corpus_chunks[i] for i in indices[0] if i < len(corpus_chunks)]

    return results

# user_query = input()
user_query = "is mashine learninn the technkligy of the futyre?"

relevant_chunks = search_corpus(user_query, index, corpus_chunks, embedding_model, k=5)
combined_text = "\n\n".join(relevant_chunks)
key_ideas_result = extract_key_ideas(combined_text, correct_query(user_query))

print(key_ideas_result)

Запрос пользователя: is machine learning the technology of the future ?

Ключевые идеи и основные результаты:

1. Возрастающее количество соединений в Интернете вещей (IoT) способствует формированию "интеллектуальных предприятий", которые используют модели, основанные на машинном обучении, для извлечения полезной информации из данных.
2. Проблемы эффективности и конфиденциальности в традиционных моделях машинного обучения привели к возникновению парадигмы федеративного обучения (FL), которая позволяет нескольким предприятиям совместно обучать модель.
3. Модели, обученные с помощью FL, обычно демонстрируют худшую производительность по сравнению с централизованными моделями, особенно когда данные обучения предприятий не являются независимыми и идентично распределенными.
4. В статье представлен обзор приложений моделей-основ в науке об окружающей среде, включая предсказание, генерацию данных, ассимиляцию данных, даунскейлинг, ансамблирование моделей и принятие решений.
5. Описан процесс р