1. Сбор данных с arXiv (250 публикаций)

In [4]:
import requests
import feedparser

def fetch_arxiv(query, max_results=250):
    base_url = "http://export.arxiv.org/api/query?"
    params = {
        "search_query": f"all:{query}",
        "start": 0,
        "max_results": max_results,
        "sortBy": "submittedDate",
        "sortOrder": "descending"
    }

    response = requests.get(base_url, params=params)
    feed = feedparser.parse(response.text)
    publications = []

    for entry in feed.entries:
        pub = {
            "title": entry.title.strip(),
            "authors": [author.name for author in entry.authors],
            "summary": entry.summary.strip()
        }
        publications.append(pub)

    return publications

query = "machine learning"
publications = fetch_arxiv(query, max_results=250)
print(f"Получено {len(publications)} публикаций")

Получено 250 публикаций


2. Выделение ключевых слов для каждой публикации. Используем TF‑IDF, чтобы для каждой публикации (на основе объединённого заголовка и аннотации) выбрать топ‑N слов

In [122]:
from sklearn.feature_extraction.text import TfidfVectorizer
import re
import numpy as np

def extract_keywords_from_text(text, top_n=5):
    text_clean = re.sub(r"[^\w\s]", "", text.lower())
    vectorizer = TfidfVectorizer(stop_words="english")
    tfidf_matrix = vectorizer.fit_transform([text_clean])
    feature_names = vectorizer.get_feature_names_out()
    scores = tfidf_matrix.toarray()[0]

    if len(scores) == 0:
        return []

    top_indices = np.argsort(scores)[-top_n:][::-1]
    keywords = [feature_names[i] for i in top_indices]

    return keywords

def add_keywords_to_publications(publications, top_n=5):
    for pub in publications:
        combined_text = pub["title"] + ". " + pub["summary"]
        pub["keywords"] = extract_keywords_from_text(combined_text, top_n=top_n)

    return publications

publications = add_keywords_to_publications(publications, top_n=5)

for pub_i in range(10):
    print("Ключевые слова первой публикации:", publications[pub_i]["keywords"])

Ключевые слова первой публикации: ['distribution', 'using', 'generation', 'score', 'divergence']
Ключевые слова первой публикации: ['skill', 'shift', 'oss', 'space', 'longhorizon']
Ключевые слова первой публикации: ['visual', 'models', 'human', 'improve', 'cognition']
Ключевые слова первой публикации: ['knowledge', 'leke', 'fleke', 'locatethenedit', 'editing']
Ключевые слова первой публикации: ['theory', 'mind', 'autotom', 'bayesian', 'model']
Ключевые слова первой публикации: ['driving', 'video', 'model', 'vavim', 'vavam']
Ключевые слова первой публикации: ['design', 'curvature', 'target', 'surfaces', 'optimization']
Ключевые слова первой публикации: ['text', 'ai', 'content', 'aigenerated', 'using']
Ключевые слова первой публикации: ['set', 'learning', 'using', 'curriculum', 'curricula']
Ключевые слова первой публикации: ['ai', 'risks', 'human', 'agents', 'current']


3. Построение графа ключевых слов. Каждая публикация добавляет связь между всеми парами ключевых слов, встречающихся в ней

In [125]:
import networkx as nx

def build_keywords_graph(publications):
    G = nx.Graph()

    for pub in publications:
        keywords = pub.get("keywords", [])

        for kw in keywords:
            if kw not in G:
                G.add_node(kw)

        for i in range(len(keywords)):
            for j in range(i+1, len(keywords)):
                kw1, kw2 = keywords[i], keywords[j]

                if G.has_edge(kw1, kw2):
                    G[kw1][kw2]["weight"] += 1
                else:
                    G.add_edge(kw1, kw2, weight=1)

    return G

G_kw = build_keywords_graph(publications)

print("Узлов в графе ключевых слов:", G_kw.number_of_nodes())
print("Ребер в графе ключевых слов:", G_kw.number_of_edges())

Узлов в графе ключевых слов: 768
Ребер в графе ключевых слов: 2423


4. Кластеризация и оценка графа ключевых слов. Используем библиотеку louvain для выявления кластеров и вычисляем модулярность

In [126]:
import community.community_louvain as community_louvain

partition = community_louvain.best_partition(G_kw, weight='weight')
modularity = community_louvain.modularity(partition, G_kw, weight='weight')

print("Модулярность кластеризации ключевых слов:", modularity)

clusters = {}

for node, comm in partition.items():
    clusters.setdefault(comm, []).append(node)

for comm, nodes in clusters.items():
    print(f"Кластер {comm}: {nodes}")

Модулярность кластеризации ключевых слов: 0.66886464
Кластер 15: ['distribution', 'score', 'divergence', 'design', 'curvature', 'target', 'surfaces', 'optimization', 'inverse', 'active', 'tandem', 'kernel', 'random', 'laplacian', 'features', 'approximate', 'nonlinear', 'bregmankaczmarz', 'block', 'method', 'averaging', 'best', 'problems', 'contract', 'chip', 'eda', 'edaq', 'sufficient', 'noneuclidean', 'statistical', 'menu', 'items', 'hand', 'pretraining', 'similar', 'search', 'routing', 'solution', 'solar', 'flares', 'source', 'shape', 'level', 'pde', 'cal', 'error', 'queries', 'log']
Кластер 1: ['using', 'driving', 'vavim', 'vavam', 'set', 'learning', 'curriculum', 'curricula', 'rl', 'training', 'simulation', 'pipeline', 'stage', 'predictive', 'odes', 'simultaneous', 'ml', 'datadependent', 'bounds', 'prior', 'deep', 'sciml', 'machine', 'scientific', 'moma', 'material', 'modular', 'sheaf', 'applications', 'multihead', 'multitask', 'scenarios', 'times', 'hifikpi', 'taxonomy', 'financia

5. Анализ центральностей ключевых слов. Вычислим несколько мер центральности

In [127]:
degree_centrality = nx.degree_centrality(G_kw)
betweenness_centrality = nx.betweenness_centrality(G_kw, weight='weight')
eigenvector_centrality = nx.eigenvector_centrality(G_kw, max_iter=1000, weight='weight')
closeness_centrality = nx.closeness_centrality(G_kw)

top_degree = sorted(degree_centrality.items(), key=lambda x: x[1], reverse=True)[:5]
print("Топ-5 по degree centrality:", top_degree)

top_degree = sorted(betweenness_centrality.items(), key=lambda x: x[1], reverse=True)[:5]
print("Топ-5 по betweenness centrality:", top_degree)

top_degree = sorted(eigenvector_centrality.items(), key=lambda x: x[1], reverse=True)[:5]
print("Топ-5 по eigenvector centrality:", top_degree)

top_degree = sorted(closeness_centrality.items(), key=lambda x: x[1], reverse=True)[:5]
print("Топ-5 по closeness centrality:", top_degree)

Топ-5 по degree centrality: [('models', 0.15514993481095177), ('learning', 0.14863102998696218), ('model', 0.10039113428943937), ('data', 0.09778357235984354), ('llms', 0.06779661016949153)]
Топ-5 по betweenness centrality: [('learning', 0.2108364355015911), ('models', 0.18211161006425639), ('data', 0.13687021774542948), ('model', 0.10996175397076602), ('llms', 0.0754224193421871)]
Топ-5 по eigenvector centrality: [('models', 0.4275209451599416), ('learning', 0.38999307172073433), ('model', 0.3361483654063575), ('data', 0.22105962432174103), ('language', 0.176920679688001)]
Топ-5 по closeness centrality: [('learning', 0.4219755355441988), ('models', 0.4166179259635288), ('data', 0.4010978169637234), ('model', 0.4006314241533004), ('training', 0.3677086710478531)]


6. Построение графа публикаций. В графе публикаций узлы — это публикации, а ребро между двумя публикациями имеет вес, равный количеству общих ключевых слов

In [129]:
def build_publications_graph(publications):
    G_pub = nx.Graph()
    n = len(publications)

    for i, pub in enumerate(publications):
        G_pub.add_node(i, title=pub["title"], keywords=pub["keywords"])

    for i in range(n):
        for j in range(i+1, n):
            common = set(publications[i]["keywords"]).intersection(publications[j]["keywords"])
            if common:
                G_pub.add_edge(i, j, weight=len(common))

    return G_pub

G_pub = build_publications_graph(publications)
print("Узлов (публикаций) в графе:", G_pub.number_of_nodes())
print("Ребер (связей) в графе публикаций:", G_pub.number_of_edges())

Узлов (публикаций) в графе: 250
Ребер (связей) в графе публикаций: 2391


7. Поиск наиболее близких публикаций по графу. Реализуем функцию, которая по заданному индексу публикации находит её соседей, отсортированных по весу ребра

In [141]:
def find_similar_publications(G_pub, pub_index, top_n=5):
    if pub_index not in G_pub:
        return []

    neighbors = G_pub[pub_index]
    similar = sorted(neighbors.items(), key=lambda x: x[1]["weight"], reverse=True)

    return similar[:top_n]

pub_index = 22
pub_title = G_pub.nodes[pub_index].get("title", "undefined")
pub_keywords = G_pub.nodes[pub_index].get("keywords", [])

print(f"Публикация {pub_index}: {pub_title}")
print(f"Ключевые слова публикации {pub_index}: {pub_keywords}")

similar_pubs = find_similar_publications(G_pub, pub_index, top_n=5)
print(f"\nПохожие публикации для публикации {pub_index}:")

for neighbor, attr in similar_pubs:
    title = G_pub.nodes[neighbor].get("title", "undefined")
    print(f"Публикация {neighbor}: {title}, общих ключевых слов: {attr['weight']}")

Публикация 22: The Relationship Between Reasoning and Performance in Large Language
  Models -- o3 (mini) Thinks Harder, Not Longer
Ключевые слова публикации 22: ['reasoning', 'models', 'o3mini', 'accuracy', 'longer']

Похожие публикации для публикации 22:
Публикация 169: Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning,
  and Interpretability through Attention Maps, общих ключевых слов: 2
Публикация 174: Social Genome: Grounded Social Reasoning Abilities of Multimodal Models, общих ключевых слов: 2
Публикация 2: Testing the limits of fine-tuning to improve reasoning in vision
  language models, общих ключевых слов: 1
Публикация 15: Predicting gene essentiality and drug response from perturbation screens
  in preclinical cancer models with LEAP: Layered Ensemble of Autoencoders and
  Predictors, общих ключевых слов: 1
Публикация 19: Mantis: Lightweight Calibrated Foundation Model for User-Friendly Time
  Series Classification, общих ключевых слов: 1


8. Интерпретация результатов анализа:
- В графе ключевых слов 768 узлов и 2423 ребра, что указывает на достаточно богатую сеть взаимосвязанных терминов
- Топовые узлы по центральностям (например, «models», «learning», «model», «data», «llms») свидетельствуют о том, что эти термины являются ядром обсуждения в выбранной тематике и связующим звеном между различными кластерами
- Модулярность ~0.6689 говорит о том, что граф ключевых слов хорошо разделён на кластеры: внутри каждого кластера связи существенно плотнее, чем между кластерами. Это означает, что существует выраженная тематическая сегментация (например, один кластер может быть связан с методами обучения, другой – с обработкой данных)
- 250 узлов и 2391 ребро в графе публикаций указывают на то, что публикации тесно связаны через общие ключевые слова, что подтверждает высокую степень тематической взаимосвязи в выбранной области