### Setting

In [1]:
import os
import sys
from dotenv import load_dotenv
load_dotenv()
WORK_DIR = os.environ.get("WORK_DIR")
print(WORK_DIR)

sys.path.append(WORK_DIR)

/PaperSurvey


### Load PDF

In [2]:
import pymupdf4llm 

pdf_file = "/PaperSurvey/docs/prototype/Learning Community Embedding with Community Detection and Node Embedding on Graphs.pdf"
md_text = pymupdf4llm.to_markdown(pdf_file)

print(md_text)

Processing /PaperSurvey/docs/prototype/Learning Community Embedding with Community Detection and Node Embedding on Graphs.pdf...
# Learning Community Embedding with Community Detection and Node Embedding on Graphs


## Sandro Cavallari
#### Nanyang Technological University Singapore sandro001@e.ntu.edu.sg


## Vincent W. Zheng
#### Advanced Digital Sciences Center Singapore vincent.zheng@adsc.com.sg


## Hongyun Cai
#### Advanced Digital Sciences Center Singapore hongyun.c@adsc.com.sg


## Kevin Chen-Chuan Chang
#### University of Illinois at Urbana-Champaign IL, USA kcchang@illinois.edu

### ABSTRACT

In this paper, we study an important yet largely under-explored
setting of graph embedding, i.e., embedding communities instead
of each individual nodes. We find that community embedding is
not only useful for community-level applications such as graph
visualization, but also beneficial to both community detection and
node classification. To learn such embedding, our insight hinges
upon 

### LLM

In [None]:
from openai import OpenAI
import time

debug: bool = False
prompt_path = "/PaperSurvey/prompts/v1.txt"
client = OpenAI()

with open(prompt_path, encoding="UTF-8") as f:
    prompt = f.read()

prompt = prompt.replace("<<INPUT>>", md_text)

if debug:
    print(prompt)
    time.sleep(20)

response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
    {
        "role": "user",
        "content": prompt,
    }
    ],
    temperature=0,
    max_tokens=10000,
    top_p=0,
    frequency_penalty=None,
    presence_penalty=0.1,
)

In [8]:
print(response.choices[0].message.content)

```output.md

# abstract
この論文では、グラフ埋め込みの重要でありながらほとんど未開拓の設定である、個々のノードではなくコミュニティを埋め込むことを研究しています。コミュニティ埋め込みは、グラフの視覚化などのコミュニティレベルのアプリケーションに有用であるだけでなく、コミュニティ検出やノード分類にも有益です。この埋め込みを学習するために、コミュニティ埋め込み、コミュニティ検出、ノード埋め込みの間に閉ループが存在するという洞察に基づいています。提案するフレームワークは、これら3つのタスクを同時に解決します。

# 解決する課題
## 既存研究の流れ（関連研究）
従来のグラフ埋め込みは、個々のノードに焦点を当て、グラフ上で「近い」ノードが低次元空間で類似したベクトル表現を持つことを目指していました。しかし、コミュニティ全体を埋め込むことはあまり研究されていませんでした。

## この研究が解決する課題・どう解決するのか
解決する課題1: コミュニティ埋め込みの有用性を示す
　→ コミュニティ埋め込みがグラフ視覚化やコミュニティ検出、ノード分類に有益であることを示す。
解決する課題2: コミュニティ検出とノード埋め込みの相互作用を最適化
　→ コミュニティ埋め込みを用いてノード埋め込みを最適化し、コミュニティ検出を改善する。
解決する課題3: 効率的なコミュニティ埋め込みフレームワークの提案
　→ コミュニティ検出、コミュニティ埋め込み、ノード埋め込みを同時に解決するフレームワークを提案。

# 提案手法
## 提案手法の直感的な説明
コミュニティ埋め込みを多変量ガウス分布として定義し、ノード埋め込み結果からコミュニティ検出を強化するためにガウス混合モデルを使用します。

## 提案手法詳細
提案手法「ComE」は、コミュニティ検出、コミュニティ埋め込み、ノード埋め込みを同時に解決するフレームワークです。コミュニティ埋め込みを多変量ガウス分布として定義し、ノード埋め込み結果からコミュニティ検出を強化します。計算の複雑さはグラフサイズに対して線形です。

# 実験
## 実験設定
5つの公開グラフデータセットを使用し、グラフ視覚化、コミュニティ検出、ノード分類の3つの評価タスクを設計しました。

## 実験結果
ComEは、グラフ視覚化、コミュニティ

In [7]:
response.usage

CompletionUsage(completion_tokens=944, prompt_tokens=19449, total_tokens=20393, completion_tokens_details=CompletionTokensDetails(accepted_prediction_tokens=0, audio_tokens=0, reasoning_tokens=0, rejected_prediction_tokens=0), prompt_tokens_details=PromptTokensDetails(audio_tokens=0, cached_tokens=0))

In [9]:
client = OpenAI()

with open(prompt_path, encoding="UTF-8") as f:
    prompt = f.read()

prompt = prompt.replace("<<INPUT>>", md_text)

response1 = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
    {
        "role": "user",
        "content": prompt,
    }
    ],
    temperature=0,
    max_tokens=10000,
    top_p=0,
    frequency_penalty=None,
    presence_penalty=0.1,
)

In [13]:
response1.choices[0].message.content

'``` output.md\n\n# abstract\n本論文では、グラフ埋め込みの重要な設定である「コミュニティ埋め込み」に焦点を当て、個々のノードではなくコミュニティを埋め込むことの有用性を探求しています。コミュニティ埋め込みは、グラフの可視化やコミュニティ検出、ノード分類においても有益であることが示されています。著者たちは、コミュニティ埋め込み、コミュニティ検出、ノード埋め込みの間の閉じたループに基づいて、これらのタスクを共同で解決する新しいフレームワーク「ComE」を提案しています。このフレームワークは、複数の実世界のデータセットで評価され、グラフの可視化を改善し、コミュニティ検出やノード分類のさまざまなアプリケーションタスクにおいて最先端のベースラインを上回る結果を示しました。\n\n# 解決する課題\n## 既存研究の流れ（関連研究）\n- 伝統的なグラフ埋め込みは個々のノードに焦点を当てており、ノードのベクトル表現を生成することを目的としている。\n- 既存の手法は、ノード埋め込みやコミュニティ検出を独立して行うため、最適な結果を得ることが難しい。\n\n## この研究が解決する課題・どう解決するのか\n解決する課題1: コミュニティ埋め込みの重要性\n\u3000→ コミュニティ埋め込みは、コミュニティの可視化やノード分類において有益であることを示す。\n\n解決する課題2: コミュニティ検出とノード埋め込みの相互作用\n\u3000→ コミュニティ埋め込み、コミュニティ検出、ノード埋め込みの間の閉じたループを利用して、相互に最適化を行う。\n\n解決する課題3: 効率的なアルゴリズムの提案\n\u3000→ O(|V| + |E|)の計算量で動作するスケーラブルな推論アルゴリズムを開発。\n\n# 提案手法\n## 提案手法の直感的な説明\n提案手法「ComE」は、コミュニティ埋め込み、コミュニティ検出、ノード埋め込みを共同で最適化するフレームワークであり、これにより各タスクが相互に強化される。\n\n## 提案手法詳細\n- コミュニティ埋め込みを多変量ガウス分布として定義し、ノード埋め込み結果からコミュニティを検出するためのガウス混合モデルを使用。\n- ノード埋め込みは、第一、第二、高次の近接性を考慮して拡張される。\n- 提案手法は、ノ

In [12]:
response.usage

CompletionUsage(completion_tokens=944, prompt_tokens=19449, total_tokens=20393, completion_tokens_details=CompletionTokensDetails(accepted_prediction_tokens=0, audio_tokens=0, reasoning_tokens=0, rejected_prediction_tokens=0), prompt_tokens_details=PromptTokensDetails(audio_tokens=0, cached_tokens=0))