## arXiv

arXiv是一个由康奈尔大学维护的在线预印本论文存储库，它提供了物理、数学、计算机科学、定量生物学、定量金融学和统计学的开放获取服务。arXiv成立于1991年，最初是由物理学家保罗·金斯帕格（Paul Ginsparg）创建，目的是为了提供一个电子化的方式供物理学家共享研究成果。随着时间的推移，它逐渐扩展到其他学科。
### arXiv的特点和功能
1. **预印本平台**：arXiv允许科研人员在将论文提交给学术期刊发表之前，先行发布其研究成果。这样做的目的是为了加快科学知识的传播。
2. **开放获取**：所有在arXiv上发表的论文都可以免费获取，这有助于全球的研究人员、学者和学生获取最新的科学进展。
3. **同行评审**：虽然arXiv上的论文未经正式的同行评审，但它们通常会在提交前由arXiv的志愿者或编委会进行审核，以确保论文的基本质量和主题相关性。
4. **分类和标签**：论文按照学科分类，并且可以使用关键词进行检索，便于用户找到自己感兴趣的研究领域。
5. **版本控制**：作者可以上传论文的新版本，更新研究成果或回应同行评审的反馈。每个版本都会被记录，确保了研究过程的透明性。
6. **引用和统计**：arXiv提供论文的引用次数和下载次数，这可以作为衡量论文影响力的一个指标。
### 如何使用arXiv
1. **浏览和搜索**：用户可以直接在arXiv网站上浏览最新上传的论文，或者使用搜索功能查找特定主题的论文。
2. **订阅和通知**：用户可以订阅特定主题或作者的更新，当有新的论文上传时，arXiv会通过电子邮件通知订阅者。
3. **提交论文**：研究人员可以通过arXiv网站提交自己的论文。提交前需要注册账号，并遵守arXiv的提交指南。
4. **评论和讨论**：虽然arXiv本身不提供评论功能，但有些第三方平台允许用户对arXiv上的论文进行评论和讨论。
### arXiv在中国的影响
在中国，arXiv同样被广泛使用，它为国内外的科研人员提供了一个宝贵的信息共享平台。中国的科研机构和大学鼓励研究人员使用arXiv来展示他们的研究成果，以促进国际合作和学术交流。同时，中国的科研人员也通过arXiv获取全球科学研究的最新进展。
arXiv对全球科学研究的开放性和可获取性作出了重要贡献，符合全球科学共同体共同推动科学知识传播和学术交流的愿景。


### 接入本地部署的Qwen-2.5-32B-AGI大模型

In [2]:
from langchain_openai import ChatOpenAI
import os

api_key = os.getenv("LOCAL_API_KEY")
base_url = os.getenv("LOCAL_API_BASE")

llm = ChatOpenAI(api_key=api_key, base_url=base_url, temperature=0.1, max_tokens=4096)

### 导入arxiv工具

pip install arxiv

In [4]:
from langchain_community.utilities import ArxivAPIWrapper

arxiv = ArxivAPIWrapper()

arxiv.run("2412.14451")

"Published: 2024-12-19\nTitle: CLDG: Contrastive Learning on Dynamic Graphs\nAuthors: Yiming Xu, Bin Shi, Teng Ma, Bo Dong, Haoyi Zhou, Qinghua Zheng\nSummary: The graph with complex annotations is the most potent data type, whose\nconstantly evolving motivates further exploration of the unsupervised dynamic\ngraph representation. One of the representative paradigms is graph contrastive\nlearning. It constructs self-supervised signals by maximizing the mutual\ninformation between the statistic graph's augmentation views. However, the\nsemantics and labels may change within the augmentation process, causing a\nsignificant performance drop in downstream tasks. This drawback becomes greatly\nmagnified on dynamic graphs. To address this problem, we designed a simple yet\neffective framework named CLDG. Firstly, we elaborate that dynamic graphs have\ntemporal translation invariance at different levels. Then, we proposed a\nsampling layer to extract the temporally-persistent signals. It will

In [5]:
arxiv.run("sora")

'Published: 2024-05-30\nTitle: Analysing the Public Discourse around OpenAI\'s Text-To-Video Model \'Sora\' using Topic Modeling\nAuthors: Vatsal Vinay Parikh\nSummary: The recent introduction of OpenAI\'s text-to-video model Sora has sparked\nwidespread public discourse across online communities. This study aims to\nuncover the dominant themes and narratives surrounding Sora by conducting topic\nmodeling analysis on a corpus of 1,827 Reddit comments from five relevant\nsubreddits (r/OpenAI, r/technology, r/singularity, r/vfx, and r/ChatGPT). The\ncomments were collected over a two-month period following Sora\'s announcement\nin February 2024. After preprocessing the data, Latent Dirichlet Allocation\n(LDA) was employed to extract four key topics: 1) AI Impact and Trends in Sora\nDiscussions, 2) Public Opinion and Concerns about Sora, 3) Artistic Expression\nand Video Creation with Sora, and 4) Sora\'s Applications in Media and\nEntertainment. Visualizations including word clouds, bar 

In [7]:
import arxiv

search = arxiv.Search(
    query="sora",
    max_results=5,
    sort_by=arxiv.SortCriterion.Relevance
)


search

arxiv.Search(query='sora', id_list=[], max_results=5, sort_by=<SortCriterion.Relevance: 'relevance'>, sort_order=<SortOrder.Descending: 'descending'>)

In [8]:
client = arxiv.Client()

results = client.results(search)

results

<itertools.islice at 0x125fd0900>

In [9]:
papers = []

for item in results:
    papers.append(item)
    print(item)

http://arxiv.org/abs/2407.13071v1
http://arxiv.org/abs/2406.11859v1
http://arxiv.org/abs/2302.04027v3
http://arxiv.org/abs/2303.02053v1
http://arxiv.org/abs/2405.10674v1


In [10]:
htmlUrls = []

for item in papers:
    url = item.entry_id.replace('abs', 'html')
    htmlUrls.append(url)

htmlUrls


['http://arxiv.org/html/2407.13071v1',
 'http://arxiv.org/html/2406.11859v1',
 'http://arxiv.org/html/2302.04027v3',
 'http://arxiv.org/html/2303.02053v1',
 'http://arxiv.org/html/2405.10674v1']

In [11]:
import urllib.parse

url = "http://arxiv.org/html/2407.13071v1"

url_parse = urllib.parse.urlsplit(url)

path = url_parse.path

filename = path.split('/')[-1]

filename


'2407.13071v1'

In [13]:
from langchain_community.document_loaders import ArxivLoader

docs = ArxivLoader(query=filename, load_max_docs=5).load()
docs

[Document(metadata={'Published': '2024-05-30', 'Title': "Analysing the Public Discourse around OpenAI's Text-To-Video Model 'Sora' using Topic Modeling", 'Authors': 'Vatsal Vinay Parikh', 'Summary': "The recent introduction of OpenAI's text-to-video model Sora has sparked\nwidespread public discourse across online communities. This study aims to\nuncover the dominant themes and narratives surrounding Sora by conducting topic\nmodeling analysis on a corpus of 1,827 Reddit comments from five relevant\nsubreddits (r/OpenAI, r/technology, r/singularity, r/vfx, and r/ChatGPT). The\ncomments were collected over a two-month period following Sora's announcement\nin February 2024. After preprocessing the data, Latent Dirichlet Allocation\n(LDA) was employed to extract four key topics: 1) AI Impact and Trends in Sora\nDiscussions, 2) Public Opinion and Concerns about Sora, 3) Artistic Expression\nand Video Creation with Sora, and 4) Sora's Applications in Media and\nEntertainment. Visualizations

In [16]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate


prompt = ChatPromptTemplate.from_template("{artical}\n\n请用中文详细讲解上面这篇文章的内容，并将要点提炼出来。")

chain = prompt | llm | StrOutputParser()

for chunk in chain.stream({'artical': docs[0].page_content}):
    print(chunk, end='', flush=True)

这篇文章分析了Reddit社区中关于OpenAI的最新文本到视频模型Sora的公共讨论，使用主题建模技术来识别主要话题和主题。

### 研究背景与目的

- **研究背景**：随着生成式人工智能（gen AI）模型的快速发展，引发了广泛的公众讨论。最近的一个发展是OpenAI发布的文本到视频模型Sora，它能够根据文本提示生成动态且逼真的视频片段。
- **研究目的**：通过分析Reddit上的评论数据来识别关于Sora的主要话题和主题，以了解公众对这一新技术的看法、兴奋点以及社会和伦理方面的担忧。

### 研究问题

- 主要问题是：Reddit社区中用户讨论OpenAI的最新文本到视频模型Sora时涉及的主要话题是什么？

### 方法论

#### 数据收集
- **数据来源**：从五个活跃的Reddit子版块（r/OpenAI、r/technology、r/singularity、r/vfx和r/ChatGPT）中提取了关于Sora的评论。
- **时间范围**：2024年2月1日至2024年4月1日，共收集了2,000条评论。

#### 数据预处理
- 将文本转换为小写，并移除非字母数字字符、URL和特定词汇（如“http”、“www”和“com”）。
- 使用NLTK库进行词形还原，去除停用词并生成Pandas数据框。

### 分析方法

- **特征提取**：使用TF-IDF技术评估单词在文档中的重要性，并为LDA模型确定最佳主题数量（k=4）。
- **可视化和解释**：通过词云、条形图以及t-SNE降维技术和pyLDAvis进行交互式可视化。

### 结果

#### 主题识别
1. **AI影响与趋势讨论**
   - 关键词包括“ai”、“human”、“future”和“job”，涉及Sora对就业和行业的潜在影响。
2. **公众意见与担忧**
   - 讨论了公众的看法、情感以及伦理考虑，关键词如“people”、“think”、“artist”和“video”。
3. **艺术表达与视频创作**
   - 关键词包括“art”、“video”、“creative”和“artist”，反映了使用Sora进行创意应用的兴奋点。
4. **媒体娱乐中的应用**
   - 讨论了Sora在各种媒体和娱乐行业中的潜在用途，关键词如“mo