Skip to content

caojiaolong/spaces-index

Repository files navigation

科学空间文章索引

本项目自动抓取并索引 科学空间 的文章元数据,按研究主题进行规则分类,方便在 GitHub 上快速浏览并跳转到原文。

为什么做这个索引

苏剑林老师在科学空间积累了大量高质量文章,主题横跨大模型、生成模型、优化、数学、NLP、工程实践和科普随笔。网上也有不少人工整理帖,例如 这类知乎整理,但人工清单常见的问题是:刚发布时很好用,时间一长就容易停止更新,新文章、系列续篇和分类调整很难持续同步。

这个仓库的目标是把科学空间的所有文章做成一个持续更新的元数据索引:不复制全文,只保存标题、日期、原文链接、原站分类、标签、自动主题和系列信息,并通过 GitHub Actions 定时更新。这样读者可以直接按主题或系列查找文章,跳转回原站阅读,也不用担心索引长期失修。

  • 最近更新日期:2026-06-08(按归档中最新文章日期)
  • 文章总数:1318
  • 版权说明:本项目保存标题、链接、日期、分类、标签、自动主题、系列信息和少量小结短摘录,不镜像、复制或保存文章全文。

目录

注:系列文章会统一归入该系列的众数主题;非系列文章仍可能属于多个主题,因此目录中的主题数量之和可能大于文章总数。

最近 20 篇文章

主题分类

深度学习基础

重新思考学习率与Batch Size 返回目录

多任务学习漫谈 返回目录

“让Keras更酷一些!” 返回目录

文本情感分类 返回目录

非系列文章 返回目录

词向量与Embedding

更别致的词向量模型 返回目录

不可思议的Word2Vec 返回目录

非系列文章 返回目录

大模型与Transformer

MoE环游记 返回目录

MuP之上 返回目录

Transformer升级之路 返回目录

“闭门造车”之多模态思路浅谈 返回目录

对齐全量微调!这是我看过最精彩的LoRA改进 返回目录

重温SSM 返回目录

非系列文章 返回目录

生成模型

生成扩散模型漫谈 返回目录

细水长flow 返回目录

变分自编码器 返回目录

搜出来的文本 返回目录

能量视角下的GAN模型 返回目录

非系列文章 返回目录

优化与训练

流形上的最速下降 返回目录

基于流式幂迭代的Muon实现 返回目录

让炼丹更科学一些 返回目录

AdamW的Weight RMS的渐近估计 返回目录

通过msign来计算奇异值裁剪mclip 返回目录

msign算子的Newton-Schulz迭代 返回目录

从动力学角度看优化算法 返回目录

非系列文章 返回目录

数学工具

低秩近似之路 返回目录

SVD分解 返回目录

外微分浅谈 返回目录

路径积分系列 返回目录

“熵”不起:从熵、最大熵原理到最大熵模型 返回目录

高斯型积分的微扰展开 返回目录

从费马大定理谈起 返回目录

新理解矩阵 返回目录

求解微分方程的李对称方法 返回目录

数学基本技艺之23、24 返回目录

纠缠的时空 返回目录

费曼积分法 返回目录

轻微的扰动——摄动法简介 返回目录

费曼路径积分思想的发展 返回目录

算子与线性常微分方程 返回目录

费曼积分法——积分符号内取微分 返回目录

《教材如何写》 返回目录

自然极值 返回目录

微积分学习 返回目录

非系列文章 返回目录

概率统计与信息论

最小熵原理 返回目录

非系列文章 返回目录

几何与方程

理解黎曼几何 返回目录

非系列文章 返回目录

NLP与信息抽取

中文分词系列 返回目录

OCR技术浅探 返回目录

非系列文章 返回目录

工程工具

通用爬虫探索 返回目录

非系列文章 返回目录

天文科普

非系列文章 返回目录

物理化学

一本对称闯物理:相对论力学 返回目录

一维弹簧的运动 返回目录

力学系统及其对偶性 返回目录

电偶极子浅探 返回目录

非系列文章 返回目录

生物自然

非系列文章 返回目录

图片摄影

非系列文章 返回目录

科普问答与百科

非系列文章 返回目录

资源与站务

非系列文章 返回目录

阅读写作与随笔

非系列文章 返回目录

其他

  • 暂无文章。

详细元数据

本地运行

uv sync
uv run python scripts/update_all.py
# 可选:补齐历史文章的小结短摘录,会重新访问缺少小结字段的旧文章
uv run python scripts/update_all.py --refresh-summaries --sleep 0.8

更新流程

  • fetch_archive.py:从归档页获取文章 id、标题、URL、日期。
  • enrich_posts.py:逐篇访问原文页,只提取原站分类、标签和可选小结短摘录,并写入缓存。
  • classify.py:根据标题、分类、标签做规则分类,识别系列名与序号,并用系列成员主题众数统一系列主题。
  • render_markdown.py:稳定生成 README 和 docs 主题页;README 用于快速浏览直达原文,docs 用于查看分类、标签、系列号、小结摘录等详细元数据。

Star 趋势

如果这个索引对你有帮助,欢迎 Star 支持,后续会通过 GitHub Actions 持续更新。

Star 趋势图

About

🌟本项目自动抓取并索引科学空间的文章元数据,按研究主题进行规则分类,方便在 GitHub 上快速浏览并跳转到原文。

Topics

Resources

License

Stars

Watchers

Forks

Contributors

Languages