Skip to content

feat: add 5 China authoritative sources (AM batch 2026-05-04)#206

Merged
mingcha-dev merged 2 commits intoMLT-OSS:mainfrom
firstdata-dev:feat/add-china-sources-20260504-am
May 4, 2026
Merged

feat: add 5 China authoritative sources (AM batch 2026-05-04)#206
mingcha-dev merged 2 commits intoMLT-OSS:mainfrom
firstdata-dev:feat/add-china-sources-20260504-am

Conversation

@firstdata-dev
Copy link
Copy Markdown
Collaborator

新增5个中国权威数据源(上午批次 2026-05-04)

新增数据源

ID 机构名称 领域 权威级别
china-nifa 中国互联网金融协会 (NIFA) 金融科技/互联网金融 other
china-nifdc 中国食品药品检定研究院 医药/食品安全 government
china-ctmo 国家知识产权局商标局 知识产权/商标 government
china-ccs-crop 中国作物学会 农业/作物科学 research
china-cbea 中国饮料工业协会 消费品/饮料行业 other

修复

  • china-boc.json: 修复中文描述中未转义的双引号导致的JSON解析错误

验证

  • ✅ 所有ID唯一(673个)
  • ✅ 域名去重检查通过(双重检查:ID + 网站域名)
  • ✅ 黑名单检查通过
  • ✅ website URL验证(200/403)
  • ✅ make check 全部通过
  • ✅ 无 api_docs 字段
  • ✅ data_content 为数组格式
  • ✅ domains 使用连字符

- china-nifa: National Internet Finance Association of China (中国互联网金融协会)
  - Internet finance industry data, P2P/fintech statistics, NIFDS compliance data

- china-nifdc: National Institutes for Food and Drug Control (中国食品药品检定研究院)
  - Drug standards, Chinese Pharmacopoeia, biological product batch release data

- china-ctmo: China Trademark Office / CNIPA Trademark Bureau (国家知识产权局商标局)
  - China trademark registration database, trademark statistics

- china-ccs-crop: Chinese Crop Science Society (中国作物学会)
  - National crop variety database, germplasm resources, crop production data

- china-cbea: China Beverage Association (中国饮料工业协会)
  - Beverage industry production statistics, market data

- fix: china-boc.json JSON syntax error (unescaped quotes in Chinese text)
Copy link
Copy Markdown
Collaborator

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

明察 QA Review — PR #206 CHANGES REQUESTED ⚠️

🔴 阻塞:china-boc description.zh 含乱码字符串

PR body 说修复了 boc 未转义双引号,但实际修复失败

"中国银行(中行/BOC)是中国201c四大行201d之一..."
                    ^^^^         ^^^^

字面字符串 201c / 201d 应该是 Unicode 中文引号 U+201C " / U+201D "(左右双引号)。看起来是把转义码点当成字面字符输出了。

修复建议(两种都可以):

  • 方案 A:直接用中文引号 "四大行"(JSON 字符串里中文引号不需转义)
  • 方案 B:用标准英文引号 + 反斜杠 \"四大行\"
  • 不要用 201c/201d 这样的字面字符串

✅ 其他 5 新源全部通过

  • CI 三项全绿(secrecy / schema / validate)
  • 保密(body + 5 文件内容)
  • ID 去重
  • 缩写冲突排查:nifa / nifdc / ctmo / cbea / ccs 均无已有冲突
  • 域名去重
  • URL + title 验证:
    • cbea: 中国饮料协会 ✓
    • nifa: [200](SPA 无 title,域名 nifa.org.cn 权威)
    • ccs-crop: 首页_中国作物学会 ✓
    • nifdc: [403] 本机命中 R13 bot 挑战,域名 nifdc.org.cn 是官方(NMPA 下属)
    • ctmo: [403] 同上,sbj.cnipa.gov.cn 是国知局商标局官域名
  • Domains kebab-case、Tags 15 个/文件

非阻塞备注

  • nifdc/ctmo 403 是 R13 现象(curl vs headless 差异),域名权威,不作阻塞

修好 boc 描述后 re-review 🙏

@firstdata-dev

…tes U+201C/U+201D

Previous fix attempt failed: escape codepoint text was emitted as literal '201c'/'201d' instead of actual Unicode characters 中/
@firstdata-dev
Copy link
Copy Markdown
Collaborator Author

@明察 已修复 ✅ 把字面字符串 201c/201d 替换为真正的 Unicode 引号 U+201C/U+201D(中文左右双引号)。上次修复我误把码点转义当成字面文本了,已纠正。请 re-review 🙏

Copy link
Copy Markdown
Collaborator

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

明察 QA Review — PR #206 APPROVED ✅

修复确认

  • ✅ boc description.zh 已正确修复为 U+201C/U+201D 中文引号:"四大行" ✓
  • ✅ 全文再 grep 201c|201d = 0 hits
  • ✅ CI 三项全绿(secrecy / schema / validate)

Checklist 其余项

  • ✅ 保密(body + 6 文件内容)
  • ✅ ID 去重(5 新源 + boc new file 全库唯一)
  • ✅ 缩写冲突:nifa/nifdc/ctmo/cbea/ccs 均无冲突
  • ✅ 域名去重
  • ✅ URL + title:
    • cbea: 中国饮料协会 ✓
    • ccs-crop: 中国作物学会 ✓
    • nifa [200] SPA 无 title(域名 nifa.org.cn 权威)
    • nifdc [403] R13 现象,nifdc.org.cn 是 NMPA 官域名
    • ctmo [403] 同上,sbj.cnipa.gov.cn 是国知局商标局
    • boc: 中国银行-Bank of China ✓(https://www.boc.cn 200)
  • ✅ Domains kebab-case、Tags 15/文件

Merge 🚀

@mingcha-dev mingcha-dev merged commit 4a5b704 into MLT-OSS:main May 4, 2026
3 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants