先来一串灵魂发问:
- 已知规范字,如何快速在《通规表》pdf中跳转到相应页码?
- 甚至能不能通过繁体字、异体字快速在《通规表》pdf中找到相应页码?
- 《通规表》有没有电子版?里面的《规繁异对照表》有没有电子版?
- 如何能对《通规表》附表1《规繁异对照表》进行计数,得到8105、3120、2546、2574、96、794、1023这些说明中出现的数字呢?
- 如果有电子版的表格就好了,是不是就可以用excel来计数而不是对着屏幕人工数?
- 听说简体转繁体时经常会出现错字的问题,我只是能列举出来常见的几个易错字,那么非一一对应的简繁字一共有哪些呢?
- 我甚至还能分清楚简繁、字形、异体的差异,甚至还了解香港、台湾地区存在用字差异。但是目前我只是比较熟悉内地的用字习惯,并且可以去查最新版的《新华字典》、《现代汉语词典》、《现代汉语规范词典》里面所写的繁体、异体字。按照这几本辞书来看,一共有哪些复杂的简繁对应情况呢?
- 我想要比较两岸四地的用字差异。内地繁体用字的有关材料,在《古籍印刷通用字规范字形表》发布之前,还是参考《通规表》、《新华字典》、《现代汉语词典》、《现代汉语规范词典》多一点,22年中华书局(香港)出版的《漢字字形對比字典》也是以《通规表》为对比基准。《通规表》里面的规繁关系全貌如何呢?
- 依照《通规表》附表1《规繁异对照表》的映射关系,8105个规范汉字会转换为多少个繁体字呢?
- 一级字表+二级字表+三级字表+附表1,表中一共有多少个不同的位置有字?这些字去重后,一共有多少个不同的字符?
- 这些规范字在计算机上的Unicode编码是什么?繁体字、异体字虽然没有文件来定义Unicode码位,但是目前可以作为实现的一种数字化方案是什么?这些字哪些可以与已有的Unicode对应,哪些还对应不上?
- 目前小规模的字体还是是按照GB2312来做的,他还有个繁体版本GBT12345,我用了GBT12345的字体会出现很多很坑的问题。这两个标准的简繁对应关系与《通规表》附表1的规范字-繁体字对应关系有什么不同?
- GB2312的字体能显示出哪些规范字?显示不出哪些?
- GB2312字集里面哪些字已经不是《通规表》里面的规范字了?
如果您也有类似的问题,那么本文可能可以给您一点靠谱或不那么靠谱的参考。本文以及这个git仓库是我目前摸索出的一点答案。如果有问题,希望可以反馈给我。
十分感谢本文所有参考材料的制作团队。如果材料使用上存在有侵权问题,请第一时间反馈进行删除,谢谢!如果有漏写的参考材料,也请第一时间反馈补遗。
《通用规范汉字表》1 2是由中华人民共和国教育部、国家语言文字工作委员会联合组织研制的汉字使用规范。原有相关字表(《第一批异体字整理表》、《现代汉语常用字表》、《现代汉语通用字表》、《简化字总表》)停止使用。此前已发布的其他有关汉字的规范,均需复查,其中涉及的规范汉字(包括字集、字量、字形),应尽快与《通用规范汉字表》取得一致。(参见3《7.字表效力》一章)
本仓库旨在将通用规范汉字表进行数字化,并在其基础之上进行数量统计。同时将通用规范汉字表与Unicode对应的相关资料进行搜集、整合、整理。主要的内容包含在一个excel表格中(通用规范汉字表.xlsx),里面有多张子表,本文会对各张子表进行详细介绍。
表格中所包含的子表如下:
(点击子表标题跳转到本页面内对应的说明部分,可跳转章节不覆盖本文全部内容)
- 字表8105:一~三级字表的编号、字符、Unicode编码对应关系
- 附表一:附表1的编号、字符、Unicode编码对应关系,三个信息分别按位置排布的格式
- 附表一序号编码:附表1的编号、字符、Unicode编码对应关系,每个字三个信息放在一起的格式
- 附表一单列3671:附表1的编号、字符、Unicode编码对应关系,所有字排成一列的格式
- 附表一附注:附表1所有52个附注的字头
- 通规繁体字数统计:梳理附表1繁体字的复杂对应情况,涉及100组110个规范字
- 规繁对应表:完整讨论附表1内的简繁对应关系,分为无繁体、一一对应、复杂对应三组字讨论
- 通规繁体集8197:依照附表1得到的通规繁体字集
- 通规数量统计:一~三级字表、附表1在Unicode中的实现现状,以及各部分字数计数
- 原表+附表一单列:列出字表+附表1的11776个编号下去重的11643个字符,全面分析“身兼数职”情况
- 通规规繁异复杂对应汇总:完整记录包含“身兼数职”情况的规范字、传承字、繁体字、异体字相互关系
- 通规对一异表的调整原则:《解读》3里异体字处理部分的读书笔记
- 附表一规繁对比GB简繁:完整对比GB2312/GBT12345简繁与附表1规繁的差别,分6组讨论
- GB收通规情况:GB2312对规范字的收录情况
- 通规收GB2312情况:通规表对GB2312汉字的收录情况
标题为“字表8105”的子表,内容是一级字表、二级字表、三级字表的编号、字符、Unicode编码对应关系。
发布材料中记录的8105个规范字的码位,有三个来源出处:
在制作字表时也可以直接使用已有的可复制字表,再进行转Unicode处理。已知的在线字表包括:
本文尚未对不同来源、方法得到的规范汉字Unicode编码是否一致进行检查,如果有新发现问题在考虑进行修补或系统性排查。
这一部分包含标题为“附表一”、“附表一序号编码”、“附表一单列3671”三张子表。三张表格内容完全相同,仅在附表一各个字信息的排布格式上存在差异。
部门尚未发现官方文件著录附表1《规范字与繁体字、异体字对照表》的内各个字的Unicode编码,数字化时所参考的内容包括以下:
- 繁体字一列,参考Unihan数据库G1源(即GB/T 12345),包括
- 异体字一列,参考目前网页上已有的电子版《第一批异体字整理表》13
- 目前网页上已有的电子版《附表1. 规范字与繁体字、异体字对照表》14
- 巴山法语微信公众号《通用规范汉字表》系列文章,对附表一进行了翔实而严谨的分析15 16 17 18
《通用规范汉字表》为每一个规范字赋予了编号,表格里也为每一个出现的繁体字、异体字进行了编号。需注意,该编号与表格中的位置一一对应,而不与通过Unicode唯一确定的字符相对应。也就是说,同一个字可能会具有多个编号,这种情况对应于该字在表中有多种地位的情形。例如一个字本身是规范字,同时它也是其他某个规范字的异体字,那么这个字既会拥有规范字编号,也会拥有异体字的编号。同一个字身兼多个编号的情况会在其他子表中进行讨论。
本表格编号的规则说明如下:
- 编号中有一个_表明该编号指向一个繁体字列的位置,格式为xxxx_n,其中n为0时表明这是一个传承字,在原表中用一个~符号占位。
- 编号中有两个_表明该编号指向一个异体字列的位置,格式为xxxx_n_m。
规范字编号 | 规范字 | 规范字编码 | 繁体字编号 | 繁体字 | 繁体字编码 | 异体字1编号 | 异体字1 | 异体字1编码 | 异体字2编号 | 异体字2 | 异体字2编码 |
---|---|---|---|---|---|---|---|---|---|---|---|
20 | 乃 | U+4E43 | 20_0_1 | 廼 | U+5EFC | 20_0_2 | 迺 | U+8FFA | |||
23 | 干 | U+5E72 | 23_0 | ~ | U+5E72 | ||||||
23_1 | 乾 | U+4E7E | 23_1_1 | 乹 | U+4E79 | 23_1_2 | 亁 | U+4E81 | |||
23_2 | 幹 | U+5E79 | 23_2_1 | 榦 | U+69A6 |
根据这种编号方式,可以较快在《通用规范汉字表》pdf文件2中查找到对应位置及汉字。
对于每一个字,所列出的信息包括编号、可复制字符、Unicode编码。
- “附表一”子表将编号、可复制字符、Unicode编码分别按照附表1的相对位置列表
- “附表一序号编码”子表将每个字的编号、可复制字符、Unicode编码信息排列在一块,再将每个字的信息组按照附表1的相对位置列表
- “附表一单列3671”子表将附表一的所有字依照从左到右、自上而下的顺序排成一列,每行分别列出各个字的编号、可复制字符、Unicode编码信息。表中提供了几个不同统计范围的单列字信息表:
- 附表1总计6791字(规范字3120+繁体字2648+异体字1023)
- 仅规范字3120字
- 非规范字列字符3671字(繁体字2648+异体字1023)
- 仅繁体字2648字
- 仅异体字1023字
参考子表“通规数量统计”,有5个字符目前Unicode尚未进行编码:
编号 | IDS | 疑似可使用的汉字 | Unicode编码 |
---|---|---|---|
610_1_3 | ⿰韋刄 | ||
1360_0_1 | ⿰王冊 | ||
2424_0_2 | ⿰氵⿱⿻夕丶缶 | 滛 | U+6EDB |
3317_0_2 | ⿰扌㕘 | 撡 | U+64A1 |
4225_0_1 | ⿰口芉 | 哶 | U+54F6 |
这五个汉字在表格里可复制字符使用DS序列,编码一列使用“U+未编码<IDS序列>”的格式录入。
编号 | 可复制字符 | IDS |
---|---|---|
610_1_3 | ⿰韋刄 | U+未编码⿰韋刄 |
2424_0_2疑似可以使用“滛”U+6EDB,在《校编本〈第一批异体字整理表〉》20中采用这种做法
3317_0_2疑似可以使用“撡”U+64A1,在《语言文字规范标准 (教育部语言文字信息管理司组编)》21采用这种做法
4225_0_1疑似可以使用“哶”U+54F6,一方面维基文库14采用了这样的做法,另一方面《异体字整理表》(群益堂出版,文字改革出版社)22内的手写体字形与U+54F6相同。此外,《古籍印刷通用字规范字形表》23也采用了U+54F6。
此外,610_1_3⿰韋刄可以认同到610_1韌U+97CC,1360_0_1⿰王冊可以认同到1360珊U+73CA,其间的分别都在字形上。但是附表1中同时列出了⿰韋刄与韌、⿰王冊与珊,所以表格中仍使用IDS序列,以体现字形上的差别。
对于表中部分汉字“身兼数职”的情况,附表1给出了52个注释进行解释。子表“附表一附注”列出了注释所包含的52个汉字,并分别用“F序数”的格式对每一条附注进行编号(F代footnote的首字母缩写),其中序数与子表的序号完全对应。表中把52个附注分为三类:繁体字兼作规范字、异体字另作规范字、异体字保留用法。
以上是对于原文直接录入的内容,本章及以后进行一些数字统计。
附表1说明部分提到:“二、本表列出了《通用规范汉字表》中的3120个规范汉字及相应的繁体字、异体字”。子表“附录一序号编码”的A-C列各列都有3120个计数,与之对应。
子表“通规繁体字数统计”中清点了所有的繁体字、传承字情况。难点主要在于一个规范字对应多个传承字/繁体字的情况清点。方法包括以下:
- 手动清点所有的一对多
- 《<通用规范汉字表>解读》3的收录结果
- 微信公众号:巴山法语的统计文档15 16 17 18
- 《〈通用规范汉字表〉与〈简化字总表〉简繁汉字对比分析》24
- 《〈通用规范汉字表〉中规范字与繁体字同形的特例》25
几种来源的材料结果相合,可以认为结果有较高准确性,同时也验证了微信公众号巴山法语系列文章的高可置信度。
附表1说明部分提到:“三、本表收录了与2546个规范字相对应的2574个繁体字。对96组一个规范字对应多个繁体字(或传承字)的字际关系进行了分解”。
- 子表“附录一序号编码”的D列有2648个计数,其中有74个项包含_0(表明这是一个传承字),余下的2574个不包含_0的项目即对应2574个繁体字。
- 子表“通规繁体字数统计”末尾的复杂对应关系表的100组字中,除去最后4行的“么、苹、苎、苧”,余下的96组与说明中的96组一对多相对应。
2546个规范字与繁体字、传承字的对应关系如下:
规范字 | 繁体字 | 传承字 |
---|---|---|
2450 | 1 | |
22 | 2 | |
70 | 1 | 1 |
2 | 2 | 1 |
2 | 3 | 1 |
传承字74个:74=70*1+2*1+2*1
繁体字2574个:2574=2450*1+22*2+70*1+2*2+2*3
子表“附录一序号编码”的D列有2648个计数:2648=2574+74
96组一对多:96=22+70+2+2
附表1中2546个规范字映射到2648个繁体字/传承字,字数增加102字。GB2312有6763字,GBT12345有6866字,增加103字。两个规范集到繁体集的字数差相近,但是映射关系上是有差别的,后面还会进行详细对比。
下面总结规范字到繁体字/传承字映射时非一一映射的点。
序号 | 规范字 | 兼作规繁 | 规范字2 | 传承字 | 繁体字1 | 繁体字2 | 繁体字3 |
---|---|---|---|---|---|---|---|
0008 | 卜 | 卜 | 蔔 | ||||
0014 | 几 | 几 | 幾 | ||||
0017/3401 | 了 | 瞭 | 了 | 瞭 | |||
0023/2215 | 干 | 乾 | 干 | 乾 | 幹 | ||
0029 | 才 | 才 | 纔 | ||||
0035 | 万 | 万 | 萬 | ||||
0041 | 千 | 千 | 韆 | ||||
0074 | 丰 | 丰 | 豐 | ||||
0082 | 云 | 云 | 雲 | ||||
0095 | 历 | 歷 | 曆 | ||||
0131 | 仆 | 仆 | 僕 | ||||
0166 | 斗 | 斗 | 鬥 | ||||
0177 | 丑 | 丑 | 醜 | ||||
0211 | 术 | 术 | 術 | ||||
0238 | 叶 | 叶 | 葉 | ||||
0246 | 只 | 衹 | 隻 | ||||
0295 | 冬 | 冬 | 鼕 | ||||
0299 | 饥 | 饑 | 飢 | ||||
0309 | 汇 | 匯 | 彙 | ||||
0330 | 出 | 出 | 齣 | ||||
0339 | 发 | 發 | 髮 | ||||
0342 | 台 | 台 | 臺 | 颱 | 檯 | ||
0376 | 朴 | 朴 | 樸 | ||||
0395 | 夸 | 夸 | 誇 | ||||
0407 | 划 | 划 | 劃 | ||||
0418 | 当 | 當 | 噹 | ||||
0420 | 吁 | 吁 | 籲 | ||||
0424 | 曲 | 曲 | 麯 | ||||
0425 | 团 | 團 | 糰 | ||||
0438 | 回 | 回 | 迴 | ||||
0445 | 朱 | 朱 | 硃 | ||||
0475/7669 | 伙 | 夥 | 伙 | 夥 | |||
0480 | 向 | 向 | 嚮 | ||||
0482 | 后 | 后 | 後 | ||||
0488 | 合 | 合 | 閤 | ||||
0511 | 冲 | 冲 | 衝 | ||||
0566 | 尽 | 盡 | 儘 | ||||
0591 | 纤 | 纖 | 縴 | ||||
0614 | 坛 | 壇 | 罎 | ||||
0629 | 坝 | 壩 | 垻 | ||||
0632 | 折 | 折 | 摺 | ||||
0675/4134 | 克 | 剋 | 克 | 剋 | |||
0677 | 苏 | 蘇 | 囌 | ||||
0711 | 卤 | 滷 | 鹵 | ||||
0721 | 里 | 里 | 裏 | ||||
0734 | 困 | 困 | 睏 | ||||
0751 | 别 | 别 | 彆 | ||||
0795 | 余 | 余 | 餘 | ||||
0798 | 谷 | 谷 | 穀 | ||||
0825 | 系 | 系 | 係 | 繫 | |||
0870 | 沈 | 沈 | 瀋 | ||||
0951 | 表 | 表 | 錶 | ||||
1010 | 范 | 范 | 範 | ||||
1025 | 板 | 板 | 闆 | ||||
1026 | 松 | 松 | 鬆 | ||||
1043 | 郁 | 郁 | 鬱 | ||||
1121 | 制 | 制 | 製 | ||||
1129 | 刮 | 刮 | 颳 | ||||
1159/5962 | 征 | 徵 | 征 | 徵 | |||
1165 | 舍 | 舍 | 捨 | ||||
1231 | 卷 | 卷 | 捲 | ||||
1283 | 帘 | 帘 | 簾 | ||||
1313 | 弥 | 彌 | 瀰 | ||||
1419 | 胡 | 胡 | 鬍 | ||||
1443 | 咸 | 咸 | 鹹 | ||||
1455 | 面 | 面 | 麵 | ||||
1528/7679 | 钟 | 锺 | 鐘 | 鍾 | |||
1549 | 种 | 种 | 種 | ||||
1550 | 秋 | 秋 | 鞦 | ||||
1553 | 复 | 復 | 複 | ||||
1585 | 须 | 須 | 鬚 | ||||
1643 | 姜 | 姜 | 薑 | ||||
1827 | 获 | 獲 | 穫 | ||||
1829/7519 | 恶 | 𫫇 | 惡 | 噁 | |||
1879 | 致 | 致 | 緻 | ||||
1885 | 党 | 党 | 黨 | ||||
1955/3390 | 借 | 藉 | 借 | 藉 | |||
1998 | 脏 | 臟 | 髒 | ||||
2024 | 准 | 准 | 準 | ||||
2026 | 症 | 症 | 癥 | ||||
2075 | 涂 | 涂 | 塗 | ||||
2099 | 家 | 家 | 傢 | ||||
2189 | 据 | 据 | 據 | ||||
2282 | 累 | 累 | 纍 | ||||
2393 | 旋 | 旋 | 鏇 | ||||
2431 | 淀 | 淀 | 澱 | ||||
2682 | 筑 | 筑 | 築 | ||||
2704 | 御 | 御 | 禦 | ||||
2838 | 摆 | 擺 | 襬 | ||||
2859 | 蒙 | 蒙 | 濛 | 懞 | 矇 | ||
2953 | 签 | 簽 | 籤 | ||||
3014 | 漓 | 漓 | 灕 | ||||
3037 | 辟 | 辟 | 闢 | ||||
3070 | 蔑 | 蔑 | 衊 | ||||
3360 | 篱 | 篱 | 籬 | ||||
3661 | 芸 | 芸 | 蕓 | ||||
0048/5780 | 么 | 麽 | 麽 | ||||
1004/7841 | 苹 | 𬞟 | 蘋 | ||||
3676 | 苎 | 苧 | |||||
6660 | 苧 | 薴 |
- 本表格共有100行,即100组字。
- 前96行(即除了最后么、苹、苎、苧4组以外的所有组)对应于附表1说明中的96组一个规范字对应多个繁体字(或传承字)的情况。
- 7个繁体字是在部分义项下不做简化保留繁体字形也作为规范字:2215乾、3390藉、3401瞭、4134剋、5780麽、5962徵、7669夥,列在“兼作规繁”一列中。
- 3个字在部分义项下被简化做新的规范字形:7519𫫇、7679锺、7841𬞟,列在“规范字2”一列中
- 2450个一规对一繁情形中,有两组字会产生一个特殊的规繁同形的例子:苎(苧)、苧(薴)。6660苧的情况列在上表最后两行中。
- 无繁体组:不涉及繁体字对应的5552字。8105字中5559字(8105-2546)在附表一中未体现与繁体字的对应关系,其中“瞭乾麽夥剋徵藉”7字兼作规范字、繁体字,划入复杂对应组讨论
- 一一对应组:2443字,8105字中2450字在附表一中有一个繁体字与之对应,其中“么苎苧”涉及兼作规繁字的情况,“苹𬞟𫫇锺”涉及多规对一繁的情况,这7字划入复杂对应组讨论。
- 复杂对应组:110字,8105字中96字在附表一中有多个繁体字与之对应,再计入“瞭乾麽夥剋徵藉么苎苧苹𬞟𫫇锺”14字
这里有14个字被划入到复杂对应组,这14个字正好对应“通规繁体字数统计”子表里标红的14个字。复杂对应组的110字,也恰好对应“通规繁体字数统计”子表里竖线左侧所有的规范字。
依照通用规范汉字表附表1的映射关系,8105个规范汉字会转换为多少个繁体字呢? 子表“通规繁体集8197”给出了答案。8197字的通规繁体集的生成可以有两种方式,两种方式计算得到的字数一样的:- 将子表“规繁对应表”内进行繁体字/传承字映射后的所有汉字进行去重得到
- 依照以上分析进行计算。8197=5559+2648-7-3
一个规范字最多可能对应一个传承字,可能对应多个繁体字,这两种情况自上而下依次排在繁体字列中。一个规范字/传承字/繁体字可能对应多个异体字,则在一行的末尾从左到右排列。
据统计,表中中一行最多有5个异体字,共有两行出现了行内5个异体字的情况:
规范字 | 繁体字 | 异体字1 | 异体字2 | 异体字3 | 异体字4 | 异体字5 | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
829 | 亩 | U+4EA9 | 829_1 | 畝 | U+755D | 829_1_1 | 𤰜 | U+24C1C | 829_1_2 | 畂 | U+7542 | 829_1_3 | 𤱈 | U+24C48 | 829_1_4 | 畆 | U+7546 | 829_1_5 | 畮 |
2786 | 窗 | U+7A97 | 2786_0_1 | 窓 | U+7A93 | 2786_0_2 | 𥦗 | U+25997 | 2786_0_3 | 牎 | U+724E | 2786_0_4 | 牕 | U+7255 | 2786_0_5 | 窻 |
附表1说明部分提到:“四、本表对《第一批异体字整理表》进行了调整,收录了794组共计1023个异体字”。子表“附录一序号编码”的H列有794个计数,与组数794相对应。子表“附录一序号编码”的 H、K、N、Q、T列(这里是5列是因为一行最多有5个异体字)总计有1023个计数,与1023个异体字对应。
子表“通规数量统计”统计了一~三级子表、繁体字、异体字在Unicode中的出现情况,以及“身兼数职”汉字的情况数量统计。这一部分差不多是《巴山法语》公众号推文的学习笔记15 16 17 18,感谢该工作仔细的清点。作者对该工作的繁体字统计部分进行过核对,确认结果是准确无误的,核对方法是与其他几种方法的统计结果进行比对,发现可以得到完全一致的结论。对于繁体字部分的清点工作在子表“通规繁体字数量统计”中。
对于数量的统计,重点难点在于“身兼数职”情况的计数。以下表格统计了繁体字和异体字中的“身兼数职”情况
繁体字“身兼数职”情况表
繁体字集 | 字数 | 字符 |
---|---|---|
作为繁体字对应一个规范字 | 2547 | |
作为繁体字对应两个规范字(此处各字计数2遍) | 6 | 蘋鍾噁 |
作为繁体字对应一个规范字,作为异体字对应一个规范字 | 13 | 椏鉅讎颺麴訢逕鑪線閤頫貲勣 |
作为繁体字对应一个规范字,本身也是规范字 | 8 | 瞭乾麽夥剋徵藉苧 |
总计 | 2574 |
异体字“身兼数职”情况表
异体字集 | 字数 | 字符 |
---|---|---|
作为异体字对应一个规范字 | 971 | |
作为异体字对应两个规范字(此处各字计数2遍) | 8 | 粇尅妳讐 |
作为繁体字对应一个规范字,作为异体字对应一个规范字 | 13 | 椏鉅讎颺麴訢逕鑪線閤頫貲勣 |
作为异体字对应一个规范字,本身也是规范字 | 31 | 迺耑昇陞祇甯袷仝甦邨氾堃犇龢釐脩絜扞喆祕叚菉蒐淼椀谿筦澂劄阪吒 |
总计 | 1023 |
以上两表记录的“身兼数职”情况,一共有55字(作为繁体字对应两个规范字3+作为繁体字对应一个规范字且作为异体字对应一个规范字13+作为繁体字对应一个规范字且本身也是规范字8+作为异体字对应一个规范字且本身也是规范字31)。附表一共有附注52条,其与55“身兼数职”字的对应情况如下表。可以看到,对于大部分“身兼数职”情况字表是给出了了注解说明的,没有说明的只有“苧、噁、閤”这3个字。
“身兼数职”情况表附注对应表
“身兼数职”情况 | 数量 | 可复制字符 | 附注 |
---|---|---|---|
作为繁体字对应一个规范字,本身也是规范字 | 8 | 瞭 | F1 |
乾 | F3 | ||
麽 | F4 | ||
夥 | F17 | ||
剋 | F18 | ||
徵 | F27 | ||
藉 | F38 | ||
苧 | |||
作为繁体字对应两个规范字 | 3 | 蘋 | F23 |
鍾 | F32 | ||
噁 | |||
作为繁体字对应一个规范字,作为异体字对应一个规范字 | 13 | 椏 | F5 |
鉅 | F7 | ||
讎 | F10 | ||
颺 | F13 | ||
麴 | F15 | ||
訢 | F26 | ||
逕 | F28 | ||
鑪 | F29 | ||
線 | F30 | ||
頫 | F39 | ||
貲 | F40 | ||
勣 | F42 | ||
閤 | |||
作为异体字对应一个规范字,本身也是规范字 | 31 | 廼 | F2 |
耑 | F6 | ||
昇 | F8 | ||
陞 | F9 | ||
祇 | F11 | ||
甯 | F12 | ||
袷 | F14 | ||
仝 | F16 | ||
甦 | F19 | ||
邨 | F20 | ||
氾 | F21 | ||
堃 | F22 | ||
犇 | F24 | ||
龢 | F25 | ||
釐 | F31 | ||
脩 | F33 | ||
絜 | F34 | ||
扞 | F35 | ||
喆 | F36 | ||
祕 | F37 | ||
叚 | F41 | ||
菉 | F43 | ||
蒐 | F44 | ||
淼 | F45 | ||
椀 | F46 | ||
谿 | F47 | ||
筦 | F48 | ||
澂 | F49 | ||
劄 | F50 | ||
阪 | F51 | ||
吒 | F52 | ||
总计 | 55 | 52 |
通用规范汉字表中,一级字表+二级字表+三级字表+附表1,一共有多少个不同的位置有字?或者说一共有多少个编号?答案是11776=8105+2648+1023
除去这些“身兼数职”的情况,通用规范汉字表里面所有的规范字+繁体字+传承字+异体字一共有多少种不同的字符?答案在子表“原表+附表一单列”中,有11643个。这个数字有三个来由可以得到,结果是一致的:- 将字表内11776个编号的所有字放在一起去重
- 依照以上分析进行计算。11643=8105+2574-3-8+1023-4-13-31
- 微信公众号巴山法语文章:《通用汉字规范表》11643净字(属性、所在unicode区块及内码)26
11776个编号去重后得到11643个不同的字符,相差133字,经过分析可知是有133个字重复出现了2次,每个字都有2个编号。子表“原表+附表一单列”还详细列出了133重复字每个字的关联编号、编码、重复原因。这133字包含(133=74+8+3+4+13+31):
- 传承字同时出现在原表与附表一繁体字表中,共74字
- 作为繁体字对应一个规范字,本身也是规范字,共8字
- 作为繁体字对应两个规范字,共3字
- 作为异体字对应两个规范字,共4字
- 作为繁体字对应一个规范字,作为异体字对应一个规范字,共13字
- 作为异体字对应一个规范字,本身也是规范字,共31字
- 一规多繁(96组)
- 多规一繁(11组:乾藉瞭剋麽徵夥、𫫇锺𬞟、苧)
- 兼作繁异(13组:椏鉅讎颺麴訢逕鑪線閤頫貲勣)
- 兼作规异(31组:迺耑昇陞祇甯袷仝甦邨氾堃犇龢釐脩絜扞喆祕叚菉蒐淼椀谿筦澂劄阪吒)
- 多规一异(4组:粇尅妳讐)
- 附注(52组,按前文所比较已包含在其他情况中)
子表“通规对一异表的调整原则”是对《〈通用规范汉字表〉解读》相关章节的阅读笔记,不涉及子表本身的数字化与数量统计,旨在加深《通用规范汉字表》对于异体字问题处理的理解。
异体字分类 | 《一异表》类型 | 情况说明 | 《通规》处理办法 |
---|---|---|---|
严格异体字 | 异写字 | 笔画组合方式或数量不同 | 放入异体字栏 |
严格异体字 | 异写字 | 构件位置不同 | 放入异体字栏 |
严格异体字 | 异构字 | 构件、构件数量、构件功能等存在差异 | 放入异体字栏 |
非严格异体字 | 分化字 | 原一现多,分化后音义无关 | 正字与非正字音义无关,非正字常用者作为规范字,不常用者不收入字表 |
非严格异体字 | 分化字 | 原一现多,分化未遂,母字义项涵盖分化字 | 放入异体字栏 |
非严格异体字 | 通假字 | 现代汉语共时层面上,义项完全相同 | 放入异体字栏 |
非严格异体字 | 通假字 | 部分相同,正字义项涵盖非正字义项 | 放入异体字栏 |
非严格异体字 | 通假字 | 部分相同,正字义项无法涵盖非正字义项 | 正字不完全涵盖非正字,非正字同时放入异体字栏、规范字栏 |
非严格异体字 | 通假字 | 历史上通用,现代义项完全不同,分工明确 | 正字与非正字音义无关,非正字常用者作为规范字,不常用者不收入字表 |
非严格异体字 | 历史上的严格异体字,现代有差异,但正字义项包含非正字义项 | 放入异体字栏 | |
非严格异体字 | 音义无关字 | 正字与非正字音义无关,非正字常用者作为规范字,不常用者不收入字表 |
GB2312/GBT12345数据来源参考《CJKV Information Processing》线上第一版和第二版的附录11 12 。
子表“附表一规繁对比GB简繁”含有6763/6866个汉字的可复制字符与Unicode编码。GB2312与GBT12345是简繁对照的字符集,GBT12345比GB2312多103字。将GB2312/GBT12345的一对多简繁对照关系与附录1的规范字与繁体字一对多关系进行比较,可以将GB字分为以下几组
分组 | GB2312 | GBT12345 |
---|---|---|
无繁体组 | 4594 | 4594 |
一一对应组 | 2046 | 2046 |
一一对应组,《通规》中为复杂对应 | 5 | 5 |
复杂对应组,对应关系与《通规》相同 | 89 | 175 |
复杂对应组,对应关系与《通规》不同 | 16 | 20 |
复杂对应组,《通规》无此复杂对应关系 | 13 | 26 |
总计 | 6763 | 6866 |
子表“附表一规繁对比GB简繁”中每个分组各自一列,其中涉及《通用规范汉字表》附表1复杂对应关系的字都在字前标记了其对应的《通规》编号,可以看到子表“通规繁体字数统计”中98组复杂规繁对应关系以及“苧”字都体现在表中,表明该表对《通规》附表1、GB2312/GBT12345简繁对应关系进行了完整的、没有遗漏的比较。
子表“GB收通规情况”列出了GB2312中收录《通用规范汉字表》规范字的数量及范围,并列举出了没有收录的字。分组 | 总计 | 无繁体组 | 一一对应组 | 一一对应组,《通规》中为复杂对应 | 复杂对应组,对应关系与《通规》相同 | 复杂对应组,对应关系与《通规》不同 | 复杂对应组,《通规》无此复杂对应关系 |
---|---|---|---|---|---|---|---|
GB2312字数 | 6763 | 4594 | 2046 | 5 | 89 | 16 | 13 |
GB2312中收录《通规》规范字字数 | 6638 | 4497 | 2023 | 5 | 89 | 11 | 13 |
GB2312未收录规范字字数 | 125 | 97 | 23 | 0 | 0 | 5 | 0 |
分级 | 一级字表 | 二级字表 | 三级字表 |
---|---|---|---|
GB2312一级汉字 | 3381 | 370 | 1 |
GB2312二级汉字 | 117 | 2442 | 327 |
GB2312之外 | 2 | 188 | 1277 |
总计 | 3500 | 3000 | 1605 |
- 比较《通用规范汉字表》、《古籍印刷通用字规范字形表》、《辞源》第三版、《国语辞典》、《国音常用字汇》、《新华字典》54年版、一点明体传承字形标准化文件,探究内地古籍印刷及现代书刊的繁体版在Unicode范围内的择字原则。
- 比较多个地区间常用字的汉字使用差异,参考资料包括《中华新字典》、《商务新辞典》、《国语活用辞典》、《两岸常用词典》,实现多个标准间异同不多余不遗漏的比较,指导高质量的简繁转换。
- [2] 教育部《通用规范汉字表》
- [4] 教育部《通用规范汉字笔顺规范》
- [6] GB 18030-2022
- [7] 维基文库《通用规范汉字表》
- [8] 白雲深處人家 《通用規範漢字表》
- [13] 维基文库《第一批异体字整理表》
- [15] 巴山法语《2574个繁体字字集》
- [16] 巴山法语《1023个异体字字集》
- [17] 巴山法语《2574个繁体字字集》百度文库
- [18] 巴山法语《1023个异体字字集》百度文库
- [20] 校编本《第一批异体字整理表》,顾雪枫 编著,苏州大学出版社,ISBN: 9787810904346
- [21] 《语言文字规范标准》,教育部语言文字信息管理司组 编,商务印书馆,ISBN: 9787100121699
- [22] 《异体字整理表》,群益堂出版,文字改革出版社,1956年7月
- [23] 《古籍印刷通用字规范字形表》
email: cdtym_vc@yeah.net