cjk_split 本来想做形码方案的,但失败了,留下点遗产。 拆分原则:规范字形推定,重复字除外。 举例:「晋」「晉」分离编码的只有「晋晉」「戬戩」「瑨𤨁(U+24A01)」三组,其他无论码表是何种字形,都视作「晋」。 注:GB18030-2022一号修改单扩A平面包含「⿰王晉」,扩I草案时统一至「𤨁(U+24A01)」,尽管G源仍未提交横扩字形,但本方案作分离处理。