/
317.txt
362 lines (249 loc) · 16.5 KB
/
317.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
[1] [DFN[CNS 11643]] は、[[台湾]] ([[中華民国]]) の[[符号化文字集合]]についての国家規格
([[CNS]]) です。
[2] 最初の正式版は [DFN[CNS 11643‐1986]] (CNS C 5209‐1986)
[CITE[[RUBY[通用漢字標準交換碼] [tōngyòng hànzì biāozhǔn jiāohuànmǎ]]]]
([CITE[Standard Interchange Code for Generally Used Chinese Characters]])
で、1986年8月4日に制定されました。
第2版は [DFN[CNS 11643‐1992]] (CNS X 5012‐1992)
[CITE[[RUBY[中文標準交換碼] [zhōngwén biāozhǔn jiāohuànmǎ]]]]
([CITE[Chinese Standard Interchange Code]]) で、
1992年5月21日に制定されました。
第3版は 2004年中に制定[DEL[予定]]です。
[53]
[[21世紀]]初頭から [[CNS 11643]] の公式サイト [SRC[>>10]] で情報が公開されています。
いわゆる [[Living Standard]] モデルの先駆けのようなもので、
随時[[文字]]が追加され、その最新のフォントとデータが入手可能です。
[36] 一般には、 [Q[國標碼]], [Q[CNS]], [Q[CNS コード]]などと呼ばれています。
[REFS[
- [10] [CITE[CNS 11643 中文全字庫]] <http://www.cns11643.gov.tw/>
]REFS]
* 文字集合
[48] 80個の[[94[SUP[2]]集合]] ([[字面]]) で構成されます。それぞれを第1字面から第80字面と呼んでいます。
- [3] 第一[[字面]]から第十六字面まで、16個の「字面」を定義しています。字面一つ一つが ISO/IEC 2022 の 94[SUP[2]] [[図形文字]]集合に当たります。
- [5] 第一字面と第二字面は、台湾の [[PC]] 界の[[デ・ファクト標準]]である [[Big5]] を 94[SUP[2]] に合わせて変形したもので、1986年に規定されました。
- [6] 第三字面〜第七字面はそれに加えて1992年に規定されました。第八字面〜第十二字面はまだ規定されていません。第十三字面〜第十六字面は私用となっています。
- [8] 私用字面は、利用者が自由に利用出来る、所謂 [[PUA]] ですが、政府機関での使用 (戸籍業務など) を想定した補遺字集が幾つか発表されており、現在ほぼすべて埋まっています。 (もしかするといずれ正式に標準化されるかもしれません。)
- [9] >>8 1988年ごろに作られた「第十四字面」は後に正式に第三字面になりました。
[78]
第12字面から第16字面まで私用でした。
[SRC[>>77]]
[21]
11643-2004 で第8字面と第9字面に 10646 が入ったのですが、既に (Big5 同様の変換表で) 11643 に対応するものがない字のうち、
10646:2003 + α? 程度の時点での10646 0面にあるものを順番に詰めていってる模様です。 (つまり相互変換には対応表が必要で、 10646 の新規追加には対処不能。) 組合型ハングル、漢字、1面以降は入ってません。漢字はおそらく他の字面で CJK B まで全部詰め込まれている上にまだ 10646 にない (CJK C1 に入るかも?) ものが沢山。
あと、新規の漢字の追加は国家機関各種の手続きを経て (規格の改訂を待たず) どんどん行われていくみたいです。追加が確定したら新字庫に登録されていくようで。
今のところ、追加順に字面の最後に足していっているようです。
[24]
第十二字面 電信局SOPS碼造字區 6673字
第十三字面 電信局SOPS碼造字區 (整理中)
SOPS とは Service Order Processing System の略のようです。
[33] 2001年12月現在 CNS 11643 全字庫の検索頁に次のような注記がされています。
>
第12-14字面 為新・字 (即戸役政作業使用之12-14字面18,000個姓名用字), 目前僅供査詢, 不能下載使用。因内政部提供之24*24字形・中, 尚有許多重複及疑義字待確認, 因此擬予公告六個月, 若知道該字讀音, 請提供給我們。
[REFS[
- [77] [CITE[Microsoft Word - Chinawrd.doc - CHINPRN.PDF]], [TIME[1999-06-21T12:00:00.000Z]], [TIME[2022-05-03T06:40:11.263Z]] <http://www2.phys.canterbury.ac.nz/dept/docs/manuals/unix/DEC_5.0a_Docs/ACRO_SUP/CHINPRN.PDF#page=16>
]REFS]
** 第1字面、第2字面
[47]
第1字面と第2字面は、 [[Big5]] とほぼ共通していますが、微妙に違っています。
[73]
[[DEC Hanyu]]
は空き領域を [[UDC]] に使っていました。
- [74] 第1字面より、第1バイト [ [N[0xFD]], [N[0xFE]] ]
- [75] 第1字面より、第1バイト [ [N[0xAA]], [N[0xC1]] ]
- [76] 第2字面より、第1バイト [ [N[0xF2]], [N[0xFE]] ]
** 旧第14字面、第3字面、第4字面
[49] 第3字面は民国81年版規格で文字が新規追加されました。
旧第14字面の前半がそのまま正式な第3字面になりました。
[50] 第4字面は民国81年版規格で文字が新規追加されました。
その中には旧第14字面の後半の文字もすべて含まれますが、
位置は変化しています。
-*-*-
[64]
旧第14字面は元は[[外字]]領域で、政府機関用に[[漢字]]が定義されました。
[25] [CITE@zh[通用漢字標準交換碼-使用者加字區交換碼]], 行政院主計處電子處理資料中心編, 1988年6月公布。6148字。
[26] [CITE@zh[使用者加字區交換碼(増編)]], 1989年6月公布。171字。
[27] 「金融加字字集」「DIGITAL Taiwan Supplemental Character Set (DTSCS)」「EDPC Recommended Character Set」などとも。
- [28] 0x2121~0x6246 漢字 (第一部分) 6148 文字。後にそのまま CNS 11643-1992 の第三字面に。
- [29] 0x6247~0x6435 漢字 (第二部分) 171 文字。後に CNS 11643-1992 の第四字面に全て収録される。
- [30] 0x6436~ [[ISO/IEC 10646-1993]] の出典 [[TE]] で「some additional character」が割り当てられた部分。
[41]
[[CNS 11643]] 民国81(1992)年版 p.317 に第2部分171文字の旧第14字面から第4字面への対照表がある。
[56] 「CNS 11643-1986 第14字面」のような呼ばれ方をすることがあるが、
適切ではない。
[62]
[[DECの文字コード]]の1つ [[DEC Hanyu]] は
[DFN[DTSCS]]
([DFN[Digital Taiwan Supplemental Character Set]])
を実装しています。
[SRC[>>61]]
[68]
[[DTSCS]]
に含まれていた
[DFN[EDPC Recommended Character Set]]
は、
Part I の 6148 文字 (後に CNS 11643 第3字面)
と
Part II の171文字 (後に CNS 11643 第4字面)
でした。
[SRC[>>69, >>67]]
[71]
[[DTSCS]] のうち [[EDPC]] 文字は1区から68区に合計6319文字割り当てられていました。
[SRC[>>69, >>72]]
69区から94区は Reserved でした。
[SRC[>>72]]
[80]
[[EDPC Recommended Character Set]]
は
Electronic Data Processing Center of Executive Yuen
により[TIME[西暦1988年6月][1988-06]]に出版されました。
[SRC[>>77 #page=18]]
[70]
厳密には [[DTSCS]] の一部が EDPC 集合です [SRC[>>69]] が、
EDPC 集合以外の [[DTSCS]] の領域は未割当のようです。
[SEE[ [[DEC Hanyu]] ]]
[63] [[DTSCS]] は、
[[CNS 11643]] 第3字面の空き領域に[[漢字]]を2253文字追加したもの
[SRC[>>61]]
とする説もあります。
[81]
computer vendor'''s''' が第14面に
EDPC Recommended Character Set
を実装していたとされ [SRC[>>77]]、
[[DEC]] 以外の実装もあったようです。
[REFS[
-
[69] [CITE[dechanyu(5)]], [TIME[1998-10-14T23:08:08.000Z]], [TIME[2022-05-03T03:25:57.281Z]] <http://www2.phys.canterbury.ac.nz/dept/docs/manuals/unix/DEC_4.0e_Docs/HTML/MAN/MAN5/0235____.HTM>
-
[72] [CITE[download]], [TIME[2022-05-03T04:05:36.000Z]] <https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.46.5358&rep=rep1&type=pdf#page=6>
- [67]
[CITE[eucTW(5)]], [TIME[1998-10-14T23:10:07.000Z]], [TIME[2022-05-03T03:17:14.312Z]] <http://www2.phys.canterbury.ac.nz/dept/docs/manuals/unix/DEC_4.0e_Docs/HTML/MAN/MAN5/0248____.HTM>
- [61] [CITE@ja-jp[[[DEC HANYU]] ‐ 通信用語の基礎知識]], [TIME[2022-05-03T02:53:03.000Z]] <https://www.wdic.org/w/WDIC/DEC%20HANYU>
]REFS]
** 第5字面から第7字面
[51] 民国81年版規格で文字が新規追加されました。
** 第8字面から第11字面
[58] [[ISO/IEC 10646]] にあった[[漢字]]が新規追加されました。
** 第12字面、第13字面、新第14字面、第15字面、第16字面
[31] 第15字面は戸政系統用字6831文字とされています。行政院主計處電子處理資料中心が戸籍より7169文字を
0x2121-0x6D39 に追加して暫定的に使用することとしましたが、後に内部重複1組2文字、
[[CNS 11643-1992]] との重複336文字が見つかり、削除されました。 (削除された[[符号位置]]は保留。)
[57] 「CNS 11643-1992 第15字面」のような呼ばれ方をすることがあるが、
適切ではない。
[32] この他第14字面(新)、第16字面も戸政系統用字(整理中)とされています。
** 第17字面から第80字面
[52] 西暦2004年版規格で字面が新設されました。
** その他
[66]
[[CMEX]] から提供された表に基づく [[Solaris]] と [[Java]]
の [[EUC-TW]] の実装には、2178文字の追加がありました。
[SRC[>>65]]
(どの字面のどの範囲か不明)
[REFS[
- [65] [CITE@en['''['''JDK-4964355''']''' Clarify (lack of) specification for optional charsets - Java Bug System]], [TIME[2022-05-03T03:03:56.000Z]] <https://bugs.openjdk.java.net/browse/JDK-4964355>
]REFS]
* 符号化表現
[54]
[[CNS 11643]] は [[ISO/IEC 2022]] 環境で利用できます。
[55]
[[ISO/IEC 2022]] ベースの具体的な[[符号化文字集合]]としては、
[[ISO-2022-CN]],
[[ISO-2022-CN-EXT]],
[[EUC-TW]]
などがあります。
[60]
[[DEC]] の独自の [[DEC HANYU]] があります。
** 指示シーケンス
[SEE[ [[指示シーケンス]] ]]
[4] ISO/IEC 2022 環境で使うには、「公式」には [[ISO-IR]] に登録する必要がありますが、台湾の規格であるがために (政治的に) それが出来ませんでした。そのため[[私用終端バイト]]
[[Fp]] =
[[3/0]] - [[3/15]]
を使うことが当初から想定されており、私用終端バイトの数が字面の数 16 になりました。
[7] 第一字面〜第七字面は、後に [[ECMA]] (当時の [[ISO-IR]] 事務局) が sponser になる形で ISO-IR に登録され、公式終端バイトを得ました。
[42]
[[CNS 11643]] 中華民国81(1992)年版の 5.9 によれば、
第一字面から第十六字面は[[終端バイト]]
[[3/0]] - [[3/15]]
でそれぞれ表されます。
[43]
[[CNS 11643]] 中華民国96年版の 6. によれば、
「正式」な[[終端バイト]]と「專用」の[[終端バイト]]の2系統があります。
- [44] 第一字面から第七字面は、正式な[[終端バイト]]
[[4/7]] - [[4/14]] でそれぞれ表されます。
- [45] 第一字面から第十六字面は、専用の[[終端バイト]]
[[3/0]] - [[3/15]] でそれぞれ表されます。
- [46] 第十七字面から第八十字面は、専用の[[中間バイト]]と[[終端バイト]]の組合せ
[[2/1]] [[3/0]] - [[2/4]] [[3/15]] でそれぞれ表されます。
** 内部コード
[23] 1986年版の付録で2バイト内部処理用コードが規定されています。
> 6.2 本交換碼若有需要時得依下列方式転換為内碼。
-(1) 第一字面的内碼=標準交換碼+8080(十六進位)
-(2) 第二字面的内碼=標準交換碼+8000(十六進位)
[82]
[[DEC Hanyu]] はこれに着想を得て作られたとされています。
* データ
[38] [CITE@zh-hant[CNS11643中文標準交換碼全字庫(簡稱全字庫) | 政府資料開放平臺]]
([TIME[2020-10-14T06:48:41.000Z]])
<https://data.gov.tw/dataset/5961>
[39] [[写像]]その他各種データ & [[フォント]]。
[40] [[政府資料開放授權條款-第1版]]。
[86]
いつの間にか
「開源字型授權1.1版([[OFL]] 1.1)」
との dual license になりました。
* フォント
[83]
>>38 で公式フォントが配布されています。
文字追加があるたびに更新されています。
[84]
[[正楷體]]と[[正宋體]]。
[85]
[[香港人]]による[[自由香港楷書]]はこれの派生。
* 歴史
[17] 1983(民国72)年10月に、[CITE[通用漢字標準交換碼]] 試用版が行政院國家科學委員會, 教育部,
經濟部中央標準局, 行政院主計處電子處理資料中心合編として発行されました。
第1字面と第2字面に文字が定義され、[[漢字]]・[[非漢字]]をあわせて 13053 文字含んでいました。
この版は [[Big5]] の元になったとされています。
[18] 1986(民国75)年8月4日には正式な CNS 11643‐1986
[CITE[通用漢字標準交換碼]]が行政院國家科學委員會,
教育部, 經濟部中央標準局, 行政院主計處電子處理資料中心合編で公布されました。
試用版に更に数百文字追加し、順序や重複の修正などを行って総計 13735 文字となっています。
[79]
[TIME[西暦1991年][1991]]、
[[Bureau of National Standard]]
は改定作業を開始しました。
[SRC[>>77 #page=17]]
[19] 1992(民国81)年5月21日には CNS 11643‐1992
[CITE[中文標準交換碼]]が經濟部中央標準局より修訂公布されました。
[Q[第14字面]]の全部や [[ISO/IEC 10646]] 原案の一部の文字集合を取り込むと共に、
戸籍用などの大量の漢字を追加しています。第1字面と第2字面は変更されていませんが、
更に第7字面まで割当てが増えています。
[20] 2003年には中文全字庫のサイト (>>10) で2004年に新版を予定していることが発表されています。
また、 [[Big5]] や [[ISO/IEC 10646]] との対応も明らかにされています。
- [11] 4.0版全字庫には「日文平/片假名字母、台語發音、歐元(歸類於[單位符號])、國字O(歸類於[數字符號])等210個符號」が追加されているようです。字碼査詢にも追加されています。
- [12] >>11 ''問題集 有日文/台語發音/歐元/國字O等符號嗎?'' <http://www.cns11643.gov.tw/web/faq_19.jsp>
- [13] >>11 ''紅眠の愛の秘密日記・2003年8月'' <http://www.din.or.jp/~khoming/nikki/current.htm?08170000#aug8>
- [14] >>11-13 しかしながら、 CNS 11643 が改正されたわけではなさそうです。 [[CNS]] 検索しても最新版は 1992 ですし、 cns11643.gov にもそんなことは書かれてません。謎です。改訂予定の先取りでしょうか?
- [15] ちなみに cns11643.gov.tw の符号(記号)検索ではなぜかローマ数字小文字が載ってません。 [[UCS]] との対応は Unicode の Big5 との対応表(糞)によったものらしく、滅茶苦茶です。丸つき数字や部首などは対応無しになってます。
- [16] >>15 腐った廃れ規格の間違った対応表なんかに屈せずに、ちゃんと自前の対応表を用意して欲しい。こういうところだけは [[JIS]] を見習ってほしい。
[22] [CITE@en[中 Traditional Chinese — coq.no]]
( ([TIME[2012-04-15 09:39:38 +09:00]] 版))
<http://coq.no/character-tables/chinese-traditional/en>
[FIG(quote)[
[FIGCAPTION[
[34] [CITE@ja[蘇州号碼 - Wikipedia]]
([TIME[2018-04-27 10:33:56 +09:00]])
<https://ja.wikipedia.org/wiki/%E8%98%87%E5%B7%9E%E5%8F%B7%E7%A2%BC>
]FIGCAPTION]
> 最初の版である CNS 11643-1986 では、10・20・30も収録されていたが、いずれものちに漢数字に統合された。蘇州号碼の10と30だった符号位置には現在は文字が割り当てられていない。蘇州号碼の20だった符号位置には、漢数字の20「卄」が割り当てられている。(Big5も版は未詳だが同様)
]FIG]
[35]
[DFN[CNS 11643-1]],
[DFN[CNS 11643-2]],
[DFN[CNS 11643-3]]
は第1字面、第2字面、... の意味で使われることもありますが、
実は別[[規格]]の名前です。
1 は廃止済みです。
[37] [CITE@zh-Hant[最新消息 - 字形新增異動公告 - CNS11643 中文全字庫]]
([[CMEX中文數位化推廣基金會]], [TIME[2020-10-14T06:06:43.000Z]])
<https://www.cns11643.gov.tw/newsList.jsp?ID=1>
[59] [CITE@ja-jp[CNS 11643 ‐ 通信用語の基礎知識]], [TIME[2022-05-03T02:42:53.000Z]] <https://www.wdic.org/w/WDIC/CNS%2011643>