/
780.txt
382 lines (257 loc) · 17.2 KB
/
780.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
[647] [DFN[[[INTERNATIONAL REGISTER OF CODED CHARACTER SETS TO BE USED WITH ESCAPE SEQUENCES]]]]
([DFN[[[ISO-IR]]]]、[DFN[[[エスケープ・シーケンスと共に用いられる符号化文字集合の国際登録簿]]]])
は、 [[ISO/IEC 2022]] によって規定される[[エスケープ・シーケンス]]によって利用できる[[符号化文字集合]]や[[符号化制御機能]]の国際登録簿です。
[650] [[ISO/IEC 2375]] で規定される登録手続きに基づき [[IPSJ/ITSCJ]] によって管理されていますが、
2004年以後登録がなく、実質的に凍結されている状態です。
;; [651] 登録業務についての文書 (>>649) は2007年に更新されています。
* 仕様書
[REFS[
- [42] [CITE[ISO/IEC 2375]] >>37
- [17] [CITE[ISO-IR.pdf]], [TIME[2021-05-21T12:42:23.000Z]], [TIME[2022-04-29T06:39:02.357Z]] <https://www.itscj-ipsj.jp/custom_contents/cms/linkfile/ISO-IR.pdf>
-- [9] [CITE[INTERNATIONAL REGISTER OF CODED CHARACTER SETS TO BE USED WITH ESCAPE SEQUENCES]] ([TIME[2014-06-23 15:27:15 +09:00]] 版) <https://www.itscj.ipsj.or.jp/itscj_english/iso-ir/ISO-IR.pdf>
--- 消滅確認 [TIME[2022-04-29T06:39:41.500Z]]
--- [656] 旧URL [CITE[International Register of Coded Character Sets]] ([TIME[2007-03-12 09:43:33 +09:00]] 版) <http://kikaku.itscj.ipsj.or.jp/ISO-IR/>
---- [648] 旧URL [CITE@en[INTERNATIONAL REGISTER OF CODED CHARACTER SETS TO BE USED WITH ESCAPE SEQUENCES]]
<http://www.itscj.ipsj.or.jp/ISO-IR/>
- [10] <https://www.itscj.ipsj.or.jp/itscj_english/iso-ir/practice.zip> [TIME[2015-11-28T05:39:49.700Z]]
-- 消滅確認 [TIME[2022-04-29T06:40:12.500Z]]
-- [657] 旧URL [CITE@ja[Practice of Registration Authority]] ([TIME[2007-07-13 10:49:37 +09:00]] 版) <http://kikaku.itscj.ipsj.or.jp/ISO-IR/practice/practice.html>
--- [649] 旧URL [CITE@ja[Practice of Registration Authority]]
([TIME[2007-07-13 19:49:37 +09:00]] 版)
<http://www.itscj.ipsj.or.jp/ISO-IR/practice/practice.html>
]REFS]
[18]
[[ITSCJ]] は [[URL]] 変えすぎだろ・・・まじめにやれ
>>30
* 呼称
[1] [[ECMA]] が管理してきたので [DFN[[[ECMA Registry]]]] とも呼ばれていたが、
現在は [[IPSJ/ITSCJ]] が管理している。
[2] [[IANAREG]] などに対して ''ISOREG'' とも呼ばれる。
* 登録番号
[23]
[[ISO-IR]] に登録されている[[符号化文字集合]]等にはそれぞれ登録番号として固有の[[非負整数]]が割り当てられています。
[53]
[[ISO-IR]] 登録簿では最短表記の他に、[[0埋め]]の3桁表記も使われています。
現時点で4桁の登録番号はありません。
[54]
例外的に8番、9番は 8-1, 8-2, 9-1, 9-2 の枝番が使われています。
主集合と補助集合の組合せに使われています。
それ以後は対になる集合でも単独の番号が割り振られるように変化したようです。
;; [55] 枝番は登録簿だけのもので、用法に制限はありません。
[24]
[[ISO/IEC 2022]] の[[文字列]]には登録番号は使われません.
[25]
[[ISO/IEC 2022 abstract character syntax]]
や
[[ISO/IEC 2022 character transfer syntax]]
の[[オブジェクト識別子]]には登録番号が使われます。
(「なし」を表すために [N[0]] が使えます。)
;; [29] ただしなぜか [CODE(charname)@en[IRR]] のかわりには改訂番号が使われます。
[16] [[DICOM]] は [[ISO-IR]] の登録番号を識別に使っている.
[SRC[>>15]]
[26]
[[公開文種別]] [CODE[CHARSET][公開テキスト指示シーケンス]] の[[公式公開識別子]]には登録番号が使われることがあります。
(そうでない場合もあります。)
[27]
[[MIME charset]] 名には [[ISO-IR]] 登録番号が使われることがあります。
(命名に使われることがあるというだけで、必ずではありません。)
[28]
[[ISO-IR 165]] など登録番号が[[符号化文字集合]]の通称と化したものもあります。
[REFS[
- [15] [CITE[DICOMに慣れる - dicom_201002_MRC_vol19-1.pdf]], [TIME[2011-11-29T09:06:51.000Z]], [TIME[2020-12-10T11:43:48.370Z]] <http://www.jira-net.or.jp/dicom/file/dicom_201002_MRC_vol19-1.pdf>
]REFS]
* 登録されているのは何か
[19]
[[ISO-IR]] が登録したものは何か、について、
- [20] [[符号化文字集合]]
- [21] [[エスケープシーケンス]]
- [22] [[終端バイト]]
... の少なくても3つの解釈があり得ます。
3つのうち[[符号化文字集合]]については、
その同定について異なる解釈をし得ます。
[[ISO/IEC 2022]], [[ISO/IEC 2375]],
[[ISO-IR]], その他関連仕様の文言の解釈次第でどうとでも取りようがあります。
どれが本来の正しい解釈なのかはよくわかりません。
([[spec lawyer]] 以外には興味ないのかもしれませんが。)
[SEE[ [[指示シーケンス]], [[公開テキスト指示シーケンス]], [[IRR]] ]]
* 予約終端バイト
[SEE[ [[指示シーケンス]] ]]
* 登録手続き
[33]
各国代表機関等から申請があると、
[[SC2]] の審議があり、
通過すれば
[[RA]]
が登録簿に追加します。
[34]
詳しくは
[[ISO/IEC 2375]]
が定めています。
事務手続きは
[[RA]]
が定めています
[SRC[>>10]]。
-*-*-
[652] [[ISO/IEC]] は[[国家]]間の[[標準化団体]]であり、[[ISO-IR]]
への登録も[[政治的]]な利害の影響下にあります。
[35]
[[ISO/IEC 2022]] の元で利用可能な[[符号化文字集合]]が規定されたとしても当該国の代表部が [[ISO-IR]]
への登録手続きを行うとは限りませんし、参加資格がなく手続きを行えないかもしれません。
[653] 実際、[[中華人民共和国]]は [[GB 2312]] や [[ISO-IR-165]]
以外にも多数の[[94[SUP[2]]符号化文字集合]]を定義する[[国家規格]]を有しているにも関わらず、
[[ISO-IR]] に登録していません。
[654] [[台湾]]の [[CNS 11643]] は[[第1字面]]から[[第7字面]]までが登録されていますが、
[[政治的な問題]]から容易ではありませんでした。
後に追加された[[第8字面]]から[[第80字面]]は登録されていません。
[[CCCII]] も登録されていません。
[655] [[大韓民国]]は1992年以後数度にわたって [[KS X 1001]] に[[文字]]を追加していますが、
[[ISO-IR]] に改訂版を登録していません。
[11] 国内でどれだけ用いられていても、それが[[国家規格]]化されるなどして当該国が登録申請しない限り、
[[ISO-IR]] に登録されることはありません。逆に全く使われていないとしても、
当該国が正当な手続きを踏めば登録されています。
[36]
ただし
[[JTC1/SC2]] は既に [[ISO/IEC 2022]] への関心を失っているため、
この先たとえ国内規格で [[ISO/IEC 2022]]
の元で利用可能な[[符号化文字集合]]を策定しても、 [[ISO-IR]] に登録するのは困難そうです。
* 登録内容の変更
[57]
既存の登録はそのままに改訂版を追加登録し、
追加の[[エスケープシーケンス]]を使う [CODE(charname)@en[IRR]]
があります。
[SEE[ [[IRR]] ]]
** 登録簿の書き換え
[58] [CITE[00000001.PDF - 054.pdf]], [TIME[2022-11-02T03:16:07.000Z]], [TIME[2022-12-10T04:15:16.243Z]] <https://itscj.ipsj.or.jp/ir/054.pdf>
[59] >>58 登録1年後に書き換えたと注記があります。
書き換えた前の記述の一部がうっすら見えています。
[N[4/15]] と [N[5/15]] の入れ替えがあったようです。 (誤記の訂正?
だとしても[[非互換変更]]ですが。。。)
[60] [CITE[00000001.PDF - 070.pdf]], [TIME[2022-11-02T03:16:09.000Z]], [TIME[2022-12-10T04:40:24.782Z]] <https://itscj.ipsj.or.jp/ir/070.pdf>
[61] >>60 原規格の改訂により1文字追加され、登録番号と[[終端バイト]]は変更せずに登録簿も変更されたと書かれています。
一応番号欄に「70 Rev.」と書かれてはいますが。
[68] [CITE[00000001.PDF - 085.pdf]], [TIME[2022-11-02T03:16:10.000Z]], [TIME[2022-12-10T04:54:36.228Z]] <https://itscj.ipsj.or.jp/ir/085.pdf>
[69] 修正痕があります。何も書かれていないので事情は不明。
[74] [CITE[00000001.PDF - 126.pdf]], [TIME[2022-11-02T03:16:17.000Z]], [TIME[2022-12-10T05:37:50.006Z]] <https://itscj.ipsj.or.jp/ir/126.pdf>
[75] >>74 新しい文字集合の登録へのリンクが追加されています。
[76]
[CITE[00000001.PDF - 165.pdf]], [TIME[2022-11-02T03:16:25.000Z]], [TIME[2022-12-10T06:13:55.724Z]] <https://itscj.ipsj.or.jp/ir/165.pdf>
[77] 訂正されたと書かれています。
-[78] [CITE[00000001.PDF - 171.pdf]], [TIME[2022-11-02T03:16:29.000Z]], [TIME[2022-12-10T06:19:55.215Z]] <https://itscj.ipsj.or.jp/ir/171.pdf>
-[80] [CITE[00000001.PDF - 172.pdf]], [TIME[2022-11-02T03:16:29.000Z]], [TIME[2022-12-10T06:20:51.776Z]] <https://itscj.ipsj.or.jp/ir/172.pdf>
[79] 訂正されたと書かれています。
** 登録の取り下げ
[50] withdraw された登録が数個あります。
withdrawn の登録はその旨が記載されるだけで、削除や[[終端バイト]]の再利用はされません。
[67] 取り下げを示すページが追加されているもの:
-[66] [CITE[025.pdf]], [TIME[2022-11-02T03:16:05.000Z]], [TIME[2022-12-10T04:53:20.630Z]] <https://itscj.ipsj.or.jp/ir/025.pdf>
- [70] [CITE[00000001.PDF - 099.pdf]], [TIME[2022-11-02T03:16:13.000Z]], [TIME[2022-12-10T04:57:46.568Z]] <https://itscj.ipsj.or.jp/ir/099.pdf>
-[62] [CITE[00000001.PDF - 072.pdf]], [TIME[2022-11-02T03:16:09.000Z]], [TIME[2022-12-10T04:46:14.402Z]] <https://itscj.ipsj.or.jp/ir/072.pdf>
-[71] [CITE[00000001.PDF - 173.pdf]], [TIME[2022-11-02T03:16:29.000Z]], [TIME[2022-12-10T05:23:49.945Z]] <https://itscj.ipsj.or.jp/ir/173.pdf>
[63] >>62 一覧表では取り下げと記載されリンクもされていないのですが、
登録自体はあって取り下げの旨は書かれていません。
[72] >>71 がそれを置き換えた新しい方。[[終端バイト]]はそのままで[[文字集合]]が変更されています。
[64] [CITE[00000001.PDF - 088.pdf]], [TIME[2022-11-02T03:16:11.000Z]], [TIME[2022-12-10T04:52:23.615Z]] <https://itscj.ipsj.or.jp/ir/088.pdf>
[65] >>64 訂正されたとあります (変更点不明)。その後?取り下げを示すページが追加されています。
* ISO/IEC 2375
[37]
[DFN[ISO/IEC 2375:2003]]
([TIME[2003-02-15]]制定)
[38]
[DFN[KS X 1023:2003]] :
[[MOD]] [[ISO/IEC 2375:2003]]
[41]
なぜ [[MOD]] で [[IDT]] でないのか書いてないし読んでもわからない。
[39]
[[KS]] は何を思って登録手続きを[[国内規格]]化してるのかわからない。
[[登録機関]]に関係していないし、積極的に登録してもいないし。
[40]
逆に
[[ITSCJ]] は [[RA]] を受託してるくせに
[[JISC]] は
[[JIS]] 版を制定していない。
* GB/T 12054-1989
[43]
[DFN[GB 12054-89]]
[CITE[[L[数据处理[BR[]]转义序列的登记规程]]]]
は、
[[GB 2311]] ([[ISO 2022]])
用[[エスケープシーケンス]]の登録に関する[[中華人民共和国]]の [[GB]] です。
[44]
[[NEQ]] [[ISO 2375]]
という扱いになってますが、
[[エスケープシーケンス]]の登録という点以外まったく内容が違ってます。
[[NEQ]] ってこういうときに使うのですね。
[45]
[[ISO 2375]] が国際登録簿 [[ISO-IR]] を定めるのに対し、
[[GB 12054]] は[[中華人民共和国]]の国家登记表 [DFN[C-R]] を定めています。
[46]
すなわち、
[[中華人民共和国]]の国内から申請があった時、
標準的なものは [[ISO-IR]] へも登録、
特定[[応用]]向けのものは国内登記表のみに登録と振り分ける手続きになっています。
[47]
国内のみのものには[[私用終端バイト]]を割り当てることになっています。
[SEE[ [[私用終端バイト]] ]]
[48]
国家登记表の内容は不明です。
登記所は[[中国电子技术标准化研究所]]と書かれていて、
現在[[中国电子技术标准化研究院]]と呼ばれている組織と思われますが、
登記についての情報は見つけられません。
[49]
[[GB 12345]] など [[ISO-IR]] に登録されていない[[符号化文字集合]]はここに登録する構想だったのでしょうか?
あるいは既に登録されているのでしょうか?
* Unicode との関係
[73]
末期に登録された[[文字集合]]には [[ISO/IEC 10646]] との対応関係が明示されているものもあります。
[82] >>5 [[テキストファイル]]の変換表が提供されている例、このような事例はこれ1つだけ
[83]
末期に登録された[[文字集合]]には [[ISO/IEC 10646]] 式の[[文字の名前]]が与えられているものもあります。
[84] しかしそうしたものは例外的で、ほとんどは [[Unicode]] との関係が
[[ISO-IR]]
だけ見てもわからないものです。 [[Unicode]] にない[[文字]]も多いです。
([[制御文字]]は [[Unicode]] が意図的に不採用にしたらしく、基本的にないです。)
[85]
[[ISO-IR]] になくても原規格または原規格の最新版を見れば
[[ISO/IEC 10646]] との関係または [[ISO/IEC 10646]] 式の[[文字の名前]]が得られる物もいくつかはあります。
[86]
[[ISO/IEC 646の版]]など、源規格の定義から他の規格の[[文字]]との同定が可能で、
間接的に [[Unicode]] との関係を確定できるものもままあります。
;; [87] なお、対応関係が決められるとしても、
[[Unicode]] と文字の意味 (semantics) が等しいことは意味しません。
例えば [[ISO/IEC 646]] の「"」は「¨」を兼ねていますし、
「`」は「‘」を兼ねています。
-*-*-
[81] [[RFC 1345]]
[88] [CITE[[[ecma35lib]]]]
* メモ
[56]
初期は[[タイプライター]]ぽい文字のようですが、ところどころ[[手書き]]っぽい。
[3] 新しく
,227 ,Right-hand part of Latin/Greek alphabet ,6/9 ,2003-07
が追加されてました。 [[JTC1/SC2]]
と [[ELOT]] がスポンサーだそうです。
[4] 10日付けで 232 Turkmen character set for 8-bit codes が登録されました。[[トルクメニスタン]]の [[GR]] 用の 94 文字集合です。[WEAK[旧ソ連 (露西亜を除く。) からの登録は初めてじゃないですか?]]
[5] 登録簿 <http://www.itscj.ipsj.or.jp/ISO-IR/232.pdf>, [[UCS]] 変換表 <http://www.itscj.ipsj.or.jp/ISO-IR/232mapping.txt>
[12] >>5 移転 <https://www.itscj.ipsj.or.jp/iso-ir/232mapping.txt> [TIME[2015-11-28T05:42:58.600Z]]
[30] >>5 >>12 また鯖移転、 [[PDF]] 内に[[リンク]]があるのに古い [[URL]]
のままで[[リンク切れ]]していて写像表を開けなくなってる。仕事雑すぎだろ。
もう誰も使ってない見てないからいいのかもしれんけど、
仕事請けてるのだから真面目にやれよ。
[TIME[2022-05-12T04:26:30.800Z]]
- [31] [TIME[2021-05-21T08:19:22.000Z]], [TIME[2022-05-12T04:24:57.295Z]] <https://www.itscj-ipsj.jp/ir/232mapping.txt>
[6] [[TDS 616]]‐2003 という8ビット符号の規格で定義されているそうです。11列〜14列に、ラテン文字 ([[発音区別符]]つきを含む。) と NUMERO SIGN が並んでます。 [[646]] との互換性はありません。左側には [[IRV]] を使うことを想定しているんですかね? そうだとすると左は英語、右はトルクメニスタン語?の表記専用で別の文字として使うとか? だったら怖いなあ。。。
[7] >>4 実は同じトルクメニスタンの [[TDS 565]] が #230 で先に登録されているのね。で、こっちは [[ISO/IEC 646の版]]。これを左、 #232 を右に使うんだろうか?
[8]
いまさらながら
,233 ,"Japanese Graphic Character Set for Information Interchange, Plane 1 (Update of ISO-IR 228)" ,M ,JISC ,2004-04-13
キター。
;; [13] Update と言ってるけど[[更新番号]]ではなく新しい[[終端バイト]]。
[14] [[CNS 11643]] 第8字面〜第15字面もそのうち登録されるでしょうか?
[32] 234番が最後か。
[51]
単体PDFのURLが死んでるんだが。。。 URL 変えすぎて管理できなくなってるだろ?
[TIME[2022-10-28T12:05:52.700Z]]
[52]
これが日本を代表する[[情報処理学会]]の仕事なんだぞ、しびれるよな
[89] [CITE@ja[SC 2 専門委員会 (符号化文字集合) | IPSJ/ITSCJ 情報処理学会 情報規格調査会]], [TIME[2023-07-18T07:46:39.000Z]] <https://itscj.ipsj.or.jp/committee-activities/report/SC2-2021.html>
>[SNIP[]]その後,本委員会において検討を行った結果,既存のISO/IEC 2375規格の記述の中で,既に登録・実装されている符号化文字集合を参照する場合のため登録情報などについての記述部分を中心とした技術報告書の開発を提案することとなった.