-
Notifications
You must be signed in to change notification settings - Fork 4
/
763.txt
430 lines (325 loc) · 17.6 KB
/
763.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
[21] [DFN[[[JIS X 0208]]]] は、[[日本語]]表記に用いられる基本的な[[文字]]を含んだ[[符号化文字集合]]でした。
[[Unicode]] が普及する前に[[日本]]国内で広く用いられていました。
* 符号化文字集合
[FIG(list)[
- 7ビット符号
- 8ビット符号
- [[シフト符号化表現]] ([[シフトJIS]]の一種)
- [[RFC1468符号化表現]] ([[ISO-2022-JP]] もどき)
]FIG]
** 文字集合
[FIG(short list)[ [35] [[JIS X 0208]] [[文字集合]]
- [[JIS非漢字]]
- [[JIS漢字]]
-- [[第1水準漢字]]
-- [[第2水準漢字]]
]FIG]
[FIG(short list)[ [53] 怪しい[[文字]]
- [CODE(charname)@en[LARGE CIRCLE]]
]FIG]
* 適合性
[4] '''情報交換の適合性''' [SRC[JIS97 3.2]]
-[5] [Q[[[交換用符号化情報]]の[[符号化文字データ要素]]]]は、
そのすべての[[文字]]の[[ビット組合せ]]が[[JIS X 0208]]:1997のいずれかの[[符号化文字集合]]の条件をすべて満たす場合、[[適合]]します。
-[7] [[適合性]]を主張する場合は、
採用した[[符号化文字集合]]を[Q[[[文書]]に明記]]しなければなりません。
-[8] 採用した[[符号化文字集合]]の[[制御機能]]の[[適合性]]は、
[[JIS X 0211]] (最新版) によります。
;; 3.1節 (>>1-3) は適用されるのでしょうかね?
内容からすれば >>2-3 は適用できそうですが。。。
[9] '''装置の適合性'''
-3.1 (>>1-3)
-3.3.1 (>>10)
-3.3.2 (>>11) または 3.3.3 (>>12) の一方又は両方
のすべてを満たす場合、[[装置]]は[[適合]]します。
[[適合性]]を主張する場合、
採用した[[符号化文字集合]]を[Q[[[装置]]に附属する[[文書]]に明示]]しなければなりません。
[SRC[JIS97 3.3]]
[10]
[Q[[[利用者]]が[[装置]]に[[文字]]を供給するための方法、又は[[文字]]が[[利用者]]に提示されたときにその[[文字]]であることを認識するための方法を示す記述を備えなければならない。]]
[SRC[JIS97 3.3.1]]
[11] '''送信装置の要件'''
>[[送信装置]]は、[[符号化文字集合]]から作られる任意の[[文字]]の列を、
[[利用者]]が供給できるようにしなければならない。さらに、
[[送信装置]]は、[[CCデータ要素]]中にあるそれらの[[文字]]の[[ビット組合せ]]を[[送信]]する能力をもたなければならない。
[SRC[JIS97 3.3.2]]
[12] '''受信装置の要件'''
>[[受信装置]]は、3.2 [INS[(>>4)]] に[[適合]]し、[[CCデータ要素]]を構成する任意の[[符号化文字]]を[[受信]]し、
解釈することができなければならない。さらに、
採用した[[符号化文字集合]]の対応する[[文字]]を[[利用者]]がその[[文字集合]]から識別し、互いに区別できるように[[利用者]]に渡さなければならない。
ただし、[[受信装置]]に[[表現]]上の制約がある場合は、
[[点画]]の省略などを行ってもよいが、
同じ種類の[[図形文字]]中の他のいかなる[[図形文字]]とも区別できなければならない。
> '''備考''' [[装置]]に[[表現]]上の制約があるために[[点画]]の省略などを行う場合、
[[利用者]]に渡される[[図形]]に、6.6.3に定める[[包摂規準]]によって[[包摂]]できないものがあってもよい。
[SRC[JIS97 3.3.3]]
[1]
'''図形文字の適合性'''
[Q[この規格に対して適合性を主張する場合、この規格で規定する6879文字のすべてを実装し[INS[〜]]なければならない。]]
[SRC[JIS97 3.1.1]]
;; 明記されていませんが、流石に[[情報交換]]の適合性を主張するためにこの条件を満たす必要はなく、
[[装置]]の適合性に関する規定と思われます。
[2]
'''空き領域'''
- [[空き領域]]を[[情報交換]]用に用いてはなりません。
[SRC[JIS97 3.1.2]]
- 次の条件を満たす場合は、用いても構いません。
-- [Q[この規格]]が規定している[[図形文字]]を割り当ててはなりません。
[SRC[JIS97 3.1.2 a)]]
-- [[空き領域]]に[[図形文字]]を割り当てる場合、
利用する[[区点位置]]と[[図形文字]]の対応一覧を[Q[[[文書]]で明示]]しなければなりません。
[SRC[JIS97 3.1.2 b)]]
--- 1つの[[図形文字]]を複数の[[空き領域]]に割り当ててはなりません。
[SRC[JIS97 3.1.2 b) 1)]]
--- [[図形文字]]の[[同定]]補助情報
([[名前]], 用途, 意味など) を1つ以上示さなければなりません。
[SRC[JIS97 3.1.2 b) 2), 3)]]
-- [[空き領域]]に[[図形文字]]を割り当てる場合、
[[JIS X 0208]]‐1990に登録された[[終端バイト]]および[[更新番号]]を用いてはなりません。
[SRC[JIS97 3.1.2 c)]]
;; [[情報交換]]にも[[装置]]にも適用されるような感じです。
[3] '''互換性のための包摂規準'''
[[JIS X 0208]]:1997 6.6.4 の[[包摂規準]]の[[区点位置]]それぞれの
(A)、(B)のどちらの[[字体]]を採用したかを[Q[[[文書]]に明示]]しなければなりません。
[SRC[JIS97 3.1.3]]
;; [[情報交換]]にも[[装置]]にも適用されるような感じです。
[13]
'''附属書の符号化表現'''
[[規格本体]]の[[符号化文字集合]]に対する[[適合性]]とは別に、
附属書1で[[シフト符号化表現]]に関する[[適合性]]、
附属書2で[[RFC 1468符号化表現]]に関する[[適合性]]が規定されています。
[14] '''文書に明示'''
頻繁に出てくる[Q[[[文書]]に明示]]とは、どこに明示すればよいのでしょうか。
[[装置]]に関する[[適合性]]ならば、[[装置]]に附属する[[文書]]でよいですが、
[[情報交換]]の[[適合性]]を主張するべき[[文書]]とは何でしょうか。
[[プロトコル]]や[[書式]]の仕様書でよいのでしょうか。
[[#comment]]
* 空き領域
[15]
[[JIS X 0208]]‐1990 の解説によれば・・・。
[[空き領域]]には[Q[[[保留領域]]]]と[Q[[[自由領域]]]]の2つの性質があり、
どの空き部分がどちらの性質かは定めないものの、
2区〜8区、47区、84区は[Q[[[保留領域]]としての性格が強い]]、
9区〜15区、85区〜94区は[Q[[[自由領域]]としての性格が強い]]。
[[自由領域]]は[Q[一時的・局所的に[[文字]]を割り当てて利用しても構わない]]ものの、
[Q[8区及び84区のそれぞれに続く[[区]]は、将来標準化の対象となる可能性があるので、利用する場合には、それぞれの領域の[[区]]番号の最も大きい区 (15区及び94区) から区番号の小さくなる方向に、逆順に割り当てることが望ましい]]そうです。
* Unicode との関係
[38]
[[JIS X 0208]]
そのものには、
直接的には
[[Unicode]]
との関係は示されていません。
[39]
[[JIS X 0208:1997]] 改正では、
すべての[[文字]]に、
[[文字の名前]]が明記されました。
これは[[文字の名前]]によって[[文字]]を同定する [[ISO]]
の[[符号化文字集合]]との対応関係を明確にするものとされました。
事実上、 [[JIS X 0221]] = [[ISO/IEC 10646]] = [[Unicode]]
との対応関係を[[規定]]したものです。
[40]
中でも特に[[漢字]]の[[文字の名前]]は
[[Unicode]]
の[[符号位置]]を使って記述されているので、
ほとんど実質的に [[Unicode]]
との対応関係を規定しているといえます。
[SEE[ [[文字の名前]] ]]
[41]
それでもあくまで[[文字の名前]]を示すという形を取り、
[[Unicode]]
との対応関係を示すとはしていなかったのは、
表面的に同じように見える[[文字]]でも、
その定義が [[JIS]] と [[Unicode]] で異なることが多いからでしょうか。
(あるいは制定当時 [[Unicode]] が[[日本]]で不評だったことと関係しているのでしょうか。)
([[JIS X 0208:2012]] にはこの部分に影響する[[改正]]は含まれませんでした。)
-*-*-
[42]
[[JIS X 0208]] を拡張した形になっている
[[JIS X 0213:2000]] は、
[[JIS X 0208]] に含まれていたものも含めてすべての[[非漢字]]に、
[[文字の名前]]と [[JIS X 0221]] (= [[ISO/IEC 10646]] = [[Unicode]])
の[[符号位置]]を示していました。
([[漢字]]は [[JIS X 0208]] にないものしか示されませんでした。)
([[JIS X 0213:2004]],
[[JIS X 0213:2012]] にはこの部分に影響する[[改正]]は含まれませんでした。)
-*-*-
[45]
[[JIS X 0221]] = [[ISO/IEC 10646]] = [[Unicode]]
は、
[[JIS X 0208]]
を出典として収録した[[漢字]]に
[[JIS X 0208]]
の[[ビット組合せ]]を示していました。
この措置は[[CJK統合漢字]]のみで、
[[非漢字]]は対象外でした。
[52]
[[JIS X 0221-1995]] の[[附属書]]には、
[[JIS X 0208]]
との対応関係が掲載されていました。
[[JIS X 0208:1997]]
で[[文字の名前]]が明記されたことを受け、
その後の改正で削除されました。
-*-*-
[46]
[[90年代]]頃、
[[JIS]] と [[Unicode]] を変換する実装は、
それぞれ勝手な方法で対応関係を決定していました。
[[JIS X 0208]]
の対応関係を含めて数種類が使われ、時折[[文字化け]]を発生させていました。
[FIG(short list)[ [54] [[JIS]] 規定と異なる [[JIS]] と [[Unicode]] の対応関係
- [[MS932]]
- [[eucJP-open]]
- [[CP51932]]
- [CITE[[[XML日本語プロファイル]]]]
- [CITE[[[Encoding Standard]]]]
]FIG]
[47] [[マイクロソフト]]を含む主要事業者は [[JIS X 0208:1997]]
の[[原案委員会]]に代表を送っていたにも関わらず、
自社の実装と [[JIS]] の乖離を放置し、
[[JIS]]
を改正させることも、
自社の実装を修正することもせず問題を放置しました。
[48] 結局[[市場]]を占有した[[マイクロソフト]]の [[CP932]]
と [[Unicode]] との対応関係が、
[[事実上の標準]]となりました。
この情勢が確定的になってからも、
[[JIS X 0208]] や [[JIS X 0213]]
は[[改正]]されず、市場と乖離した状態で放置されています。
[49]
現在では
[CITE[Encoding Standard]]
が
[[Web標準]]としての
[CODE[shift_jis]],
[CODE[euc-jp]],
[CODE[iso-2022-jp]]
を定めています。
ここでは[[事実上の標準]]たる[[マイクロソフト]]の実装法が採用されました。
[[JIS]] と [[Unicode]] の対応関係を最も厳密かつ現実的に定めた標準仕様で、
[[Webブラウザー]]で実装されている他、
[[Web]] 以外の目的にも使えます。
[REFS[ [56] [[JIS]] と [[Unicode]] の関係に問題がある[[文字]]の一覧
- [55] [CITE@en[Character set "[[JIS X 0208]] characters not in JIS X 0208 area of encodings (except for fullwidth variants)"]], [TIME[2020-10-07T06:58:19.000Z]] <https://chars.suikawiki.org/set/%24jisx0208%3Amap-jis-only>
- [57] [CITE@en[Character set "Alternative characters assigned in [[JIS X 0208]] area of encodings (except for fullwidth variants)"]], [TIME[2020-10-07T06:59:02.000Z]] <https://chars.suikawiki.org/set/%24jisx0208%3Amap-nonjis-only>
]REFS]
* 歴史
** 1978年制定
@@
[36] [CITE@ja[地方公共団体情報システム機構 FAQ(よくある質問)]]
( ([TIME[2014-09-04 00:37:41 +09:00]] 版))
<https://www.j-lis.go.jp/jyouhou-syori/machiaza/faq/cms_11310534.html#c>
** 1983年改訂
@@
[27] [[OASYS]] は 0x7E21-7E24 にそれぞれ「堯槇遙瑤」を割り当てていたといいます。
[50]
[[フォント]]として
[[JIS X 9051]],
[[JIS X 9052]]
が制定されました。
[[JIS X 0208]]
の[[文字]]の[[グリフ]]を定義していました。
[[JIS X 0208-1983]]
の[[例示字形]]より更に簡略化されたものもありました。
[51]
両[[規格]]はその後改訂も廃止もされず放置されています。
** 1990年改訂
[16] [DFN[[[JIS X 0208-1990]]]] [CITE[情報交換用符号]]は、
1990年/平成2年9月1日制定、9月6日[[官報]]公示。
[30] 拡張は [[JIS X 0208]] とは別の[[規格]] [[JIS X 0212]] として出版されました。
** 符号化方式
[22] 初期には ([[JIS]] の[[文字集合]]のみ採用して[[符号化]]の規定は無視して) 色々な符号化方式が試みられたようです。
[23] [[PC-9801]] より前の [[NEC]] の [[BASIC]] の[[文字コード]]は、
[DFN[NEC漢字コード]]や [DFN[NEC JIS]] と呼ばれていました。
ESC 4B で2バイトモードに、 ESC 48 で1バイトモードに切り替わりました。
1バイトモードは、
[FIG(list)[
- 0x00-7F [[ASCII]] (?)
- 0x80-9F 罫線・記号
- 0xA1-DF [[JIS X 0201片仮名用図形文字集合]]
- 0xE0-FF 罫線・記号
]FIG]
が含まれていました。2バイトモードは、 0x2121-7E7E に [[JIS X 0208]]
が含まれていました。 [SRC[>>24]]
[25] [[8801漢字BASIC]]や[[新8801漢字BASIC]]は、
0x00-FF [[JIS X 0201]] と 0xA1A1-FEFE [[JIS X 0208-1978]]
を 0x7F で切り替えるものでした。文字列の最初と最後は1バイトモードでした。
[SRC[>>24]]
[26] [[N[SUB[88]]-漢字BASIC]] は、
0xFD から始まる [[JIS X 0201]] モードと
0xFA から始まる [[JIS X 0208-1978]] (0x2121-7E7E) モードを切り替えるものでした。
先頭は必ず 0xFD か 0xFA でした。
[[JIS X 0208]] は[[リトルエンディアン]]でした。 [SRC[>>24]]
[REFS[
- [24] [CITE@ja[88のBASICとその漢字コードについて]] ([[Yoshihiko Ohta]] 著, [TIME[2011-07-09 02:21:53 +09:00]] 版) <http://www.kiwi-us.com/~ohta/pc88/kanji/>
]REFS]
[28] 「UNISYS 漢字」は、 [[JIS X 0201]] をベースに、
0x93 0x70 で漢字モードに切り替え、 0x93 0xF1 で元に戻すこととしていました。
漢字モードは、 0x2020 で [CODE(char)[[[U+3000]]]] を表し、
0xA1A2-FEFE で [[JIS X 0208]] のその他の文字を表していました。
** 1997年改訂
[17] [DFN[[[JIS X 0208:1997]]]]
[DFN[[CITE[7ビット及び8ビットの2バイト情報交換用符号化漢字集合]]]]。
[18] 1996年11月〜1997年12月には[[公開レビュー]]が行われました。
[19] [[JIS漢字字典]] (初版、増補改訂版) にも収録されています。
[20] <http://www.webstore.jsa.or.jp/webstore/JIS/html/jp/errata/errata0205/jis_x_00208_000_000_1997_cor_1_200205_j_i4.pdf>
で正誤表が発行されています。
[31] [[シフト符号化表現]]と[[RFC1468符号化表現]]はこの改定で追加されました。
[37] [CITE[topics]]
([[IPSJ/ITSCJ]], [TIME[2020-10-04T04:35:53.000Z]], [TIME[1998-01-21T17:13:28.866Z]])
<https://web.archive.org/web/19980121171328/http://www.itscj.ipsj.or.jp/topics/jisx0208.html>
** 2000年
[29]
[TIME[平成12(2000)年][year:2000]]の拡張は、
[[JIS X 0208]] の改訂ではなく、別[[規格]] [[JIS X 0213:2000]]
として出版されました。
[33] [CITE[JIS-UCS mapping issues and difference between JIS and MS-KANJI]]
([TIME[2018-05-19 19:32:28 +09:00]])
<https://web.archive.org/web/20021001104727/http://www.asahi-net.or.jp:80/~EZ3K-MSYM/charsets/jis2ucs.htm>
** 2004年
[43]
[TIME[平成16(2004)年][year:2004]]の変更は、
[[表外漢字字体表]]に関するものでした。
[[JIS X 0208]]
部分に関わるのに
[[JIS X 0213:2004]]
としてだけ改正され、
[[JIS X 0208]]
は放置されました。
[6]
[CITE[Windowsの次期バージョンWindows Vista(TM)において日本語フォント環境を一新]] <http://www.microsoft.com/japan/presspass/detail.aspx?newsid=2353>
([[名無しさん]] [WEAK[2005-07-30 02:52:18 +00:00]])
** 2012年
[44]
[TIME[平成24(2012)年][year:2012]]の変更は、
[[常用漢字表]]改正に関係するもので、
[DFN[JIS X 0208:2012]]
と
[[JIS X 0213:2012]]
として[[改正]]されました。
どちらも元の[[仕様書]]に対する[[差分仕様書]]として発行されました。
[FIG(quote)[
[FIGCAPTION[
[32] ( ([TIME[2015-02-24 14:31:48 +09:00]]))
<http://www.moj.go.jp/content/000001895.pdf>
]FIGCAPTION]
> (1)使用可能文字
> ・ JIS X 201 及び JIS X 0211 が定義する文字集合(ただし,一部を除いた制御文字及び 1 バイト仮名文字は除く。)を使用可能と
> する。
> ・ JIS X 0208-1997 が定義する文字集合(非漢字,第一水準漢字及び第二水準漢字)を使用可能とする。
> (2)使用不可文字
> ・ JIS X 0208-1997 が定義する文字集合のうち,次の 6 文字を使用不可とする。
> 「―」,「~」,「∥」,「¢」,「£」及び「¬」
> ・ 申請データに外字(JIS X 201 及び 0208-1997 に定義されていない文字)が含まれている場合には,その外字の読みをカタカナ
> で記録する。
> (3)文字コード規定
> 8-bit UCS Transformation Format(UTF-8)にて規定された文字コードとする。
]FIG]
[FIG(quote)[
[FIGCAPTION[
[34] [CITE@ja[Yahoo!官公庁オークション - 那須塩原市(せり売) インターネット公売ガイドライン]]
([TIME[2018-07-20 12:38:40 +09:00]])
<https://koubai.auctions.yahoo.co.jp/auction/guideline?pid=toc_nasushiobara_city>
]FIGCAPTION]
> 公売システムにおいて使用する文字は、JIS第1第2水準漢字(JIS(工業標準化法(昭和24年法律第185号)第17条第1項の日本工業規格)X0208をいいます)であるため、不動産登記簿上の表示などと異なることがあります。
]FIG]