-
Notifications
You must be signed in to change notification settings - Fork 4
/
763.txt
741 lines (565 loc) · 31.2 KB
/
763.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
[21] [DFN[[[JIS X 0208]]]] は、[[日本語]]表記に用いられる基本的な[[文字]]を含んだ[[符号化文字集合]]でした。
[[Unicode]] が普及する前に[[日本]]国内で広く用いられていました。
* 文字集合
[FIG(short list)[ [35] [[JIS X 0208]] [[文字集合]]
- [[JIS非漢字]]
- [[JIS漢字]]
-- [[第1水準漢字]]
-- [[第2水準漢字]]
]FIG]
[FIG(short list)[ [53] 怪しい[[文字]]
- [CODE(charname)@en[LARGE CIRCLE]]
- [[代替名称]]
]FIG]
[118]
[[非漢字]]と[[第1水準漢字]]だけ実装し、
[[第2水準漢字]]は実装しないことが、
古くは珍しくありませんでした。
近年でも[[第1水準漢字]]までしか実装していない[[フォント]]が流通しています。
にも関わらず、
[[JIS X 0208:1997]]
は[[実装水準]]を規定しておらず、そのような実装は規格に適合しません。
(実装が規格に適合しないというか、規格が実態に合っていないというか。)
;; [119] [[JIS X 0213]] は第3水準だけ実装して第4水準を実装しない[[実装水準]]の[[適合性]]を定めているのですがね。
[84]
[[代替名称]]は本体の符号と[[シフト符号化表現]]では認められていますが、
[[RFC 1468符号化表現]]では認められていません。
「[[JIS X 0208]] の漢字集合」には、
- [85] すべて使用するもの
- [86] [[ISO/IEC 646 IRV]] と併用するため重複部分を使用しないもの
- [87] [[ISO/IEC 646 IRV]] と併用するため[[代替名称]]を使用するもの
- [89] [[JIS X 0201]] [[ラテン文字用図形文字集合]]と併用するため重複部分を使用しないもの
- [90] [[JIS X 0201]] [[ラテン文字用図形文字集合]]と併用するため[[代替名称]]を使用するもの
... の少なくても5種類のバリエーションがあるということになります。
本当にそんなのでいいのでしょうか。
[83]
[[JIS X 0208:1997]] [[RFC 1468符号化表現]]は、
[N[1B]] [N[24]] [N[40]] の時一部の文字を入れ替えたものを表す定めていました。
また送受信装置について、
([N[1B]] [N[24]] [N[40]] の時に限定せず)
一部の文字を入れ替え、一部を実装しないことを認めると定めていました。
[SEE[ [[RFC 1468符号化表現]] ]]
前者においては [[JIS X 0208:1997]] のうち [[JIS C 6226-1983]]
で入れ替えられた文字を [[JIS C 6226-1978]] 相当に戻すことを意味します
(注意: 字形変更や追加は戻していないので、 [[JIS C 6226-1978]] と同じものにはならない、
ただし[[互換包摂]]は適用されるはず)。
後者においては、さらに
[[JIS X 0208-1990]]
で追加された文字に関する入れ替えと、
[[JIS C 6226-1983]] および [[JIS X 0208-1990]]
における追加をなかったことにすることを意味します
(注意: 字形変更は戻していないので、 [[JIS C 6226-1978]] と同じものにはならない、
ただし[[互換包摂]]を適用すれば字形を戻しても適合するはず)。
複雑でわかりにくいですが、
簡単に言えば
[[JIS C 6226-1978]],
[[JIS C 6226-1983]],
[[JIS X 0208-1990]]
を雑にミックスしたものでも適合する可能性が高いということになります。
[113]
[[JIS X 0208:1997]]
には正誤票が発行されていて、多数の修正が入っています。
うち、
- [114] [[包摂規準]]2項目追加
- [115] [[包摂規準]]適用対象1文字追加
- [116] [[文字の名前]]変更
[CODE(charname)@en[QUOTATION MARK]] → [CODE(charname)@en[QUESTION MARK]]
は[[文字集合]]の性質に影響する看過できない訂正です。
;;
[117]
第1刷に対する修正で2002.5発行と書かれたものと、
訂正自体はそれと同内容ながら対象・発行日等がないものとの少なくても2種類のバージョンが確認されてます。
正誤票が2種類あるってどういうこと!? (配布経路によって違う?)
[91]
[[JIS X 0208:1997]] [[シフト符号化表現]]は、
一部の文字を入れ替えて実装することを認めていました。
また一部の文字を[[重複符号化]]したり、
[[ビット組合せ]]を変更したり、
削除したりすることを認めていました。
[SEE[ [[シフト符号化表現]] ]]
こちらもやはり
[[JIS C 6226-1978]],
[[JIS C 6226-1983]],
[[JIS X 0208-1990]]
の雑なミックスが適合するという趣旨ですが、
[[シフト符号化表現]]と [[RFC 1468符号化表現]]で微妙に要件が異なっていて、
[[シフト符号化表現]]の方が自由度が高いようです。
([[シフト符号化表現]]の規定は雑すぎて、
おかしな変更を加えても適合し得るような。。。)
違いの理由はよくわかりません。
[[ISO-2022-JP]] ←→ [[EUC-JP]] ←→ [[Shift_JIS]]
を計算で相互変換して実装していた当時 ([[90年代]]まで) の慣習と、
この適合性の要件の微妙な違いは整合しないのではないでしょうか。
[92]
[[JIS X 0208:1997]] の本体と[[シフト符号化表現]]は、
空き領域への文字の追加を一応は認めていました
([[RFC 1468符号化表現]]では禁止)。
ただし本体は文字を追加したら[[エスケープシーケンス]]には[[私用終端バイト]]を用いなければならないとしていました。
[69]
[[ARIB STD-B5]] は [[JIS X 0208-1983]]
の非漢字と第1水準漢字を使っていました。
非漢字の一部[[アクセント記号]]と[[大きな丸]]は[[ノンスペーシング文字]]としていました。
[SEE[ [[ARIB STD-B5]] ]]
[[ARIB STD-B24]] もそれを踏襲していました。
[SEE[ [[ARIB STD-B24]] ]]
* 符号化表現
[72] [[JIS X 0208:1997]] は本体で6種類、
附属書で2種類の[[符号化文字集合]]を定めています。
** JIS X 0208:1997 本体の符号
[70]
[DFN[漢字用7ビット符号]]
- [[CL]] = [[C0]] : [[JIS X 0211]] [[C0]]
- [CODE(charname)@en[SP]]
- [[GL]] = [[G0]] : [[JIS X 0208:1997]]
- [CODE(charname)@en[DEL]]
[71]
[DFN[漢字用8ビット符号]]
- [[CL]] = [[C0]] : [[JIS X 0211]] [[C0]]
- [CODE(charname)@en[SP]]
- [[GL]] = [[G0]] : [[JIS X 0208:1997]]
- [CODE(charname)@en[DEL]]
- [[CR]] = [[C1]] : [[JIS X 0211]] [[C1]] または使用しない
[73]
[DFN[国際基準版・漢字用7ビット符号]]
- [[CL]] = [[C0]] : [[JIS X 0211]] [[C0]]
- [CODE(charname)@en[SP]]
- [CODE(charname)@en[DEL]]
- [[G0]] : [[ISO/IEC 646 IRV]]
- [[G1]] : [[JIS X 0208:1997]]
- [[固定シフト]] [CODE(charname)@en[SI]], [CODE(charname)@en[SO]]
- [[GL]] 初期状態は[[情報交換の当事者間の合意]]による、 [[IRV]] が「望ましい」
[74]
[DFN[国際基準版・漢字用8ビット符号]]
- [[CL]] = [[C0]] : [[JIS X 0211]] [[C0]]
- [CODE(charname)@en[SP]]
- [[GL]] = [[G0]] : [[ISO/IEC 646 IRV]]
- [CODE(charname)@en[DEL]]
- [[GR]] = [[G1]] : [[JIS X 0208:1997]]
[75]
[DFN[ラテン文字・漢字用7ビット符号]]
- [[CL]] = [[C0]] : [[JIS X 0211]] [[C0]]
- [CODE(charname)@en[SP]]
- [CODE(charname)@en[DEL]]
- [[G0]] : [[JIS X 0201]] [[ラテン文字用図形文字集合]]
- [[G1]] : [[JIS X 0208:1997]]
- [[固定シフト]] [CODE(charname)@en[SI]], [CODE(charname)@en[SO]]
- [[GL]] 初期状態は[[情報交換の当事者間の合意]]による、 [[IRV]] が「望ましい」
[76]
[DFN[ラテン文字・漢字用8ビット符号]]
- [[CL]] = [[C0]] : [[JIS X 0211]] [[C0]]
- [CODE(charname)@en[SP]]
- [[GL]] = [[G0]] : [[JIS X 0201]] [[ラテン文字用図形文字集合]]
- [CODE(charname)@en[DEL]]
- [[GR]] = [[G1]] : [[JIS X 0208:1997]]
;; [82] [[日本語EUC]]に似ているがなんか違う。
そして [[JIS X 0208]] ではなぜか[[日本語EUC]]が定められていない。
([[JIS X 0213]] では定められている。
方針が変わったのか、あえてそうしたのか。)
[78] [[IRV]]/[[ラテン文字用図形文字集合]]を使う場合、
[[JIS X 0208]] 中の同じ文字は使用禁止。
ただし「観葉的な利用との互換」のため[[代替名称]]を使っても良い。
[77] [[重ね打ち]]禁止。
** JIS X 0208:1997 附属書の符号
[79] [[JIS X 0208:1997]] は[[附属書]]で他に2つ定めていました。
- [[シフト符号化表現]] ([[シフトJIS]]の一種)
- [[RFC 1468符号化表現]] ([[ISO-2022-JP]] もどき)
[80] [[ISO/IEC 2022]] 系の[[符号]]が本体、
それ以外が[[附属書]]という線引があるんですかね?
([[RFC 1468符号化表現]]が [[ISO/IEC 2022]] 系かどうかはよくしらんけどw)
[81]
本体でどこの誰が使ってるんだかよくわからん符号を定めて、
附属書で実際に用いられている符号を用いるというのは何なんだろうね?
(よくわからん符号を定めているのは [[JIS X 0201:1997]] も同じ。)
** ISO/IEC 2022 エスケープシーケンス
[94] [[JIS X 0208:1997]] 本体は
[[ISO/IEC 2022]]
環境における[[指示シーケンス]]を定めています。
それは [[JIS X 0208-1990]] と同じものです。
- [102] [[JIS X 0208-1990]] および [[JIS X 0208:1997]]
-- [95] [[G0]]: [CODE(charname)@en[ESC]] [N[2/6]] [N[4/0]]
[CODE(charname)@en[ESC]] [N[2/4]] [N[4/2]]
-- [96] [[G1]]: [CODE(charname)@en[ESC]] [N[2/6]] [N[4/0]]
[CODE(charname)@en[ESC]] [N[2/4]] [N[2/9]] [N[4/2]]
-- [97] [[G2]]: [CODE(charname)@en[ESC]] [N[2/6]] [N[4/0]]
[CODE(charname)@en[ESC]] [N[2/4]] [N[2/10]] [N[4/2]]
-- [98] [[G3]]: [CODE(charname)@en[ESC]] [N[2/6]] [N[4/0]]
[CODE(charname)@en[ESC]] [N[2/4]] [N[2/11]] [N[4/2]]
[99] [[外字]]を使う場合はこれらを使ってはならず、
[[私用終端バイト]]を使わなければならない、
なぜなら1文字でも違うなら違った[[図形文字集合]]だからだ、
とあります。
[93] [[JIS X 0208:1997]] は[[例示字形]]こそ [[JIS X 0208-1990]]
から変えていないものの、[[区点位置]]とそこに割り当てられた[[符号化文字]]の解釈が変化したと思われる事例が多い。
しかし[[終端バイト]]は変更されておらず、[[図形文字集合]]として等しいと認識されているらしい。
(少なくても[[代替名称]]関係、[[大きな丸]]、「〆」、[[互換包摂]]などは
[[JIS X 0208-1990]] と意味論的に等しいとはいえないはず。)
- [103] [[JIS C 6226-1978]]
-- [104] [[G0]]:
[CODE(charname)@en[ESC]] [N[2/4]] [N[4/0]]
-- [105] [[G1]]:
[CODE(charname)@en[ESC]] [N[2/4]] [N[2/9]] [N[4/0]]
-- [106] [[G2]]:
[CODE(charname)@en[ESC]] [N[2/4]] [N[2/10]] [N[4/0]]
-- [107] [[G3]]:
[CODE(charname)@en[ESC]] [N[2/4]] [N[2/11]] [N[4/0]]
- [108] [[JIS C 6226-1978]]
-- [109] [[G0]]:
[CODE(charname)@en[ESC]] [N[2/4]] [N[4/2]]
-- [110] [[G1]]:
[CODE(charname)@en[ESC]] [N[2/4]] [N[2/9]] [N[4/2]]
-- [111] [[G2]]:
[CODE(charname)@en[ESC]] [N[2/4]] [N[2/10]] [N[4/2]]
-- [112] [[G3]]:
[CODE(charname)@en[ESC]] [N[2/4]] [N[2/11]] [N[4/2]]
[100]
[[JIS C 6226-1978]] や [[JIS C 6226-1983]] で使われていた[[終端バイト]]は、
現在も [[ISO-IR]] に登録されており、
現実に広く使われ続けているにも関わらず、
現行 [[JIS X 0208]]
には
[WEAK[([[ISO/IEC 2022]] に適合しない符号とみなされている [[RFC 14681符号化表現]]を除き)]]
規定されていません。
既に改正によって失効した旧版規格を参照しなければ現に用いられている[[エスケープシーケンス]]を理解できないという不健全な状態が放置されています。
;; [101] [[IRR]] がついている [[JIS X 0208-1990]] の[[エスケープシーケンス]]に対応した実装なんてどれだけあるのか怪しいものです。
それを使ったデータはほぼないといって構わないと推測されます。
* 適合性
[4] '''情報交換の適合性''' [SRC[JIS97 3.2]]
-[5] [Q[[[交換用符号化情報]]の[[符号化文字データ要素]]]]は、
そのすべての[[文字]]の[[ビット組合せ]]が[[JIS X 0208]]:1997のいずれかの[[符号化文字集合]]の条件をすべて満たす場合、[[適合]]します。
-[7] [[適合性]]を主張する場合は、
採用した[[符号化文字集合]]を[Q[[[文書]]に明記]]しなければなりません。
-[8] 採用した[[符号化文字集合]]の[[制御機能]]の[[適合性]]は、
[[JIS X 0211]] (最新版) によります。
;; 3.1節 (>>1-3) は適用されるのでしょうかね?
内容からすれば >>2-3 は適用できそうですが。。。
[9] '''装置の適合性'''
-3.1 (>>1-3)
-3.3.1 (>>10)
-3.3.2 (>>11) または 3.3.3 (>>12) の一方又は両方
のすべてを満たす場合、[[装置]]は[[適合]]します。
[[適合性]]を主張する場合、
採用した[[符号化文字集合]]を[Q[[[装置]]に附属する[[文書]]に明示]]しなければなりません。
[SRC[JIS97 3.3]]
[10]
[Q[[[利用者]]が[[装置]]に[[文字]]を供給するための方法、又は[[文字]]が[[利用者]]に提示されたときにその[[文字]]であることを認識するための方法を示す記述を備えなければならない。]]
[SRC[JIS97 3.3.1]]
[11] '''送信装置の要件'''
>[[送信装置]]は、[[符号化文字集合]]から作られる任意の[[文字]]の列を、
[[利用者]]が供給できるようにしなければならない。さらに、
[[送信装置]]は、[[CCデータ要素]]中にあるそれらの[[文字]]の[[ビット組合せ]]を[[送信]]する能力をもたなければならない。
[SRC[JIS97 3.3.2]]
[12] '''受信装置の要件'''
>[[受信装置]]は、3.2 [INS[(>>4)]] に[[適合]]し、[[CCデータ要素]]を構成する任意の[[符号化文字]]を[[受信]]し、
解釈することができなければならない。さらに、
採用した[[符号化文字集合]]の対応する[[文字]]を[[利用者]]がその[[文字集合]]から識別し、互いに区別できるように[[利用者]]に渡さなければならない。
ただし、[[受信装置]]に[[表現]]上の制約がある場合は、
[[点画]]の省略などを行ってもよいが、
同じ種類の[[図形文字]]中の他のいかなる[[図形文字]]とも区別できなければならない。
> '''備考''' [[装置]]に[[表現]]上の制約があるために[[点画]]の省略などを行う場合、
[[利用者]]に渡される[[図形]]に、6.6.3に定める[[包摂規準]]によって[[包摂]]できないものがあってもよい。
[SRC[JIS97 3.3.3]]
[1]
'''図形文字の適合性'''
[Q[この規格に対して適合性を主張する場合、この規格で規定する6879文字のすべてを実装し[INS[〜]]なければならない。]]
[SRC[JIS97 3.1.1]]
;; 明記されていませんが、流石に[[情報交換]]の適合性を主張するためにこの条件を満たす必要はなく、
[[装置]]の適合性に関する規定と思われます。
[2]
'''空き領域'''
- [[空き領域]]を[[情報交換]]用に用いてはなりません。
[SRC[JIS97 3.1.2]]
- 次の条件を満たす場合は、用いても構いません。
-- [Q[この規格]]が規定している[[図形文字]]を割り当ててはなりません。
[SRC[JIS97 3.1.2 a)]]
-- [[空き領域]]に[[図形文字]]を割り当てる場合、
利用する[[区点位置]]と[[図形文字]]の対応一覧を[Q[[[文書]]で明示]]しなければなりません。
[SRC[JIS97 3.1.2 b)]]
--- 1つの[[図形文字]]を複数の[[空き領域]]に割り当ててはなりません。
[SRC[JIS97 3.1.2 b) 1)]]
--- [[図形文字]]の[[同定]]補助情報
([[名前]], 用途, 意味など) を1つ以上示さなければなりません。
[SRC[JIS97 3.1.2 b) 2), 3)]]
-- [[空き領域]]に[[図形文字]]を割り当てる場合、
[[JIS X 0208]]‐1990に登録された[[終端バイト]]および[[更新番号]]を用いてはなりません。
[SRC[JIS97 3.1.2 c)]]
;; [[情報交換]]にも[[装置]]にも適用されるような感じです。
[3] '''互換性のための包摂規準'''
[[JIS X 0208]]:1997 6.6.4 の[[包摂規準]]の[[区点位置]]それぞれの
(A)、(B)のどちらの[[字体]]を採用したかを[Q[[[文書]]に明示]]しなければなりません。
[SRC[JIS97 3.1.3]]
;; [[情報交換]]にも[[装置]]にも適用されるような感じです。
[13]
'''附属書の符号化表現'''
[[規格本体]]の[[符号化文字集合]]に対する[[適合性]]とは別に、
附属書1で[[シフト符号化表現]]に関する[[適合性]]、
附属書2で[[RFC 1468符号化表現]]に関する[[適合性]]が規定されています。
[14] '''文書に明示'''
頻繁に出てくる[Q[[[文書]]に明示]]とは、どこに明示すればよいのでしょうか。
[[装置]]に関する[[適合性]]ならば、[[装置]]に附属する[[文書]]でよいですが、
[[情報交換]]の[[適合性]]を主張するべき[[文書]]とは何でしょうか。
[[プロトコル]]や[[書式]]の仕様書でよいのでしょうか。
[[#comment]]
* 空き領域
[15]
[[JIS X 0208]]‐1990 の解説によれば・・・。
[[空き領域]]には[Q[[[保留領域]]]]と[Q[[[自由領域]]]]の2つの性質があり、
どの空き部分がどちらの性質かは定めないものの、
2区〜8区、47区、84区は[Q[[[保留領域]]としての性格が強い]]、
9区〜15区、85区〜94区は[Q[[[自由領域]]としての性格が強い]]。
[[自由領域]]は[Q[一時的・局所的に[[文字]]を割り当てて利用しても構わない]]ものの、
[Q[8区及び84区のそれぞれに続く[[区]]は、将来標準化の対象となる可能性があるので、利用する場合には、それぞれの領域の[[区]]番号の最も大きい区 (15区及び94区) から区番号の小さくなる方向に、逆順に割り当てることが望ましい]]そうです。
[68]
[CODE[eucJP-open]] では 85-94区が[[共通自由領域]]でした。
[63]
[[T.101]] は92区-94区に[[非漢字]]を追加していました。
[66]
[[Super DEC 漢字]]は85区から94区を [[UDC]] としていました。
[67]
[[U90]]
は
61〜93区 (?) は利用者定義 (外字)、 85〜94区は [[OASYS]] [[非漢字]]を追加していました。
* Unicode との関係
[38]
[[JIS X 0208]]
そのものには、
直接的には
[[Unicode]]
との関係は示されていません。
[39]
[[JIS X 0208:1997]] 改正では、
すべての[[文字]]に、
[[文字の名前]]が明記されました。
これは[[文字の名前]]によって[[文字]]を同定する [[ISO]]
の[[符号化文字集合]]との対応関係を明確にするものとされました。
事実上、 [[JIS X 0221]] = [[ISO/IEC 10646]] = [[Unicode]]
との対応関係を[[規定]]したものです。
[40]
中でも特に[[漢字]]の[[文字の名前]]は
[[Unicode]]
の[[符号位置]]を使って記述されているので、
ほとんど実質的に [[Unicode]]
との対応関係を規定しているといえます。
[SEE[ [[文字の名前]] ]]
[41]
それでもあくまで[[文字の名前]]を示すという形を取り、
[[Unicode]]
との対応関係を示すとはしていなかったのは、
表面的に同じように見える[[文字]]でも、
その定義が [[JIS]] と [[Unicode]] で異なることが多いからでしょうか。
(あるいは制定当時 [[Unicode]] が[[日本]]で不評だったことと関係しているのでしょうか。)
([[JIS X 0208:2012]] にはこの部分に影響する[[改正]]は含まれませんでした。)
-*-*-
[42]
[[JIS X 0208]] を拡張した形になっている
[[JIS X 0213:2000]] は、
[[JIS X 0208]] に含まれていたものも含めてすべての[[非漢字]]に、
[[文字の名前]]と [[JIS X 0221]] (= [[ISO/IEC 10646]] = [[Unicode]])
の[[符号位置]]を示していました。
([[漢字]]は [[JIS X 0208]] にないものしか示されませんでした。)
([[JIS X 0213:2004]],
[[JIS X 0213:2012]] にはこの部分に影響する[[改正]]は含まれませんでした。)
-*-*-
[45]
[[JIS X 0221]] = [[ISO/IEC 10646]] = [[Unicode]]
は、
[[JIS X 0208]]
を出典として収録した[[漢字]]に
[[JIS X 0208]]
の[[ビット組合せ]]を示していました。
この措置は[[CJK統合漢字]]のみで、
[[非漢字]]は対象外でした。
[52]
[[JIS X 0221-1995]] の[[附属書]]には、
[[JIS X 0208]]
との対応関係が掲載されていました。
[[JIS X 0208:1997]]
で[[文字の名前]]が明記されたことを受け、
その後の改正で削除されました。
-*-*-
[46]
[[90年代]]頃、
[[JIS]] と [[Unicode]] を変換する実装は、
それぞれ勝手な方法で対応関係を決定していました。
[[JIS X 0208]]
の対応関係を含めて数種類が使われ、時折[[文字化け]]を発生させていました。
[FIG(short list)[ [54] [[JIS]] 規定と異なる [[JIS]] と [[Unicode]] の対応関係
- [[MS932]]
- [[eucJP-open]]
- [[CP51932]]
- [CITE[[[XML日本語プロファイル]]]]
- [CITE[[[Encoding Standard]]]]
- [58] [CITE[JIS-UCS mapping issues and difference between JIS and MS-KANJI]], [TIME[2020-10-12T00:09:51.000Z]], [TIME[2001-07-10T18:57:56.422Z]] <http://web.archive.org/web/20010710185607/http://www.asahi-net.or.jp/~ez3k-msym/charsets/jis2ucs.htm>
]FIG]
[47] [[マイクロソフト]]を含む主要事業者は [[JIS X 0208:1997]]
の[[原案委員会]]に代表を送っていたにも関わらず、
自社の実装と [[JIS]] の乖離を放置し、
[[JIS]]
を改正させることも、
自社の実装を修正することもせず問題を放置しました。
[48] 結局[[市場]]を占有した[[マイクロソフト]]の [[CP932]]
と [[Unicode]] との対応関係が、
[[事実上の標準]]となりました。
この情勢が確定的になってからも、
[[JIS X 0208]] や [[JIS X 0213]]
は[[改正]]されず、市場と乖離した状態で放置されています。
[49]
現在では
[CITE[Encoding Standard]]
が
[[Web標準]]としての
[CODE[shift_jis]],
[CODE[euc-jp]],
[CODE[iso-2022-jp]]
を定めています。
ここでは[[事実上の標準]]たる[[マイクロソフト]]の実装法が採用されました。
[[JIS]] と [[Unicode]] の対応関係を最も厳密かつ現実的に定めた標準仕様で、
[[Webブラウザー]]で実装されている他、
[[Web]] 以外の目的にも使えます。
[REFS[ [56] [[JIS]] と [[Unicode]] の関係に問題がある[[文字]]の一覧
- [55] [CITE@en[Character set "[[JIS X 0208]] characters not in JIS X 0208 area of encodings (except for fullwidth variants)"]], [TIME[2020-10-07T06:58:19.000Z]] <https://chars.suikawiki.org/set/%24jisx0208%3Amap-jis-only>
- [57] [CITE@en[Character set "Alternative characters assigned in [[JIS X 0208]] area of encodings (except for fullwidth variants)"]], [TIME[2020-10-07T06:59:02.000Z]] <https://chars.suikawiki.org/set/%24jisx0208%3Amap-nonjis-only>
]REFS]
* 歴史
** 1978年制定
@@
[36] [CITE@ja[地方公共団体情報システム機構 FAQ(よくある質問)]]
( ([TIME[2014-09-04 00:37:41 +09:00]] 版))
<https://www.j-lis.go.jp/jyouhou-syori/machiaza/faq/cms_11310534.html#c>
** 1983年改訂
@@
[27] [[OASYS]] は 0x7E21-7E24 にそれぞれ「堯槇遙瑤」を割り当てていたといいます。
[50]
[[フォント]]として
[[JIS X 9051]],
[[JIS X 9052]]
が制定されました。
[[JIS X 0208]]
の[[文字]]の[[グリフ]]を定義していました。
[[JIS X 0208-1983]]
の[[例示字形]]より更に簡略化されたものもありました。
[51]
両[[規格]]はその後改訂も廃止もされず放置されています。
** 1990年改訂
[16] [DFN[[[JIS X 0208-1990]]]] [CITE[情報交換用符号]]は、
1990年/平成2年9月1日制定、9月6日[[官報]]公示。
[30] 拡張は [[JIS X 0208]] とは別の[[規格]] [[JIS X 0212]] として出版されました。
** 符号化方式
[22] 初期には ([[JIS]] の[[文字集合]]のみ採用して[[符号化]]の規定は無視して) 色々な符号化方式が試みられたようです。
[23] [[PC-9801]] より前の [[NEC]] の [[BASIC]] の[[文字コード]]は、
[DFN[NEC漢字コード]]や [DFN[NEC JIS]] と呼ばれていました。
ESC 4B で2バイトモードに、 ESC 48 で1バイトモードに切り替わりました。
1バイトモードは、
[FIG(list)[
- 0x00-7F [[ASCII]] (?)
- 0x80-9F 罫線・記号
- 0xA1-DF [[JIS X 0201片仮名用図形文字集合]]
- 0xE0-FF 罫線・記号
]FIG]
が含まれていました。2バイトモードは、 0x2121-7E7E に [[JIS X 0208]]
が含まれていました。 [SRC[>>24]]
[25] [[8801漢字BASIC]]や[[新8801漢字BASIC]]は、
0x00-FF [[JIS X 0201]] と 0xA1A1-FEFE [[JIS X 0208-1978]]
を 0x7F で切り替えるものでした。文字列の最初と最後は1バイトモードでした。
[SRC[>>24]]
[26] [[N[SUB[88]]-漢字BASIC]] は、
0xFD から始まる [[JIS X 0201]] モードと
0xFA から始まる [[JIS X 0208-1978]] (0x2121-7E7E) モードを切り替えるものでした。
先頭は必ず 0xFD か 0xFA でした。
[[JIS X 0208]] は[[リトルエンディアン]]でした。 [SRC[>>24]]
[REFS[
- [24] [CITE@ja[88のBASICとその漢字コードについて]] ([[Yoshihiko Ohta]] 著, [TIME[2011-07-09 02:21:53 +09:00]] 版) <http://www.kiwi-us.com/~ohta/pc88/kanji/>
]REFS]
[28] 「UNISYS 漢字」は、 [[JIS X 0201]] をベースに、
0x93 0x70 で漢字モードに切り替え、 0x93 0xF1 で元に戻すこととしていました。
漢字モードは、 0x2020 で [CODE(char)[[[U+3000]]]] を表し、
0xA1A2-FEFE で [[JIS X 0208]] のその他の文字を表していました。
** 1997年改訂
[17] [DFN[[[JIS X 0208:1997]]]]
[DFN[[CITE[7ビット及び8ビットの2バイト情報交換用符号化漢字集合]]]]。
[18] 1996年11月〜1997年12月には[[公開レビュー]]が行われました。
[19] [[JIS漢字字典]] (初版、増補改訂版) にも収録されています。
[20] <http://www.webstore.jsa.or.jp/webstore/JIS/html/jp/errata/errata0205/jis_x_00208_000_000_1997_cor_1_200205_j_i4.pdf>
で正誤表が発行されています。
[31] [[シフト符号化表現]]と[[RFC1468符号化表現]]はこの改定で追加されました。
[37] [CITE[topics]]
([[IPSJ/ITSCJ]], [TIME[2020-10-04T04:35:53.000Z]], [TIME[1998-01-21T17:13:28.866Z]])
<https://web.archive.org/web/19980121171328/http://www.itscj.ipsj.or.jp/topics/jisx0208.html>
** 2000年
[29]
[TIME[平成12(2000)年][year:2000]]の拡張は、
[[JIS X 0208]] の改訂ではなく、別[[規格]] [[JIS X 0213:2000]]
として出版されました。
[33] [CITE[JIS-UCS mapping issues and difference between JIS and MS-KANJI]]
([TIME[2018-05-19 19:32:28 +09:00]])
<https://web.archive.org/web/20021001104727/http://www.asahi-net.or.jp:80/~EZ3K-MSYM/charsets/jis2ucs.htm>
** 2004年
[43]
[TIME[平成16(2004)年][year:2004]]の変更は、
[[表外漢字字体表]]に関するものでした。
[[JIS X 0208]]
部分に関わるのに
[[JIS X 0213:2004]]
としてだけ改正され、
[[JIS X 0208]]
は放置されました。
[6]
[CITE[Windowsの次期バージョンWindows Vista(TM)において日本語フォント環境を一新]] <http://www.microsoft.com/japan/presspass/detail.aspx?newsid=2353>
([[名無しさん]] [WEAK[2005-07-30 02:52:18 +00:00]])
** 2012年
[44]
[TIME[平成24(2012)年][year:2012]]の変更は、
[[常用漢字表]]改正に関係するもので、
[DFN[JIS X 0208:2012]]
と
[[JIS X 0213:2012]]
として[[改正]]されました。
どちらも元の[[仕様書]]に対する[[差分仕様書]]として発行されました。
[FIG(quote)[
[FIGCAPTION[
[32] ( ([TIME[2015-02-24 14:31:48 +09:00]]))
<http://www.moj.go.jp/content/000001895.pdf>
]FIGCAPTION]
> (1)使用可能文字
> ・ JIS X 201 及び JIS X 0211 が定義する文字集合(ただし,一部を除いた制御文字及び 1 バイト仮名文字は除く。)を使用可能と
> する。
> ・ JIS X 0208-1997 が定義する文字集合(非漢字,第一水準漢字及び第二水準漢字)を使用可能とする。
> (2)使用不可文字
> ・ JIS X 0208-1997 が定義する文字集合のうち,次の 6 文字を使用不可とする。
> 「―」,「~」,「∥」,「¢」,「£」及び「¬」
> ・ 申請データに外字(JIS X 201 及び 0208-1997 に定義されていない文字)が含まれている場合には,その外字の読みをカタカナ
> で記録する。
> (3)文字コード規定
> 8-bit UCS Transformation Format(UTF-8)にて規定された文字コードとする。
]FIG]
[FIG(quote)[
[FIGCAPTION[
[34] [CITE@ja[Yahoo!官公庁オークション - 那須塩原市(せり売) インターネット公売ガイドライン]]
([TIME[2018-07-20 12:38:40 +09:00]])
<https://koubai.auctions.yahoo.co.jp/auction/guideline?pid=toc_nasushiobara_city>
]FIGCAPTION]
> 公売システムにおいて使用する文字は、JIS第1第2水準漢字(JIS(工業標準化法(昭和24年法律第185号)第17条第1項の日本工業規格)X0208をいいます)であるため、不動産登記簿上の表示などと異なることがあります。
]FIG]
[FIG(quote)[
[FIGCAPTION[
[59] [CITE@ja[松 (ワープロ) - Wikipedia]]
([TIME[2020-10-21T02:43:35.000Z]], [TIME[2020-10-25T07:31:24.763Z]])
<https://ja.wikipedia.org/wiki/%E6%9D%BE_(%E3%83%AF%E3%83%BC%E3%83%97%E3%83%AD)>
]FIGCAPTION]
> 「新松」から、使用しているパソコン・プリンタの文字コードについて、JIS78/83を自動判定し、印刷時には自動で置き換えるようになっている。
> 例えばPC-9800シリーズはJIS78でありEPSONの98互換機はJIS83をもとに拡張・置換したものになっていた(EPSON互換機は後年文字コードの切り替えが可能となった)。また、プリンタは各社により採用したコードがまちまちであった。
]FIG]
[60] [CITE@en-GB[Specialised JIS related mappings - HarJIT's Website]]
([TIME[2020-09-30T22:18:55.000Z]], [TIME[2020-10-26T02:42:10.919Z]])
<https://harjit.moe/jismappings.html>
[FIG(quote)[
[FIGCAPTION[
[61] [CITE@ja[一般社団法人文字情報技術促進協議会]]
([TIME[2020-11-15T06:05:43.000Z]], [TIME[2020-11-15T06:18:35.444Z]])
<https://moji.or.jp/>
]FIGCAPTION]
> JIS90、JIS2004などの字形の違いを使い分けることができます。
> 字形情報の永続的な保存が可能です。(JIS90, 2004問題を避けられます。)
]FIG]
[62] [[マッチポンプ]]感がやばいwww
[64] [CITE[_pdf]], [TIME[2021-01-20T13:54:42.000Z]] <https://www.jstage.jst.go.jp/article/johokanri/21/10/21_753/_pdf>
[65] [CITE[地質ニュース - 87_06_05.pdf]], [TIME[2017-07-24T07:37:22.000Z]], [TIME[2021-08-07T00:13:08.037Z]] <https://www.gsj.jp/data/chishitsunews/87_06_05.pdf#page=8>