-
Notifications
You must be signed in to change notification settings - Fork 4
/
856.txt
468 lines (336 loc) · 23.1 KB
/
856.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
[13] [DFN[[CODE[[[euc-jp]]]]]] は、[[日本]]でかつてよく使われていた[[文字コード]]でした。
* 仕様書
[REFS[
- [54] [CITE@en-US[Encoding Standard]] ([TIME[2015-11-18 18:50:25 +09:00]] 版) <https://encoding.spec.whatwg.org/#euc-jp>
]REFS]
* 符号化文字集合
[55] 次の[[符号化文字集合]]を組み合わせたものです。
[FIG(list)[
- 0x00-0x7F ([[C0]]、[[G0]] 他) [[ASCII]]
- 0xA1A1-FEFE ([[G1]]) [[JIS X 0208]]
- 8x8EA1-8EFE ([[G2]]) [[JIS X 0201片仮名用図形文字集合]]
- 0x8FA1A1-8FFEFE ([[G3]]) [[JIS X 0212]]
]FIG]
* 文脈
[35] [[20世紀]]に [[UNIX]] 系の [[OS]] では[[日本語]]の標準[[文字コード]]として用いられていました。
[36] [[ASCII]] の[[バイト]]が常に [[ASCII]] を表す特徴から、 [[Perl]]
などの [[ASCII]] ベースの[[プログラミング言語]]の[[ソースコード]]の記述に適切とされていました。
90年代末から00年代初頭には [[CGIスクリプト]]等の [[Webアプリケーション]]の内部コードおよび入出力用コードとしてよく採用されていました。
[96] [CITE[DTI ユビキタスプロバイダ | My DTIログイン]], [TIME[2024-01-13T03:50:28.000Z]] <https://oc.dti.ne.jp/cgi-bin/uss/index.cgi>
>
[PRE[
<meta http-equiv="Content-Type" content="text/html; charset=EUC-JP" />
]PRE]
* 関連
[16] [[日本]]国内では外に[[シフトJIS]]や [[ISO-2022-JP]] がよく使われていました。
* 歴史
[14] 歴史的に無数の変種があります。
** 最初の日本語 EUC
[34] 日本語 UNIX システム諮問委員会が1985年に
[CITE[UNIX システム日本語機能提案書]]で日本語 EUC
の内部コードを定義したといわれています。
[37] AT&T の System V Interface Definition が、それに基づき
SCS (Supplementary Code Set) を規定したといわれています。
[38] 更に、 AT&T UNIX Pacific が SCS のことを EUC と呼んだと言われています。
[15] AT&T UNIX Pacific の JAE (Japanese Application Environment)
が規定したのは
[FIG(list)[
- [[G0]] [[ASCII]]
- [[G1]] [[JIS X 0208-1983]]
- [[G2]] [[JIS X 0201片仮名用図形文字集合]]
- [[G3]] [[外字]] (予約領域)
]FIG]
... となっていたようです。
[39] 日本語EUC、AT&T code、eucjis、JA16EUC、EUC-jis、euc などと呼ばれました。
[33] [DFN[[[UJIS]]]] (Unixnized extended JIS) は、
[[Σ]] OS が採用した[[文字コード]]とされています。
実際には当時の[[日本語EUC]]と同じものだったようです。
[22] [CITE[日本語EUCの歴史]] ([TIME[2009-03-10 09:51:02 +09:00]] 版) <http://d.hatena.ne.jp/nurse/20090308#1236517235>
[23] [CITE[石井晴久氏による EUC 前史]] ([TIME[2009-03-10 09:53:01 +09:00]] 版) <http://d.hatena.ne.jp/nurse/20090310#1236625695>
** 補助漢字の拡張
[45] 1993年5月21日の UI-OSF Japanese Localization Group の
[CITE[UI-OSF 日本語環境実装規約 Version 1.1]] は、
附属書Cで「UI-OSF共通日本語EUC」を規定していました。
これは1991年12月12日の[CITE[UI-OSF-USLP 共同技術資料: 日本語EUC の定義と解説]]と同じもので、
AJEC (Advanced Japanese EUC) を規定していました。
[46] AJEC は、 [[G1]] の 85〜94区と [[G3]] の 78〜94区を[DFN[共通自由領域]]としていました。
[47] この AJEC に対して [DFN[[CODE[[[eucJP]]]]]] という名前が定義されていました。
[59] 1992年に出版された UNIX インターナショナルの
[CITE[UNIX SYSTEM V リリース 4 日本語環境共通規約]] 第1版にも定義が含まれていると言われます。
- [28] [CITE@ja[Data architecture in CALS era]], [TIME[2015-07-17T07:58:14.000Z]], [TIME[2022-05-04T07:14:06.208Z]] <http://www1.u-netsurf.ne.jp/~7l1rll/dataArchitecture.html>
-- [29]
[CITE[CALSに向けたデータ構築法]],
[[若鳥陸夫]],
[TIME[1995.02.09][1995-02-09]]
- [32] [CITE@ja[Standards code for NCALS documents(Latest 1997.12.02)]], [TIME[2015-07-17T07:57:02.000Z]], [TIME[2022-05-04T07:19:31.652Z]] <http://www1.u-netsurf.ne.jp/~7l1rll/codeStandards.html>
- [66] [CITE@ja[Kanji code for STEP]], [TIME[2015-07-18T02:57:23.000Z]], [TIME[2022-05-04T07:30:03.210Z]] <http://www1.u-netsurf.ne.jp/~7l1rll/kanjiCodeInSTEP.html>
[30] [[CALS]] 「共通符号の案」 [SRC[>>29]],
[DFN[NCALS共通文字符号]] [SRC[>>32]]
- [[G0]] = [[GL]] : [[ASCII]] [SRC[>>29]] / [[旧IRV]] [SRC[>>32]]
- [[G1]] = [[GR]] : [[JIS X 0208-1990]]
-- [[旧IRV]]と[[重複する文字][代替名称]]は使用しない [SRC[>>32]]
- [[G3]] ([CODE(charname)@en[SS3]] + '''[[GL]]''') : [[JIS X 0212]]
(使用するかどうかは[[応用]]依存)
[31] [[G3]] を[[左側]]に[[呼び出す]]ところだけ[[EUC]]と違います
(古い [[ISO/IEC 2022]] に忠実な仕様)。
理由は [[SGML]] の[[具象構文]]との整合性 [SRC[>>32]]。
[19] [CITE[numa's diary:補助漢字と日本語 EUC - livedoor Blog(ブログ)]] ([CODE[2007-06-09 05:12:05 +09:00]] 版) <http://blog.livedoor.jp/numa2666/archives/50236450.html>
([[名無しさん]] [WEAK[2007-06-24 10:28:35 +00:00]])
[20] [CITE[Linux における日本語ロケールに関する指針]] ([CODE[2001-10-28 23:57:31 +09:00]] 版) <http://www.linux.or.jp/JF/JFdocs/Japanese-Locale-Policy.txt>
([[名無しさん]] [WEAK[2007-06-24 10:40:34 +00:00]])
[21] [CITE@ja[革命の日々! IEがEUCのJIS X 212をサポートしていないのは規格違反なのか]] ([CODE[2007-06-24 19:43:01 +09:00]] 版) <http://mkosaki.blog46.fc2.com/blog-entry-260.html>
[18] [[JIS X 0208:1997]]の附属書にはシフト符号化表現とRFC1468符号化表現のみが定義されており、日本語EUCに相当するものはありません(おそらくなかったことにする予定だったJIS X 0212に触れたくなかったのでしょう)。
ただし本体の国際基準版・漢字用8ビット符号はJIS X 0201 片仮名とJISX0212-1990を含まない日本語EUCであるとみなせます。
([[名無しさん]] [WEAK[2007-05-17 19:57:27 +00:00]])
** その他の拡張
[40] [[UJIS]] に [[IBM拡張漢字]]を加えたものが IBM-eucJP と言われています。
[41] [[UJIS]] の [[G1]] に利用者定義領域 ([[外字]]) を加えたものが
S90 と言われています。
[42] [[Data General]] が用いたものが IKIS code といわれています。
[[UJIS]] とは [[JIS X 0201片仮名用図形文字集合]]が異なっていたそうです。
[43] [DFN[[[EUC-HJ]]]] (Extended UNIX Code HITACHI)
は 0xA121-FE7E を利用者定義 ([[外字]]) に使っていました。
;; [[DEC漢字]]と同じ方式。
[44] [ABBR[OCMP][Open Computing environment for MIPS Platform]]
([[NEC]] + [[SONY]]) は、 [[OCMP-ABI]]
「日本語共通アプリケーションバイナリ規約」
で [[G3]] の空き領域に共通[[外字]]を規定していました。
[56] [[富士通]]の [DFN[[[U90]]]] と呼ばれる拡張は、
[[G0]] に [[JIS X 0201ラテン文字用図形文字集合]] (!)、
[[G1]] に [[JIS X 0208-1990]]、
[[G2]] に [[JIS X 0201片仮名用図形文字集合]]を採用し、
[[JIS X 0208]] の61〜93区 (?) は利用者定義 ([[外字]])、
85〜94区は [[OASYS]] の独自の非漢字としています。
更に [[G3]] の1〜48区は [[JEF]] の独自の漢字、
49〜60区は [[JEF]] の独自の非漢字としているようです。
[58] [[G3]] の1-26区を[[シフトJIS]]の 0xF040-FCFC に対応付ける実装もあったようです。
;; [73] [[DOCS]] も参照。
[74] [CITE['''['''PATCH libX11 4/5''']''' i18n: Remove ja.S90 and ja.U90 locales.]], [TIME[2012-12-21T13:28:17.000Z]], [TIME[2022-05-05T09:31:01.382Z]] <https://lists.x.org/archives/xorg-devel/2012-December/034661.html>
[97] [CITE@ja[DAL-データ・アプリケーション|リリースノート|RACCOON V2.6.1 リリースノート情報]], [TIME[2024-05-01T10:15:40.000Z]] <https://www.dal.co.jp/release-notes/raccoon/20240411_0.html>
[57] [[インフォミックス]]の拡張は、
0x8DF040-8DFCFC を[[シフトSJIS]] 0xF040-FCFC に相当するものとして使っていました。
;; [[ISO/IEC 2022]] に反する独自の拡張です。
** DEC の拡張
[27]
[[DEC]] の製品は[[日本語EUC]]の独自拡張を実装していました。何種類かありました。
[SEE[ [[DEC漢字]] ]]
** [CODE[eucJP-open]]
[48] [DFN[[CODE[[[eucJP-open]]]]]] は、 [CITE[UI-OSF 日本語環境実装規約]]の
[CODE[[[eucJP]]]] の[[共通自由領域]]に [[IBM拡張漢字]]を追加したものでした。
[49] [[G1]] は [[JIS X 0208-1990]] で、85-94区が[[共通自由領域]]でした。
[50] [[G3]] は [[JIS X 0212-1990]] で、78-94区が[[共通自由領域]]でしたが、
そのうち83区と84区に IBM の拡張が割り当てられていました。
[51] [CODE[[[SJIS-open]]]] との対応関係が規定されていました。
[REFS[
- [52] <http://www.opengroup.or.jp/jvc/cde/sjis-euc.html>
-- [93] 消滅確認 [TIME[2022-10-16T14:28:30.200Z]]
-- [94]
[CITE[日本語 EUC とシフト JIS との間のコード変換について]], [TIME[2022-10-16T14:28:21.000Z]], [TIME[2005-11-30T03:39:23.865Z]] <https://web.archive.org/web/20051130033920/http://www.opengroup.or.jp/jvc/cde/sjis-euc.html>
- [95]
[CITE[Unicode とユーザ定義文字・ベンダ定義文字に関する問題点と解決策]], [TIME[2022-10-16T14:38:51.000Z]], [TIME[2006-10-12T03:28:25.028Z]] <https://web.archive.org/web/20061012032720/http://www.opengroup.or.jp/jvc/cde/ucs-conv.html>
]REFS]
[67] [CITE@ja[eucJP-ms]], [TIME[2009-03-29T07:45:14.000Z]], [TIME[2022-05-04T08:01:17.437Z]] <http://www2d.biglobe.ne.jp/~msyk/charcode/cp932/eucJP-ms.html>
[75] [CITE@ja-jp[eucJP-open ‐ 通信用語の基礎知識]], [TIME[2022-05-05T14:03:32.000Z]] <https://www.wdic.org/w/WDIC/eucJP-open>
** JIS X 0213 による拡張
[17] [[JIS X 0213:2000]]
は
[DFN[EUC-JISX0213]]
を定義しています。
[85] [[JIS X 0213:2000]]
本体に[[国際基準版・漢字用8ビット符号]]なるものがあり、
その拡張と書いてあります。
[86]
[[実装水準3]]であることを明示するため
[DFN[EUC-JISX0213-plane1]]
と呼んでもよいとされます。
[[EUC-JISX0213]] は[[実装水準3]]と[[実装水準4]]の両方を含むようです。
[[実装水準4]]と明示する方法はなさそうです。
[87]
[[EUC-JISX0213]]:
- [[CL]] = [[C0]] : [[JIS X 0211]] [[C0]]
- [CODE(charname)@en[SP]]
- [[GL]] : [[ISO/IEC 646 IRV]]
- [CODE(charname)@en[DEL]]
- [[CR]] = [[C1]] : [[JIS X 0211]] [[C1]]
- [[GR]] : [[JIS X 0213:2000]] 第1面
- [CODE(charname)@en[SS2]] / [[G2]] : 使用しない、ただし[[代替名称]]
- [CODE(charname)@en[SS3]] / [[G3]] : [[JIS X 0213:2000]] 第2面
-- [[IRV]] との重複は使用しない、ただし[[代替名称]]
-- [[実装水準3]]では原則、使用しない
[88]
[[国際基準版・漢字用8ビット符号]]との違いは [[G2]]。
[[G2]] は [[JIS X 0201]] [[片仮名用図形文字]]相当 ([[代替名称]])。
[89]
[[G2]], [[G3]] は [[EUC]] なら[[右側]]に[[呼び出す]]べきだが、
左か右か明記されていない。 (インデント的に直前の [[GR]] 領域云々の箇条には含まれなそう。)
[82]
[DFN[x-euc-jisx0213-packed]]
は、
[[EUC-JISX0213]]
の空き領域に
[[JIS X 0212-1990]]
を割り当てたものです。
[80]
[[Perl]] の [CODE[Encode.pm]] の [CODE[euc-jp]] は、
一般的な [[EUC-JP]] の相互変換に加え、
[[JIS X 0213:2000]] の第1面、第2面の[[復号]]に対応しています。
[[JIS X 0212]] の [CODE[TILDE]] も[[復号]]のみ対応しています。
[SRC[>>81]]
[SEE[ [[JIS X 0212]], [[JIS X 0213]], [[DOCS]], [[94[SUP[2]]集合]] ]]
[REFS[
- [81] [CITE@en-US[ucm/euc-jp.ucm - metacpan.org]], [TIME[2022-04-07T03:18:23.000Z]], [TIME[2022-05-08T00:58:52.058Z]] <https://metacpan.org/release/DANKOGAI/Encode-3.17/source/ucm/euc-jp.ucm>
]REFS]
[83]
[[JIS X 0213:2004]]
では第1面が改正されました。
[SEE[ [[JIS X 0213]] ]]
それに伴い[[符号]]の名前が変更されました。
構造は変更されていません。
名称は正誤票で再改正されました。
- [DFN[[CODE[EUC-JIS-2003]]]]
- [DFN[[CODE[EUC-JIS-2003-plane1]]]]
- [DFN[[CODE[EUC-JIS-2004]]]]
- [DFN[[CODE[EUC-JIS-2004-plane1]]]]
[84] [CITE@ja[ORCA Project: 拡張漢字(JISX0213:2004)の使用]], [TIME[2022-02-09T18:54:35.000Z]], [TIME[2022-05-08T01:40:25.443Z]] <https://www.orca.med.or.jp/receipt/use/jisx0213/>
[90] [CITE@ja[文字セットについて - [[超漢字]]ウェブサイト]], [TIME[2010-11-10T00:23:26.000Z]], [TIME[2022-09-03T06:57:23.660Z]] <http://www.chokanji.com/ckv/manual/06-05-07.html>
[91] [CITE[[[超漢字メール]]]]は[DFN[EUC-JPJISX0213]] (+ [[テキスト形式TRONコード]])
の送受信に対応していました。
[SRC[>>90]]
[[EUC-JISX0213]] のことでしょう。
** IANA charset [CODE(MIME)@en[EUC-JP]]
[5] [[IANA]]の[[charset]]登録簿には、2006年3月現在
[PRE[
Name: Extended_UNIX_Code_Packed_Format_for_Japanese
MIBenum: 18
Source: Standardized by OSF, UNIX International, and UNIX Systems
Laboratories Pacific. Uses ISO 2022 rules to select
code set 0: US-ASCII (a single 7-bit byte set)
code set 1: JIS X0208-1990 (a double 8-bit byte set)
restricted to A0-FF in both bytes
code set 2: Half Width Katakana (a single 7-bit byte set)
requiring SS2 as the character prefix
code set 3: JIS X0212-1990 (a double 7-bit byte set)
restricted to A0-FF in both bytes
requiring SS3 as the character prefix
Alias: csEUCPkdFmtJapanese
Alias: EUC-JP (preferred MIME name)
]PRE]
とあります。
[6] >>5 [CODE(MIME)@en[[[EUC-JP]]]]という名前は後から付け加えられたようです。最初の登録者は一体何を考えていたのでしょうか。
** 文字符号化[CODE(XML)@en[EUC-JP]] (XML)
[4]
[[XML 1.0]]および[[XML 1.1]]の仕様書
<IW:XML1:"#charencoding"> では、
[[符号化宣言]] ([CODE(XMLa)@en[[[encoding]]]][[擬似属性]])
の値[CODE(XML)@en[[[EUC-JP]]]]は
[Q@en['''[[SHOULD]]''' be used for the various encoded forms of JIS X-0208-1997]<IW:XML1:"#charencoding">]とされています。
これをどう解釈するべきかははっきりしません。
[[JIS X 0208]]:1997には[Q[EUC-JP]]とよばれる[[符号化文字集合]]は規定されてい''ない''ようです。
だとすると、一般に[Q[EUC-JP]]と呼ばれている[[符号化文字集合]]の亜種で
[[JIS X 0208]]:1997を採用したものと考えるべきでしょうか。
[7] [[JIS X 0208]]:1997 の[[解説]]には、[Q@en[EUC]]
と呼ばれる[[ISO/IEC 2022]]と[[JIS X 0208]]を用いた[[文字コード]]が実装されていることが指摘されています。
従って、[[JIS X 0208]]:1997の制定当時一般に[Q@en[EUC]]と呼ばれていたものを、
[[JIS]]では本来新旧版が並存することはなく、最新版だけが有効だという原則
(同解説の別の箇所にそうあります。)
に従い、[[JIS]]を最新の規格に改めたものが[[JIS X 0208]]:1997の[Q@en[EUC-JP]]ではないかと考えられます。
[8] [[ISO/IEC 2022]]に従った[[文字コード]]だとすると、
[[図形文字の一意な符号化]]に関する制限
([[JIS X 0202]]:1998 7.5) が[[適用]]される可能性がありますが、
[[JIS X 0208]]:1997 9.2 によれば[[これまでの慣用的な利用との互換]]のために[[代替名称]]を用いても構いません。
その場合、[CODE(charname)@en[[[REVERSE SOLIDUS]]]]と[CODE(charname)@en[[[YEN SIGN]]]]の問題があります。
([[図形文字の一意な符号化]]の項を参照。)
また、[[ASCII]]と[[JIS X 0212]]‐1990 が含まれるので、
[CODE(charname)@en[[[TILDE]]]]も問題があります。
([[図形文字の一意な符号化]]の項を参照。)
[9] 更に厳密には、その[Q@en[EUC]]の1バイト左半分が[[ASCII]]なのか[[ISO/IEC 646]]なのか、
という問題があります。[[JIS X 0208]]:1997は[[ISO/IEC 646]]と併用する際に[[代替名称]]を認めていますが、
[[ASCII]]とは認めていません。 ([[ASCII]]と[[ISO/IEC 646]]
[[IRV]]はたまたま1997年の時点では (少なくても[[文字名称]]によって比較すれば)
同じ[[符号化文字集合]]を規定しています。)
注意して読むと[[JIS X 0208]]:1997の規定は[[ISO/IEC 646]]に関するもので、
[[ISO/IEC 646]] [[IRV]]とは書いていませんから、
[[IRV]]に対するものとも、[[ISO/IEC 646の版]]いずれに対するものとも読めますが、
[[ISO/IEC 646]]と[[JIS X 0201]]が併記されていることから、
[[IRV]]と解釈する方が適当だと思われます。
[WEAK[(ただし、7.2には[[IRV]]と明記されていますが、こちらでは明記されていないのが気に掛かります。)]]
** CP51932
[77]
[[Windows]] の [DFN[CP51932]] は
[[Unicode]] ←→ [[CP932]]
の変換に
[[シフトJIS]] ←→ [[EUC]]変換を組合せたものらしい。
[[Unicode]] → [[CP932]] → [[CP51932]]
の途中で [[EUC]] に変換できないものが出てもそのまま素通しする。
(変換できない [[EUDC]] と変換できる [[NEC選定IBM拡張文字]]の一部がだぶるなどして復元不可、
[[CP51932]] 自身も復号できないらしい。)
- [76] [CITE@ja[「'''['''區鳥''']'''」が「乗ス」に化けるメカニズム: コードページ932]], [TIME[2022-05-07T14:24:21.000Z]] <https://msyk.at.webry.info/200611/article_2.html>
- [78] [CITE@ja[未来情報産業ブログ WindowsのEUC-JP、「CP 51932」について]], [[miraicorp]], [TIME[2022-05-07T14:13:50.000Z]], [TIME[2022-05-07T14:27:54.203Z]] <https://miraicorp.blog.fc2.com/blog-entry-74.html>
- [79] [CITE[cp51932 - PukiWiki]], [TIME[2022-05-07T14:28:05.000Z]], [TIME[2006-06-19T17:27:43.692Z]] <https://web.archive.org/web/20060619165900/http://legacy-encoding.sourceforge.jp/wiki/index.php?cp51932>
[26] [CITE[Registration of new charset CP51932]]
([TIME[2010-04-05 03:44:39 +09:00]] 版)
<http://mail.apps.ietf.org/ietf/charsets/msg01877.html>
[68]
[[Firefox]] は [[CP51932]] + [[JIS X 0212]] を実装していました。
復号だけでなく符号化にも使っていました。
[SRC[>>69, >>70, >>71]]
[REFS[
- [69] [CITE@en[bug 4873 – EUC-JPエンコーダは補助漢字を変換すべきではない]], [TIME[2022-05-04T08:11:02.000Z]] <http://bugzilla.mozilla.gr.jp/show_bug.cgi?id=4873>
- [71] [CITE@en[bug 5184 – EUC-JPで、CP51932とJIS X 0212で重複定義されている文字がある場合、エンコーダがCP51932を優先してしまう]], [TIME[2022-05-04T08:17:38.000Z]] <http://bugzilla.mozilla.gr.jp/show_bug.cgi?id=5184>
- [70] [CITE@ja[革命の日々! プロジェクト「セーブ・ザ・鷗外」]], [TIME[2022-05-04T08:07:47.000Z]], [TIME[2022-05-04T08:13:50.530Z]] <http://mkosaki.blog46.fc2.com/blog-entry-154.html>
]REFS]
** Encoding Standard
[72] [CITE@en[7444 – EUC-JP and ISO-2022-JP also need replacement encodings: CP51932 (or eucJP-ms) and CP50221.]], [TIME[2019-04-02T04:11:06.000Z]], [TIME[2022-05-04T08:19:53.361Z]] <https://www.w3.org/Bugs/Public/show_bug.cgi?id=7444>
[24] [CITE@en[Web Applications 1.0 r5560 Canonical mapping for EUC-JP for compat reasons.Fixing http://www.w3.org/Bugs/Public/show_bug.cgi?id=7444]]
( ([TIME[2010-09-30 04:14:00 +09:00]] 版))
<http://html5.org/tools/web-apps-tracker?from=5559&to=5560>
[25] [CITE@ja[ブログ オンラインサービス - Infoseekディレクトリ]] ([TIME[2007-08-02 22:05:24 +09:00]] 版) <http://directory.www.infoseek.co.jp/Topic/14/180/22633>
>
[PRE(HTTP example code)[
Content-Type: text/html;charset=eucJp-open
]PRE]
>
[PRE(HTML example code)[
<meta http-equiv="content-type" content="text/html; charset=euc-jp">
]PRE]
- [1] [[Mozilla]] で「©」が含まれた文章を copy & paste
で貼り付けてこの [[SuikaWiki]] に送ると、なぜかちゃんと保存・表示されました。
[[WinIE]] で見ても''ちゃんと''文字化けしてるのに。変だなあと思って考えてみると、
SuikaWiki の出力・保存形式は [CODE[EUC-JP]] で、 [CODE[EUC-JP]] の [[G3]]
は [[JISX0212]]-1990 で、その JIS X 0212-1990 には [CODE(CHARNAME)[COPYRIGHT SIGN]]
が規定されているので、きちんと保存・表示出来て当たり前なのでした。
- [2] >>1 つまり Mozilla はちゃんと EUC-JP に対応しているということです。
WinIE は EUC-JP 対応と見せかけて、実は [[CP20932]] にしか対応していませんね。
- [3] ちなみに [[ClassicMozilla]] も未対応っぽいです。
- [4] >>2 ちがうよ、WinIE が対応しているのは [[CP51932]] だよ
[53] なお、JIS X 0212 エンコーダの削除が Mozilla では提案されている <http://bugzilla.mozilla.gr.jp/show_bug.cgi?id=5184>
[10] [CITE[Bug 600715 – Remove JIS X 0212 support from EUC-JP encoder]]
( ([TIME[2011-12-20 23:53:05 +09:00]] 版))
<https://bugzilla.mozilla.org/show_bug.cgi?id=600715>
[11] [CITE@en[Bug 16689 – consider a flag for euc-jp]]
( ([TIME[2013-09-25 02:59:36 +09:00]] 版))
<https://www.w3.org/Bugs/Public/show_bug.cgi?id=16689>
[12] [CITE@en[Treat U+2022 as U+FF0D in Japanese encoders. Fixes https://www.w3.org… · whatwg/encoding@a7ab97e]]
([TIME[2015-08-21 18:14:36 +09:00]] 版)
<https://github.com/whatwg/encoding/commit/a7ab97e891773bd7a564b463c6a1cc31196a5bdd>
[60] [CITE@en[Fix #21: Japanese encoders have special treatment for U+2212, not U+2022 · whatwg/encoding@95f85a6]]
([TIME[2015-12-16 12:32:17 +09:00]] 版)
<https://github.com/whatwg/encoding/commit/95f85a63ad4d6b6331f21ff60f9244b3bcbe6d84>
[61] [CITE@en[Editorial: avoid upsetting lazy compilers (#55)]]
( ([[annevk]]著, [TIME[2016-06-21 20:30:39 +09:00]]))
<https://github.com/whatwg/encoding/commit/9f7252a08211a623cabc5fe6b03dda7f0cc9ef11>
[62] [CITE@en[Note >8835 pointers in index jis0208 cannot be reached]]
([[annevk]]著, [TIME[2016-11-16 22:41:11 +09:00]])
<https://github.com/whatwg/encoding/commit/fb87552bfa03cc93a1077c8f13e2f58535d0e97c>
[63] [CITE@en[EUC-JP decoder: only unwind ASCII bytes]]
([[annevk]]著, [TIME[2017-05-05 22:18:33 +09:00]])
<https://github.com/whatwg/encoding/commit/a85149b9eb973e3ec543690fa1b8d5c441e8b3c0>
[64] [CITE@en[Editorial: check non-null before null]]
([[annevk]]著, [TIME[2017-05-05 21:01:38 +09:00]])
<https://github.com/whatwg/encoding/commit/4e53e160b9e0ade6e33a25d21580106a0db2c47f>
[65] [CITE@en[Comments on XML Part 1 from Japanese experts]]
([[Murata Makoto]]著, [TIME[1997-05-28 10:48:56 +09:00]])
<https://lists.w3.org/Archives/Public/w3c-sgml-wg/1997May/0612.html>
[92] [CITE@ja[超漢字4の新機能・変更点]], [TIME[2010-04-28T08:00:19.000Z]], [TIME[2022-10-14T14:56:37.039Z]] <http://www.chokanji.com/support/ck4/chokanjians/vupguider4.html>
>
EUC-JISX0208(補助漢字なし)の出力変換の機能を追加しました。