-
Notifications
You must be signed in to change notification settings - Fork 4
/
873.txt
51 lines (38 loc) · 1.96 KB
/
873.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
[1]
[DFN[多バイト符号]]は、
複数バイトで構成される[[符号]]です。
[2]
[[文字コード]]について言うときは、[[シフトJIS]]型の[[符号]]を指すことが多いです。
より広く、[[多バイト]]で表される任意の[[文字コード]]を指すこともあります。
[FIG(short list)[ [3] [DFN[シフトJIS型符号]]
- [[シフトJIS]]各種
- [[Big5]]
- [[GBK]], [[GB 18030]]
- [[UHC]]
- [[組合型]]
]FIG]
[4]
[[シフトJIS]]型[[符号]]は第1バイトが特定の値だと第2バイトが続く、
1バイトと2バイトの混合[[符号]]です。
(3バイト以上の[[符号]]も持つものもあります。)
具体的には各項を参照。
[5]
[[文字列]]を構成するある特定の[[バイト]]を取り出した時、
それが1バイト[[符号]]のように見えても、
2バイト[[符号]]の第2バイトであることがあります。
[6] 1バイト[[符号]]に特別な意味が割り当てられていて、
多バイト符号の第2バイトがたまたまその[[符号]]と一致するとき、
意図せぬ現象が起こることがあります。
そのような[[符号化文字]]を[[日本]]の[[IT業界]]の[[俗語]]で[DFN[ダメ文字]]といいます。
[EG[
[7]
例えば [N[0x5C]] ([CODE[\]]) が[[エスケープ]]の意味を持つ
[[C言語]]の実装で使う[[プログラム]]に第2バイトが [N[0x5C]] になる[[2バイト文字]]
(例えば[[シフトJIS]]の「表」)
が混じると困ったことになります。
[SEE[ 関連するようでしないようでする問題: [[円問題]] ]]
]EG]
[8] 今では[[ダメ文字]]現象はまずないので、こんな言葉をまだ使っている人達は[[老人会]]か、
よほど特殊な業界 (古いシステムをメンテナンスし続けている人々など) です。
;; [9] しかし似たような話は今でもあります。
[SEE[ [[国旗絵文字]] ]]