/
21.txt
193 lines (159 loc) · 4.49 KB
/
21.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
[1] [DFN[[RUBYB[文字コード]@en[character code]]]]は、[[文字]]を[[符号化]]する方式です。
現在広く用いられている[[文字コード]]は [[Unicode]] / [[UTF-8]]
ですが、過去には様々な[[文字コード]]が用いられていました。
;; [4] 「[[文字コード]]」は曖昧な用語で、[[文字]]の符号化方式、
[[文字]]の集合、個々の[[文字]]に割り当てられた数値 (= [[符号位置]])、
その数値によって[[文字]]を指定する方法 (= [[エスケープ]]) など様々な意味で使われています。
* 文字コードの一覧
** ISO/IEC 646 系
[FIG(short list)[
- [[ASCII]]
- [[ISO/IEC 646]]
- [[ISO/IEC 6429]]
- [[JIS X 0211]]
- [[NVT ASCII]]
]FIG]
** ISO/IEC 8859 系
[FIG(short list)[
- [[JIS X 0201]]
- [[ISO/IEC 8859]]
- [[TIS 620]]
- [[Windows-1250]]
- [[Windows-1251]]
- [[Windows-1252]]
- [[Windows-1253]]
- [[Windows-1254]]
- [[Windows-1255]]
]FIG]
** JIS X 0208 系
- [[JIS X 0208]]
- [[GB 2312]]
- [[GB 12345]]
- [[ISO-IR-165]]
- [[KS X 1001]]
- [[CCCII]]
- [[CNS 11643]]
- [[JIS X 0212]]
- [[JIS X 0213]]
- [[GB 7589]]
- [[GB 7590]]
- [[GB 13131]]
- [[GB 13132]]
- [[KS X 1002]]
** EUC 系
[FIG(short list)[
- [[日本語EUC]]
- [[EUC-CN]]
- [[EUC-TW]]
- [[EUC-KR]]
- [[Mule内部コード]]
- [[DIS 10646]]
]FIG]
** シフト JIS 系
[FIG(short list)[
- [[シフトJIS]]
- [[GBK]]
- [[GB 18030]]
- [[UHC]]
- [[Big5]]
- [[HKSCS]]
- [[組合型]]
]FIG]
** ISO/IEC 2022 系
[FIG(short list)[
- [[ISO/IEC 2022]]
- [[JIS X 0202]]
- [[ISO-2022-JP]]
- [[ISO-2022-JP-1]]
- [[ISO-2022-JP-2]]
- [[ISO-2022-JP-3]]
- [[ISO-2022-CN]]
- [[ISO-2022-CN-EXT]]
- [[ISO-2022-KR]]
- [[ISO-2022-INT-1]]
- [[HZ]]
- [[TRONコード]]
]FIG]
** ISO/IEC 10646 系
[FIG(short list)[
- [[Unicode]]
- [[ISO/IEC 10646]]
- [[JIS X 0221]]
- [[UCS-2]]
- [[UTF-16]]
- [[UCS-4]]
- [[UTF-32]]
- [[UTF-8]]
- [[CESU-8]]
- [[WTF-8]]
- [[UTF-EBCDIC]]
- [[UTF-9]]
- [[UTF-1]]
- [[UTF-7]]
- [[Punycode]]
- [[Network Unicode]]
]FIG]
* 文字コードの分類
[FIG(short list)[
- [[ASCII互換文字符号化]]
- [[ACE]]
- [[ISO/IEC 646の版]]
- [[レガシー符号化]]
]FIG]
* 文字コード群に関する仕様
[FIG(short list)[
- [[ISO-IR]]
- [[IETF charset]]
- [[参照処理モデル]]
- [[Encoding Standard]]
- [[文字符号化宣言]]
- [CODE(CSS)@en[[[@charset]]]]
- [[Stringprep]]
]FIG]
* 文字の名前とエスケープ
[FIG(short list)[
- [[文字の名前]]
- [[日本語通用名称]]
- [[JIS X 0218]]
- [[文字参照]]
- [[テキスト形式TRONコード]]
- [[CSS escape]]
- [[パーセント符号化]]
- [[\u符号化]]
- [CODE[[[\x]]]]
- [CODE[[[\c]]]]
- [CODE[[[\N]]]]
- [[RFC 1345]]
- [[VIQR]]
- [[符号位置]]
- [[文字番号]]
- [CODE[[[U+]]]]
]FIG]
* その他の概念
[FIG(short list)[
- [[文字符号化]]
- [[図形文字]]
- [[制御文字]]
- [[符号化文字集合]]
- [[文字符号化方式]]
- [[図形文字の一意な符号化]]
- [[コードページ]]
]FIG]
* 関連
[2] [[文字]]に割り当てられた数値としての「[[文字コード]]」については、[[符号位置]]を参照。
[5] [[改行コード]]の選択や、 [[BOM]] の有無、利用する[[正準化]]の方式 ([[NFC]] など)
もしばしば「[[文字コード]]」の違いに含められます。
[6] 実装によっては、[[内容転送符号化]] ([[Base64]] など) やプロトコルでのエスケープ表現
([[パーセント符号化]]や[[符号化語]]など) も[[文字コード]]と同列に扱っていることがあります。
* メモ
[3]
[CITE[A composite approach to language/encoding detection]] ([[Shanjian Li]] 著, [CODE[2007-01-24 09:18:52 +09:00]] 版) <http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html>
([[名無しさん]])
[10]
[CITE[smontagu.damowmow.com]] ([CODE[2004-01-07 23:56:12 +09:00]] 版) <http://smontagu.damowmow.com/>
[11] [CITE[統計学の力を借りて、文字化け退散! 解決&高速化編 - ψ(プサイ)の興味関心空間]]
([TIME[2011-11-07 10:00:09 +09:00]] 版)
<http://ledyba.org/2011/11/06191333.php>
[12] [CITE@en[Describe the security situation around encodings and require browsers to... · 2e43ead · whatwg/encoding]]
( ([TIME[2014-12-07 20:13:58 +09:00]] 版))
<https://github.com/whatwg/encoding/commit/2e43ead5c796e314cd3aaada10a2dc33de7bfaf1#diff-8d4d847e6257b75f4bf8030496281de4R65>