/
426.txt
286 lines (237 loc) · 8.42 KB
/
426.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
[2] [DFN[[CITE[The Unicode Standard]]]] は、
[[Unicode]] の中心的な[[仕様書]]です。
[[Unicode Consortium]] が発行しています。
[REFS[
- [3] [CITE@en-us[Unicode Standard]]
<http://www.unicode.org/standard/standard.html>
- [4] [CITE@en-us[Updates and Errata]]
<http://www.unicode.org/errata/>
]REFS]
* 呼称
[1] [DFN[TUS]] は、 [[The Unicode Standard]] の略らしい。この略語は [[Unicoder]] 界隈でしか通用しない。
[38]
正式文書の事例として、 [[UAX #45]] で略称として使われています。
* 版
[9] 頻繁に改訂版が出版されています。
[SEE[ [[Unicodeの版]] ]]
[14]
[[Unicode 1.0]] は現行版との違いが多々あり、
事実上別仕様と考えるべきものです。
[15]
[[Unicode 1.1]] は現行版にかなり近いものですが、
[[ハングルの大移動]]前で、
互換性がありません。
[16]
[[Unicode 2.0]] 以後はおおむね互換性が保たれています。
[[phi mess]] のような細部の非互換変更はあります。
[12] 普通は最新版を参照するべきです。
* URL
[22]
[CITE[The Unicode Standard]]
の本文は
<https://www.unicode.org/versions/Unicode13.0.0/ch23.pdf#M9.35858.HeadingBreak.132.Layout.Controls>
のような
[[URL]]
で章ごとの
[[PDF]]
で提供されています。
[23]
<https://www.unicode.org/versions/latest/ch23.pdf#M9.35858.HeadingBreak.132.Layout.Controls>
のような [CODE[latest]] とついた [[URL]] で、
最新版の
[CITE[The Unicode Standard]]
を参照できます。
ただし、
章番号が変わってしまうと[[リンク切れ]]してしまいます。
章構成は過去に何度か変更 (途中に新章を挿入) されているようです。
[24]
<https://www.unicode.org/versions/Unicode13.0.0/UnicodeStandard-13.0.pdf>
のような
[[URL]]
で全章まとめた
[[PDF]]
が提供されています。
どこにあるかわからない事項を探すのに便利ですが、
バージョン番号が[[ファイル名]]に入っているので、
最新版を参照する
[[URL]]
が作れません。
[25]
[[PDF]]
内の章節や図は[[素片識別子]]で直接リンクできます。
[[素片識別子]]は、
[[PDF]]
文中の[[リンク]]や、
[[PDF]] ビューアーの[[目次]]表示
[WEAK[([[Chrome]] にはないが [[Firefox]] にはあります。)]]
で知ることが出来ます。
* 規定
[6] [[Unicode Standard]] では色々な概念が定義されています。
[FIG(short list)[ [26] [CITE[The Unicode Standard]]
- [[上位層プロトコル]]
- [[文字][Unicode文字]]
- [[抽象文字]]
- [[Unicode抽象文字]]
- [[抽象文字列]]
- [[Unicode符号空間]]
- [[U+[VAR[HHHH]]]]
- [[文字の名前]]
- [[符号点]]
- [[Unicodeスカラー値]]
- [[符号点型]]
- [[符号化済文字]]
- [[符号化済文字列]]
- [[基底文字]]
- [[結合文字]]
- [[互換性文字]]
- [[非推奨文字]]
- [[予約済符号点]]
- [[グリフ]]
- [[異体][異体選択子]]
- [[異体選択子]]
- [[異体列]]
- [[SVS]]
- [[EVS]]
- [[IVS]]
- [[ブロック]]
- [[CJK統合漢字]]
- [[CJK互換漢字]]
- [[PUA]]
- [[非文字]]
- [[サロゲートペア]]
- [[BOM]]
- [[符号化方式]]
- [[符号化形]]
- [[UTF-8]]
- [[UTF-16]]
- [[UTF-32]]
- [[正規化]]
- [[NFC]]
- [[NFKC]]
- [[NFD]]
- [[NFKD]]
- [[Unicode Character Database]]
- [[bidi]]
]FIG]
[7] 技術としての全体は [[Unicode]] も参照。
[17] 組織と標準化手続きに関しては [[Unicode Consortium]] を参照。
* ISO/IEC 10646 との関係
[18] 技術的、政治的関係は [[Unicode]] を参照。
[19] [[仕様書]]としては [CITE[The Unicode Standard]] と [[ISO/IEC 10646]]
はまったくの別物です。
[20]
[[ISO/IEC 10646]] の規定内容は、大部分が、やや異なる表現で
[CITE[The Unicode Standard]]
に含まれます。
[CITE[The Unicode Standard]] の方がボリュームがあって詳細です。
技術的厳密さはときに
[[ISO/IEC 10646]]
の方が優れていることも無いでもないですが、
[CITE[The Unicode Standard]]
の方が実装に必要な情報を豊富に含んでいます。
[21]
近年の [[ISO/IEC 10646]] は多くの項目で
[CITE[The Unicode Standard]]
やその他の
[[Unicode Consortium]]
の仕様書を参照しているため、
単独では使えません。
逆に
[CITE[The Unicode Standard]]
とその他の仕様書は完結していて単独で実装可能です。
* 仏語版
[27]
[CITE[The Unicode Standard]]
は[[英語]]で書かれていますが、
その他に一部が[[仏語]]に翻訳されたものがあります。
-*-*-
[30]
[[Unicode Consortium]]
の[[Webサイト]]で、
[[仏語]]版の[[符号表]]が公開されています。
[SRC[>>28]]
[[Unicode 13]]
のものが公開された [SRC[>>29]]
後、
[[Unicode 14]]
のものに更新されました。
しかし今後も更新するかは保証しないとされています
[SRC[>>29]]。
[31]
[[符号表]]における[[文字の名前]]は[[仏語]]に翻訳されていますが、
[[規定]]の一部ではないとされています。
[SRC[>>29]]
[SEE[ [[文字の名前]] ]]
[32]
[[文字の名前]]を始めとする[[符号表]]に含まれる情報は、
本来の[[英語]]版は [[UCD]] に含まれますが、
[[仏語]]版は含まれていません。
[REFS[
- [28]
[CITE@en[Tableaux des caractères]], [TIME[2021-10-07T20:55:21.000Z]], [TIME[2022-03-12T12:05:08.281Z]] <https://unicode.org/charts/fr/>
- [29]
[CITE[The [[Unicode]] Blog: August 2020]],
Thursday, August 20, 2020,
[TIME[2022-03-07T22:15:05.000Z]], [TIME[2022-03-12T12:06:43.406Z]] <http://blog.unicode.org/2020/08/?m=0>
]REFS]
-*-*-
[34]
その[[仏語]]版[[符号表]]の協力者としても名前が挙げられている
[SRC[>>29]]
[[Patrick Andries]]
の
[[Webサイト]]で、
[CITE[The Unicode Standard]]
本文や[[符号表]]、
[[UCD]]
の一部の[[仏語]]訳が公開されています。
[SRC[>>33]]
[35]
このサイトについて
[[Unicode Consortium]]
側からの正式な言及は見つけられません。
このサイトに言及したメールが
[[Unicode]]
の[[Webサイト]]に複数アーカイブされており、
認知はされているようです。
[36]
[[Unicode]]
の
[[Webサイト]]のものと同じと思われる[[符号表]]や、
その元データと思われる
[[UCD]]
の一部ファイルの[[仏語]]版がこちらのサイトで公開されています。
そのファイルの貢献者欄には、
[[Unicode]]
ブログで紹介された協力者の面々が示されています [SRC[>>37]]。
[REFS[
-
[33]
[CITE@FR-CA[Hapax - [[Unicode]] et [[ISO 10646]] en français]], [TIME[2021-10-11T03:03:17.000Z]], [TIME[2022-03-12T12:10:06.664Z]] <http://hapax.qc.ca/>
--
[37]
[CITE[Standard Unicode 14.0.0[BR[]]Liste des noms des caractères (version en langue française)]], [TIME[2021-10-11T03:45:55.000Z]], [TIME[2022-03-12T12:15:13.651Z]] <http://hapax.qc.ca/ListeNoms-14.0.0.txt>
]REFS]
* 関連
[8] [[Unicode Standard]] 本体に含まれない追加仕様が [[UAX]]、[[UTS]]、[[UTR]]
各シリーズで発行されています。
追加とはいってもそのうちのいくつかは無視できない重要な技術を定めています。
* 歴史
[5] 初期は紙の本として(のみ)出版されていたようですが、その後 [[Unicode Consortium]] のサイトで無料で [[PDF]]
が入手できるようになりました。 6 以降は紙の本は発行されていないようです。
[13]
その後オンデマンド印刷版を発注できるようになったみたいです。
[10]
[[仕様書]]が
[[PDF]]
でとても読みにくい。
歴史的にはその方がよかったのでしょうけれども、
今の時代は
[[HTML]] + [[SVG]] + [[Web Fonts]]
にしてもらった方が読みやすいように思うのですが、
どうにかならないものでしょうか。
[11]
同じ話題でも定義と実装の指針と文字ごとの説明 (と[[符号表]]) (と各種 [[UTR]])
であちこちに分散して書かれているのが非常に面倒くさい。
しかもそれぞれに似たようなことが少しずつ違う表現で再掲されていたりもして、
解釈するのがとても厳しい。