/
278.txt
100 lines (70 loc) · 5.09 KB
/
278.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
* 互換性文字
[35] [DFN[[RUBYB[互換性文字]@en[compatibility character]]]]は、既存の[[規格]]との互換性のために追加された、
本来の [[Unicode]] の処理モデルとは矛盾する[[文字]]のことをいいます。
** 仕様書
[REFS[
- [34] <http://www.unicode.org/versions/Unicode6.2.0/ch02.pdf#page=19>
]REFS]
** 定義
[37] [[互換性文字]]は [[Unicode]] 以外の[[規格]]との[[相互運用性]]のために追加された[[文字]]です [SRC[>>34]]。
[36] [[互換性文字]]には[[アラビア文字]]の表現形、[[縦書き]]用の字形、丸付き文字などが含まれます
[SRC[>>34]]。
[38] ただし[[互換性文字]]の具体的なリストはありません [SRC[>>34]]。
;; [39] そんなんでいいのか・・・。
[40] [[互換性文字]]は[[非推奨]]というわけではありません [SRC[>>34]]。必要があれば適宜使って良いようです。
** ISO/IEC 10646 における定義
[4] [[ISO/IEC 10646]] の定義
>
:互換用文字 (compatibility character):
主として既存の[[符号化文字集合]]との互換のため、
この規格群に[[符号化文字]]として含めた[[図形文字]]。
([[JIS X 0221]]‐1:2001 4.13, ISO/IEC 10646:2003 [[WD]] 4.13)
同22章「Compatibility Character」には互換文字がどの辺にあるのかは書かれていますが、具体的な文字の集合は規格のどこにも示されていません。
>
- [[BMP]] では、互換文字の多くは[[区]] [CODE(char)[F9]],
[CODE(char)[FA]], [CODE(char)[FE]], [CODE(char)[FF]],
[CODE(char)[31]], [CODE(char)[33]] に割当てられている。
-- しかし他の位置にも割当てられている。
- [[SIP]] では、区 [CODE(char)[F8]]〜[CODE(char)[FA]]
に割当てられている。
- [CODE(UCS)[CJK COMPATIBILITY IDEOGRAPHS-2001]]
[WEAK[(ISO/IEC 10646‐2:2001 までに ISO/IEC 10646 に収録された CJK 互換漢字。詳しくは規格を見て欲しいが、 [CODE(UCS)[CJK COMPATIBILITY IDEOGRAPHS]] block の全ての文字が含まれるわけではない。)]]
にある文字は本来 [[CJK統合漢字]]と統合すべきだった。
-- これらの文字は種々の理由で収録された。
-- そんなわけで互換漢字は既存規格との[[往復変換]]の時以外では非推奨。
なにげに、途中で CJK 互換漢字の話に摩り替えられています。
[10]
> この規格群には互換用文字が含まれているが、これは、
既存の符号化文字集合との互換性を保ち、
情報を失うことなく双方向の符号変換を可能にすることを目的としている。
> BMP では、これらの文字の多くは、区 [CODE[F9]],
[CODE[FA]], [CODE[FE]] 及び [CODE[FF]] 内並びに区
[CODE[31]] 及び [CODE[33]] 内の符号位置に割り当てている。
互換用文字の幾つかは、他の区の中にも割り当てている。
(JIS X 0221‐1:2001 22. 互換用文字)
[5] ちなみに、 [[JIS]] にも「[[互換用文字]]」
とかいう同じような語があります。
[9] >>5 JIS X 0221 を見ると、 [Q[compatibility character]] の JIS での訳語が[Q[互換用文字]]らしいです。
** 関連
[43] [[互換性異体字]]は[[互換性文字]]の[[部分集合]]です [SRC[>>34]]。
[44] [[互換性分解可能文字]]は[[互換性文字]]と共通する部分が多いですが、互いに異なる[[集合]]です [SRC[>>34]]。
[42] [[XML]] では[[互換性文字]]の使用は[RUBYB[勧められない]@en[[[discouraged]]]]とされています。
[[XMLにおける文字]]の項も参照してください。
[REFS[
- [41] [CITE@EN[Extensible Markup Language (XML) 1.0 (Fifth Edition)]] ([TIME[2013-05-28 20:49:56 +09:00]] 版) <http://www.w3.org/TR/xml/#charsets>
]REFS]
* 互換文字
[1] [[互換分解]]を持つ[[文字]]。 Compatible character。
- [[Unicode規格]]は、既存の基底規格での区別を表現するために互換文字を含めています。それらは [[legacy]] data の転送と処理を支援します。 Legacy data 用以外の使用は非推奨です。
- 互換文字のその分解との置換は基の規格との[[往復変換]]性を失うかもしれません。
・・・と Unicode 3.0 3.6 D21 に書いてあります。
[2] 要は、 Unicode に入れてしまったけど他の文字の組合せで表現できる
(と [[Unicoder]] の主張する) ごみのことです。
[3] 互換分解を持つ文字であって[[正規分解]]を持つ文字ではないので注意しましょう。
例えば、 Unicode の定義では [[CJK互換漢字]]は互換文字ではありません。
* メモ
[8] [[Unicode Standard]] にも注意書きがありますが、 [[Unicode]] における「互換性文字」と
[[正規化]]における「互換文字」は別の概念です。明確な説明なしで使うのには危険な語であります。
[45] [CITE@en[Character Model for the World Wide Web 1.0: Fundamentals]]
( ([TIME[2005-02-15 14:24:00 +09:00]] 版))
<http://www.w3.org/TR/charmod/#sec-Compatibility>