/
339.txt
135 lines (105 loc) · 6.94 KB
/
339.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
[16] [DFN[[RUBYB[[[符号化文字集合]]]@en[coded character set]]]]は、
[[文字]]に[RUBY[[[符号]]]@en[コード]]を割り当てたものについての
[[ISO/IEC]] や [[JIS]] などで用いられている用語です。
一般に[[文字コード]]と呼ばれるものに当たります
[WEAK[(が、[[文字コード]]という語はしばしば曖昧に用いられます)]]。
[24] [[Unicode]] に統一された現在ではほとんど意味のない用語となりました。
* ISO における定義
[4]
>
:[INS[[[JIS X 0211]]‐1994]] 4.2.18 符号化文字集合 (coded character set), 符号 (code):
[[文字集合]]を定め、かつ、その[[集合]]内の[[文字]]と[[ビット組合せ]]を1対1に関係付ける、
あいまいでない規則の集合。
[5]
>
:符号化文字集合 (coded character set), 符号 (code):
[[文字集合]]を定め、かつ、
その[[集合]]内の[[文字]]と[[ビット組合せ]]を1対1に関係付ける、
あいまいでない[[規則]]の[[集合]]。
-[INS[参考 [Q[符号化文字集合]]と[Q[符号]]とは、交換可能な[[用語]]である。例えば、[Q[7ビット符号化集合]]と[Q[7ビット符号]]と、同じ意味である。]]
[SRC[[[JIS X 0202]]:1998 4.5]]
-[INS[注意: この[Q[参考]]は、 [[JIS X 0202]] が [[ISO/IEC 2022]] に対して追加した部分です。]]
[1]
>
:[DFN[符号化文字集合]] ([DFN@en[coded character set]]):
[[文字集合]]を定め、かつ、その[[集合]]内の[[文字]]と[[ビット組合せ]]を
1対1に[[関係]]付ける、あいまいでない[[規則]]の[[集合]]。
- 参考 [Q[[[符号化文字集合]]]]と[Q[[[符号]]]]とは、
[[交換]]可能な[[用語]]である。
例えば、[Q[7ビット符号化文字集合]]と[Q[7ビット符号]]とは、
同じ意味である。 [SRC@en[[[JIS X 0201]]:1997 3.12]]
[3]
>
: 符号化文字集合 (coded character set):
文字集合及びその集合の文字と[[符号化表現]]との間の関係を定めるあいまいさのない規則の集合。
([[JIS X 0221]]‐1:2001 4.9)
[9]
>A coded character set (CCS) is a set of unambiguous rules that
establishes a character set and the relationship between the
characters of the set and their coded representation. <ISOIEC10646>
;; [10] [CITE@en[RFC 3536 - Terminology Used in Internationalization in the IETF]] ([TIME[2011-01-29 02:14:52 +09:00]] 版) <http://tools.ietf.org/html/rfc3536#page-5>
[8] ''符号''化文字集合と符号が同義というのはどうも納得いかないんだけど、そういう定義である以上 ([[ISO/IEC]] や [[JIS]] の文脈では) この2つは「交換可能な用語」です。
[7] 交換したら[CODE[符号化文字集合]]が[CODE[符号化文字集合化文字集合]]になってしまいましたが・・・
[6] 業界的に再帰(謎)ですね。。。
* IETF における定義
[17] [[IETF]] での[[符号化文字集合]]の定義は、 [[ISO/IEC]] の定義と同じようで若干の違いがあります。
[[IETF]] ではしばしば[[符号化文字集合]]と対になる概念として[[文字符号化方式]]を用います。
前者を [[CCS]]、後者を [[CES]] と略します。 [[CCS]] は[[文字]]と[[符号]]を対応付けるものですが、
[[CES]] はその[[符号]]を更に別の[[符号]]へと対応付けます。
一般的に[[文字コード]]と呼ばれるものは、 [[CCS]] と [[CES]] の組み合わせとされています。
[EG[
[18] 例えば一般的に [[UTF-8]] と呼ばれる[[文字コード]]は、
[[Unicode Standard]] によって定義される[[文字]]と[[符号位置]]の組み合わせから成る [[CCS]] と、
[[Unicode Standard]] によって定義される[[符号位置]]から [[UTF-8]] の[[オクテット列]]の対応関係から成る
[[CES]] の組み合わせと理解されます。
]EG]
[2]
>
:符号化文字集合 (coded character set):
[[整数]]の部分集合が[[変域]]であって、
[[文字レパートリ]]が[[値域]]である[[関数]]。
ある整数の集合が存在して、符号化文字集合とその集合中の整数が[[文字]]を決定する。
逆に文字と符号化文字集合が[[符号位置]]を決定する。
(まれに、一つではなく幾つかの符号位置になることもある。)
([[RFC 1866]], [[ISO‐HTML]] <http://purl.org/NET/ISO+IEC.15445/15445.html#DEFS> 4.6)
[11] [CITE@en[RFC 6365 - Terminology Used in Internationalization in the IETF]]
([TIME[2011-09-10 19:11:51 +09:00]] 版)
<http://tools.ietf.org/html/rfc6365#page-7>
[FIG[
[12]
>
A Coded Character Set (CCS) is a mapping from a set of abstract
characters to a set of integers. Examples of coded character sets
are ISO 10646 [ISO-10646], US-ASCII [ASCII], and ISO-8859 series [ISO-8859].
[FIGCAPTION[
[CITE@en[RFC 2130 - The Report of the IAB Character Set Workshop held 29 February - 1 March, 1996]] ([TIME[2011-09-04 12:12:00 +09:00]] 版) <http://tools.ietf.org/html/rfc2130#page-8>
]FIGCAPTION]
]FIG]
[13] [CITE@en[RFC 2277 - IETF Policy on Character Sets and Languages]]
( ([TIME[2011-11-20 13:18:05 +09:00]] 版))
<http://tools.ietf.org/html/rfc2277#section-3>
* 符号化文字集合の分類
[14]
- [[符号化文字]]の種別による分類
-- [[符号化図形文字集合]]
-- [[符号化制御機能集合]]
* 性質
[19] [[符号化文字集合]]は、[[符号化文字]]の[[集合]]ですが、
数学的な意味の[[集合]]とは厳密には異なり、やや特異な性質を持っています。
[20] [[集合]]の[[要素]]である「[[符号化文字]]」は、
[[文字]]を[[符号化]]したものです。つまり、[[符号化文字集合]]の[[要素]]には数値が割り振られています。
通常はこの数値と[[文字]]は一対一対応しますが ([[重複符号化]]の禁止の原則)、
これが成立していないケースがあります。
[21] また[[集合]]の[[要素]]である「[[符号化文字]]」の定義はしばしば曖昧で、
[[重複符号化]]でなくとも、2つの[[符号化文字]]の区別が曖昧だったり、
ある[[文字]]がどちらで[[符号化]]できるのか (どちらでもできないのか)
明確にされていないこともあります。
[22] 更に、[[符号化文字集合]]には[[私用域]]や未割り当ての[[符号位置]]が含まれることがあります。
つまり[[集合]]の[[要素]]が文脈により変化したり、存在しない (が複数あっても互いには区別される)
ものだったりします。
[23] [[符号拡張法]]を用いた[[文字コード]]のことも[[符号化文字集合]]と呼ぶことがありますが、
その場合そもそも[[集合]]と言えるものかどうかも怪しいところです。
* メモ
[15] [CITE@en[Character Model for the World Wide Web 1.0: Fundamentals]]
( ([TIME[2005-02-15 14:24:00 +09:00]] 版))
<http://www.w3.org/TR/charmod/#def-CCS>