/
449.txt
61 lines (52 loc) · 2.97 KB
/
449.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
[[Internet-Draft]] draft-abela-utf9-00 <urn:ietf:id:draft-abela-utf9-00>
で定義されていましたが、 expire されました。
[[UTF-8]] と似ていますが、 Latin-1 ([[ISO/IEC8859]]-1)
の範囲の文字 (U+0000-U+007F, U+00A0-U+00FF) はそのままの値で
UTF-9 では表現されます。 UTF-8 とは違って、 0xA0-0xFF
のオクテットが1文字である可能性がありますから、文字の始まり
かどうかは前に戻らないと判断できません。
こうした欠点や既に UTF-8 が普及していたことから、 [[IETF]]
protocols で使われることにはなりませんでした。
*構造
\R 0 1 2 3 4 5 6 7 8 9 A B C D E F
C\
0 <C><C><C><C><C><C><C><C><C><C><C><C><C><C><C><C>
1 <C><C><C><C><C><C><C><C><C><C><C><C><C><C><C><C>
2 SP ! " # $ % & ' ( ) * + , - . /
3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 @ A B C D E F G H I J K L M N O
5 P Q R S T U V W X Y Z [ \ ] ^ '_
6 ` a b c d e f g h i j k l m n o
7 p q r s t u v w x y z { | } ~ DEL
8 2_ 2_ 2_ 2_ 2_ 2_ 2_ 2_ 2_ 2_ 2_ 2_ 2_ 2_ 2_ 2_
9 3_ 3_ 3_ 3_ 4_ 4_ 4_ 4_ 5_ 5_ 5_ 5_ 5_ 5_ 5_ 5_
A <L><L><L><L><L><L><L><L><L><L><L><L><L><L><L><L>
B <L><L><L><L><L><L><L><L><L><L><L><L><L><L><L><L>
C <L><L><L><L><L><L><L><L><L><L><L><L><L><L><L><L>
D <L><L><L><L><L><L><L><L><L><L><L><L><L><L><L><L>
E <L><L><L><L><L><L><L><L><L><L><L><L><L><L><L><L>
F <L><L><L><L><L><L><L><L><L><L><L><L><L><L><L><L>
* <C> Control Character ([[C0]])
<L> Latin-1 character
2_ 1st octet of 2 octets
3_ 1st octet of 3 octets
4_ 1st octet of 4 octets
5_ 1st octet of 5 octets
* <L>, 2_, 3_, 4_, 5_ are also 2nd, 3rd, ... octet of
multi-octets character.
,UCS-4 value (hex) ,UTF-9 octet stream (binary)
,0000 0000-0000 007F, 0xxxxxxx
,0000 00A0-0000 00BF, 101xxxxx
,0000 00C0-0000 00FF, 11xxxxxx
,0000 0100-0000 07FF, 1000xxxX 1xxxxxxx
,0000 0800-0000 FFFF, 100100Xx 1xxxxxxX 1xxxxxxx
,0001 0000-007F FFFF, 100101xx 1xxxxxXx 1xxxxxxX 1xxxxxxx
,0080 0000-7FFF FFFF, 10011xxx 1xxxxXxx 1xxxxxXx 1xxxxxxX 1xxxxxxx
x -> bit
X -> MSB in UCS-4 octets
*その他
- 2002-09-23 (Mon) 13:02:40 ''[[名無しさん]]'' : [[UTF-8]] にかなり遅れてしかも欠点を加えた上に、 [[Latin-1]] 圏の身勝手にとられたのが痛い。
- 2002-09-23 (Mon) 13:03:40 ''[[名無しさん]]'' : それを言うなら UTF-8 も [[ASCII]] 世界のわがままだけど、 ASCII は Latin1 より遥かに大きな[[シェア]]を持つからねぇ。
- 2002-09-23 (Mon) 13:05:50 ''[[名無しさん]]'' : U+0080-U+009F を表現できないのも問題じゃない?
- 2002-09-23 (Mon) 13:06:39 ''[[名無しさん]]'' : 2オクテット表現を使えばいいのか?
[[#comment]]