-
Notifications
You must be signed in to change notification settings - Fork 4
/
47.txt
166 lines (128 loc) · 5.59 KB
/
47.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
* 仕様書
[REFS[
- [44] [CITE[[[The Unicode Standard]], Version 13.0 - ch02.pdf]], [TIME[2020-03-09T17:53:32.000Z]], [TIME[2020-12-20T08:35:03.323Z]] <https://www.unicode.org/versions/latest/ch02.pdf#G14527>
- [22] [CITE[[[The Unicode Standard]], Version 13.0 - ch03.pdf]], [TIME[2020-03-09T17:53:34.000Z]], [TIME[2020-12-20T02:08:18.239Z]] <https://www.unicode.org/versions/latest/ch03.pdf#G2212>
- [5]
[CITE[[[The Unicode Standard]], Version 13.0 - ch23.pdf]], [TIME[2020-03-09T17:53:52.000Z]], [TIME[2020-12-13T07:28:31.667Z]] <https://www.unicode.org/versions/latest/ch23.pdf#G27446>
]REFS]
* 書式
[23]
[DFN[[RUBY[書式][しょしき][Format]]]]は、
[[符号点型]]の1つです。
[SRC[>>22 D10a]]
そのような[[符号点]]の
[[General Category]]
は、
[DFN[[CODE[Cf]]]],
[CODE[Zl]],
[CODE[Zp]]
のいずれかです (それらの
[[General Category]] の[[符号点]]は、すべてこの[[符号点型]]に属します)。
[SRC[>>44]]
[REFS[
- [24] [[符号点型]] [CODE[Format]]
の[[符号点]]の一覧
<https://chars.suikawiki.org/set/%24unicode%3Aformat>
]REFS]
* 書式制御文字
[1] [DFN[[RUBYB[書式制御文字][format control character]]]]は、
[[Unicode文字]]の種類の1つです。
[FIG(short list)[ [3] [[書式制御文字]]
- [CODE(charname)@en[ZWJ]]
- [CODE(charname)@en[ZWNJ]]
- [[bidirectional ordering controls]]
]FIG]
[REFS[
- [17] [[書式制御文字]]の一覧
<https://chars.suikawiki.org/set/%24unicode%3Aformat-control-characters>
]REFS]
* paired stateful controls
[6]
[DFN[paired stateful controls]]
は、
[RUBYB[最初][initiating]]の文字(列)と[RUBYB[最後][terminating]]の文字とで組にして使います。
[SRC[>>5]]
[FIG(short list)[ [8] [RUBYB[[[推奨]]][recommended]]されるもの [SRC[>>5]]
- [[bidi overrides]]
- [[bidi embeddings]]
- [[bidi isolates]]
- [[annotation characters]]
- [[musical beams and slurs]]
]FIG]
[12]
いくつかのものは、
[RUBYB[[[非推奨]]][deprecated]]であり、避ける[RUBYB[べき][should]]です。
[SRC[>>5]]
[FIG(short list)[ [11] [RUBYB[[[非推奨]]][deprecated]]のもの [SRC[>>5]]
- [[deprecated format characters]]
- [CODE(char)[U+E0001]] [CODE(charname)@en[LANGUAGE TAG]]
]FIG]
[7]
[[テキスト]]の[[コピペ]]や[[削除]]の操作で、
組が崩れてしまうことがあります。
理想的には元の[[テキスト]]も複写した方の[[テキスト]]も組が維持される形となるべきですが、
複雑な処理になることもあり、
それが行われないことや、
間違った形で行われることがあります。
[SRC[>>5]]
[[相互運用性]]や[[セキュリティー][文字のセキュリティー]]の観点からも、
実装は受信データ中で組になっていない場合であってもそれなりの扱いができる必要があります。
[9]
推奨されるもののうち、
[[bidi]] 系と
[[annotation characters]]
は、
[[段落]]境界までで効果が終わるため、
そこそこ頑強とされます。
[SRC[>>5]]
[10]
[[beams and slurs in music]]
は、
特化した音楽レイアウトソフトウェアのみに推奨されるもので、
適用範囲も限られているものです。
[SRC[>>5]]
[14]
[[タグ文字]]は[[テキスト]]の移動操作で壊れやすいです。
[SRC[>>5]]
[REFS[
- [18] [[paired stateful controls]] の一覧
<https://chars.suikawiki.org/set/%24unicode%3Apaired-stateful-controls>
-- [20] 推奨の一覧
<https://chars.suikawiki.org/set/%24unicode%3Apaired-stateful-controls-recommended>
-- [19] 非推奨の一覧
<https://chars.suikawiki.org/set/%24unicode%3Apaired-stateful-controls-deprecated>
]REFS]
* 非推奨書式文字
[13]
[DFN[[RUBYB[非推奨書式文字][deprecated format character]]]]は、
[[[RUBYB[非推奨][deprecated]]であり、避ける[RUBYB[べき][should]]][Unicodeの非推奨の文字]]です。
[SRC[>>5]]
[FIG(list )[ [16] [[非推奨書式文字]]
- [15] [[symmetric swapping format characters]]
- [[character shaping selectors]]
- [[numeric shape selector format characters]]
]FIG]
[REFS[
- [21] [[非推奨書式文字]]の一覧
<https://chars.suikawiki.org/set/%24unicode%3Adeprecated-format-characters>
]REFS]
* Arabic subtending or supertending marks
[26]
[[アラビア文字]]のうち
[ [CC[U+0600]], [CC[U+0605]] ],
[ [CC[U+0890]], [CC[U+0891]] ]
は、
おそらく後続の[[数字]]列に作用してそれらの上下にまたがって[[レンダリング]]される性質があるために、
[CODE[Cf]] に分類されています。
[27]
[CODE[Cf]] に含まれる中でも他の状態を持つ文字や状態を変化される文字や不可視の文字とは違って、
これらは[[結合文字]]と似たような性質で、危険性は比較的低いと思われます。
- [11] [CITE[L2 / UTC Document Search by Number: Results]], [TIME[2024-07-08T00:29:24.000Z]] <https://www.unicode.org/cgi-bin/GetMatchingDocs.pl?L2/09-144>
- [12] [CITE[UTC 121/L2 218 Joint Meeting Pre-Preliminary Minutes]], [TIME[2024-07-08T00:29:51.000Z]] <http://www.unicode.org/L2/L2009/09335.htm>
- [25] [CITE@ja[Microsoft Word - three-arabic-symbols.docx - 20245-three-arabic-symbols.pdf]], [TIME[2020-09-28T15:36:18.000Z]], [TIME[2024-07-08T01:01:06.201Z]] <https://www.unicode.org/L2/L2020/20245-three-arabic-symbols.pdf>
* セキュリティー
[SEE[ [[文字のセキュリティー]] ]]
* 関連
[2] [[制御文字]]とは異なります。
[4] [CODE(charname)@en[CGJ]] は[[書式制御文字]]ではありません。
* メモ