/
596.txt
145 lines (104 loc) · 4.49 KB
/
596.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
* 仕様書
[REFS[
- [6] [CITE[[[The Unicode Standard]], Version 12.0 - ch23.pdf]] ([TIME[2019-03-02 07:15:46 +09:00]]) <https://www.unicode.org/versions/latest/ch23.pdf#G14832>
]REFS]
* 意味
[10]
[DFN[[CODE(char)[U+FFFD]]]]
[DFN[[CODE(charname)@en[REPLACEMENT CHARACTER]]]]
は、
[CITE[Unicode Standard]]
中の[RUBYB[一般の代用文字][general substitute character]]です。
[SRC[>>6]]
[11] 既存の [[Unicode文字]]に[[写像]]できない、
他の[[符号化]]の「未知」の[[文字]]の代用とすることができます。
[SRC[>>6]]
[12]
[[ill-formed sequence]] の [[Unicode符号化形]]間の変換で生じた変換エラーを示す手段としても使えます。
[SRC[>>6]]
[21]
[[非文字]]を
[CODE[U+FFFD]]
に置き換えることがあります。
[SEE[ [[非文字]] ]]
[19]
[CITE[Encoding Standard]]
は、
入力の[[バイト列]]に不適切で解釈できないものが含まれる時、
これを1個[[以上]]の
[CODE[U+FFFD]]
として出力します。
[20]
[[HTML構文解析器]]は、
入力に
[CODE[U+0000]]
があるとき、
かわりに
[CODE[U+FFFD]]
として出力します。
* □
[13]
歴史学などでは摩耗などによる判読不能を [CODE[□]] で表す慣習があります。
[14]
文字数が推定可能なとき、複数の□を連続させることがあります。
文字数が不明瞭なとき、[[長方形]]を使うことがあります。
[15]
不確実ながら推定できる[[文字]]があるとき、□の枠内にこれを入れて示すことがあります。
( [DFN[⃞]] )
[16]
稀に[[△]]を使う例も見られます。
一般の文献では[[○]]や[[×]]など他の[[伏せ字]]を使うことがあります。
[REFS[
[FIG(quote)[
[FIGCAPTION[
[255] [CITE[[LINES[木崎愛吉][旧蔵]]本山コレクション[[金石文]]拓本選]],
[[関西大学なにわ・大阪文化遺産学研究センター]],
発行日 2008年3月31日,
[TIME[2011-03-24T01:46:00.000Z]], [TIME[2020-11-30T11:36:22.993Z]] <https://www.kansai-u.ac.jp/Museum/naniwa/publication/book12.pdf>
]FIGCAPTION]
PDF 6頁
>
[VRL[
•判読できない文字は□で示した。文字数が不明のときは[ASIS[冂凵][上・下四角(接さず)]]とした。なお、他の資料で判読されている
場合は、□の右側に〔 〕で文字を付し、推測される場合は〔 ヵ〕とした。
]VRL]
]FIG]
]REFS]
* 歴史
[4] [CITE@en[HTML5 Revision Tracker]]
([TIME[2010-07-14 22:40:52 +09:00]] 版)
<http://html5.org/tools/web-apps-tracker?from=5155&to=5156>
* メモ
[3] [[UCS]] を作る時に [CODE(char)[GETA MARK]] と
[CODE(char)[REPLACEMENT CHARACTER]]
は unify しておくべきだったんじゃないでしょうかね?
[1] [TIME[2002-12-31 11:50]] ''>>0'': 今更言っても無駄無駄。
[5] [CODE(char)[U+001A]] [CODE(charname)@en[SUBSTITUTE]] も[[制御文字]]だけど本来同じもののような。
[2] >>3 [[図形文字の符号化]]w
[7] [CITE@en[U+3013 GETA MARK (〓) - Charinfo]] ([TIME[2017-03-20 11:26:55 +09:00]]) <https://chars.suikawiki.org/string?s=%E3%80%93>
[FIG(quote)[
[FIGCAPTION[
[8] [CITE[''''''[''''''mixi'''''']'''''' 困ったなぁ どうしたの?例〓無駄遣いして金欠'''['''i:163''']''']]
( ([TIME[2017-03-20 11:26:10 +09:00]] 版))
<http://mixi.jp/view_voice_topic.pl?topic_id=63849>
]FIGCAPTION]
> つぶやきネタに答えよう
> 困ったなぁ どうしたの?例〓無駄遣いして金欠たらーっ(汗)
]FIG]
[9] [[文字化け]]ではなく元から「〓」っぽい。
[FIG(quote)[
[FIGCAPTION[
[17] [CITE@ja[算木 - Wikipedia]]
([TIME[2020-04-19 20:21:32 +09:00]])
<https://ja.wikipedia.org/wiki/%E7%AE%97%E6%9C%A8>
]FIGCAPTION]
> また当初「0」は空白だったが、「〇」を書くようになった。718年に瞿曇悉達によりインド数字から導入されたとも'''['''5''']'''、中国語で欠字を表した「□」から来ているとも'''['''7''']'''言われる。
]FIG]
[FIG(quote)[
[FIGCAPTION[
[18] [CITE@ja[古代日本の戸籍制度 - Wikipedia]]
([TIME[2020-04-26 16:16:13 +09:00]])
<https://ja.wikipedia.org/wiki/%E5%8F%A4%E4%BB%A3%E6%97%A5%E6%9C%AC%E3%81%AE%E6%88%B8%E7%B1%8D%E5%88%B6%E5%BA%A6>
]FIGCAPTION]
> 647年(大化3)から664年(天智3)までの間に一括投棄された飛鳥京の木簡に「白髪部五十戸、◎十口」とある。◎は五と思われる。
]FIG]