-
Notifications
You must be signed in to change notification settings - Fork 4
/
996.txt
197 lines (122 loc) · 10.3 KB
/
996.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
[2] [CITE@en[[[大正新脩大藏經テキストデータベース]] ホーム]], [TIME[2022-01-28T02:27:51.000Z]], [TIME[2022-09-12T02:45:26.991Z]] <https://21dzk.l.u-tokyo.ac.jp/SAT/>
* ファイル形式
[18] [CITE[Sat: Technical Infomation '''['''format''']''']], [TIME[2023-07-29T03:52:09.000Z]], [TIME[2007-05-03T04:42:43.998Z]] <https://web.archive.org/web/20070503044235/http://www.l.u-tokyo.ac.jp/~sat/japan/tech/format.html>
* 文字表現
[19] [CITE[Sat: Technical Infomation '''['''code''']''']], [TIME[2023-07-29T03:55:59.000Z]], [TIME[2007-05-09T09:10:33.331Z]] <https://web.archive.org/web/20070509090637/http://www.l.u-tokyo.ac.jp/~sat/japan/tech/code.html>
** 外字
[22] [DFN[[CODE[&M]]]] で始まる[[文字参照]]構文を使っていました。
[21] [CITE@ja[SAT: Technical Infomation '''['''gaiji''']''']], [TIME[2023-07-29T03:57:29.000Z]], [TIME[2007-01-08T08:59:24.157Z]] <https://web.archive.org/web/20070108085358/http://www.l.u-tokyo.ac.jp/~sat/japan/tech/gaiji.html>
[20]
当初は[[大漢和辞典]] + [[今昔文字鏡]]
[SEE[ [[今昔文字鏡]] ]]
[24]
[[今昔文字鏡]]にない[[文字]]は [DFN[[CODE[&MT]]]]
で始まる[[文字参照]]が使われています。
[SRC[>>23]]
- [37] [CITE[SAT DB]], [TIME[2023-10-23T03:38:29.000Z]] <https://21dzk.l.u-tokyo.ac.jp/SAT/ddb-sat2.php?key=MT01391&mode=search&uop=1>
[38] >>37 [CODE[&MT01391;]] の用例一覧を検索
- [23]
[CITE@ja[SAT: 文字鏡外字リスト]], [TIME[2023-07-29T04:00:14.000Z]], [TIME[2007-05-09T09:13:41.178Z]] <https://web.archive.org/web/20070509090531/http://www.l.u-tokyo.ac.jp/~sat/japan/tech/kari_number.html>
[25] >>23 この当時の番号は後の[[出典S]]の番号と同じ体系
[41]
[DFN[[CODE[&T]]]]
も使われていました。
-
[40]
[CITE[SAT DB]], [TIME[2023-10-23T03:41:49.000Z]] <https://21dzk.l.u-tokyo.ac.jp/SAT/ddb-sat2.php?key=T003334&mode=search&uop=1>
[39] >>40 [CODE[&T003334;]] の用例検索。
[26] >>21
>梵字はサンスクリットのローマ字表記を、実体参照形式で表現しています。
[30] [CITE@ja[INBUDS Technical Notes]], [TIME[2023-07-29T04:23:21.000Z]], [TIME[2003-04-06T15:42:09.364Z]] <https://web.archive.org/web/20030406153700/http://www.inbuds.net/jpn/tech.html>
[31] >>30 は [CODE[&M]] 方式を [[SAT]] サイト同様に説明し、
>
この方式は、他の多くのデータベースでも採用されています。
としている。
;; [32] [[SAT]] と [[INBUDS]] は別だが関係は深そうで、
参加人物も重なっている。
[33] >>30
>文字コードで表現できないダイアクリティカルマーク付きアルファベットや特殊な記号は、TeXの形式に倣い、下記のような代替表記で表現しています。
>
\={a} ā
>[SNIP[]]
[27] [CITE[INBUDS Update]], [TIME[2023-06-02T06:44:20.000Z]], [TIME[2023-07-29T04:07:31.573Z]] <https://www.inbuds.net/jpn/update.html>
>
,2012/12/19 ,&Mから始まる外字代替表記をUnicode文字に変更
[36]
関連: [[梵字]]
[44]
[TIME[2023-10-29T14:23:56.000Z]]
<https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=89421&item_no=1&attribute_id=1&file_no=1>
[45] >>4 [[GT書体]]を使い、ないものは [[GT]] ベースで作字していたと。
[46] [CITE[advpub_2023_026.pdf]], [TIME[2023-10-29T14:26:54.000Z]] <https://www.jstage.jst.go.jp/article/jsik/advpub/0/advpub_2023_026/_pdf>
[47] [CITE@ja[『電脳社会の日本語』:ほら貝]], [TIME[2016-08-02T01:43:49.000Z]], [TIME[2023-10-29T14:28:16.412Z]] <http://www.horagai.com/www/moji/nihon/correct.htm>
>
:正: 112010は文字鏡文字セットにおける「[ASIS[憍][文字画像]]」の文字番号の末尾に予備用の0を付加したものである。
>石井公成様から御指摘いただきました。末尾に0をつけるのはSATの方式でしたが、文字鏡の文字番号が十万台(六桁)にはいったのを機に、CBETAと協議の結果、五桁の番号の場合、「&M011201;」のように頭に0をつけて六桁固定長にすることになったということです。
** CJK統合漢字の出典S
[10]
[[SAT]] の[[漢字]]は [[Unicode]] の[[CJK統合漢字]]の[DFN[出典S]]
としても使われています。
[1] [CITE[[[SAT大正蔵漢字]] in Unicode10.0]], [TIME[2017-07-13T18:01:18.000Z]], [TIME[2022-09-12T02:41:41.651Z]] <https://21dzk.l.u-tokyo.ac.jp/SAT/unicode/satunicode.html>
[12] [CITE@ja[大正新脩大藏經テキストデータベース ホーム]], [TIME[2021-04-03T18:01:54.000Z]], [TIME[2023-07-29T02:22:08.695Z]] <https://21dzk.l.u-tokyo.ac.jp/SAT/unicode13.html>
[4] [CITE@ja[グループ:knagasaki_unicode10sat - [[GlyphWiki]]]], [TIME[2022-10-02T13:56:51.000Z]] <https://glyphwiki.org/wiki/Group:knagasaki_unicode10sat>
[6] >>4 は >>1 で配布されている[[フォント]]と同じようなものに見えますが、同じかはわかりません。
(ファイルとしては違っています。 [[GlyphWiki]] が生成する[[フォント]]の構造が少し変わっています。
[[グリフ]]データが違うかは知りません。)
[5] [CITE@ja[グループ:n747_satu13 - [[GlyphWiki]]]], [TIME[2022-10-02T13:59:46.000Z]] <https://glyphwiki.org/wiki/Group:n747_satu13>
[7] >>5 は >>4 に更に [[Unicode]] 13 分を追加したものです。
[13] >>12 で配布されているフォントと同じものか?
[35]
>>4 >>5 にすべての[[SAT外字]]が収録されているわけではなく、
[[IRG]]未提案のものや既存[[Unicode文字]]に対応するものは入っていません。
(そのようなものでも [[GlyphWiki]] 自体にはデータがあります。すべて入っているのかは不明。)
[9] [CITE[Microsoft Word - IRGN2515PnP15 - n5178-IRGN2515PnP15Confirmed.pdf]], [TIME[2022-03-23T03:41:24.000Z]], [TIME[2023-07-23T04:01:50.916Z]] <https://www.unicode.org/wg2/docs/n5178-IRGN2515PnP15Confirmed.pdf#page=29>
- [14] [CITE@ja[Tsukasa #01さんはTwitterを使っています: 「新しくデータ化するときに何故か "Unicode 10.0 で字形変化を起こした" として記録しなければならない字形が多いなぁと思ったらやっぱり。」 / X]], [TIME[午後0:37 · 2018年2月25日][2018-02-25T03:37:35.000Z]], [TIME[2023-07-29T02:13:07.000Z]] <https://twitter.com/a4lg/status/967604459546144768>
-- [15] [CITE@ja[Tsukasa #01さんはTwitterを使っています: 「しかも、SAT DB の GT フォント (+SAT 外字) も画像が差し替えられてるなこれは。」 / X]], [TIME[午後1:01 · 2018年2月25日][2018-02-25T04:01:03.000Z]], [TIME[2023-07-29T02:13:07.000Z]] <https://twitter.com/a4lg/status/967610368309714945>
-- [16] [CITE@ja[Tsukasa #01さんはTwitterを使っています: 「例えば、手元で記録している GT フォント + αの USAT-00463 と現行バージョンの USAT-00463 画像は異なる。………レビューの主要箇所には影響を受けない内容ではあったが、今進めている詳細な機械読み取り可能なデータ化に伴う再レビューを全部やり直しにする威力はあった。」 / X]], [TIME[午後1:03 · 2018年2月25日][2018-02-25T04:03:31.000Z]], [TIME[2023-07-29T02:13:07.000Z]] <https://twitter.com/a4lg/status/967610985971200001>
[28]
>>4 >>5 は [CODE[sat_g908631]] のような[[グリフ名]]を使っています
([[GlyphWiki]] の[[グリフ名]]の規則で [CODE[sat_]] は[[ユーザー名]] [CODE[sat]]
の意味)。
8631番の[[外字]]で、 [[Unihan]] では [CODE[SAT-08631]] のような表記になります。
[29]
[[GlyphWiki]] には [CODE[z-sat08631]] という[[グリフ名]]のものも別にあります。
z- は[[CJK統合漢字]]で一時[[出典Z]]とされていた名残り。
[34]
90万を足しているのは[[大漢和辞典]]、[[今昔文字鏡]]とかぶらないようにしたのかも?
(説明を発見できず)
[42]
[CITE[SAT_evidence_file.pdf]], [TIME[2012-10-18T14:36:13.000Z]], [TIME[2023-10-23T03:45:26.462Z]] <https://21dzk.l.u-tokyo.ac.jp/SAT/ext_f/SAT_evidence_file.pdf>
[FIG(data)[ [107] [[文字関係]]
:key: [DFN[[CODE[unihan:kIRG_SSource]]]]
:desc:
[[Unihan]] [CODE[kIRG_SSource]]。
]FIG]
[43]
[CITE[GlyphWiki]] を使っているなら [CITE[GlyphWiki]] のグリフデータから
[[CJK統合漢字]]の[[字形]]を再生成できるのでは、
と思いきや、そう簡単でもなさそうです。
[[グリフ]]ソースデータには他の[[グリフ]]の参照が含まれています。
版番号付き参照されているものはいいのですが、
そうでないものは最新版が使われるので、
[[グリフ]]図形データ生成の時点の最新版がどれだったか調べる必要があります。
ところが
[CITE[GlyphWiki]] で配布されているグリフデータファイルには日時が入っていないので、
ある時点の最新がどの版だったかわかりません (各グリフの履歴ページには日時もありますが)。
また、配布されているグリフデータファイルは各グリフの最新の版のみが含まれるものと、
すべての版が含まれるものがあります。最新の版のみのものには、
既に削除されたグリフそーすデータが入っていません。
削除されたグリフソースデータの過去の版を参照しているグリフソースデータがあるので、
すべての版が含まれる方を使う必要があります。
* 文字列表現
[SEE[ [[書字方向]] ]]
* 関連
[8] 関連記事:
[[CJK統合漢字]],
[[GlyphWiki]],
[[出典U]]
* メモ
[11]
[[SAT]] の [[Webサイト]]は難易度高すぎなんだよなあ、もうちょっと見やすくなればいいのだけど。
[3] [CITE@ja[文学通信リポジトリ]], [[文学通信編集部]], [TIME[2022-09-12T02:52:09.000Z]] <http://repository.bungaku-report.com/htdocs/index.php?action=pages_view_main&active_action=repository_view_main_item_snippet&index_id=14&pn=1&count=50&order=7&lang=japanese&page_id=3&block_id=8>
[17] [CITE[siryou2.pdf]], [TIME[2021-09-14T18:55:19.000Z]], [TIME[2023-07-29T03:48:52.971Z]] <https://www.kantei.go.jp/jp/singi/titeki2/digitalarchive_kyougikai/meta_data/dai3/siryou2.pdf>