-
Notifications
You must be signed in to change notification settings - Fork 4
/
592.txt
295 lines (225 loc) · 12.2 KB
/
592.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
[10] [DFN[[RUBY[仮名][かな]]]]は、主に[[日本]]で用いられる[[文字]]です。
[[平仮名]]、[[片仮名]]に分けられる他に、どちらでも無い[[仮名]]もあります。
* 文字の一覧
[REFS[
- [5]
[[Unicode]] に含まれる各種の[[仮名]]の一覧:
[CITE@en[Character sets]] ([TIME[2016-04-07 11:39:52 +09:00]] 版) <https://chars.suikawiki.org/set#sets-kana>
- [6]
[[Unicode]] の [CODE[[[Script][用字系]]=[[Hiragana]]]] の一覧:
[CITE@en[[[Character set]] "Script:Hiragana"]] ([TIME[2019-07-03 08:18:05 +09:00]]) <https://chars.suikawiki.org/set/%24unicode%3AScript%3AHiragana>
- [19]
[[Unicode]] の [CODE[[[Script][用字系]]=[[Katakana]]]] の一覧:
[CITE@en[[[Character set]] "Script:Katakana"]] ([TIME[2019-07-03 08:18:41 +09:00]]) <https://chars.suikawiki.org/set/%24unicode%3AScript%3AKatakana>
]REFS]
* 分類
[FIG(short list)[ [4] [[仮名]]の分類
- [[平仮名]]
- [[片仮名]]
- [[小書き仮名]]
- [[清音]]
- [[濁音]]
- [[半濁音]]
- [[長音]]
- [[濁点]]
- [[半濁点]]
- [[踊り字]]
- [[変体仮名]]
- [[合略仮名]]
- [[台湾語仮名]]
- [[新沖縄文字]]
- [[レ点]]
- [[万葉仮名]]
- [[漢字や仮名に近いもの]]
- [CODE[Katakana_Or_Hiragana]]
]FIG]
[9] 次の[[一覧表]]があります。
[FIG(short list)[
- [[五十音表]]
- [[いろは歌]]
- [[あめつち]]
]FIG]
* 用法
[7]
[FIG(short list)[
- [[仮名遣い]]
- [[送り仮名]]
- [[読み仮名]]
- [[仮名漢字混じり]]
- [[書き下し文]]
- [[仮名漢字変換]]
- [[五十音順]]
- [[平仮名と片仮名]]
]FIG]
* 文脈
[FIG(short list)[ [13]
- [[日本語]]
- [[アイヌ語]]
- [[台湾語]]
- [[満州国語]]
- [[発音]]の[[表記]]
]FIG]
* 仮名の字形差
[14] [[現代日本語]]の[[仮名]]と著しく[[字形]]の異なるものは、[[変体仮名]]とされています。
[15] 現代の[[仮名]]で[[フォント]]や[[人]]によって[[字形]]に大きな異なりが現れるものがいくつかあります。
[FIG(list short)[ [16] [[仮名]]の[[字形]]差
- [[い]]
- [[き]]
- [[さ]]
- [[そ]]
- [[ふ]]
- [[ね]]
- [[り]]
- [[わ]]
- [[ん]]
- [[ヱ]]
- [[ー]]・[[~]]・[[→]]
- [[濁点・半濁点の位置][下に書く濁点と半濁点]]
[HISTORY[
- [[と]]
- [[る]]
]HISTORY]
]FIG]
[24] [CITE[x_090711_ebisu.jpg (JPEG 画像, 254x350 px)]], [TIME[2010-09-09T23:47:55.000Z]], [TIME[2020-11-20T07:12:14.796Z]] <http://www.asahi-net.or.jp/%7Eqm4h-iim/x_090711_ebisu.jpg>
* アクセント付き仮名
[22] [CITE@ja[カフェ - 文字の裏通り]], [TIME[2020-11-19T11:26:54.000Z]] <https://mojiura.hatenadiary.org/entry/20071002/p1>
[23] [CITE@ja[しま書体 - しまの言葉を伝える書体 -]], [TIME[2019-09-06T01:56:43.000Z]], [TIME[2020-11-19T11:35:40.638Z]] <https://shimanomoji.site/how.html>
* 仮名声調符号
[46] [CITE[07_中澤論文_3k.mcd - kiyou08_07.pdf]], [TIME[2017-10-20T02:41:05.000Z]], [TIME[2021-08-07T00:28:28.888Z]] <https://www-hs.yamagata-u.ac.jp/wp-content/uploads/2017/10/kiyou08_07.pdf#page=7>
* 変換
[26] [[平仮名]]と[[片仮名]]の変換: [[平仮名と片仮名]]参照。
* 正規化
[31]
[[全角英数字]]、[[半角片仮名]]、[[濁点]]・[[半濁点]]の表現の[[正規化]]が必要となる場面があります。
[REFS[
- [45] [CITE@en[[[Character]] mapping "kana:normalize"]] ([TIME[2019-08-04 09:22:56 +09:00]]) <https://chars.suikawiki.org/map/kana%3Anormalize>
]REFS]
** 文脈
[32] 次のような場面で[[正規化]]が望まれます。
- [33]
[[整列]]のため[[比較]] ([[照合]]) する場合
- [34] [[等価性]]の判断のため一方に[[正規化]]する場合
- [35]
([[利用者]]入力などのデータを) 書式の統一のため一方に[[正規化]]する場合
- [36]
[[エディター]]ソフトウェアの機能として[[利用者]]の便宜のため提供する場合
[37] [[NFC]] や [[NFKC]]
が使える場合もありますが、
- 丸付き数字や[[CJK互換漢字]]などが破壊される [[NFKC]] を使いたくない場合も少なくありません。
- [[結合文字]]でない[[濁点]]や[[半濁点]]が本来[[結合文字]]とするべき場面で使われることがあり、[[合成]]することが好ましいと思われます。
** 方針
[38] 原則として[[全角形]]は相当する[[半角]]の[[文字]]に、
[[半角形]]は相当する[[全角]]の[[文字]]に、
[[NFKC]] により[[正規化]]することが良いと考えられます。
[39] ただし
[CODE(char)[U+FF5E]]
[CODE(charname)@en[FULLWIDTH TILDE]]
は事実上 [CODE[TILDE]] の[[全角形]]ではなく
[CODE(char)[U+301C]]
[CODE(charname)@en[WAVE DASH]]
の別表現として使われていますから、
そのように[[正規化]]するべきでしょう。
これらは[[記号]]として使われる他、[[仮名]]の[[長音記号]]「[[ー]]」
の[[異体字]]としても広く使われています。
同様の[[文字]]にもう1つ [CODE(charname)@en[WAVY DASH]]
がありますが、
[CODE(charname)@en[WAVE DASH]]
とは少し区別して使われており、[[正規化]]できません。
[40]
[[濁点]]・[[半濁点]] ([[結合文字]]とそうでないもの、[[半角形]]を含めた全6種)
が[[仮名]]の直後にある場合、
[[濁点]]・[[半濁点]]が[[結合文字]]だとみなし、
その2文字を [[NFC]] により[[正規化]]するのが良いと考えられます。
合成済み文字が [[Unicode]] にあればその1文字となり、
なければ[[仮名]]と[[結合文字]]に置き換えられます。
[41]
理論上[[結合文字]]は[[基底文字]]の後に複数続くことがありますが、
通常の[[日本語]]の表記で使われるのは[[濁点]]と[[半濁点]]が高々1つだけ使われるケースだけしか考える必要はないと思われます。
[42]
[[濁点]]・[[半濁点]] (同前)
が[[変体仮名]]の元の[[漢字]]の直後にある場合、
[[濁点]]・[[半濁点]]は[[結合文字]]に置き換えるべきでしょう。
[43]
その他の[[濁点]]・[[半濁点]]は、
通常の[[日本語]]の表記では用いられないものや、
「濁点 (゛)」のように[[濁点]]・[[半濁点]]自体を表す場合などであり、
一律に[[結合文字]]に置き換えることは好ましくなく、
そのままとするべきと思われます。
ただし[[半角形]]は全角に置き換えるべきでしょう。
[44]
[CODE[U+3000]] は[[全角スペース]]と理解されており、
[CODE[U+0020]] [CODE[U+0020]]
に置き換えるべきでしょう。
* メモ
[1] [CITE[音声認識のための読み表記, Main | IPSJ/ITSCJ]]
([TIME[2014-11-29 19:42:15 +09:00]] 版)
<https://www.itscj.ipsj.or.jp/ipsj-ts/02-04/main.html>
[2] [CITE@ja[合略仮名 - Wikipedia]]
([TIME[2015-12-08 14:22:41 +09:00]] 版)
<https://ja.wikipedia.org/wiki/%E5%90%88%E7%95%A5%E4%BB%AE%E5%90%8D>
[FIG(quote)[
[FIGCAPTION[
[3] [CITE[○上里町訓令の用語等の統一及び元号の整備に関する訓令]]
([TIME[2015-09-04 19:14:48 +09:00]] 版)
<http://www.town.kamisato.saitama.jp/d1w_reiki/403902400009000000MH/403902400009000000MH/403902400009000000MH_j.html>
]FIGCAPTION]
> (用語等の統一の基準)
> 第2条 既存の訓令に用いられている用語等は、次の各号に掲げる告示及び通知の定めるところに従い、統一するものとする。
> (1) 常用漢字表(昭和56年内閣告示第1号)
> (2) 公用文における漢字使用等について(昭和56年内閣閣第138号)
> (3) 法令における漢字使用等について(昭和56年内閣法制局総発第141号)
> (4) 送り仮名の付け方(昭和48年内閣告示第2号)
> (5) 法令における拗よう音及び促音に用いる「や・ゆ・よ・つ」の表記について(昭和63年内閣法制局総発第125号)
]FIG]
[8] [CITE@ja[五十音 - Wikipedia]]
([TIME[2016-07-26 23:33:49 +09:00]])
<https://ja.wikipedia.org/wiki/%E4%BA%94%E5%8D%81%E9%9F%B3>
[11] [CITE@ja[拡張仮名文字 - 世界の特殊文字ウィキ]]
([TIME[2017-01-10 00:30:15 +09:00]])
<http://seesaawiki.jp/w/qvarie/d/%B3%C8%C4%A5%B2%BE%CC%BE%CA%B8%BB%FA>
[FIG(quote)[
[FIGCAPTION[
[12] [CITE@ja[上代特殊仮名遣 - Wikipedia]]
([TIME[2017-01-08 20:42:07 +09:00]])
<https://ja.wikipedia.org/wiki/%E4%B8%8A%E4%BB%A3%E7%89%B9%E6%AE%8A%E4%BB%AE%E5%90%8D%E9%81%A3>
]FIGCAPTION]
> 上代特殊仮名遣が廃れてから「かな」が発達したため、これを表現する仮名文字は存在しない。そのため、文字上で甲乙の区別をする必要がある時は「甲」「乙」等といった明記、右左の傍線、外国語で使われるウムラウト等の流用、カタカナ化などで対応している。
]FIG]
[17] [CITE[タイ国へカナ文字]]
([TIME[2013-11-24 12:38:22 +09:00]])
<http://nihon-thaikyokai.go-web.jp/Portals/0/24_%E8%B2%A1%E5%9B%A3%E6%B3%95%E4%BA%BA%E6%97%A5%E6%9C%AC%E3%82%BF%E3%82%A4%E5%8D%94%E6%9C%83%E3%80%85%E5%A0%B1_%E7%AC%AC%E4%BA%8C%E5%8D%81%E5%9B%9B%E8%99%9F.pdf#page=80>
[FIG(quote)[
[FIGCAPTION[
[18] [CITE[いろはにほへと ちりぬるを わかよたれそ つねならむ うゐのおくやま けふこえて あさきゆめみし ゑひもせす ん]]
([TIME[2006-03-28 09:44:07 +09:00]])
<https://home.hiroshima-u.ac.jp/hirano/nyumon/iroha.htm>
]FIGCAPTION]
> 法律条文の表記法として,第2次世界大戦前は,片仮名書きで,濁音・半濁音の「゛(濁点)」と「゜(半濁点)」を表記せず,拗音・促音の「ャ・ュ・ュ・ッ」を小書きせずに大書きで表記していたことは,現行の民法・商法の条文からも知ることができる。戦後は平仮名書き(文体も口語体)に改められたが,拗音・促音の大書きは依然として維持され,小書きが実施したのは昭和64年1月1日以降に公布された法令からである。
]FIG]
[20] [CITE@en[[[Character set]] "$unicode:Script:Hiragana | $unicode:Script:Katakana - $kana:kana-all"]] ([TIME[2019-07-03 08:20:37 +09:00]]) <https://chars.suikawiki.org/set?expr=%24unicode%3AScript%3AHiragana+%7C+%24unicode%3AScript%3AKatakana+-+%24kana%3Akana-all>
[[Unicode]] で [CODE[Hiragana]] または [CODE[Katakana]]
となっているが通常の[[仮名]]ではない[[文字]]の一覧。
[21] [CITE@ja[「ト」や「ロ」は漢字かカタカナか。政府が省庁でバラバラなデータ表記を統一化へ | スラド IT]]
([TIME[2020-09-17T09:55:41.000Z]])
<https://it.srad.jp/story/20/09/16/152244/>
[25] [CITE[『平野 良のおもいッきり木曜日』第六十六夜 ゲスト:小林且弥さん・安西慎太郎さん - 2020/11/26(木) 21:00開始 - ニコニコ生放送]]
([TIME[2020-11-25 20:26:25 +09:00]])
<https://live2.nicovideo.jp/watch/lv328954072?ref=qtimetable&zroute=index>
[27] [CITE@ja[「イ゜」「リ゜」、どう発音? 琉球方言まとめる試み - 沖縄:朝日新聞デジタル]]
([TIME[2020-11-27T05:03:26.000Z]])
<https://www.asahi.com/articles/ASJ976R5JJ97TIPE034.html>
[FIG(quote)[
[FIGCAPTION[
[28] [CITE@ja[(ことばサプリ)「二」と「ニ」 微妙な違い、敏感に:朝日新聞デジタル]]
([TIME[2021-01-14T12:24:12.000Z]])
<https://www.asahi.com/articles/DA3S14757141.html>
]FIGCAPTION]
> 落語家の桂二豆(にまめ)さん(26)は、SNSで自身の名前を検索して、気づいたことがあります。名前の漢数字の「二」が、カタカナの「ニ」と間違って書かれている書き込みがあるのです。
]FIG]
[29] [CITE@ja[英語は電車の中で―ひまつぶし英語独習本での改造カナ字母 - 続・オヒ!の殿堂3(番外編)]]
([TIME[2021-05-24T04:35:19.000Z]])
<https://nanzo.muragon.com/entry/136.html>
[30] [CITE[16354-kana-small-ltr.pdf]], [TIME[2016-11-07T00:10:29.000Z]], [TIME[2021-07-07T00:46:07.870Z]] <https://unicode.org/L2/L2016/16354-kana-small-ltr.pdf>
[47]
\p{Hiragana}|\p{Katakana} に「ー」がマッチしないという罠...
[48] [CITE@ja[グループ:仮名 - GlyphWiki]], [TIME[2021-11-01T06:17:36.000Z]] <https://glyphwiki.org/wiki/Group:%e4%bb%ae%e5%90%8d>