ids/12/952.txt

[16] 
[[日本語]]を表す[[言語タグ]]は、 [DFN[[CODE(lang)@en[ja]]]] です。

* 主要言語タグまとめ

: [[日本語]] (一般) : [CODE[ja]]
: [[日本語]] [[平仮名]]表記 ([[よみがな]]等) : [CODE[ja-Hira]]
: [[日本語]] [[片仮名]]表記 ([[ヨミガナ]]等) : [CODE[ja-Kana]]
: [[日本語]] [[ローマ字]]表記 : [CODE[ja-Latn]]
: [[やさしい日本語]] : [CODE[ja-simple]]

[262] [[大文字と小文字は区別しません]] (どちらでもいいです) が、
[[プロトコル]]等で特別に定めていることもあります。

* 基本値

** [CODE[ja]] (言語タグ)

[81] [CODE[ja]] は[[日本語]]を表す [[ISO 639]] [[言語符号]]であり、
[[言語タグ]]であります。

[82] 特に細かい指定が必要ないときはこれを使います。

** [CODE[ja-JP]] (言語タグ)

[21] [[日本国]]で使われる[[日本語]]と特に明記する必要がある場合は、
[[言語タグ]]
[DFN[[CODE(lang)@en[ja-JP]]]] を使うことができます。

;; 
[22] [[BCP 47]] によれば、必要性がなければ省略できます。
[SEE[ [[言語部分タグと地域部分タグの組合せ]] ]]

[59] 
実際には、[[日本国]]以外で[[日本語]]が使われる場面は多くなく、
しかも[[国]]の違いを明示する必要がある場面はその中でもわずかなので、
[CODE[ja]]
とだけ書くのが一般的です。

[60] 
特定のプログラムの仕様等で[[地域部分タグ]]が必須な場合や、他の[[言語タグ]]との統一性のため[[地域部分タグ]]を明示したいような場合もあって、
[CODE[ja-JP]] が使われることもままあります。
しかしそうした事情がなければ、短くて必要十分である [CODE[ja]]
が望ましいと考えられます。

** [CODE[ja_JP]] (POSIX ロケール識別子)


[58] 
[[POSIX locale]] [DFN[[CODE[ja_JP]]]] は[[日本国]]の[[日本語]]の[[ロケール]]を表します。

[61] 
[[POSIX]] では[[言語符号]]と[[国符号]]を組み合わせて両方明記するのが一般的です。

[62] 
稀に誤って[[言語タグ]] [CODE[ja''_''JP]] が使われることがあります。
(この誤りは[[日本語]]以外の[[言語タグ]]でもみられます。)
[[言語タグ]]の構文に違反しており、明確な誤りです。

;; [63] [[言語タグ]]の実装の多くはこれに対応しておらず、未知の[[言語]]とみなして処理します。


** [CODE[jp]] (言語タグ)

[7] 
[DFN[[CODE[jp]]]] は、
よく誤って使われる[[日本語]]を表しているらしい[[言語タグ]]です。

[39] 正しくは [CODE[ja]] です。

[64] 
[[国符号]]が [CODE[JP]] なので、よく[[日本語]]も誤って [CODE[jp]] と記述されるのです。

[65] 
多くの実装は [CODE[jp]] に対応しておらず、未知の[[言語]]とみなします。

[NOTE[

[66] 
なお、[[日本語]]を [CODE[ja]] と表し [CODE[jp]] と表さないのは [[ISO 639]]
[[言語符号]]の仕様に過ぎず、人間同士で便宜上用いる略号や、
[[ISO 639]] 以外の[[言語符号]]で[[日本語]]を 「jp」「JP」
と表すことは必ずしも誤りではありません。

[67] 
ただ、紛らわしい表現であることは確かです。
また、[[日本語]]のことを人間同士で「JP」や「JA」と略すのは、
[[英語]]話者の間でも、[[日本語]]話者の間でも、
一般的な表現ではないので、伝わりやすいとはいえません。
確実に伝わるといえる場面以外では避けるべきです。

]NOTE]

-*-*-


- [48] 手元の [[WinIE]] 1.0〜3 は [CODE(lang)[[[jp]]]] という間違った値を送ります。

[FIG(quote)[
[FIGCAPTION[
[6] [CITE@jp[正規表現による置換]] ([TIME[2007-02-27 21:02:32 +09:00]] 版) <http://fstyle.ddo.jp/FT/JavaScrip/replace-match.html>
]FIGCAPTION]

>
[PRE(HTML code)[
<html lang="jp">
]PRE]

]FIG]



[FIG(quote)[
[FIGCAPTION[
[5] [CITE@en[音声認識文法の作成方法 — OpenHRI Manual]]
([TIME[2015-09-26 15:10:32 +09:00]])
<http://openhri.readthedocs.io/en/latest/workingwithgrammar-ja.html>
]FIGCAPTION]

> <lexicon version="1.0"
>      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
>      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
>      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
>                          http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
>      alphabet="x-KANA" xml:lang="jp">

]FIG]

[FIG(quote)[
[FIGCAPTION[
[138] [CITE@jp[KinKi Kids オフィシャルサイト / Johnny's Entertainment]]
([TIME[2016-07-13 19:24:25 +09:00]])
<http://je-kinkikids.com/>
]FIGCAPTION]

> <html lang="jp">

]FIG]

[FIG(quote)[
[FIGCAPTION[
[8] [CITE@jp[TBS NEWS]]
([TIME[2019-08-24 17:51:04 +09:00]])
<https://news.tbs.co.jp/>
]FIGCAPTION]

> <html class="gs-fontSmall" lang="jp">

]FIG]

[68] 
また、 [CODE[Accept-Language:]] に相当する [[Webブラウザー]]の設定に自分で 
[CODE[jp]]
を追加している人も稀にいるようです。

[151] >>150

** [CODE[jpn]] (言語タグ)

[87] 
[DFN[[CODE[jpn]]]] は[[日本語]]の [[ISO 639]] 3文字符号です。
[[言語タグ]]としては使えませんが、極めて稀に使われることがあります。

** [CODE[japanese]] (言語タグ)

[83] 
極めて稀に[[言語タグ]] [DFN[[CODE[japanese]]]] が使われることがあります。

[84] 
[[言語タグ]]の構文に違反しており、誤りです。

[85] 
対応している実装はみたことがありません。

** [CODE[日本語]] (言語タグ)

[88] 
極めて稀に[[言語タグ]] [DFN[[CODE[日本語]]]] が使われることがあります。

[89] 
[[言語タグ]]の構文に違反しており、誤りです。

[90] 
対応している実装はみたことがありません。

** [CODE[jpx]]

[129] 
[[日本語族]]を表す[[ISO 639]] [[言語符号]] / [[IETF言語タグ]]
[DFN[[CODE[jpx]]]]
があります。




* 地域言語の識別子

** 津軽弁の識別子

- [125] [CITE@en[遊び心ある任意の言語を追加するには | Drupal Groups]], [TIME[2024-04-03T14:00:31.000Z]], [TIME[2024-04-03T14:02:28.565Z]] <https://groups.drupal.org/node/508772>


[126] >>125 は[[津軽弁]]を追加しようとしたものの、[[言語タグ]]がわからず、(おそらく)断念しています。

[127] 
[[言語タグ]]体系が整備されていないことで自分の使いたい言語を自由に使えないという実害の1事例といえ、
由々しき事態です。

** 八丈語の識別子

[163] 
[[ISO 639-6]]
は[[八丈島弁]]に4字[[言語符号]]
[DFN[[CODE[hhjm]]]]
を割り当てていました。


** 関西弁の識別子


[2] [DFN[[CODE[[[ja_KS]]]]]] は、 [[Facebook]] が[[関西弁]]を表すために使っている
[SRC[>>1]] [[ロケール識別子]]です。


[3] 他の [CODE[[[ja_JP]]]] などは [[POSIXロケール]]と同じですが、
[CODE[[[ja_KS]]]] は [[Facebook]] 独自のもので、 [[Facebook]]
以外のシステムでは使えません。

;; [11] [[POSIX]] では [CODE[KS]] の部分は [[ISO 3166]] の[[国符号]]を使うことになっています。
将来もし [CODE[KS]] なる[[国符号]]がどこか新しい[[国]]に割り当てられ、
そこで[[日本語]]が使われるようになると、衝突します。

[REFS[
- [1] ([TIME[2015-04-24 22:04:08 +09:00]] 版)
<https://www.facebook.com/translations/FacebookLocales.xml>
]REFS]


-*-*-

[13] 
[[Webブラウザー]]の 
[CITE[[[Vivaldi]]]]
は、
[DFN[[CODE[ja-KS]]]]
という[[ロケール識別子]]を使っています。
[SRC[>>12]]

[14] 
[[BCP 47]] [[言語タグ]]のような構文ですが、
[[BCP 47]] [[言語タグ]]として使われることもあるのかどうか不明。

[15] 
[[Android]] 関連のファイルでは [[Android]] の[[ロケール]]形式により
[DFN[[CODE[ja-rKS]]]] となっています。 [SRC[>>12]]


[REFS[
- [12] 
[CITE@en[Search · ja-KS · [[GitHub]]]], [TIME[2022-11-10T03:48:40.000Z]] <https://github.com/ric2b/Vivaldi-browser/search?q=ja-KS>
]REFS]


[20] 
[CITE@ja[関西弁のネイティブスピーカー・ボランティア翻訳者、大募集(しました)! | Vivaldiブラウザ]], [TIME[2024-01-22T10:35:01.000Z]] <https://jp.vivaldi.net/announcement/kansai_translator/>

-*-*-

[4] [[BCP 47]] [[言語タグ]]として、 
[DFN[[CODE(lang)@en[ja-JP-kansai]]]]
が使われることがあります。

[9] [[IANA登録簿]]には未登録です。
[[言語タグ]]の古い[[仕様書]]では正当な[[言語タグ]]だったのですが
[WEAK[(当時は未登録でもOKだった)]]、
その後の仕様の[[非互換変更]]のせいで、本稿執筆時点では非[[妥当]]な[[言語タグ]]になってしまっています。

;; [10] といっても[[言語タグ]]の[[妥当性]]を検証する実装は、[[適合性検査器]]以外では、
実在するのか怪しいレベルなので、実用には支障がありません。

-*-*-

[249] 
[[大阪弁]]の[[言語タグ]]に [DFN[[CODE[ja-osaka]]]]
があります。

[250] 
古くから例文でよく使われています。[[大阪弁]]の[[言語タグ]]の[[事実上の標準]]といって良いでしょう。
実利用がどれだけあるかは不明です。

-
[FIG(quote)[
[FIGCAPTION[
[106] [CITE@ja[[[lang]]属性 * HTMLリファレンス]]
([[KURAGEYA]] 著, [TIME[2012-09-13 22:17:35 +09:00]] 版)
<http://kurageya.fc2web.com/web/tag/zlang.html>
]FIGCAPTION]

> ja-osaka (日本の大阪弁)

]FIG]
-- [17] 消滅確認 [TIME[2022-12-04T04:33:58.800Z]]
-- [18] [CITE@ja[lang属性 * HTMLリファレンス]], [[KURAGEYA]], [TIME[2022-12-04T04:33:39.000Z]], [TIME[2004-10-20T12:53:52.378Z]] <https://web.archive.org/web/20041020125348/http://kurageya.fc2web.com/web/tag/zlang.html>

[FIG(quote)[
[FIGCAPTION[
[107] [CITE[lang=lang - 言語指定]]
([TIME[2015-01-27 01:19:19 +09:00]] 版)
<http://www.tohoho-web.com/html/attr/lang.htm>
]FIGCAPTION]

> ja-osaka(大阪弁)
> x- で始まるコードはプライベートに使用することが許されています。
> x-uchuujin(宇宙人語)

]FIG]


[FIG(quote)[
[FIGCAPTION[
[108] [CITE[lang=lang - 言語指定ホームページ制作 京都|ホームページ作成のリュウム]]
([TIME[2013-07-23 19:16:53 +09:00]] 版)
<http://www.ryuumu.co.jp/ryuumu/ain/webguide/html/attr/lang.htm>
]FIGCAPTION]

> ja-osaka(大阪弁)
> x- で始まるコードはプライベートに使用することが許されています。
> x-uchuujin(宇宙人語)

]FIG]

-
[FIG(quote)[
[FIGCAPTION[
[109] [CITE@ja[[[lang]] : 言語指定 | HTML memorandum]]
([TIME[2015-04-26 18:46:15 +09:00]] 版)
<http://html.zanth.net/attribute/lang>
]FIGCAPTION]

> ja-osaka(大阪弁)、en-us(米国英語)
> x- で始まるコードはプライベートな言語として使用することが許可されています。
> x-orelang(自分が勝手に作った言葉)

]FIG]
-- [19] 消滅確認 [TIME[2022-12-04T04:32:58.600Z]]


[FIG(quote)[
[FIGCAPTION[
[110] [CITE@en[locale/test_tag.rb at master · mutoh/locale]]
([TIME[2015-04-26 18:48:16 +09:00]] 版)
<https://github.com/mutoh/locale/blob/master/test/test_tag.rb>
]FIGCAPTION]

>     assert_equal Locale::Tag::Rfc.parse("ja-osaka"), lang.to_rfc

]FIG]

[FIG(quote)[
[FIGCAPTION[
[248] 
[CITE@ja[属性セレクタ(書いて理解する) #CSS - Qiita]], [TIME[2024-04-05T15:07:39.000Z]] <https://qiita.com/Hamachan4242/items/5903a30bb4aedb583791>
]FIGCAPTION]

>
[PRE[
<blockquote lang="ja-osaka"><!-- ハイフンの後ろの言語のサブコードを含んでもok! -->
]PRE]


]FIG]

-*-*-


- [141] 
[CITE@ja[Xユーザーの菱川拓郎さん: 「となると残りはPrivate Use Subtagsを使うしかない。これは自由に使える。ということで結論としては、関西弁の言語タグは ja-JP-x-kansai が適当かな。関西弁という概念が明確にどの地域を指すのか不明で、漠然とした概念的な関西なので、ja-JP-x-kinki でも良いか。」 / X]], [TIME[午前3:16 · 2022年3月28日][2022-03-27T18:16:20.000Z]], [TIME[2024-04-03T13:01:33.000Z]] <https://twitter.com/HissyNC/status/1508145912715292674>
-- [142] 
[CITE@ja[Xユーザーの菱川拓郎さん: 「同様にやさしい日本語の場合どうなるか…これもPrivate Use Subtagしかないのかな。ja-JP-x-easy …か?」 / X]], [TIME[午前3:23 · 2022年3月28日][2022-03-27T18:23:42.000Z]], [TIME[2024-04-03T13:01:33.000Z]] <https://twitter.com/HissyNC/status/1508147768254431235>





** 琉球語の識別子

[86] 
[[言語タグ]]
[DFN[[CODE[ja-ryuukyuu]]]]
が[[平成時代]]中期頃に提案されていました。
実用例は見当たりません。

[130] 
[[ISO 639]] [[言語符号]] / [[IETF言語タグ]]で[[琉球諸語]]を表すものがあります。

- [DFN[[CODE[kzg]]]] [[喜界島]]
- [DFN[[CODE[tkn]]]] [[徳之島]]
- [DFN[[CODE[ryn]]]] [[奄美大島]]北部
- [DFN[[CODE[ams]]]] [[奄美大島]]南部
- [DFN[[CODE[okn]]]] [[沖永良部島]]
- [DFN[[CODE[yox]]]] [[与論島]]
- [DFN[[CODE[xug]]]] [[国頭]]
- [DFN[[CODE[ryu]]]] [[沖縄本島]]中央
- [DFN[[CODE[mvi]]]] [[宮古諸島]]
- [DFN[[CODE[rys]]]] [[八重山諸島]]
- [DFN[[CODE[yoi]]]] [[与那国島]]

[136] 
[CITE[Wikipedia]] で利用しています。

- [140] 
[CITE@ja[Template:Lang-yox - Wikipedia]], [TIME[2024-03-20T14:33:32.000Z]], [TIME[2024-04-03T14:34:28.617Z]] <https://ja.wikipedia.org/wiki/Template:Lang-yox>
-- 「与論島方言 (与論語)」
- [137] 
[CITE@ja[Template:Lang-xug - Wikipedia]], [TIME[2024-03-20T14:30:56.000Z]], [TIME[2024-04-03T14:33:40.157Z]] <https://ja.wikipedia.org/wiki/Template:Lang-xug>
-- 「沖縄北部方言 (国頭語)」
- [139] 
[CITE@ja[Template:Lang-yoi - Wikipedia]], [TIME[2024-03-20T14:33:31.000Z]], [TIME[2024-04-03T14:34:14.463Z]] <https://ja.wikipedia.org/wiki/Template:Lang-yoi>
-- 「与那国語」


[148] 
>>147 は[[沖縄語]]の[[辞書]]の [[XML]] 移植版ですが、
[DFN[[CODE[ryu-Hira]]]],
[DFN[[CODE[ryu-Jpan]]]],
[DFN[[CODE[ryu-Latn]]]],
[DFN[[CODE[jp-Jpan]]]]
を使っています。
最初の3つは[[沖縄語]]の[[見出し語]]の各種表記、
最後は[[日本語]]の説明文。

[149] 
[[IPA]] [[発音記号]]列を [CODE[Latn]] とするのは誤りではないものの、違和感があります。

[150] 
[CODE[jp]] は [CODE[ja]] の誤り。

[147] 
[CITE@ja[- 6_s206.pdf]], [TIME[2024-04-03T15:10:46.000Z]], [TIME[2024-04-03T15:13:11.342Z]] 
<https://researchmap.jp/SoMiyagawa/published_papers/40398156/attachment_file.pdf>



* 歴史的言語の識別子

[76] 
[[日本語]]の[[古語]]を表す[[言語タグ]]
[DFN[[CODE[ja-classic]]]],
[[平安時代]]の[[日本語]]を表す[[言語タグ]]
[DFN[[CODE[ja-classic-heian]]]]
が[[平成時代]]中期頃に提案されていました。
実用例は見当たりません。

[128] 
Old Japanese を表す [[ISO 693]] [[言語符号]] / [[IETF言語タグ]] 
[DFN[[CODE[ojp]]]] があります。


[132] 
>>131 の例文は
[DFN[[CODE[ojp-Hira]]]]
と
[DFN[[CODE[ojp-Hani]]]]
で[[平仮名]]表記と[[万葉仮名]]表記を区別しています。

[REFS[
- [131] 
[CITE@ja[HTML5メモ(2) lang属性/日本語に関係する言語タグ の覚え書き - 血統の森+はてな]], [TIME[2024-04-03T14:15:17.000Z]] <https://momdo.hatenadiary.org/entry/20100526/p1>
]REFS]


* 表記法の識別子

** 読み仮名の識別子

[212] 
[[平仮名]]の[[読み仮名]]を表すため[[言語タグ]]
[DFN[[CODE[ja-Hira]]]] [SRC[>>211, >>213, >>219]]
が使われることがあります。

[78] 
[[片仮名]]の[[読み仮名]]を表すため[[言語タグ]]
[DFN[[CODE[ja-Kana]]]] [SRC[>>209, >>213, >>223, >>231, >>287, >>291]]
が使われることがあります。

[220] 
他に[[言語タグ]]
[DFN[[CODE[ja-Hira-JP]]]] [SRC[>>214, >>215]]
や[[言語タグ]]
[DFN[[CODE[ja-Kana-JP]]]] [SRC[>>102]]
が使われることがあります。

;; [210] 
[CODE[ja-JP]] より [CODE[ja]] が好ましいのと同じく、
[CODE[ja-Hira]] や [CODE[ja-Kana]] が一般的には好ましいと考えられます。

[77] 
[[言語タグ]]
[DFN[[CODE[ja-Hrkt]]]] [SRC[>>222]]
が使われることがあります。
[[ひらがな]]か[[カタカナ]]かを問わないことを示すためでしょうか
(>>222 の例示はすべて[[平仮名]])。

[275] 
[[Semantic Web]] 系のデータベースで[[よみがな]]の意味の [CODE[ja-hrkt]] が実用されている事例
[SRC[>>310]]
をみました。
[TIME[2024-04-09T05:07:12.400Z]]

[298] 
なお [CODE[ja-Kana]] については >>282 も参照。


[REFS[

- [291] 
[CITE@ja[- 71_171.pdf]], [TIME[2024-04-16T06:46:16.000Z]] <https://www.jstage.jst.go.jp/article/jkg/71/4/71_171/_pdf>
- [213] 
[CITE@ja[jstage_xml_jats1_1_format_guideline.pdf]], [TIME[2024-04-05T13:40:17.000Z]] <https://www.jstage.jst.go.jp/static/files/ja/jstage_xml_jats1_1_format_guideline.pdf#page=10>
- [305] 
[CITE[Element: Name Alternatives]], [TIME[2018-07-30T05:17:06.000Z]], [TIME[2024-04-16T11:20:42.048Z]] <http://xml-sch.com/jats/tag-library/ver2/1.1-J/element/name-alternatives.html>

]REFS]

[REFS[

[FIG(quote)[
[FIGCAPTION[
[219] 
[CITE@ja[Google 日本語入力 - CGI API デベロッパーガイド]], [TIME[2024-03-12T06:00:00.000Z]], [TIME[2024-04-05T14:04:21.819Z]] <https://www.google.co.jp/ime/cgiapi.html>
]FIGCAPTION]

>[CODE[langpair=ja-Hira|ja]]

]FIG]

[FIG(quote)[
[FIGCAPTION[
[222] 
[CITE[GTFS.JP]], [TIME[2020-03-22T09:16:09.000Z]], [TIME[2024-04-05T14:09:42.974Z]] <https://www.gtfs.jp/testsite/fix/format-reference_style/developpers-guide/format-reference.html#translations>
]FIGCAPTION]

>
国内の経路検索事業者においては、よみがなを必須としていることから、よみがな(lang=ja-Hrkt)を設定することを必須としています。


]FIG]


[FIG(quote)[
[FIGCAPTION[
[209] 
[CITE@ja[api-spec.pdf]], [TIME[2023-05-08T02:43:34.000Z]], [TIME[2024-04-05T13:06:49.826Z]] <https://id.ndl.go.jp/information/wp-content/uploads/2023/05/api-spec.pdf#page=9>
]FIGCAPTION]

>
[LEFT[
-言語タグは、Web NDLA では「よみ」にのみ用いています。例えば「図書館」の場合、カナ読み[BR[]]
を[CODE["トショカン"@ja-Kana]]、ローマ字読みを[CODE["Toshokan"@ja-Latn]] としており、言語タグによっ[BR[]]
て読みの種類を区別できます。
]LEFT]

]FIG]

[FIG(quote)[
[FIGCAPTION[
[223] 
[CITE@ja[JPCOARスキーマ項目の説明 | JPCOARスキーマガイドライン]], [TIME[2024-04-05T14:23:57.000Z]] <https://schema.irdb.nii.ac.jp/ja/schema>
]FIGCAPTION]

>
xml:lang
>
-        基本的にはISO 639-1の2桁の言語コードを使用する。(例:日本語の場合は"ja"、英語の場合は"en")
0        【Version 1.0,1.0.1,1.0.2】ただし、日本語のヨミは"ja-Kana"を使用し、ヨミを記入する場合はヨミとは別にxml:langを"ja"にした情報を必ず記入する。
0        【Version 2.0 Draft以降】ただし、日本語の片仮名ヨミは"ja-Kana"、ローマ字ヨミは"ja-Latn"を使用し、ヨミを記入する場合はヨミとは別にxml:langを"ja"にした情報を必ず記入する。
-        中国語については、簡体字"zh-cn"と繁体字"zh-tw"で区別して記入することが望ましい。
-        言語の識別が難しい場合およびISO 639-1の2桁の言語コードが存在しない場合は、言語コードを記入しない。



]FIG]

- [287] 
[CITE@ja[CiNii Researchの[[RDF]] | 学術コンテンツサービス サポート]], [TIME[2024-04-16T05:44:22.000Z]] <https://support.nii.ac.jp/ja/cir/r_rdf>



]REFS]

[REFS[

- [261] 
[CITE@en[[[RFC 7591]] - OAuth 2.0 Dynamic Client Registration Protocol]], [TIME[2024-04-05T15:44:43.000Z]] <https://datatracker.ietf.org/doc/html/rfc7591#page-14>

[FIG(quote)[
[FIGCAPTION[
[215] 
[CITE@ja[OpenID ConnectとSCIMのエンタープライズ実装ガイドライン - eiwg_implementation_guideline_1.0.pdf]], [TIME[2016-03-28T04:41:41.000Z]], [TIME[2024-04-05T13:54:22.745Z]] <https://www.openid.or.jp/news/eiwg_implementation_guideline_1.0.pdf#page=37>
]FIGCAPTION]

>
[LEFT[
これら 2 つの属性では、locale サブ属性に言語を表す値を設定することで、クラウドサービス[BR[]]
が 必要 とす る言 語の 値を 取り 出す こと に対 応す る。 locale サブ 属性に 設定 する 値に は、[BR[]]
[RFC5646] の形式で、IANA Language Subtag Registry に登録された値を用いる。同一言語で[BR[]]
異なる表記がある場合は、script subtag の値を含めることで対応する。具体的には、次のよう[BR[]]
な値とする。

[BOX(center)[
,*No ,*表記 ,*locale サブ属性に使用する値
,1 ,漢字表記, ja-JP
,2 ,よみがな表記 ,ja-Hira-JP
,3 ,ローマ字・英語表記 ,en-US
]BOX]

よみがな表記は「ひらがな」で値を設定するものとする。クラウドサービスが「カタカナ」で[BR[]]
値を必要とする場合は、クラウドサービス側で「ひらがな」で受け取った値を「カタカナ」に変[BR[]]
換する。
]LEFT]


]FIG]

[FIG(quote)[
[FIGCAPTION[
[214] 
[CITE@ja[ユーザ属性]], [[Internet Initiative Japan Inc.]], [TIME[2023-08-08T03:25:51.000Z]], [TIME[2024-04-05T13:50:49.622Z]] <https://manual.iij.jp/iid/iidapi/19000993.html>
]FIGCAPTION]

>氏名の言語
>
typeと一致させる必要があります
>
入力可能な値は以下です
-    ja-JP
-    ja-Hira-JP

]FIG]

]REFS]

[REFS[

- [310] 
[CITE@ja[公益財団法人 横浜市芸術文化振興財団:オープンデータ・API]], [TIME[2024-04-17T12:10:43.000Z]] <https://p.yafjp.org/opendata_api/>

]REFS]

-*-*-

[232] 
なお、これらの[[言語タグ]]は[[読み仮名]]用の識別子に使われることが多いですが、
「読み仮名」という言葉が持つ「本来の表記は[[漢字仮名混じり]]であるところ、
発音を明確にするため[[仮名]]表記でも併記する」というニュアンスは[[言語タグ]]自体には表れていないことには注意が必要です。
そのようなニュアンスが必要だとすると、[[言語タグ]]ではなくそれを利用する文脈 
([[プロトコル]]や[[データ形式]]やそれらを活用する[[応用]]) の側で定める必要があります。 

[EG[

[233] 
例えば[[日本語]] ([CODE[ja]]) と[[英語]]と[[仏語]]と・・・のデータを併記できる[[多言語文字列対]]データがあったとして、
そこに [CODE[ja-Hira]] のデータを追加したとしても、
[[日本語]]や[[英語]]や[[仏語]]と並列の別の言語のデータと解釈されるのが自然で、
[CODE[ja]] と [CODE[ja-Hira]] が対になっていてセットで使われるデータと解釈されるためには特別の規定と処理が必要になります。


]EG]

[234] 
[[読み仮名]]だけでなく「平仮名のみの文章」や「片仮名のみの文章」も
[CODE[ja-Hira]] や [CODE[ja-Kana]] で表される対象であることにはやはり注意が必要です。
具体的には、

- [235] 年少者向けの文章 (>>105)
- [236] 非日本語母語話者向けの文章
- [237] [[文学]]的理由で[[仮名]]で書かれた文章 ([[俳句]]等の[[詩]]も含む)
- [238] [[仮名]]専用主義者による文章 [SEE[ [[国語国字問題]] ]]
- [239] [[前近代]]の[[仮名文書]]
- [240] [[電報]]、初期[[計算機]]など技術的制約のもとで[[仮名]]のみで書かれた文章

のようなものがあります。
設計者はこうしたものと[[読み仮名]]の共存が必要かどうか、可能かどうかを考慮しなければなりません。

- [278] [CITE@en[Property talk:P1814 - [[Wikidata]]]], [TIME[2024-04-15T22:06:44.000Z]], [TIME[2024-04-16T05:19:00.110Z]] <https://www.wikidata.org/wiki/Property_talk:P1814#h-Use_of_property_and_name_in_native_language_(P1559)_or_native_label_(P1705)-Discussion-2016-11-07T13%3A00%3A00.000Z>

[279] >>278 これは[[言語タグ]]による区別でいいのではないかとの問いに対し、
[[読み仮名]]であることを別に表す方が便利との回答。

** ローマ字表記の識別子

[91] 
[[日本語ローマ字表記]]を表す[[言語タグ]]
[DFN[[CODE[ja-Latn]]]]
が使われることがあります。
[SRC[>>162, >>209, >>211, >>223, >>229, >>231, >>251]]

[241] 
ほとんどの用途は[[読み仮名]]に相当する[[ローマ字]]併記を表すものです。
これについては >>232 を参照。
それ以外の[[ローマ字]]文は例えば

- [242] 非日本語母語話者向けの文章
- [243] [[ローマ字]]化主義者による文章 [SEE[ [[国語国字問題]] ]]
- [244] 初期[[計算機]]など技術的制約のもとで[[ローマ字]]表記された文章

があります。これらにもやはり [CODE[ja-Latn]] が使えます。


[REFS[

[FIG(quote)[
[FIGCAPTION[
[231] 
[CITE@ja[RDFモデルについて « Web NDL Authoritiesについて]], [TIME[2024-04-05T14:39:20.000Z]] <https://id.ndl.go.jp/information/model/#anchor03>
]FIGCAPTION]

>読みを付加する優先ラベル(=名称/タイトル)と代替ラベル(=別名/別タイトル、同義語)の表現には、SKOS拡張の[CODE[skosxl:prefLabel]]と[CODE[skosxl:altLabel]]をそれぞれ使用します。読みの記述には、DC-NDLで定義される[CODE[dcndl:transcription]]の語彙を使用します。典拠レコードでは、カタカナ読みとローマ字読みの2つの読みを保持しており、それぞれ言語属性”ja-Kana”と”ja-Latn”を用いて区別します。

]FIG]

- [211] 
[CITE@ja[Multilingual names - [[OpenStreetMap]] Wiki]], [TIME[2024-04-05T13:32:10.000Z]] <https://wiki.openstreetmap.org/wiki/Multilingual_names#Japan>

[FIG(quote)[
[FIGCAPTION[
[162] [CITE@ja-JP[地図作成 - 地図作成 - [[HERE]] Developer]], [TIME[2023-10-20T10:32:01.000Z]], [TIME[2023-11-20T06:59:16.374Z]] <https://jp.developer.here.com/documentation/geojson-map-components-cartography/data_spec_guide/common/globals.html#languagebcp47>
]FIGCAPTION]

>[SNIP[]]、 "ja" 、 "ja-Latn" 、[SNIP[]]
]FIG]

- [229] [CITE@ja-jp[言語サポート - Azure AI Content Safety - Azure AI services | Microsoft Learn]], [[PatrickFarley]], [TIME[2024-04-05T14:37:05.000Z]] <https://learn.microsoft.com/ja-jp/azure/ai-services/content-safety/language-support>


]REFS]

-*-*-

[173] 
登録ファイル[TIME[2009-10-05]]付で[[IANA登録簿]]に登録された[[異体部分タグ]]
[DFN[[CODE[hepburn]]]]
があります。
[[接頭辞]]は
[CODE[ja-Latn]]
とされます。
[[ヘボン式ローマ字]]を表します。
[SRC[>>174]]

[175] 
つまり[[言語タグ]]
[DFN[[CODE[ja-Latn-hepburn]]]]
で[[日本語]]の[[ヘボン式ローマ字]]表記を表せます。

[176] 
この [CODE[hepburn]] の登録には、
[TIME[明治18(1885)年][1885]]の[[ヘボン式]]考案から近年のウェブページまでいろいろが参照されています。
そして[[ヘボン式]]には色々な変種があれども、それらを区別するのは生産的でないと主張しています。
[SRC[>>174]]
つまり [CODE[hepburn]] は「ヘボン式といわれるいろいろな手法のどれか」を表しています。

;; [177] だったら [CODE[ja-Latn]] でも十分で、[[ローマ字]]ではなく[[ヘボン式ローマ字]]とまで特定したいけどそれ以上詳しくは記述したくない場面って本当にあるんですかね?

[178] 
[CODE[hepburn]] という[[部分タグ]]の意味は[TIME[明治19(1886)年][1886]]の旧ヘボン式であるかのように説明があるのですが
[SRC[>>174]]、
それに続く何が言いたいのかよくわからない文章を読んでいくとどうやら「ヘボン式」
全般を包括的に表したいらしい (>>176) ことが判明します。

[188] 
それを念頭に読み直すと旧ヘボン式の説明の後になぜか

>The common characteristic of Hepburn romanization in its many
variants, apart from the name, is an emphasis on approximating
Japanese _pronunciation_ using English or European spelling
conventions. Hepburn romanization does not attempt to parallel
or transcribe the Japanese logographic scripts (hiragana or
katakana).

と各種ヘボン式の「共通の性格」を説明した段落があります。 [SRC[>>174]]
[CODE[hepburn]] が意味する「ヘボン式」の範囲はこの記述から推測する以外ありません。

[179] つまり、

- [180] [[ヘボン式]]という名前で呼ばれていて、
- [181] [[英語]]や欧州の綴字法に近似することを重視していて
- [182] [[仮名]]との対応性は考えていない

というのが共通の性格だといっています。ただこの「共通の性格」
というのも曖昧な表現で、この性質を絶対に満たすものが [CODE[hepburn]]
だと言っているようにも理解できますし、 [CODE[hepburn]]
の多くはこの性質を満たすがそうでない例外ケースもあり得るという解釈も一応可能です。

[183] 
この説明から当然浮かんでくる疑問は

- [186] いわゆる[[パスポート式]]と呼ばれている方式は [CODE[hepburn]] 
に該当するのか
- [187] [[内閣告示]]の第2表を一部または全部採用した方式は [CODE[hepburn]]
に該当するのか
- [184] 誰かが[[ヘボン式]]から派生した新方式を考案した、と主張したらそれも 
[CODE[hepburn]] に該当するのか
- [185] [[仏語]]や[[ポルトガル語]]も欧州の言語だが、それを意識した[[ローマ字]]方式は
[CODE[hepburn]] に該当するのか

といったようなものですが、いずれも [CODE[hepburn]] の意味の根幹に関わる疑問です。


[196] 
なお[[ローマ字]]以外に[[ヘボン式]]は存在しないので
[CODE[Latn]] と明示するのは冗長に思われますが、
[CODE[ja-Latn]]
にしか対応していない実装でも
[CODE[ja-Latn]]
に[[フォールバックできる][言語タグの一致]]というメリットがあります。

[198] 
実利用例もいくらかあります。 [SRC[>>197]]

[REFS[

- [174] [TIME[2021-07-18T23:39:46.000Z]], [TIME[2024-04-05T11:19:01.909Z]] <https://www.iana.org/assignments/lang-subtags-templates/hepburn.txt>

[FIG(quote)[
[FIGCAPTION[
[197] 
[CITE[[[FamilySearch]] Developer Center — place 10365609]], [TIME[2024-04-05T12:10:30.000Z]] <https://www.familysearch.org/platform/places/10365609>
]FIGCAPTION]

>
[PRE(xml)[
    __&&<&&__ns5:name xml:lang="uk">Петрівка</ns5:name>
    __&&<&&__ns5:name xml:lang="uk-Latn">petrivka</ns5:name>
    __&&<&&__ns5:name xml:lang="ja-Latn-hepburn">Shōwa-chō</ns5:name>
    __&&<&&__ns5:name xml:lang="ja-Hira">しょうわちょう</ns5:name>
    __&&<&&__ns5:name xml:lang="ru">Петровка</ns5:name>
]PRE]

]FIG]

]REFS]


-*-*-

[192] 
[TIME[2009-10-01]]付 [SRC[>>190]] (登録ファイルは[TIME[2009-10-05]]付)
で[[IANA登録簿]]に登録された[[異体部分タグ]]
[DFN[[CODE[heploc]]]]
があります。
[[接頭辞]]は
[CODE[ja-Latn-hepburn]]
とされます。
[[米国]] [[Library of Congress]] の方式の[[ヘボン式ローマ字]]を表します。
[SRC[>>189]]

[193] 
つまり[[言語タグ]]
[DFN[[CODE[ja-Latn-hepburn-heploc]]]]
で[[日本語]]の[[ヘボン式ローマ字]] ([[米国]] [[Library of Congress]] 式)
表記を表せます。

[194] 
ところがこれは[TIME[2010-02-07]]付 (登録ファイルは[TIME[2010-02-09]]付)
で[[非推奨]]とされました。
[CODE[alalc97]] が[RUBYB[好ましい][preferred]]とされています。
つまり
[CODE[ja-Latn-hepburn-heploc]]
は
[DFN[[CODE[ja-Latn-alalc97]]]]
とするべきとされています。
[SRC[>>190]]

[195] 
わずか数ヶ月での[[朝令暮改]]ですが、これは登録ファイル[TIME[2009-12-14]]付で[[日本語]]に限定しない
[CODE[alalc97]] が登録された
[SRC[>>191]]
ためそちらに寄せるべきと判断されたことによります。

;; [247] 
[[IANA登録簿]]の登録情報の[[機械可読]]部分だけから
[CODE[ja-Latn-hepburn-heploc]]
を
[CODE[ja-Latn-alalc97]]
に置き換えるべきと実装するのは不可能です。これは当時指摘されていますが [SRC[>>246]]、
対処されなかったようです。

[REFS[

- [189] 
[TIME[2021-07-18T23:39:43.000Z]], [TIME[2024-04-05T11:57:18.881Z]] <https://www.iana.org/assignments/lang-subtags-templates/heploc.txt>
- [190] 
[TIME[2021-07-18T23:39:47.000Z]], [TIME[2024-04-05T11:57:44.125Z]] <https://www.iana.org/assignments/lang-subtags-templates/heploc-20100209.txt>
- [191] 
[TIME[2021-07-18T23:39:46.000Z]], [TIME[2024-04-05T11:57:58.377Z]] <https://www.iana.org/assignments/lang-subtags-templates/alalc97.txt>
- [246] 
[CITE[Deprecation of heploc subtag (refiling with corrected spelling)]], [TIME[2010-01-08T01:55:36.000Z]], [TIME[2024-04-05T15:01:59.740Z]] <https://www.alvestrand.no/pipermail/ietf-languages/2009-December/009824.html>


]REFS]

-*-*-

[245] 
[[ヘボン式]]以外の方式、例えば[[訓令式]]用で広く通用する[[言語タグ]]はありません。

-*-*-

[205] 
[[拡張T]]によって記述できる[[転写]]方式もあります
(>>199)。

[206] 関連: [[変換操作の識別]]

[HISTORY[

[208] 
>>207 は
[CODE[ja-Latn-s-Hani-t-Hepburn]] ([[ヘボン式]]),
[CODE[ja-Latn-s-Hani-t-Kunrei]] ([[訓令式]])
という例を示しています [SRC[>>207]] が、
これらは当時の提案
(後に[[拡張T]]に統合され構文がまったく違うものに変更されたもの。)
に沿って >>207 のブログ記事著者が独自に考案した利用法を提案したもので、
このまま使うことはできません。

]HISTORY]


[REFS[

- [207] 
[CITE@ja[言語タグを拡張する案に関するメモ - [[血統の森+はてな]]]], [TIME[2024-04-05T13:01:05.000Z]] <https://momdo.hatenadiary.org/entry/20110623/p1>

]REFS]

[258] 
[DFN[[CODE[ja-Latn-x-hepburn]]]]
を使ったものもあります。
[SRC[>>257]]

[REFS[

[FIG(quote)[
[FIGCAPTION[
[257] 
[CITE@ja[doc7.pdf]], [TIME[2014-07-09T01:31:18.000Z]], [TIME[2024-04-05T15:34:33.061Z]] <http://ccs.tsurumi-u.ac.jp/docu/poster/doc/doc7.pdf#page=7>
]FIGCAPTION]

>
[PRE(code)[
<seg xml:lang="ja-Jpan"> 鶴見大学 </seg>
<seg xml:lang="ja-Hira"> つるみだいがく </seg>
<seg xml:lang="ja-Latn-x-hepburn">tsurumidaigaku</seg>
]PRE]

]FIG]

]REFS]

-*-*-

[216] 
「ローマ字・英語」を [CODE[en-US]] とすると定めている[[応用]]もあります
[SRC[>>215]]。

[285] 
「英語名 (もしくはローマ字表記)」
を
[CODE[en]]
とすると定めている[[応用]]もあります [SRC[>>284]]。

[292] 
欄ごとに [CODE[en]] を[[日本語ローマ字]]と説明したり、
[[英語]]と説明したりするものもあります [SRC[>>291]]。


[217] 
[[English]] だけでなく[[日本語ローマ字表記]]まで [CODE[en]]
とするのは厳密には誤りに近いですが、
実運用上[[日本語ローマ字]]と[[英語]]の区別が難しいことも多い
([SEE[ [[日本語ローマ字]] ]]) ので、やむを得ないことがあります。

;; [286] [[漢文]]のケースと同じく、「1つの言語である」という前提自体に[[無理がある][複数の言語]]とも言えます。
複数表記などで厳密さを向上させることはできますが、
取り扱いが難しくなる割に実益はそれほどありません。

[218] 
なお、その場合でも [CODE[en]], [CODE[en-GB]], [CODE[en-US]], [CODE[en-JP]] 
等からどれを選ぶかは検討の余地があります。


- [230] 
[CITE@ja[Xユーザーの鍋太郎さん: 「name:ja-Latn は訓令式で、ヘボン式はname:enに入れればいいんじゃないのかな。どうせ表記されていいるローマ字風のものはeヘボン式をもとにした英語式なんだろうし。 #osmjp #OpenStreetMap」 / X]], [TIME[午前10:39 · 2021年7月29日][2021-07-29T01:39:57.000Z]], [TIME[2024-04-05T14:23:27.000Z]] <https://twitter.com/nabetaro/status/1420559688093945858>



** 「じゃない方」の識別子


[79] 
[[読み仮名]]や[[ローマ字]]表記に対する本来表記を表す
(例えば「氏名のよみがな」欄に対して「氏名」欄を表す)
ときには、通常の[[言語タグ]]
[CODE[ja]]
を使うことが多いです。

-*-*-

[252] 
[[言語タグ]]
[DFN[[CODE[ja-Jpan]]]] [SRC[>>251, >>259, >>260, >>291, >>305]]
や[[言語タグ]]
[DFN[[CODE[ja-Jpan-JP]]]] [SRC[>>261]]
が使われることがあります。


[253] 
しかしながら、[[用字系抑制]]の規則があるので、特に理由がなければただの [CODE[ja]]
を使うべきです。

[REFS[

[FIG(quote)[
[FIGCAPTION[
[260] 
[CITE@ja[Microsoft PowerPoint - 学術XML-R.ppt - Tokizane-TeX-20121027.pdf]], [TIME[2013-04-28T00:18:26.000Z]], [TIME[2024-04-05T15:40:03.972Z]] <https://tokizane.jp/Ref/TokiPDF/Tokizane-TeX-20121027.pdf#page=23>
]FIGCAPTION]

>- xml:lang=“en” 英語
>- xml:lang=“ja-Jpan” 漢字まじり
>- xml:lang=“ja-Kana” カタカナ
>- xml:lang=“ja-Hira” ひらかな
]LEFT]

]FIG]

[FIG(quote)[
[FIGCAPTION[
[259] 
[CITE@en-GB[Localised metadata for Art Tracks and original release dates - YouTube Help]], [TIME[2024-04-05T15:37:47.000Z]] <https://support.google.com/youtube/answer/4443834?hl=en-GB>
]FIGCAPTION]

>
[PRE[
    <Title TitleType="DisplayTitle" LanguageAndScriptCode="ja-Jpan">
]PRE]

]FIG]

[FIG(quote)[
[FIGCAPTION[
[251] 
[CITE@ja[デジタル音楽業界を支える仕組みとは #1 | レコチョクのエンジニアブログ]], [TIME[2024-01-16T07:27:00.000Z]], [TIME[2024-04-05T15:22:45.763Z]] <https://techblog.recochoku.jp/9225>
]FIGCAPTION]

>
[PRE(XML code)[
         <DisplayArtistName ApplicableTerritoryCode="Worldwide" LanguageAndScriptCode="ja-Latn" IsDefault="true">Saeko Shu</DisplayArtistName>
         <DisplayArtistName ApplicableTerritoryCode="Worldwide" LanguageAndScriptCode="ja-Jpan">しゅうさえこ</DisplayArtistName>
]PRE]
]FIG]

]REFS]


-*-*-

[221] 
稀に本来表記に[[言語タグ]]
[DFN[[CODE[ja-Hani-JP]]]]
が使われることがあります。
[SRC[>>102]]


[277] [[OpenID Connect]] の仕様書に
[CODE[ja-Hani-JP]] と [CODE[ja-Kana-JP]]
で漢字名とヨミガナ名を表すとの例示があります [SRC[>>276]]。
あくまで例示ではあるものの、仕様書にはっきりと明記されてしまっているので、
一般の解説記事もそれに従って紹介していて [SRC[>>290, >>288, >>289]]
何の疑問も挟まれていません。
実装仕様がウェブ公開されているもの [SRC[>>102]]
以外にも各所で使われてしまっていると考えるべきでしょう。

[80] [CODE[Hani]] は[[漢字]]を表します。[[漢字]]名と説明されており [SRC[>>102, >>276]]、
その説明を忠実にあらわす[[符号]]ではあるのですが、
実際には[[漢字]]だけとは限らず[[仮名]]や[[ラテン文字]]が含まれることもあり得ると考えられ、
[CODE[Jpan]]
がより適切とも思われます。

;; [227] [[仮名]]や[[ローマ字]]に対して「漢字の名前」のような言い方をすることはありますが、
そのまま[[符号]]になおすと不適切なこともある、ということです。

[REFS[

[FIG(quote)[
[FIGCAPTION[
[276] 
[CITE@en[Final: [[OpenID Connect]] Core 1.0 incorporating errata set 2]], [TIME[2023-12-16T05:56:59.000Z]], [TIME[2024-04-16T05:13:01.230Z]] <https://openid.net/specs/openid-connect-core-1_0.html#rfc.section.5.2>
]FIGCAPTION]

>
Human-readable Claim Values and Claim Values that reference human-readable values MAY be represented in multiple languages and scripts. To specify the languages and scripts, BCP47 [RFC5646] language tags are added to member names, delimited by a [CODE[#]] character. For example, [CODE[family_name#ja-Kana-JP]] expresses the Family Name in Katakana in Japanese, which is commonly used to index and represent the phonetics of the Kanji representation of the same name represented as [CODE[family_name#ja-Hani-JP]]. As another example, both [CODE[website]] and [CODE[website#de]] Claim Values might be returned, referencing a Web site in an unspecified language and a Web site in German. 
]FIG]

- [290] 
[CITE@en[Final: OpenID Connect Core 1.0 incorporating errata set 1]], [TIME[2023-02-07T09:56:05.000Z]], [TIME[2024-04-16T06:36:50.244Z]] <https://openid-foundation-japan.github.io/openid-connect-core-1_0.ja.html#rfc.section.5.2>


[FIG(quote)[
[FIGCAPTION[
[102] [CITE@ja[Yahoo! ID連携:属性取得API(UserInfoAPI) - [[Yahoo!デベロッパーネットワーク]]]]
([TIME[2015-03-05 15:57:31 +09:00]] 版)
<http://developer.yahoo.co.jp/yconnect/userinfo.html>
]FIGCAPTION]

> given_name#ja-Kana-JP	カナ名	profile	ユーザーが登録している名のヨミガナを返却します。最大100文字の可変長です。
> given_name#ja-Hani-JP	漢字名	profile	ユーザーが登録している名の漢字を返却します。最大100文字の可変長です。

]FIG]

- [288] 
[CITE@ja[ID連携の標準化仕様紹介とセキュアな実装のためのアプローチ ~ 2021 - r-weblife]], [TIME[2024-04-16T06:32:21.000Z]] <https://ritou.hatenablog.com/entry/2021/09/05/100000>
- [289] [CITE@ja[IDトークンが分かれば OpenID Connect が分かる #OAuth - [[Qiita]]]], [TIME[2024-04-16T06:33:04.000Z]] <https://qiita.com/TakahikoKawasaki/items/8f0e422c7edd2d220e06>




]REFS]



[FIG(quote)[
[FIGCAPTION[
[224] 
[CITE@en[用字副タグについて · Issue #54 · hfu/noteworthy · GitHub]], [TIME[2024-04-05T14:27:38.000Z]] <https://github.com/hfu/noteworthy/issues/54>
]FIGCAPTION]

>
=    ja, ja-Latn, ja-Kana, ja-Hira, ja-Hrkt は使うかもしれない
=    ja-Jpan は RFC 5646 の SHOULD 規定により使わない、ということになる
=    ja-Hani を使うこともないと思う。いわゆる Han-Unification 的な扱いになるので、かえって混乱を起こす可能性もあるし。また、漢字のみということをわざわざ示す必要があるユースケースはないのではないか。ja-Hani と書きたくなった場合には、ja とすれば OK である場合が多いと想像する
=    ja-Kana がカタカナだというのがトリッキー

]FIG]


[225] 
>>224 3. は誤解。[[漢字統合]]と [CODE[Hani]] は無関係。

[226] 
用途がないというのはその通りで、[[万葉仮名]]など特殊な事例以外で
[CODE[ja-Hani]] の出番はなさそう。

;; [228] 2. がどの [SHOULD[SHOULD]] を指すのかこの記述だけでは不明ながら、
[[用字系抑制]]の規定を指すと推察されます。


[306] >>305 は [CODE[ja-Jpan]] とともに [CODE[ja-Hani]] を例示しています。
意図はよくわかりません。

>複数の言語/スクリプトの組み合わせの名前 (たとえば日本語の [漢字 + ひらがな + カタカナ、xml:lang="ja-Jpan"] および漢字 [xml:lang="ja-Hani"]);

[FIG(quote)[
[FIGCAPTION[
[307] 
[CITE[Attribute: Language]], [TIME[2023-03-15T11:57:35.000Z]], [TIME[2024-04-16T11:24:48.835Z]] <https://jats.nlm.nih.gov/archiving/tag-library/1.1d1/n-pxx2.html>
]FIGCAPTION]

>Thus, for example, the following are among the expected values of [CODE[@xml:lang]] for Japanese, incorporating both a language (“[CODE[ja]]”) and a script type:
-    [CODE[xml:lang="ja-Hira"]] (Japanese written in Hiragana)
-    [CODE[xml:lang="ja-Hrkt"]] (Japanese written in Hiragana + Katakana)
-    [CODE[xml:lang="ja-Jpan"]] (Japanese written in Han + Hiragana + Katakana)
-    [CODE[xml:lang="ja-Hani"]] (Japanese written in Kanji (Hanzi, Hanja, Han))
-    [CODE[xml:lang="ja-Kana"]] (Japanese written in Katakana) 
]FIG]

[308] >>307 これは機械的に全組み合わせを例示していて、確かに値の説明にはなっていますが、
いつ何のためにこれらを使うべきなのかは何も説明されておらずわかりません。

-*-*-


[296] 
平成22年度の[[日本政府]]の[[総務省]]の事業である[[メタデータ情報基盤構築事業]]のまとめた指針は、
[[RDF]]
において[[特性]]の値の[[言語タグ]]を [DFN[[CODE[ja-Kanji]]]] (原表記)
と [CODE[ja-Kana]] (読み、実例では[[ひらがな]])
で区別する方法を推奨していました。
[SRC[>>295]]



[297] 
[[メタデータ情報基盤構築事業]]はその他に、
本来表記と読みが区別される場合において、
[[仮名]]の読みと[[ローマ字]]の読みを区別するため
[CODE[ja-Kana]] (実例では[[片仮名]])
と
[CODE[ja-Latn]] 
を使う方法を示していました。
[SRC[>>295]]

;; [299] 2つ方法が示されていますが、
この方法「も」推奨されているのかどうか、指針の書き方が曖昧でよくわかりません。
しかも実例を重視した書き方のためどこまでが推奨される規定でどこからが例示に過ぎないのかがよくわかりません。
特に、具体的な[[言語タグ]]は例示内にしか出現しないので、
それらは例に過ぎず実際には読み手の責任で選べというのかもしれませんが、
それだと指針として統一的な構造を要求する意味がないですよね...
[[平成時代]]後期の技術仕様書としては品質に難ありで困ったものです...

[300] ここで [CODE[ja-Latn]] を使っているということは、
4文字の[[用字系部分タグ]]の[[標準化]]を認識した上で書かれているはずですが、
[[片仮名]]を表す [CODE[Kana]] で[[平仮名]]と[[片仮名]]の両方を認めていたり、
4文字の[[用字系部分タグ]]ではない [CODE[Kanji]] で「じゃない方」を表していたり、
微妙に独自路線を行っているのが不思議です。

;; [301] [[用字系部分タグ]]が[[標準化]]される前の[[言語タグ]]の旧仕様なら、
そのように好きに使って構わなかったのですけどね。新仕様を認識した上で、
旧仕様時代の蓄積があるわけでもなさそうなのに、謎です。


[294] 
[[RDF]]
において
[DFN[[CODE[ja-Hani]]]] (原表記)
と
[CODE[ja-Kana]] ([[片仮名]])
による区別を例示した解説もあります。 [SRC[>>293]]
>>296 とよく似た内容であり深い関係性が窺われます。


[282] 
[[日本]]の[[国立国会図書館]]が運営する[CITE[ジャパンサーチ]]は
[CODE[ja-Kana]] を使っています [SRC[>>280, >>284]] が、
なぜかその意味を

>[SNIP[]]言語タグ[CODE[ja-Kana]]は、カタカナだけでなくひらがなを含めた読みのために用いる。

と定めています [SRC[>>281]]。これは明確な'''誤用'''です。しかもこの書き方から、
[CODE[Kana]] が[[片仮名]]だとわかっていて敢えて使っているように読めますが、
その意図は説明されておらず不明です。

[283] 
不明ではあるのですが、 >>296 から >>294 を経て >>282 に至ったとすれば話が綺麗に繋がります。
話は繋がるものの、「なぜ」はやっぱり不明です。

;; [302] [[日本政府]]として [CODE[Kana]] に[[片仮名]]を割り当てた変な[[符号]]体系に抗議したいということなら、面白い試みなのですが...

[REFS[

- [295] 
[CITE@ja[000132512.pdf]], [TIME[2022-04-15T17:51:47.000Z]], [TIME[2024-04-16T07:02:49.236Z]] <https://www.soumu.go.jp/main_content/000132512.pdf#page=43>
- [293] 
[CITE@ja[Web NDL Authoritiesの設計 '''['''8''']''' 読みの表現]], [[神崎正英]], [TIME[2012-09-25T11:20:07.000Z]], [TIME[2024-04-16T06:51:15.047Z]] <https://www.kanzaki.com/works/2012/pub/0118lodj.html#s8>
- [280] 
[CITE@ja[平成29年度「[[ジャパンサーチ]](仮称)」利活用フォーマット検討成果物 - jps_metadeliverables.pdf]], [TIME[2018-05-30T04:10:56.000Z]], [TIME[2024-04-16T05:25:08.843Z]] <https://www.ndl.go.jp/jp/dlib/standards/pdf/jps_metadeliverables.pdf#page=11>
- [284] 
[CITE@ja[- 4_342.pdf]], [TIME[2024-04-16T05:35:44.000Z]] <https://www.jstage.jst.go.jp/article/jsda/4/4/4_342/_pdf/-char/ja#page=5>
- [281] [CITE@ja[基本記述プロパティ - [[ジャパンサーチ]]]], [TIME[2024-03-26T00:29:46.000Z]], [TIME[2024-04-16T05:27:59.661Z]] <https://jpsearch.go.jp/static/developer/property_simple/#schema%3Aname>

]REFS]

[FIG(quote)[
[FIGCAPTION[
[303] 
[TIME[2024-04-16T10:05:50.000Z]]
<https://fit.repo.nii.ac.jp/record/407/files/DC_Ko_k_50.pdf>
#page=40
]FIGCAPTION]

>
[LEFT[
立花祭ホームページの URI を主語として記述し,立花祭に関する記述を別の triple の集[BR[]]
合として整理している.その URI が“立花祭”であることを rdfs:label により示している.[BR[]]
共通語彙基盤では ic:カナ表記として“タチバナサイ”を記述しているが,図 24 のように[BR[]]
@ja,@ja-Kana のように別の表記として記述することが可能である.この他,漢字表記の[BR[]]
場合は@ja-Kanji,ローマ字表記の場合は@ja-Lath,英語の場合は@en,中国語の場合は@zh[BR[]]
のように言語タグによって別の表記として記述できる.但し,基本的にラベルやタイトルな[BR[]]
どのプロパティは1つの主語に対して1回の出現回数とする制限があるため,「"立花祭"@ja,[BR[]]
"福岡工業大学立花祭"@ja」のように記述することは誤りである.言語タグが異なるならば,[BR[]]
1 回の出現回数という制限がある場合でも複数のリテラルを定義できる.
]LEFT]
]FIG]

[304] 図24では本来表記に [CODE[ja]]、
[[カタカナ]]表記に [CODE[ja-Kana]] を使っている。
[CODE[ja-Lath]] は明らかに誤りで、利用例は示されていない。
[CODE[ja-Kanji]] の利用例も示されていない。


** 正字正仮名表記の識別子

[74] 
[[平成時代]]中期頃、[[正字正仮名]]文の[[言語タグ]]の提案がいくつかありました。
実用例は見当たりません。

-*-*-

[69] 
[CITE[ねこめしにっき(2001年4月中旬)]], [TIME[2006-01-05T18:47:42.000Z]], [TIME[2024-04-03T12:52:06.173Z]] <http://www.remus.dti.ne.jp/~a-satomi/nikki/2001/04b.html#d11n03>

>[SNIP[]]野嵜さんのテキストの引用部分へ [CODE[lang="正字正假名-ja"]] を指定する事にして事無きを得てもよいですか。(笑)

;; [70] 未実施

[FIG(quote)[
[FIGCAPTION[
[71] 
[CITE@ja[あくせくしているびりてい - カナかな団の躁鬱]], 
投稿者 [[首領]],
投稿日 2001年07月26日 11時32分,
[TIME[2024-04-03T12:58:41.000Z]] <http://www.aboutworks.com/shokodei/diary/read?200107e03#PrintNo3>
]FIGCAPTION]

>
そこで、現代かなづかいを"ja"、正字正かなを"valid-ja"、ついでに(謎)かなづかいを"nazo-ja"、ってな感じで追加するというのは……駄目ですか……?
]FIG]

[FIG(quote)[
[FIGCAPTION[
[73] 
[CITE@ja[言語コード - カナかな団の躁鬱]], 
投稿者 [[首領]],
投稿日 2001年07月26日 16時39分,
[TIME[2024-04-03T13:00:11.000Z]] <http://www.aboutworks.com/shokodei/diary/read?200107e01#PrintNo3>
]FIGCAPTION]

>[SNIP[]]"valid-ja"では駄目ではないですか。
>
よって正字正かなは"ja-nippon"、(謎)かなづかいは"ja-nazo"にしなくてはいけましぇんね。この方法で行くと各地の方言もカバーできそう……。"ja-ibaraki"とか"ja-ohsaka"とか。

;; >>71 を引用

]FIG]

[37] 
[[正字正假名]]の[[日本語]]を
[DFN[[CODE(lang)[ja-trad]]]]
と表す提案がありました。
[SRC[>>53]]

[REFS[

- [53] <http://www1.odn.ne.jp/bungaku-shitsu/appendix/diary/d0107-3.html#d010725-8>
-- [54] 消滅確認 [TIME[2024-04-03T12:30:33.000Z]]
-- [55] 
[CITE[文学室:1997]], [[satoshii]], [TIME[2024-04-03T12:28:49.000Z]], [TIME[2001-11-23T08:16:08.237Z]] <https://web.archive.org/web/20011123081552/http://www1.odn.ne.jp/bungaku-shitsu/appendix/diary/d0107-3.html#d010725-8>
-- [72] >>71 を引用

]REFS]

[143] [CITE@en[Pleroma/nixeneko]], [TIME[2024-04-03T15:04:12.000Z]] <https://nixeneko.info/notice/9iXYptD9JgifHDGuZs>

>PleromaにJapanese (Traditional)とかいって旧字旧仮名ロケールを追加したらどうだらう

[144] [CITE@en[Pleroma/nixeneko]], [TIME[2024-04-03T15:04:42.000Z]] <https://nixeneko.info/notice/9iXaJ219kjqqwS7cwK>

>現状のPleromaの言語、言語タグでいくとja-Hrktといった趣がある。

[145] [CITE@en[Pleroma/nixeneko]], [TIME[2024-04-03T15:05:00.000Z]] <https://nixeneko.info/notice/9iXeyQQMJYpkKJu6CG>

>旧字旧仮名日本語の言語タグ、ja-x-tradとかになるのかな。

;; [146] 令和元年の投稿


** 日時表示

[23] [[元号]]を使うことを明示するために[[言語タグ]]
[CODE(lang)@en[ja-JP-u-ca-japanese]]
を使うことがあります。

;; [57] 
明示しないからといって[[和暦]]でないことにはなりません。

[56] 
また、
[[日本]]関係の
[CODE[u-nu]]
の値として、
[CODE[jpan]],
[CODE[jpanfin]],
[CODE[jpanyear]]
があります。
[[数字]]表記の方法を明示したいときに[[言語タグ]]に組み入れて使うことができます。

-*-*-

[165] 
>>164
は
[DFN[[CODE[ja-JP-u-ca-iso8601-tz-jptyo]]]]
という例を示しています。[[日本国]]の[[日本語]]で [[ISO 8601]] 式の[[東京時間]]を表します。

[166] 
>>164 は「ISO 8601 形式の日付・時刻、日本標準時」と解説していますが、
[CODE[u-ca]]
の登録では 
[CODE[iso8601]]
は

> ISO calendar (Gregorian calendar using the ISO 8601 calendar week rules)

と説明されています [SRC[>>171]]。
つまりただ [[ISO 8601暦]]というだけではなく[[週暦]]を表しています。
これを「ISO 8601 形式の日付・時刻」と要約するのは甚だ誤解を招きます。

[167] 
人工的な用例の提示とはいえ[[日本]]でほとんど利用のない[[週暦]]をわざわざ使った意図は謎で、
>>164 の[[著者]]も「ISO 8601 calendar week rules」を見落としている可能性があります。

[169] 
というか >>164 は [[Unicode Consortium]] の登録簿か何かから「抜粋」して

>
, 	iso8601 ,	ISO-8601 Calendar 	,↑↑↑ 	,ISO-8601

と書いているのですけど、この「抜粋」する前の記述はどこなんですかねえ。
大事なところが省かれてるじゃないですか。

[172] 
ということで探したらありました。登録簿 [SRC[>>171]] ではなく表示用の文字列データ
[SRC[>>170]] では「ISO-8601」「ISO-8601 Calendar」のようになっていて、
>>164 はそれを拾っていたのですね。
変な定義しした [[Unicode Consortium]] 
と不正確なラベルを付ける [[Unicode Consortium]] が一番悪く、
定義でないところを参照した >>164 がその次に悪い。


;; [168] [[週暦]]を 「[[ISO 8601]]」 とだけ呼んで表すのはほとんど誤りに近いので、そのような用法は避けるべきですが、
たまにそう呼ばれているのもまた事実。

[REFS[

- [171] 
[CITE@en[cldr/common/bcp47/calendar.xml at main · unicode-org/cldr · GitHub]], [TIME[2024-04-04T14:20:09.000Z]] <https://github.com/unicode-org/cldr/blob/main/common/bcp47/calendar.xml>
- [170] 
[CITE@en[cldr/common/main/en.xml at main · unicode-org/cldr · GitHub]], [TIME[2024-04-04T14:19:53.000Z]] <https://github.com/unicode-org/cldr/blob/main/common/main/en.xml>
- [164] 
[CITE@ja[(プログラマのための)いまさら聞けない標準規格の話 第4回 国際化編 | オブジェクトの広場]], [TIME[2024-02-15T05:30:16.000Z]], [TIME[2024-04-04T14:04:34.753Z]] <https://www.ogis-ri.co.jp/otc/hiroba/technical/program_standards/part4.html>



]REFS]


** 変形

[199] 
[[言語タグ]]の[[拡張T]]を使うとどのような[[変形]]を経て得られたものかを記述できます。

[200] 
[[拡張T]]の仕様等で次のような利用例が示されています。
[SEE[ [[拡張T]] ]]

- [201] [CODE[ja-t-de-m0-und-x0-medical]] : 
[[日本語]]であって、[[独語]]からの[[機械翻訳]]で、
([[私用]]タグ利用:) 医学用語辞書を使ったもの。
- [202] 
[CODE[ja-t-it]] : [[日本語]]であって、[[イタリア語]]から変換したもの
- [203] 
[CODE[ja-Kana-t-it]] : [[日本語]]の[[カタカナ]]表記であって、
[[イタリア語]]から変換したもの

[204] 
「変換」は広い意味で使うことができるので、[[外来語]]や[[ローマ字]]をはじめいろいろなものの記述に適用できそうです。

** 絵文字

[255] 
>>254
は[[絵文字]]の[[フォント]]選択の制御のために[[拡張U]]を使う例を示しています。

- [DFN[[CODE[ja-Jpan-JP-u-em-emoji]]]]
- [DFN[[CODE[ja-Jpan-JP-u-em-text]]]]
- [DFN[[CODE[ja-Jpan-JP-u-em-default]]]]

[256] 説明のための人工的な例で、実用的ではありません。

[REFS[

- [254] [CITE@ja[絵文字を支える技術について|[[nona]]]], [TIME[2024-04-05T15:28:50.000Z]] <https://note.com/ttuusskk/n/n1bff5d8e638c>

]REFS]


* その他位相言語の識別子

** [CODE[mul-kambun]] (言語タグ)

[92] 
[DFN[[CODE(lang)@mul[mul-kambun]]]]は、
([[日本]]の) [[漢文]]用の[[言語札]]です。

[93] 
[[平成時代]]中期に定められました。

[94] 
[[漢文]]は[[中国語]] (ただし現代中国語ではなく、古典中国語)
としての性質と[[日本語]]としての性質を併せ持っていますから、
[CODE(lang)@en[[[mul]]]]と札付けするのが適当だと考えます。

[95] 
[[白文]]、[[訓読文]]、[[書き下し文]]のいずれにも[CODE(lang)@en[[[mul-kambun]]]]を使えます。
これらを区別する必要がある場合のlanguage tagも必要かもしれませんが、どういう名前が良いか検討が必要です。
[[和様漢文]]を区別する必要があるかも検討が必要です。


[96] 
[[朝鮮語]]等の、[[日本語]]以外における[[中国語]]は対象外としています。

[161] 
[[中文言語タグ]]も参照。


** [CODE[ja-2ch]] (言語タグ)

[97] 
[DFN[[CODE[ja-2ch]]]]
は[[2ちゃんねる語]]を表す[[言語タグ]]です。

[98] 
[[平成時代]]中期に独立して方々で考案され使われました。

[134] 
当時は [CODE[ja-2ch]] は仕様上も正当な[[言語タグ]]でした。その後 [[IETF言語タグ]]が一般で使われている[[言語タグ]]の実情を調査することもなしに[[非互換変更]]してしまったので、
現在の[[IETF言語タグ]]の仕様では規格違反になってしまいます。

[135] 
利用者はこの問題を深刻に捉える必要はありません。
[[非互換変更]]は完全に [[IETF]] のミスです。
[[2ちゃんねる語]]は [CITE[2ch]] の衰退でほぼ[[死語]]で、
今後この[[言語タグ]]が今まで以上に普及するとは考えにくいので、
今更理論上だけの仕様適合性にこだわるより、従来の記述方法との連続性の方が重要です。



[FIG(quote)[
[FIGCAPTION[
[111] [CITE@ja[<img longdesc=...>について]]
([TIME[2010-11-17 21:33:48 +09:00]] 版)
<http://deztec.jp/x/10/faireal/d11223_2.xml>
]FIGCAPTION]

> 同様の遊びとして、
> <q cite="http://pc.2ch.net/..." lang="ja-2ch">ハゲ銅!ahooのせいでみかかが株をあげたと思われ。</q>
> なんてこともできます。

]FIG]


-
[FIG(quote)[
[FIGCAPTION[
[113] [CITE[[[Strict-HTML スレッド]] 37]]
([TIME[2015-04-26 22:43:43 +09:00]] 版)
<http://pc8.2ch.net/test/read.cgi/hp/1154869185/839-845>
]FIGCAPTION]

> xml:lang="ja-2ch" 
> とすれば2ch語。 

]FIG]
-- [45] 移転確認 [TIME[2022-12-04T04:30:49.800Z]]
-- [46] [CITE[[[Strict-HTML スレッド]] 37]], [TIME[2022-12-04T04:30:20.000Z]] <http://pc8.5ch.net/test/read.cgi/hp/1154869185/839-845>
-
[FIG(quote)[
[FIGCAPTION[
[114] [CITE[[[和泉日記]] 2クール目 ● ペンフロ]]
([TIME[2015-04-26 22:44:33 +09:00]] 版)
<http://ma-na.biz/zzz/r.cgi/diary/1113822368/947>
]FIGCAPTION]

> この日記スレなら2ch語ベースで書かれているので記述するとしたらja-2chか。 

]FIG]
-- [47] 消滅確認 [TIME[2022-12-04T04:30:04.100Z]]



[FIG(quote)[
[FIGCAPTION[
[115] [CITE@ja[一行づつタグを書いてHPを完成させるスレ Web制作@ネット関係(1から200までのページです)]]
([TIME[2002-05-18 05:41:00 +09:00]] 版)
<http://viva2ch.net/hp/1010056747-0.html>
]FIGCAPTION]

> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja-2ch"> 

]FIG]


[133] 
>>131 の例文は [DFN[[CODE[ja-x-2ch]]]] を使っています。


** Mac 用日本語の識別子

[49] 
[DFN[[CODE[ja-JP-mac]]]] や
[DFN[[CODE[ja-JPM]]]]
は、 [[Macintosh]] の用語の指針に基づいた[[日本語]]を表す[[ロケール識別子]]として使われることがありました。

[50] 
[CITE[L10N FAQ - 日本語パックについて]] <http://www.mozilla-japan.org/jp/l10n/faq/jlp.html#what_is_ja-JP-mac>

[51] [CITE@en[418485 – "ja-jp-mac" is not a valid language code. Please stop using it.]]
([TIME[2015-04-25 17:17:22 +09:00]] 版)
<https://bugzilla.mozilla.org/show_bug.cgi?id=418485>

[52] [CITE@en[ja-JP-mac (Language tag) - SuikaWiki Data]]
([TIME[2016-03-15 16:20:20 +09:00]] 版)
<https://data.suikawiki.org/lang/ja-JP-mac>

** 子供向け平仮名表記日本語

[105] 
[[翻訳]]管理サービス
[CITE[Transifex]]
の対応言語の1つに
「Japanese (Hiragana) (ja-Hira)」
があります。
[SRC[>>112]]

[116] 
ただしこの
[CITE[Transifex]]
の言語リストに示された[[符号]]がどのようなものなのかは明記されていません。
構文は 
[[POSIX locale]]
識別子に近いようですが、
[CODE[ja-Hira]]
のように 
[[IETF言語タグ]]にも見えるものが混じっています。

[117] 
この
「Japanese (Hiragana)」
がどのような利用を想定したものなのかはよくわかりません。

[119] 
[[プログラミング言語]]プラットフォームで[[子供]]の[[プログラミング教育]]で人気のある
[[Scratch]]
は、これを[[子供]]向けの[[平仮名]]表記の[[日本語]]のために使っているようです。
[SRC[>>118]]

;; [120] [[平仮名]]表記が原則でありつつも、作業が間に合わないときは通常の[[日本語]]で埋める場合もあるようです。

[121] 
また、 >>99 では[[やさしい日本語]]のために使っています。
しかし[[やさしい日本語]]は[[平仮名]]表記の[[日本語]]ではなく、[[かな漢字混じり]]なので、
誤用に当たります。

[REFS[

- [112] [CITE@en[Transifex Languages]], [TIME[2024-04-03T13:41:14.000Z]] <https://explore.transifex.com/languages/>
- [118] 
[CITE[Japanese translation (日本語の翻訳) - Discuss [[Scratch]]]], [TIME[2024-04-03T13:41:22.000Z]] <https://scratch.mit.edu/discuss/topic/4196/?page=7>

]REFS]

** やさしい日本語

[100] 
[[やさしい日本語]]には[[言語タグ]]
[DFN[[CODE[ja-simple]]]]
を使えます。
[SRC[>>99]]

[101] 
[[日本語]]を表す[[言語部分タグ]] [CODE[ja]] と、
簡易化された言語変種を表す[[異体部分タグ]] [CODE[simple]] [SRC[>>103]]
を組み合わせたものです。

[263] 
ただし、 [CODE[ja-simple]] は単純化された[[日本語]]全般を表し、
[[やさしい日本語]]だけを表すのではないことには注意が必要です。
例えば、

- [264] 「やさしい日本語」を称する言語(指針)各種
- [265] 「やさしい日本語」を称さない同様の言語(指針)各種
- [267] 年少者向けの平易な表現
- [271] 年少者向けに仮名だけで表記したもの
- [268] 年少者向けに[[漢字]]を[[仮名]]に開いたり、[[振り仮名]]を加えたりしたもの
- [269] 非日本語話者向けの表現
- [270] [[大東亜戦争]]期の[[南方占領地]]で[[日本語]]教育に使われた各種の[[日本語]]
- [266] その他、[[やさしい日本語]]とは違うアプローチで簡易化された[[日本語]]系言語各種

といったいろいろなものが [CODE[ja-simple]] に当てはまり得ます。

[272] 
もし他の平易な[[日本語]]と異なる[[やさしい日本語]]だけを特定したい場面や、
何種類もあるうちの特定の[[やさしい日本語]]の[[指針]]等に従ったものだけに限定したい場面があるなら、
より限定的な専用の[[言語タグ]]を決める必要が出てきます。
今のところそのような提案はなされていないようです。


[NOTE[
[104] 
なお[[やさしい日本語]]を使うプログラムで
[DFN[[CODE[ja-basic]]]] も使われている [SRC[>>99]] とありますが、
[[IETF言語タグ]]として出力される場面があったのかは不明。
さらっとコードを眺めた感じは内部用のみで外には出していない ([CODE[ja-JP]] を使っている)
ように見えます。

[273] もしそうだとすると、 >>99 の投稿者は [CODE[basic]] 
が登録された[[IETF言語タグ]]の[[部分タグ]]でないことを問題視していますが、
そもそも[[IETF言語タグ]]ではないので何も問題はありません。
>>99 が却下されたのもそれが理由なのでしょう。

[122] 
このコードは[[日本国]][[東京都]]の運営するウェブサイトだったのですが、
本段落執筆時点で既にサーバーが停止されていて閲覧できません。
[[Internet Archive]] 
だと参照しているファイルを読み込めずに、読み込み中の表示から先に進みません。
開発にも運営にも、
行政が公開した情報を次の時代に伝えようという意志がまったく感じられない酷いサイトですね。

[274] 
おかげで >>104 >>273 が正しいのか検証するのは困難です。


[124] 
[[ソースコード]]が残っているだけまだ良心的ですが、それも [[GitHub]] 
が永続的に保存してくれているからというだけの話なので、
ほんとにたまたま残ったものが少しだけあったということです。

[123] 
[[自治体]]のウェブサイト運営の失敗事案として語り継いでいくべきですね。

]NOTE]

[REFS[

- 
[103] [TIME[2021-07-18T23:39:45.000Z]], [TIME[2024-04-03T13:35:04.951Z]] <https://www.iana.org/assignments/lang-subtags-templates/simple.txt>


[FIG(quote)[
[FIGCAPTION[
[99] [CITE@en[「やさしい日本語」の言語コードを "ja-simple" に変更 · Issue #1801 · Tokyo-Metro-Gov/covid19 · GitHub]], [TIME[2024-04-03T13:31:46.000Z]] <https://github.com/Tokyo-Metro-Gov/covid19/issues/1801>
]FIGCAPTION]

> likibp commented on Mar 19, 2020

>
-現状、「やさしい日本語」の言語コードは、コード内では "ja-basic" , transifexでは "ja-Hira" を使用しています。

>
-"basic"というサブタグはLanguage Subtag Registryに登録されておらず、"Hira" はその名のとおり平仮名のみの表記を示すサブタグであるため不適切です。
-よって、「やさしい日本語」の言語コードを "ja-simple" に変更することを提案します。
]FIG]

]REFS]

** 怪しい日本語

[309] 
いわゆる[[怪しい日本語]]の主流である、
[[中華人民共和国]]の業者等が[[日本]]市場向け製品説明等で使う独特の[[日本語]]は、
[[言語タグ]]
[DFN[[CODE[ja-CN]]]]
で表すのが適当と考えられます。


* 日琉諸語の記述体系への要求


[30] 日本語の方言にも星の数ほど種類がありますから、全部 ja-[VAR[foo]]
にすると大変なことになります。

一つの提案として、[[日本国]]内の地域を主要な使用域とする方言は 
ja-JP-[VAR[大地域名]]-[VAR[*]] とし、[VAR[大地域名]]としては地域名
([CODE[kansai]] など), 現行の47[[都道府県]]名, [[明治時代]]の旧[[国名]]くらいに制限し、それ以上の細かいものは地域的あるいは言語的に近いものの小分類としてはどうでしょう。

[24] ただ、[[大阪弁]]を [CODE(LANG)[ja-JP-oosaka]] にするのか
[CODE(LANG)[ja-JP-kansai-oosaka]] にするのかみたいな話になりますが。
- [25] >>24 大阪弁は有名だから関西弁とは独立させてもいいかも・・。
だけど結局線引き問題は一杯出てきそう。

[154] 
「[[関西弁]]」と指定したい時と、「大阪弁」「神戸弁」「京都弁」「奈良弁」「エセ関西弁」
と細かく指定したいとき、はそれぞれある。

- [26] >>24 [CODE[oosaka]] より [CODE[osaka]] がイイとか言う意見もありそう。

[158] 
一般に使われている区分と学術的な区分と、どちらもそれぞれの使い道がありそうなので、
1つの体系だけで揃えるのではなく方言と認識されている実態があれば全部それぞれ名前を与えるべきだろう。

[159] 
変に階層化して長くて使いづらい名前にするより、階層なしでも一般の呼び名に近いものにすれば衝突のおそれもそうそうないだろうし。

[160] 
[CITE[ウィキペディア]]に項目がある[[方言]]は一通りあってよさそうだな。


- [27] [CODE[ja-Kana]] (片仮名) って嫌な名前だなぁ。 ISO 15924 の馬鹿野郎〜
- [28] >>27 こういうのもあると、「小学3年生に習う漢字まで」みたいなのも欲しい気がするが・・・。
- [29] >>28 そういうのを見ると、やぱーり用字系は別指定にしる! とか言いたい気がするが。。。 (この文は [CODE(LANG)[ja-2ch]] に札付けするのが(・∀・)イイ!!)
- [31] >>27-29 といふことで[[用字系札]]に分離しませう。 (この文は [CODE(LANG)[ja-desumasu]]+[CODE(SCRIPT)[Japn-ja-old-kana]] にして下さると嬉しう存じます。)
- [32] >>23-26 ラテン文字3〜4文字の[[都道府県名符号]]を使うのが良い。
- [33] [CODE(LANG)[ja-JP-TKY-shibuya-slang]] 渋谷の女子高生の言葉
- [34] >>33 特に時代を指定したければ [CODE(LANG)[ja-JP-TKY-shibuya-slang-2002]] とするとか。
- [36] <http://pc3.2ch.net/test/read.cgi/hp/1031743538/133-136>
- [41] [CODE(lang)[ja-trad]]: >>37
- [42] >>41 の使い方は言語と用字系の独立性を欠いてるからお勧めしがたいけど、手軽なのはいいことだ。
- [43] >>34 の書き方を使えば、2ch 閉鎖騒動の頃の言葉遣いを [CODE(lang)[ja-2ch-2001-08]] とか表せて(・∀・)イイ!

[35] [[言語タグの一覧]]も参照。





[38] 
「日本語 平成22年正書法」
「近代日本語」
「日本語候文」
「日本語片仮名漢字混じり文」
「日本語 旧字体現代仮名遣い」
「日本語 お嬢様言葉」
「日本語総ルビ」
のような違いも[[言語タグ]]で記述したいなあ。


[44] [CITE@en[ja (Language tag) - SuikaWiki Data]]
([TIME[2016-03-15 16:18:53 +09:00]] 版)
<https://data.suikawiki.org/lang/ja>

[40] [CITE@en[ja-JP (Language tag) - SuikaWiki Data]]
([TIME[2016-03-15 16:19:55 +09:00]] 版)
<https://data.suikawiki.org/lang/ja-JP>


[152] [[文体]]と表記法の記述 ([[script (コーパス)]], [[style (コーパス)]] より) :
[[文語体]],
[[口語体]],
[[文語体]]と[[口語体]]の混在,
[[漢文]],
[[韻文]],
[[漢字片仮名交じり]],
[[漢字平仮名交じり]],
[[万葉仮名]]

[153] その他[[文体]]関係 :
[[書き言葉]], [[話し言葉]],
[[訓読文]], [[書き下し文]],
[[宣命体]], [[候文]],
[[漢文調]], [[であります]], [[ですます調]], [[だである調]], [[翻訳調]],
[[敬語]], [[男言葉]], [[女言葉]],
[[業界用語]],
[[お嬢様言葉]], [[ギャル語]], [[おじさん構文]],
[[西洋人風]], [[中国人風]], [[赤ちゃん言葉]],
[[ルー語]],
[[ロコ語]], [[エミリー語]],
[[協和語]], [[横浜ピジン日本語]]

[155] 
[[語尾]]や[[役割語]]の類は[[無限]]に増えているので、無限の記述能力が必要。
(そのすべてを[[言語タグ]]で記述できる必要があるか、という論点はありそう。)

[156] 
表記法関係 ([[用字系札]]より、その他) :
[[漢文]] ([[白文]]),
[[訓読文]],
[[書き下し文]],
[[かな漢字混じり]] (全般),
[[平仮名漢字交じり]],
[[片仮名漢字交じり]],
[[平仮名]],
[[片仮名]],
[[万葉仮名]],
[[教育漢字]][VAR[○]]年生 ([VAR[元号]][VAR[○]]年式),
[[当用漢字字体表]],
[VAR[元号]][VAR[○]]年[[常用漢字]],
[VAR[元号]][VAR[○]]年[[人名漢字]],
[[表外漢字字体表]] ([[印刷標準字体]] / [[簡易慣用字体]]),
[[旧字体]] / [[新字体]],
[[御家流]],
[[初唐標準字体]],
[[JIS X 0208]], [[JIS X 0213]], 制限付き [[JIS X 0213]], [[MJ]], [[MJ+]],
[[歴史的仮名遣]],
[[棒引き仮名遣い]],
[[現代仮名遣]],
[[送り仮名]]規則,
[[濁音]]無表記,
[[撥音]]無表記,
[[小書き仮名]]有無,
[[長音]]無表記,
[[分かち書き]]有無,
[[ローマ字]] (全般),
[[ヘボン式ローマ字]] (新旧),
[[訓令式ローマ字]],
[[日本式ローマ字]],
[[ローマ字]]長音各種,
[[キリル文字]]表記,
[[ハングル]]表記,
[[日本点字]],
[[漢点字]],
[[6点漢字]],
[[速記文字]]各種,
[[モールス符号]],
[[乎古止点]]各種,
[[振り仮名]]無/有/総,
[[句読点]]有無,
[[句点]]文字,
[[読点]]文字,
[[左横書き]]/[[右横書き]]/[[縦書き]],
[VAR[元号]][VAR[○]]年[[公用文]]

[157] 
その他[[ロケール]]関係:
[[和暦]]/[[西暦]]/併記,
[[北朝]]/[[南朝]]/併記,
[[皇紀]],
[[干支年]]/[[十二支年]],
[[12時間制]]/[[24時間制]],
[[十二支時刻]],
[[グレゴリオ暦]]/[[旧暦]]/併記,
[[中央標準時]]/[[西部標準時]]/[[小笠原の標準時]]/[[台湾の標準時]]/[[関東州の標準時]]/[[南洋群島の標準時]],
[[SI]]/[[尺貫法]],
[[単位記号]]/単位片仮名名/単位漢字名,
[[欧州数字]]/[[漢数字]],
[[画線法]],
[[位取り記数法]]/[[漢数字]]記数法,
3桁区切り/4桁区切り,
[[桁区切り]][CH[、]]/[CH[,]],
[[小数点]][CH[.]]/[CH[・]]


* 関連

[75] 
[[アイヌ語]],
[[日本手話]]

* メモ