/
39.txt
1743 lines (1262 loc) · 77.7 KB
/
39.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
[71] [DFN[[RUBYB[言語タグ]@en[language tag]]]]は、[[自然言語]]を識別するための短い[[文字列]]です。
[[ISO]] の定める[[言語符号]]などの組み合わせにより様々な[[言語]]や[[言語]]と[[地域]]や[[用字系]]などの組み合わせによるバリエーションを表現することができます。
[[言語タグ]]は [[IETF]] により [[BCP 47]] として標準化されており、様々な [[IETF]]
の[[プロトコル]]の他 [[HTML]] や [[CSS]] などの [[Web標準]]でも広く使われています。
* 仕様書
[REFS[
- [72] [CITE@en[RFC 5646 - Tags for Identifying Languages]]
<http://tools.ietf.org/html/rfc5646>
- [73] [CITE@en[RFC 4647 - Matching of Language Tags]] ([TIME[2011-06-26 10:41:18 +09:00]] 版) <http://tools.ietf.org/html/rfc4647>
- [74] [CITE[Language Subtag Registry]]
<http://www.iana.org/assignments/language-subtag-registry>
- [75] [CITE@en[IANA | Language Subtag Registry - Registration Templates]]
<http://www.iana.org/assignments/lang-subtags-templates/index.html>
- [76] [CITE[Language Tag Extensions Registry]]
<http://www.iana.org/assignments/language-tag-extensions-registry>
- [117]
[CITE@ja-jp[[[meta]] — Meta table (OpenType 1.9) - Typography | Microsoft Learn]], [[PeterCon]], [TIME[2022-12-02T14:36:57.000Z]] <https://learn.microsoft.com/ja-jp/typography/opentype/spec/meta#scriptlangtag-values>
]REFS]
[191] [[IETF]] として初めて[[言語タグ]]を規定した最初の正式な仕様は [[RFC 1766]]
でしたが、 [[RFC 3066]]、[[RFC 4646]] を経て [[RFC 5646]] が現行仕様となっています。
[[RFC 3066]] と [[RFC 4646]] の間に大規模な非互換変更が行われています。
(詳しくは歴史の項を参照してください。)
** BCP 47
[84] [[IETF]] [DFN[[[BCP 47]]]] は、現在 [[RFC 5646]] と [[RFC 4647]] により構成されています [SRC[>>72 1.]]。
** IANA 登録簿
[188] [[言語タグ]]で使うことができる[[部分タグ]]や[[祖父化]][[言語タグ]]は [[IANA]]
の登録簿があります (>>74、>>76)。
[189] [[RFC 1766]] や [[RFC 3066]] の時代は [[ISO]]
の仕様から導出できない追加の[[言語タグ]]を登録してもよいという形でしたが、
[[RFC 4646]] 以降は原則としてすべて登録簿にある[[部分タグ]]を組み合わせて使う形に改められています。
[190] [[RFC 3066]] までの時代の登録簿は機械処理には適さない文書でしたが、
[[RFC 4646]] 以降は機械処理可能な形式になっています。
その書式は [[RFC 4646]] 3. で規定されていましたが、 (非互換に) 変更されて現在は
[[RFC 5646]] 3. で規定されています。
[53] ただし [[IANA]] が公開しているファイルはこの書式に必ずしも適合していません。
機械処理して利用する場合は、適合していなくてもある程度扱えるような配慮が必要です。
改行は [[CRLF]] ではなく、省略可能な [[CR]] と必須の [[LF]] の列として処理する必要があります。
また区切りの [CODE[%%]] の後に[[空白]]が来ても、無視する必要があります。
;; [93] [[IETF]] の身内であるところの [[IANA]] すら仕様を正しく運用できないのは驚くべきことかもしれませんが、 [[IETF]] の仕様の品質としては一般的な部類です。
[143] データファイル (>>144) も参照。
* 呼称
[125] 正式には「[RUBYB[言語タグ]@en[language tag]]」と呼ばれます。
[126] [[Wikipedia]] は [[IETF]] 仕様であることから「IETF言語タグ」
と呼んでいます。
[127] 「[[言語コード]]」と呼ばれることもありますが、
[[言語タグ]]仕様上は[[言語タグ]]に含まれる最初の[[部分タグ]]
(として用いられる [[ISO]] の[[言語コード]]) のことを指すので、
全体として[[言語コード]]と呼ぶのは不正確です。
[128] 値が[[言語タグ]]となる[[属性]]の名前などでは「[CODE[lang]]」
と略されることがよくあります。[[プログラミング言語]]の[[変数]]などの名前としては
「[CODE[tag]]」や「[CODE[langtag]]」などと略されることもあります。
* 構文
[55]
[DFN[[RUBYB[[[言語タグ]]]@en[language tag]]]]は、
1つ以上の[RUBYB[[[部分タグ]]] @en[subtag]]を
[CODE(charname)@en[[[HYPHEN-MINUS]]]] ([CODE(char)[[[-]]]])
で連結した[[文字列]]です。
[EG[
例えば、
[PRE(lang example code)[
ja-Latn-US
]PRE]
... は、3つの[[部分タグ]]から構成される[[言語タグ]]です。狭義の[[言語]]が[[日本語]]
([CODE(lang)[[[ja]]]]) であって、[[ラテン文字]]という[[用字系]]
([CODE(lang)[[[Latn]]]]) によって表記され、[[アメリカ合衆国]]という[[地域]]
([CODE(lang)[[[US]]]]) で用いられている[[言語]]を表しています。
]EG]
-*-*-
[230]
[[RFC]]
は[[言語タグ]]を
[[ABNF]]
構文で規定しています。
[254]
[[IETF]]
では一般的に
[[ABNF]]
で規定された構文を
[[US-ASCII]]、
たまに
[[UTF-8]]
で符号化される[[文字列]]たる[[バイト列]]と解釈しています。
[255]
しかしながら、
[[言語タグ]]はいろいろな場面で使われており、
あくまで
[[ABNF]]
で規定された[[文字列]]と解されています。
従って
[[HTML]]
や
[[JSON]]
で使われるときは、
その記述に使われる[[文字コード]]の普通の[[文字列]]として扱われます。
[261]
[[Unicode言語タグ]]は、
[[Unicode]]
に含まれる通常の
[[ASCII文字]]のかわりに、
[[タグ文字]]に含まれる[[ASCII文字]]相当を使った[[文字列]]としています。
** 部分タグ
[56]
[DFN[[RUBYB[[[部分タグ]]]@en[subtag]]]]は、 (狭義の) [[言語]]や[[地域]]などを表す[[文字列]]です。
[[部分タグ]]を複数組み合わせて細かく指定できます。
[[部分タグ]]の長さや位置は、それが何を表すかによって決まっています。
[SRC@en[[[RFC 4646]] 2.1.]]
[FIG(short list)[ [313] [[部分タグ]]の種類
- [[言語部分タグ]]
- [[拡張言語部分タグ]]
- [[用字系部分タグ]]
- [[地域部分タグ]]
- [[変種部分タグ]]
- [[拡張部分タグ]]
]FIG]
[281] [[言語タグ]]の変種である[[Unicode言語識別子]]、[[Unicodeロケール識別子]]は[[部分タグ]]のことを
「[DFN[[RUBYB[[[符号]]]@en[code]]]]」とも呼んでいます。
[REFS[
- [282] [CITE@en-us[UTS #35: Unicode Locale Data Markup Language]] ([TIME[2011-07-19 03:14:51 +09:00]] 版) <http://unicode.org/reports/tr35/#Unicode_Language_and_Locale_Identifiers>
]REFS]
;; [283] 実際に[[部分タグ]]として使われているのは [[ISO]] の仕様によって定められた[[言語符号]]や[[国符号]]だったりするので、
「[[符号]]」と呼びたくなるのも理解できます。
** 大文字と小文字
[58] [[言語タグ]]の ([[ASCII]] の) [[大文字]]と[[小文字]]は、区別''されません''。
[SRC@en[[[RFC 4646]] 2.1., [[RFC 5646]] 2.2.1.]]
[59] 区別はされませんが、 [[IANA]] 登録簿の書式が[['''推奨''']]されています。
[SRC@en[[[RFC 4646]] 2.1., [[RFC 5646]] 2.2.1.]]
[FIG(list)[
- 1つ目''以外''の2[[文字]]の[[部分札]]は、すべて[[大文字]]にします。
- 1つ目''以外''の4[[文字]]の[[部分札]]は、先頭だけ[[大文字]]にします。
- それ以外のすべての[[部分札]]は、[[小文字]]にします。
]FIG]
;;
[60]
これは、 [[ISO 639-1]] の[[言語符号]]がすべて[[小文字]]、
[[ISO 3166-1]] の[[国名符号]]がすべて[[大文字]]、
[[ISO 15924]] の[[用字系符号]]が先頭だけ[[大文字]]が推奨されていることに由来します。
[164] [[拡張]]の[[部分タグ]]については、すべて[[小文字]]に[[正規化]]されることが期待されています。
[SRC[[[RFC 5646]] 2.2.6.]]
;; [296] [[拡張]]「[CODE(lang)@en[[[t]]]]」は[[拡張]]の一部として[[言語タグ]]を含めることができますが、
その場合の[[正規形]]は、[[地域]]や[[用字系]]も含めてすべて[[小文字]]とされています。
[121] しかしこの正規形への機械的な変換は、[[言語タグ]]の構文を踏まえた若干複雑な処理が必要になります。
分野や実装によっては、 [[BCP 47]] の推奨を無視してすべて[[小文字]]に変換することもあります。
[193] [[Unicode言語タグ]]では[[小文字]]が推奨されています。
** 長さ
[231] [[言語タグ]]には長さ制限はありません。一般的には6文字程度に収まりますが、
それより長い[[言語タグ]]もあります。
[SRC[[[RFC 4646]] 4.3., [[RFC 5646]] 4.4.]]
[232] [[プロトコル]]等で長さを制限する場合であっても、最低35文字は認め[['''なければなりません''']]。
[SRC[[[RFC 5646]] 4.4.]]
;; [233] [[RFC 4646]] 4.3. では最低42文字とされていましたが、[[拡張言語]]の仕様が確定したため緩和されました。
[234] 実装や仕様は長い[[言語タグ]]を扱えなくても構いませんが、
何文字まで扱えるのか、長すぎる時にどうなるのかを文書化する[['''べきです''']]。
また実装は長すぎる時に警告する[['''べきです''']]。
[SRC[[[RFC 4646]] 4.3., [[RFC 5646]] 4.4.]]
[235] 実装は長い[[言語タグ]]を切り落としていく時に、[[部分タグ]]の途中でぶった切っては[['''なりません''']]。
[SRC[[[RFC 4646]] 4.3., [[RFC 5646]] 4.4.]]
[EG[
[236] 長い[[言語タグ]]を切り落としていく例 [SRC[[[RFC 4646]] 4.3., [[RFC 5646]] 4.4.]]
- [CODE(lang)[zh-Latn-CN-variant1-a-extend1-x-wadegile-private1]]
- [CODE(lang)[zh-Latn-CN-variant1-a-extend1-x-wadegile]]
- [CODE(lang)[zh-Latn-CN-variant1-a-extend1]]
- [CODE(lang)[zh-Latn-CN-variant1]]
- [CODE(lang)[zh-Latn-CN]]
- [CODE(lang)[zh-Latn]]
- [CODE(lang)[zh]]
]EG]
** 歴史
[268] [[RFC 1766]] では、構文は制限が緩い単純なもので、
- [[部分タグ]]を [CODE(char)[[[-]]]] で連結する
- [[部分タグ]]は1文字から8文字の[[ラテン文字]]
... という制限しかありませんでした [SRC[[[RFC 1766]] 2.]]。
[260] [[RFC 3066]] では、[[数字]]が認められて、
- [[部分タグ]]を [CODE(char)[[[-]]]] で連結する
- [[部分タグ]]は1文字から8文字の[[英数字]]
... という制限になりました [SRC[[[RFC 3066]] 2.1]]。
* 拡張部分タグ
[155] [DFN[[RUBYB[[[拡張]]] @en[[CODE(ABNF)[extension]]]]]]は、
[[言語]]や[[言語タグ]]と併用される、[[言語]]以外の情報を表すために使える[[言語タグ]]の拡張機構です。
[SRC[[[RFC 4646]] 2.2.6., [[RFC 5646]] 2.2.6.]]
;; [297] [[数値]]の表現、[[暦]]、[[照合順序]]といったような[[ロケール]]情報は、
広い意味では[[言語]]を構成する要素ではありますが、[[言語タグ]]本体仕様には含まれておらず、
[[拡張]]として記述する必要があります。
[161] [[拡張]]は、 [[singleton]] と呼ばれる1文字の[[部分タグ]]と、
それに続く1個以上の2-8文字の[[英数字]]の[[部分タグ]]により構成されます。
[[singleton]] は[[拡張]]の種類を表すものであり、 [[IANA]]
に登録しなけてば[['''なりません''']]。
続きの[[部分タグ]]は、その[[拡張]]の仕様に従わなければ[['''なりません''']]。
[SRC[[[RFC 4646]] 2.2.6., [[RFC 5646]] 2.2.6.]]
[[拡張]]は続きの[[部分タグ]]を構文の制約の元で自由に使うことができます。
[[拡張]]が[RUBYB[[[妥当]]]@en[valid]]であるかどうかは、その仕様によって定められます
[SRC[[[RFC 5646]] 2.2.9.]]。
;; [162] [CODE(lang)[[[x]]]] や [CODE(lang)[[[i]]]] は[[拡張]]を表す [[singleton]]
ではありません。
** 文脈
[158]
[[IETF言語タグ]]の[[拡張部分タグ]]は、
[[言語]]、[[拡張言語]]、[[用字系]]、[[地域]]、[[異体]]の後で、
[[私用]]の前に[['''なければなりません''']]。
[[言語タグ]]全体が[[私用]]であって [CODE(lang)[[[x-]]]] から始まる場合には[[拡張]]を使うことはできません。
[SRC[[[RFC 4646]] 2.2.6., [[RFC 5646]] 2.2.6.]]
[317]
[CODE[ScriptLangTag]]
では、
[[用字系部分タグ]]、
[[地域部分タグ]]、
[[異体部分タグ]]のいずれよりも後で[[私用部分タグ]]より前に、
0個[[以上]]書けます。
[SRC[>>117]]
-*-*-
[159] [[拡張]]は複数個含めることができますが、同じ種類 (singleton)
の[[拡張]]を複数個同時に含めては[['''なりません''']]。
[SRC[[[RFC 4646]] 2.2.6., [[RFC 5646]] 2.2.6.]]
[163] [[拡張]]の順序は[[大文字・小文字不区別]]の[[ASCII]]順に[[正準化]]する[['''べきです''']]。
[SRC[[[RFC 4646]] 2.2.6., 4.4., [[RFC 5646]] 2.2.6., 4.5.]]
順序に意味は無いようです。
;; [298] [[拡張]]によっては更に[[正規化]]する方法が規定されています。
** 一覧
- [284] [CODE(lang)[t][拡張T]] : 変換
- [68] [CODE(lang)@en[u][拡張U]] : [[UTS #35]] [[ロケール]]識別子
[26]
その他提案されているもの:
[[拡張D]]
-*-*-
[318]
[CODE[ScriptLangTag]] を規定する [[OpenType]] の仕様書は、
[[拡張U]]や[[拡張T]]より後にも更新されているにも関わらず、
仕様書執筆時点で
[CODE[ScriptLangTag]] 用に定義された[[拡張]]はなく、
何か指定されても無視される、
としています。
[SRC[>>117]]
[319]
不明瞭ですが、特に [CODE[ScriptLangTag]] 用だと規定がない限りは、
[CODE[ScriptLangTag]] では使えないということでしょうか。
** 歴史
[157] [[拡張]]は [[RFC 4646]] で導入されました。それ以前は同様の仕組みはありませんでした。
[289] [CODE(lang)@en[[[t]]]] は2011年12月16日付で[[IANA]]に登録されています。
* 私用部分タグ
[165] [DFN[[RUBYB[[[私用]]] @en[[CODE(ABNF)[private use]]]][[部分タグ]]]]は、
特定の文脈で[[私的な合意]]の元に意味のある言語の区別を示すものです、
[SRC[[[RFC 4646]] 2.2.7., [[RFC 5646]] 2.2.7.]]
私用の部分タグは登録なしに自由に使うことができますが、
[[合意][当事者間の合意]]の範囲外では意味を共有することができませんし、
異なる[[当事者間の同意]]により同じ文字列が異なる意味で理解されることもあり得ます。
[166] [CODE(lang)[[[x]]]] だけの1文字の[[部分タグ]]の後に1つ以上の[[私用]]の[[部分タグ]]を使うことができます。
[[私用]]の[[部分タグ]]は1文字以上8文字以下の任意の[[英数字]]の列です。
[SRC[[[RFC 4646]] 2.2.7., [[RFC 5646]] 2.2.7.]]
;; [167] [[私用]]の[[部分タグ]]は、たとえ[[言語]]や[[地域]]の[[部分タグ]]と同じように見えたとしても、
(当事者間でそのように合意していない限り) その[[言語]]や[[地域]]を意味しません。
[CODE(lang)[[[en-US]]]] と [CODE(lang)[[[en-X-US]]]] は同じ言語を表すとは限りません。
[169] 他に候補がある場合や一般的な情報交換に供する場合には[[私用]]の[[部分タグ]]を使う[['''べきではありません''']]。
[SRC[[[RFC 4646]] 2.2.7., 4.5., [[RFC 5646]] 2.2.7., 4.6.]]
[170] [[言語]][[部分タグ]]や[[地域]][[部分タグ]]などにもそれぞれ[[私用]]に割り当てられた[[部分タグ]]がありますが、
それらはここでいう[[私用]]の[[部分タグ]]とは別のものです。
[[私用]]に割り当てられた[[部分タグ]]は[[言語タグ]]仕様上、それぞれ[[言語]]、[[地域]]などの意味を保持していますが、
ここでいう[[私用]]の[[部分タグ]]は[[言語タグ]]仕様上不透明なものです。
従って[[私用]][[部分タグ]]よりは[[私用]]に割り当てられた各種の[[部分タグ]]を使う[['''べきである''']]
[SRC[[[RFC 4646]] 4.5., [[RFC 5646]] 4.6.]] とされています。
[183] [[利用者]]は、[[私用]][[部分タグ]]を除き、 [[IANA]]
に登録されていない[[部分タグ]]を使っては[['''なりません''']]。
[SRC[[[RFC 5646]] 2.2.9.]]
[299] [[私用部分タグ]]とは別に、
[[拡張部分タグ]]によってはその一部を[[私用]]としていることがあります。
[21]
[CODE[ScriptLangTag]] では、[[私用部分タグ]]は無視しても良いとされます。
[SRC[>>117]]
** 文脈
[168]
[[IETF言語タグ]]の[[私用部分タグ]]は他の[[部分タグ]]より後になければ[MUST[なりません]]。
[[言語部分タグ]]なしで[[私用部分タグ]]だけを使うこともできます。
[SRC[[[RFC 4646]] 2.2.7., [[RFC 5646]] 2.2.7.]]
[2]
[CODE[ScriptLangTag]]
では、
他の[[部分タグ]]の後に1組[[私用部分タグ]]を置けます。
[SRC[>>117]]
;; [7] [[用字系部分タグ]]が必須なので、
[CODE[ScriptLangTag]] 全体を[[私用部分タグ]]にはできません。
** 実例
[24]
個別の事例は[[言語タグの一覧]]参照。
-*-*-
[25] 体系的な利用例がいくつかあります。
[41] [[CLCR]] の [[long code]] がこれらしきものを使っています。
[31] [[CLAコード]]が対応関係を定めています。
[222] [[Semantic Web]] の世界では [CODE[x-d-[VAR[*]]]] が提案されています。
[312] [CITE@id-x-mtfrom-en[Class Utilities | Apps Script | [[Google]] Developers]], [TIME[2022-08-17T17:43:30.000Z]], [TIME[2022-09-11T05:27:03.736Z]] <https://developers.google.com/apps-script/reference/utilities/utilities>
>
[PRE(html code)[
<html
lang="en"
dir="ltr">
]PRE]
>
[PRE(html code)[
<html
lang="id-x-mtfrom-en"
dir="ltr">
]PRE]
>
[PRE(html code)[
<html
lang="zh-TW-x-mtfrom-en"
dir="ltr">
]PRE]
>
[PRE(html code)[
<html
lang="ar-x-mtfrom-en"
dir="rtl">
]PRE]
>
[PRE(html code)[
<html
lang="th-x-mtfrom-en"
dir="ltr">
]PRE]
[[English]] 原文と各[[言語]]の[[翻訳]]があり、
[[内容折衝]]により、または[[利用者]]の選択により切り替えられる。
[[言語タグ]]は選択言語により切り替わり、
[[English]] 以外では[[私用部分タグ]] [DFN[[CODE[x-mtfrom-en]]]] が付く。
** 歴史
[171] [[RFC 1766]] と [[RFC 3066]] では、1つ目の[[部分タグ]]
[WEAK[(当時の用語でいう[RUBYB[一次タグ][primary tag]])]] を
[CODE(lang)[[[x]]]] とすることで[[私用]]を表していました。
2つ目の[[部分タグ]] [WEAK[(当時の用語でいう最初の[RUBYB[部分タグ]@en[subtag]])]]
について、 [[RFC 1766]] では何も規定がなく、 [[RFC 3066]]
では1文字のものは将来の拡張のために予約するとされていました。
3つ目以降の[[部分タグ]]については特に制約なく、 [CODE(lang)[[[x]]]]
を使ったり登録したりすることも認められていました (特に[[私用]]という意味は割り当てられていませんでした)。
[172] [[RFC 4646]] 以後、[[私用]]を表す[[部分タグ]]の最初に使うという意味になっています。
* 祖父化言語タグ
[57] [[RFC 1766]] や [[RFC 3066]] の時代に登録された[[言語タグ]]の中には、
[[RFC 4646]] 以後の[[部分タグ]]の定義に従っていないものがありますが、
それも互換性のため引き続き [[RFC 4646]] 以後の仕様でも使うことが認められています
[SRC[[[RFC 4646]] 2.2.8., [[RFC 5646]] 2.2.8.]]。
[85] [[RFC 4646]] は特別に
[PRE(ABNF code)[
grandfathered = 1*3[[ALPHA]] 1*2("-" 2*8([[ALPHA]] / [[DIGIT]]))
]PRE]
... という構文を認めていました [SRC@en[[[RFC 4646]] 2.1.]]。
[86] ところがこれでは [[RFC 4646]] 以後のより制限が厳しい構文で認めていないものがこちらの構文では認められることになってしまい、
構文の定義として意味をなしていない状態でした。
[87] [[RFC 5646]] では [[RFC 3066]] までに登録されたものを構文定義に列挙する形となっており、
この問題は解消しています。
;; [88] これによって [[RFC 3066]] 時代までに未登録で利用され、 [[RFC 4646]]
以後定義に沿わないことにされてしまった[[言語タグ]]は [[RFC 5646]] の構文に適合しなくなってしまいました。
とはいえ、 [[RFC 4646]] の時に既に [[RFC]] 本文の定義に合致しない状態だったのですが。
[89] [[RFC 5646]] では、新しい構文に一致しないものの例外的に認めているもの (irregular) と、
新しい構文に一致するものの新しい構文から導かれる意味と違う意味で解釈されるべきもの
(regular) の2種類に分類されています。 [SRC[[[RFC 5646]] 2.1., 2.2.8.]]
[90]
[FIG[
"en-GB-oed" / "i-ami" / "i-bnn" / "i-default" / "i-enochian" / "i-hak" / "i-klingon"
/ "i-lux" / "i-mingo" / "i-navajo" / "i-pwn" / "i-tao" / "i-tay" / "i-tsu" / "sgn-BE-FR"
/ "sgn-BE-NL" / "sgn-CH-DE"
[FIGCAPTION[
[CODE(ABNF)@en[irregular]] に分類されている[[言語タグ]]
]FIGCAPTION]
]FIG]
[91]
[FIG[
"art-lojban" / "cel-gaulish" / "no-bok" / "no-nyn" / "zh-guoyu"
/ "zh-hakka" / "zh-min" / "zh-min-nan" / "zh-xiang"
[FIGCAPTION[
[CODE(ABNF)@en[regular]] に分類されている[[言語タグ]]
]FIGCAPTION]
]FIG]
[174] [CODE(lang)[[[en-GB-oed]]]] は[[英語]]の一種ですが、それ以外は単独の[[言語]]を表しています。
その多くは単独の一次[[言語]][[部分タグ]]が新たに割り当てられており、
[[IANA]] 登録簿の [[Preferred-Value]] に示されています
[SRC[[[RFC 4646]] 2.2.8., [[RFC 5646]] 2.2.8.]]。
[175] なお、 [[RFC 4646]] で[[祖父化]]に分類されていた[[言語タグ]]のうちの幾つかは、
[[RFC 5646]] のもとでは[[言語]]と[[拡張言語]]の組み合わせと解されるため、
[[冗長]]に再分類されています。
[300] [CODE(lang)@en[[[t]]]] [[拡張]]は[[言語タグ]]をその一部として含めることができますが、
[CODE(ABNF)@en[irregular]] の使用は禁止されています。
[23]
[CODE[ScriptLangTag]] は[[祖父化言語タグ]]構文を認めていません。
** [CODE(lang)[i-default]]
[228] [CODE(lang)[[[i-default]]]] は、既定の[[言語]]を示すことが要求されている場合を除き、
使う[['''べきではありません''']]。
[SRC[[[RFC 5646]] 4.1.]]
* 部分タグの選択
[213] 大原則として、[[言語タグ]]を構成する時は、可能な限りで粗すぎず、細かすぎない、
必要十分な粒度で言語を特定できるように[[部分タグ]]を選択するべきです。
[SRC[[[RFC 4646]] 4.1., [[RFC 5646]] 4.1.]]
[EG[
[214] 例えば、殆どの場合 [CODE(lang)[[[de-CH-1996]]]] (1996年正書法) は細かすぎで、
[CODE(lang)[[[de-CH]]]] で十分です。
]EG]
[EG[
[215] 普通は [CODE(lang)[[[gem]]]] ([[ゲルマン語族]]) は粗過ぎで、
それが (例えば) [[ドイツ語]]とわかっているなら [CODE(lang)[[[de]]]]
を使うべきです。
]EG]
** 非推奨
[194] [[IANA]] 登録簿には [[Deprecated]] ([[非推奨]]) 欄があります。
[WEAK[(値は非推奨になった日付です。)]]
[SRC[[[RFC 4646]] 3.1., [[RFC 5646]] 3.1.2.]]。
[202] [[妥当性]]を検証する実装は[[非推奨]]な[[部分タグ]]や[[タグ]]を使う[['''べきではありません''']]
[SRC[[[RFC 4646]] 3.1., 4.4., [[RFC 5646]] 3.1.6., 4.5.]]。
[203] [[非推奨]]な[[部分タグ]]や[[言語タグ]]には好ましい値が指定されていることもあれば、
指定されていない (代替がない) こともあります。
** 好ましい値
[195] [[IANA]] 登録簿には [[Preferred-Value]] (好ましい値) 欄があります。
[SRC[[[RFC 4646]] 3.1., [[RFC 5646]] 3.1.2.]]。
- [196] [[言語]]、[[用字系]]、[[地域]]、[[異体]]については、より好ましい別の値 (同じ種類の[[部分タグ]]) が指定されています。
[SRC[[[RFC 5646]] 3.1.2.]]
- [197] [[拡張言語]]、[[祖父化]]、[[冗長]]については、より好ましい[[拡張言語範囲]]が指定されています。
[SRC[[[RFC 5646]] 3.1.2.]]
;; [198] [[RFC 4646]] 3.1. では、[[拡張言語]]は >>196 に分類されていました。また >>197
は[[拡張言語範囲]]ではなく、「完全な[[言語タグ]]」とされていました。
[204] [[非推奨]]かつ好ましい値が指定されている場合にあっては、
好ましい値が最善の選択として利用される[['''べきです''']]。
[[拡張言語]]以外で好ましい値が指定されているなら、必ず[[非推奨]]でもあります。
[SRC[[[RFC 4646]] 3.1., [[RFC 5646]] 3.1.7.]]
[205] なお、好ましい値は必ずしも意味的に等価ではありません。例えば[[地域]]の[[部分タグ]]は[[国]]の独立などがあって変化した時に新しい[[国]]の符号が好ましいとされますが、
必ずしも以前の[[国]]と同じ範囲ではありません。
;; [265] [[RFC 3066]] 以前に登録された [CODE(lang)[[[i-*]]]] 形式の[[言語タグ]]の多くは、
現在では [[ISO]] の[[言語符号]]が割り当てられていて、そちらを使うのが好ましいとされています。
[[RFC 3066]] の当時も、 [[ISO]] の[[言語符号]]が割り当てられたらそちらを使わなければ[['''ならない''']]
[SRC[[[RFC 3066]] 2.3]] とされていました。
** 接頭辞
[199] [[IANA]] 登録簿には [[Prefix]] (接頭辞) 欄があります。
その値は、当該[[部分タグ]]を使う時に[[接頭辞]]となっている[['''べき''']][[言語タグ]]です。
[WEAK[(接頭辞となっているか否かは、[[拡張濾過]]算法に拠ります。)]]
接頭辞は[[拡張言語]]と[[異体]]の登録にのみ含まれます。
[SRC[[[RFC 4646]] 3.1., [[RFC 5646]] 3.1.2., 3.1.8.]]。
[EG[
[206] 例えば [CODE(lang)[[[cmn]]]] ([[官話]]) [[拡張言語]][[部分タグ]]の[[接頭辞]]は
[CODE(lang)[[[zh]]]] ([[中文]]) となっているので、 [CODE(lang)[[[zh-cmn]]]]
とするべきであり、 [CODE(lang)[[[ja-cmn]]]] は不適当です。
]EG]
[EG[
[277] [[Prefix]] に一致するかどうかは[[拡張濾過]]算法により判断されるので、
必ずしも文字列として接頭辞になっていなくても構いません。例えば
[CODE(lang)[es-Latn-CO-x-private]] に [CODE(lang)[es-CO]] は接頭辞として含まれています。
]EG]
* 正規化と比較
** 正準形
[237] [[言語タグ]]は[RUBYB[[[正準形]]]@en[canonical form]]である[['''べきです''']]。
[SRC[[[RFC 4646]] 4.4., [[RFC 5646]] 4.5.]]
[238] [[整形式]][[言語タグ]]は次の手順で[[正準化]]できます
[SRC[[[RFC 5646]] 4.5.]]。
[FIG(steps)[
= [239] [[拡張]]は、 [[singleton]] の大文字・小文字を区別しない [[ASCII]] 順にします。
= [240] [[祖父化]]または[[冗長]]として登録されている[[言語タグ]]であって、
[[Preferred-Value]] が示されていれば、その[[言語タグ]]に置き換えます。
= [241] 各[[部分タグ]]が登録されていて [[Preferred-Value]] が示されていれば、
その[[部分タグ]]に置き換えます。
]FIG]
;; [243] これは [[RFC 4646]] 4.4. に示されていた[[正準化]]の方法とは少し違っています。
両者は実質的に等価だと思いますが、検証していません。
[EG[
[246] [CODE(lang)[[[en-BU]]]] (英語、ビルマ) の[[正準形]]は [CODE(lang)[[[en-MM]]]]
(英語、ミャンマー) です。
]EG]
[EG[
[247] [CODE(lang)[[[en-b-ccc-bbb-a-aaa-X-xyz]]]] は[[正準形]]ではありませんが、
[CODE(lang)[[[en-a-aaa-b-ccc-bbb-x-xyz]]]] は[[正準形]]です。
]EG]
;; [249] ここでいう[[正準化]]には[[大文字・小文字]]の正規化 (>>58) は含まれていません。
また用字形抑制や[[異体]]の順序など、[[言語タグ]]の仕様上[['''推奨''']]されている要件であっても、
[[正準化]]によって満たされないものがあります。
;; [250] [[拡張]]は、それぞれの[[正準形]]をそれぞれにおいて規定できるとされています。
** 拡張言語形
[242] [[整形式]][[言語タグ]]は次の手順で[DFN[[RUBYB[拡張言語形]@en[extlang form]]]]に変形できます。
[SRC[[[RFC 5646]] 4.5.]]
[FIG(steps)[
= [244] [[正準形]]にします。
= [245] [[拡張言語]]でもある[[言語]]ではじまるなら、その[[拡張言語]]の [[Prefix]] を先頭に挿入します。
]FIG]
[248] [[正準形]]では必ず[[拡張言語]]が含まれない形になるので、[[言語]]と[[拡張言語]]の両方を含めた形の方が便利なときには[[拡張言語形]]が良いとされています。
** その他
[288] [[言語タグ]]は冗長性や廃止された値が多くあるので、それらの扱いについて個別に規定している仕様もあります。
[287] [[ヘブライ語]]を表すいろいろな[[言語タグ]]、 [CODE(lang)[[[iw]]]] や [CODE(lang)[[[iw-IL]]]] や
[CODE(lang)[[[he-IL]]]] や [CODE(lang)[[[he]]]] を等価として扱わなければならないとする仕様もあります。
([CODE(lang)[[[he]]]] の項を参照。)
* 言語タグの適合性
[176] [[言語タグ]]の[[適合性]]については、[[整形式]]と[[妥当]]の2つの基準が設けられています。
** 整形式言語タグ
[177] [[言語タグ]]は [[ABNF]] 構文に一致する時、[RUBY[[[整形式]]][せいけいしき]@en[well-formed]]です。
[SRC[[[RFC 5646]] 2.2.9.]]
[32]
[[整形式]]とは、[[構文]]として正しい[[言語タグ]]であるということを意味しています。
[[構文]]として正しいとしても、意味のある[[言語タグ]]を構成しているかどうかはわかりません。
** 妥当な言語タグ
[178] [[言語タグ]]は、
- [179] [[整形式]]であり、
- [180] [[異体]][[部分タグ]]に重複がなく、
- [181] [[拡張]][[部分タグ]]の [[singleton]] に重複がなく、
- [182] [[タグ]]全体が[[祖父化]]タグのいずれかであるか、またはタグを構成する[[言語]]、[[拡張言語]]、[[用字系]]、[[地域]]、[[異体]]の[[部分タグ]]がすべて [[IANA]] に登録されたものであれば、
... [RUBYB[[[妥当]]]@en[valid]]です。
[SRC[[[RFC 5646]] 2.2.9.]]
[33]
[[妥当性]]は、[[整形式]]性、つまり[[構文]]的に正しいかどうかに加えて、
[[IANA登録簿]]に登録されて[[意味]]が明確になっていることを表しています。
[EG[
[34] [CODE[ja]] は[[整形式]]であり、[[妥当]]です。
]EG]
[36]
[[妥当]]な[[言語タグ]]は仕様上「適切」な[[言語タグ]]であるといえますが、
[[妥当]]でないからといって[[言語タグ]]として不適切ということでもありません。
例えば[[私用]]の[[部分タグ]]は定義上[[非妥当]]になります。
*** 冗長言語タグ
[173]
[[RFC 1766]] や [[RFC 3066]] に基づく手続きにより [[IANA]] に登録された[[言語タグ]]の中には、
[[RFC 4646]] 以後の仕組みに基づかず[RUBYB[[[祖父化]]]@en[grandfathered]]扱いされているものの他、
[CODE(lang)[[[zh-Hant]]]] のように [[RFC 4646]]
以後の[[部分タグ]]の組み合わせで表現できるものがいくつもあります。
このような[[言語タグ]]もまた [[RFC 4646]] 以後の [[IANA]]
登録簿に含まれており、「[RUBYB[冗長]@en[redundant]]」と分類されています
[SRC[[[RFC 4646]] 2.2.8., [[RFC 5646]] 2.2.8.]]。
** 歴史
[184] [[RFC 5646]] は[[言語タグ]]の[[適合性]]を定義していますが、 [[RFC 4646]]
はそれを処理する[[実装]]の[[適合性]]を定義していました。実装は >>185 と >>186
のいずれかを明示的に引用して適合性を主張する[['''べきだ''']]とされていました
[SRC[[[RFC 4646]] 2.2.9.]]。
[185] [[RFC 4646]] における[[整形式]]性を検証する実装は、 >>177 に加えて、 >>181
もチェックしなければなりませんでした。
[SRC[[[RFC 4646]] 2.2.9.]]
[186] [[RFC 4646]] における[[妥当]]性を検証する実装は、 >>178 に加えて、
対応している[[拡張]]について[[妥当]]性をチェックすることが求められていました。
[[異体]]と[[拡張言語]]について、登録簿上の [[Prefix]] の要件を満たしているかチェックすることも求められていました。
更に、対応している[[登録簿]]や[[拡張]]の版・日付について指定することが求められていました。
[SRC[[[RFC 4646]] 2.2.9.]]
** メモ
[187] [[RFC 4646]] についても [[RFC 5646]] についても、[[妥当]]であるからといって [[RFC]]
上のすべての要件を満たしていることにはなりません。
* 不正な言語タグ
[FIG(quote)[
[FIGCAPTION[
[7] [CITE@ja-JP[GNU Wget - バグ: bug #26786, TLS SNI support '''['''Savannah''']''']] ([[Copyright (C) 2000, 2001, 2002, 2003 Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111, USA Verbatim copying and distribution of this entire article is permitted in any medium, provided this notice is preserved]] 著, [TIME[2014-09-19 15:03:19 +09:00]] 版) <http://savannah.gnu.org/bugs/?26786>
]FIGCAPTION]
>
[PRE(HTML code)[
<html xmlns="http://www.w3.org/1999/xhtml" lang="'''ja-JP.UTF-8'''" xml:lang="'''ja-JP.UTF-8'''">
]PRE]
]FIG]
[278] [CITE@Japanese[拡大イメージ表示]], [TIME[2022-01-11T09:01:41.000Z]] <https://screenstore.jp/shop/image_view.html?image=000000004236>
>
[PRE(HTML code)[
<meta http-equiv='CHARSET' content='EUC-JP'>
<meta http-equiv='CONTENT-LANGUAGE' content='Japanese'>
<meta http-equiv='Content-Type' content='text/html; charset=EUC-JP'>
]PRE]
[FIG(quote)[
[FIGCAPTION[
[134] ([TIME[2016-03-18 17:54:57 +09:00]] 版)
<http://doc.qt.io/qt-4.8/qcolor.html#setNamedColor>
]FIGCAPTION]
>
> <html lang="en_US">
]FIG]
[FIG(quote)[
[FIGCAPTION[
[141] [CITE@de_DE[Another RDF Encoding Form (aREF)]]
([[Jakob Voß (voss@gbv.de)]]著, [TIME[2014-10-16 17:22:47 +09:00]])
<https://gbv.github.io/aREF/aREF.html>
]FIGCAPTION]
> <html lang="de_DE">
]FIG]
[FIG(quote)[
[FIGCAPTION[
[217] [CITE@en_us[Building the Future of the Twitter API Platform]]
([TIME[2017-10-13 20:43:58 +09:00]])
<https://blog.twitter.com/developer/en_us/topics/tools/2017/building-the-future-of-the-twitter-api-platform.html>
]FIGCAPTION]
> <html lang="en_us" prefix="og: http://ogp.me/ns#">
]FIG]
[FIG(quote)[
[FIGCAPTION[
[218] [CITE@en_us[Giving you more characters to express yourself]]
([TIME[2017-11-12 17:33:04 +09:00]])
<https://blog.twitter.com/official/en_us/topics/product/2017/Giving-you-more-characters-to-express-yourself.html>
]FIGCAPTION]
> <html lang="en_us" prefix="og: http://ogp.me/ns#">
]FIG]
[FIG(quote)[
[FIGCAPTION[
[221] [CITE@ja,zh[電脳戦機バーチャロン×とある魔術の禁書目録 とある魔術の電脳戦機(バーチャロン) 公式サイト]]
([TIME[2018-06-08 12:02:42 +09:00]])
<http://vo-index.sega.jp/outline/istg/index01.html>
]FIGCAPTION]
> <!doctype html>
> <html lang="ja,zh">
>
]FIG]
[FIG(quote)[
[FIGCAPTION[
[225] [CITE@en[Static Maps API — Map localization — Yandex Technologies]]
([TIME[2020-03-27 15:56:10 +09:00]])
<https://tech.yandex.com/maps/staticapi/doc/1.x/dg/concepts/localization-docpage/>
]FIGCAPTION]
> The locale is set in RFC-3066 format using the lang parameter:
> lang=language-region
> language - Two-letter language code. Specified in ISO 639-1 format. Sets the language for objects on the map (toponyms and controls).
> region - Two-letter country code. Specified in ISO 3166-1 format. Determines regional settings such as measurement units (for indicating distances between objects or driving speeds on a route).
> Note. For the regions RU, UA and TR, distance is shown in kilometers; for US, it is shown in miles.
> The following locales are currently supported:
> lang=tr-TR
> lang=en-US (distance in miles)
> lang=en_RU
> lang=ru-RU
> lang=ru_UA
> lang=uk_UA
> Note. In early versions of the API, the locale was specified after a dash. For example, en-US. This notation is supported for backward compatibility, but is not recommended.
]FIG]
[FIG(quote)[
[FIGCAPTION[
[136] [CITE@en[Apple News Format Reference: Properties]]
([TIME[2016-06-29 11:15:12 +09:00]])
<https://developer.apple.com/library/ios/documentation/General/Conceptual/Apple_News_Format_Ref/Properties.html#//apple_ref/doc/uid/TP40015408-CH2-SW1>
]FIGCAPTION]
> A code that indicates the language of the article. Use the IANA.org language subtag registry to find the appropriate code; e.g., en for English, or the more specific en_GB for English (U.K.) or en_US for English (U.S.).
]FIG]
[FIG(quote)[
[FIGCAPTION[
[137] [CITE@en-US.UTF-8[Welcome '''['''Savannah''']''']]
([[Copyright 2016 Free Software Foundation, Inc. Verbatim copying and distribution of this entire article is permitted in any medium, provided this notice is preserved.]]著, [TIME[2016-07-12 10:50:48 +09:00]])
<http://savannah.nongnu.org/>
]FIGCAPTION]
> <html xmlns="http://www.w3.org/1999/xhtml" lang="en-US.UTF-8" xml:lang="en-US.UTF-8">
]FIG]
[FIG(quote)[
[FIGCAPTION[
[29]
[CITE@zh[臺灣華文電子書庫]], [TIME[2023-02-24T09:22:11.000Z]] <https://taiwanebook.ncl.edu.tw/zh-tw/book/NCL-000145761/reader>
]FIGCAPTION]
>
[PRE(html code)[
<html lang="zh_tw">
]PRE]
]FIG]
* 言語タグの集合
[276] [[言語タグ]]と[[ワイルドカード]]によって[[言語タグ]]の[[集合]]を表現する「[[言語範囲]]」
や[[言語範囲]]を複数列挙した「[[言語優先度リスト]]」が
[[HTTP]] の [CODE(HTTP)@en[[[Accept-Language:]]]] などで用いられています。
* ロケールと言語タグ
[8] [[言語]]は[[ロケール]]を構成する一要素であり、[[言語]]と[[ロケール]]は別の概念ではありますが、[[言語]]は[[ロケール]]の最重要要素でもありますから、同一視されることもよくあります。
[9] [[言語タグ]]は [[Unix 系システムのロケールの識別子][POSIX locale]]と
(区切り文字が違うことを除けば)
非常によく似ていて、歴史的にも深く関わっています。
[40] この区切り文字の違いが曲者で、
[[言語タグ]]で間違って [CODE[_]]
を使ったり、
[[ロケール]]の記述で間違って [CODE[-]]
を使ったりする誤用例が散見され、それによる不具合もまま見かけます。
ややこしいことに[[ロケール識別子]]の仕様もいろいろあって、
中には [CODE[-]] を使うものもあります。
[10] [[UTS #35]] は元は [[Unix ロケール識別子][POSIX locale]]由来の独自の構文を規定していましたが、
現在は[[言語タグ]]の [CODE(lang)@en[[[u]]]] 拡張や [CODE(lang)@en[[[t]]]] 拡張という形で両者の要素を混在させたスタイルになっています。
[SEE[ [[Unicodeロケール識別子]] ]]
[12] [[言語タグ]]本体と [CODE(lang)[[[u]]]] 拡張、 [CODE(lang)[[[t]]]] 拡張を合わせれば[[ロケール]]のかなりの側面が一つの識別子により記述できますが、
それでもまだカバーされてない範囲もあります。
[FIG(list)[ [11] [[言語タグ]]で (まだ) 記述できないもの
- [13] [[単位系]] - [[SI]]、[[ヤード・ポンド法]]などの選択
- [19] [[プラットフォーム]]ごとの慣習 - [[Windows]] 風の用語遣い、[[Mac OS X]] 風の用語遣い、など
-- [30] [CODE(lang)[[[u]]]] の [CODE(lang)[[[va]]]] でカバーできるかも?
-- [20] [[Mac OS]] 風を表すために [CODE(lang)@en[[[ja-JP-mac]]]] や [CODE(lang)@en[[[ja-jpm]]]] といった[[言語タグ]]が使われることがあります。
- [129] 対象者の区別や注釈の有無
-- [[子供]]向けの平易な言葉遣い、[[漢字]]の利用の程度の指定
-- [[振り仮名]]の有無の指定、[[白文]]と[[訓読文]]の選択
- [35] [[文字符号化]]
-- [[Unix 系システムの伝統的なロケール][POSIX locale]]には含まれていたが [[UTS #35]] には
(おそらく意図的に) 含まれていない。
-- [[UTF-8]] への統一が進んでいるので、そろそろ意味がなくなってきています。
]FIG]
;; [130] 枠組みとしてカバーされていても、値が存在しないものもあります。
例えば[[ですます調]]と[[だである調]]の違いや[[候文]]、
戦前[[公用文]]型の片仮名文、[[2ch]] 風[[スラング]]混じり文、
といったバリエーションは言語の異体として区別可能かもしれませんが、
使える値は登録されていません。
[[書き言葉]]と[[話し言葉]]の別、[[語尾]]に「アル」、「にゃん」、
「ごわす」のような特徴的なものを使うかどうかといった違いも表現できる値がありません。
句読点に「、。」を使うか
「,.」を使うかの違いも何らかの方法で理論上記述可能かもしれませんが、
そのような値は現時点でありません。
[[方言]]の違いも、値がありません。
* 文脈
[94] [[MIME]] では、 [[RFC 2231]] で拡張された[[引数]]の値の構文で [[RFC 1766]]
により登録された[[言語タグ]]の値を指定できるとされています。
[95] また [CODE(ABNF)@en[[[encoded-word]]]] でも [[RFC 2231]] の拡張により、[[RFC 1766]]
により登録された[[言語タグ]]の値を指定できるとされています。
[208]
[[MIME]] や [[HTTP]] の [CODE(MIME)@en[Content-Language:]]
[[ヘッダー]]の値や [[HTTP]] の [CODE(HTTP)@en[Accept-Language:]]
[[ヘッダー]]の値の一部として[[言語タグ]]が使われています。
[211]
[[HTML]] の [CODE[lang]] [[属性]]や [CODE[hreflang]]
[[属性]]の値として[[言語タグ]]が使われています。
[212]
[[XML]] の [CODE[xml:lang]] [[属性]]の値として[[言語タグ]]が使われています。
[269]
[[LDAP]] [CODE[lang-]]
[270] [[CPIM]] [CODE[;lang=]]
[HISTORY[
[96] [[Unicode]] の特別な[[文字コード]]を使って [[RFC 1766]] [[言語タグ]]を埋め込む方法がかつて提案されていましたが
([[RFC 2482]])、現在では使われていません。
[SEE[ [[Unicode言語タグ]] ]]
[264] [[MLSF]] は [[UTF-8]] を拡張して特殊な[[バイト列]]として[[言語タグ]]を埋め込む方法でした。
]HISTORY]
[262] [CITE@en[RFC 3367 - Common Name Resolution Protocol (CNRP)]], [TIME[2021-04-11T07:17:52.000Z]], [TIME[2021-04-21T08:38:14.119Z]] <https://tools.ietf.org/html/rfc3367#page-10>
>The language associated with a resource. The default type of this
property is 'RFC1766' and the vocabulary is drawn from the list of
languages in RFC 1766 [4]. If RFC 1766 is updated, then the
values listed in the updated version are also valid for this type.
[263] 改訂は想定しながら、[[非互換変更]]までは想定できず梯子を外された事例。
[27]
[CITE@ja[言語サポート | Cloud Speech-to-Text ドキュメント | Google Cloud]], [TIME[2022-11-22T15:21:44.000Z]], [TIME[2022-12-21T08:04:46.144Z]] <https://cloud.google.com/speech-to-text/docs/languages?hl=ja>
[28]
[[[CODE[name]] (OpenType)]]
-[42] [CITE@en[RFC 4566: SDP: Session Description Protocol]], [TIME[2023-12-02T07:30:22.000Z]], [TIME[2023-12-02T12:14:56.110Z]] <https://www.rfc-editor.org/rfc/rfc4566.html#page-29>
-[43] [CITE[RFC Errata Report » RFC Editor]], [TIME[2023-12-02T12:15:36.000Z]] <https://www.rfc-editor.org/errata/rfc4566>
[[RFC 3066]]
* プロファイル
[47] [CITE@ja[GREEの国際化, その4 - 言語コード | GREE Engineering]], [TIME[2024-04-03T11:48:55.000Z]] <https://labs.gree.jp/blog/2012/11/6439/>
[48] >>47 [[GREE]] 用の[[部分集合]]を紹介している。
* データファイル
[144] [[言語タグ]]について構文的に正しいかどうか以上の処理を行いたい場合、
[[データファイル]]を用意する必要があります。
[145] 理論上は[[プラットフォーム]]の[[ロケール]]システムの一部として提供されている可能性もありますが、
実際にはそのような[[プラットフォーム]]は一般的ではありません。 ([[プラットフォーム]]独自の[[ロケール]]システムに関するデータは提供していても、
[[言語タグ]]一般のデータは提供されません。)
[REFS[
- [146] [CITE@en[data-web-defs/langtags.json at master · manakai/data-web-defs]] ([TIME[2017-03-05 12:36:56 +09:00]]) <https://github.com/manakai/data-web-defs/blob/master/data/langtags.json>
-- [147] ドキュメント: [CITE@en[data-web-defs/langtags.txt at master · manakai/data-web-defs]] ([TIME[2017-03-05 12:37:23 +09:00]]) <https://github.com/manakai/data-web-defs/blob/master/doc/langtags.txt>
]REFS]
[148] >>146 に、 [[JSON]] 形式のデータファイルがあります。
[[IANA登録簿]]や [[Unicode]] の登録簿に登録された[[部分タグ]]の情報が含まれています。
[149] [[言語タグ]]の情報は、[[言語]]というそう頻繁に変わらなそうなものを扱ってはいますが、
数ヶ月に一度程度という意外な高頻度で改訂されています。漏れている[[言語]]が追加されるなど、
細かな変更がちょくちょく行われているようです。