ids/0/242.txt

[1] [DFN[[[ISO/IEC 10646]]]] は、 [DFN[[[UCS]]]]
([DFN[Universal Multiple-octet Coded Character Set]]、
(多オクテットの) 国際符号化文字集合) を規定する [[ISO/IEC]]
の[[国際標準]]です。

[2] [[UCS]] は、4[[オクテット]] (厳密には31[[ビット]]) の[[符号空間]]に世界中の[[文字]]を符号化しています。
[[ISO/IEC]] [[JTC1/SC2]](/[[WG2]]) によって開発されています。

[5] [[Unicode Consortium]] によって開発されている [[Unicode Standard]]
と事実上同じ[[符号化文字集合]]となっていて、両者は共同で標準化作業を行っています。
このため、稀に [[Unicode]] と [[ISO/IEC 10646]] の総称を [[UCS]]
と呼ぶこともあります。

;; [18] [[政治的]]にやむを得ない場合を除き、 [[Unicode]] ではなく
[[ISO/IEC 10646]] を使うべき場面はありません (>>14)。

* 符号位置の表記

[8] [[符号位置]]を8ビットごとに区切って上位の[[オクテット]]から順に[[群]]、[[面]]、
[[区]]、[[点]]といいます。

[9] [[十六進数]]により [CODE[[[U-[VAR[HHHHHHHH]]]]]] とも表記します ([[十六進数]]部分は8桁固定)。また0[[群]]
0[[面]]-16[[面]]は [CODE[[[U+[VAR[HHHH]]]]]] とも表記します ([[十六進数]]部分は4-6桁可変)。

* 符号化文字集合

[10] 現在までに[[文字]]が割り当てられているのは0[[群]]の次の[[面]]です。
[FIG(short list)[
- [[BMP]] (0[[面]])
- [[SMP]] (1[[面]])
- [[SIP]] (2[[面]])
- [[TIP]] (3[[面]])
- [[SSP]] (14[[面]])
]FIG]

[11] この他に[[私用域]]があります。

* 符号化方式

[7] 現在または過去の [[ISO/IEC 10646]] は次の[[符号化文字集合]]を規定しています。
[FIG(short list)[
- [[UCS-2]]
- [[UCS-4]]
- [[UTF-8]]
- [[UTF-16]]
- [[UTF-1]]
]FIG]

;; [17] 厳密には [[Unicode]] と [[ISO/IEC 10646]] の [[UTF-8]] は定義が異なります。

* 文字の情報

[6] [[Unicode Consortium]] が [[Unicode]] の[[文字]]について [[Unicode Character Database]]
として詳細な情報を公開しているのに対し、 [[ISO/IEC 10646]] は[[附属書]]にわずかに説明があるだけで、
[[代表字形]]と[[文字の名前]]以外の情報はほとんど含まれていません。
([[Unicode]] ではなく) [[UCS]] を実用レベルで実装するのはほとんど不可能と思われます。

* 対応国内規格

[4] [[JIS]] は日本語版を [DFN[[[JIS X 0221]]]] として出版しています。
(ただし基本的に数年遅れのようです。[[政治的]]理由から [[JIS]] を参照しなければならない場面以外に、
実用的な価値は皆無です。)

* Unicode との関係

[13] [[Unicode]] と [[ISO/IEC 10646]] は実質的に同じ[[文字コード]]ですが、
仕様書としてはまったく異なっています。両者の標準化手続きは連動していますが、
両者の出版には時間差があります。

[14] 実用上 [[ISO/IEC 10646]] には実装するのに十分な情報が含まれておらず、
[[Unicode]] が広く利用されています。他の標準化団体の仕様書等から
[[ISO/IEC 10646]] と [[Unicode]] のどちらを引用するべきかという議論も
00年代初期までは盛んに行われていましたが、 [[Unicode]] の方が積極的に
[[Web]] で情報を公開していることもあり、現在では [[Unicode]]
を参照するのが普通です。

[15] 国家機関などで[[公的標準]]を参照しなければならない制約があるなど特殊な状況を除き、
[[ISO/IEC 10646]] を使う意味はほとんどありません。

* 歴史

[16] 
,*規格番号	,*出版日	,*規格名	,*ほぼ相当する Unicode の版
,           ,1983-07   ,2オクテット規格の提案
,           ,1984-04   ,[[JTC1/SC2/WG2]] 組織 (JTC1 は当時 TC97)
,WD 10646   ,1987      ,1[SUP[st]] [ABBR[WD][Working Draft]] (A案/B案)
,           ,1987-03   ,符号化方式が決定 (A案)
,DP 10646   ,1989-01   ,1[SUP[st]] [ABBR[DP][Draft Proposal]]
,           ,1989-10   ,draft?
,           ,1989-12   ,2[SUP[nd]] DP
,           ,1990      ,[[CJK-JRG]]
,DIS 10646:1991,1990-12-06,1[SUP[st]] [ABBR[DIS][Draft International Standard]],Information technology: Universal Coded Character Set
,           ,1991-02   ,draft?
,           ,1991-04   ,1[SUP[st]] DIS 投票否決
,           ,1991      ,Unicode 化決定
,DIS 10646-1.2:1992,1992
,           ,1992-06,2[SUP[nd]] DIS 投票通過
,ISO/IEC 10646-1:1993	,1993-05	,Part 1: Architecture and Basic Multilingual Plane	,1.1
,ISO/IEC 10646-1:2000	,2000-09-15	,Part 1: Architecture and Basic Multilingual Plane	,3.0
,ISO/IEC 10646-2:2001	,2001-11-01	,Part 2: Supplementary Planes	,3.1
,ISO/IEC 10646-1:2000/Amd.1:2002	,2002-07-15	,AMENDMENT 1: Mathematical symbols and other characters	,3.2
,ISO/IEC 10646-1:2000/Amd.2	,	,	,4.0
,ISO/IEC 10646-2:2001/Amd.1	,	,	,4.0
,ISO/IEC 10646:2003,2003,[CITE@en[Information technology —— Universal Multiple‐Octet Coded Character Set (UCS)]]
,ISO/IEC 10646:2003/Amd.1,2005-11-22,"[CITE@en[AMENDMENT 1: Glagolitic, Coptic, Georgian and other characters]]"

[3]
10646 の第一部と第二部を併合するのは Unicode との同期が面倒だかららしいぞ...
([[名無しさん]] [sage] [WEAK[2004-04-07 02:56:20 +00:00]])

[19] [DFN[[[JIS X 0221-1995]]]] [CITE[国際符号化文字集合 (UCS) ――第1部 構造及び基本多言語面]]は、
1995年/平成7年1月1日制定、1月4日[[官報]]公示。

[21] [[ISO/IEC 10646-1:1993]] の[[対応国内規格]]でした。

[22] [[JIS]] 独自の次の[[附属書]]がありました。
[FIG(list)[
- 附属書1 (規定) 日本文字サブレパートリ
- 附属書2 (規定) 日本語データ情報交換用としての私用文字の使用
- 附属書3 (参考) JIS X 0201, JIS X 0208 及び JIS X 0212 表内文字との対応
]FIG]

[23] 附属書1では次の[[文字集合]]が定義されていました。
[FIG(list)[
- 基本日本文字集合
- 追加非漢字集合
- 追加漢字集合
- 補助漢字集合
- その他の漢字集合
- 互換用全角英数字集合
- 互換用半角仮名集合
]FIG]

[24] 基本日本文字集合には [CODE(charname)@en[[[COMBINING ENCLOSING CIRCLE]]]]
が (なぜか) 含まれていたようです。

[25] 基本日本文字集合と追加非漢字集合にはなぜかどちらにも
[CODE(charname)@en[[[TILDE]]]],
[CODE(charname)@en[[[HYPHEN]]]],
[CODE(charname)@en[[[OVERLINE]]]],
[CODE(charname)@en[[[IDEOGRAPHIC SPACE]]]]
が重複して含まれていたようです。

[20] 2000年/平成12年6月20日[[確認]]、2001年/平成13年4月20日[[廃止]]。

[26] [DFN[[[JIS X 0221-1:2001]]]] [CITE[国際符号化文字集合 (UCS) ――第1部 構造及び基本多言語面]]は、
2001年/平成13年4月20日のものです。

[27] [[ISO/IEC 10646-1:2000]] の[[対応国内規格]]でした。

[28] 旧 [[JIS]] の附属書は[[規定]]から[[参考]]に変わって存続しています。
おおまかな構成は変わっていないようですが、細かい内容は修正されているようです。

[29] [[mohta]] 氏が [[IETF]] を通じて[TIME[1995年][year:1995]]に出版した
[DFN[[[RFC 1815]]]] は、2つの [[ISO/IEC 10646]] の[[プロファイル]]を定義し、
[[IANA charset]] として登録しました。
[FIG(short list)[
- [DFN[[CODE(charset)@en[ISO-10646]]]]
- [DFN[[CODE(charset)@en[ISO-10646-J-1]]]]
]FIG]

[30] [CODE(charset)@en[ISO-10646]] は、 [[ISO/IEC 8859-1]] 相当の[[部分集合]]でした。
[CODE(charset)@en[ISO-10646-J-1]] は、 [[JIS X 0208]] と[[半角文字]]、[[全角文字]]にほぼ相当する[[部分集合]]でした。
[[CJK統合漢字]]は「J」欄を用いるとしていました。
いずれも[RUBYB[[[非推奨]]]@en[discourage]]であり、 [[ISO-8859-1]] または
[[ISO-2022-JP]] を使うべきとされていました。

[REFS[
- [12] [CITE@en[RFC 1815 - Character Sets ISO-10646 and ISO-10646-J-1]] ([TIME[2016-05-15 17:30:23 +09:00]]) <https://tools.ietf.org/html/rfc1815>
]REFS]