Unicode 中每种语言所占字符的编码的范围

Unicode 中每种语言中字符的详细信息

www.unicode.org/charts/

Unicode 工具集

www.unicode.org/cldr/utility/

现在感觉基本上都用不着，适合搞语言的人，不过第一个工具 Character 有时可以用用, 它可以查到指定的字符的所有的各类信息

CJK 字符集中的一些表意文字

www.unicode.org/Public/UCD/latest/ucd/USourceGlyphs.pdf

里面有很多很有趣的中文

Emoji

官方文档

East Asian Width 东亚字体的宽度

东亚字体有些宽度是 narrow，有此宽度又是 wide，而有些字体的宽度即可以是 narrow 和 wide

这些即可以是 narrow 又可以是 wide 的字体又被称为是 东亚模糊字体 或 Ambiguous Width Characters

The Unicode character property East_Asian_Width provides a default classification of characters, which an implementation can use to decide at runtime whether to treat a character as narrow or wide.

官方文档

Combining Marks

这类字符可以理解为修饰字符，它自己不占宽度，只会和它前面的字符组合而得到一个组合的字符

e.g: q\u0307\u0323 => q̣̇

使用 Unicode normalization(ES6 中的 String.prototype.normalize) 可以将这种组合的字符合并成一个真正意义的字符，比如 n\u0303 会被合并成一个 \u00F1 。

但时，有些字符组合可能并没有可替代的单个字符，所以使用了 normalize 也没有用，比如 q\u0307\u0323 就无法被 normalize 。如果只是要计算字符串的实际长度，我们可以把这些字符去掉再来计算，可以参考这里。

Unicode 规范中的定义

编码相关的知识

Unicode 字符集
UTF-16 的规范
UTF-8 的规范
阮一峰的关于 ASCII、UNICODE、UTF-8 笔记

Unicode 和 UTF-8 之间的转换

0000 0000 - 0000 007F 的字符(0-127)，        用单个字节表示，二进制模板：0xxxxxxx
0000 0080 - 0000 07FF 的字符(128-32767)，    用两个字节表示，二进制模板：110xxxxx 10xxxxxx
0000 0800 - 0000 FFFF 的字符(32768-65535)，  用三个字节表示，二进制模板：1110xxxx 10xxxxxx 10xxxxxx
0001 0000 - 0010 FFFF 的字符(65536-1114111)，用四个字节表示，二进制模板：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx


“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx
将6C49写成二进制是：0110 110001 001001（注意不够的话，在前面要补 0)
用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即 E6 B1 89

escape('汉')    => "%u6C49"     Unicode
encodeURI('汉') => "%E6%B1%89"  UTF-8

Surrogate pairs 和 Code points 之间的转换 \uD83D\uDCA9 <=> \u{1F4A9}
JS 中处理编码相关的库 punycode，nodejs 0.6.2+ 已将它编译进了它的内部模块中
PHP 采用的是 ISO-8859-1 编码，
CP936 和 Unicode 对应关系的数据，看父级目录还有很多其它类的 CP 编码

引用

Mathiasbynens 的文章 Javascript Unicode
HTML5
HTML Working Group
XML
Unicode
Unicode 规范
Unicode 技术报道
Unicode 相关的术语表

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

UNICODE.md

UNICODE.md

Unicode 中每种语言所占字符的编码的范围

Unicode 中每种语言中字符的详细信息

Unicode 工具集

CJK 字符集中的一些表意文字

Emoji

East Asian Width 东亚字体的宽度

Combining Marks

编码相关的知识

引用

Files

UNICODE.md

Latest commit

History

UNICODE.md

File metadata and controls

Unicode 中每种语言所占字符的编码的范围

Unicode 中每种语言中字符的详细信息

Unicode 工具集

CJK 字符集中的一些表意文字

Emoji

East Asian Width 东亚字体的宽度

Combining Marks

编码相关的知识

引用