# 36 unicode与字符编码
至此Go语言中最重要也最有特色的概念，语法和编程方式，我们已经都全部学习完了。
先进行一个简单的总结：

## Go语言经典知识总结：
基于混合线程的并发编程模型自然不必多说。

在**数据类型**方面有：

- 基于底层数组的切片；
- 用来传递数据的通道；
- 作为一等类型的函数；
- 可实现面向对象的结构体；
- 能无侵入实现的接口等。

在**语法**方面有：

- 异步编程神器go语句；
- 函数的最后关卡defer语句；
- 可做类型判断的switch语句；
- 多通道操作利器select语句；
- 非常有特色的异常处理函数panic和recover。

除了这些，我们还一起讨论了**测试Go程序**的主要方式。这涉及了Go语言自带的程序测试套件，相关的概念和工具包括：

- 独立的测试源码文件；
- 三种功用不同的测试函数；
- 专用的testing代码包；
- 功能强大的go test命令。

另外，就在前不久，我还为你深入讲解了Go语言提供的那些**同步工具**。它们也是Go语言并发编程工具箱中不可或缺的一部分。这包括了：

- 经典的互斥锁Mutex；
- 读写锁RWMutex；
- 条件变量；
- 原子操作atomic。

以及**Go语言特有的一些数据类型**，即：

- 单次执行小助手sync.Once；
- 临时对象池sync.Pool；
- 帮助我们实现多goroutine协作流程的sync.WaitGroup、context.Context；
- 一种高效的并发安全字典sync.Map。

毫不夸张地说，如果你真正地掌握了上述这些知识，那么就已经获得了Go语言编程的精髓。

在这之后，你再去研读Go语言标准库和那些优秀第三方库中的代码的时候，就一定会事半功倍。同时，在使用Go语言编写软件的时候，你肯定也会如鱼得水、游刃有余的。

我用了大量的篇幅讲解了Go语言中最核心的知识点，真心希望你已经搞懂了这些内容。

**在后面的日子里，我会与你一起去探究Go语言标准库中最常用的那些代码包，弄清它们的用法、了解它们的机理。当然了，我还会顺便讲一讲那些必备的周边知识。**

## 前导内容1：Go语言字符编码基础

首先，让我们来关注字符编码方面的问题。这应该是在计算机软件领域中非常基础的一个问题了。

我在前面说过，Go语言中的标识符可以包含“任何`Unicode`编码可以表示的字母字符”。我还说过，虽然我们可以直接把一个整数值转换为一个`string`类型的值。

但是，被转换的整数值应该可以代表一个有效的`Unicode`代码点，否则转换的结果就将会是"`�`"，即：一个仅由高亮的问号组成的字符串值。

另外，当一个`string`类型的值被转换为`[]rune`类型值的时候，其中的字符串会被拆分成一个一个的`Unicode`字符。

显然，Go语言采用的字符编码方案从属于`Unicode`编码规范。更确切地说，Go语言的代码正是由`Unicode`字符组成的。Go语言的所有源代码，都必须按照`Unicode`编码规范中的UTF-8编码格式进行编码。

换句话说，Go语言的源码文件必须使用UTF-8编码格式进行存储。如果源码文件中出现了`非UTF-8编码`的字符，那么在构建、安装以及运行的时候，go命令就会报告错误“illegal UTF-8 encoding”。

在这里，我们首先要对Unicode编码规范有所了解。不过，在讲述它之前，我先来简要地介绍一下ASCII编码。

## 前导内容2：ASCLL编码

ASCII是英文“American Standard Code for Information Interchange”的缩写，中文译为美国信息交换标准代码。它是由美国国家标准学会（ANSI）制定的单字节字符编码方案，可用于基于文本的数据交换。

它最初是美国的国家标准，后又被国际标准化组织（ISO）定为国际标准，称为ISO 646标准，并适用于所有的拉丁文字字母。

**ASCII编码方案使用单个字节（byte）的二进制数来编码一个字符。标准的ASCII编码用一个字节的最高比特（bit）位作为奇偶校验位，而扩展的ASCII编码则将此位也用于表示字符。ASCII编码支持的可打印字符和控制字符的集合也被叫做ASCII编码集。**

我们所说的Unicode编码规范，实际上是另一个更加通用的、针对书面字符和文本的字符编码标准。它为世界上现存的所有自然语言中的每一个字符，都设定了一个唯一的二进制编码。

它定义了不同自然语言的文本数据在国际间交换的统一方式，并为全球化软件创建了一个重要的基础。

Unicode编码规范以ASCII编码集为出发点，并突破了ASCII只能对拉丁字母进行编码的限制。它不但提供了可以对世界上超过百万的字符进行编码的能力，还支持所有已知的转义序列和控制代码。

我们都知道，在计算机系统的内部，抽象的字符会被编码为整数。这些整数的范围被称为**代码空间**。在代码空间之内，每一个特定的整数都被称为一个代码点。**注意在go语言中用的是utf-8，所以理论上每个字符都有其可以对应的整数 比如20013--‘中’。**

**一个受支持的抽象字符会被映射并分配给某个特定的代码点，反过来讲，一个代码点总是可以被看成一个被编码的字符。**

`Unicode`编码规范通常使用十六进制表示法来表示`Unicode`代码点的整数值，并使用“U+”作为前缀。比如，英文字母字符“a”的Unicode代码点是`U+0061`。在`Unicode`编码规范中，一个字符能且只能由与它对应的那个代码点表示。

Unicode编码规范现在的最新版本是11.0，并会于2019年3月发布12.0版本。而Go语言从1.10版本开始，已经对Unicode的10.0版本提供了全面的支持。对于绝大多数的应用场景来说，这已经完全够用了。

Unicode编码规范提供了三种不同的编码格式，即：`UTF-8、UTF-16和UTF-32`。其中的UTF是UCS Transformation Format的缩写。而UCS又是Universal Character Set的缩写，但也可以代表Unicode Character Set。所以，UTF也可以被翻译为Unicode转换格式。它代表的是**字符与字节序列之间**的转换方式。

在这几种编码格式的名称中，“-”右边的整数的含义是，**以多少个比特位作为一个编码单元**。以UTF-8为例，它会以8个比特，也就是一个字节，作为一个编码单元。并且，它与标准的`ASCII`编码是完全兼容的。也就是说，在[0x00, 0x7F]的范围内，这两种编码表示的字符都是相同的。这也是UTF-8编码格式的一个巨大优势。

UTF-8是一种**可变宽**的编码方案。换句话说，它会用一个或多个字节的二进制数来表示某个字符，最多使用四个字节。比如，对于一个英文字符，它仅用一个字节的二进制数就可以表示，而对于一个中文字符，它需要使用三个字节才能够表示。不论怎样，一个受支持的字符总是可以由UTF-8编码为一个字节序列。以下会简称后者为UTF-8编码值。
解释：20013-[0xE4,0xB8,0xAD]

现在，在你初步地了解了这些知识之后，请认真地思考并回答下面的问题。别担心，我会在后面进一步阐述Unicode、UTF-8以及Go语言对它们的运用。

问题：一个string类型的值在底层是怎样被表达的？

典型回答 是在底层，一个string类型的值是由一系列相对应的Unicode代码点的UTF-8编码值来表达的。