# python语言与计算机科学引论
******
2017/10/21 第二次课

### 字符串与编码
我们已经讲过了，字符串也是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。

因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是```65535```，4个字节可以表示的最大整数是```4294967295```。

由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为**ASCII**编码，比如大写字母```A```的编码是```65```，小写字母```z```的编码是```122```。

但是要处理中文显然一个字节是不够的，至少需要两个字节，而且还不能和```ASCII```编码冲突，所以，中国制定了```GB2312```编码，用来把中文编进去。

你可以想得到的是，全世界有上百种语言，日本把日文编到```Shift_JIS```里，韩国把韩文编到```Euc-kr```里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

In [3]:
{i: chr(i) for i in range(255)}

{0: '\x00',
 1: '\x01',
 2: '\x02',
 3: '\x03',
 4: '\x04',
 5: '\x05',
 6: '\x06',
 7: '\x07',
 8: '\x08',
 9: '\t',
 10: '\n',
 11: '\x0b',
 12: '\x0c',
 13: '\r',
 14: '\x0e',
 15: '\x0f',
 16: '\x10',
 17: '\x11',
 18: '\x12',
 19: '\x13',
 20: '\x14',
 21: '\x15',
 22: '\x16',
 23: '\x17',
 24: '\x18',
 25: '\x19',
 26: '\x1a',
 27: '\x1b',
 28: '\x1c',
 29: '\x1d',
 30: '\x1e',
 31: '\x1f',
 32: ' ',
 33: '!',
 34: '"',
 35: '#',
 36: '$',
 37: '%',
 38: '&',
 39: "'",
 40: '(',
 41: ')',
 42: '*',
 43: '+',
 44: ',',
 45: '-',
 46: '.',
 47: '/',
 48: '0',
 49: '1',
 50: '2',
 51: '3',
 52: '4',
 53: '5',
 54: '6',
 55: '7',
 56: '8',
 57: '9',
 58: ':',
 59: ';',
 60: '<',
 61: '=',
 62: '>',
 63: '?',
 64: '@',
 65: 'A',
 66: 'B',
 67: 'C',
 68: 'D',
 69: 'E',
 70: 'F',
 71: 'G',
 72: 'H',
 73: 'I',
 74: 'J',
 75: 'K',
 76: 'L',
 77: 'M',
 78: 'N',
 79: 'O',
 80: 'P',
 81: 'Q',
 82: 'R',
 83: 'S',
 84: 'T',
 85: 'U',
 86: 'V',
 87: 'W',
 88: 'X',
 89: 'Y',
 90: 'Z',
 91: '[',


因此，**Unicode**应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。

Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

现在，捋一捋ASCII编码和Unicode编码的区别：**ASCII编码是1个字节**，**而Unicode编码通常是2个字节**。

字母A用ASCII编码是十进制的65，二进制的01000001；

字符0用ASCII编码是十进制的48，二进制的00110000，注意字符'0'和整数0是不同的；

汉字中已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 00101101。

你可以猜测，如果把ASCII编码的A用Unicode编码，只需要在前面补0就可以，因此，A的Unicode编码是00000000 01000001。

新的问题又出现了：如果统一成Unicode编码，乱码问题从此消失了。但是，**如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间**，在存储和传输上就十分不划算。

所以，本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

| 字符   | ASCII    | Unicode           | UTF-8                      |
| :---- | :-------- | :----------------- | :------------------------- |
| A    | 01000001 | 00000000 01000001 | 01000001                   |
| 中    | x        | 01001110 00101101 | 11100100 10111000 10101101 |

从上面的表格还可以发现，UTF-8编码有一个额外的好处，就是**ASCII编码实际上可以被看成是UTF-8编码的一部分**，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

搞清楚了ASCII、Unicode和UTF-8的关系，我们就可以总结一下现在计算机系统通用的字符编码工作方式：

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

**用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件**：

![](https://www.liaoxuefeng.com/files/attachments/001387245992536e2ba28125cf04f5c8985dbc94a02245e000/0)

**浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器**]：

![](https://www.liaoxuefeng.com/files/attachments/001387245979827634fd6204f9346a1ae6358d9ed051666000/0)

所以你看到很多网页的源码上会有类似```<meta charset="UTF-8" />```的信息，表示该网页正是用的UTF-8编码。

In [13]:
print(ord('黒'), ord('黑'), ord('気'), ord('气'))
{i: chr(i) for i in range(27660, 28000)}

40658 40657 27671 27668


{27660: '氌',
 27661: '氍',
 27662: '氎',
 27663: '氏',
 27664: '氐',
 27665: '民',
 27666: '氒',
 27667: '氓',
 27668: '气',
 27669: '氕',
 27670: '氖',
 27671: '気',
 27672: '氘',
 27673: '氙',
 27674: '氚',
 27675: '氛',
 27676: '氜',
 27677: '氝',
 27678: '氞',
 27679: '氟',
 27680: '氠',
 27681: '氡',
 27682: '氢',
 27683: '氣',
 27684: '氤',
 27685: '氥',
 27686: '氦',
 27687: '氧',
 27688: '氨',
 27689: '氩',
 27690: '氪',
 27691: '氫',
 27692: '氬',
 27693: '氭',
 27694: '氮',
 27695: '氯',
 27696: '氰',
 27697: '氱',
 27698: '氲',
 27699: '氳',
 27700: '水',
 27701: '氵',
 27702: '氶',
 27703: '氷',
 27704: '永',
 27705: '氹',
 27706: '氺',
 27707: '氻',
 27708: '氼',
 27709: '氽',
 27710: '氾',
 27711: '氿',
 27712: '汀',
 27713: '汁',
 27714: '求',
 27715: '汃',
 27716: '汄',
 27717: '汅',
 27718: '汆',
 27719: '汇',
 27720: '汈',
 27721: '汉',
 27722: '汊',
 27723: '汋',
 27724: '汌',
 27725: '汍',
 27726: '汎',
 27727: '汏',
 27728: '汐',
 27729: '汑',
 27730: '汒',
 27731: '汓',
 27732: '汔',
 27733: '汕',
 27734: '汖',
 27735: '汗',
 27736: '汘',

### Python的字符串

搞清楚了令人头疼的字符编码问题后，我们再来研究Python的字符串。

在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言，例如：

In [1]:
print('Hello world!')

Hello world!


In [2]:
print('你好，世界！')

你好，世界！


In [4]:
print('こんにちは、世界！')

こんにちは、世界！


对于单个字符的编码，Python提供了```ord()```函数获取字符的整数表示，```chr()```函数把编码转换为对应的字符：

In [5]:
ord('A')

65

In [8]:
ord('甲')

30002

In [10]:
chr(66)

'B'

In [14]:
chr(20057)

'乙'

```hex()``` 可以把十进制整数转换为十六进制，以字符串输出：

In [18]:
hex(30002)

'0x7532'

一个十六进制数可以容纳4 bit信息，即半个字节的容量。前面说到过Unicode编码下，一个字符占2字节也就是16 bit。所以**每四个十六进制数可以对应一个Unicode字符**：

In [12]:
'\u0041'

'A'

两种写法完全是等价的。

由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。

**Python对bytes类型的数据用带b前缀的单引号或双引号表示**：

In [23]:
x = b'ABC'
type(x)

bytes

要注意区分'ABC'和b'ABC'，前者是```str```，后者虽然内容显示得和前者一样，但```bytes```的每个字符都只占用一个字节。

以```Unicode```表示的```str```通过**```encode()```方法**可以编码为指定的```bytes```，例如：

In [11]:
'LZU'.encode('ascii')

b'LZU'

In [10]:
b'\x41\x42\x43'

b'ABC'

In [38]:
'兰州大学'.encode('utf-8')

b'\xe5\x85\xb0\xe5\xb7\x9e\xe5\xa4\xa7\xe5\xad\xa6'

In [39]:
 '兰州大学'.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

纯英文的str可以用ASCII编码为bytes，内容是一样的，含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码，因为中文编码的范围超过了ASCII编码的范围，Python会报错。

**在bytes中，无法显示为ASCII字符的字节，用\x##显示**。

反过来，如果我们从网络或磁盘上读取了字节流，那么读到的数据就是bytes。要把bytes变为str，就需要用**```decode()```方法**：

In [40]:
b'LZU'.decode('ascii')

'LZU'

In [41]:
b'\xe5\x85\xb0\xe5\xb7\x9e\xe5\xa4\xa7\xe5\xad\xa6'.decode('utf-8')

'兰州大学'

要计算```str```包含多少个**字符**，可以用```len()```函数：

In [31]:
len('LZU')

3

In [32]:
len('兰州大学')

4

```len()```函数计算的是```str```的**字符数**，如果换成```bytes```，```len()```函数就计算**字节数**：

In [44]:
len(b'LZU') # LZU

3

In [43]:
len(b'\xe5\x85\xb0\xe5\xb7\x9e\xe5\xa4\xa7\xe5\xad\xa6') # 兰州大学

12

可见，1个中文字符经过UTF-8编码后通常会占用3个字节，而1个英文字符只占用1个字节。

在操作字符串时，我们经常遇到str和bytes的互相转换。为了避免乱码问题，应当始终坚持使用UTF-8编码对str和bytes进行转换。

由于Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头写上这两行：

``` python
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
```

第一行注释是为了告诉Linux/OS X系统，这是一个Python可执行程序，Windows系统会忽略这个注释；

第二行注释是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

申明了UTF-8编码并不意味着你的.py文件就是UTF-8编码的，必须并且要确保文本编辑器正在使用UTF-8 without BOM编码。

不过对于用IDE的我们，就不用担心了。

![](QQ截图20171020164831.jpg)

### 格式化

最后一个常见的问题是如何输出**格式化的字符串**。我们经常会输出类似'亲爱的xxx你好！你xx月的话费是xx，余额是xx'之类的字符串，而xxx的内容都是根据变量变化的，所以，需要一种简便的格式化字符串的方式。
![](QQ截图20171020195443.jpg)

在服务器的后端，这个对话看起来是这样的：

In [2]:
print('亲爱的%s您好，您订阅的%s服务现已生效，回%s退订。' % ('朱政同', '萃英在线短信通知', '复td即可'))

亲爱的朱政同您好，您订阅的萃英在线短信通知服务现已生效，回复td即可退订。


在Python中，采用的格式化方式和C语言是一致的，用```%```实现，举例如下：

In [3]:
'Hello, %s' % 'world'

'Hello, world'

In [11]:
'%s先輩のスコアは5.0です' % 3207    # 朱政同学长的GPA是5.0

'3207先輩のスコアは5.0です'

你可能猜到了，**%运算符就是用来格式化字符串的**。在字符串内部，%s表示用字符串替换，%d表示用整数替换，有几个%?占位符，后面就跟几个变量或者值，顺序要对应好。如果只有一个%?，括号可以省略。

常见的占位符有：

| 占位符 | 数据类型   |
| :----- | :------ |
| %d    | 整数     |
| %f    | 浮点数    |
| %s    | 字符串    |
| %x    | 十六进制整数 |

其中，格式化整数和浮点数还可以指定是否补0和整数与小数的位数：

In [9]:
'%2d-%03d' % (300, 1000)

'300-1000'

In [10]:
'%.4f' % 3.1415926

'3.1416'

如果你不太确定应该用什么，%s永远起作用，它会把任何数据类型转换为字符串：

In [8]:
'Age: %s. Gender: %s' % (25, True)

'Age: 25. Gender: True'

有些时候，字符串里面的%是一个普通字符怎么办？这个时候就需要转义，用%%来表示一个%：

In [1]:
'growth rate: %d %%' % 7

'growth rate: 7 %'

记住，**% 的转义不可以用 \\ !**

In [13]:
'growth rate: %d \%s' % (7, 8)

'growth rate: 7 \\8'

### list

Python内置的一种数据类型是列表：list。list是一种**有序的集合**，可以随时添加和删除其中的元素。

比如，学生会常委所有山东籍同学的名字，就可以用一个list表示：

In [18]:
members = ['于国宁', '朱政同', '郭文锐', '杨晓睿', '刘均舰']     # 此处排名不分先后
members

['于国宁', '朱政同', '郭文锐', '杨晓睿', '刘均舰']

![](QQ图片20171020212912.jpg)

变量members就是一个list。用len()函数可以获得list元素的个数：

In [28]:
type(members)

list

In [29]:
len(members)

5

用索引来访问list中每一个位置的元素，记得**索引是从0开始的**：

In [31]:
members[0]

'于国宁'

In [32]:
members[1]

'朱政同'

In [35]:
members[4]

'刘均舰'

当索引超出了范围时，Python会报一个```IndexError```错误，所以，要确保索引不要越界，记得最后一个元素的索引是```len(members) - 1```。

In [36]:
members[5]

IndexError: list index out of range

如果要取最后一个元素，除了计算索引位置外，还可以用-1做索引，直接获取最后一个元素：

In [38]:
members[-1]

'刘均舰'

以此类推，可以获取倒数第2个、倒数第3个：

In [39]:
members[-2]

'杨晓睿'

In [40]:
members[-3]

'郭文锐'

list是一个**可变的有序表**，所以，可以往list中**追加元素到末尾**：

In [44]:
members.append('周渊')
members

['于国宁', '朱政同', '郭文锐', '杨晓睿', '刘均舰', '周渊']

也可以把元素插入到指定的位置，比如索引号为1的位置：

In [19]:
members.insert(1, '李发荣')
members

['于国宁', '李发荣', '朱政同', '郭文锐', '杨晓睿', '刘均舰']

In [14]:
a = [1, 2, 3]
print(a.insert(1, 1))

None


In [15]:
data = ['zzt', 5.0]
data

['zzt', 5.0]

要删除末尾的元素，用pop()方法:

In [47]:
members.pop()

'周渊'

In [48]:
members

['于国宁', '李发荣', '朱政同', '郭文锐', '杨晓睿', '刘均舰']

In [20]:
members[1] = 'leave'
members

['于国宁', 'leave', '朱政同', '郭文锐', '杨晓睿', '刘均舰']

要删除指定位置i的元素，用pop(i):

In [51]:
members.pop(1)

'李发荣'

In [52]:
members

['于国宁', '朱政同', '郭文锐', '杨晓睿', '刘均舰']

分割一下
***
0

0

0

0

0

0

0

0

0

0

0

0

0

### tuple

In [13]:
a = (1, 2, 3)

In [22]:
type(a)

tuple

In [23]:
a[2]

3

In [24]:
a.append(4)

AttributeError: 'tuple' object has no attribute 'append'

In [25]:
a[1] = 1

TypeError: 'tuple' object does not support item assignment

In [33]:
b = members + a
b

['于国宁', 'leave', '朱政同', '郭文锐', '杨晓睿', '刘均舰', 1, 2, 3]

### dict
```{a: b, a1: b1...}```

In [1]:
dic = {'ygn': 10, 'zzt': 10, 'x': 0, 'normal': 5}

In [2]:
dic['x']

0

In [1]:
dic['normal']

NameError: name 'dic' is not defined

In [6]:
dic

{'normal': 8, 'x': 0, 'ygn': 10, 'zzt': 10}

In [11]:
list(dic.keys())

['ygn', 'zzt', 'x', 'normal']

In [12]:
list(dic.vbalues())

[10, 10, 0, 8]

In [16]:
it = list(dic.items())
it[0][0]

'ygn'

In [1]:
def is_odd(x):
    return x % 2 == 0

0

In [1]:
'''word_dict = {i: chr(i) for 
             i in range(65, 91)}
word_dict[32] = ' ' '''
def key_change(text, number):
    new = ''
    for i in text:
        if i != ' ':
            new += chr(65+(ord(i)+number-65)%26)
        else:
            new = new + i
    return new

In [None]:
(25+2) % 26

In [2]:
key_change('ABYZ', 3)

'DEBC'

In [3]:
key_change('HELLO WORLD', 5)

'MJQQT BTWQI'