# 1. 词典
我们要介绍一个新的类，**词典 (dictionary)**。与列表相似，词典也可以**储存多个元素**。这种储存多个元素的对象称为**容器(container)**。

## 基本概念
常见的创建词典的方法:

In [60]:
dic = {'tom':11, 'sam':57,'lily':100}

print(type(dic))

<class 'dict'>


词典和表类似的地方，是包含有多个元素，每个元素以逗号分隔。但词典的元素包含有两部分，**键**和**值**，常见的是以字符串来表示键，也可以使用数字或者真值来表示键（不可变的对象可以作为键）。值可以是任意对象。键和值两者一一对应。

 

比如上面的例子中，‘tom’对应11，'sam对应57，'lily'对应100

 

与表不同的是，词典的元素**没有顺序**。你**不能通过下标引用元素**。词典是**通过键来引用**。

In [61]:
print (dic['tom'])

11


In [62]:
dic['tom'] = 30
print (dic)

{'tom': 30, 'sam': 57, 'lily': 100}


构建一个新的空的词典：

In [63]:
dic = {}
print(dic)

{}


在词典中增添一个新元素的方法：

In [64]:
dic['lilei'] = 99
print(dic)

{'lilei': 99}


## 词典元素的循环调用

In [96]:
dic = {'lilei': 90, 'lily': 100, 'sam': 57, 'tom': 90}
for key in dic:
    print (key, dic[key])

lilei 90
lily 100
sam 57
tom 90


在循环中，dict的每个键，被提取出来，赋予给key变量。
通过print的结果，我们可以再次确认，dic中的元素是没有顺序的。

In [99]:
# 另一种循环方式
for key, val in dic.items():
    print (key, val)

lilei 90
lily 100
sam 57
tom 90


## 词典的常用方法

In [101]:
print (dic.keys())           # 返回dic所有的键
print (dic.values())         # 返回dic所有的值
print (dic.items())          # 返回dic所有的元素（键值对）
dic.clear()                  # 清空dic，dict变为{}
print(dic)

dict_keys([])
dict_values([])
dict_items([])
{}


另外有一个很常用的用法：

In [67]:
dic = {'tom': 100}
print(dic)

del dic['tom']             # 删除 dic 的‘tom’元素
print(dic)

{'tom': 100}
{}


`del`是Python中保留的关键字，用于删除对象。

与表类似，你可以用len()查询词典中的元素总数。

In [68]:
d1 = {'tom': 1, 'ali': 2}
print(len(d1))

2


# 2. 序列的方法
在Python基础中，我们了解了最基本的序列(sequence)。回忆一下，序列包含有定值表(tuple)和表(list)。此外，字符串(string)是一种特殊的定值表。表的元素可以更改，定值表一旦建立，其元素不可更改。

任何的序列都可以引用其中的元素(item)。

下面的**内建函数**(built-in function)可用于序列(表，定值表，字符串):

s为一个序列
```
len(s)         返回： 序列中包含元素的个数

min(s)         返回： 序列中最小的元素

max(s)         返回： 序列中最大的元素

sum(s)         返回： 序列中所有元素的和

all(s)         返回： True, 如果所有元素都为True的话

any(s)         返回： True, 如果任一元素为True的话
```

In [69]:
s = [12, 1, 3, 4, 5, 6, 1]
print(len(s))
print(min(s))
print(max(s))
print(sum(s))
print(all(s))
print(any(s))

7
1
12
32
True
True



x为元素值，i为下标(元素在序列中的位置)
```
s.count(x)     返回： x在s中出现的次数

s.index(x)     返回： x在s中第一次出现的下标
```

In [70]:
print(s.count(1))
print(s.index(1), s.index(12))

2
1 0


由于定值表的元素不可变更，下面方法只适用于表:

l为一个表, l2为另一个表
```
l.extend(l2)        在表l的末尾添加表l2的所有元素

l.append(x)         在l的末尾附加x元素

l.sort()            对l中的元素排序

l.reverse()         将l中的元素逆序

l.pop()             返回：表l的最后一个元素，并在表l中删除该元素

del l[i]            删除该元素
```
(以上这些方法都是在原来的表的上进行操作，会对原来的表产生影响，而不是返回一个新表。)

In [71]:
l1 = [1, 2]
l2 = [3, 4]
l1.extend(l2)
print(l1)

[1, 2, 3, 4]


In [72]:
l1 = [1, 2]
l2 = [3, 4]
l = l1 + l2
print(l)

[1, 2, 3, 4]


In [73]:
l = [1, 2,3,4]
l.append(10)
print(l)

[1, 2, 3, 4, 10]


In [74]:
l = [2,1,3,4]
l.sort()
print(l)

[1, 2, 3, 4]


In [75]:
l = [2,1,3,4]
l.sort(reverse=True)
print(l)

[4, 3, 2, 1]


In [76]:
l = [2,1,3,4]
last_item = l.pop()
print(last_item)
print(l)

4
[2, 1, 3]


下面是一些用于字符串的方法。尽管字符串是定值表的特殊的一种，但字符串(string)类有一些方法是改变字符串的。这些方法的本质不是对原有字符串进行操作，而是删除原有字符串，再建立一个新的字符串，所以并不与定值表的特点相矛盾。

str为一个字符串，sub为str的一个子字符串。s为一个序列，它的元素都是字符串。width为一个整数，用于说明新生成字符串的宽度。
```
str.count(sub)       返回：sub在str中出现的次数

str.find(sub)        返回：从左开始，查找sub在str中第一次出现的位置。如果str中不包含sub，返回 -1

str.index(sub)       返回：从左开始，查找sub在str中第一次出现的位置。如果str中不包含sub，举出错误

str.rfind(sub)       返回：从右开始，查找sub在str中第一次出现的位置。如果str中不包含sub，返回 -1

str.rindex(sub)      返回：从右开始，查找sub在str中第一次出现的位置。如果str中不包含sub，举出错误

 

str.isalnum()        返回：True， 如果所有的字符都是字母或数字

str.isalpha()        返回：True，如果所有的字符都是字母

str.isdigit()        返回：True，如果所有的字符都是数字

str.istitle()        返回：True，如果所有的词的首字母都是大写

str.isspace()        返回：True，如果所有的字符都是空格

str.islower()        返回：True，如果所有的字符都是小写字母

str.isupper()        返回：True，如果所有的字符都是大写字母

 

str.split([sep, [max]])    返回：从左开始，以空格为分割符(separator)，将str分割为多个子字符串，总共分割max次。将所得的子字符串放在一个表中返回。可以str.split(',')的方式使用逗号或者其它分割符

str.rsplit([sep, [max]])   返回：从右开始，以空格为分割符(separator)，将str分割为多个子字符串，总共分割max次。将所得的子字符串放在一个表中返回。可以str.rsplit(',')的方式使用逗号或者其它分割符

 

str.join(s)                返回：将s中的元素，以str为分割符，合并成为一个字符串。

str.strip([sub])           返回：去掉字符串开头和结尾的空格。也可以提供参数sub，去掉位于字符串开头和结尾的sub  

str.replace(sub, new_sub)  返回：用一个新的字符串new_sub替换str中的sub

         

str.capitalize()           返回：将str第一个字母大写

str.lower()                返回：将str全部字母改为小写

str.upper()                返回：将str全部字母改为大写

str.swapcase()             返回：将str大写字母改为小写，小写改为大写

str.title()                返回：将str的每个词(以空格分隔)的首字母大写
```

In [77]:
s = 'we are taking a class'
s.count('are')

1

In [78]:
s.upper()

'WE ARE TAKING A CLASS'

In [79]:
s.title()

'We Are Taking A Class'

In [80]:
s.split('are')

['we ', ' taking a class']

In [81]:
s.replace('class', 'CLASS :)')

'we are taking a CLASS :)'

# 3. 列表推导（List Comprehension）
表推导(list comprehension)是快速生成表的方法。它的语法简单，很有实用价值。

假设我们生成表L：

In [82]:
L = []
for x in range(10):
    L.append(x**2)
print(L)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


以上产生了表L，但实际上有快捷的写法，也就是表推导的方式:

In [83]:
L = [x**2 for x in range(10)]
print(L)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


这与生成器表达式类似，只不过用的是中括号。

（表推导的机制实际上是利用循环对象，有兴趣可以查阅。）

### 练习 下面的表推导会生成什么？

In [102]:
xl = [1,3,5]
yl = [9,12,13]
L  = [ x**2 for (x,y) in zip(xl,yl) if y > 10]

# 4. 文本文件的输入输出
Python具有基本的文本文件读写功能。Python的标准库提供有更丰富的读写功能。

文本文件的读写主要通过`open()`所构建的文件对象来实现。

## 创建文件对象

我们打开一个文件，并使用一个对象来表示该文件：
```
f = open(文件名，模式)
```
 

最常用的模式有：
```
"r"     # 只读

“w”     # 写入
```
 

比如
```
f = open("test.txt","r")
```

## 文件对象的方法

读取：
```
content = f.read(N)          # 读取N bytes的数据

content = f.readline()       # 读取一行

content = f.readlines()      # 读取所有行，储存在列表中，每个元素是一行。
```

写入：
```
f.write('I like apple')      # 将'I like apple'写入文件
```
 

关闭文件：
```
f.close()
```

In [85]:
f = open('my.txt', 'w')
f.write('tom, 12, 86\n')
f.write('Lee, 15, 99\n')
f.write('Joseph, 19, 56\n')
f.close()

In [86]:
f = open('my.txt', 'r')
print(f.readline())
f.close()

tom, 12, 86



In [87]:
f = open('my.txt', 'r')
print(f.readlines())
f.close()

['tom, 12, 86\n', 'Lee, 15, 99\n', 'Joseph, 19, 56\n']


# 正则表达式
正则表达式(regular expression)主要功能是从字符串(string)中通过**特定的模式(pattern)**，搜索想要找到的内容。

比如，我们需要从这样的字符串中提取日期，或者电话号码：
```
  > output_1981.10.21.txt

  > 我在开会，有事请回复15680027121！
```

在Python中使用正则表达式需要标准库中的一个包`re`。

```
re.search(pattern, string)  # 搜索整个字符串，直到发现符合的子字符串。

re.match(pattern, string)   # 从头开始检查字符串是否符合正则表达式。必须从字符串的第一个字符开始就相符。

re.sub(pattern, replacement, string) # 在string中利用正则变换pattern进行搜索，对于搜索到的字符串，用另一字符串replacement替换。返回替换后的字符串。

re.split()    # 根据正则表达式分割字符串， 将分割后的所有子字符串放在一个表(list)中返回

re.findall()  # 根据正则表达式搜索字符串，将所有符合的子字符串放在一给表(list)中返回
```

In [88]:
'fasf;5344325346daslj'.split('534')

['fasf;', '432', '6daslj']

In [89]:
import re
print(re.findall('\d+', 'fasf;534daslj'))
print(re.findall('\d+', 'fasf;5344325346daslj'))

['534']
['5344325346']


In [90]:
import re
m = re.search('[0-9]','abcd4ef')
print(m.group(0))

4


正则表达式的常用语法：

1）单个字符:
```
.          任意的一个字符

a|b        字符a或字符b

[afg]      a或者f或者g的一个字符        

[0-4]      0-4范围内的一个字符

[a-f]      a-f范围内的一个字符

[^m]       不是m的一个字符

\s         一个空格

\S         一个非空格

\d         [0-9]

\D         [^0-9]

\w         [0-9a-zA-Z]

\W         [^0-9a-zA-Z]
```
 

2）重复

紧跟在单个字符之后，表示多个这样类似的字符
```
*         重复 >=0 次

+         重复 >=1 次

?         重复 0或者1 次

{m}       重复m次。比如说 a{4}相当于aaaa，再比如说[1-3]{2}相当于[1-3][1-3]

{m, n}    重复m到n次。比如说a{2, 5}表示a重复2到5次。小于m次的重复，或者大于n次的重复都不符合条件。
```
 

正则表达          相符的字符串举例
```
[0-9]{3,5}       9678

a?b              b

a+b              aaaaab
```
 

3) 位置

```
^         字符串的起始位置

$         字符串的结尾位置
```
 
```
正则表达          相符的字符串举例        不相符字符串

^ab.*c$          abeec               cabeec (如果用re.search(), 将无法找到。)
```

4）返回控制

我们有可能对搜索的结果进行进一步精简信息。比如下面一个正则表达式：
```
output_(\d{4})
```
该正则表达式用括号()包围了一个小的正则表达式，`\d{4}`。 这个小的正则表达式被用于从结果中筛选想要的信息（在这里是四位数字）。这样被括号圈起来的正则表达式的一部分，称为群(`group`)。
我们可以`m.group(number)`的方法来查询群。`group(0)`是整个正则表达的搜索结果，`group(1)`是第一个群……

In [91]:
import re
m = re.search("output_(\d{4})", "output_1986.txt")

print(m.group(0), m.group(1))

output_1986 1986


In [92]:
re.findall("\d{4}", "output_1986.txt")

['1986']

In [93]:
re.split("\d{4}", "output_1986.txt")

['output_', '.txt']

In [94]:
re.sub("\d{4}", "2021", "output_1986.txt")

'output_2021.txt'

In [95]:
s = '我在开会，有事请回复15680027121,或者33163316！'
pattern = '\d{11}'

re.findall(pattern, s)

['15680027121']