# 前言：这是一门什么样的课程，又适合谁？

这不是一门深入介绍Python语言的课程，如果想要成为职业编程人员，我所了解的知识是无法帮到你的。但是如果你刚上大学不久，只了通过学校的课程了解了一门计算机语言，却对编程产生各种想法，想要通过掌握Python提高自己的研究和工作效率，那么我会努力帮你。我脑子里想的是怎么让你能快速上手，最好可以现学现卖，所以我会推荐你做最易于理解的操作，使用最普遍的工具，了解最重要的规范和习惯，但是对于其中原理不求甚解。

课程的第一部分会告诉你怎么搭建一个开发环境，我们会使用Jupyter，它能够神奇地将代码和文本合二为一。同时会教你写与Jupyter最搭配Markdown语法。这种编写展示方式有多强大？本文就是它们的组合。语言基础被我放到了第二部分，我们将从“Hello world”开始，把数据类型、流程控制、集合、对象、lambda语句通通尝试一遍。第三部分要对文件和数据下手，试试NumPy和Pandas这两个专业数据工具都能干什么。第四部分做做图，使用matplotlib，做实验展示结果时应该能用得着。最后一部分来体验一下机器学习，看看小小的模型能用来做什么。

# 第一部分：环境搭建

课上的所有内容都在Windows环境上进行。如果你有一台Linux系统，操作可能稍有不同。我们将使用Python 3，选择最新版就可以。它的很多细节与Python 2是不同的。如果你在网上找文章自学，比较老的文章中可能使用的是Python 2，这会导致这些老代码在你的环境无法执行。

## Jupyter神器

对于一个开发者而言想要用一个代码文件实现一个应用会有大麻烦。一个大工程一定会把不同的模块需要分门别类被存放在不同的文件和文件夹里。但是如果刚刚在大一学过C++或者VB课程，可能更加习惯于把一个项目的所有代码写到一个文件当中。用Python做轻量级的编程也可以选择把一个小项目写进一个文件。我们选择使用Jupyter，它是一个非常直观的开发工具。

如果只是为了完成教程，可以直接使用[在线实验室](https://jupyter.org/try-jupyter/lab/?path=notebooks%2FIntro.ipynb)。但是如果需要长期使用Python，我建议在本机安装。

1. 我们需要Anaconda，它是一个开发平台。可以到[官网](https://www.anaconda.com/download)下载。如果有多个Python版本，一般选择最新版本。
2. 安装Anaconda过程中需要选择加入Jupyter。
3. 安装结束后找到Jupyter Notebook，打开。尝试新建一个笔记文件，然后以代码模式写入下面这段，试试运行吧。


In [8]:
print('Hello world!')

Hello world!


这是一个代码块，是Jupyter Notebook文件上的一种文本块。我在后面的笔记里尽量保证每个代码块能够独立运行，但是Jupyter上的每个代码块之间不是相互无关的。执行过的部分中创建的变量、类、函数都会记忆在内存中，还是可以接着中的。

除了代码你还可以在文件中加入Markdown文本。什么是Markdown？这是一种简单且丰富的文本编辑格式，可以轻易操控标题、序号、加粗、斜体和链接。教程本身就使用了这种格式，你完全可以照猫画虎。如果觉得效果不错，想要更多的了解Markdown，可以看看[这里](http://markdown.p2hp.com/getting-started/)。

现在你已经拥有了第一个Python程序。先把它保存起来吧。

## 让GitHub把你的代码保存一辈子
上课写代码，一下课没保存就丢了，这不是好习惯。最好能把自己写的所有成果都保存起来，[GitHub](https://github.com/)就是这样一个帮你保存代码的网站。不论你在什么设备上，都可以从GitHub同步代码，还可以记录你的所有更改，是所有开发者都需要的工具。

1. 如果没有的话，在GitHub上注册一个账号并登陆。
2. 新建一个库（repository），可以命名为“Python_Learning”。建好之后会发现库里面自动生成了一个READ_ME文件。
3. 从GitHub官方网站下载GitHub Desktop应用程序，在本地安装运行。它是GitHub桌面工具。
4. 在本地建立一个文件夹，专门用来与GitHub之间同步代码。我就称这个路径为本地同步文件夹。
5. 从网站上复制“Python_Learning”的URL地址，打开桌面工具，选择从URL克隆，填写URL地址和本地同步文件夹，就可以将刚建立的库同步到本地。

操作完成后可以在本地同步目录中发现那个READ_ME文件。以后所有在那个文件夹中创建的文件就都可以通过GitHub Desktop上传到你的在线库里面。
现在，把刚刚做好的“Hello world”程序保存到同步文件夹，就保存为“Hello world.ipynb”。GitHub桌面工具中会显示出你对同步文件夹的所有改动。选中新建的文件，提交改动并同步到Github。课程中完成的所有程序都可以用相同的方法上传，让Github帮你保存代码。

**如果你有需要保密的文件，就不要保存在Githut中。**

## 更加强大的工具

如果你想在Python语言中投入更大经历，那么Jupyter是不够用的。你需要更加强大的开发工具。我推荐Idea。利用它和它的插件能够调试代码，可以帮你调整代码格式，提示错误和可能的优化策略，管理模块间的关系。有机会再分享。


# 第二部分：Python最基本的都在这儿

如果你学习过其他的编程语言，可以回忆一下。编程语言之间可能很相似，但是Python的特殊性就在于它非常的灵活。

## 佛系变量类型

上一部分“Hello world”我们已经使用过了一种字符串类型，我们现在实用一个变量来替代它。


In [11]:
hello_world = 'Hello world!'
print(hello_world)

Hello world!


现在有了两行代码。Python一行代码结束后可以除了回车什么都不加，也可以像Java一样加一个“;”分号。

在这里我们使用到了一个字符串类型的变量*hello_world*。Python中的变量名只能包含字母、数字和下划线，**但是不能以数字开头**。我习惯用小写字母作为变量名称，如果有多个单词或者单词加数字，那么可以用下划线来分隔，比如这些：

*row_num*

*parameter_01*

*temp_file_name*

命名方式只是约定俗成，并不是Python的强制规则。但是一贯的命名可以让代码更工整更有可读性。

能够从两行代码中看出来的第二点是，*hello_world*变量的类型并没有声明。这在C++或者Java中是不允许的，因为两种语言都严格要求变量的类型必须在使用前作出声明。难道Python不区分数据类型吗？来试试。



In [10]:
a_string = 'Hello world!'
type(a_string)

str

In [10]:
b_int = 123
type(b_int)

int

In [9]:
c_float = 3.1415
type(c_float)

float

In [1]:
d_bool = True
type(d_bool)

bool

运行结果说明它们都有数据类型，所以Python能够在赋值过程中自动决定变量的类型，而不需要用户声明。这可以省去开发者的大量时间，当然让人舒服。

但是也会引起一些问题。比如用变量接收一个函数的返回值，你要使用这个变量进行下一步计算，但是变量从函数那里接收到了什么类型呢？如果转头去读函数，可能函数并没有准备像样的注释信息，阅读代码要费一番周折。此时就可以用*type*函数把类型打印出来。或者你可以在声明时标注，但是这些标注只是为了阅读代码方便，并不会阻止你给它赋一个其他类型的值。

In [18]:
a_string: str = 'This is string'
b_int: int = 10
c_float: float = 3.14
d_bool: bool = True

但是Python不会自动帮你做类型转换，假如你想要连接字符串和数值，如果直接使用“+”做连接就会报错。必须转换类型才行。

In [22]:
a_string = 'hello'
b_number = 123
# 这里会报错
print(a_string+b_number)

TypeError: can only concatenate str (not "int") to str

Python不能连接字符串和数字类型，必须将数字转成字符串才允许拼接，但是这种转换不会自动进行。

In [24]:
a_string = '456'
b_number = 123
# 这里正常
print(a_string+str(b_number))
print(float(a_string) + b_number)

456123
579.0


*str\(\)*是转化函数，就是把其他类型的变量转化为字符串。类似的还有*int\(\)*转化为整数，*float\(\)*转化为浮点数.

上面两段代码中我都加了一行不是代码的东西，在“#”号后面。这就是注释。用注释可以在代码中写提示信息，或者让一部分代码不执行。在Jupyter Notebook上的代码块中写注释显得画蛇添足，但是放在其他的开发工具中就会很有用。

## 字符串了解一下

直接上代码。注意所有的字符串都要在引号当中。

In [30]:
'''
这一部分展示字符串上的各种操作。
我是另一种注释！
'''

# 多行字符串1：使用转义符号
multi_row_str_1 = "This is the 1st row. \\nThis is the 2nd row."
print('multi_row_str_1: ' + multi_row_str_1)

# 多行字符串2:使用保持'''保持原有格式
multi_row_str_2 = '''This is the 1st row.
This is the 2nd row.'''
print('multi_row_str_2: ' + multi_row_str_2)

# 获取长度
short_str = 'abc'
long_str = 'abcdefghijklmn'
print('The short sring has {} letters and the long string has {}.'.format(str(len(short_str)),str(len(long_str))))

# 判断包含关系
print('Does the long string contain the short one? '+ str(short_str in long_str))

# 替换
ori_str = 'original text'
new_str = ori_str.replace('original','new')
print('new_str: ' + new_str)

# 大小写与比较
lower_str = 'a string'
upper_str = 'A STRING'
print('The lower string equals to the upper string. ' + str(lower_str == upper_str))
print('They can be equal if using lower() and upper(). ' + str(lower_str == upper_str.lower() and lower_str.upper() == upper_str))


multi_row_str_1: This is the 1st row. \nThis is the 2nd row.
multi_row_str_2: This is the 1st row.
This is the 2nd row.
The short sring has 3 letters and the long string has 14.
Does the long string contain the short one? True
new_str: new text
The lower string equals to the upper string. False
They can be equal if using lower() and upper(). True


注意我使用的*format\(\)*函数，它是一个字符串格式化工具。当你要将很多值填写进一个模版里的时候，用“+”连接每两个相邻的部分会比较麻烦。尤其是你有一个固定模版要使用好多次，那么使用*format\(\)*函数更加高效。

In [1]:
# 第一种格式化方法
template_str = 'This is a template having 3 parameters \"{}\", \"{}\" and \"{}\".'
print(template_str.format('a','b','c'))
print(template_str.format('1','2','3'))

This is a template having 3 parameters "a", "b" and "c".
This is a template having 3 parameters "1", "2" and "3".


还有另一种类似的模版填写方式。

In [37]:
# 第二种格式化方法
template_str_2 = 'This is a template having 3 parameters \"%s\", \"%s\" and \"%s\".'
print(template_str_2% ('a','b','c'))
print(template_str_2% ('1','2','3'))
print(template_str_2% (1,2,3))

This is a template having 3 parameters "a", "b" and "123".
This is a template having 3 parameters "1", "2" and "3".
This is a template having 3 parameters "1", "2" and "3".


In [42]:
template_str_3 = 'This is a template having parameter %.3f.'

v_int = 1234.1232131231
print(template_str_3% (v_int))

This is a template having parameter 1234.123.


这里*\%s*表示会插入字符串，如果想要插入数值，需要用*\%d*或者*\%f*分别代表整数和浮点数。我们能用到的格式不多，之后会实际使用这种方法。

有一种方式能够实现对字符串的精细操作叫做正则表达式，你可以把它理解为一套规定字符串规则的语法。有了这个工具你可以判断一个字符串是否符合你的规定，也可以按照指定规则来提取字符串的子串。如果你需要经常处理文字，这个工具会非常有用。举两个例子。第一个，你要求用户按照固定的格式输入一个日期，比如“yyyy-MM-dd”。用户真正的输入很有可能是错的，拿去用会导致错误。这时就需要校验。

In [43]:
# 引入正则模块
import re
input_date_1 = '2023-12-20'
input_date_2 = '20231220'
date_pattern = '[0-9]{4}-[01][0-9]-[0-3][0-9]'
print('result 1: '+str(re.match(date_pattern, input_date_1)))
print('result 2: '+str(re.match(date_pattern, input_date_2)))


result 1: <re.Match object; span=(0, 10), match='2023-12-20'>
result 2: None


虽然这个正则方法叫做*match\(\)*，但是匹配时在打印的结果中显示的并不是“True”或者“False”，而是一个更加复杂的结构。我们仍然可以把*match\(\)*的结果放在*if*后面作为判断条件用。但是这个结果有更多功能，再用第二个例子看一下。

第二，从身份证号当中提取生日、户籍地址和性别。

In [44]:
import re
# 编造的身份证号
ID_number = '210202200002120220'
ID_pattern = '\\d{6}(\\d{8})(\\d{3})(\\d|x|X)'
result = re.match(ID_pattern, ID_number)
# 匹配到的字符串
print(result.group(0))
# 第一个括号的匹配内容，出生日期
print(result.group(1))
# 第二个括号中的匹配内容，个人编号，可判断性别
print(result.group(2))

print(result.group(3))

210202200002120220
20000212
022
0


匹配模式字符串中有很多括号，可以认为每个括号都是一个分组，是希望抽取的内容。

正则表达式还可以帮你做搜索和替换。而且它并不仅仅服务于Python，常用的语言都支持。想要全面学习正则表达式可以从[这里](https://www.runoob.com/regexp/regexp-syntax.html)学习。

字符串还可以被当作字符的串来使用，我们将到可迭代组件那一部分会见识更神奇的操作。

## 数字要小心翼翼

基础数据类型只介绍两个，整形和浮点型。对比Java，Python的基础数值类型是非常少的。

In [3]:
# 自动确定类型
i = 1
f = 1.0
print('type of i: %s, type of f: %s'% (str(type(i)), str(type(f))))
print(i == f)
print(i != f)

type of i: <class 'int'>, type of f: <class 'float'>
True
False


虽然Python也可以指定数据类型，但是并不起作用，仅仅是方便你阅读代码。

In [3]:
# 指定类型，但是失效
i: int = 1.0
f: float = 1
print('value of i: {}, value of f {}'.format(i, f))
print('type of i: %s, type of f: %s'% (str(type(i)), str(type(f))))

# 强制转类型
i = int(i)
f = float(f)
print('value of i: {}, value of f {}'.format(i, f))
print('type of i: %s, type of f: %s'% (str(type(i)), str(type(f))))


value of i: 1.0, value of f 1
type of i: <class 'float'>, type of f: <class 'int'>
value of i: 1, value of f 1.0
type of i: <class 'int'>, type of f: <class 'float'>


In [None]:
如果两个值的类型不相同，那么计算结果会是什么类型？

In [1]:
# 经过计算后的结果是什么类型？
i = 1
f = 1.0
sum_1 = i + i
sum_2 = i + f
print('type of sum_1: %s, type of sum_2: %s'% (str(type(sum_1)),str(type(sum_2))))


type of sum_1: <class 'int'>, type of sum_2: <class 'float'>


如果你需要做严密计算，对数值精度要求非常高，那么就要用一些特殊的类型，比如Decimal。*int*和*float*在内存中所占用的空间都是有限的，所以精度都是有限的。

In [3]:
# 注意精度有限
f = 1/3
print('How many digits can be kept? ' + str(f) + ' ' + str(len(str(f))) + ' digits.')

# 想要更大精度怎么办？
from decimal import Decimal
d = Decimal('3.141592653589793238462643383279')
print('How many digits can be kept? ' + str(d) + ' ' + str(len(str(d))) + ' digits.')

How many digits can be kept? 0.3333333333333333 18 digits.
How many digits can be kept? 3.141592653589793238462643383279 32 digits.


数值之间的常见计算大部分依靠符号。

In [2]:
# 幂指数
a = 3 ** 2
a

11

In [12]:
# 整除
a = 5//3
a

1

In [2]:
# 注意计算顺序与常规数学相同
b = 2 + 3 * 4
b

14

In [8]:
c = (2 + 3) * 4
c

20

复杂计算需要依靠*math*模块。下面的例子里使用*dir()*函数来列举一个模块中的所有内容。

In [3]:
# 引入math模块并使用dir函数展示模块内容
import math
dir(math)

['__doc__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 'acos',
 'acosh',
 'asin',
 'asinh',
 'atan',
 'atan2',
 'atanh',
 'cbrt',
 'ceil',
 'comb',
 'copysign',
 'cos',
 'cosh',
 'degrees',
 'dist',
 'e',
 'erf',
 'erfc',
 'exp',
 'exp2',
 'expm1',
 'fabs',
 'factorial',
 'floor',
 'fmod',
 'frexp',
 'fsum',
 'gamma',
 'gcd',
 'hypot',
 'inf',
 'isclose',
 'isfinite',
 'isinf',
 'isnan',
 'isqrt',
 'lcm',
 'ldexp',
 'lgamma',
 'log',
 'log10',
 'log1p',
 'log2',
 'modf',
 'nan',
 'nextafter',
 'perm',
 'pi',
 'pow',
 'prod',
 'radians',
 'remainder',
 'sin',
 'sinh',
 'sqrt',
 'tan',
 'tanh',
 'tau',
 'trunc',
 'ulp']

这里仅仅举几个例子。

In [7]:
import math
print(math.pi)
print(math.sqrt(16))
print(math.pow(3, 2))

3.141592653589793
4.0
9.0


字符串、整型、浮点数、布尔型，基本数据类型就讲这些。还带出了一个十进制类型*decimal*。数据类型暂时告一段落，在介绍更丰富的类型之前需要掌握流程控制工具。

## 用好tab做流程控制

如果你学过的话，回想一下C++或者Java当中你在每行代码前面是否有空格或者是tab，以及有多少个，对这一行代码的意义有影响吗？没有。在这两种语言当中，你需要做好缩进是为了美观易读。但是在Python当中缩进会对代码的意义造成影响。举一个例子。

In [16]:
# 第一个if判断
if False:
    print('first print tab')
    print('second print tab')

# 第二个if判断
if False:
    print('first print tab')
print('second print')

second print


上面代码中两个if条件都是*False*，但是打印的内容不同。只有那个没有缩进的代码行能够成功打印。这说明带缩进的代码行接受*if*条件句管辖，而没有缩进，与*if*条件在同一纵向位置的代码就没有受到它的约束，被执行了。可以。所以，在Python中缩进代表了所在代码行受到上方没有缩进，或者缩进更少代码的控制或者包含。什么是控制？就像例子中的*if*条件。什么是包含？后面见到类和函数的时候也会遇到其中内容的缩进。多行相邻代码缩进程度相同，说明它们共同受到同一个条件控制，或者归属于同一个函数或类。

这里我用的是tab，如果你使用两个空格替换tab可以吗？可以。能够两种缩进符号同时用吗？不要这样做，因为虽然你肉眼看起来代码已经对齐了，但是Python会区分两种缩进然后把它们当作不同的层级。我推荐使用tab而不用空格。tab留出的空间比较大，更美观，也更容易对齐。还有你可以选取多行后点击tab整体缩进，这个空格是做不到的。违反这些规则会怎样？很容易报错，而且由于肉眼看不出来差别，很难找到问题。

再详细看看*if*条件。

In [8]:
# 条件的逻辑组合
if 1 == 1 and 2 == 2:
    print('content under joint conditions 1')

if 1 == 1 or 1 == 2:
    print('content under joint conditions 2')

if not 1 != 1:
    print('content under joint conditions 3')

# if, elif与else
if 1 == 2:
    print('content under if')
elif 1 == 3:
    print('content under elif 1')
elif 1 == 4:
    print('content under elif 2')
else:
    print('content under else')

content under joint conditions 1
content under joint conditions 2
content under joint conditions 3
content under else


*if*后面的判断条件实际上返回了一个布尔型的值，也就是*True*或者*False*。可以放其他类型吗？来两个例子。

In [10]:
if -2:
    print(-2)

if -1:
    print(-1)

if 0:
    print(0)

if 1:
    print(1)
    
if 2:
    print(2)

-2
-1
1
2


在*if*条件表达式中整数0等同于False，其他等同于True，负数也是True。

还有其他的可能。我们之前提过*re.match()*函数的结果可以直接当成条件放在*if*后面。试试看。

In [2]:
import re
input_date_1 = '2023-12-20'
input_date_2 = '20231220'
date_pattern = '[0-9]{4}-[01][0-9]-[0-3][0-9]'

print('result 1: '+str(re.match(date_pattern, input_date_1)))
if re.match(date_pattern, input_date_1):
    print('\"%s\" matches the pattern.'% input_date_1)

print('result 2: '+str(re.match(date_pattern, input_date_2)))
if re.match(date_pattern, input_date_2):
    print('\"%s\" matches the pattern.'% input_date_2)


result 1: <re.Match object; span=(0, 10), match='2023-12-20'>
"2023-12-20" matches the pattern.
result 2: None


显然*if*后面可以放置的不只有布尔型的值，那么如果值不是空（*None*)，就等同于真，如果是空则等同于假。

如果你的条件分支非常多，使用*if,elif,else*就会变得非常累赘。C++和Java都拥有一套*switch case*语法，用来更高效的实现条件判断，在Python 3.9和之前的版本中Python并没有对等的语法。但是到了3.10版本之后Python拥有了一个更加强大的语法，*match case*可以完全替代*switch case*。

In [7]:
# match case示例
condition_int = 7
match condition_int:
    case 1: # 字面量
        print('equal to 1')
    case 5:
        print('equal to 5')
    case 6 | 7 | 8: #或关系
        print('equal to 6, 7 or 8')
    case value if value > 8 and value <20: # 结合if表达式
        print(value)
    case _: # 默认值
        print('other value')


equal to 6, 7 or 8


注意两个地方。第一，*match*所在行没有缩进，所有*case*行都统一缩进一个tab，它们所在的层级相同。缩进两个tab的都是符合各个*case*条件时所执行的代码，所以都比*case*行还要多缩进一个tab。第二，最后的下划线代表的是匹配所有其他情况，与c++中的*default*相同。

这个例子中所有的条件都作用于一的单独的整型变量。但是这并不是*match case*的全部能力。我们在学习过元组和类之后将再看一些它更强大的功能。

继续说流程控制。除了条件分支，流程控制还包括循环和异常处理。


In [3]:
# while循环
i = 5
while i > 0:
    print(i)
    i -= 1

print('Loop ended.')

5
4
3
2
1
Loop ended.


注意*i -= 1*在c++和Java中都是*i\-\-*。这是Python特殊的地方。

*while*是按给定条件继续循环。如果你有一个集合，要循环遍历每个元素呢？虽然*while*能做到，但是有个*for*循环实现更容易。

In [1]:
source_str = 'abcdefg'
# 如果用while循环
length = len(source_str)
i = 0
while i < length:
    print(source_str[i])
    i += 1

print('<separator>')

# 用for循环
for char in source_str:
    print(char)


a
b
c
d
e
f
g
<separator>
a
b
c
d
e
f
g


*range*函数可以支持*for*有更多花样。*range*中可以使用三个参数，起点、终点和步长。步长可以省略。

In [2]:
# range例子
for each in range(3, 9, 2):
    print(each)

3
5
7


如果*range*只接受一个参数，就会从0开始数n个数。

In [3]:
# range例子
for each in range(5):
    print(each)

0
1
2
3
4


*range*函数实际上按照你的需求产生了一种迭代器，专门用在这种迭代过程中。

流程控制的最后一个内容，异常处理。有些时候代码的运行会有意想不到的情况，你想要接收Excel文件xlsx但是收到的是xls格式，或者写入数据库时发现连接不上。这种不理想状态运行状态就叫异常，好的程序应该可以在异常发生的时候做出正确的处理而不是让整个程序创业未半而中道崩殂。*try except*语法就是做这个用的。


In [2]:
# 尝试制造并捕获一个异常
try:
    a = 2 / 0
except:
    print('There is an exception!')
else:
    print('This is visible when there is no exception.')
finally:
    print('The program comes to an end.')


There is an exception!
The program comes to an end.


在*try*和*except*之间的部分，比它们缩进一个tab的部分现在放了一行一定会报错的代码，实用中你会把你认为可能出错的代码放进去。

*except*下是在异常发生的情况下会执行的代码，也就是直接的错误处理。示例里这一行内容打印出来了。

后面两个部分需要认真理解。先说*finally*，这个部分更常用一些，是无论异常是否发生都一定会执行的内容。举个例子，你开启一个数据库连接，想要向里面写数据，然后把连接关闭。数据库性能是有限的，如果连接数量太大，新连接就无法响应，就是数据库用不了了。于是，写数据这一步无论成功与否，你都需要关闭数据库连接。那么关闭数据库连接的功能就可以写在*finally*里面。

*else*使用率非常低，而且容易跟*if else*混淆。*try*下面的*else*会在没有异常的情况下，在*try*之后和*finally*之前执行。

## 能迭代的都是好同志

我们已经见过迭代了，使用*for*遍历字符串每个字符，而字符串可以理解为是字符的“串”。什么是“串”？Python中并没有这种概念，但是有的是元组、集合、列、字典，都是承载数据的组合，称为复杂数据类型，与基本数据类型相对。

你不可能只用程序处理数的过来的数据，组合里可能遇到上万或者更多的值，一个个处理这些值的过程就是迭代。元组、集合、列表和字典使用中经常会伴随迭代。

看看元组，tuple。

In [3]:
# 创建一个元组
tuple_1 = (False,'a', 2, 3.0)
for each in tuple_1:
    print(type(each))
    print(each)


<class 'bool'>
False
<class 'str'>
a
<class 'int'>
2
<class 'float'>
3.0


建立元组可以使用“()”。我特意创建了一个包含布尔型、字符串、整型和浮点型的元组。这说明元组中可以混合不同类型的数据。其次，创建的时候的顺序与输出的顺序一致，说明元组是有序的。

元组的特性是不可更改，试试就逝世。

In [2]:
# 尝试获取和设定元组中值
tuple_1 = (False,'a', 2, 3.0)

print(tuple_1[0])
print(tuple_1[1])

tuple_1[0] = True


False
a


TypeError: 'tuple' object does not support item assignment

前面两个*print*都是按照序号取值，这与c++和Java完全相同。需要注意序号的起点是0而不是1。第三个*print*报错误信息显示元组不支持设定值。一般对元组本身的更新就只能创建新的元组替代旧的。严谨地说也有例外，但是不是本课程内容了。只要记住不要更新元组就行了。

为什么Python会有这样一种不能更改的组合？它在什么场景下使用？元组最常见的用处是为函数传递返回值。假设你有一个文章查重函数，分析两篇文章有多少相似度，这是一个数值。还同时返回一个字符串，装着所有相似的文字。再返回一个判定，如果判断是抄袭，那么就返回*True*，不算抄袭就返回*False*。Python允许它们一起以元组的形式从函数返回。我们当然不想获得的计算结果被中途修改，当然也不需要这么做。在讲解函数的部分我们会遇到这种情况。


第二项，集合set。

In [9]:
# 创建集合
set_1 = {'a', 'd', 'd', 'c', 'b', 'a'}
print(set_1)

# 空集合？
set_3 = {}
print(type(set_3))
# 真的空集合
set_3 = set()
print(type(set_3))

# 混合类型的集合
set_2 = {2, 4, 'k', 'u'}
print(set_2)
set_2.add(5)
print(set_2)


{'a', 'c', 'b', 'd'}
<class 'dict'>
<class 'set'>
{2, 4, 'k', 'u'}
{2, 4, 5, 'u', 'k'}


In [None]:
建立集合一般用“{}”，但是空集合特殊。为什么要建一个空字典？可能你需要用一个集合装载结果。

集合最大的特点是不允许重复，所以可以拿它做去重复。要注意集合中的内容不能保持顺序。它可以承载不同的类型。

集合还有一个用处，如果你有要判断一个值是否在集合中已经存在，可以用*in*关键字。

In [4]:
set_1 = {'a', 'd', 'd', 'c', 'b', 'a'}
print('b' in set_1)
print('z' in set_1)

True
False


第三项，列表list。

In [14]:
# 创建空列表
list_empty = []
print('type: %s'% str(type(list_empty)))

# 创建列表
list_1 = [0, 1, 2, 3, 4]
print('length %d'% len(list_1))

# 遍历
print('Loop starts.')
for each in list_1:
    print(each)
print('Loop ends.')

# 按照序号获取
print('First 3 numbers in list: %d, %d, %d'% (list_1[0], list_1[1], list_1[2]))

# 按照序号设定值
list_1[0] = -1
list_1[-2] = 100  # 逆序
print('Update value.')
print(list_1)



# 在尾部增加新元素
list_1.append(5)
list_1.append(6)
list_1.append(7)
print('After append.')
print(list_1)

# 删除指定位置元素
del list_1[5]
print('After delete.')
print(list_1)

# 从末尾弹出元素
item = list_1.pop()
print('Pop out value %d.'% item)
print(list_1)

# 从指定位置弹出元素
item = list_1.pop(4)
print('Pop out value %d.'% item)
print(list_1)

# 反向
list_1.reverse()
print('Reversed.')
print(list_1)

# 排序
list_1.sort() # sort(reverse=False)
print('After ordering.')
print(list_1)


type: <class 'list'>
length 5
Loop starts.
0
1
2
3
4
Loop ends.
First 3 numbers in list: 0, 1, 2
Update value.
[-1, 1, 2, 100, 4]
After append.
[-1, 1, 2, 100, 4, 5, 6, 7]
After delete.
[-1, 1, 2, 100, 4, 6, 7]
Pop out value 7.
[-1, 1, 2, 100, 4, 6]
Pop out value 4.
[-1, 1, 2, 100, 6]
Reversed.
[6, 100, 2, 1, -1]
After ordering.
[-1, 1, 2, 6, 100]


In [13]:
# 两个list接续
list_1 = [1,2,3,4]
list_2 = [5,6,7,8]

list_3 = list_1 + list_2

list_3

[1, 2, 3, 4, 5, 6, 7, 8]

要点
1. 建立列表可以用“[]”。
2. 列表也有顺序性，而且顺序非常重要。
3. 列表可变

列表一般在重视顺序的场景使用，你甚至可以利用它的自带方法一行代码实现排序。我在例子中放置的是整型，如果放的是字符串，也可以按照字符的顺序排序。那么，我能在数列里同时放置不同的类型并排序吗？

In [6]:
# 混合数据类型
list_2 = [9, 'a', 1]
print(list_2)

list_2.sort()

[9, 'a', 1]


TypeError: '<' not supported between instances of 'str' and 'int'

不行，不同的类型之间的比较很可能是无意义的，会报错。所以，列表中允许写入多种类型，但是不要这样做。

列表还有两个非常神奇的用法，一个是切片，另一个是列表推倒。

先说切片。既然一个列表是有序的，并且可以按照序号取值，那么我能不能一次取一个范围内的元素？这种功能叫切片。

In [5]:
# 切片用法
list_to_slice = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

print(list_to_slice[3:8])

print(list_to_slice[3:])

print(list_to_slice[:8])

print(list_to_slice[3:8:2])

print(list_to_slice[8:3:-1])

print(list_to_slice[::-1])

[3, 4, 5, 6, 7]
[3, 4, 5, 6, 7, 8, 9]
[0, 1, 2, 3, 4, 5, 6, 7]
[3, 5, 7]
[8, 7, 6, 5, 4]
[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]


切片有三个参数，前两个分别是起始序号和结束序号，左闭右开区间。如果有一边没有限制可以省略。第三个参数也是可选的，叫步长。可以每两个值中只取第一个，或者每三个取一个。想想，如果这个步长为负呢？那就是从后向前取。也就是说你可以用这一招取反向输出列表。

提一个问题，被切片之后，原列表有变化吗？没有。学函数时我们会体验一下这个特性的好处。

这里留一个思考题。假设你要计算9个评委的评分，你需要去掉一个最低分和一个最高分，计算剩余平均分和中位数分数。

列表的神奇的用法，列表推导。这个功能可以为我们轻松的创造数列。

In [12]:
# 列表推倒演示
print([n **2 for n in range(10)])

print([n ** 2 for n in range(10) if n%2 == 1])

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
[1, 9, 25, 49, 81]


In [None]:
学了列表和集合，列表有顺序，集合可以去重复。如果我有一个有重复的元组，想要去重排序，可以怎么做？

In [2]:
# 利用list和set去重排序
tuple_1 = (3, 1, 1, 8, 1, 7, 0, 3)
set_1 = set(tuple_1)
list_1 = list(set_1)
list_1.sort()
tuple_1 = tuple(list_1)
print(tuple_1)

(0, 1, 3, 7, 8)


去重和排序成功。这个例子说明元组、列表和集合三者之间可以轻易的相互转换。但是转换是不是可能造成损失？如果列表和元组被转化成集合，重复的元素就会损失掉。

最后，字典dictionary，简称dict。

In [1]:
# 空字典
dict_empty = {}
print(type(dict_empty))

# 建立字典
dict_1 = {'name':'tuple', 'editable':False, 'sequential': True}

# 获取值
print(dict_1['name'])

# 增加和更新值
dict_1['desc'] = 'This is the description of the tuple type.'
print(dict_1)

# 遍历
print('Print all keys and values in method 1.')
for key, value in dict_1.items():
    print('key %s, value %s'% (key, str(value)))

print('Print all keys and values in method 2.')
for key in dict_1.keys():
    print('key %s, value %s'% (key, str(dict_1[key])))


<class 'dict'>
tuple
{'name': 'tuple', 'editable': False, 'sequential': True, 'desc': 'This is the description of the tuple type.'}
Print all keys and values in method 1.
key name, value tuple
key editable, value False
key sequential, value True
key desc, value This is the description of the tuple type.
Print all keys and values in method 2.
key name, value tuple
key editable, value False
key sequential, value True
key desc, value This is the description of the tuple type.


建立字典也是用“{}”，跟集合相同，但是你用“{}”建立的是空字典，不是空集合。与前三种类型不同，字典当中存储的不单单是值了，的所有内容会被作为键、值对，写在“:"前面的是键（key），后面的是值。字典同样可以存储不同的类型，而且实际使用中可以这样做，因为每个键都有各自的意义。字典也有顺序，但是不能通过序号获取值，使用中也不在乎它的顺序性。字典中的值可以重复，但是键是唯一的。

字典无法直接转化为元组、集合和列表，但是可以单独把它的键或者值拿出来。

In [3]:
# 提取字典键、值为list
dict_2 = {'name':'set', 'editable': True, 'sequential': False}
print(type(list(dict_2.keys())))
print(type(list(dict_2.values())))

<class 'list'>
<class 'list'>


字典的键是字符串，也可以是别的。但是不建议混合使用，最好永远用字符串当作键。

In [7]:
dict_empty = {}

dict_empty[2] = 'Add a key in int.'
dict_empty['a'] = 'Add a key in string.'
dict_empty[3.14] = 'Add a key in float.'

print(dict_empty)

{2: 'Add a key in int.', 'a': 'Add a key in string.', 3.14: 'Add a key in float.'}


总结一下四种复杂类型的特性。

|…|元组|集合|列表|字典|
|:-:|:-:|:-:|:-:|:-:|
|可多类型|||||
|可变|否||||
|有序||否|||
|可重复||否||否|
|可迭代|||||
|可散列||否|否|否|

这里引入了一个新的概念“可散列”，这个问题想要完全掌握比较困难，所以先靠例子直观感受一下。

In [11]:
dict_1 = {'name':'tuple', 'editable':False, 'sequential': True}
dict_2 = {'name':'set', 'editable': True, 'sequential': False}
dict_3 = {'name':'list', 'editable': True, 'sequential': True}
dict_4 = {'name':'dict', 'editable': True, 'sequential': True}

# list of dicts
list_of_dict = [dict_1, dict_2, dict_3, dict_4]

# tuple of dicts
tuple_of_dict = tuple(list_of_dict)

# set of dicts? not allowed
set_of_dict = set(list_of_dict)


TypeError: unhashable type: 'dict'

前面的都成功了，到了集合发现字典不能被放入集合里面。再试试能不能把元和列表放进集合。

In [13]:
tuple_1 = (1, 2, 3, 4)
tuple_2 = (5, 6, 7, 8)

set_of_tuple = {tuple_1, tuple_2}

list_1 = [1, 2, 3, 4]
list_2 = [5, 6, 7, 8]

set_of_list = {list_1, list_2}

TypeError: unhashable type: 'list'

列表、字典和集合本身都有一个性质，unhashable，不可散列，不能直接放在集合里，也不能作为字典的键使用。什么东西能作为集合中的元素或作为字典的键？至少记住这些：整型、字符串、浮点型、元组。随着你学习更深入，你可以制造一个能够散列的类，但是这不是课程的内容。

讲列表的时候强调过它是有序的，并且我们写入数值后对内容做了排序，使用的是列表自带的*sort()*方法。那么，如果我的列表中装载的是字典，它能给字典排序吗？

In [4]:
# 为字典排序
dict_1 = {'idx': 1, 'key_1': 5, 'key_2': 6}
dict_2 = {'idx': 2, 'key_1': 7, 'key_2': 2}
dict_3 = {'idx': 3, 'key_1': 1, 'key_2': 4}
dict_4 = {'idx': 4, 'key_1': 9, 'key_2': 10}
dict_5 = {'idx': 5, 'key_1': 3, 'key_2': 8}

list_of_dict = []
list_of_dict.append(dict_1)
list_of_dict.append(dict_2)
list_of_dict.append(dict_3)
list_of_dict.append(dict_4)
list_of_dict.append(dict_5)

list_sorted_by_key_1 = sorted(list_of_dict, key=lambda each_item: each_item['key_1'])
print(list_sorted_by_key_1)
list_sorted_by_key_2 = sorted(list_of_dict, key=lambda each_item: each_item['key_2'])
print(list_sorted_by_key_2)


[{'idx': 3, 'key_1': 1, 'key_2': 4}, {'idx': 5, 'key_1': 3, 'key_2': 8}, {'idx': 1, 'key_1': 5, 'key_2': 6}, {'idx': 2, 'key_1': 7, 'key_2': 2}, {'idx': 4, 'key_1': 9, 'key_2': 10}]
[{'idx': 2, 'key_1': 7, 'key_2': 2}, {'idx': 3, 'key_1': 1, 'key_2': 4}, {'idx': 1, 'key_1': 5, 'key_2': 6}, {'idx': 5, 'key_1': 3, 'key_2': 8}, {'idx': 4, 'key_1': 9, 'key_2': 10}]


我使用了*sorted()*函数和一个叫做*lambda*的关键字。*sorted()*比较好理解，跟列表的*sort()*函数相似。
它可以有三个参数，必选的是可迭代对象，就是你需要排序的数据。你可以规定按照什么排序，我们的例子里*key*后面我规定了要用字典中的哪个值来当作排序的参照。最后还有一个*reverse*参数接收*True*或者*False*，默认是*False*代表升序。

*lambda*需要重视。在例子中它的实际作用是把每个列表元素，也就是字典拿出来，取出其中指定值当作排序的参照。*lambda*后面是代表每个迭代过程取出对象的变量名，“:”之后是一个基于取出变量的表达式。

实际上*lambda*开头的一段表达式有一个专属名称，叫做lambda函数。它是函数，一种匿名函数。你完全可以用一个函数来替代它，放在*key*后面。下一节介绍函数。

---
*课后作业*

制造一个长度为30的斐波那契数列。斐波那契数列每个元素的数值是前两个元素的和。

提示：列表推导的代码量最低。


## 函数，一次顶一万次

函数是一个逻辑归纳，它存在的意义在于你只需要建立它一次，然后不断的调用它。

lambda函数应该是最短小的函数了，连函数名都没有。

In [6]:
radius = 2
area_circle_lambda = lambda r: 3.14 * r ** 2
print(type(area_circle_lambda))
print(area_circle_lambda(radius))

<class 'function'>
12.56


用变量接收lambda表达式，可以看到它的类型是*function*，这个变量可以当作函数来使用。
一般不会有人用变量接收lambda表达式当函数用。它表达能力有限，不支持*try except*语法和*while*循环，仅仅支持*if else*判断。

In [8]:
# lambda使用if条件示例

list_1 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
list_2 = list(filter(lambda each: False if each < 5 else True, list_1))
print(list_2)

[5, 6, 7, 8, 9, 10]


注意这里的返回值*False*和*True*的位置，*if*条件成立时返回的是前面的*False*，否则才是*else*后面的*True*。

一般使用lambda函数都是为了简化代码。但是需要实现的逻辑比较复杂的时候，那么还是需要一般函数。

In [2]:
# 建立一个单纯的函数
def calculate_sth():
    '''
    This is a function to do some calculations.
    '''
    print('Start to calculate.')
    print('Calculation ended.')

# 调用
calculate_sth()

Start to calculate.
Calculation ended.


*def*加函数名，加参数，最后“:”。下一行不要着急开始代码，用连续三个引号标记注释，这是一种约定俗成的方式。如果你不是在Jupyter上，而在使用Idea，那么你在这里的注释就可以被显示在鼠标在函数的悬停信息上。换行缩进之后就是函数的内容。函数名的命名规则可以参考变量命名规则，在英语语法上建议“do_something”表示函数是一种动作。

接下来我们要带着一些问题再继续。

* 第一，函数可以不带有输入参数，但是这样意义不大。能不能带有参数？能不能有不确定个数的参数？参数需要规定数据类型吗？

* 第二，函数可以不返回结果，但怎么返回一个值做为结果？怎么返回多个值做为结果？

* 第三，函数中对输入参数的改动会影响函数外吗？

* 最后，是否可以建两个名称相同的函数？

从下面的例子中找答案。


In [4]:
# 有输入参数和返回值的函数
def calculate_rectangle_area(length, width):
    '''
    Calculate the area of a rectangle.
    '''
    print('Start to calculate.')
    return length * width
    print('Calculation ended.') # 这一部分不会被执行

result_1 = calculate_rectangle_area(3, 5)
result_2 = calculate_rectangle_area(4, 2.5)
print('Result 1: %.2f, Result 2: %.2f'% (result_1, result_2))


Start to calculate.
Start to calculate.
Result 1: 15.00, Result 2: 10.00


矩形的长和宽两个输入参数加在函数名后面的括号中。返回值是面积，放在*return*关键字后面。为什么没有打印'Calculation ended.'？因为此时函数已经结束了，函数不再继续。所以，如果你想保证函数中的逻辑执行，就必须保证它在*return*之前执行。

In [1]:
def calculate_rectangle_area(length, width):
    '''
    Calculate the area of a rectangle.
    '''
    print('Start to calculate.')
    area = length * width
    print('Calculation ended.') # 能够执行
    return area

print(calculate_rectangle_area(1, 2))

Start to calculate.
Calculation ended.
2


继续演进这个函数。

In [1]:
def cal_rct_area_perimeter(length:int, width:int = -1):
    '''
    Calculate the area and the perimeter of a rectangle.
    If only one parameter is given, this shape will be considered as a square.
    '''
    print('Start to calculate.')
    if width == -1:
        width = length

    print('length: %.2f, width: %.2f'% (length, width))
    area = length * width
    perimeter = (length + width) * 2
    print('Calculation ended.')
    return area, perimeter

result_1_area, result_1_perimeter = cal_rct_area_perimeter(3)
result_2_area, result_2_perimeter = cal_rct_area_perimeter(width=3.1415926, length=2)
print('Result 1: %.2f, %.2f; Result 2: %.2f, %.2f'% (result_1_area,  result_1_perimeter, result_2_area, result_2_perimeter))

result_3 = cal_rct_area_perimeter(1, 2)
print(type(result_3))

Start to calculate.
length: 3.00, width: 3.00
Calculation ended.
Start to calculate.
length: 2.00, width: 3.14
Calculation ended.
Result 1: 9.00, 12.00; Result 2: 6.28, 10.28
Start to calculate.
length: 1.00, width: 2.00
Calculation ended.
<class 'tuple'>


首先，我加入了输入参数的类型标注。但是注意我在调用时给了一个小数做参数。这说明Python函数的参数与一般变量一样。开发者的标注并不决定它的类型，那么标注也仅仅是一个提示而已。

其次，输入参数设为可选的，如果输入两个，那么就分别是长和宽。如果只有一个输入，那么就把它当作正方形来计算。这里我给参数*width*规定了默认值-1，当然这是不合理的。如果遇到了就认为调用时并没有提供这个参数，就认为第二个参数缺失。

还有，调用函数时可以按照参数名来指定参数值，这样的话可以不按照参数顺序。

最后，*return*关键字后面我加了两个返回值。你可以就把它当成两个按顺序排列的值。但是它的本质是元组，元组的特性是有序、元素类型不限并且不可更改。函数传递返回值才是元组最大的用处。



能不能让函数更灵活一点儿，让它能接收更多参数？可以。"\*\*"符号表示接收所有关键字参数。也可以理解为“\*\*”后面的那个参数是一个字典。

In [1]:
def cal_rct_area_perimeter(**kwarg):
    '''
    Calculate the area and the perimeter of a rectangle.
    Expecting 2 keyword parameters, length and width.
    '''
    print('Start to calculate.')
    length = kwarg['length']
    width = kwarg['width']

    print('length: %.2f, width: %.2f'% (length, width))
    area = length * width
    perimeter = (length + width) * 2
    print('Calculation ended.')
    return area, perimeter

result_2_area, result_2_perimeter = cal_rct_area_perimeter(width=3.1415926, length=2)
print('Result 2: %.2f, %.2f'% (result_2_area, result_2_perimeter))


Start to calculate.
length: 2.00, width: 3.14
Calculation ended.
Result 2: 6.28, 10.28


还有一种情况，假设你想计算一组数值的和，但是有多数值不知道。有个方法是每次把数值都装进一个列表里，交给函数。还有一个用函数解决的办法。

In [1]:
def sum_all(*args):
    result = 0
    for each in args:
        result += each
    return result

print(sum_all(2, 4))
print(sum_all(3, 5, 7, 8))

6
23


函数的用法介绍完了，但是如果下面的部分不讲，你使用中非常有可能在相似的用法里出错。

In [3]:
list_input = [1, 2, 3]
set_input = {1, 2, 3}
dict_input = {'key1':1, 'key2':2, 'key3':3}




def add_to_list_set_dict(ori_list, ori_set, ori_dict, item):
    '''
    Add item to the list, set and dict.
    '''
    ori_list.append(item)
    ori_set.add(item)
    ori_dict['newkey'] = item


add_to_list_set_dict(list_input, set_input, dict_input, 4)
print(list_input)
print(set_input)
print(dict_input)

[1, 2, 3, 4]
{1, 2, 3, 4}
{'key1': 1, 'key2': 2, 'key3': 3, 'newkey': 4}


我们把一个整数列作为参数放进了函数里，函数没有任何返回值，但是函数执行过后函数外的数列有了变化。

In [1]:
int_input = 1

def add_1_to_input(int_input):
    int_input += 1

print(int_input)
add_1_to_input(int_input)
print(int_input)

1
1


与上一个例子相反，一个整数作为输入参数交给函数，我甚至把函数中的参数名都写成了同一个，但是这个整型变量在函数执行过后没有在函数外有任何变化。难道输入参数的类型还会决定它在函数内的变化会带出到函数外吗？会。这里非常容易犯错误。

可以先记住，集合、列表和字典在函数中的改动会被带到函数外。为了避免问题，可以选择在函数中重建这些类型的参数然后再做别的操作。或者拿来调用过函数的变量都不再使用，也可以避免问题。如果想要更深入的理解到底发生了什么，可以借助C++指针的概念。如果是集合、列表和字典，那么真正传入函数的是它们的指针，这个指针仍然指向它们在内存中的地址，于是函数内对它们的操作真正改变了内存。之后函数外再访问相同的地址就会发现它们已经改变了。

回忆一下切片的特性，它不影响原有列表，而是建立一个新的列表。就用它来复制一个新的列表。新的列表的改变就没有影响到输入参数列表。

In [2]:
list_input = [1, 2, 3]

def add_to_list(ori_list, item):
    '''
    Add item to the list.
    '''
    new_list = ori_list[:]
    new_list.append(item)


print(list_input)

add_to_list(list_input, 4)
print(list_input)

[1, 2, 3]
[1, 2, 3]


In [None]:
或者调用时就复制。

In [1]:
list_input = [1, 2, 3]

def add_to_list(ori_list, item):
    '''
    Add item to the list.
    '''
    ori_list.append(item)


print(list_input)

add_to_list(list_input[:], 4)
print(list_input)

SyntaxError: invalid syntax (338080913.py, line 3)

*copy\(\)*函数也可以实现这个功能。

In [3]:
list_input = [1, 2, 3]

def add_to_list(ori_list, item):
    '''
    Add item to the list.
    '''
    new_list = ori_list.copy()
    new_list.append(item)

print(list_input)

add_to_list(list_input, 4)
print(list_input)

[1, 2, 3]
[1, 2, 3]


照顾一下学过Java的人。同一个模块下，不同函数能使用相同函数名吗？Java允许这样做。Python并不支持同名函数。

In [1]:
def try_same_name():
    print('Function 1 executed.')

def try_same_name(peremeter):
    print('Function 2 executed.')

try_same_name()


TypeError: try_same_name() missing 1 required positional argument: 'peremeter'

如果你需要让一个函数适应不同的输入参数组合，那么你可能需要设计一下怎样根据不同的参数来执行不同的逻辑。

为了预备数据处理部分的内容，需要在函数的部分介绍一个有难度的内容，高阶函数。所谓“高阶”，指的是函数会以函数为输入或输出。我们只需要掌握三种以函数为输入的高阶函数，*sorted\(\)*、*filter\(\)*和*map\(\)*.

之前的排序功能已经用到了*sorted\(\)*，三个参数里第二个参数是可选参数排序参照键，当时我们放了一个lambda函数来为字典排序。



In [None]:
# 回顾：为字典排序
dict_1 = {'idx': 1, 'key_1': 5, 'key_2': 6}
dict_2 = {'idx': 2, 'key_1': 7, 'key_2': 2}
dict_3 = {'idx': 3, 'key_1': 1, 'key_2': 4}
dict_4 = {'idx': 4, 'key_1': 9, 'key_2': 10}
dict_5 = {'idx': 5, 'key_1': 3, 'key_2': 8}

list_of_dict = []
list_of_dict.append(dict_1)
list_of_dict.append(dict_2)
list_of_dict.append(dict_3)
list_of_dict.append(dict_4)
list_of_dict.append(dict_5)

list_sorted_by_key_1 = sorted(list_of_dict, key=lambda each_item: each_item['key_1'])
print(list_sorted_by_key_1)
list_sorted_by_key_2 = sorted(list_of_dict, key=lambda each_item: each_item['key_2'])
print(list_sorted_by_key_2)


如果我想要放一个更复杂的函数呢？比如我想要按照*key_1*和*key_2*的一个复杂判断来作为key。

In [3]:
# 一般函数作为key示例
dict_1 = {'idx': 1, 'key_1': 5, 'key_2': 6}
dict_2 = {'idx': 2, 'key_1': 7, 'key_2': 2}
dict_3 = {'idx': 3, 'key_1': 1, 'key_2': 4}
dict_4 = {'idx': 4, 'key_1': 9, 'key_2': 10}
dict_5 = {'idx': 5, 'key_1': 3, 'key_2': 8}

list_of_dict = []
list_of_dict.append(dict_1)
list_of_dict.append(dict_2)
list_of_dict.append(dict_3)
list_of_dict.append(dict_4)
list_of_dict.append(dict_5)

# 建立一般函数，用到match case
def get_sort_key(input_dict):
    '''
    Provide a key for sort according to key_1 and key_2 on the input dict.
    '''
    match (input_dict['key_1'], input_dict['key_2']):
        case (1, key_2):
            return key_2
        case (key_1, 2):
            return key_1 ** 2
        case _:
            return input_dict['key_1']

list_sorted_by_func = sorted(list_of_dict, key=get_sort_key)
print(list_sorted_by_func)

[{'idx': 5, 'key_1': 3, 'key_2': 8}, {'idx': 3, 'key_1': 1, 'key_2': 4}, {'idx': 1, 'key_1': 5, 'key_2': 6}, {'idx': 4, 'key_1': 9, 'key_2': 10}, {'idx': 2, 'key_1': 7, 'key_2': 2}]


*sorted\(\)*作为高阶函数把列表*list_of_dict*中的每个元素给了一般函数*get_sort_key*来取得每个排序参照。

*filter\(\)* 的作用是按照函数判断是否需要过滤掉元素，所以它的输入函数必须有布尔型返回值。为了简便，还是尽量用lambda表达式。

In [10]:
# filter用法示例
list(filter(lambda n: n%2 == 1, range(10)))

[1, 3, 5, 7, 9]

*map\(\)*函数会将输入可迭代对象中的每个元素都交给函数，然后收集结果。

In [11]:
# map使用示例
list(map(lambda n : n ** 2, range(5)))

[0, 1, 4, 9, 16]

其实*map\(\)*和*filter\(\)*的功能可以轻易被**列表推导**取代。

In [16]:
# 替代fildter()
print([n for n in range(10) if n%2 == 1])

# 替代map()
print([n ** 2 for n in range(5)])

[1, 3, 5, 7, 9]
[0, 1, 4, 9, 16]


它们还是有很大用处，因为这些高阶函数可以大大降低代码量。在使用Numpy和Pandas处理维度更高的数据时去写循环是非常麻烦的，所以这种高阶函数会受到欢迎。

---
*课后作业*

有一个含有任意个元素的列表，以所有可能的顺序打印其中的元素。尽量使用更少的代码。

提示： 使用函数对列表和子集进行递归。


## 类，生万物

如果你已经学过Java或者C++，对于面向对象编程非常熟悉，可以跳过下面这段。

类是程序对现实事物的表述，可以认为是对事物共性的归纳。就拿前面的长方形例子，所有的矩形有长和宽两个属性，需要计算周长和面积，那么我们就可以建立类一个类来代表矩形，其中包含两个属性和求周长面积的两个方法。在类里面函数称为方法。为什么需要类这样一个东西？从编码的角度讲它是一种简化，我们不希望面对一大堆杂乱无章的值和函数，而是希望看到包含它们的类，数量更少，关系更明确。还有，类可以反映出事物间的关系。正方形可以看作是矩形的特例，在代码上可以让正方形类继承矩形类来反映现实世界的几何范畴。总之，有了类的概念，就可以实现面向对象编程，操作事物对象而不是过程。

上代码，看看怎样建立类。从这一部分开始我就不再保证每个代码块可以独立运行，有些依赖于前面代码块的内容我会标明。

In [1]:
# 矩形类 第一版
class Rectangle:
    '''
    Rectangle class.
    '''
    def __init__(self, length, width):
        self.length = length
        self.width = width
        print('Initiated.')

    def get_perimeter(self):
        '''
        Get the perimeter.
        '''
        return (self.length + self.width) * 2

    def get_area(self):
        '''
        Get the area.
        '''
        return self.length * self.width


*class*关键字标志是建立类。既然类代表事物，那么类的名称应该是个名词或者名词词组。为了与函数或者变量名区别，建议用大写字母开头，词组的话每个单词开头用大写字母。

创建类下面都是方法，统一缩进一格。这里面有一个特殊方法*\_\_init\_\_*，算是我们需要写的唯一的以两个下划线开头的特殊方法，名称是固定的。我们叫它构造函数。它并不会被直接调用，创建类的实例时会默认调用它。这个特殊方法需要长和宽两个参数。多出来一个*self*可以认为是默认参数，它的意义在于加入类本身作为参数。

余下的两个函数就是计算面积和周长的，并没有要求其他的输入参数，而是使用*self*取得长宽。

类创建完毕后一般需要创建类的实例来使用。做个类比，如果说电脑是一个类，那么你在用的这台电脑就是一个类的实例。世界上有非常多的电脑，它们都是电脑的实例，它们之间有大量区别，但是他们都属于电脑类。


In [2]:
# 请先执行 矩形类 第一版
rec_1 = Rectangle(4, 5)
print('Rectangle has perimeter %.2f and area %.2f.'% (rec_1.get_perimeter(), rec_1.get_area()))

Initiated.
Rectangle has perimeter 18.00 and area 20.00.


调用过程当中根本没有出现过*self*，所以它并不是真正的输入参数。构建一个矩形实例时，看到了”Initiated”，证明特殊方法被调用。

在介绍函数时提过输入参数上的各种花样，包括默认值、参数关键字、类型提示和不定数量参数的接收，因为类当中所有方法都是函数。

来看一个细节。如果你建立的类之后不想轻易改动，比如刚刚建的4*5的矩形，你想保证只要这个矩形实例创建出来了就不想改动，应该怎样保证？可以让一些属性私有。来改造一下。

In [7]:
# 矩形类 第二版
class Rectangle:
    '''
    Rectangle class.
    '''
    def __init__(self, length, width, remark=None):
        self.__length = length
        self.__width = width
        self.remark = remark
        print('Initiated.')

    def get_perimeter(self):
        '''
        Get the perimeter.
        '''
        return (self.__length + self.__width) * 2

    def get_area(self):
        '''
        Get the area.
        '''
        return self.__length * self.__width
        
    def get_length_width(self):
        return self.__length, self.__width



In [5]:
# 需要先执行 矩形类 第二版
rec_2 = Rectangle(4, 5, 'This remark should be visible.')
print(rec_2.remark)
print(rec_2.get_length_width())
print(rec_2.__length)


Initiated.
This remark should be visible.
(4, 5)


AttributeError: 'Rectangle' object has no attribute '__length'

在*self*下的变量名前面加入两个下划线相当于把它设定为私有属性，不能直接访问实例的这个属性相比之下没有加下划线的变量就可以从外部直接获取，或者我专门建立一个函数来获得两个属性。

现在要开始体会类最有魅力的部分，继承。我们就以正方形类举例。正方形属于矩形，所以它可以继承矩形类。这时矩形被称为父类，正方形为自类。

In [8]:
# 正方形类 第一版
# 需要先执行 矩形类 第二版
class Square(Rectangle):
    def __init__(self, length):
        # super()代表父类
        super().__init__(length, length)


在类名后面的括号里加入其他类名就表明要继承这个类。方形继承了矩形，它将拥有矩形所有的方法，所以只需要重写它的构建函数就好了。


In [10]:
# 需要先执行 矩形类 第二版
# 需要先执行 正方形类 第一版
square_1 = Square(4)
print('Square has perimeter %.2f and area %.2f.'% (square_1.get_perimeter(), square_1.get_area()))

Initiated.
Square has perimeter 16.00 and area 16.00.


继承关系在Python中没有什么限制。Java中禁止一个类同时继承多个类，但是Python中允许。如果你有一天真的要真么做，那么一定要注意多个父类间有没有同名函数。子类会继承父类的方法，如果有那么它们之间到底哪个会起作用？研究这样的问题收益不大，所以尽量避免。

做个练习来巩固一下全面学的一些知识。随意建4个矩形，让它们按照面积从小到大排序，然后按照这个顺序输出周长。

In [9]:
# 需要先执行 矩形类 第二版
# 需要先执行 正方形类 第一版

rec_1 = Rectangle(2, 7)
rec_2 = Rectangle(3, 6)
rec_3 = Square(4)
rec_4 = Square(5)

list_of_rec = [rec_1, rec_2, rec_3, rec_4]

list_sorted = sorted(list_of_rec, key=lambda rec: rec.get_area())
for rec in list_sorted:
    print(rec.get_perimeter())


Initiated.
Initiated.
Initiated.
Initiated.
18
16
18
20


完，接第三部分。