# <center>Python3 基础教学</center>

## 0. Python 的笼统介绍

认识一个语言的第一步自然是从输出 Hello World 开始。

In [6]:
print('Hello World')

Hello World


同其他语言的 Hello World 代码相比，我们容易看出 Python 具有**优雅**、**简单**的特点。

In [7]:
import this

Python 的另一大特点是有**强大的标准库**。

Python 的可拓展性也非常不错，有着**大量的第三方库**，如Pandas、Numpy、Seaborn、Scikit-learn等等。

Python 比较接近人类语言，方便理解，**可读性强**。

---

Python 的主要缺点是相比于其他主流的编程语言，Python **运行速度比较慢**。

但是需要注意的是 Python 的部分第三方库运行起来速度不慢，因为这些库的底层是用其他语言来实现的。例如 Numpy 的底层是用 C 语言编写的。

---

Python 依靠**缩进**来判断语句之间的关系，在较短的代码中容易看清楚整体的逻辑结构，但是在较长的代码中就容易找不到对应关系。

---

Python 是一种**解释型**、**面向对象**、**动态数据类型**的**高级程序设计语言**。

**解释型语言** ([Interpreted Language](https://en.wikipedia.org/wiki/Interpreted_language))：解释型语言的程序不需要在运行前编译，在运行程序的时候才翻译，专门的解释器负责在每个语句执行的时候解释程序代码。这样解释型语言每执行一次就要翻译一次，效率比较低。其他的例子有 JavaScript、Perl、Ruby、MATLAB 等。对立的概念是编译型语言。

**面向对象程序设计** ([Object-Oriented Programming](https://en.wikipedia.org/wiki/Object-oriented_programming))：面向对象程序设计方法是尽可能模拟人类的思维方式，使得软件的开发方法与过程尽可能接近人类认识世界、解决现实问题的方法和过程，也即使得描述问题的问题空间与问题的解决方案空间在结构上尽可能一致，把客观世界中的实体抽象为问题域中的对象。面向对象程序设计以对象为核心，该方法认为程序由一系列对象组成，核心概念是类和对象。其他面向对象语言的例子有 Java、C++ (注意 C 不是面向对象程序设计语言)、C# 等。对立的概念是面向过程程序设计（以函数为核心）。

**动态数据类型** ([Strong and Weak Typing](https://en.wikipedia.org/wiki/Strong_and_weak_typing))：动态类型语言中，变量没有类型，只有数据有类型，变量可以持有任意类型的数据。其他动态数据类型语言的例子还有 JavaScript、Perl、Ruby 等。对立的概念是静态数据类型。

**高级程序设计语言** ([High-Level Programming Language](https://en.wikipedia.org/wiki/High-level_programming_language))：高级编程语言是高度封装了的编程语言。它是以人类的日常语言为基础的一种编程语言，使用一般人易于接受的文字来表示，有较高的可读性，以方便对电脑认知较浅的人亦可以大概明白其内容。其他高级程序设计语言的例子有 Visual Basic、Perl、Ruby、C#、C、C++、Java 等。对立的概念是低级程序设计语言。

---

Python 由 Guido van Rossum 于 1989 年底发明，第一个公开发行版发行于 1991 年。像 Perl 语言一样, Python 源代码同样遵循 GPL(GNU General Public License) 协议。

---

**官方宣布，2020年1月1日，停止 Python2 的更新**。Python2.7 被确定为最后一个 Python2.x 版本。

因为一些历史遗留问题，Python3 并不向下兼容 Python2，具体细节可以看 https://www.lagou.com/lgeduarticle/80779.html 。

---

所以，我们推荐使用 Python3 而不是 Python2。 Python3 和 Python2 的具体差异可以看 https://www.runoob.com/python/python-2x-3x.html 。

---

到此为止，前面出现的 Python 泛指 Python3 和 Python2，**之后出现的 Python 只指 Python3**。

---

举一个很简单的例子来看看 Python 的“能力”。

In [3]:
import sys
print('Python version:')
print(sys.version)
print('-' * 50)

import platform
print('Platform:', platform.system())
print('-' * 50)

import os
print('Current working directory:', os.getcwd())
print('-' * 50)

print('Get help on "what is os.getcwd":')
help(os.getcwd)

Python version:
3.8.1 (default, Dec 27 2019, 18:06:00) 
[Clang 11.0.0 (clang-1100.0.33.16)]
--------------------------------------------------
Platform: Darwin
--------------------------------------------------
Current working directory: /Users/apple/Documents/Introduction_to_Big_Data/Basic_Python
--------------------------------------------------
Get help on "what is os.getcwd":
Help on built-in function getcwd in module posix:

getcwd()
    Return a unicode string representing the current working directory.



不难看出 Python 往往能够用非常简短的代码完成要做的事情。但是仅仅会调用各种库里面的函数和类对于学习 Python 来说是远远不够的。

## 1. 基本概念

### 1.1 变量

Python 中的变量赋值不需要类型声明。

每个变量在使用前都必须赋值，变量赋值以后该变量才会被创建。

Python 里的变量名必须以字母、下划线（\_）开头，后面可以跟任意数目的字母、数字和下划线。此处的字母并不局限于 26 个英文字母，可以包含中文字符、日文字符等，且区分大小写。还有一点需要注意的是关键字不能作为变量名。

等号（=）用来给变量赋值。等号运算符左边是一个变量名，等号运算符右边是存储在变量中的值。

In [4]:
a = 1
print('a:', a, type(a))
a = '2'
print('a:', a, type(a))
# 赋予多个变量相同的值
a = b1 = 3.0
print('a:', a, type(a))
print('b1:', b1, type(b1))
# 赋予多个变量不同的值
a, _b = 4, True
print('a:', a, type(a))
print('_b:', _b, type(_b))

a: 1 <class 'int'>
a: 2 <class 'str'>
a: 3.0 <class 'float'>
b1: 3.0 <class 'float'>
a: 4 <class 'int'>
_b: True <class 'bool'>


上面是一些给变量赋值的基础方法，下面这些关键字都是不可以作为变量名的。

In [5]:
import keyword
print(keyword.kwlist)

['False', 'None', 'True', 'and', 'as', 'assert', 'async', 'await', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'nonlocal', 'not', 'or', 'pass', 'raise', 'return', 'try', 'while', 'with', 'yield']


### 1.2 注释

In [6]:
# 单行注释

'''
多行注释，里面可以包含"
多行注释，里面可以包含"
多行注释，里面可以包含"
'''

'''多行注释也可以写在一行'''

"""
多行注释，里面可以包含'
多行注释，里面可以包含'
多行注释，里面可以包含'
"""

"""多行注释也可以写在一行"""

print('此代码块前面部分都是注释')
a = '''这样可以作为字符串给变量赋值'''
print(a)

此代码块前面部分都是注释
这样可以作为字符串给变量赋值


### 1.3 基础数据类型

Python语言的数据类型包括整型、浮点型、字符串、布尔型和空值

In [7]:
_integer = 12345678909876543210123456789
_float = 3.1415926535897932384626433832
_string = '12345678909876543210123456789'
_bool = True
_none = None
print('_integer:', _integer, type(_integer), bool(_integer))
print('_float:', _float, type(_float), bool(_float))
print('_string:', _string, type(_string), bool(_string))
print('_bool:', _bool, type(_bool), bool(_bool))
print('_none:', _none, type(_none), bool(_none))

_integer: 12345678909876543210123456789 <class 'int'> True
_float: 3.141592653589793 <class 'float'> True
_string: 12345678909876543210123456789 <class 'str'> True
_bool: True <class 'bool'> True
_none: None <class 'NoneType'> False


需要注意的是：

1. Python 里的整数是高精度整数，即没有长度限制的整数，但是整数的长度越长，运算速度也就越慢
2. Python 里的浮点型在默认 print 的时候会自动进行一定程度的四舍五入
3. 非 0 的整数和浮点型在做判断时都会被视为真，非空的字符串在做判断时也都会被视为真，None会被视为假

In [8]:
print(1234567.234567)
print('1234567.234567')
print('-' * 50)
print(12.345671234567891234567)
print('12.345671234567891234567')
print('-' * 50)
print(1234567.1234567891234567)
print('1234567.1234567891234567')
print('-' * 50)
print(12345671234567891234.567)
print('12345671234567891234.567')
print('-' * 50)
test_value = 1
print(test_value, ':', bool(test_value))
test_value = -1
print(test_value, ':', bool(test_value))
test_value = 0
print(test_value, ':', bool(test_value))
test_value = 0.0
print(test_value, ':', bool(test_value))
test_value = 0.000000000000000000000000000000000000001
print(test_value, ':', bool(test_value))
test_value = ''
print(test_value, ':', bool(test_value))
test_value = '1 '
print(test_value, ':', bool(test_value))
test_value = ' 1'
print(test_value, ':', bool(test_value))

1234567.234567
1234567.234567
--------------------------------------------------
12.345671234567892
12.345671234567891234567
--------------------------------------------------
1234567.1234567892
1234567.1234567891234567
--------------------------------------------------
1.234567123456789e+19
12345671234567891234.567
--------------------------------------------------
1 : True
-1 : True
0 : False
0.0 : False
1e-39 : True
 : False
1  : True
 1 : True


### 1.4 二目运算符

包含加、减、乘、除、整除、幂、或、且、异或等等。

In [9]:
x, y = 3, 6
print('binary form of', x, 'is', bin(x)[2:])
print('binary form of', y, 'is', bin(y)[2:])
# 加
print(x, '+', y, '=', x + y, type(x + y))
# 减
print(x, '-', y, '=', x - y, type(x - y))
# 乘
print(x, '*', y, '=', x * y, type(x * y))
# 除
print(x, '/', y, '=', x / y, type(x / y))
# 整除
print(x, '//', y, '=', x // y, type(x // y))
# 幂
print(x, '**', y, '=', x ** y, type(x ** y))
# 或
print(x, '|', y, '=', x | y, type(x | y))
# 且
print(x, '&', y, '=', x & y, type(x & y))
# 异或
print(x, '^', y, '=', x ^ y, type(x ^ y))

binary form of 3 is 11
binary form of 6 is 110
3 + 6 = 9 <class 'int'>
3 - 6 = -3 <class 'int'>
3 * 6 = 18 <class 'int'>
3 / 6 = 0.5 <class 'float'>
3 // 6 = 0 <class 'int'>
3 ** 6 = 729 <class 'int'>
3 | 6 = 7 <class 'int'>
3 & 6 = 2 <class 'int'>
3 ^ 6 = 5 <class 'int'>


需要注意的是 x / y 返回的一定是一个浮点数，其他的则依赖于 x 和 y 的类型。二进制相关运算只对整数有效。

In [10]:
x, y = 6, 3
# 加
print(x, '+', y, '=', x + y, type(x + y))
# 减
print(x, '-', y, '=', x - y, type(x - y))
# 乘
print(x, '*', y, '=', x * y, type(x * y))
# 除
print(x, '/', y, '=', x / y, type(x / y))
# 整除
print(x, '//', y, '=', x // y, type(x // y))
# 幂
print(x, '**', y, '=', x ** y, type(x ** y))
# 或
print(x, '|', y, '=', x | y, type(x | y))
# 且
print(x, '&', y, '=', x & y, type(x & y))
# 异或
print(x, '^', y, '=', x ^ y, type(x ^ y))

6 + 3 = 9 <class 'int'>
6 - 3 = 3 <class 'int'>
6 * 3 = 18 <class 'int'>
6 / 3 = 2.0 <class 'float'>
6 // 3 = 2 <class 'int'>
6 ** 3 = 216 <class 'int'>
6 | 3 = 7 <class 'int'>
6 & 3 = 2 <class 'int'>
6 ^ 3 = 5 <class 'int'>


In [11]:
x, y = 6, 3.1
# 加
print(x, '+', y, '=', x + y, type(x + y))
# 减
print(x, '-', y, '=', x - y, type(x - y))
# 乘
print(x, '*', y, '=', x * y, type(x * y))
# 除
print(x, '/', y, '=', x / y, type(x / y))
# 整除
print(x, '//', y, '=', x // y, type(x // y))
# 幂
print(x, '**', y, '=', x ** y, type(x ** y))

6 + 3.1 = 9.1 <class 'float'>
6 - 3.1 = 2.9 <class 'float'>
6 * 3.1 = 18.6 <class 'float'>
6 / 3.1 = 1.9354838709677418 <class 'float'>
6 // 3.1 = 1.0 <class 'float'>
6 ** 3.1 = 258.3859389518842 <class 'float'>


In [12]:
x, y = 6.2, 3
# 加
print(x, '+', y, '=', x + y, type(x + y))
# 减
print(x, '-', y, '=', x - y, type(x - y))
# 乘
print(x, '*', y, '=', x * y, type(x * y))
# 除
print(x, '/', y, '=', x / y, type(x / y))
# 整除
print(x, '//', y, '=', x // y, type(x // y))
# 幂
print(x, '**', y, '=', x ** y, type(x ** y))

6.2 + 3 = 9.2 <class 'float'>
6.2 - 3 = 3.2 <class 'float'>
6.2 * 3 = 18.6 <class 'float'>
6.2 / 3 = 2.066666666666667 <class 'float'>
6.2 // 3 = 2.0 <class 'float'>
6.2 ** 3 = 238.32800000000003 <class 'float'>


### 1.5 类型转换

函数 int()、float()、str() 和 bool() 分别用于将变量转换成整型、浮点型、字符串和布尔型变量。

In [13]:
a = int('12345')
b = int(123.45)
c = int(True)
d = int(-7644)
print('a:', a, type(a))
print('b:', b, type(b))
print('c:', c, type(c))
print('d:', d, type(d))

a: 12345 <class 'int'>
b: 123 <class 'int'>
c: 1 <class 'int'>
d: -7644 <class 'int'>


In [14]:
a = float('1234.5')
b = float(123.188)
c = float(True)
d = float(763898)
print('a:', a, type(a))
print('b:', b, type(b))
print('c:', c, type(c))
print('d:', d, type(d))

a: 1234.5 <class 'float'>
b: 123.188 <class 'float'>
c: 1.0 <class 'float'>
d: 763898.0 <class 'float'>


In [15]:
a = str('1234.5')
b = str(123.188)
c = str(True)
d = str(763898)
print('a:', a, type(a))
print('b:', b, type(b))
print('c:', c, type(c))
print('d:', d, type(d))

a: 1234.5 <class 'str'>
b: 123.188 <class 'str'>
c: True <class 'str'>
d: 763898 <class 'str'>


布尔型变量的转换在 1.3 中已经出现过了。

函数 eval() 是一个综合的类型转化器，能把字符串转化成不同的类型，甚至还能做到表达式求值。

In [16]:
a = eval('12345')
b = eval('123.45')
c = eval('True')
d = eval('"alphabeta"')
e = eval('3 + 5 + 7')
f = eval('1e3 + 2')
print('a:', a, type(a))
print('b:', b, type(b))
print('c:', c, type(c))
print('d:', d, type(d))
print('e:', e, type(e))
print('f:', f, type(f))

a: 12345 <class 'int'>
b: 123.45 <class 'float'>
c: True <class 'bool'>
d: alphabeta <class 'str'>
e: 15 <class 'int'>
f: 1002.0 <class 'float'>


函数 isinstance() 可以用来判断一个值是否为指定类型。

In [17]:
print(isinstance('123', str), isinstance('123', int))

True False


## 2. 数据的容器

### 2.1 列表

列表（list）是一个有序的序列结构，序列中的元素可以是不同的数据类型。列表可以进行一系列序列操作，如索引、切片、加、乘和检查成员等。

In [18]:
_list = [1, 1.1, '123.4', True, None]
print(_list, type(_list))
# 加
print(_list + ['new data'])
# 乘：重复列表内元素
print(_list * 2)
# 切片操作，下面这个操作为截取列表在 index=3 之后的部分
print(_list[3:])
# 列表有序但不要求数据类型相同
print(0, _list[0], type(_list[0]))
print(1, _list[1], type(_list[1]))
print(2, _list[2], type(_list[2]))
print(3, _list[3], type(_list[3]))
print(4, _list[4], type(_list[4]))

[1, 1.1, '123.4', True, None] <class 'list'>
[1, 1.1, '123.4', True, None, 'new data']
[1, 1.1, '123.4', True, None, 1, 1.1, '123.4', True, None]
[True, None]
0 1 <class 'int'>
1 1.1 <class 'float'>
2 123.4 <class 'str'>
3 True <class 'bool'>
4 None <class 'NoneType'>


有关于列表的切片操作，更详细的内容可以参考 https://www.cnblogs.com/lengjf/p/9914642.html 。

函数 id() 可以用来查看一个对象对应的内存地址。

In [19]:
a = [1, 2, 3, 4, 5]
b = a
print('a:', a, id(a))
print('b:', b, id(b))
print('-' * 50)
b[2] = 7
print('a:', a, id(a))
print('b:', b, id(b))

a: [1, 2, 3, 4, 5] 4531641984
b: [1, 2, 3, 4, 5] 4531641984
--------------------------------------------------
a: [1, 2, 7, 4, 5] 4531641984
b: [1, 2, 7, 4, 5] 4531641984


在上面这个例子中，因为 a 和 b 共享的是同一块内存地址，所以 b 的改变也会引起 a 的改变。

In [20]:
a = [1, 2, 3, 4, 5]
b = [1, 2, 3, 4, 5]
print('a:', a, id(a))
print('b:', b, id(b))
print('-' * 50)
b[2] = 7
print('a:', a, id(a))
print('b:', b, id(b))

a: [1, 2, 3, 4, 5] 4531663488
b: [1, 2, 3, 4, 5] 4531878016
--------------------------------------------------
a: [1, 2, 3, 4, 5] 4531663488
b: [1, 2, 7, 4, 5] 4531878016


在上面这个例子中，因为 a 和 b 共享的不是同一块内存地址（虽然最开始它们看起来一样），所以 b 的改变不会引起 a 的改变。

In [21]:
a = [1, 2, 3, 4, 5]
b = [a]
print('a:', a, id(a))
print('b:', b, id(b))
print('b[0]:', b[0], id(b[0]))
print('-' * 50)
b[0][2] = 7
print('a:', a, id(a))
print('b:', b, id(b))
print('b[0]:', b[0], id(b[0]))
print('-' * 50)
b[0] = 7
print('a:', a, id(a))
print('b:', b, id(b))

a: [1, 2, 3, 4, 5] 4531574400
b: [[1, 2, 3, 4, 5]] 4531877504
b[0]: [1, 2, 3, 4, 5] 4531574400
--------------------------------------------------
a: [1, 2, 7, 4, 5] 4531574400
b: [[1, 2, 7, 4, 5]] 4531877504
b[0]: [1, 2, 7, 4, 5] 4531574400
--------------------------------------------------
a: [1, 2, 7, 4, 5] 4531574400
b: [7] 4531877504


关于 Python 内存分配相关的内容，可以参考 https://blog.csdn.net/zhuzuwei/article/details/80554776 。

In [22]:
a = [1, 2, 3, 4, 5]
print(a)
# 在末尾增加
a.append(2)
print(a)
# 删除第一个指定元素
a.remove(2)
print(a)
# 删除指定 index 位置处的元素，不指定的话默认删除最后一个
a.pop(0)
print(a)
a.pop()
print(a)
# 在指定 index 位置处添加一个元素
a.insert(1, 9)
print(a)
# 获取列表长度
print(len(a))
# 反转列表
a.reverse()
print(a)
# 对列表排序，从小到大
a.sort()
print(a)
# 对列表排序，从大到小
a.sort(reverse=True)
print(a)

[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5, 2]
[1, 3, 4, 5, 2]
[3, 4, 5, 2]
[3, 4, 5]
[3, 9, 4, 5]
4
[5, 4, 9, 3]
[3, 4, 5, 9]
[9, 5, 4, 3]


除了这些操作之外还有很多列表支持的操作，可以通过 dir() 函数来查看。

dir() 函数不带参数时，返回当前范围内的变量、方法和定义的类型列表；带参数时，返回参数的属性、方法列表。

接下来的容器，只介绍基础的功能和性质，具体的操作部分就不详细展开了，可以自己通过 dir() 函数配合官方文档 https://docs.python.org/3/ 查看和理解。

In [23]:
print(dir(list))

['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']


### 2.2 元组

元组可以看做是一个不可变的列表。实际上，tuple的使用可以使得代码更安全，防止错误赋值导致重要对象的改变。

In [24]:
_tuple = (1, 1.1, '123.4', True, None)
print(_tuple, type(_tuple), id(_tuple))
# 元组有序但不要求数据类型相同
print(0, _tuple[0], type(_tuple[0]))
print(1, _tuple[1], type(_tuple[1]))
print(2, _tuple[2], type(_tuple[2]))
print(3, _tuple[3], type(_tuple[3]))
print(4, _tuple[4], type(_tuple[4]))
# 元组不支持加和乘之类改变元组内容的操作，但是支持切片操作，下面这个操作为截取列表在 index=3 之后的部分
print(_tuple[3:])
print('-' * 50)

_list = [1, 1.1, '123.4', True, None]
print(_list, type(_list), id(_list))
# 元组和列表能够互相转换
_tuple = tuple(_list)
print(_tuple, type(_tuple), id(_tuple))
_list = list(_tuple)
print(_list, type(_list), id(_list))

(1, 1.1, '123.4', True, None) <class 'tuple'> 4531918864
0 1 <class 'int'>
1 1.1 <class 'float'>
2 123.4 <class 'str'>
3 True <class 'bool'>
4 None <class 'NoneType'>
(True, None)
--------------------------------------------------
[1, 1.1, '123.4', True, None] <class 'list'> 4531700096
(1, 1.1, '123.4', True, None) <class 'tuple'> 4532581296
[1, 1.1, '123.4', True, None] <class 'list'> 4532402496


### 2.3 字典

字典（dict）在其他语言中被称作哈希映射（hash map）或者相关数组（associative arrays）。字典是一种大小可变的键值对集，其中的键（key）和值（value）都是Python对象。

In [25]:
_dict = {'key': 'value',
         'one': 1,
         'two': 2,
         'three': 3,
         'four': 4,
         'five': 5,
         1: 'one',
         2: 'two',
         3: 'three',
         4: 'four',
         5: 'five'}
print(_dict, type(_dict))
_dict['six'] = 6
_dict[6] = 'six'
_dict['五'] = 5
print(_dict, type(_dict))
print(_dict['key'])
print(_dict['one'])
print(_dict['two'])
print(_dict[1])
print(_dict[2])
print(_dict['五'])

{'key': 'value', 'one': 1, 'two': 2, 'three': 3, 'four': 4, 'five': 5, 1: 'one', 2: 'two', 3: 'three', 4: 'four', 5: 'five'} <class 'dict'>
{'key': 'value', 'one': 1, 'two': 2, 'three': 3, 'four': 4, 'five': 5, 1: 'one', 2: 'two', 3: 'three', 4: 'four', 5: 'five', 'six': 6, 6: 'six', '五': 5} <class 'dict'>
value
1
2
one
two
5


字典中的数据元素是无序的，并不一定会按照初始化的顺序排列。不同键所对应的值可以相同，但是字典中的键（key）必须是唯一的。

In [26]:
_dict = {'key': 'value',
         'one': 1,
         'two': 2,
         'three': 3,
         'four': 4,
         'five': 5,
         1: 'one',
         2: 'two',
         3: 'three',
         4: 'four',
         5: 'five'}
print(_dict)
# 获取字典的所有键
print(_dict.keys())
# 获取字典的所有值
print(_dict.values())
# 获取字典的所有键值对
print(_dict.items())
# 安全获取字典的指定键对应值，若不存在返回一个选定的值（默认为空）
print(_dict.get(6, 'not existed'))
print(_dict.get(6))
# 字典支持 .pop() 操作来删除指定键值对
_dict.pop(5)
print(_dict)

{'key': 'value', 'one': 1, 'two': 2, 'three': 3, 'four': 4, 'five': 5, 1: 'one', 2: 'two', 3: 'three', 4: 'four', 5: 'five'}
dict_keys(['key', 'one', 'two', 'three', 'four', 'five', 1, 2, 3, 4, 5])
dict_values(['value', 1, 2, 3, 4, 5, 'one', 'two', 'three', 'four', 'five'])
dict_items([('key', 'value'), ('one', 1), ('two', 2), ('three', 3), ('four', 4), ('five', 5), (1, 'one'), (2, 'two'), (3, 'three'), (4, 'four'), (5, 'five')])
not existed
None
{'key': 'value', 'one': 1, 'two': 2, 'three': 3, 'four': 4, 'five': 5, 1: 'one', 2: 'two', 3: 'three', 4: 'four'}


### 2.4 集合

集合（set）是一种无序集，它是一组键的集合，不存储值。在集合中，重复的键是不被允许的。集合可以用于去除重复值。集合也可以进行数学集合运算，如并、交、差以及对称差等。

In [27]:
_set = {1, 2, 3, 4, 5}
print(_set, type(_set))
# 添加值，重复值不会重复储存
_set.add(0)
print(_set)
_set.add(1)
print(_set)
# 删除指定值
_set.remove(2)
print(_set)

{1, 2, 3, 4, 5} <class 'set'>
{0, 1, 2, 3, 4, 5}
{0, 1, 2, 3, 4, 5}
{0, 1, 3, 4, 5}


In [28]:
a = {1}
b = {1: 'one'}
c = set()
d = {}
e = dict()
f = ()
g = (1)
h = (1, )
print('a:', a, type(a))
print('b:', b, type(b))
print('c:', c, type(c))
print('d:', d, type(d))
print('e:', e, type(e))
print('f:', f, type(f))
print('g:', g, type(g))
print('h:', h, type(h))

a: {1} <class 'set'>
b: {1: 'one'} <class 'dict'>
c: set() <class 'set'>
d: {} <class 'dict'>
e: {} <class 'dict'>
f: () <class 'tuple'>
g: 1 <class 'int'>
h: (1,) <class 'tuple'>


需要注意一下如上这些创建不同容器的方法之间的区别。例如 {...} 既可以创建字典也可以创建集合，但是 {} 创建的是字典而不是集合。

In [29]:
a = {1, 2, 3}
b = {2, 3, 4}
print('a =', a)
print('b =', b)
# 集合并
print('a | b =', a | b)
# 集合交
print('a & b =', a & b)
# 集合差
print('a - b =', a - b)
print('b - a =', b - a)
# 集合对称差
print('a ^ b =', a ^ b)

a = {1, 2, 3}
b = {2, 3, 4}
a | b = {1, 2, 3, 4}
a & b = {2, 3}
a - b = {1}
b - a = {4}
a ^ b = {1, 4}


In [30]:
# 可以利用集合的特性对列表进行去重操作
a = [1, 2, 3, 4, 5, 9, 8, 7, 6, 5, 4, 3, 2, 1]
a = list(set(a))
print(a)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


## 3. 控制结构

### 3.1 if 选择结构

In [31]:
a = True
b = False
if a:
    print('a goes this way')

print('-' * 50)

if b:
    print('b would not take this way')
else:
    print('b goes this way')

print('-' * 50)

if b:
    print('b would not take this way')
elif not a:
    print('a would not take this way')

print('-' * 50)

if b:
    print('b would not take this way')
elif a:
    print('a goes this way')

print('-' * 50)

if b:
    print('b would not take this way')
elif not a:
    print('a would not take this way')
else:
    print('b goes this way')

a goes this way
--------------------------------------------------
b goes this way
--------------------------------------------------
--------------------------------------------------
a goes this way
--------------------------------------------------
b goes this way


if 可以单独用，也可以配合 else 和 elif 使用，elif 后面可以跟 else，但是 else 后面不能跟 elif，其中 elif ... 在语句中表示 else if ...。

if 和 elif 后面必须带上条件，else 后面必须不能带上条件。

not 表示取反，not True 相当于 False，not False 相当于 True。

### 3.2 for 循环结构

In [32]:
# 依次得到列表中的元素
for number in [1, 1, 2, 3, 5, 8, 13]:
    print(number)

1
1
2
3
5
8
13


In [33]:
# range 是一个数据生成器，可以按照要求生成一系列数
for i in range(10):
    print(i)

print('-' * 50)

# 尽管 i 的值改变了，但是在下一个循环的时候 i 又从 range 中拿取了下一个生成的值，所以没有影响
for i in range(10):
    i += 1
    print(i)

0
1
2
3
4
5
6
7
8
9
--------------------------------------------------
1
2
3
4
5
6
7
8
9
10


需要注意的是，虽然 range 的表现形式非常像一个迭代器，但 range 其实不是一个迭代器，具体解释可以参考 https://blog.csdn.net/IaC743nj0b/article/details/79547122 。

In [34]:
# 枚举 [1, 10)
for i in range(1, 10):
    print(i)

print('-' * 50)

# 每隔两位枚举 [1, 10)，从 1 开始
for i in range(1, 10, 2):
    print(i)

print('-' * 50)

# 每隔两位倒着枚举 (0, 10]，从 10 开始
for i in range(10, 0, -2):
    print(i)

1
2
3
4
5
6
7
8
9
--------------------------------------------------
1
3
5
7
9
--------------------------------------------------
10
8
6
4
2


range 操作起来有点类似于切片操作。

In [35]:
for i in range(10):
    print(i)
else:
    print('finished')
print('end')

print('-' * 50)

for i in range(10):
    if i > 5:
        break
    print(i)
else:
    print('finished')
print('end')

print('-' * 50)

for i in range(10):
    if i > 5:
        continue
    print(i)
else:
    print('finished')
print('end')

0
1
2
3
4
5
6
7
8
9
finished
end
--------------------------------------------------
0
1
2
3
4
5
end
--------------------------------------------------
0
1
2
3
4
5
finished
end


break 用于跳出**一个**循环。

continue 用于跳到当前循环的**下一个**开始位置而不跳出循环，即无视**当前轮**循环的剩下内容。

for 也可以同 else 配合使用，else 中的内容只有当 for 全部执行完而没有中途退出时才会执行。

In [36]:
d = {1: '1.1', 2: '2.2'}
for key in d:
    print(key)

1
2


for 直接作用于字典时，是对于其键的遍历。

In [37]:
a = enumerate([1, 1, 2, 3, 5, 8, 13])
print(a)
print(list(a))

print('-' * 50)

for index, value in enumerate([1, 1, 2, 3, 5, 8, 13]):
    print(index, value)

<enumerate object at 0x10e2c1280>
[(0, 1), (1, 1), (2, 2), (3, 3), (4, 5), (5, 8), (6, 13)]
--------------------------------------------------
0 1
1 1
2 2
3 3
4 5
5 8
6 13


enumerate 用来获取一系列的 index-value 对。当数量匹配时，Python 能把变量一一赋上对应的值，在 1.1 中的 *赋予多个变量不同的值* 中出现过。

In [38]:
a = [(1, 2, 3), (4, 5, 6), (7, 8, 9), (10, 11, 12)]
for x, y, z in a:
    print('x:', x, '; y:', y, '; z:', z)

print('-' * 50)    
    
for index, value in enumerate(a):
    x, y, z = value
    print('index:', index, '; x:', x, '; y:', y, '; z:', z)

x: 1 ; y: 2 ; z: 3
x: 4 ; y: 5 ; z: 6
x: 7 ; y: 8 ; z: 9
x: 10 ; y: 11 ; z: 12
--------------------------------------------------
index: 0 ; x: 1 ; y: 2 ; z: 3
index: 1 ; x: 4 ; y: 5 ; z: 6
index: 2 ; x: 7 ; y: 8 ; z: 9
index: 3 ; x: 10 ; y: 11 ; z: 12


In [39]:
a = [i ** 2 for i in range(5)]
print(a)

[0, 1, 4, 9, 16]


使用列表推导式可以让循环在列表内完成。

### 3.3 while 循环结构

while 循环结构同 for 循环结构类似，只不过 for 循环结构是遇到 break 或者全部遍历完成就终止了，而 while 循环结构是遇到 break 或者满足预设退出条件才终止。

In [40]:
i = 0
while i ** 2 + i + 1 <= 111:
    print(i, i ** 2 + i + 1)
    i += 1
else:
    print('finished')
print(i, i ** 2 + i + 1)
print('end')

0 1
1 3
2 7
3 13
4 21
5 31
6 43
7 57
8 73
9 91
10 111
finished
11 133
end


上面的循环求出了最小的正整数 n，使得 $n^{2} + n + 1 > 111$ 成立。可以看到 while 也是可以同 else 配合使用的，逻辑同 for 和 else 的配合逻辑，同理 break 和 continue。

当然，循环结构之间可以构成嵌套的关系。

## 4. 文件的读写操作

### 4.1 文件的读入

In [41]:
import os

print(os.listdir())
print(os.listdir('in_and_out'))

['learn_python.zip', '.DS_Store', 'online_jupyter_notebook.txt', '20200214-220315427.mp4', '0222.ipynb', 'in_and_out', 'MacOS_install', '.ipynb_checkpoints', 'Basic_Python3.ipynb', 'Windows_install', 'material']
['in.txt', 'out.txt']


查看当前目录下的文件和文件夹。

In [42]:
with open('in_and_out/in.txt', 'r') as f:
    print(f)
    raw_data = f.read()
    print(raw_data, type(raw_data))

print(f)
# f.read() 在这里已经不能操作了，尽管前后的 f 长得一样，因为这时文件已经不在打开的状态下了

<_io.TextIOWrapper name='in_and_out/in.txt' mode='r' encoding='UTF-8'>
input file <class 'str'>
<_io.TextIOWrapper name='in_and_out/in.txt' mode='r' encoding='UTF-8'>


mode='r' 就是使得文件读入的关键参数，open() 的默认 mode 也是 r。f.read() 获得的数据是字符串类型的，其他类型的需要从字符换类型进行类型转换。

### 4.2 文件的写入

In [43]:
# 写入，'w' 会覆盖文件之前的内容
with open('in_and_out/out.txt', 'w') as f:
    f.write('output file 1')

with open('in_and_out/out.txt', 'r') as f:
    raw_data = f.read()
    print(raw_data, type(raw_data))

output file 1 <class 'str'>


更多读写相关的内容可以参考 https://www.runoob.com/python/file-methods.html 。

有些库也会提供一些文件的读写函数，例如通过 Pandas 可以更加方便地读取各类表单数据。

## 5. 函数与类

### 5.1 函数

函数是组织好的，可重复使用的，用来实现单一，或相关联功能的代码段。

函数能提高应用的模块性，和代码的重复利用率。Python 提供了许多内建函数，比如 print()。我们也可以自己创建函数，这被叫做用户自定义函数。

---

定义一个由自己想要功能的函数，以下是简单的规则：

1. 函数代码块以 def 关键词开头，后接函数标识符名称和圆括号()。
2. 任何传入参数和自变量必须放在圆括号中间。圆括号之间可以用于定义参数。
3. 函数的第一个语句整体可以选择性地使用文档字符串，用于存放函数说明。
4. 函数内容以冒号起始，并且缩进。
5. return [表达式] 结束函数，选择性地返回一个值给调用方。不带表达式的return相当于返回 None。

In [44]:
def f(x, y):
    'x times y'
    print('input:', x, 'and', y)
    result = x * y
    print('output:', result)
    return result

print(f.__doc__)
print('-' * 50)
print(f(3, 5))
print('-' * 50)
print(f(5 + 3, 2 + 1))
print('-' * 50)
print(f(f(3, 2), 7))

x times y
--------------------------------------------------
input: 3 and 5
output: 15
15
--------------------------------------------------
input: 8 and 3
output: 24
24
--------------------------------------------------
input: 3 and 2
output: 6
input: 6 and 7
output: 42
42


In [45]:
def f(x):
    '''
    x square
    x^{2}
    x * x
    '''
    
    """
    not displayed
    """
    return x * x

print(f.__doc__)


    x square
    x^{2}
    x * x
    


文档可以写多行。

In [46]:
def f(x):
    # x square
    return x * x

print(f.__doc__)

None


注意这样的文档是不行的。

In [47]:
def f(x, y, z):
    print('x:', x, '; y:', y, '; z:', z)

f(1, 2, 3)
f(1, z=2, y=3)
f(x=1, y=2, z=3)

x: 1 ; y: 2 ; z: 3
x: 1 ; y: 3 ; z: 2
x: 1 ; y: 2 ; z: 3


可以按照顺序输入参数，也可以指定参数名称输入（可以不按照顺序），但是从第一个指定参数名称输入的参数起，后面都必须要指定参数名称输入参数了。

In [48]:
def f(x, y=2, z=3):
    print('x:', x, '; y:', y, '; z:', z)

f(1)
f(1, 3, 2)
f(1, 3)
f(z=1, y=3, x=2)

x: 1 ; y: 2 ; z: 3
x: 1 ; y: 3 ; z: 2
x: 1 ; y: 3 ; z: 3
x: 2 ; y: 3 ; z: 1


函数的参数可以有预设值。注意有预设值的参数必须放在参数列表的末尾。

In [49]:
def f(x, y, z):
    print('x:', x, '; y:', y, '; z:', z)
    
a = [4, 5, 6]
f(*a)
b = {'x': 7, 'y': 8, 'z': 9}
f(**b)

x: 4 ; y: 5 ; z: 6
x: 7 ; y: 8 ; z: 9


\* 可以用来“展开”待传递到函数中的 元组、列表、集合、字符串 等类型，并按位置传递到函数入口参数中。

\*\* 可以用来“展开”待传递到函数中的字典，并按关键字传递到函数入口参数中。

In [50]:
def f(x, y, *args):
    print('x:', x, '; y:', y, '; args:', args, type(args))

f(1, 2, 3, 4, 5)

x: 1 ; y: 2 ; args: (3, 4, 5) <class 'tuple'>


不定参数数量的函数的写法，注意 \*args 会被视为一个整体的元组。args 可以是任意的合法参数名。

In [51]:
def f(x, y, **kwargs):
    print('x:', x, '; y:', y, '; kwargs:', kwargs, type(kwargs))

f(1, 2, z=3, w=4, v=5)

x: 1 ; y: 2 ; kwargs: {'z': 3, 'w': 4, 'v': 5} <class 'dict'>


不定参数数量且要传入特定关键词参数的函数的写法，注意 \*\*kwargs 会被视为一个整体的字典。kwargs 可以是任意的合法参数名。

In [52]:
def f(x, y, *args, **kwargs):
    print(x, y, args, kwargs)

不定参数的两种类型可以混合使用，但是 \*\*kwargs 必须出现在末尾且两种类型各只能至多出现一次。

In [53]:
g = lambda x, y, z: x + y - z

def f(x, y, z):
    return x + y - z

print(f)
print(g)
print(g(1, 2, 3))
print(f(1, 2, 3))

<function f at 0x10e2c21f0>
<function <lambda> at 0x10e2c2430>
0
0


lambda 函数是一种简化了的函数定义形式，上例中的 f 函数和 g 函数是等价的。

---

一个函数在执行的过程中但凡执行到了 return 就会立刻退出函数。

---

函数中的变量还设计到变量作用域的问题，关于变量的作用域的相关知识，可以参考 https://baijiahao.baidu.com/s?id=1629972259474819006 。

In [54]:
def f():
    pass

Python 里 pass 是空语句，是为了保持程序结构的完整性。pass 不做任何事情，一般用做占位语句。

In [55]:
def f(n):
    for i in range(n):
        yield i ** 2

for x in f(5):
    print(x)

0
1
4
9
16


yield 关键字可以用来生成迭代器，详细解释可以参考 https://blog.csdn.net/mieleizhi0522/article/details/82142856 。

### 5.2 类

无论是变量还是函数，它们都是属于某一个特定的类（class）。类中的对象叫做该类的实例（instance）。特定类的所有对象都与方法（method）相关联，这些方法类似于一个函数，我们编写一次之后，可以重复的调用。一旦某个对象属于某个特定类之后，该对象就可以使用该类的所有方法。

In [56]:
class University():
    '''
    A class of university
    '''
    def __init__(self, name=''):
        self.name = name
    
    def missing_detecting(self):
        if self.name:
            print('The name of university is %s' % self.name)
        else:
            print('missing value')

print(University.__doc__)

sustech = University('SUSTech')
print(sustech)
print(sustech.name)
sustech.missing_detecting()


    A class of university
    
<__main__.University object at 0x10e2cb430>
SUSTech
The name of university is SUSTech


上面的例子创建了一个简单的类和一个类的实例。

\_\_doc\_\_ 显示出了类的文档内容。

\_\_init\_\_ 是类的初始化方法。

类通过 . 来调用内部的属性（比如 .name ）和方法（比如 .missing_detecting() ）。

self 代表的是类的实例，在实例上调用的时候不需要传入，具体的细节可以参考 https://www.cnblogs.com/wangjian941118/p/9360471.html 。

Python 的类也可以进行一定程度的封装，具体的类的 私有/保护 属性和方法可以参考 https://www.cnblogs.com/caimengzhi/p/8522002.html 和 https://www.cnblogs.com/yan-peng/p/9963169.html 。

Python 的类也可以进行继承的操作，具体可以参考 https://www.cnblogs.com/xiaokuangnvhai/p/11211194.html 和 https://www.runoob.com/w3cnote/python-extends-init.html 。

关于 Python 的类的详细教程可以参考 https://www.runoob.com/python/python-object.html 。

## 6. 异常处理

程序要遇到异常的时候，往往是直接中断，跳出执行。但是有些时候，我们需要在遇到异常的时候另外处理，而不是直接停止。

In [57]:
def f(x):
    return x

def catcher(*args):  
    try:  
        print(f(*args))
    except:  
        print('got exception')  
    else:  
        print('no exception')
    finally:
        print('always excuted')

catcher(3)
print('-' * 50)
catcher(3, 4)

3
no exception
always excuted
--------------------------------------------------
got exception
always excuted


try 和 except 这一对组合之后可以跟 else 和 finally。若 else 和 finally 同时出现，else 必须在 finally 前面。

try 不仅捕获异常，而且会恢复执行。try 无异常，才会执行else，否则执行 except 中内容。finally 总是在最后被执行。

In [58]:
def f(x):
    return x

def catcher(*args):  
    try:  
        print(f(*args))
    finally:
        print('always excuted')

catcher(3)
print('-' * 50)
# catcher(3, 4)

3
always excuted
--------------------------------------------------


try 也可以和 finally 组合。若 try 出现异常，则会在执行完 finally 之后中断执行，并提示异常。

In [59]:
try:
    raise
except:
    print('exception raised')

exception raised


我们可以使用 raise 语句自己触发异常。

了解更详细的异常处理相关知识可以参考 https://www.runoob.com/python/python-exceptions.html 。

## 7. 模块

一个模块只会被导入一次，不管你执行了多少次 import。这样可以防止导入模块被一遍又一遍地执行。

In [60]:
import csv

导入 csv 模块，这个模块可以方便我们读写 csv 文件。

In [61]:
from math import gcd
print(gcd(9, 6))

3


从 math 模块中导入 gcd 函数，gcd 函数是用来计算最大公因数的函数。

这个声明不会把整个 math 模块导入到当前的命名空间中，它只会将 math 里的 gcd 单个引入到执行这个声明的模块的全局符号表。

In [62]:
from math import *

把一个模块的所有内容全都导入到当前的命名空间也是可行的。

In [63]:
from math import factorial as f
print(f(4))

24


在导入的过程中也可以同时对其进行重命名，这样可以用来避免变量名重名。

例如上面的例子是把 math 模块中的 factorial 函数（用来返回阶乘值）导入并重命名为 f。

更多关于模块和包的操作可以参考 https://www.runoob.com/python/python-modules.html 。

## 8. Python 内置函数

Python 有很多功能强大的内置函数，比如说 print()、eval() 就是内置函数。

可以从 https://www.runoob.com/python/python-built-in-functions.html 查看内置函数。

在这里介绍几个前面没有出现的内置函数。

In [64]:
numbers = [1, 2, 3, 4, 5]
print(sum(numbers))

numbers = {1, 2, 3, 4, 5}
print(sum(numbers))

15
15


sum() 函数用于求和。

In [65]:
numbers = [5, 4, 3, 2, 1]
print(sorted(numbers))

numbers = {4, 5, 3, 2, 1}
print(sorted(numbers))

[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]


sorted() 函数用于返回一个排序好的列表。

In [66]:
a = map(lambda x: x ** 2, [1, 2, 3, 4, 5])
squares = list(a)
print(a)
print(squares)

<map object at 0x10e2d94c0>
[1, 4, 9, 16, 25]


map() 函数用于映射一个函数。

In [67]:
numbers = [5, 6, 2, 5, 9]
print('min:', min(numbers))
print('max:', max(numbers))

min: 2
max: 9


min()、max() 分别求取最小值和最大值。

## 9. 新的特性

3.5 新特性可以参考 https://blog.csdn.net/youzi_yun/article/details/87024043 。

3.6 新特性可以参考 https://www.cnblogs.com/yangliguo/p/7766949.html 。

3.7 新特性可以参考 https://www.jianshu.com/p/66aa47104365 。

3.8 新特性可以参考 https://baijiahao.baidu.com/s?id=1639375363426418681 。

## 10. 拓展

1. https://www.codewars.com
2. https://github.com/jackzhenguo/python-small-examples

## reference

1. 博雅大数据学院部分ppt
2. https://www.runoob.com/python/python-tutorial.html
3. https://docs.python.org/zh-cn/3/
4. https://docs.python.org/3/