# Python语言简介

## 为什么选择Python

对大量交通数据进行处理必须借助某种软件工具。当前常用的软件工具有商业软件Matlab、Mathematica，开源软件R、Julia，Python。这些工具各有特色和适用范围，我们选取Python基于以下考虑：

- 开源系统。一方面可以免费使用，另一方面有源代码，如果需要可以深入研究。
- 通用编程语言。不仅可以处理数据，还能够胜任其他编程任务，例如仿真，游戏开发，数据抓取等。
- 业界标准。无论在学术界还是业界，Python都是数据处理工具的主流。

## Python语言的特点

编程语言的数量庞大，每种语言的设计时都有一些特别的考虑。Python语言设计的核心思想是可读性和易用性，相对来说运行效率是次要考虑。为了保证可读性，Python的语法尽量接近自然语言（英语），尽量使用单词而不是符号表示运算；这样一来很多时候实际的Python代码和描述算法思想的“伪代码”看起来非常接近。为了保证易用性Python语言整合了大量“模块”，各模块提供了基本的功能、算法、数据结构，Python代码往往只需要把适当的模块拼接起来，因此往往被称为“胶水语言”。

这种“模块+胶水”的结构还有另外一个好处。由于多数实际计算发生在模块中，而模块一般用C++，Fortran等高效语言开发，Python语言本身低效并不会显著影响整个程序的计算效率。考虑到硬件越来越便宜，程序员的工资越来越高，牺牲少量的计算效率来提高开发效率是合理的。

## Python入门

编程语言和日常使用的自然语言具有共同的目的，都是描述情景和流程。自然语言中最重要的成份是名词和动词，其中名词用于指代物体，动词用于描述对物体的操作。编程语言中名词对应与数据和变量，动词对应于操作符和函数。因此我们学习Python也从这几个概念开始。

### 数据类型

Python中的数据类型大致可以分为两类，基本数据类型和复合数据类型。两者区别是复合数据类型可以分解成基本数据类型，基本数据类型不能继续分解。基本数据类型主要有：

- 整数
- 浮点数
- 字符串
- 布尔值
- `None`

复合数据类型主要有：

- 链表（`List`）
- 元组（`Tuple`）
- 字典（`Dict`）
- 集合（`Set`）
- 数组（`Array`）

复合数据类型由多个基本数据类型组合而成，因此又称为*容器*。

#### 整数和浮点数

整数和浮点数都表示数字，在数学概念上可以认为一样，两者区别主要体现在内存中的表示方式。整数和浮点数支持常见的代数运算操作。

In [35]:
3+2*(4-6.0)/3.0

1.6666666666666667

可能不常见的运算符有

- 整除`\\`，两数相除结果取整
- 求余`%`，两数相除取余
- 乘方`**`

In [36]:
5 / 3

1.6666666666666667

In [37]:
5 // 3

1

In [38]:
5 % 3

2

In [39]:
5 ** 3

125

Python的数学函数来自于扩展模块numpy。使用前首先用`import`关键字导入到当前环境中，`as np`部分给模块取一个较短的别名，方便使用。`np`这个名字并没有特殊含义，只是约定俗成。

In [40]:
import numpy as np

现在我们可以调用np模块中的数学函数，例如

In [41]:
np.sin(3.14)

0.0015926529164868282

In [42]:
np.log(4)

1.3862943611198906

In [43]:
np.sqrt(9)

3.0

更多的函数参考[`numpy`文档](https://numpy.org/doc/)。

####  字符串

字符串需要用单引号和双引号包围，例如`abc`，`大小多少`。

字符串拼接运算是`+`，将多个字符串拼接成一个字符串。

In [44]:
"abc" + "def"

'abcdef'

In [45]:
s = "abcdefg"
s[3]

'd'

与拼接相反，索引操作符将一个字符串拆分。其中`3`代表第四个字符，因为Python中编号从`0`开始。

In [46]:
s[2:4]

'cd'

索引不但可以获取单个字符，也可以获取一个范围。注意，这两个数字构成半开区间[2,4)，前闭后开，4号元素不包含在内。

In [47]:
s[:4]

'abcd'

省略掉第一个数字代表从头开始

In [48]:
s[2:]

'cdefg'

省略掉后第二个数字代表到最后结束

In [49]:
s[-3:-1]

'ef'

`-1`代表倒数第一个元素，`-3`依此类推。

In [50]:
s[1:5:2]

'bd'

第三个数字`2`代表取值的间隔为2

In [51]:

s[::-1]

'gfedcba'

间隔值也可以为负，表示从后向前取值。

从抽象层面上讲，索引操作描述了如何从一串物体中按照一定规则取出一部分，适用范围不局限在字符串上，对后面的各种容器都有效，非常重要。

#### 布尔值

Python中布尔值和布尔运算直接用英文单词表示，可读性更好。

In [52]:
True and False

False

In [53]:
True or False

True

In [54]:
not True

False

#### `None`

`None`是一个特殊的值，表示“没有”。例如某个函数逻辑上不需要返回值时，返回值实际时`None`

#### 链表和元组

链表和元组都表示一个线性序列，也就是一串物体。链表用方括号`[]`表示，元组用圆括号`()`表示。

In [55]:
# L表示List
L = [1, True, "abc", 4]

In [56]:
# T表示Tuple
T = (1, True, "abc", 4)

可以看到，序列中的元素可以是不同类型

In [57]:
L[1:3]

[True, 'abc']

In [58]:
T[1:3]

(True, 'abc')

由于索引操作对链表和元组都适用。两者主要的区别是，链表是可变数据类型，里面的元素可以替换；元组是不可变数据类型，一旦定义，元素不可替换。例如

In [59]:
L[1] = "xyh"
L

[1, 'xyh', 'abc', 4]

In [60]:
T[1] = "xyh"

TypeError: 'tuple' object does not support item assignment

可以看到替换元组的元素时程序出错，错误提示告诉我们元组的元素不能替换。

#### 集合

集合用花括号`{}`表示。概念与数学集合相同，主要用于判断元素的隶属关系。

In [61]:
# S表示Set
S = {1, True, "abc", 4}

In [62]:
1 in S

True

In [63]:
3 in S

False