# Python语法基础

## 语言的语义

&emsp;&emsp;Python的语言设计强调的是可读性、简洁和清晰。有些人称Python为“可执行的伪码”。

## 使用缩进，而不是括号

&emsp;&emsp;Python使用空白字符（tab和空格）来组织代码，如：

``` python
for x in array:
    if x < pivot:
        less.append(x)
    else:
        greater.append(x)
```

> 推荐使用4个空格来组织代码。

## 万物皆对象

&emsp;&emsp;Python语言的一个重要特性就是它的对象模型的一致性。每个数字、字符串、数据结构、函数、类、模块等等，都是在Python解释器的自有“盒子”内，它被认为是Python对象。每个对象都有类型（例如，字符串或函数）和内部数据。在实际中，这可以让语言非常灵活，因为函数也可以被当做对象使用。

## 注释

&emsp;&emsp;任何前面带有井号 `#` 的文本都会被Python解释器忽略。这通常被用来添加注释。

## 函数和对象方法调用

&emsp;&emsp;你可以用圆括号调用函数，传递零个或几个参数，或者将返回值给一个变量：

``` python
result = f(x, y, z)
g()
```

&emsp;&emsp;几乎Python中的每个对象都有附加的函数，称作方法，可以用来访问对象的内容。可以用下面的语句调用：

``` python
obj.some_method(x, y, z)
```

&emsp;&emsp;函数可以使用位置和关键词参数：
``` python
result = f(a, b, c, d=5, e='foo')
```

## 变量和参数传递

&emsp;&emsp;当在Python中创建变量（或名字），你就在等号右边创建了一个对这个变量的引用。考虑一个整数列表：

In [1]:
a = [1, 2, 3]

&emsp;&emsp;假设将a赋值给一个变量b：

In [2]:
b = a

&emsp;&emsp;在有些方法中，这个赋值会将数据[1, 2, 3]也复制。在Python中，a和b实际上是同一个对象，即原有列表[1, 2, 3]（见图下）。
![对同一对象的双重引用](https://upload-images.jianshu.io/upload_images/7178691-3e3a8c6b9c5040fc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/700)
&emsp;&emsp;你可以在a中添加一个元素，然后检查b：

In [3]:
a.append(4)

b

[1, 2, 3, 4]

&emsp;&emsp;理解Python的引用的含义，数据是何时、如何、为何复制的，是非常重要的。尤其是当你用Python处理大的数据集时。

> **笔记：**赋值也被称作绑定，我们是把一个名字绑定给一个对象。变量名有时可能被称为绑定变量。

&emsp;&emsp;当你将对象作为参数传递给函数时，新的局域变量创建了对原始对象的引用，而不是复制。如果在函数里绑定一个新对象到一个变量，这个变动不会反映到上一层。因此可以改变可变参数的内容。假设有以下函数：

In [4]:
def append_element(some_list, element):
    some_list.append(element)
    
data = [1, 2, 3]

append_element(data, 4)

data

[1, 2, 3, 4]

## 动态引用，强类型

&emsp;&emsp;Python中的对象引用不包含附属的类型：

In [5]:
a = 42
type(a)

int

In [6]:
a = 'the answer to life universe and everything'
type(a)

str

&emsp;&emsp;变量是在特殊命名空间中的对象的名字，类型信息保存在对象自身中。一些人可能会说Python不是“类型化语言”。这是不正确的，看下面的例子：

In [7]:
try:
    '5' + 5
except Exception as e:
    print(e)

must be str, not int


&emsp;&emsp;在某些语言中，例如 Visual Basic ，字符串 `'5'` 可能被默许转换（或投射）为整数，因此会产生10。但在其它语言中，例如 JavaScript ，整数5个能被投射成字符串，结果是联结字符串 `‘55’` 。在这个方面，Python 被认为是强类型化语言，意味着每个对象都有明确的类型（或类），默许转换只会发生在特定的情况下，例如：

In [8]:
a = 4.5
b = 2

print('a is {0}, b is {1}'.format(type(a), type(b)))

a / b

a is <class 'float'>, b is <class 'int'>


2.25

&emsp;&emsp;知道对象的类型很重要，最好能让函数可以处理多种类型的输入。你可以用  `isinstance` 函数检查对象是某个类型的实例：

In [9]:
a = 5
isinstance(a, int)

True

&emsp;&emsp;`isinstance` 可以用类型元组，检查对象的类型是否在元组中：

In [10]:
a = 5
b = 4.5

In [11]:
isinstance(a, (int, float))

True

In [12]:
isinstance(b, (int, float))

True

## 属性和方法

&emsp;&emsp;Python 的对象通常都有属性（其它存储在对象内部的 Python 对象）和方法（对象的附属函数可以访问对象的内部数据）。可以用 `obj.attribute_name` 访问属性和方法：

``` python
a = 'foo'

a.<Press Tab>
```

&emsp;&emsp;也可以用getattr函数，通过名字访问属性和方法：

``` python
getattr(a, 'split')
```    
    
&emsp;&emsp;在其它语言中，访问对象的名字通常称作“反射”。本书不会大量使用 `getattr` 函数和相关的 `hasattr` 和 `setattr` 函数，使用这些函数可以高效编写原生的、可重复使用的代码。

## 鸭子类型

&emsp;&emsp;经常地，你可能不关心对象的类型，只关心对象是否有某些方法或用途。这通常被称为“鸭子类型”，来自“走起来像鸭子、叫起来像鸭子，那么它就是鸭子”的说法。例如，你可以通过验证一个对象是否遵循迭代协议，判断它是可迭代的。对于许多对象，这意味着它有一个  `__iter__` 魔术方法，其它更好的判断方法是使用 `iter` 函数：

In [13]:
def isiterable(obj):
    try:
        iter(obj)
        return True
    except TypeError: # not iterable
        return False

In [14]:
isiterable('a string')

True

In [15]:
isiterable([1, 2, 3])

True

In [16]:
isiterable(5)

False

&emsp;&emsp;用这个功能编写可以接受多种输入类型的函数。常见的例子是编写一个函数可以接受任意类型的序列（list、tuple、ndarray）或是迭代器。你可先检验对象是否是列表（或是NUmPy数组），如果不是的话，将其转变成列表：
``` python
if not isinstance(x, list) and isiterable(x):
    x = list(x)
```

## 引入

&emsp;&emsp;在 Python 中，模块就是一个有 `.py` 扩展名、包含 Python 代码的文件。假设有以下模块：

``` python
# some_module.py
PI = 3.14159

def f(x):
    return x + 2

def g(a, b):
    return a + b
```

&emsp;&emsp;如果想从同目录下的另一个文件访问 `some_module.py` 中定义的变量和函数，可以：

``` python
import some_module
result = some_module.f(5)
pi = some_module.PI
```

&emsp;&emsp;或者：

``` python
from some_module import f, g, PI
result = g(5, PI)
```

&emsp;&emsp;使用 `as` 关键词，你可以给引入起不同的变量名：

``` python
import some_module as sm
from some_module import PI as pi, g as gf

r1 = sm.f(pi)
r2 = gf(6, pi)
```

## 二元运算符和比较运算符

![二元运算符和比较运算符](https://upload-images.jianshu.io/upload_images/7178691-9fb5f25b33166acf.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/700)

## 字符串

&emsp;&emsp;许多人是因为 Python 强大而灵活的字符串处理而使用 Python 的。你可以用单引号或双引号来写字符串：

In [17]:
a = 'one way of writing a string'
b = "another way"

&emsp;&emsp;对于有换行符的字符串，可以使用三引号，`'''` 或 `"""` 都行：

In [18]:
c = """
This is a longer string that
spans multiple lines
"""

&emsp;&emsp;字符串 `c` 实际包含四行文本，`"""` 后面和 `lines` 后面的换行符。可以用 `count` 方法计算 `c` 中的新的行：

In [19]:
c.count('\n')

3

&emsp;&emsp;Python的字符串是不可变的，不能修改字符串：

In [20]:
a = 'this is a string'

try:
    a[10] = 'f'
except Exception as e:
    print(e)

'str' object does not support item assignment


In [21]:
a

'this is a string'

&emsp;&emsp;许多Python对象使用str函数可以被转化为字符串：

In [22]:
a = 5.6
s = str(a)
type(s)

str

&emsp;&emsp;字符串是一个序列的 Unicode 字符，因此可以像其它序列，比如列表和元组（下一章会详细介绍两者）一样处理：

In [23]:
s = 'python'
list(s)

['p', 'y', 't', 'h', 'o', 'n']

In [24]:
s[:3]

'pyt'

&emsp;&emsp;语法 `s[:3]` 被称作切片，适用于许多 Python 序列。后面会更详细的介绍，本书中用到很多切片。

&emsp;&emsp;反斜杠是转义字符，意思是它备用来表示特殊字符，比如换行符 `\n` 或 `Unicode` 字符。要写一个包含反斜杠的字符串，需要进行转义：

In [25]:
s = '12\\34'

print(s)

12\34


&emsp;&emsp;如果字符串中包含许多反斜杠，但没有特殊字符，这样做就很麻烦。幸好，可以在字符串前面加一个 `r` （代表raw），表明字符就是它自身：

In [26]:
s = r'this\has\no\special\characters'

s

'this\\has\\no\\special\\characters'

&emsp;&emsp;将两个字符串合并，会产生一个新的字符串：

In [27]:
a = 'this is the first half '
b = 'and this is the second half'
a + b

'this is the first half and this is the second half'

&emsp;&emsp;字符串的模板化或格式化，是另一个重要的主题。Python 3 拓展了此类的方法，这里只介绍一些。字符串对象有 `format` 方法，可以替换格式化的参数为字符串，产生一个新的字符串：

In [28]:
template = '{0:.2f} {1:s} are worth US${2:d}'

&emsp;&emsp;在这个字符串中，

- `{0:.2f}` 表示格式化第一个参数为带有两位小数的浮点数。
- `{1:s}` 表示格式化第二个参数为字符串。
- `{2:d}` 表示格式化第三个参数为一个整数。

&emsp;&emsp;要替换参数为这些格式化的参数，我们传递 `format` 方法一个序列：

In [29]:
template.format(4.5560, 'Argentine Pesos', 1)

'4.56 Argentine Pesos are worth US$1'

&emsp;&emsp;字符串格式化是一个很深的主题，有多种方法和大量的选项，可以控制字符串中的值是如何格式化的。推荐参阅[ Python 官方文档](https://docs.python.org/3/library/stdtypes.html?highlight=format#str.format)。

## 字节和 Unicode

&emsp;&emsp;在 Python 3 及以上版本中，Unicode 是一级的字符串类型，这样可以更一致的处理  ASCII 和 Non-ASCII 文本。在老的 Python 版本中，字符串都是字节，不使用 Unicode 编码。假如知道字符编码，可以将其转化为 Unicode 。看一个例子：

In [30]:
val = "español"

In [31]:
val

'español'

&emsp;&emsp;用 `encode` 将这个 Unicode 字符串编码为 UTF-8：

In [32]:
val_utf8 = val.encode('utf-8')

In [33]:
val_utf8

b'espa\xc3\xb1ol'

In [34]:
type(val_utf8)

bytes

&emsp;&emsp;如果你知道一个字节对象的 Unicode 编码，用 `decode` 方法可以解码：

In [35]:
val_utf8.decode('utf-8')

'español'

&emsp;&emsp;虽然 UTF-8 编码已经变成主流，但因为历史的原因，你仍然可能碰到其它编码的数据：

In [36]:
val.encode('latin1')

b'espa\xf1ol'

In [37]:
val.encode('utf-16')

b'\xff\xfee\x00s\x00p\x00a\x00\xf1\x00o\x00l\x00'

In [38]:
val.encode('utf-16le')

b'e\x00s\x00p\x00a\x00\xf1\x00o\x00l\x00'

&emsp;&emsp;工作中碰到的文件很多都是字节对象，盲目地将所有数据编码为 Unicode 是不可取的。

&emsp;&emsp;虽然用的不多，你可以在字节文本的前面加上一个 `b` ：

In [39]:
bytes_val = b'this is bytes'

In [40]:
bytes_val

b'this is bytes'

In [41]:
decoded = bytes_val.decode('utf8')

In [42]:
decoded

'this is bytes'

## 布尔值

&emsp;&emsp; Python 中的布尔值有两个，`True` 和 `False`。比较和其它条件表达式可以用 `True` 和 `False` 判断。布尔值可以与 `and` 和 `or` 结合使用：

In [43]:
True and True

True

In [44]:
False or True

True

## 类型转换

&emsp;&emsp;`str` 、 `bool` 、 `int` 和 `float` 也是函数，可以用来转换类型：

In [45]:
s = '3.14159'

In [46]:
fval = float(s)
type(s)

str

In [47]:
int(fval)

3

In [48]:
bool(fval)

True

In [49]:
bool(0)

False

## None

&emsp;&emsp;`None` 是 Python 的空值类型。如果一个函数没有明确的返回值，就会默认返回 `None`：

In [50]:
a = None

In [51]:
a is None

True

In [52]:
b = 5

In [53]:
b is not None

True

&emsp;&emsp;`None` 也常常作为函数的默认参数：

In [54]:
def add_and_maybe_multiply(a, b, c=None):
    result = a + b

    if c is not None:
        result = result * c

    return result

&emsp;&emsp;另外，`None` 不仅是一个保留字，还是唯一的 `NoneType` 的实例：

In [55]:
type(None)

NoneType

## 日期和时间

&emsp;&emsp;Python 内建的 `datetime` 模块提供了 `datetime`、 `date` 和 `time` 类型。`datetime` 类型结合了 `date` 和 `time`，是最常使用的：

In [56]:
from datetime import datetime, date, time

dt = datetime(2011, 10, 29, 20, 30, 21)

print("Day: {0}, Min: {1}".format(dt.day, dt.minute))

Day: 29, Min: 30


&emsp;&emsp;根据 `datetime` 实例，你可以用 `date` 和 `time` 提取出各自的对象：

In [57]:
dt.date()

datetime.date(2011, 10, 29)

In [58]:
dt.time()

datetime.time(20, 30, 21)

&emsp;&emsp;`strftime` 方法可以将 datetime 格式化为字符串：

In [59]:
dt.strftime('%m/%d/%Y %H:%M')

'10/29/2011 20:30'

&emsp;&emsp;`strptime` 可以将字符串转换成 datetime 对象：

In [60]:
datetime.strptime('20091031', '%Y%m%d')

datetime.datetime(2009, 10, 31, 0, 0)

![Datetime格式化指令（与ISO C89兼容）](https://upload-images.jianshu.io/upload_images/7178691-100f9a20c1536553.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/692)

&emsp;&emsp;当你聚类或对时间序列进行分组，替换 datetimes 的 time 字段有时会很有用。例如，用0替换分和秒：

In [61]:
dt.replace(minute=0, second=0)

datetime.datetime(2011, 10, 29, 20, 0)

&emsp;&emsp;因为 `datetime.datetime` 是不可变类型，上面的方法会产生新的对象。

&emsp;&emsp;两个 datetime 对象的差会产生一个 `datetime.timedelta` 类型：

In [62]:
dt2 = datetime(2011, 11, 15, 22, 30)
delta = dt2 - dt

delta

datetime.timedelta(17, 7179)

In [63]:
type(delta)

datetime.timedelta

&emsp;&emsp;结果 `timedelta(17, 7179)` 指明了 `timedelta` 将17天、7179秒的编码方式。

&emsp;&emsp;将 `timedelta` 添加到 `datetime`，会产生一个新的偏移 `datetime`：

In [64]:
dt

datetime.datetime(2011, 10, 29, 20, 30, 21)

In [65]:
dt + delta

datetime.datetime(2011, 11, 15, 22, 30)

## 控制流

###  if、elif和else

&emsp;&emsp;`if` 是最广为人知的控制流语句。它检查一个条件，如果为 `True`，就执行后面的语句：

``` python
if x < 0:
    print('It's negative')
```

&emsp;&emsp;`if` 后面可以跟一个或多个 `elif`，所有条件都是 `False` 时，还可以添加一个 `else`：

``` python
if x < 0:
    print('It\'s negative')
elif x == 0:
    print('Equal to zero')
elif 0 < x < 5:
    print('Positive but smaller than 5')
else:
    print('Positive and larger than or equal to 5')
```

&emsp;&emsp;如果某个条件为 `True`，后面的 `elif` 就不会被执行。当使用 `and` 和 `or` 时，复合条件语句是从左到右执行：

In [68]:
a = 5
b = 7
c = 8
d = 4

if a < b or c > d:
    print('Made it')

Made it


&emsp;&emsp;在这个例子中，`c > d` 不会被执行，因为第一个比较是 `True`：

&emsp;&emsp;也可以把比较式串在一起：

In [69]:
4 > 3 > 2 > 1

True

### for循环

&emsp;&emsp;for 循环是在一个集合（列表或元组）中进行迭代，或者就是一个迭代器。for 循环的标准语法是：

``` python
for value in collection:
    # do something with value
```

&emsp;&emsp;你可以用 `continue` 使 for 循环提前，跳过剩下的部分。看下面这个例子，将一个列表中的整数相加，跳过 `None` ：

In [72]:
sequence = [1, 2, None, 4, None, 5]
total = 0
for value in sequence:
    if value is None:
        continue
    total += value
total

12

&emsp;&emsp;可以用 `break` 跳出 for 循环。下面的代码将各元素相加，直到遇到5：

In [73]:
sequence = [1, 2, 0, 4, 6, 5, 2, 1]
total_until_5 = 0
for value in sequence:
    if value == 5:
        break
    total_until_5 += value
total

12

&emsp;&emsp;`break` 只中断 for 循环的最内层，其余的 for 循环仍会运行：

In [74]:
for i in range(4):
    for j in range(4):
        if j > i:
            break
        print((i, j))

(0, 0)
(1, 0)
(1, 1)
(2, 0)
(2, 1)
(2, 2)
(3, 0)
(3, 1)
(3, 2)
(3, 3)


&emsp;&emsp;如果集合或迭代器中的元素序列（元组或列表），可以用for循环将其方便地拆分成变量：

``` python
for a, b, c in iterator:
    # do something
```

### While循环

&emsp;&emsp;while 循环指定了条件和代码，当条件为 `False` 或用 `break` 退出循环，代码才会退出：

In [76]:
x = 256
total = 0
while x > 0:
    if total > 500:
        break
    total += x
    x = x // 2
total

504

&emsp;&emsp;`pass` 是 Python 中的非操作语句。代码块不需要任何动作时可以使用（作为未执行代码的占位符）；因为 Python 需要使用空白字符划定代码块，所以需要 `pass`：

In [77]:
if x < 0:
    print('negative!')
elif x == 0:
    # TODO: put something smart here
    pass
else:
    print('positive!')

positive!


&emsp;&emsp;`range` 函数返回一个迭代器，它产生一个均匀分布的整数序列：

In [79]:
range(10)

range(0, 10)

In [80]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

&emsp;&emsp;`range` 的三个参数是（起点，终点，步进）：

In [82]:
list(range(0, 20, 2))

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [83]:
list(range(5, 0, -1))

[5, 4, 3, 2, 1]

&emsp;&emsp;可以看到，`range` 产生的整数不包括终点。`range` 的常见用法是用序号迭代序列：

In [85]:
seq = [1, 2, 3, 4]
for i in range(len(seq)):
    val = seq[i]
val

4

&emsp;&emsp;可以使用 `list` 来存储 `range` 在其他数据结构中生成的所有整数，默认的迭代器形式通常是你想要的。下面的代码对0到99999中3或5的倍数求和：

In [87]:
sum = 0
for i in range(100000):
    # % is the modulo operator
    if i % 3 == 0 or i % 5 == 0:
        sum += i
sum

2333316668

> 虽然range可以产生任意大的数，但任意时刻耗用的内存却很小。

### 三元表达式

&emsp;&emsp;Python 中的三元表达式可以将 `if-else` 语句放到一行里。语法如下：

``` python
value = true-expr if condition else false-expr
```

&emsp;&emsp;`true-expr` 或 `false-expr` 可以是任何 Python 代码。它和下面的代码效果相同：

``` python
if condition:
    value = true-expr
else:
    value = false-expr
```    
    
&emsp;&emsp;下面是一个更具体的例子：

In [88]:
x = 5

In [89]:
'Non-negative' if x >= 0 else 'Negative'

'Non-negative'

&emsp;&emsp;和 `if-else` 一样，只有一个表达式会被执行。因此，三元表达式中的 `if` 和 `else` 可以包含大量的计算，但只有 `True` 的分支会被执行。

&emsp;&emsp;虽然使用三元表达式可以压缩代码，但会降低代码可读性。