### 2.3 Python 语法基础
#### 语言的语义
Python的语言设计强调的是可读性、简洁和清晰。有些人称Python为“可执行的伪代码”
#### 使用缩进而不是括号
Python使用空白字符（tab和空格）来组织代码，而不是像其他语言那样使用括号。
```
for x in array:
    if x < pivot:
        less.append(x)
    else:
        greater.append(x)
```
冒号标志着缩进代码块的开始，冒号之后的所有代码的缩进量必须相同，直到代码块结束。  

**注意**
- 强烈建议使用四个空格作为默认的缩进。

Python的语句不需要用分号结尾。但是，分号却可以用来给在同一行的语句切分：
```
a = 5; b = 6; c = 7;
```
Python不建议将多条语句放在同一行，这会降低代码的可读性。

#### 万物皆对象
Python语言的一个重要特性就是它的对象模型的一致性。每个数字、字符串、数据结构、函数、类、模块等等，都是在Python解释器的自有盒子内。它被认为是Python的对象。每个对象都有类型（例如字符串或函数）和内部数据。在实际中，这可以让语言非常灵活，因为函数也可以当作对象使用。
#### 注释
任何前面带有#的文本都会被Python解释器忽略。这通常被用来添加注释。有时，你会想排除一段代码，但并不删除。简便的方法就是将其注释掉。也可以在执行过的代码后面添加注释。
#### 函数和对象方法调用
你可以用圆括号调用函数，传递零个或几个参数，或者将返回值给一个变量。
```
result = f(x, y, z)
g()
```
几乎Python中的每个对象都有附加的函数，称作方法，可以用来访问对象的内容。可以用下面的语句调用：
```
obj.some_method(x, y, z)
```
函数可以使用位置和关键词参数：
```
result = f(a, b, c, d=5, e='foo')
```


#### 变量和参数传递
当在Python中创建变量（或名字），你就在等号右边创建了一个对这个变量的引用。

In [1]:
a = [1, 2, 3]

假设将a赋值给一个新变量b：

In [3]:
b = a

在有些方法中，这个赋值会将数据[1, 2, 3]也复制。在Python中，a和b实际上是同一个对象，即原有列表[1, 2, 3]。你可以在a中添加一个元素，然后检查b：

In [4]:
a.append(4)
b

[1, 2, 3, 4]

理解Python的引用的含义，数据是何时、如何、为何复制的，是非常重要的。尤其是当你用Python处理大的数据集时。  
当你将对象作为参数传递给函数时，新的局域变量创建了对原始对象的引用，而不是复制。如果在函数里绑定一个新对象到一个变量，这个变动不会反映到上一层。因此可以改变可变参数的内容。

In [5]:
def append_element(some_list, element):
    some_list.append(element)

data = [1, 2, 3]
append_element(data, 4)
data

[1, 2, 3, 4]

#### 动态引用，强类型
与许多编译语言（如JAVA和C++）对比，Python中的对象引用不包含附属的类型。下面的代码是没有问题的：

In [6]:
a = 5
print(type(a))
a = 'foo'
print(type(a))

<class 'int'>
<class 'str'>


变量是在特殊命名空间中的对象的名字，类型信息保存在对象自身中。一些人可能会说Python不是“类型化语言”。这是不正确的，看下面的例子：

In [7]:
'5' + 5

TypeError: can only concatenate str (not "int") to str

在某些语言中，例如Visual Basic，字符串‘5’可能被默许转换（或投射）为整数，因此会产生10。但在其它语言中，例如JavaScript，整数5会被投射成字符串，结果是联结字符串‘55’。在这个方面，Python被认为是强类型化语言，意味着每个对象都有明确的类型（或类），默许转换只会发生在特定的情况下，例如：

In [8]:
a = 4.5
b = 2
a / b

2.25

知道对象的类型很重要，最好能让函数可以处理多种类型的输入。你可以用 `isinstance` 函数检查对象是某个类型的实例：

In [9]:
a = 5
isinstance(a, int)

True

`isinstance` 可以用类型元组，检查对象的类型是否在元组中：

In [10]:
a = 5 
b = 5.0
isinstance(a, (int, float)), isinstance(b, (int, float))

(True, True)

#### 属性和方法
Python的对象通常都有属性（其它存储在对象内部的Python对象）和方法（对象的附属函数可以访问对象的内部数据）。可以用 obj.attribute_name 访问属性和方法。
#### 鸭子类型
经常地，你可能不关心对象的类型，只关心对象是否有某些方法或用途。这通常被称为“鸭子类型”，来自“走起来像鸭子、叫起来像鸭子，那么它就是鸭子”的说法。例如，你可以通过验证一个对象是否遵循迭代协议，判断它是可迭代的。对于许多对象，这意味着它有一个 __iter__ 魔术方法，其它更好的判断方法是使用 iter 函数，这个函数会返回字符串以及大多数Python集合类型为 True ：

In [11]:
def isiterable(obj):
    try:
        iter(obj)
        return True
    except TypeError: # not iterable
        return False

isiterable('a string'), isiterable([1, 2, 3]), isiterable(5)

(True, True, False)

我总是用这个功能编写可以接受多种输入类型的函数。常见的例子是编写一个函数可以接受任意类型的序列（list、tuple、ndarray）或是迭代器。你可先检验对象是否是列表（或是NUmPy数组），如果不是的话，将其转变成列表：

In [23]:
x = (5, 6)
if not isinstance(x, list) and isiterable(x):
    x = list(x)

x

[5, 6]

#### 引入
在Python中，模块就是一个有`.py`扩展名、包含Python代码的文件。假设有以下模块：

In [None]:
# some_module.py
PI = 3.14159

def f(x):
    return x + 2
    
def g(a, b):
    return a + b

如果想从同目录下的另一个文件访问 some_module.py 中定义的变量和函数，可以：

In [24]:
import some_module
result = some_module.f(5)
pi = some_module.PI

或者

In [25]:
from some_module import f, g, PI
result = g(5, PI)

使用 as 关键词，你可以给引入起不同的变量名：

In [26]:
import some_module as sm
from some_module import PI as pi, g as gf

r1 = sm.f(pi)
r2 = gf(6, pi)

#### 二元运算符和比较运算符
大多数二元运算符和比较都不难想到：
|运算|说明|
|----|----|
|a + b|a加b|
|a - b|a减b|
|a * b|a乘以b|
|a / b|a除以b|
|a // b|a除以b，结果只取整数部分|
|a ** b|a的b次幂|
|a & b|按位与运算符：参与运算的两个值,如果两个相应位都为1,则该位的结果为1,否则为0|
|a \\| b|按位或运算符：只要对应的二个二进位有一个为1时，结果位就为1|
|a ^ b|按位异或运算符：当两对应的二进位相异时，结果为1|
|a == b|a等于b，则为True|
|a != b|a不等于b，则为True|
|a <b, a<=b|a小于（或小于等于）b，则为True|
|a >b, a>=b|a大于（或大于等于）b，则为True|
|a is b|a和b引用相同的对象，则为True|
|a is not b|a和b引用不同的对象，则为True|



要判断两个引用是否指向同一个对象，可以使用 is 方法。 is not 可以判断两个对象是不同的：

In [33]:
a = [1, 2, 3]
b = a
c = list(a)
a is b, a is not c

(True, True)

因为 list 总是创建一个新的Python列表（即复制），我们可以断定c是不同于a的。使用 `is` 比较与 `==` 运算符不同。  
is 和 is not 常用来判断一个变量是否为 None ，因为只有一个 None 的实例：

In [34]:
a = None
a is None

True

#### 可变与不可变对象
Python中的大多数对象，比如列表、字典、NumPy数组，和用户定义的类型（类），都是可变的。意味着这些对象或包含的值可以被修改。

In [35]:
a_list = ['foo', 2, [4, 5]]
a_list[2] = (3, 4)
a_list

['foo', 2, (3, 4)]

其他的，例如字符串和元组，是不可变的：

In [36]:
a_tuple = (3, 5, (4, 5))
a_tuple[1] = 'four'

TypeError: 'tuple' object does not support item assignment

记住，可以修改一个对象并不意味就要修改它。这被称为副作用。例如，当写一个函数，任何副作用都要在文档或注释中写明。如果可能的话，我推荐避免副作用，采用不可变的方式，即使要用到可变对象。
#### 标量类型
Python的标准库中有一些内建的类型，用于处理数值数据、字符串、布尔值和日期时间。这些单值类型被称为标量类型，本书中称为标量。
|类型|说明|
|---|---|
|None|Python的空值（只存在一个None对象的实例）|
|str|字符串类型，存有Unicode（UTF-8编码）字符串|
|bytes|原生ASCII字节（或Unicode编码为字节）|
|float|双精度（64位）浮点数（注意没有double类型）|
|bool|True或False值|
|int|任意精度整数|

#### 数值类型
Python的主要数值类型是int和float。int可以存储任意大的数：

In [37]:
ival = 12345678
ival**6

3540704419445075440820365734140450167485504

浮点数使用Python的float类型。每个数都是双精度（64位）的值。也可以用科学计数法表示：

In [38]:
fval = 7.243
fval2 = 6.78e-3

不能得到整数的除法会得到浮点数：

In [39]:
3 / 2

1.5

#### 字符串
你可以用单引号或双引号来写字符串：
```
a = 'one way of writing a string'
b = "another way"
```
对于有换行符的字符串，可以使用三引号，'''或"""都行：
```
c = """
This is a longer string that
spans multiple lines
"""
```
字符串 c 实际包含四行文本，"""后面和lines后面的换行符。可以用 count 方法计算 c 中的新的行：

In [40]:
c = """
This is a longer string that
spans multiple lines
"""
c.count("\n")

3

Python的字符串是不可变的，不能修改字符串：

In [41]:
a = 'this is a string'
a[10] = 'f'

TypeError: 'str' object does not support item assignment

In [42]:
b = a.replace('string', 'longer string')
b

'this is a longer string'

经过以上的操作，变量 a 并没有被修改：

In [43]:
a

'this is a string'

许多Python对象使用 str 函数可以被转化为字符串：

In [44]:
a = 5.6
s = str(a)
s

'5.6'

字符串是一个序列的Unicode字符，因此可以像其它序列，比如列表和元组（下一章会详细介绍两者）一样处理：

In [45]:
s = 'python'
list(s), s[:3]

(['p', 'y', 't', 'h', 'o', 'n'], 'pyt')

语法 s[:3] 被称作切片，适用于许多Python序列。后面会更详细的介绍，本书中用到很多切片。  
反斜杠是转义字符，意思是它备用来表示特殊字符，比如换行符\n或Unicode字符。要写一个包含反斜杠的字符串，需要进行转义：

In [47]:
s = '12\\34'
print(s)

12\34


如果字符串中包含许多反斜杠，但没有特殊字符，这样做就很麻烦。幸好，可以在字符串前面加一个r（r表示raw），表明字符就是它自身：

In [49]:
s = r'this\has\no\special\characters'
print(s)

this\has\no\special\characters


将两个字符串合并，会产生一个新的字符串：

In [50]:
a = 'this is the first half '
b = 'and this is the second half'
a + b

'this is the first half and this is the second half'

字符串的模板化或格式化，是另一个重要的主题。Python 3拓展了此类的方法，这里只介绍一些。字符串对象有 format 方法，可以替换格式化的参数为字符串，产生一个新的字符串：

In [52]:
template = '{0:.2f} {1:s} are worth US${2:d}'
template

'{0:.2f} {1:s} are worth US${2:d}'

在这个字符串中，
- {0:.2f} 表示格式化第一个参数为带有两位小数的浮点数。
- {1:s} 表示格式化第二个参数为字符串。
- {2:d} 表示格式化第三个参数为一个整数。
要替换参数为这些格式化的参数，我们传递 format 方法一个序列：

In [53]:
template.format(4.5560, 'Argentine Pesos', 1)

'4.56 Argentine Pesos are worth US$1'

字符串格式化是一个很深的主题，有多种方法和大量的选项，可以控制字符串中的值是如何格式化的。推荐参阅Python官方文档。这里概括介绍字符串处理，第8章的数据分析会详细介绍。