当作者在2011年和2012年撰写本书第一版时，用于学习Python进行数据分析的资源相对较少。这部分是一个先有鸡还是先有蛋的问题；许多我们现在认为理所当然的库，如pandas、scikit-learn和statsmodels，那时还相对不成熟。现在到了2022年，关于数据科学、数据分析和机器学习的文献日益丰富，补充了之前针对计算科学家、物理学家和其他研究领域专业人士的通用科学计算作品。同时，也有关于学习Python编程语言本身和成为一名有效的软件工程师的优秀书籍。

由于本书旨在作为使用Python处理数据的入门文本，作者认为从数据操作的角度对Python内置数据结构和库的一些最重要特性进行自包含概述是有价值的。因此，在本章和第3章《内置数据结构、函数和文件》中，作者只会提供大约足够的信息，以使你能够跟随本书的其余部分。

本书的很大一部分集中在基于表格的分析和数据准备工具上，这些工具用于处理足够小以适合在个人电脑上处理的数据集。要使用这些工具，你有时需要进行一些整理，将杂乱的数据安排成更整齐的表格（或结构化）形式。幸运的是，Python是执行此类任务的理想语言。你对Python语言及其内置数据类型的熟悉程度越高，为分析准备新数据集就越容易。

本书中的一些工具最好是通过实时的IPython或Jupyter会话来探索。一旦你学会如何启动IPython和Jupyter，我建议你跟随示例进行操作，这样你可以实验并尝试不同的事情。就像任何键盘驱动的类控制台环境一样，熟悉常用命令也是学习曲线的一部分。

## 2.1 Python 解释器

Python作为一种解释型语言，其解释器通过逐条执行语句来运行程序。你可以通过在命令行上使用`python`命令来调用标准的交互式Python解释器：

```bash
$ python
Python 3.10.4 | packaged by conda-forge | (main, Mar 24 2022, 17:38:57)
[GCC 10.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> a = 5
>>> print(a)
5
```

在这里，`>>>`是你将在其后键入代码表达式的提示符。要退出Python解释器，你可以输入`exit()`或按Ctrl-D（仅在Linux和macOS上有效）。

运行Python程序就像调用`python`命令并将一个`.py`文件作为其第一个参数一样简单。假设我们创建了一个名为`hello_world.py`的文件，其内容如下：

```python
print("Hello world")
```

你可以通过执行以下命令来运行它（`hello_world.py`文件必须位于你当前的工作终端目录中）：

```bash
$ python hello_world.py
Hello world
```

虽然一些Python程序员以这种方式执行他们的所有Python代码，但从事数据分析或科学计算的人通常使用IPython（一个增强的Python解释器）或Jupyter笔记本（一个基于Web的代码笔记本，最初在IPython项目中创建）。本章将介绍如何使用IPython和Jupyter，并在附录A《高级NumPy》中深入探讨IPython的功能。当你使用`%run`命令时，IPython在同一进程中执行指定文件中的代码，使你在完成后可以交互式地探索结果：

```ipython
$ ipython
Python 3.10.4 | packaged by conda-forge | (main, Mar 24 2022, 17:38:57)
Type 'copyright', 'credits' or 'license' for more information
IPython 7.31.1 -- An enhanced Interactive Python. Type '?' for help.

In [1]: %run hello_world.py
Hello world

In [2]: 
```

与标准的`>>>`提示符相比，IPython的默认提示符采用了编号的`In [2]:`样式。

## 2.2 IPython and Jupyter基础知识

本节将引导你开始使用IPython shell和Jupyter notebook，并向你介绍一些基本概念。

### 运行IPython Shell
你可以像启动常规Python解释器一样在命令行启动IPython shell，只是使用`ipython`命令：

```bash
$ ipython
Python 3.10.4 | packaged by conda-forge | (main, Mar 24 2022, 17:38:57)
Type 'copyright', 'credits' or 'license' for more information
IPython 7.31.1 -- An enhanced Interactive Python. Type '?' for help.

In [1]: a = 5

In [2]: a
Out[2]: 5
```

你可以通过输入Python语句并按回车键（或Enter键）来执行任意Python语句。当你在IPython中仅输入一个变量时，它会渲染该对象的字符串表示。

### 运行Jupyter Notebook
Jupyter项目的一个主要组成部分是notebook，这是一种交互式文档，用于代码、文本（包括Markdown）、数据可视化和其他输出。Jupyter notebook与kernel交互，kernel是特定于不同编程语言的Jupyter交互式计算协议的实现。Python Jupyter kernel使用IPython系统作为其底层行为。

要启动Jupyter，只需在终端运行`jupyter notebook`命令：

```bash
$ jupyter notebook
```

Jupyter通常会自动在默认Web浏览器中打开（除非你以`--no-browser`启动它）。否则，你可以导航到启动notebook时打印的HTTP地址。

要创建一个新的notebook，点击新建按钮并选择"Python 3"选项。如果这是你第一次使用，尝试在空白的代码"单元"中输入一行Python代码，然后按Shift-Enter执行它。

### Tab补全
IPython shell的一个主要改进是tab补全，这在许多IDE或其他交互式计算分析环境中都可以找到。在shell中输入表达式时，按Tab键将搜索命名空间中与你到目前为止输入的字符匹配的任何变量（对象、函数等），并在一个方便的下拉菜单中显示结果。

### 内省
使用问号（?）在变量前或后可以显示有关对象的一些常规信息，这被称为对象内省。如果对象是函数或实例方法，定义的docstring（如果有）也会被显示。

### 使用Jupyter Notebooks进行探索
虽然Jupyter notebook可能感觉与IPython shell是不同的体验，但本章中的几乎所有命令和工具都可以在两种环境中使用。在Jupyter中进行探索和实验可以使学习和数据分析过程更加直观和交互式。

## 2.3 Python 语言基础知识

在本节中，我将概述基本的 Python 编程概念和语言机制。在下一章中，我将更详细地介绍 Python 数据结构、函数和其他内置工具。

## Python 语言语义

Python语言设计的特点在于强调可读性、简洁性和明确性。有些人甚至将其比喻为“可执行的伪代码”。

### 缩进，而不是大括号
Python使用空白（制表符或空格）来构造代码，而不是像R、C++、Java和Perl等许多其他语言那样使用大括号。考虑一个排序算法中的for循环：

```python
for x in array:
    if x < pivot:
        less.append(x)
    else:
        greater.append(x)
```

冒号表示缩进代码块的开始，之后所有代码必须缩进相同的量，直到块的结束。

不管爱它还是恨它，显著的空白是Python程序员的生活事实。虽然一开始这可能看起来很陌生，但希望你能随着时间的推移而习惯它。

强烈推荐使用四个空格作为默认缩进，并用四个空格替换制表符。许多文本编辑器有一个设置，可以自动用空格替换制表位（请这样做！）。IPython和Jupyter notebook在冒号后的新行上会自动插入四个空格，并用四个空格替换制表符。

正如你现在看到的，Python语句也不需要以分号结束。然而，分号可以用来在单行上分隔多个语句：

```python
a = 5; b = 6; c = 7
```

在Python中，将多个语句放在一行通常是不被鼓励的，因为它可能会使代码的可读性降低。

### 一切皆对象
Python语言的一个重要特征是其对象模型的一致性。每个数字、字符串、数据结构、函数、类、模块等在Python解释器中都以自己的“盒子”存在，这就是所谓的Python对象。每个对象都有一个相关的类型（例如，整数、字符串或函数）和内部数据。在实践中，这使得语言非常灵活，因为甚至函数也可以像任何其他对象一样被处理。

### 注释
任何由井号（#）开头的文本都会被Python解释器忽略。这通常用于向代码添加注释。有时候，你可能也希望排除某些代码块而不删除它们。一种解决方案是将代码注释掉：

```python
results = []
for line in file_handle:
    # 先保留空行
    # if len(line) == 0:
    #   continue
    results.append(line.replace("foo", "bar"))
```

注释也可以出现在执行代码的行后。虽然有些程序员更喜欢将注释放在特定代码行之前的行中，但有时这也是有用的：

```python
print("Reached this line")  # 简单的状态报告
```

这种对于每个组件都视为对象的处理方式，加上语言内置的注释功能，使得Python既灵活又易于维护。注释不仅有助于代码的解释，还能临时排除执行某些代码块，这对于调试和代码优化特别有用。

在Python中，你通过使用圆括号并传递零个或多个参数来调用函数，可选择性地将返回值赋给一个变量：

```python
result = f(x, y, z)
g()
```

几乎Python中的每个对象都有附加的函数，这些函数被称为方法，它们可以访问对象的内部内容。你可以使用以下语法调用它们：

```python
obj.some_method(x, y, z)
```

函数可以接受位置参数和关键字参数：

```python
result = f(a, b, c, d=5, e="foo")
```

我们稍后会更详细地看这个问题。

### 变量和参数传递
在Python中，当你赋值一个变量（或名称）时，你是在创建一个对等号右侧对象的引用。在实际情况中，考虑一个整数列表：

```python
In [8]: a = [1, 2, 3]
```

假设我们将`a`赋给一个新变量`b`：

```python
In [9]: b = a

In [10]: b
Out[10]: [1, 2, 3]
```

在一些语言中，如果`b`的赋值会导致数据`[1, 2, 3]`被复制。在Python中，`a`和`b`实际上现在指向同一个对象，原始列表`[1, 2, 3]`。你可以通过向`a`添加一个元素，然后检查`b`来证明这一点：

```python
In [11]: a.append(4)

In [12]: b
Out[12]: [1, 2, 3, 4]
```

理解Python中引用的语义，以及数据何时、如何以及为何被复制，在你使用Python处理更大数据集时尤其关键。

#### 注意：
赋值也被称为绑定，因为我们是将一个名称绑定到一个对象。已经被赋值的变量名称偶尔也被称为绑定变量。

当你将对象作为参数传递给函数时，将创建新的局部变量引用原始对象，而不会进行任何复制。如果你在函数内部将一个新对象绑定到一个变量上，这不会覆盖函数外部作用域（“父作用域”）中同名的变量。因此，有可能改变一个可变参数的内部结构。假设我们有以下函数：

```python
In [13]: def append_element(some_list, element):
   ....:     some_list.append(element)
```

然后我们有：

```python
In [14]: data = [1, 2, 3]

In [15]: append_element(data, 4)

In [16]: data
Out[16]: [1, 2, 3, 4]
```

这显示了如何通过函数修改传入的可变对象（在这个例子中是列表）。这种行为是Python处理函数参数的方式的直接结果。

### 动态引用、强类型

在Python中，变量没有与之固有关联的类型；变量可以通过赋值简单地引用不同类型的对象。以下操作没有问题：

```python
In [17]: a = 5

In [18]: type(a)
Out[18]: int

In [19]: a = "foo"

In [20]: type(a)
Out[20]: str
```

变量是特定命名空间中对象的名称；类型信息存储在对象本身中。一些观察者可能会匆忙地得出结论，认为Python不是一种“有类型的语言”。这是不正确的；考虑以下示例：

```python
In [21]: "5" + 5
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-21-7fe5aa79f268> in <module>
----> 1 "5" + 5
TypeError: can only concatenate str (not "int") to str
```

在一些语言中，字符串'5'可能会被隐式转换（或强制转换）为整数，从而得到10。在其他语言中，整数5可能被转换为字符串，得到连接后的字符串'55'。在Python中，不允许这种隐式转换。在这方面，我们说Python是一种强类型语言，这意味着每个对象都有一个特定的类型（或类），只有在某些允许的情况下才会发生隐式转换，例如：

```python
In [22]: a = 4.5

In [23]: b = 2

# 字符串格式化，稍后会介绍
In [24]: print(f"a is {type(a)}, b is {type(b)}")
a is <class 'float'>, b is <class 'int'>

In [25]: a / b
Out[25]: 2.25
```

这里，即使`b`是一个整数，它也会在除法操作中被隐式转换为浮点数。

知道一个对象的类型很重要，能够编写可以处理许多不同种类输入的函数也很有用。你可以使用`isinstance`函数检查一个对象是否为特定类型的实例：

```python
In [26]: a = 5

In [27]: isinstance(a, int)
Out[27]: True
```

如果你想检查一个对象的类型是否在元组中指定的类型之间，`isinstance`可以接受一个类型的元组：

```python
In [28]: a = 5; b = 4.5

In [29]: isinstance(a, (int, float))
Out[29]: True

In [30]: isinstance(b, (int, float))
Out[30]: True
```

这些特性使Python在数据处理和分析中变得极为灵活，允许程序员编写更通用、更容易维护的代码。

### 属性和方法

在Python中，对象通常具有属性（存储在对象“内部”的其他Python对象）和方法（与对象相关联的函数，可以访问对象的内部数据）。它们都可以通过语法`<obj.attribute_name>`来访问：

```python
In [1]: a = "foo"

In [2]: a.<按Tab键>
```

按Tab键后，你会看到`a`字符串对象可用的方法列表，例如`capitalize()`, `index()`, `find()`, `replace()`等。

属性和方法也可以通过`getattr`函数按名称访问：

```python
In [32]: getattr(a, "split")
Out[32]: <function str.split(sep=None, maxsplit=-1)>
```

虽然在本书中我们不会广泛使用`getattr`及相关函数`hasattr`和`setattr`，但它们可以非常有效地用于编写通用、可复用的代码。

这种通过属性和方法与对象交云的能力使得Python非常灵活和强大。你可以通过对象的方法来操作对象的数据，也可以通过访问对象的属性来获取或设置与对象相关的数据。这种面向对象的特性是Python编程的基础之一，使得编写高度可读和易于维护的代码成为可能。

### Duck typing

在很多情况下，你可能并不关心一个对象的具体类型，而是更关心它是否具有某些方法或行为。这种情况有时被称为鸭子类型（duck typing），源自一句谚语：“如果它像鸭子一样走路，像鸭子一样叫，那么它就是一只鸭子。”例如，如果一个对象实现了迭代协议，你可以验证该对象是否可迭代。对许多对象来说，这意味着它具有一个`__iter__`“魔术方法”，不过更好的检查方式是尝试使用`iter`函数：

```python
In [33]: def isiterable(obj):
   ....:     try:
   ....:         iter(obj)
   ....:         return True
   ....:     except TypeError: # 不可迭代
   ....:         return False
```

这个函数对字符串以及大多数Python集合类型都会返回True：

```python
In [34]: isiterable("a string")
Out[34]: True

In [35]: isiterable([1, 2, 3])
Out[35]: True

In [36]: isiterable(5)
Out[36]: False
```

鸭子类型是Python中一种非常有用的概念，它鼓励我们关注对象的行为，而不是对象的类型。这使得函数或方法可以更加灵活和通用，因为它们可以操作任何具有正确行为的对象，而不仅仅是特定类型的对象。这种动态类型的特性是Python作为一种高级编程语言的强大之处之一。

### 模块导入

在Python中，模块就是一个包含Python代码的以.py扩展名的文件。假设我们有以下模块：

```python
# some_module.py
PI = 3.14159

def f(x):
    return x + 2

def g(a, b):
    return a + b
```

如果我们想要在同一目录下的另一个文件中访问`some_module.py`中定义的变量和函数，我们可以这样做：

```python
import some_module
result = some_module.f(5)
pi = some_module.PI
```

或者，使用另一种方式：

```python
from some_module import g, PI
result = g(5, PI)
```

通过使用`as`关键字，你可以给导入的变量赋予不同的名称：

```python
import some_module as sm
from some_module import PI as pi, g as gf

r1 = sm.f(pi)
r2 = gf(6, pi)
```

这样的导入机制使得Python代码既可以保持模块化，又便于管理和使用。通过`import`语句，你可以在代码中重用其他文件中的代码，无论是变量、函数还是类。使用`from ... import ...`语句可以直接导入模块中的指定部分到当前命名空间中，避免了每次调用时都需要模块名作为前缀。`as`关键字的使用则提供了一种灵活的方式来为导入的模块或其成员重新命名，使得代码更加简洁或避免命名冲突。

### 二元运算符和比较


大多数二元数学运算和比较使用在其他编程语言中熟悉的数学语法：

```python
In [37]: 5 - 7
Out[37]: -2

In [38]: 12 + 21.5
Out[38]: 33.5

In [39]: 5 <= 2
Out[39]: False
```

下表列出了所有可用的二元操作符。

表 2.1: 二元操作符
操作 | 描述
:--- | :---
a + b | 将a和b相加
a - b | 从a中减去b
a * b | 将a乘以b
a / b | 将a除以b
a // b | 将a除以b后向下取整，丢弃任何小数部分
a ** b | 将a的b次方
a & b | 如果a和b都为True，则为True；对于整数，进行位与操作
a | b | 如果a或b为True，则为True；对于整数，进行位或操作
a ^ b | 对于布尔值，如果a或b为True但不同时为True，则为True；对于整数，进行位异或操作
a == b | 如果a等于b，则为True
a != b | 如果a不等于b，则为True
a < b, a <= b | 如果a小于（小于或等于）b，则为True
a > b, a >= b | 如果a大于（大于或等于）b，则为True
a is b | 如果a和b引用同一个Python对象，则为True
a is not b | 如果a和b引用不同的Python对象，则为True

要检查两个变量是否引用同一个对象，使用`is`关键字。使用`is not`来检查两个对象是否不同：

```python
In [40]: a = [1, 2, 3]

In [41]: b = a

In [42]: c = list(a)

In [43]: a is b
Out[43]: True

In [44]: a is not c
Out[44]: True
```

由于`list`函数总是创建一个新的Python列表（即，一个副本），我们可以确定`c`与`a`不同。使用`is`进行比较与使用`==`操作符不同，因为在这种情况下我们有：

```python
In [45]: a == c
Out[45]: True
```

`is`和`is not`的一个常见用途是检查变量是否为`None`，因为`None`只有一个实例：

```python
In [46]: a = None

In [47]: a is None
Out[47]: True
```

这种对于对象身份以及值的比较，提供了Python中处理对象和变量时的细致控制。

### 可变和不可变对象

Python中的许多对象，如列表、字典、NumPy数组以及大多数用户定义的类型（类），都是可变的。这意味着它们包含的对象或值可以被修改：

```python
In [48]: a_list = ["foo", 2, [4, 5]]

In [49]: a_list[2] = (3, 4)

In [50]: a_list
Out[50]: ['foo', 2, (3, 4)]
```

而其他对象，如字符串和元组，则是不可变的，这意味着它们的内部数据不能被改变：

```python
In [51]: a_tuple = (3, 5, (4, 5))

In [52]: a_tuple[1] = "four"
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-52-cd2a018a7529> in <module>
----> 1 a_tuple[1] = "four"
TypeError: 'tuple' object does not support item assignment
```

记住，仅因为你可以修改一个对象，并不意味着你总是应该这样做。这种行为被称为副作用。例如，当编写一个函数时，任何副作用都应该在函数的文档或注释中明确地传达给用户。如果可能的话，我建议尝试避免副作用并倾向于不可变性，即使可能涉及到可变对象。

不可变对象的使用有助于减少程序中的错误，因为它们确保了对象一旦创建就不能被更改，这使得代码更容易理解和调试。同时，不可变对象在多线程环境中是线程安全的，因为没有线程可以更改对象的状态，从而减少了并发编程中的复杂性。在实际编程中，合理利用可变和不可变对象可以提高代码的质量和性能。

## Scalar Types

Python为处理数值数据、字符串、布尔值（True或False）以及日期和时间提供了一小套内置类型。这些“单值”类型有时被称为标量类型，在本书中我们将它们称为标量。以下是主要标量类型的列表。日期和时间的处理将单独讨论，因为这些功能由标准库中的`datetime`模块提供。

表 2.2：标准Python标量类型

类型 | 描述
:--- | :---
None | Python的“空”值（只存在一个None对象的实例）
str | 字符串类型；保存Unicode字符串
bytes | 原始二进制数据
float | 双精度浮点数（注意没有单独的double类型）
bool | 布尔值True或False
int | 任意精度整数

这些标量类型是Python编程中的基础，它们提供了数据处理的基本单元。了解这些类型及其操作是进行有效Python编程的关键。例如，`int`和`float`用于数值计算，`str`用于文本处理，`bool`用于条件判断，而`bytes`则主要用于处理二进制数据，如文件和网络通信中的数据。`None`类型用于表示缺失或空的值，是许多函数的默认返回值，当函数没有显式返回值时。

### 数字类型

Python中用于数字的主要类型是`int`和`float`。`int`可以存储任意大的数字：

```python
In [53]: ival = 17239871

In [54]: ival ** 6
Out[54]: 26254519291092456596965462913230729701102721
```

浮点数用Python的`float`类型表示。在底层，每一个都是一个双精度值。它们也可以用科学计数法表示：

```python
In [55]: fval = 7.243

In [56]: fval2 = 6.78e-5
```

不产生整数结果的整数除法将总是产生一个浮点数：

```python
In [57]: 3 / 2
Out[57]: 1.5
```

要获得C风格的整数除法（如果结果不是整数，则丢弃小数部分），使用地板除法操作符`//`：

```python
In [58]: 3 // 2
Out[58]: 1
```

这些特性显示了Python中数值类型的灵活性和表达力。`int`类型不受固定字长的限制，可以处理非常大的数，这使得Python特别适合于数学和加密等领域，其中需要处理大整数。`float`类型则提供了精确到双精度的浮点数表示，适合于科学计算和工程领域。通过使用标准的算术运算符和更特定的运算符（如地板除`//`），Python能够执行广泛的数值运算，满足不同场景下的需求。

### 字符串

许多人使用Python是因为其内置的字符串处理能力。你可以使用单引号`'`或双引号`"`（通常更倾向于使用双引号）来编写字符串字面量：

```python
a = 'one way of writing a string'
b = "another way"
```

Python的字符串类型是`str`。

对于带有换行符的多行字符串，你可以使用三引号`'''`或`"""`：

```python
c = """
This is a longer string that
spans multiple lines
"""
```

你可能会惊讶于字符串`c`实际上包含四行文本；`"""`之后和行之间的换行符都包含在字符串中。我们可以用`c`上的`count`方法来计数换行字符：

```python
In [60]: c.count("\n")
Out[60]: 3
```

Python字符串是不可变的；你不能修改字符串：

```python
In [61]: a = "this is a string"

In [62]: a[10] = "f"
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-62-3b2d95f10db4> in <module>
----> 1 a[10] = "f"
TypeError: 'str' object does not support item assignment
```

如果需要修改字符串，必须使用创建新字符串的函数或方法，例如字符串的`replace`方法：

```python
In [63]: b = a.replace("string", "longer string")

In [64]: b
Out[64]: 'this is a longer string'
```

此操作后，变量`a`未被修改：

```python
In [65]: a
Out[65]: 'this is a string'
```

许多Python对象可以使用`str`函数转换为字符串：

```python
In [66]: a = 5.6

In [67]: s = str(a)

In [68]: print(s)
5.6
```

字符串是Unicode字符的序列，因此可以像处理其他序列（如列表和元组）一样处理：

```python
In [69]: s = "python"

In [70]: list(s)
Out[70]: ['p', 'y', 't', 'h', 'o', 'n']

In [71]: s[:3]
Out[71]: 'pyt'
```

反斜杠`\`是一个转义字符，意味着它用于指定特殊字符，如换行`\n`或Unicode字符。要在字符串字面量中写入反斜杠，你需要转义它们：

```python
In [72]: s = "12\\34"

In [73]: print(s)
12\34
```

如果你的字符串中有很多反斜杠且没有特殊字符，你可能会觉得这有点烦人。幸运的是，你可以在字符串的前引号前加上`r`，这意味着字符应该按原样解释：

```python
In [74]: s = r"this\has\no\special\characters"

In [75]: s
Out[75]: 'this\\has\\no\\special\\characters'
```

将两个字符串相加会连接它们并产生一个新字符串：

```python
In [76]: a = "this is the first half "

In [77]: b = "and this is the second half"

In [78]: a + b
Out[78]: 'this is the first half and this is the second half'
```

字符串模板或格式化是另一个重要主题。Python 3的到来扩展了执行此操作的方法数目，在这里我将简要描述其中一个主要接口的机制。字符串对象有一个`format`方法，可以用来将格式化的参数替换到字符串中，产生一个新字符串：

```python
In [79]: template = "{0:.2f} {1:s} are worth US${2:d}"
```

Python 3.6引入了一个新特性称为f-strings（格式化字符串字面量的简称），它可以使创建格式化字符串更加方便。要创建一个f-string，只需在字符串字面量前加上字符`f`。在字符串中，将Python表达式括在花括号内，以

将表达式的值替换到格式化字符串中：

```python
In [81]: amount = 10

In [82]: rate = 88.46

In [83]: currency = "Pesos"

In [84]: result = f"{amount} {currency} is worth US${amount / rate}"
```

字符串格式化是一个深入的话题；有多种方法和众多选项和调整可用于控制结果字符串中值的格式化方式。要了解更多，请参阅官方Python文档。

### 字节和 Unicode

在现代Python中（即Python 3.0及更高版本），Unicode已成为一等公民字符串类型，以便更一致地处理ASCII和非ASCII文本。在早期版本的Python中，字符串都是没有明确Unicode编码的字节。假设你知道字符编码，你可以将其转换为Unicode。这里是一个带有非ASCII字符的Unicode字符串示例：

```python
In [86]: val = "español"

In [87]: val
Out[87]: 'español'
```

我们可以使用`encode`方法将这个Unicode字符串转换为其UTF-8字节表示形式：

```python
In [88]: val_utf8 = val.encode("utf-8")

In [89]: val_utf8
Out[89]: b'espa\xc3\xb1ol'

In [90]: type(val_utf8)
Out[90]: bytes
```

假设你知道字节对象的Unicode编码，你可以使用`decode`方法返回：

```python
In [91]: val_utf8.decode("utf-8")
Out[91]: 'español'
```

虽然现在最好使用UTF-8进行任何编码，但出于历史原因，你可能会遇到许多不同编码的数据：

```python
In [92]: val.encode("latin1")
Out[92]: b'espa\xf1ol'

In [93]: val.encode("utf-16")
Out[93]: b'\xff\xfee\x00s\x00p\x00a\x00\xf1\x00o\x00l\x00'

In [94]: val.encode("utf-16le")
Out[94]: b'e\x00s\x00p\x00a\x00\xf1\x00o\x00l\x00'
```

最常见的遇到字节对象的情况是在处理文件时，其中隐式地将所有数据解码为Unicode字符串可能并不是所希望的。处理字节和Unicode之间的转换是现代Web和网络应用的常见部分，理解这些基础知识对于处理文本数据至关重要。

### 布尔值

Python中的两个布尔值写作`True`和`False`。比较和其他条件表达式评估为`True`或`False`。布尔值可以与`and`和`or`关键字结合使用：

```python
In [95]: True and True
Out[95]: True

In [96]: False or True
Out[96]: True
```

当转换为数字时，`False`变成0而`True`变成1：

```python
In [97]: int(False)
Out[97]: 0

In [98]: int(True)
Out[98]: 1
```

关键字`not`将布尔值从`True`翻转为`False`或从`False`翻转为`True`：

```python
In [99]: a = True

In [100]: b = False

In [101]: not a
Out[101]: False

In [102]: not b
Out[102]: True
```

布尔运算在编程中用于控制程序流程和进行逻辑判断。`True`和`False`的使用，加上`and`、`or`和`not`的逻辑操作，使得Python程序可以根据条件执行不同的代码路径。这些基本的布尔运算是构建更复杂逻辑表达式和控制结构（如`if`语句和循环）的基础。了解和熟练使用这些布尔运算对于编写清晰、高效的Python代码至关重要。

### Type casting

`str`、`bool`、`int`和`float`类型同时也是函数，可以用来将值转换（强制类型转换）为这些类型：

```python
In [103]: s = "3.14159"

In [104]: fval = float(s)

In [105]: type(fval)
Out[105]: float

In [106]: int(fval)
Out[106]: 3

In [107]: bool(fval)
Out[107]: True

In [108]: bool(0)
Out[108]: False
```

需要注意的是，大多数非零值在转换为`bool`时变成`True`。

类型转换（也称为强制类型转换）是编程中常见的操作，它允许你在不同类型之间转换数据。例如，你可能需要将用户输入（通常是字符串）转换为数值类型以进行计算，或者你可能需要将数值转换为字符串以便输出。

- 使用`float()`可以将字符串或整数转换为浮点数。
- 使用`int()`可以将字符串或浮点数转换为整数。注意，将浮点数转换为整数时，小数部分会被截断。
- 使用`bool()`可以将几乎任何值转换为布尔值。除了`0`、`None`、空字符串`""`、空列表`[]`、空字典`{}`等被视为`False`之外，其他大多数值都会被转换为`True`。
- 使用`str()`可以将数值、布尔值等转换为字符串形式。

正确地使用类型转换可以帮助解决实际编程问题中的类型不匹配问题，提高代码的灵活性和通用性。

### 空值类型 None

`None`是Python中表示空值的类型：

```python
In [109]: a = None

In [110]: a is None
Out[110]: True

In [111]: b = 5

In [112]: b is not None
Out[112]: True
```

`None`也常用作函数参数的默认值：

```python
def add_and_maybe_multiply(a, b, c=None):
    result = a + b

    if c is not None:
        result = result * c

    return result
```

在这个函数中，`c`的默认值是`None`，这意味着如果调用函数时没有提供`c`的值，函数就不会进行乘法操作。只有当`c`被显式提供并且其值不是`None`时，才会执行乘法操作。

使用`None`作为默认值或者标记值，可以帮助你在函数内部做出条件判断，以实现更灵活的功能。同时，`None`在比较操作中的使用也非常频繁，`a is None`或`a is not None`是检查变量是否为`None`的标准方式。这种方式既清晰又直观，是处理Python中空值情况的常见模式。

### 日期和时间 Dates and times

Python内置的`datetime`模块提供了`datetime`、`date`和`time`类型。`datetime`类型结合了`date`和`time`中存储的信息，是最常用的：

```python
In [113]: from datetime import datetime, date, time

In [114]: dt = datetime(2011, 10, 29, 20, 30, 21)

In [115]: dt.day
Out[115]: 29

In [116]: dt.minute
Out[116]: 30
```

给定一个`datetime`实例，你可以通过在`datetime`上调用同名方法来提取相应的`date`和`time`对象：

```python
In [117]: dt.date()
Out[117]: datetime.date(2011, 10, 29)

In [118]: dt.time()
Out[118]: datetime.time(20, 30, 21)
```

`strftime`方法将`datetime`格式化为字符串：

```python
In [119]: dt.strftime("%Y-%m-%d %H:%M")
Out[119]: '2011-10-29 20:30'
```

字符串可以用`strptime`函数转换（解析）为`datetime`对象：

```python
In [120]: datetime.strptime("20091031", "%Y%m%d")
Out[120]: datetime.datetime(2009, 10, 31, 0, 0)
```

当你在聚合或以其他方式对时间序列数据进行分组时，偶尔会有用到替换一系列`datetimes`的时间字段的情况——例如，将分钟和秒字段替换为零：

```python
In [121]: dt_hour = dt.replace(minute=0, second=0)

In [122]: dt_hour
Out[122]: datetime.datetime(2011, 10, 29, 20, 0)
```

由于`datetime.datetime`是不可变类型，像这样的方法总是产生新对象。所以在前面的示例中，`replace`没有修改`dt`：

```python
In [123]: dt
Out[123]: datetime.datetime(2011, 10, 29, 20, 30, 21)
```

两个`datetime`对象的差异产生了一个`datetime.timedelta`类型：

```python
In [124]: dt2 = datetime(2011, 11, 15, 22, 30)

In [125]: delta = dt2 - dt

In [126]: delta
Out[126]: datetime.timedelta(days=17, seconds=7179)

In [127]: type(delta)
Out[127]: datetime.timedelta
```

输出`timedelta(17, 7179)`表示`timedelta`编码了17天和7179秒的偏移。

将`timedelta`加到`datetime`上会产生一个新的偏移后的`datetime`：

```python
In [128]: dt
Out[128]: datetime.datetime(2011, 10, 29, 20, 30, 21)

In [129]: dt + delta
Out[129]: datetime.datetime(2011, 11, 15, 22, 30)
```

这些特性使得处理和计算日期和时间变得非常灵活和直接。通过`datetime`和`timedelta`对象，你可以执行大范围的日期和时间操作，如日期的加减、格式化输出日期时间、从字符串解析日期时间等。这些操作在数据分析和处理中经常用到，尤其是在处理时间序列数据时。

## 控制流 Control Flow

Python 有几个内置关键字，用于条件逻辑、循环和其他编程语言中的其他标准控制流概念。

### if, elif, and else

`if`语句是最著名的控制流语句类型之一。它检查一个条件，如果为`True`，则执行紧随其后的代码块：

```python
x = -5
if x < 0:
    print("It's negative")
```

`if`语句可以选择性地跟随一个或多个`elif`块，以及一个所有条件都为`False`时的`else`块：

```python
if x < 0:
    print("It's negative")
elif x == 0:
    print("Equal to zero")
elif 0 < x < 5:
    print("Positive but smaller than 5")
else:
    print("Positive and larger than or equal to 5")
```

如果任何条件为`True`，则不会达到更多的`elif`或`else`块。通过使用`and`或`or`的复合条件，条件从左到右进行评估，并将进行短路：

```python
In [130]: a = 5; b = 7

In [131]: c = 8; d = 4

In [132]: if a < b or c > d:
   .....:     print("Made it")
Made it
```

在这个例子中，因为第一个比较为`True`，所以比较`c > d`从未被评估。

也可以进行比较的链式操作：

```python
In [133]: 4 > 3 > 2 > 1
Out[133]: True
```

`if-elif-else`结构提供了一种强大的方式来分支程序的执行路径，允许根据一个或多个条件的评估来执行不同的代码块。这种结构在日常编程中非常常见，特别是在需要基于数据值或程序状态来做出决定时。通过精心设计这些条件和代码块，你可以编写出既清晰又有效的程序。

###  for 循环

`for`循环用于迭代集合（如列表或元组）或迭代器。`for`循环的标准语法是：

```python
for value in collection:
    # 对value做些什么
```

可以使用`continue`关键字将`for`循环提前到下一次迭代，跳过块的其余部分。考虑以下代码，它将列表中的整数相加，并跳过`None`值：

```python
sequence = [1, 2, None, 4, None, 5]
total = 0
for value in sequence:
    if value is None:
        continue
    total += value
```

可以使用`break`关键字完全退出`for`循环。这段代码将列表中的元素相加，直到遇到5为止：

```python
sequence = [1, 2, 0, 4, 6, 5, 2, 1]
total_until_5 = 0
for value in sequence:
    if value == 5:
        break
    total_until_5 += value
```

`break`关键字只终止最内层的`for`循环；任何外层的`for`循环将继续运行：

```python
In [134]: for i in range(4):
   .....:     for j in range(4):
   .....:         if j > i:
   .....:             break
   .....:         print((i, j))
   .....:
(0, 0)
(1, 0)
(1, 1)
(2, 0)
(2, 1)
(2, 2)
(3, 0)
(3, 1)
(3, 2)
(3, 3)
```

正如我们将更详细地看到的，如果集合或迭代器中的元素是序列（元组或列表），它们可以在`for`循环语句中方便地解包成变量：

```python
for a, b, c in iterator:
    # 做些什么
```

`for`循环是处理数据结构中元素的常用方法，它提供了一种简洁的方式来遍历集合中的每个元素，并对其执行操作。通过结合使用`continue`和`break`，可以在迭代过程中根据条件跳过某些元素或提前结束循环，这使得`for`循环非常灵活和强大。

### 更多for循环例子

`for`循环在Python中用于遍历序列（如列表、元组、字符串）或其他可迭代对象。下面是一些`for`循环的使用示例，展示了它在不同场景下的应用。

### 例子 1：遍历列表

假设你有一个商品价格列表，你想计算所有商品的总价格：

```python
prices = [10.99, 5.50, 3.25, 7.80]
total_price = 0

for price in prices:
    total_price += price

print(f"所有商品的总价格为：{total_price}")
```

这个例子中，`for`循环遍历列表`prices`中的每一个元素，并将其加到`total_price`上。

### 例子 2：遍历字典

在遍历字典时，你可以遍历键、值或者键-值对：

```python
person_info = {"name": "John", "age": 30, "city": "New York"}

# 遍历键
for key in person_info:
    print(key)

# 遍历值
for value in person_info.values():
    print(value)

# 遍历键-值对
for key, value in person_info.items():
    print(f"{key}: {value}")
```

### 例子 3：使用`enumerate`遍历序列

如果你在遍历一个序列的同时还需要跟踪元素的索引，`enumerate`函数会很有用：

```python
fruits = ["apple", "banana", "cherry"]

for index, fruit in enumerate(fruits):
    print(f"#{index + 1}: {fruit}")
```

`enumerate`为每个元素提供一个索引，从0开始。

### 例子 4：嵌套`for`循环

`for`循环可以嵌套使用，比如你想打印一个3x3的数字网格：

```python
for i in range(1, 4):
    for j in range(1, 4):
        print(f"({i},{j})", end=" ")
    print()  # 换行
```

### 例子 5：列表推导式

列表推导式提供了一种更简洁的方式来创建列表。以下是使用`for`循环和列表推导式创建平方数列表的对比：

```python
# 使用for循环
squares = []
for x in range(10):
    squares.append(x ** 2)
print(squares)

# 使用列表推导式
squares = [x ** 2 for x in range(10)]
print(squares)
```

这些例子展示了`for`循环的多样性和灵活性，是处理集合数据结构、执行重复任务的强大工具。通过合理利用`for`循环及其与其他Python特性的结合，可以大大提高代码的简洁性和效率。

### While 循环

`while`循环是另一种控制流语句，它在给定的条件为`True`时重复执行一个代码块。与`for`循环不同，`for`循环用于在一个集合上进行迭代，`while`循环则根据条件的真假来重复执行代码块。这里是`while`循环的一个基本示例：

```python
x = 256
total = 0
while x > 0:
    if total > 500:
        break  # 如果total大于500，则退出循环
    total += x
    x = x // 2  # x除以2并向下取整
```

在这个例子中，`x`初始值为256，`total`初始值为0。循环的每次迭代都会检查`x`是否大于0。如果是，它会进入循环体。在循环体内，首先检查`total`是否大于500，如果是，则使用`break`语句退出循环。如果不是，将`x`的值加到`total`上，并将`x`除以2（向下取整）。循环继续进行，直到`x`不再大于0，或者`total`超过500。

`while`循环非常适合于你事先不知道需要执行循环体多少次的情况。例如，读取文件直到文件结束、等待某个条件成立等场景。

### 使用`while`循环的注意事项
- 确保循环有一个终止条件。否则，你可能会遇到无限循环，导致程序挂起。
- 在循环体内部修改控制循环的变量。在上面的例子中，`x`在每次迭代时都会被更新，如果忘记这一步，循环条件永远为真，也会导致无限循环。
- 使用`break`可以提前退出循环，这在满足某个特定条件时非常有用。
- `continue`语句可以跳过当前循环的剩余部分，并开始下一次迭代。

`while`循环提供了强大的控制结构，可以用于构建灵活和强大的程序，但需要谨慎使用，确保循环能够在适当的时候结束。

让我们通过一些更具体的例子来深入了解`while`循环的用法。

### 例子 1：计数器控制的循环

假设你想要重复执行某个操作，但是你只想执行它固定的次数。你可以使用`while`循环加上一个计数器来实现这一点：

```python
count = 0
max_count = 5

while count < max_count:
    print("操作执行中，当前次数：", count + 1)
    # 执行一些操作...
    count += 1  # 更新计数器
```

这个例子中，我们初始化了一个计数器`count`和一个最大次数`max_count`。只要`count`小于`max_count`，循环就会继续执行，并在每次迭代结束时更新计数器。

### 例子 2：等待用户输入

`while`循环也可以用于等待某个条件成立，比如用户的输入：

```python
user_input = ""
while user_input.lower() != "quit":
    user_input = input("请输入命令（输入'quit'退出）：")
    # 处理用户输入...
    print("执行命令：", user_input)
```

在这个例子中，循环将一直等待直到用户输入“quit”才停止。使用`.lower()`方法确保无论用户输入的是大写还是小写，程序都能正确识别。

### 例子 3：找到第一个符合条件的元素

假设你有一个列表，你想找到列表中第一个符合特定条件的元素的索引。可以使用`while`循环来实现：

```python
elements = [1, 3, 7, 8, 10, 12]
target = 8
index = 0

while index < len(elements):
    if elements[index] == target:
        print(f"找到元素{target}在索引{index}处。")
        break
    index += 1
else:
    print(f"元素{target}不在列表中。")
```

这个例子中，我们使用`while`循环遍历列表`elements`，并在找到目标值`target`时打印其索引并退出循环。如果列表中没有目标值，则`while`循环正常结束，不会执行`break`语句，此时可以通过`else`分支来处理“未找到”情况。

这些例子展示了`while`循环在不同场景下的应用，从简单的重复执行、等待用户输入到对数据集合进行搜索等。通过灵活使用`while`循环，你可以在程序中实现各种复杂的逻辑控制。

### pass用法

`pass`是Python中的“无操作”（或“什么都不做”）语句。它可以用在不需要执行任何操作的代码块中（或用作尚未实现代码的占位符）；之所以需要`pass`，是因为Python使用空白符来划分代码块：

```python
if x < 0:
    print("negative!")
elif x == 0:
    # TODO: 这里以后要添加一些智能的代码
    pass
else:
    print("positive!")
```

在上面的例子中，如果`x`等于0，程序不会执行任何操作但也不会引发错误，因为`elif`代码块中有`pass`语句。这在开发过程中特别有用，比如当你在编写一段更复杂的逻辑但还没决定在某个分支中具体要执行什么操作时，可以暂时使用`pass`语句占位，这样你的代码就能够运行而不会因为空代码块而报错。

`pass`也可以用在其他需要语句却暂时不想定义具体实现的地方，如在自定义类、函数或循环中：

```python
class MyEmptyClass:
    pass

def my_function_that_does_nothing_yet():
    pass

for x in my_container:
    # 这里将来会有处理代码
    pass
```

简而言之，`pass`是一种方便的方式，用于在保持代码结构完整的同时，暂时留下未完成的代码部分。

### range用法

`range`函数生成一系列等间隔的整数：

```python
In [135]: range(10)
Out[135]: range(0, 10)

In [136]: list(range(10))
Out[136]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
```

可以给出起始值、结束值和步长（可以是负数）：

```python
In [137]: list(range(0, 20, 2))
Out[137]: [0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [138]: list(range(5, 0, -1))
Out[138]: [5, 4, 3, 2, 1]
```

正如你所看到的，`range`生成的整数包括起始值但不包括结束值。`range`的一个常见用途是通过索引遍历序列：

```python
In [139]: seq = [1, 2, 3, 4]

In [140]: for i in range(len(seq)):
   .....:     print(f"element {i}: {seq[i]}")
element 0: 1
element 1: 2
element 2: 3
element 3: 4
```

虽然你可以使用像`list`这样的函数将`range`生成的所有整数存储在某个其他数据结构中，但通常默认的迭代器形式是你所需要的。这个代码片段计算了0到99,999之间所有3或5的倍数的和：

```python
In [141]: total = 0

In [142]: for i in range(100_000):
   .....:     # %是模运算符
   .....:     if i % 3 == 0 or i % 5 == 0:
   .....:         total += i

In [143]: print(total)
2333316668
```

虽然生成的`range`可以任意大，但在任何给定时间的内存使用可能非常小。

`range`是Python中非常有用的内置函数，特别适合需要执行固定次数循环的情况，或者需要生成一个整数序列的场景。由于`range`在Python 3中返回的是一个惰性序列，它不会一次性生成所有的值，而是根据需要生成每个值，这样可以节省大量内存，使得即使在大范围内使用`range`也非常高效。

# 2.4 结论

本章简要介绍了一些基本的Python语言概念以及IPython和Jupyter编程环境。在下一章中，我将讨论许多内置数据类型、函数和输入输出实用程序，这些内容将在本书的其余部分中不断使用。