## 01 数据类型和数据结构
本节以元组和字典为代表介绍数据结构。
本节的实例代码（不包含练习答案）皆在 01_Datatypes.ipynb 文件中，可一个一个运行。
#### **原始数据类型**
Python 有一些原始数据类型：
 - 整数
 - 浮点数
 - 字符串（文本）
#### **空类型**
```
email_address = None
```
`None` 常用作可选值或缺失值的占位符。它在条件语句中计算为` False`。
```
if email_address:
    send_email(email_address, msg)
```
#### **数据结构**
实际的程序具有更复杂的数据。例如，关于股票的持有信息：
```
100 shares of GOOG at $490.10
```
这是一个包含三个部分的“对象”：
* 股票的名称或符号（"GOOG"，字符串）
* 股份数目（100，整数）
* 价格（490.10，浮点数）
#### **元组**
元组是分组在一起的值的集合。
示例：
```
s = ('GOOG', 100, 490.1)
```
有时候会在语法上省略 () 。
```
s = 'GOOG', 100, 490.1
```
特殊情况（0 元组，1 元组）。
```
t = ()            # An empty tuple
w = ('GOOG', )    # A 1-item tuple
```
元组一般用来表示简单的记录或结构。
通常，它是由多个部分组成的单个对象。这有一个很好的类比：元组就像数据库表中的一行。
元组的内容是有序的（类似于数组）。
```
s = ('GOOG', 100, 490.1)
name = s[0]                 # 'GOOG'
shares = s[1]               # 100
price = s[2]                # 490.1
```
但是，元组的内容无法修改。
```
>>> s[1] = 75
TypeError: object does not support item assignment
```
你可以基于当前元组创建一个新元组。
```
s = (s[0], 75, s[2])
```
#### **元组打包**
元组更多的是把相关的项打包到一个实体（entity）中。
```
s = ('GOOG', 100, 490.1)
```
然后，该元组很容易作为单个对象传递给程序的其它部分。
#### **元组拆包**
要在其它地方使用元组，可以把元组的各部分拆包为变量。
```
name, shares, price = s
print('Cost', shares * price)
```
左侧变量的数目必须与元组的结构匹配。
```
name, shares = s     # ERROR
Traceback (most recent call last):
...
ValueError: too many values to unpack
```
#### **元组与列表**
元组看起来像只读列表。但是，元组最常用于由多个部分组成的单项。列表通常是类型相同的项的集合，
```
record = ('GOOG', 100, 490.1)       # A tuple representing a record in a portfolio

symbols = [ 'GOOG', 'AAPL', 'IBM' ]  # A List representing three stock symbols
```
#### **字典**
字典是键到值的映射。有时，字典也称为哈希表（hash table）或关联数组（associative array）。键用作访问值的索引。
```
s = {
    'name': 'GOOG',
    'shares': 100,
    'price': 490.1
}
```
#### **常见操作**
要从字典中获取值，请使用键名。
```
>>> print(s['name'], s['shares'])
GOOG 100
>>> s['price']
490.10
>>>
```
要添加或修改值，请使用键名进行分配。
```
>>> s['shares'] = 75
>>> s['date'] = '6/6/2007'
>>>
```
要删除值，请使用 del 语句。
```
>>> del s['date']
>>>
```
为什么使用字典？

当存在很多不同的值并且可能会修改或操作这些值时，字典很有用。字典使代码更具可读性。
```
s['price']
# vs
s[2]
```

### 练习
在上次的几个练习中，编写了一个取数据文件 Data/portfolio.csv 的程序 。使用 csv 模块，可以轻松地逐行读取文件。

In [2]:
import csv
f = open('Data/portfolio.csv')
rows = csv.reader(f)
next(rows)
row = next(rows)
row

['AA', '100', '32.20']

尽管读取文件很容易，但是与读取数据相比，通常使用数据做更多的事情。例如，也许想存储它并对其执行一些计算。不幸的是，原始的数据“行”并不能这样做。例如，即使是简单的数学计算也不行。

In [3]:
row = ['AA', '100', '32.20']
cost = row[1] * row[2]

TypeError: can't multiply sequence by non-int of type 'str'

要执行更多的操作，通常需要以某种方式解释原始数据，并将其转换为更有用的对象类型，以便以后处理。有两种简单的方式可以选择：元组或者字典。
#### **练习 2.1：元组**
在交互式提示符下，创建以下代表上一行的元组，但数字列要转换为恰当的数字。

In [5]:
t=(row[0],int(row[1]),float(row[2]))
t

('AA', 100, 32.2)

使用这种方式，现在可以使用股份数目乘以价格来计算总价，

In [7]:
cost = t[1] * t[2]
cost

3220.0000000000005

在 Python 中，数学没用了吗？结果为什么是 3220.0000000000005？
这是计算机上浮点硬件的产物，只能在二进制（而不是十进制）中准确表示小数。即使是涉及十进制小数的简单计算，也会引入小的误差。这很正常，如果你之前没有见过，可能会有点惊讶。
虽然在所有使用浮点小数的编程语言中都会发生这种情况，但是打印的时候可以把它隐藏，例如：

In [8]:
print('%.2f' % cost)

3220.00


元组是只读的。可以通过尝试把股份数目改为 75 来验证这点。

In [9]:
t[1] = 75

TypeError: 'tuple' object does not support item assignment

尽管无法更改元组的内容，但是始终可以创建一个全新的元组来替换旧的元组。

In [11]:
t = (t[0], 75, t[2])
t

('AA', 75, 32.2)

每当像这样重新分配现有变量名时，旧值就会被丢弃。虽然上面的赋值可能看起来像在修改元组，但实际上是在创建一个新的元组，并且将旧的元组丢弃。
元组通常用于将值打包或拆包到变量中。请尝试以下操作：

In [14]:
name, shares, price = t
name
shares
price

32.2

取上面的变量并将其打包回元组中：

In [16]:
t=(name, shares, price)
t

('AA', 75, 32.2)

#### **练习 2.2：把字典当作数据结构**
可以创建字典来替代元组。

In [17]:
d = {
    'name': row[0],
    'shares': int(row[1]),
    'price': float(row[2])
}
d

{'name': 'AA', 'shares': 100, 'price': 32.2}

计算持有的总价：

In [18]:
cost = d['shares'] * d['price']
cost

3220.0000000000005

将此示例与上面涉及元组的相同的计算进行比较，将股份数目修改为 75.

In [19]:
d['shares'] = 75
d

{'name': 'AA', 'shares': 75, 'price': 32.2}

与元组不同，字典可以自由修改。添加一些属性：

In [20]:
d['date'] = (10,24,2025)
d['count'] = 12345
d

{'name': 'AA',
 'shares': 75,
 'price': 32.2,
 'date': (10, 24, 2025),
 'count': 12345}

#### **练习 2.3: 字典的其它操作**
如果将一个字典转换为列表，则将获得其所有的键：

In [21]:
list(d)

['name', 'shares', 'price', 'date', 'count']

类似地，如果使用 for 语句对字典进行迭代，则将获得其所有的键。

In [22]:
for k in d:
    print('k =',k)

k = name
k = shares
k = price
k = date
k = count


尝试使用这个同时执行查找的变体：

In [23]:
for k in d:
    print(k, '=', d[k])

name = AA
shares = 75
price = 32.2
date = (10, 24, 2025)
count = 12345


也可以使用 keys() 方法获得所有的键：

In [24]:
keys = d.keys()
keys

dict_keys(['name', 'shares', 'price', 'date', 'count'])

在这里，keys() 稍微有点不同，它返回的是一个 dict_keys 对象。
这是对原始字典的覆盖，它始终提供当前字典的键——即使字典改变了。例如，试试一下操作：

In [26]:
del d['count']
keys

dict_keys(['name', 'shares', 'price', 'date'])

请注意，尽管没有再次调用 d.keys() ，但键'count' 消失了。
一个更优雅地一起使用键和值的方式是使用 items() 方法。这可以获得键值组成的元组 (key, value)。

In [28]:
items = d.items()
items
for k,v in d.items():
    print(k, '=', v)

name = AA
shares = 75
price = 32.2
date = (10, 24, 2025)


如果有类似于 items 的元组，那么可以使用 dict() 函数创建一个字典。请尝试以下操作：

In [30]:
items
d = dict(items)
d

{'name': 'AA', 'shares': 75, 'price': 32.2, 'date': (10, 24, 2025)}

## 02 容器
本节讨论列表（list），字典（dict）和集合（set）。
#### **概述**
通常，程序必须处理许多对象。
* 股票的投资组合
* 股票价格表
这里有三种主要的选择（译注：数据结构）可以使用：
* 列表。有序的数据。
* 字典。无序的数据。
* 集合。互异且无序的数据。
#### **把列表当作容器**
当数据顺序很重要时，请使用列表。记住，列表可以存储任何类型的对象。例如，包含元组的列表：
```
portfolio = [
    ('GOOG', 100, 490.1),
    ('IBM', 50, 91.3),
    ('CAT', 150, 83.44)
]

portfolio[0]            # ('GOOG', 100, 490.1)
portfolio[2]            # ('CAT', 150, 83.44)
```
#### **列表构建**
从零开始构建列表。
```
records = []  # Initial empty list

# Use .append() to add more items
records.append(('GOOG', 100, 490.10))
records.append(('IBM', 50, 91.3))
...
```
从文件读取记录的示例：
```
records = []  # Initial empty list

with open('Data/portfolio.csv', 'rt') as f:
    next(f) # Skip header
    for line in f:
        row = line.split(',')
        records.append((row[0], int(row[1]), float(row[2])))
```

#### **把字典当作容器**
如果要快速随机查找（通过键名），那么字典很有用。例如，股票价格字典：
```
prices = {
   'GOOG': 513.25,
   'CAT': 87.22,
   'IBM': 93.37,
   'MSFT': 44.12
}
```
以下是一些简单的查找：
```
>>> prices['IBM']
93.37
>>> prices['GOOG']
513.25
>>>
```
#### **字典构建**
从零开始构建字典的示例：
```
prices = {} # Initial empty dict

# Insert new items
prices['GOOG'] = 513.25
prices['CAT'] = 87.22
prices['IBM'] = 93.37
```
从文件内容填充字典的示例：
```
prices = {} # Initial empty dict

with open('Data/prices.csv', 'rt') as f:
    for line in f:
        row = line.split(',')
        prices[row[0]] = float(row[1])
```
注意：如果是在 Data/prices.csv 文件上尝试此操作，会发现几乎可以正常工作——但是，在末尾有一个空行导致程序崩溃了。需要找出一些方法来修改代码以解决此问题（参见练习 2.6）。
#### **字典查找**
测试键是否存在：
```
if key in d:
    # YES
else:
    # NO
```
可以查找可能不存在的值，并在值不存在的情况下提供默认值。
```
name = d.get(key, default)
```
示例：
```
>>> prices.get('IBM', 0.0)
0.0
>>> prices.get('SCOX', 0.0)
0.0
>>>
```
#### **组合键**
在 `Ｐython` 中，几乎任何类型的值都可以用作字典的键。字典的键必须是不可变类型。例如，元组：
```
holidays = {
  (1, 1) : 'New Years',
  (3, 14) : 'Pi day',
  (9, 13) : "Programmer's day",
}
```
然后访问：
```
>>> holidays[3, 14]
'Pi day'
>>>
```
列表，集合或者其它字典都不能用作字典的键，因为列表和字典（译注：集合也是使用哈希技术实现的）是可变的。

#### **集合**
集合是互异且无序的数据。
```
tech_stocks = { 'IBM','AAPL','MSFT' }
# Alternative syntax
tech_stocks = set(['IBM', 'AAPL', 'MSFT'])
```
集合对于成员关系测试很有用。
```
>>> tech_stocks
set(['AAPL', 'IBM', 'MSFT'])
>>> 'IBM' in tech_stocks
True
>>> 'FB' in tech_stocks
False
>>>
```
集合对于消除重复也很有用。
```
names = ['IBM', 'AAPL', 'GOOG', 'IBM', 'GOOG', 'YHOO']

unique = set(names)
# unique = set(['IBM', 'AAPL','GOOG','YHOO'])
```
其它集合操作：
```
unique.add('CAT')        # Add an item
unique.remove('YHOO')    # Remove an item

s1 | s2                 # Set union
s1 & s2                 # Set intersection
s1 - s2                 # Set difference
```

### 练习
在这些练习中，你开始构建的程序是本课程剩余部分使用的主要程序之一。请在在右侧打开的文件中文件中工作。或者点击重新打开
#### **练习 2.4：包含元组的列表**
Data/portfolio.csv 文件包含投资组合中的股票列表。在 练习 1.30 中，你编写了一个读取该文件并执行简单计算的 portfolio_cost(filename) 函数。
代码看起来应该像下面这样：

In [31]:
import csv

def portfolio_cost(filename):
    '''Computes the total cost (shares*price) of a portfolio file'''
    total_cost = 0.0

    with open(filename, 'rt') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for row in rows:
            nshares = int(row[1])
            price = float(row[2])
            total_cost += nshares * price
    return total_cost

print(portfolio_cost('Data/portfolio.csv'))

44671.15


请使用这些代码作为指导，创建一个新文件 report.py 。在 report.py 文件中，定义 read_portfolio(filename) 函数，该函数打开 Data/portfolio.csv 文件并将其读入到包含元组的列表中。为此，你需要对上面的代码做一些小修改。

In [35]:
import csv

def read_portfolio(filename):
    '''Computes the total cost (shares*price) of a portfolio file'''
    total_cost = 0.0
    # 首先，创建一个最初设为空列表的变量，而不是定义 total_cost = 0。例如：
    portfolio = []
    with open(filename, 'rt') as f:
        rows = csv.reader(f)
        headers = next(rows)
        # 接着，把每一行准确地存储到元组中（就像在上次的练习中做的那样），然后把元组追加到列表中，而不是合计总的费用。
        for row in rows:
            holding = (row[0], int(row[1]), float(row[2]))
            portfolio.append(holding)
    # 最后，返回列表。
    return portfolio

portfolio = read_portfolio('Data/portfolio.csv')
print(portfolio)
total = 0.0
for s in portfolio:
    total += s[1] * s[2]
print(total)

[('AA', 100, 32.2), ('IBM', 50, 91.1), ('CAT', 150, 83.44), ('MSFT', 200, 51.23), ('GE', 95, 40.37), ('MSFT', 50, 65.1), ('IBM', 100, 70.44)]
44671.15


创建的包含元组的列表非常类似于二维（2-Ｄ）数组。例如，使用诸如 portfolio[row][column] （ row 和column 是整数）的查找来访问特定的列和行。
也就是说，可以使用像下面这样的语句重写最后的 for 循环:

In [36]:
total = 0.0
for name, shares, price in portfolio:
    total += shares * price
print(total)

44671.15


#### **练习 2.5：包含字典的列表**
使用字典（而不是元组）修改在练习 2.4 中编写的函数来表示投资组合中的股票。在字典中，使用字段名 "name", "shares" 和 "price" 来表示输入文件中的不同列。
以与练习 2.4 中相同的方式试验这个新的函数。

In [42]:
import csv

def read_portfolio(filename):
    '''Computes the total cost (shares*price) of a portfolio file'''
    total_cost = 0.0
    # 首先，创建一个最初设为空列表的变量，而不是定义 total_cost = 0。例如：
    portfolio = []
    with open(filename, 'rt') as f:
        rows = csv.reader(f)
        headers = next(rows)
        # 接着，把每一行准确地存储到元组中（就像在上次的练习中做的那样），然后把元组追加到列表中，而不是合计总的费用。
        for row in rows:
            holding = {'name': row[0], 'shares': int(row[1]), 'price': float(row[2])}
            portfolio.append(holding)
    # 最后，返回列表。
    return portfolio
protfolio = read_portfolio('Data/portfolio.csv')
print(protfolio)
protfolio[1]['shares']
total = 0.0
for s in protfolio:
    total += s['shares'] * s['price']
print(total)

[{'name': 'AA', 'shares': 100, 'price': 32.2}, {'name': 'IBM', 'shares': 50, 'price': 91.1}, {'name': 'CAT', 'shares': 150, 'price': 83.44}, {'name': 'MSFT', 'shares': 200, 'price': 51.23}, {'name': 'GE', 'shares': 95, 'price': 40.37}, {'name': 'MSFT', 'shares': 50, 'price': 65.1}, {'name': 'IBM', 'shares': 100, 'price': 70.44}]
44671.15


在这里可以看到，每个条目的不同字段是通过键名来访问的，而不是数字类型的列号。这通常是首选方式，因为这样得到的代码在以后易于阅读。
查看大型的字典或者列表可能会很混乱。要使调试的输出变得整洁，可以考虑使用 pprint() 函数。

In [43]:
from  pprint import pprint
pprint(protfolio)

[{'name': 'AA', 'price': 32.2, 'shares': 100},
 {'name': 'IBM', 'price': 91.1, 'shares': 50},
 {'name': 'CAT', 'price': 83.44, 'shares': 150},
 {'name': 'MSFT', 'price': 51.23, 'shares': 200},
 {'name': 'GE', 'price': 40.37, 'shares': 95},
 {'name': 'MSFT', 'price': 65.1, 'shares': 50},
 {'name': 'IBM', 'price': 70.44, 'shares': 100}]


#### **练习 2.6：把字典当作容器**
在使用索引而不是数字查找某元素的地方，字典是一种用来跟踪元素的很有用的方式。在 Python shell 中，尝试使用字典：

In [48]:
prices = {}
prices['IBM'] = 92.45
prices['MSFT'] = 45.12
# prices['AAPL']
'AAPL' in prices
# prices

False

该 Data/prices.csv 文件包含一系列带有股票价格的行，看起来像下面这样：
```
"AA",9.22
"AXP",24.85
"BA",44.85
"BAC",11.27
"C",3.72
...
```
编写` read_prices(filename)`函数将诸如此类的价格集合读取到字典中，字典的键代表股票的名字，字典的值代表股票的价格。
为此，从空字典开始，并且像上面做的那样开始插入值。但是，现在正在从从文件中读取值。
我们将使用该数据结构快速查找给定名称的股票的价格。
这部分需要一些小技巧。首先，确保像之前做的那样使用 csv 模块——无需在这里重复发明轮子。

In [52]:
import csv
def read_prices(filename):
    '''Reads prices from a CSV file into a dictionary'''
    prices = {}
    with open(filename, 'rt') as f:
        rows = csv.reader(f)
        for row in rows:
            try:
                prices[row[0]] = float(row[1])
            except IndexError:
                pass
    return prices
print(read_prices('Data/prices.csv'))

{'AA': 9.22, 'AXP': 24.85, 'BA': 44.85, 'BAC': 11.27, 'C': 3.72, 'CAT': 35.46, 'CVX': 66.67, 'DD': 28.47, 'DIS': 24.22, 'GE': 13.48, 'GM': 0.75, 'HD': 23.16, 'HPQ': 34.35, 'IBM': 106.28, 'INTC': 15.72, 'JNJ': 55.16, 'JPM': 36.9, 'KFT': 26.11, 'KO': 49.16, 'MCD': 58.99, 'MMM': 57.1, 'MRK': 27.58, 'MSFT': 20.89, 'PFE': 15.19, 'PG': 51.94, 'T': 24.79, 'UTX': 52.61, 'VZ': 29.26, 'WMT': 49.74, 'XOM': 69.35}


另外一个小麻烦是 Data/prices.csv 文件可能有一些空行在里面。注意上面数据的最后一行是一个空列表——意味着那一行没有数据。
这有可能导致你的程序因为异常而终止。酌情使用 try 和 except 语句捕获这些异常。思考：使用 if 语句来防范错误的数据是否会更好？
编写完 read_prices() 函数，请交互式地测试它并确保其正常工作：

In [54]:
prices = read_prices('Data/prices.csv')
print(prices['IBM'])
print(prices['MSFT'])

106.28
20.89


#### **练习 2.7：看看你是否可以退休**
通过添加一些计算盈亏的语句到 report.py 程序，将所有的工作联系到一起。这些语句应该采用在练习 2.5 中存储股票名称的列表，以及在练习 2.6 中存储股票价格的字典，并计算投资组合的当前值以及盈亏。

In [76]:
prices = read_prices('Data/prices.csv')
protfolio = read_portfolio('Data/portfolio.csv')
total_value = 0.0
first_value = 0.0
headers = ('股票名称', '股数', '价格', '当前价格', '盈亏')
print('%8s %8s %8s %8s %8s' % headers)
print(('-' * 10 + ' ') * len(headers))
for s in protfolio:
    first_value += s['shares'] * s['price']
    total_value += s['shares'] * prices[s['name']]

    print(f'{s['name']:10s} {s['shares']:10d} {s['price']:>10.2f} {prices[s['name']]:10.2f} {prices[s['name']]-s['price']:10.2f}')

print('盈亏:', total_value - first_value)

    股票名称       股数       价格     当前价格       盈亏
---------- ---------- ---------- ---------- ---------- 
AA                100      32.20       9.22     -22.98
IBM                50      91.10     106.28      15.18
CAT               150      83.44      35.46     -47.98
MSFT              200      51.23      20.89     -30.34
GE                 95      40.37      13.48     -26.89
MSFT               50      65.10      20.89     -44.21
IBM               100      70.44     106.28      35.84
盈亏: -15985.050000000003


## 03 格式化
虽然本节稍微有点离题，但是当处理数据时，通常想要生成结构化的输出（如表格）。示例：
```
      Name      Shares        Price
----------  ----------  -----------
        AA         100        32.20
       IBM          50        91.10
       CAT         150        83.44
      MSFT         200        51.23
        GE          95        40.37
      MSFT          50        65.10
       IBM         100        70.44
```
#### **字符串格式化**
在 Python 3.6+ 中，格式化字符串的一种方法是使用 f-strings：
```
>>> name = 'IBM'
>>> shares = 100
>>> price = 91.1
>>> f'{name:>10s} {shares:>10d} {price:>10.2f}'
'       IBM        100      91.10'
>>>
```
`{expression:format} `部分会被取代。
`f-strings `通常和` print() `函数一起使用：
`
print(f'{name:>10s} {shares:>10d} {price:>10.2f}')
`
#### **格式码**
格式码（在 {} 内 : 之后）与 C 语言的 printf() 函数类似。常见格式码包括：
```
d       Decimal integer
b       Binary integer
x       Hexadecimal integer
f       Float as [-]m.dddddd
e       Float as [-]m.dddddde+-xx
g       Float, but selective use of E notation
s       String
c       Character (from integer)
```
常见的修饰符可调整字段宽度和数的精度。这是部分内容：
```
:>10d   Integer right aligned in 10-character field
:<10d   Integer left aligned in 10-character field
:^10d   Integer centered in 10-character field
:0.2f   Float with 2 digit precision
```
#### **字典格式化**
可以使用字符串的 format_map() 方法将字符串格式化应用于值的字典：
```
>>> s = {
    'name': 'IBM',
    'shares': 100,
    'price': 91.1
}
>>> '{name:>10s} {shares:10d} {price:10.2f}'.format_map(s)
'       IBM        100      91.10'
>>>
``
虽然 `format_map()` 和 `f-strings` 使用相同的格式码，但是是从提供的字典中获取值。
#### **format()方法**
有一个` format() `方法可以将格式化应用于参数或者关键字参数：
```
>>> '{name:>10s} {shares:10d} {price:10.2f}'.format(name='IBM', shares=100, price=91.1)
'       IBM        100      91.10'
>>> '{:10s} {:10d} {:10.2f}'.format('IBM', 100, 91.1)
'       IBM        100      91.10'
>>>
```
坦白说，format() 方法稍微有点冗长，我更倾向于使用 f-strings。
#### **C 风格的格式化**
也可以使用格式化操作符 % ：
```
>>> 'The value is %d' % 3
'The value is 3'
>>> '%5d %-5d %10d' % (3,4,5)
'    3 4              5'
>>> '%0.2f' % (3.1415926,)
'3.14'
```
这要求右边是一个单项或者元组，格式码也是模仿 C 语言` printf()` 函数的。
注意：这是字节字符串上唯一可用的格式化方法。
```
>>> b'%s has %n messages' % (b'Dave', 37)
b'Dave has 37 messages'
>>>
```

### 练习
#### **练习 2.8：如何格式化数字**
打印数字常见的一个问题就是指定数字的小数位数。其中的一种解决方法就是使用 f-strings。请尝试以下示例：

In [83]:
value = 42863.1
print(value)
print(f'{value:0.4f}')
print(f'{value:>16.2f}')
print(f'{value:<16.2f}')
print(f'{value:*>16,.2f}')

42863.1
42863.1000
        42863.10
42863.10        
*******42,863.10


有关` f-strings `使用的格式码的完整文档在 [这里](https://docs.python.org/3/library/string.html#format-specification-mini-language) 可以找到。有时，也使用字符串操作符 % 执行格式化。

In [85]:
print('%.4f' % value)
print('%16.2f' % value)

42863.1000
        42863.10


与操作符` % `使用的各种格式码有关的文档可以在 [这里](https://docs.python.org/3/library/stdtypes.html#printf-style-string-formatting) 找到。尽管它通常与 `print()` 函数一起使用，但是字符串格式化与打印无关。如果要保存格式化的字符串，把它赋值给变量即可。

In [86]:
f = '%.4f' % value
f

'42863.1000'

#### **练习 2.9：收集数据**
在练习 2.7 中，编写了一个用于计算股票投资盈亏的程序 report.py。在本练习中，需要修改这个程序来生成如下表格：
```
      Name     Shares      Price     Change
---------- ---------- ---------- ----------
        AA        100       9.22     -22.98
       IBM         50     106.28      15.18
       CAT        150      35.46     -47.98
      MSFT        200      20.89     -30.34
        GE         95      13.48     -26.89
      MSFT         50      20.89     -44.21
       IBM        100     106.28      35.84
```
在此表格中，"Price" 是当前股价，"Change" 是当前股价与原始购买股价的差。
为了生成上述表格，首先需要收集表中展示的所有数据。编写 `make_report()` 函数，以股票列表和价格字典作为输入，并返回一个包含上表中所有行的元组列表。
把 `make_report()` 函数添加到 report.py 文件中。如果交互式地执行该函数，则应该按以下步骤进行：

In [89]:
def make_report(portfolio, prices):
    """
    Generate a list of tuples containing the name, shares, price, and change for each stock in the portfolio.
    """
    report = []
    for stock in portfolio:
        current_price = prices[stock['name']]
        change = current_price - stock['price']
        report.append((stock['name'], stock['shares'], current_price, change))
    return report

portfolio = read_portfolio('Data/portfolio.csv')
prices = read_prices('Data/prices.csv')
report = make_report(portfolio, prices)

for r in report:
    print(r)

('AA', 100, 9.22, -22.980000000000004)
('IBM', 50, 106.28, 15.180000000000007)
('CAT', 150, 35.46, -47.98)
('MSFT', 200, 20.89, -30.339999999999996)
('GE', 95, 13.48, -26.889999999999997)
('MSFT', 50, 20.89, -44.209999999999994)
('IBM', 100, 106.28, 35.84)


#### **练习 2.10：打印格式化的表格**
重做练习 2.9 中的 for 循环，但是请更改打印语句以格式化元组。

In [90]:
for r in report:
    print('%10s %10d %10.2f %10.2f' % r)

        AA        100       9.22     -22.98
       IBM         50     106.28      15.18
       CAT        150      35.46     -47.98
      MSFT        200      20.89     -30.34
        GE         95      13.48     -26.89
      MSFT         50      20.89     -44.21
       IBM        100     106.28      35.84


也可以使用`f-strings`扩展值。例如：

In [91]:
for name,shares,price,change in report:
    print(f'{name:>10s} {shares:>10d} {price:>10.2f} {change:>10.2f}')

        AA        100       9.22     -22.98
       IBM         50     106.28      15.18
       CAT        150      35.46     -47.98
      MSFT        200      20.89     -30.34
        GE         95      13.48     -26.89
      MSFT         50      20.89     -44.21
       IBM        100     106.28      35.84


#### **练习 2.11：添加标题**
假定有一个像下面这样的标题名称元组：
```
headers = ('Name', 'Shares', 'Price', 'Change')
```
把上面的标题元组代码添加到程序中，并且创建一个字符串，每个标题向右对齐并且宽度是10，每个字段使用单个空格分隔。
```
'      Name     Shares      Price      Change'
```
编写在标题和数据之间创建分隔字符串的代码。分隔字符串指每个字段名下的一串下划线（"-"）字符。例如：
```
'---------- ---------- ---------- -----------'
```
当完成后，程序应生成本节顶部所示的表。
```
      Name     Shares      Price     Change
---------- ---------- ---------- ----------
        AA        100       9.22     -22.98
       IBM         50     106.28      15.18
       CAT        150      35.46     -47.98
      MSFT        200      20.89     -30.34
        GE         95      13.48     -26.89
      MSFT         50      20.89     -44.21
       IBM        100     106.28      35.84
```

In [93]:
headers = ('Name', 'Shares', 'Price', 'Change')
print('%10s %10s %10s %10s' % headers)
print(('-' * 10 + ' ') * len(headers))
for name,shares,price,change in report:
    print(f'{name:>10s} {shares:>10d} {price:>10.2f} {change:>10.2f}')

      Name     Shares      Price     Change
---------- ---------- ---------- ---------- 
        AA        100       9.22     -22.98
       IBM         50     106.28      15.18
       CAT        150      35.46     -47.98
      MSFT        200      20.89     -30.34
        GE         95      13.48     -26.89
      MSFT         50      20.89     -44.21
       IBM        100     106.28      35.84


#### **练习 2.12：格式化挑战**
如何修改代码使得价格包括货币符号（$），并且像下面这样输出：
```
      Name     Shares      Price     Change
---------- ---------- ---------- ----------
        AA        100      $9.22     -22.98
       IBM         50    $106.28      15.18
       CAT        150     $35.46     -47.98
      MSFT        200     $20.89     -30.34
        GE         95     $13.48     -26.89
      MSFT         50     $20.89     -44.21
       IBM        100    $106.28      35.84
```

In [107]:
print('%10s %10s %10s %10s' % headers)
print(('-' * 10 + ' ') * len(headers))
for name,shares,price,change in report:
    print(f'{name:>10s} {shares:>10d} {f"${price:.2f}":>10s} {change:>10.2f}')

      Name     Shares      Price     Change
---------- ---------- ---------- ---------- 
        AA        100      $9.22     -22.98
       IBM         50    $106.28      15.18
       CAT        150     $35.46     -47.98
      MSFT        200     $20.89     -30.34
        GE         95     $13.48     -26.89
      MSFT         50     $20.89     -44.21
       IBM        100    $106.28      35.84


## 04 序列
#### **序列数据类型**
Python 有三种序列数据类型。
* 字符串：如 'Hello'。字符串是字符序列
* 列表：如 [1, 4, 5]。
* 元组：如 ('GOOG', 100, 490.1)。
所有的序列都是有序的，由整数进行索引，并且具有长度。
```
a = 'Hello'               # String
b = [1, 4, 5]             # List
c = ('GOOG', 100, 490.1)  # Tuple

# Indexed order
a[0]                      # 'H'
b[-1]                     # 5
c[1]                      # 100

# Length of sequence
len(a)                    # 5
len(b)                    # 3
len(c)                    # 3
```
序列可以通过重复操作符 * 进行重复：s * n 。
```
>>> a = 'Hello'
>>> a * 3
'HelloHelloHello'
>>> b = [1, 2, 3]
>>> b * 2
[1, 2, 3, 1, 2, 3]
>>>
```
相同类型的序列可以通过加号 + 进行拼接：s + t。
```
>>> a = (1, 2, 3)
>>> b = (4, 5)
>>> a + b
(1, 2, 3, 4, 5)
>>>
>>> c = [1, 5]
>>> a + c
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: can only concatenate tuple (not "list") to tuple
```

#### **切片**
切片是指着从序列中提取子序列。切片的语法为 s[start:end] 。 start 和 end 是想要的子序列的索引。
```
a = [0,1,2,3,4,5,6,7,8]

a[2:5]    # [2,3,4]
a[-5:]    # [4,5,6,7,8]
a[:3]     # [0,1,2]
```
* 索引 start 和 end 必须是整数。
* 切片不包括结尾值。这就像数学上的半开区间。
* 如果省略索引，则它们默认为序列的开头或结尾。
#### **切片与重新赋值**
在列表上，切片可以被重新赋值和删除。
```
# Reassignment
a = [0,1,2,3,4,5,6,7,8]
a[2:4] = [10,11,12]       # [0,1,10,11,12,4,5,6,7,8]
```
注意：重新赋值的切片不需要具有相同的长度。
```
# Deletion
a = [0,1,2,3,4,5,6,7,8]
del a[2:4]                # [0,1,4,5,6,7,8]
```

#### **序列的缩减**
有一常见的函数用于把序列缩减为单个值。
```
>>> s = [1, 2, 3, 4]
>>> sum(s)
10
>>> min(s)
1
>>> max(s)
4
>>> t = ['Hello', 'World']
>>> max(t)
'World'
>>>
```
#### **迭代序列**
可以使用 for 循环对序列中的元素进行迭代。
```
>>> s = [1, 4, 9, 16]
>>> for i in s:
...     print(i)
...
1
4
9
16
>>>
```
在循环的每次迭代中，会获取一个新的项来处理。这个新的值会被放到迭代变量中。在此示例中，迭代变量为 x：
```
for x in s:         # `x` is an iteration variable
    ...statements
```
在每次迭代中，迭代变量的先前值会被覆盖（如果有）。循环结束后，迭代变量保留最后一个值。
#### **break 语句**
可以使用 break 语句提前跳出循环。
```
for name in namelist:
    if name == 'Jake':
        break
    ...
    ...
statements
```
当` break `语句执行时，它退出循环并且进入下一个语句。break 语句仅应用于最内部的循环。如果此循环在另一个循环的内部，那么` break `不会中断外部循环。
#### **continue 语句**
要跳过一个元素并且进入到下一个，请使用 continue 语句。
```
for line in lines:
    if line == '\n':    # Skip blank lines
        continue
    # More statements
    ...
```
如果当前项不重要或者是在处理时需要忽略，那么使用 continue 语句很有用。
#### **遍历整数**
如果需要计数，请使用 range() 函数。
```
for i in range(100):
    # i = 0,1,...,99
```
range() 函数的语法是range([start,] end [,step])。
```
for i in range(100):
    # i = 0,1,...,99
for j in range(10,20):
    # j = 10,11,..., 19
for k in range(10,50,2):
    # k = 10,12,...,48
    # Notice how it counts in steps of 2, not 1.

    不包括结尾值。这与切片类似。
    start 是可选的 ， 默认值是 0。
    step 是可选的，默认值是 1。
    当需要的值时候 range()才计算值，实际上，它不存储大范围的数。
```
#### **enumerate() 函数**
enumerate 函数为迭代添加一个额外的计数值。
```
names = ['Elwood', 'Jake', 'Curtis']
for i, name in enumerate(names):
    # Loops with i = 0, name = 'Elwood'
    # i = 1, name = 'Jake'
    # i = 2, name = 'Curtis'
```
一般格式为enumerate(sequence [, start = 0])，start是可选的，一个很好的使用示例：读取文件时跟踪行数。
```
with open(filename) as f:
    for lineno, line in enumerate(f, start=1):
        ...
```
enumerate可以看成以下语句的简写：
```
i = 0
for x in s:
    i += 1
```
使用 enumerate 函数可以减少输入，运行速度也稍快一些。
#### **For 与元组**
可以迭代多个变量：
```
points = [
  (1, 4),(10, 40),(23, 14),(5, 6),(7, 8)
]
for x, y in points:
    # Loops with x = 1, y = 4
    #            x = 10, y = 40
    #            x = 23, y = 14
    #            ...
```
当使用多个变量时，每个元组被拆包为一组迭代变量。变量的数目必须与每个元组中的项数匹配。
#### **zip() 函数**
zip 函数采用多个序列，并且生成将它们组合在一起的迭代器。
```
columns = ['name', 'shares', 'price']
values = ['GOOG', 100, 490.1 ]
pairs = zip(columns, values)
# ('name','GOOG'), ('shares',100), ('price',490.1)
```
要获得结果，必须进行迭代。可以如先前所示的那样使用多个变量对元组进行拆包。
```
for column, value in pairs:
    ...
```
zip 函数的常见用法是创建用于构造字典的键值对。
```
d = dict(zip(columns, values))
```

### 练习
#### **练习 2.13：计数**
尝试一些基本的计数示例：

In [111]:
for n in range(10):
    print(n,end=' ')
print('')
for n in range(10,0,-1):
    print(n,end=' ')
print('')
for n in range(0,10,2):
    print(n,end=' ')

0 1 2 3 4 5 6 7 8 9 
10 9 8 7 6 5 4 3 2 1 
0 2 4 6 8 

#### **练习 2.14：更多序列操作**
交互地试验一些序列缩减操作。

In [114]:
data = [4, 9, 1, 25, 16, 100, 49]
print(min(data))
print(max(data))
print(sum(data))

1
100
204


In [None]:
# 尝试遍历数据。
for x in data:
    print(x)
for i,x in enumerate(data):
    print(i,x)

有时候，`for` 语句，`len()` 和 `range()` 函数被初学者用于一些可怕的代码片段中，这些代码看起来像来自于古老的 C 程序。
```
for n in range(len(data)):
        print(data[n])
```
不要那样做。阅读这些代码不仅辣眼睛，而且内存效率低，运行慢。如果想要迭代数据，使用普通的for 循环即可。如果碰巧因为某些原因需要使用索引，请使用 enumerate()函数。

#### **练习 2.15：enumerate() 函数使用示例**
回想一下，Data/missing.csv 文件包含一个股票投资组合的数据，但是有一些行缺少值。请使用 enumerate() 函数修改 pcost.py 程序，以便在遇到错误的输入时，打印带有警告信息的行号。

In [131]:
def portfolio_cost(filename):
    '''Computes the total cost (shares*price) of a portfolio file'''
    total_cost = 0.0

    with open(filename, 'rt') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for rowno,row in enumerate(rows,start=1):
            try:
                nshares = int(row[1])
                price = float(row[2])
                total_cost += nshares * price
            except ValueError:
                print(f'Row {rowno}:Bad row:{row}')
                continue

    return total_cost

cost = portfolio_cost('Data/missing.csv')

Row 4:Bad row:['MSFT', '', '51.23']
Row 7:Bad row:['IBM', '', '70.44']


#### **练习 2.16：使用 zip() 函数**
在 Data/portfolio.csv 文件中，第一行包含列标题。在之前所有代码中，我们把它丢弃了。

In [122]:
f = open('Data/portfolio.csv')
rows = csv.reader(f)
headers = next(rows)
headers

['name', 'shares', 'price']

但是，如果标题要用于其它有用的事情呢？这就涉及到 `zip()` 函数了。首先，尝试把文件标题和数据行配对。

In [124]:
row = next(rows)
row
list(zip(headers, row))

[('name', 'IBM'), ('shares', '50'), ('price', '91.10')]

请注意 `zip() `函数是如何把列标题与列值配对。在这里，我们使用` list() `函数把结果转换为列表，以便查看。通常，`zip() `函数创建一个必须由 `for `循环使用的迭代器。
这种配对是构建字典的中间步骤。现在尝试：

In [125]:
record = dict(zip(headers, row))
record

{'name': 'IBM', 'shares': '50', 'price': '91.10'}

在处理大量数据文件时，这种转换是最有用的技巧之一。例如，假设需要使 `pcost.py` 程序处理各种输入文件，但是不考虑名称，份额，价格所在列的编号。
修改 `pcost.py` 程序中的 `portfolio_cost()`，使其看起来像这样：

In [139]:
def portfolio_cost(filename):
    '''Computes the total cost (shares*price) of a portfolio file'''
    total_cost = 0.0

    with open(filename, 'rt') as f:
        rows = csv.reader(f)
        headers = next(rows)
        for rowno,row in enumerate(rows,start=1):
            protfolio = dict(zip(headers, row))
            try:
                nshares = int(protfolio['shares'])
                price = float(protfolio['price'])
                total_cost += nshares * price
            except ValueError:
                print(f'Row {rowno}:Bad row:{row}')
                continue

    return total_cost
portfolio_cost('Data/portfoliodate.csv')

44671.15

现在，在一个完全不同的数据文件 `Data/portfoliodate.csv`（如下所示）上尝试 `portfolio_cost()` 函数。

In [135]:
portfolio_cost('Data/portfoliodate.csv')

44671.15

#### **练习 2.17：翻转字典**
字典将键映射到值。例如，股票价格字典。

In [145]:
prices = {
  'GOOG': 490.1,
  'AA': 23.45,
  'IBM': 91.1,
  'MSFT': 34.23
}

如果使用字典的 items() 方法，那么可以获取到键值对 (key,value)：

In [146]:
prices.items ()

dict_items([('GOOG', 490.1), ('AA', 23.45), ('IBM', 91.1), ('MSFT', 34.23)])

但是，如果想要获取 (value, key) 键值对列表呢？
提示：使用 zip()函数。

In [147]:
pricelist = list(zip(prices.values(), prices.keys()))
pricelist

[(490.1, 'GOOG'), (23.45, 'AA'), (91.1, 'IBM'), (34.23, 'MSFT')]

为什么这样操作？首先，这允许对字典数据执行确切类型的数据处理。

In [149]:
min(pricelist)
max(pricelist)
sorted(pricelist)

[(23.45, 'AA'), (34.23, 'MSFT'), (91.1, 'IBM'), (490.1, 'GOOG')]

其次，这也说明了元组的一个重要特征，当在比较中使用元组时，从第一项开始，逐元素进行比较，类似于字符串中字符与字符逐个比较。

zip() 函数经常应用于需要从不同的地方把数据进行配对。例如，为了使用已命名的值构建字典，将列名和列值进行配对。

请注意，zip() 函数不限于一对。例如，可以使用任意数量的列表作为输入。

In [150]:
a=[1,2,3,4]
b = ['w','x', 'y', 'z']
c = [0.2, 0.4, 0.6, 0.8]
list(zip(a,b,c))


[(1, 'w', 0.2), (2, 'x', 0.4), (3, 'y', 0.6), (4, 'z', 0.8)]

另外，请注意，一旦最短的输入序列耗尽，zip() 函数将会停止。

In [151]:
a = [1,2,3,4,5,6]
b = ['x', 'y', 'z']
list(zip(a,b))

[(1, 'x'), (2, 'y'), (3, 'z')]

## 05 collections 模块
`collections` 模块为数据处理提供了许多有用的对象。本部分简要介绍其中的一些特性。
#### **示例：事物计数**
假设要把每只股票的总份额表格化。

In [152]:
portfolio = [
    ('GOOG', 100, 490.1),
    ('IBM', 50, 91.1),
    ('CAT', 150, 83.44),
    ('IBM', 100, 45.23),
    ('GOOG', 75, 572.45),
    ('AA', 50, 23.15)
]

此表中有两个 IBM 条目，两个 GOOG 条目，它们应该以某种方式合并到一起。
#### **计数**
解决方案：使用 Counter 模块。

In [154]:
from collections import Counter
total_shares = Counter()
for name, shares, price in portfolio:
    total_shares[name] += shares
total_shares['GOOG']

175

#### **示例：一对多映射**
问题：把一个键映射到多个值。

In [None]:
portfolio = [
    ('GOOG', 100, 490.1),
    ('IBM', 50, 91.1),
    ('CAT', 150, 83.44),
    ('IBM', 100, 45.23),
    ('GOOG', 75, 572.45),
    ('AA', 50, 23.15)
]

像之前的示例那样，键 IBM 应具有两个不同的元组。
解决方案：使用 defaultdict 模块。

In [156]:
from collections import defaultdict
holdings = defaultdict(list)
for name, shares, price in portfolio:
    holdings[name].append((shares, price))
holdings['IBM']

defaultdict(<class 'list'>, {})


[(50, 91.1), (100, 45.23)]

defaultdict模块确保每次访问键的时候获取到一个默认值。
#### **示例：保留历史记录**
问题：我们需要最近 N 件事的历史。

解决方案：使用 deque 模块。
```
from collections import deque
history = deque(maxlen=N)
with open(filename, 'rt') as f:
    for line in f:
        fields = line.split(',')
        timestamp, event = fields[0], fields[1:]
        history.append((timestamp, event))
```

### 练习
`collections` 可能是最有用的库模块之一，用于解决特殊用途的数据处理问题，例如表格化或者索引化。

在本练习中，我们来看几个简单的例子。首先运行report.py ，以便在交互模式下能够加载股票投资组合。
#### **练习 2.18：使用 Counter 模块表格化**
假设需要将每支股票的份额总数表格化，那么使用 Counter 对象会很容易。试试看：

In [163]:
import report
portfolio = report.read_portfolio('Data/portfolio.csv')
from collections import Counter
holdings = Counter()
for s in portfolio:
    holdings[s['name']] += s['shares']
holdings

Counter({'MSFT': 250, 'IBM': 150, 'CAT': 150, 'AA': 100, 'GE': 95})

仔细观察portfolio 中的 MSFT 和 IBM 的多个条目是如何合并的。

可以像字典一样使用 Counter 模块检索单个值。

In [165]:
holdings['IBM']
holdings['MSFT']

250

如果想要对值排名，这样做：

In [169]:
holdings.most_common(3)

[('MSFT', 250), ('IBM', 150), ('CAT', 150)]

让我们获取另一个股票投资组合并生成一个新的 Counter 对象：

In [170]:
portfolio2 = report.read_portfolio('Data/portfolio2.csv')
holdings2 = Counter()
for s in portfolio2:
    holdings2[s['name']] += s['shares']
holdings2

Counter({'HPQ': 250, 'GE': 125, 'AA': 50, 'MSFT': 25})

最后，通过一个简单的操作把所有的 holdings 变量合并。

In [173]:
holdings
holdings2
combined = holdings + holdings2
combined

Counter({'MSFT': 275,
         'HPQ': 250,
         'GE': 220,
         'AA': 150,
         'IBM': 150,
         'CAT': 150})

这只是对 Counter 功能的一个小尝试，如果发现需要对值进行表格化，那么就应该考虑使用它。
#### **说明：collections 模块**

[collections 模块](https://docs.python.org/zh-cn/3.12/library/collections.html)是 Python 所有库中最有用的库模块之一。实际上，我们可以为此做一个拓展教程，但是，现在这样做会分散注意力。从现在开始，把collections列为您的睡前读物，以备后用。

## 06 列表推导式
一个常见的任务是处理列表中的项（译注：元素）。本节介绍列表推导式，完成此任务的强大工具。
#### **创建新列表**
列表推导式通过将操作应用于序列的每一个元素来创建新列表。
```
>>> a = [1, 2, 3, 4, 5]
>>> b = [2*x for x in a ]
>>> b
[2, 4, 6, 8, 10]
>>>
```
再如:
```
>>> names = ['Elwood', 'Jake']
>>> a = [name.lower() for name in names]
>>> a
['elwood', 'jake']
>>>
```
列表推导式的一般语法是：[ <expression> for <variable_name> in <sequence> ]。
#### **过滤**

也可以在列表推导式中对元素进行过滤。
```
>>> a = [1, -5, 4, 2, -2, 10]
>>> b = [2*x for x in a if x > 0 ]
>>> b
[2, 8, 4, 20]
```
#### **用例**
列表推导式超级有用。例如，可以收集特定字典字段的值：
```
stocknames = [s['name'] for s in stocks]
```
在序列上执行类数据库查询：
```
a = [s for s in stocks if s['price'] > 100 and s['shares'] > 50 ]
```
也可以把列表推导式与序列缩减合并在一起：
```
cost = sum([s['shares']*s['price'] for s in stocks])
```
#### **一般语法**
```
[ <expression> for <variable_name> in <sequence> if <condition>]
```
上面语法的含义：
```
result = []
for variable_name in sequence:
    if condition:
        result.append(expression)
```
#### **历史题外话**
列表推导式来自于数学（集合构建符号）。
```
a = [ x * x for x in s if x > 0 ] # Python

a = { x^2 | x ∈ s, x > 0 }         # Math
```
这在其它几种语言中也实现了，虽然大部分的程序员可能已经想不起他们的数学课了。所以，可以将其视为很酷的列表快捷方式。

#### **练习**
首先运行 report.py 程序，以便能够在交互模式下中加载股票投资组合。
```
bash % python3 -i Playground/02_处理数据/report.py
```
现在，在 Python 交互提示符下，输入语句以执行下述操作。这些操作对投资组合数据执行各类缩减，转换和查找。
#### **练习 2.19：列表推导式**
尝试一些简单的列表推导式来熟悉语法：

In [None]:
nums = [1, 2, 3, 4]
squares = [x*x for x in nums]
squares
twice = [x*2 for x in nums if x > 2]
twice

请注意列表推导式是如何通过适当转换或过滤的数据创建一个新列表的。
#### **练习 2.20：序列缩减**
使用单个 Python 语句计算投资组合的总价。

In [178]:
portfolio = report.read_portfolio('Data/portfolio.csv')
portfolio
cost = sum([s['shares']*s['price'] for s in portfolio])
cost

44671.15

完成后，展示如何使用单个语句计算投资组合的当前值

In [184]:
prices = read_prices('Data/prices.csv')
value = sum([s['shares']*prices[s['name']] for s in portfolio])
value

28686.1

上面的两个操作都是映射缩减的列子。列表推导式将操作映射到整个列表。

In [187]:
[ s['shares'] * s['price'] for s in portfolio ]

[3220.0000000000005,
 4555.0,
 12516.0,
 10246.0,
 3835.1499999999996,
 3254.9999999999995,
 7044.0]

然后，`sum()`函数对所有结果进行缩减。

In [186]:
sum(_)

44671.15

有了这些知识，你现在就可以准备成立一家大数据创业公司了。
#### **练习 2.21：数据查询**
请尝试以下各种数据查询示例。
首先是创建一个列表，存储持有100股以上的股票投资组合。

In [188]:
more100 = [s for s in portfolio if s['shares'] > 100]
more100

[{'name': 'CAT', 'shares': 150, 'price': 83.44},
 {'name': 'MSFT', 'shares': 200, 'price': 51.23}]

持有MSFT和IBM股票的所有投资组合

In [189]:
msftibm = [s for s in portfolio if s['name'] in ('MSFT', 'IBM')]
msftibm

[{'name': 'IBM', 'shares': 50, 'price': 91.1},
 {'name': 'MSFT', 'shares': 200, 'price': 51.23},
 {'name': 'MSFT', 'shares': 50, 'price': 65.1},
 {'name': 'IBM', 'shares': 100, 'price': 70.44}]

持有总价超过$10000的所有股票投资组合。

In [190]:
cost10k = [s for s in portfolio if s['shares']*s['price'] > 10000]
cost10k

[{'name': 'CAT', 'shares': 150, 'price': 83.44},
 {'name': 'MSFT', 'shares': 200, 'price': 51.23}]

#### **练习 2.22：数据提取**
展示如何构建元组`(name,shares)`列表，名称（`name`）和股数（`shares`）从股票投资组合（`portfolio`）中提取：

In [196]:
name_shares = [(s['name'], s['shares']) for s in portfolio]
name_shares

[('AA', 100),
 ('IBM', 50),
 ('CAT', 150),
 ('MSFT', 200),
 ('GE', 95),
 ('MSFT', 50),
 ('IBM', 100)]

如果将方括号([,])更改为花括号({,})，那么将得到推导式。这会得到独一无二的或无重复的值。

例如，这将确定集合中的股票名称是独一无二的：

In [197]:
names = {s['name'] for s in portfolio}
names

{'AA', 'CAT', 'GE', 'IBM', 'MSFT'}

如果指定键值对（key:value），则可以构建一个字典。例如，构建一个将股票名称映射到持有的股票数量的字典：

In [198]:
holdings = { name: 0 for name in names}
holdings

{'MSFT': 0, 'AA': 0, 'IBM': 0, 'CAT': 0, 'GE': 0}

后面的特性就是总所周知的字典推导式。让我们将其表格化：

In [199]:
for s in portfolio:
    holdings[s['name']] += s['shares']
holdings

{'MSFT': 250, 'AA': 100, 'IBM': 150, 'CAT': 150, 'GE': 95}

请尝试以下示例，该示例将 prices 字典过滤出仅在 portfolio 中出现的名称（name）：

In [200]:
portfolio_prices = { name: prices[name] for name in names}
portfolio_prices

{'MSFT': 20.89, 'AA': 9.22, 'IBM': 106.28, 'CAT': 35.46, 'GE': 13.48}

#### **练习 2.23：从 CSV 文件提取数据**
在各类数据处理中，知道如何将列表，集合，字典推导式联合使用会非常有用。这里有一个示例，展示如何从 CSV 文件中提取所选择的列。

首先，从 CSV 文件读取一行标题信息：

In [210]:
import csv
f = open('Data/portfoliodate.csv')
rows = csv.reader(f)
headers = next(rows)
headers

['name', 'date', 'time', 'shares', 'price']

接着，定义一个变量列出实际需要的列：

In [211]:
select = ['name', 'shares', 'price']

现在，在CSV源文件中找到以上各列的索引：

In [212]:
indices = [ headers.index(col) for col in select ]
indices

[0, 3, 4]

最后，使用字典推导式读取数据的一行并把其转换为字典：

In [213]:
row = next(rows)
record = { colname: row[index] for colname, index in zip(select, indices)}
record

{'name': 'AA', 'shares': '100', 'price': '32.20'}

如果你对前面的操作感到满意，那么请读取文件的剩余部分：

In [214]:
portfolio = [ { colname: row[index] for colname, index in zip(select, indices)} for row in rows ]
portfolio

[{'name': 'IBM', 'shares': '50', 'price': '91.10'},
 {'name': 'CAT', 'shares': '150', 'price': '83.44'},
 {'name': 'MSFT', 'shares': '200', 'price': '51.23'},
 {'name': 'GE', 'shares': '95', 'price': '40.37'},
 {'name': 'MSFT', 'shares': '50', 'price': '65.10'},
 {'name': 'IBM', 'shares': '100', 'price': '70.44'}]

#### **说明**
列表推导式在 Python 中常用作转换，过滤和收集数据的有效方法。由于语法的原因，请不要走极端——应该让每个列表推导式尽可能简单。可以将事情分解为多个步骤。例如，不清楚你会不会把最后一个例子强加给毫不知情的同事。

也就是说，知道如何快速处理数据是一项非常有用的技能。在很多情况下，可能必须解决某种一次性的问题，包括数据导入，导出，提取等。成为列表推导式的大师可以大大减少设计方案所花费的时间。另外，不要忘记 collections 模块。

## 07 对象
本节介绍有关 Python 内部对象模型的更多详细信息，并讨论一些与内存管理，拷贝和类型检查有关的问题。
#### **赋值**
Python 中的许多操作都与赋值或者存储值有关。
```
a = value         # Assignment to a variable
s[n] = value      # Assignment to a list
s.append(value)   # Appending to a list
d['key'] = value  # Adding to a dictionary
```
警告：赋值操作永远不是值拷贝。所有的赋值操作都是引用拷贝（如果你乐意，也可以说是指针拷贝）
#### **赋值示例**
考虑该代码片段：
```
a = [1,2,3]
b = a
c = [a,b]
```
以下是底层内存操作图。在此示例中，只有一个列表对象 [1,2,3]，但是有四个不同的引用指向它。
![底层内存操作图](./images/object.png)
这意味着修改一个值会影响所有的引用。
```
>>> a.append(999)
>>> a
[1,2,3,999]
>>> b
[1,2,3,999]
>>> c
[[1,2,3,999], [1,2,3,999]]
>>>
```
请注意，原始列表中的更改是如何在其它地方显示的。这是因为从未进行任何拷贝，所有的东西都指向同一个东西。
#### **重新赋值**
重新赋值永远不会重写之前的值所使用的内存。
```
a = [1,2,3]
b = a
a = [4,5,6]

print(a)      # [4, 5, 6]
print(b)      # [1, 2, 3]    Holds the original value
```
切记：变量是名称，不是内存地址
#### **风险**
如果你不知道这种（数据）共享（的方式），那么在某些时候你会搬起石头砸自己的脚。典型情景，你修改了一些数据，以为它是自己的私有拷贝，但是它却意外地损破坏了程序其它部分的某些数据。

说明：这就是为什么原始数据类型是不可变（只读）的原因之一
#### **标识值和引用**
使用 is 操作符检查两个值是否真的是相同的对象。
```
>>> a = [1,2,3]
>>> b = a
>>> a is b
True
>>>
```
is 操作符比较对象的标识值（一个整数）。标识值可以使用 id() 函数获取。
```
>>> id(a)
3588944
>>> id(b)
3588944
>>>
```
注意：使用 == 检查对象是否相等几乎总是更好，is的结果通常会出乎意料：
```
>>> a = [1,2,3]
>>> b = a
>>> c = [1,2,3]
>>> a is b
True
>>> a is c
False
>>> a == c
True
```
#### **浅拷贝**
列表和字典自身具有用于拷贝的方法。
```
>>> a = [2,3,[100,101],4]
>>> b = list(a) # Make a copy
>>> a is b
False
```
这是一个新列表，但是列表中的项是共享的。
```
>>> a[2].append(102)
>>> b[2]
[100,101,102]
>>>
>>> a[2] is b[2]
True
>>>
```
例如，内部列表 [100, 101, 102] 正在共享。这就是众所皆知的浅拷贝。下面是图示：
![浅拷贝图示](./images/shallow.png)

#### **深拷贝**
有时候，需要拷贝一个对象及其中所包含的所有对象，为此，可以使用 copy 模块：
```
>>> a = [2,3,[100,101],4]
>>> import copy
>>> b = copy.deepcopy(a)
>>> a[2].append(102)
>>> b[2]
[100,101]
>>> a[2] is b[2]
False
>>>
```
#### **名称，值，类型**
变量名称没有类型，仅仅是一个名字。但是，值确实具有一个底层的类型。
```
>>> a = 42
>>> b = 'Hello World'
>>> type(a)
<type 'int'>
>>> type(b)
<type 'str'>
```
`type()` 函数将告诉你这是什么。类型名称通常用作创建或将值转换为该类型的函数。
#### **类型检查**
如何判断对象是否为特定类型？
```
if isinstance(a, list):
    print('a is a list')
```
检查是否是多种类型中的一种：
```
if isinstance(a, (list,tuple)):
    print('a is a list or tuple')
```
注意：不要过度使用类型检查。这会导致过度的代码复杂性。通常，如果这样做能够阻止其他人在使用你的代码时犯常见错误，那么就使用类型检查。
#### **一切皆对象**
数字，字符串，列表，函数，异常，类，实例等都是对象。这意味着所有可以命名的对象都可以作为数据传递、放置到容器中，而没有任何限制。没有特殊的对象。有时，可以这样说，所有的对象都是“一等对象”。

一个简单的例子：
```
>>> import math
>>> items = [abs, math, ValueError ]
>>> items
[<built-in function abs>,
  <module 'math' (builtin)>,
  <type 'exceptions.ValueError'>]
>>> items[0](-45)
45
>>> items[1].sqrt(2)
1.4142135623730951
>>> try:
        x = int('not a number')
    except items[2]:
        print('Failed!')
Failed!
>>>
```
在这里，items 是一个包含函数，模块和异常的列表。可以直接使用列表中的项代替原始名称。
```
items[0](-45)       # abs
items[1].sqrt(2)    # math
except items[2]:    # ValueError
```
权利越大，责任越大。只是因为你可以做，但并不意味着你应该这样做。

### 练习
在这组练习中，我们来看看来自一等对象的威力。
#### **练习 2.24：一等数据**
在 Data/portfolio.csv 文件中，我们把有组织的数据读取为列，如下所示：
```
name,shares,price
"AA",100,32.20
"IBM",50,91.10
...
```
在之前的代码中，我们使用 csv 模块读取文件，但是仍必须手动执行类型转换。例如：
```
for row in rows:
    name   = row[0]
    shares = int(row[1])
    price  = float(row[2])
```
也可以使用一些列表基本操作以更巧妙的方式来执行这种转换。

创建一个包含转换函数名称的 Python 列表，这些函数用来把每一列转换成适当的类型。
```
>>> types = [str, int, float]
>>>
```
可以创建这样的列表是因为在 Python 中一切皆一等对象。所以，如果想创建一个函数列表，也是可以的。列表中创建的项用于将值 x 转换为给定的类型（如：str(x), int(x), float(x)）。

现在，从上面文件的数据中读取一行：

In [215]:
import csv
f = open('Data/portfolio.csv')
rows = csv.reader(f)
headers = next(rows)
row = next(rows)
row

['AA', '100', '32.20']

如前所述，该行不足以进行计算，因为类型是错误的。例如：

In [216]:
row[1]*row[2]

TypeError: can't multiply sequence by non-int of type 'str'

但是，也许数据可以与在 types 中指定的类型配对。例如：

In [219]:
types = [str, int, float]
types[1]
row[1]

'100'

尝试转换其中一个值：

In [220]:
types[1](row[1])

100

尝试转换另一个值：

In [221]:
types[2](row[2])

32.2

尝试使用转换后的值进行计算：

In [222]:
types[1](row[1])*types[2](row[2])

3220.0000000000005

使用zip()函数将字段组合到一起，并且查看结果：

In [223]:
r = list(zip(types, row))
r

[(str, 'AA'), (int, '100'), (float, '32.20')]

注意看，这会将类型转换函数名称与值配对。例如，int 和 '100'配对。

如果要一个接一个地对所有值进行转换，那么合并后的列表很有用。请尝试：

In [225]:
converted = []
for func, val in zip(types, row):
    converted.append(func(val))
converted
converted[1]*converted[2]

3220.0000000000005

确保你理解上述代码中所发生的事情。在循环中，func 变量是类型转换函数（如str, int等 ）之一且 val 变量是值（'AA', '100'）之一。表达式 func(val)转换一个值（类似于类型转换）。

上面的代码可以转换为单个列表推导式。

In [226]:
converted = [func(val) for func,val in zip(types, row)]
converted

['AA', 100, 32.2]

#### **练习 2.25：创建字典**
还记得如果有一个键和值的序列，如何使用dict() 函数轻松地创建字典吗？让我们从列标题创建一个字典吧：

In [231]:
headers
converted
dict(zip(headers, converted))

{'name': 'AA', 'shares': 100, 'price': 32.2}

当然，如果你精通列表推导式，则可以使用字典推导式一步完成整个转换。

In [232]:
{name: func(val) for name, func, val in zip(headers, types, row)}

{'name': 'AA', 'shares': 100, 'price': 32.2}

#### **练习 2.26：全局**
使用本练习中的技术，可以编写语句，轻松地将几乎任何面向列的数据文件中的字段转换为 Python 字典。

为了说明，假设你像下面这样从不同的数据文件读取数据，如下所示：

In [None]:
f = open('Data/dowstocks.csv')
rows = csv.reader(f)
headers = next(rows)
row = next(rows)
headers
row

让我们使用类似的技巧来转换字段：

In [235]:
types = [str, float, str, str, float, float, float, float, int]
converted = [func(val) for func, val in zip(types, row)]
record = dict(zip(headers, converted))
record

{'name': 'AA',
 'price': 39.48,
 'date': '6/11/2007',
 'time': '9:36am',
 'change': -0.18,
 'open': 39.67,
 'high': 39.69,
 'low': 39.45,
 'volume': 181800}

附加题：如何修改本示例以进一步解析 date 条目到元组中，如(6, 11, 2007)？

请花一些时间仔细思考你在练习中所做的事情。我们稍后会再次讨论这些想法。

In [None]:
def parse_date(date_string):
    parts = date_string.split('/')
    return (int(parts[0]), int(parts[1]), int(parts[2]))
types = [str, float, parse_date, str, float, float, float, float, int]
converted = [func(val) for func, val in zip(types, row)]
record = dict(zip(headers, converted))
record