# 前言

## 社区与会议

探讨数据科学相关的邮件列表:
* pydata：一个Google群组列表，用以回答Python数据分析和pandas的问题；
* pystatsmodels： statsmodels或pandas相关的问题；
* scikit-learn和Python机器学习邮件列表，scikit-learn@python.org；
* numpy-discussion：和NumPy相关的问题；
* scipy-user：SciPy和科学计算的问题；

Python 开发者大会：
* PyCon和EuroPython：北美和欧洲的两大Python会议；
* SciPy和EuroSciPy：北美和欧洲两大面向科学计算的会议；
* PyData：世界范围内，一些列的地区性会议，专注数据科学和数据分析；
* 国际和地区的PyCon会议（[http://pycon.org有完整列表）](http://pycon.org有完整列表）) 。


## 行话

* 数据规整（Munge/Munging/Wrangling） 指的是将非结构化和（或）散乱数据处理为结构化或整洁形式的整个过程。这几个词已经悄悄成为当今数据黑客们的行话了。Munge这个词跟Lunge押韵。

* 伪码（Pseudocode） 算法或过程的“代码式”描述，而这些代码本身并不是实际有效的源代码。

* 语法糖（Syntactic sugar） 这是一种编程语法，它并不会带来新的特性，但却能使代码更易读、更易写。



## 推荐教程

* (Python官网)[https://docs.python.org/3/],或是通用的Python教程书籍，比如：

* Python Cookbook，第3版，David Beazley和Brian K. Jones著（O’Reilly）
* 流畅的Python，Luciano Ramalho著 \(O’Reilly\)
* 高效的Python，Brett Slatkin著 \(Pearson\)

# 环境搭建

## IPython 基础

```python
ipython
```
Jupyter Notebook 简介: **notebook是Jupyter项目的重要组件之一，它是一个代码、文本（有标记或无标记）、数据可视化或其它输出的交互式文档。Jupyter Notebook需要与内核互动，内核是Jupyter与其它编程语言的交互编程协议。**Python的Jupyter内核是使用IPython。

- 自动补全：Tab 键
- 自行：在变量前后使用 `?`，可以显示对象信息，``??` 会显示函数的源码
- `%run` 可以运行所有 Python 程序
- `%load` 将脚本导入到cell
- 中断运行：`Ctrl+C`
- 剪贴板执行程序：`paste` 和 `cpaste`，后者可以粘贴多行代码再运行
- 魔术命令：
![](Img/7178691-c72b11add9b8ccf8.png)
- 集成 Matplotlib：在 Ipython Sell中：`%matplotlib`，在 Jupyter 中，`%matplotlib inline`


# Python 语法基础

- 使用缩进，而不是括号
- 万物皆对象
- 注释
- 函数和对象的调用
几乎每个对象都有附加的函数，称作方法。
- 变量和传递参数
**理解Python的引用的含义，数据是何时、如何、为何复制的，是非常重要的。尤其是当你用Python处理大的数据集时。**
赋值也被称作为绑定，是把一个名字绑定给一个对象，变量名有时可能被称为绑定变量。
-动态引用，强类型
知道对象的类型很重要，最好让函数可以处理多种类型的输入。`isinstance` 函数可用于检查对象是否是某个对象的实例。
- 属性和方法
- 鸭子类型：你可能不关心对象的类型，只关心对象是否有某些方法或用途。比如下方，可以通过验证一个对象是否遵循迭代协议，判断它是可迭代的。

```Python
# 定义函数
def isiterable(obj):
    try:
        iter(obj)
        return True
    except TypeError: # not iterable
        return False

# 检验
isiterable('a string') # True
isiterable(5) # False

```

- 引用库
- 一元运算符和比较运算符
![](Img/7178691-9fb5f25b33166acf.png)
- 可变与不可变对象：字符串和元组是不可变的
- 标量类型：
![](Img/7178691-27a30ac3e7d262a1.png)
- 数值类型：主要是 `int` 和 `float`
- 字符串：切片，转义字符，`format` 方法格式化输出
- 字节和 Unicode：`eocode()`
（待补充）可以匹配最佳的编码方式
- 布尔值
- 类型转换：str、bool、int和float也是函数，可以用来转换类型
- None：如果函数没有明确返回值，就会默认返回 None
- 日期和时间：`datetime`模块，计算时间偏移量

```Python
from datetime import datetime, date, time

dt = datetime(2011, 10, 29, 30, 21)

dt.day # 29
dt.minute # 30
dt.date() # datetime.date(2011,10,29)
dt.time() # datetime.time(20,30,21)

# strftime 将 datetime 格式化为字符串
dt.strftime('%m%d%Y %H:%M')
# strptime 将字符串转化为 datetime 对象
datetime.strptime('20091031','Y%m%d')
```
![格式化命令](img/7178691-100f9a20c1536553.png)

- 控制流：`if/elif/else`,`for`,`while`,`range()`,`pass`,`continue/break`,三元表达式（虽然使用三元表达式可以压缩代码，但会降低代码可读性）

```Python
# 三元表达式
# value = true-expr if condition else false-expr

#等价于：
if condition:
    value = true-expr
else:
    value = false-expr
```



# Python的数据结构、函数和文件


## 数据结构和序列

Python最简单的数据结构：tuple, list,set,dict。

### 元组

固定长度，不可改变的 Python 序列对象。

In [235]:
# 元组拆分
tup = (4, 5, 6)
a, b, c = tup
a, b, c

(4, 5, 6)

In [236]:
# 变量拆分常用来迭代元组或列表序列
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

for a, b, c in seq:
    print('a={0},b={1},c={2}'.format(a, b, c))

a=1,b=2,c=3
a=4,b=5,c=6
a=7,b=8,c=9


In [237]:
# 从元组的开头“摘取”几个元素
values = 1, 2, 3, 4, 5, 6
a, b, *rest = values  # rest 名字不重要
print(a, b)
print(rest)

a, b, *_ = values  # 通常将不需要的变量使用下划线

1 2
[3, 4, 5, 6]


In [238]:
# count 方法可以统计出现的频率
a = (1, 2, 2, 2, 2, 3, 4, 4, 4, 5, 5)
a.count(2)

4

### 列表

长度可变，内容可以被修改。可以使用方括号定义，或者 `list` 函数。`list` 函数常用来在数据处理中实体化迭代器或生成器。

In [239]:
gen = range(10)
list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

#### 添加和删除元素
- 在末尾添加元素: `append()`
- 指定位置插入元素：`insert()`

> 警告：与``append``相比，``insert``耗费的计算量大，因为对后续元素的引用必须在内部迁移，以便为新元素提供空间。如果要在序列的头部和尾部插入元素，你可能需要使用``collections.deque``，一个双尾部队列。

- 移除并返回指定位置的元素：`pop()`
- 去除某个值（先寻找第一个）：`remove()`
- 判断元素是/否在列表：`in` 和 `not in`



#### 串联和组合列表

- `+`：串联多个列表
- `extend()`:追加多个元素

>通过加法将列表串联的计算量较大，因为要新建一个列表，并且要复制对象。用``extend``追加元素，尤其是到一个大列表中，更为可取。

```Python
everything = []
for chunk in list_of_lists:
    everything.extend(chunk)
```

In [240]:
[4, None, 'foo'] + [7, 8, (2, 3)]
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])
x

[4, None, 'foo', 7, 8, (2, 3)]

#### 排序

- `sort()`:原地排序（不创建新对象）。 `sort` 有一些选项，有时会很好用。其中之一是二级排序key，可以用这个key进行排序。

In [241]:
b = ['saw', 'small', 'He', 'foxes', 'six']
b.sort(key=len)
b

['He', 'saw', 'six', 'small', 'foxes']

##### 二分搜索和维护已排序列表

`bisect` 模块支持二分查找，和向已排序的列表插入值。``bisect.bisect``可以找到插入值后仍保证排序的位置，``bisect.insort``是向这个位置插入值：

In [242]:
import bisect

c = [1, 2, 2, 2, 3, 4, 7]
bisect.bisect(c, 2)  # 4
bisect.bisect(c, 5)  # 6
bisect.insort(c, 6)
c

[1, 2, 2, 2, 3, 4, 6, 7]

>注意：``bisect``模块不会检查列表是否已排好序，进行检查的话会耗费大量计算。因此，对未排序的列表使用``bisect``不会产生错误，但结果不一定正确。

#### 切片

- `[start:stop]`，下图为正整数和负整数的切片：

![](Img/7178691-522e2b688b755ff3.png)


#### 序列函数

- enumerate 函数：返回 `(i,value)`元组序列


In [243]:
'''跟踪当前项的序号
i = 0
for value in collection:
    # do something with value
    i += 1
'''

# 使用 enumerate函数
some_list = ['foo', 'bar', 'baz']
mapping = {}
for i, v in enumerate(some_list):
    mapping[v] = i

mapping

{'foo': 0, 'bar': 1, 'baz': 2}

#### sorted 函数

可以从任意序列的元素返回一个新的排好序的列表。可以接受和 `sort` 相同的参数。

In [244]:
sorted([7, 1, 2, 6, 0, 3, 2])

[0, 1, 2, 2, 3, 6, 7]

In [245]:
sorted('horse race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

#### zip函数

可以将多个列表、元组或者其他序列组成一个元组列表。

In [246]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']
zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

可以处理任意多的序列，元素个数取决于最短的序列。

In [247]:
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

In [248]:
# 同时迭代多个序列，结合 `enumerate` 使用

for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}:{1},{2}'.format(i, a, b))

0:foo,one
1:bar,two
2:baz,three


In [249]:
# 解压
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]
first_names, last_names = zip(*pitchers)
first_names
last_names

('Ryan', 'Clemens', 'Curt')

#### reversed函数

可以从后向前迭代一个序列。

> `reserved` 是一个生成器，只有实体化（即列表或`for`循环）之后才能创建翻转的序列。

In [250]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

### 字典

- 可以用``del``关键字或``pop``方法（返回值的同时删除键）删除值。
- ``keys``和``values``是字典的键和值的迭代器方法。虽然键值对没有顺序，这两个方法可以用相同的顺序输出键和值。
- `update` 方法可以将一个字典与另一个融合。`update`方法是原地改变字典，因此任何传递给 `update` 的键的旧值都会被舍弃。

- 字典的值可以是任意Python对象，而键通常是不可变的标量类型（整数、浮点型、字符串）或元组（元组中的对象必须是不可变的）。这被称为“可哈希性”。可以用``hash``函数检测一个对象是否是可哈希的（可被用作字典的键）。

In [251]:
# 如何将两个字典融合？
a = {'name': 'Bob', 'Age': 20}
b = {'gender': 'male'}

# method1
c = a.copy()  # 添加临时变量
c.update(b)

# method 2
c = {**a, **b}  # * 占位符

# method 3
c = dict(a, **b)

# Python 3.9把 | 和 |= 操作符内置，也可用于其他数据类型
'''
a | b

# 通过 | 进行合并的时候，如果字典里面有相同的键，那么从左到右，会取最后出现的值。
'''

'\na | b\n\n# 通过 | 进行合并的时候，如果字典里面有相同的键，那么从左到右，会取最后出现的值。\n'

In [252]:
# 用序列创建字典
mapping = {}
for key, value in zip(key_list, value_list):
    mapping[key] = value

NameError: name 'key_list' is not defined

In [None]:
# 默认值
if key in some_dict:
    value = some_dict[key]
else:
    value = default_value

# 等价于：
value = some_dict.get(key, defualt_value)

In [None]:
words = ['apple', 'bat', 'bar', 'atom', 'book']

by_letter = {}
for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)

by_letter

In [None]:
# set_default
by_letter2 = {}
for word in words:
    letter = word[0]
    by_letter2.setdefault(letter, []).append(word)
by_letter2

In [None]:
# collections 模块中 defaultdict 类
# 传递类型或函数以生成每个位置的默认值

from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)
by_letter

### 集合

- 集合是无序的不可重复的元素的集合，可以把它当成没有键和值的字典。
- 通过 `set` 或者使用尖括号 `{}` set语句。
- 集合支持合并、交集、差分和对称差等数学集合运算。
![集合操作](Img/7178691-980efe5d98ecc4d6.png)

In [None]:
a = {1, 2, 3, 4, 5, 6, 7}
b = {4, 5, 6, 7, 8, 9}

# 并集
a.union(b)
a | b

# 交集
a.intersection(b)
a & b

# 检验是否是子集或父集
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set)  # True
a_set.issuperset({1, 2, 3})  # True

# 集合内容相同才对等
{1, 2, 3} == {3, 2, 1}  # True

> 所谓逻辑集合操作都有另外的原地实现方法，可以直接用结果替代集合的内容。对于大集合这么做的效率更高。

In [None]:
# 并集
c = a.copy()
c |= b
c

In [None]:
# 交集
d = a.copy()
d &= b
d

### 列表、集合和字典推导式

#### 列表推导式

> 列表推导式是 Python 最受喜爱的特性之一。它允许用户方便的从一个集合过滤元素，形成列表，在传递参数过程中还可以修改元素。

```Python
[expr for val in collection if condition]
```

等价于：
```Python
result = []
for val in collection:
    if codition:
        result.append(expr)
```

#### 字典推导式

```Python
dict_comp = {key-expr: value-expr for val in collection if condition}
```

#### 集合推导式
```Python
set_comp = {expr for value in collection if condition}
```

##### 嵌套列表推导式


In [None]:
# 列表推导式
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]

In [None]:
# 集合推导式
unique_lengths = {len(x) for x in strings}
print(unique_lengths)

# 使用 map() 函数进一步简化
set(map(len, strings))

In [None]:
# 字典推导式
# 功能：字符串的查找映射表
loc_mapping = {val: index for index, val in enumerate(strings)}
loc_mapping

In [None]:
# 嵌套列表推导式
# 功能：找出名字中包含两个或更多的e

# for 循环
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'],
            ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

names_of_interest = []
for names in all_data:
    enough_es = [name for name in names if name.count('e') >= 2]
    names_of_interest.extend(enough_es)

# 嵌套列表推导式
result = [name for names in all_data for name in names if name.count('e') >= 2]
result

In [None]:
'''将整数元组的列表扁平为一个整数列表
'''

some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup]
print(flattened)

# 等价于：
flattened = []
for tup in some_tuples:
    for x in tup:
        flattened.append(x)
print(flattened)

In [None]:
# 补充：压平嵌套列表：Python嵌套列表转为一维
a = [[1, 2], [3, 4], [5, 6]]

# for 循环
a1 = []
for i in a:
    for j in i:
        a1.append(j)
print(a1)

#列表推导式
a2 = [j for i in a for j in i]
print(a2)

# extend()
a3 = []
[a3.extend(i) for i in a]
print(a3)

# sum()
a4 = sum(a, [])
print(a4)

# reduce + lambda
from functools import reduce
a5 = reduce(lambda x, y: x + y, a)
print(a5)

[待阅文章：列表推导式](https://mp.weixin.qq.com/s?__biz=MzI1MTE2ODg4MA==&mid=2650068648&idx=1&sn=b9366bac528d36b1c16b9ca7e724be0f&chksm=f1f767b7c680eea1f36e07c53c800eba8776191513dca2cd90e2f03a2f59e39f9607cfd82c2c&mpshare=1&scene=1&srcid=030984SAlZzvLb3AeKiKRvDc&sharer_sharetime=1583762615248&sharer_shareid=9b31af13aac29b96ba0f395a0d519643&key=69ea9b9548bd5827ff5a7176e019186bb728a095f9b2e700f023ecab11f4aeb53eeb30d2410b5fbe4ff79bf36389173ccf471f0483f226345ff2fcc4ee04e8cd56c8522449c77df4c5b129e197446ef4&ascene=1&uin=MTk2MzA0MTI3NA%3D%3D&devicetype=Windows+10&version=6208006f&lang=zh_CN&exportkey=A8P0VWYnG9Nvjmgqaae9SnA%3D&pass_ticket=%2BDgIHzuqkcTm%2B4pCTM4gnc6xlt%2BV4zD1iUkjXXtjv8%2B304Wyo4hu6S6kFIUZ%2F2Nl)

In [None]:
# 列表推导式可以有任意多级别嵌套
[[x for x in tup] for tup in some_tuples]  # 产生嵌套列表

## 函数

In [None]:
def my_function(x, y, z=1.5):
    '''x,y 是位置参数，z 是关键字参数
    '''
    if z > 1:
        return z * (x + y)
    else:
        return z / (x + y)

### 命令空间、作用域和局部函数

- 函数可以访问两种不同作用域中的变量：全局（global）和局部（local）。
- Python有一种更科学的用于描述变量作用域的名称，即命名空间（namespace）。任何在函数中赋值的变量默认都是被分配到局部命名空间（local namespace）中的。局部命名空间是在函数被调用时创建的，函数参数会立即填入该命名空间。在函数执行完毕之后，局部命名空间就会被销毁（会有一些例外的情况，具体请参见后面介绍闭包的那一节）。

In [None]:
# 局部
def func():
    a = []
    for i in range(5):
        a.append(i)


'''
局部变量：
调用 func() 后，首先创建空列表a，
然后添加 5 个元素，最后a会在该函数退出时销毁。
'''

In [None]:
# 全局
a = []


def func():
    for i in range(5):
        a.append(i)


'''
全局变量：
虽然可以在函数中对全局变量进行赋值，
但是那些变量必须用global关键字声明成全局才行。
'''

In [None]:
# 全局声明

a = None


def bind_a_variable():
    global a
    a = []
    bind_a_variable()


print(a)
'''
注意：我常常建议人们不要频繁使用global关键字。
因为全局变量一般是用于存放系统的某些状态的。
如果你发现自己用了很多，那可能就说明得要来点儿面向对象编程了（即使用类）。
'''

### 函数返回多个值

In [None]:
def f():
    a = 5
    b = 6
    c = 7
    return a, b, c


print(f())  # 返回为元组，再将其拆包到各个结果变量
return_value = f()

In [None]:
# 返回字典（取决于工作内容，这种方法可能很有用）
def f():
    a = 5
    b = 6
    c = 7
    return {'a': a, 'b': b, 'c': c}

### 函数也是对象

In [None]:
# 清理字符串
import re

states = [
    '   Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda',
    'south   carolina##', 'West virginia?'
]


def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()  # 去除空格
        value = re.sub('[!#?]', '', value)
        value = value.title()  # 转为首字母大写
        result.append(value)
    return result


clean_strings(states)

In [None]:
# 多函数模式


def remove_punctuation(value):
    return re.sub('[!#?]', '', value)


# 需要进行的所有运算做成列表，然后在其中进行循环，依次清理
clean_ops = [str.strip, remove_punctuation, str.title]


def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result


clean_strings(states, clean_ops)
'''评价：多函数模式使得可以在很高的层次上轻松修改字符串的转换方式，
clean_strings() 函数也更具有可复用性。
'''

In [None]:
# 函数用作其他函数参数
for x in map(remove_punctuation, states):
    print(x)

### 匿名（lambda）函数

- 由单条语句组成，该句的结果就是返回值。
- 在数据分析过程中，很多数据转换函数都以函数作为参数，所以 lambda 函数很方便。

>说明：lambda函数之所以会被称为匿名函数，与def声明的函数不同，原因之一就是这种函数对象本身是没有提供名称__name__属性。

In [None]:
def short_function(x):
    return x * 2


# 等价于：
equiv_anon = lambda x: x * 2

In [None]:
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]


ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2)

In [None]:
# 应用：按照字符长度进行排序
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

strings.sort(key=lambda x: len(set(list(x))))
strings

### 柯里化：部分参数应用

柯里化（currying）是一个有趣的计算机科学术语，它指的是通过“部分参数应用”（partial argument application）从现有函数派生出新函数的技术。

In [None]:
def add_numbers(x, y):
    '''两数相加
    '''
    return x + y


# 通过此函数，可以派生出一个新的只有一个参数的函数 add_five它用于对其参数加5。
# add_numbers的第二个参数称为“柯里化的”（curried）
add_five = lambda y: add_numbers(5, y)

In [None]:
# 内置的functools模块可以用partial函数将此过程简化
from functools import partial
add_five = partial(add_numbers, 5)

### 生成器

能以一种一致的方式对序列进行迭代（比如列表中的对象或文件中的行）是Python的一个重要特点。这是通过一种叫做迭代器协议（iterator protocol，它是一种使对象可迭代的通用方式）的方式实现的，一个原生的使对象可迭代的方法。

In [None]:
# 对字典迭代，得到所有的键
some_dict = {'a': 1, 'b': 2, 'c': 3}
for key in some_dict:
    print(key)

当编写 `for key in some_dict` 时，Python 解释器首先会尝试从 `some_dict` 创建一个迭代器：

In [None]:
dict_iterator = iter(some_dict)
dict_iterator  # <dict_keyiterator at 0x1ee791cfbd8>

迭代器是一种特殊对象，它可以在诸如 `for` 循环之类的上下文中向 Python 解释器输送对象。

大部分能接受列表之类的对象的方法也都可以接受任何可迭代对象。比如 `min`、`max`、`sum` 等内置方法以及 list 、tuple 等类型构造器。

In [None]:
list(dict_iterator)

生成器（generator）是构造新的可迭代对象的一种简单方式。

一般的函数执行之后只会返回单个值，而生成器则是以延迟的方式返回一个值序列，即每返回一个值之后暂停，直到下一个值被请求时再继续。**要创建一个生成器，只需将函数中的 `return` 替换为 `yeild` 即可：

In [253]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n**2))
    for i in range(1, n + 1):
        yield i**2

In [254]:
gen = squares()  # 调用时，代码将不会立即执行
gen  # <generator object squares at 0x000001EE78FAF848>

<generator object squares at 0x000001EE784DBC48>

In [255]:
for x in gen:  # 从生成器请求元素时，才会执行其代码
    print(x, end=' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

### 生成器表达式

另一种更简洁的构造生成器的方法是使用生成器表达式（generator expression）。这是一种类似于列表、字典、集合推导式的生成器。其创建方式为，把列表推导式两端的方括号改成圆括号。

In [256]:
gen = (x**2 for x in range(100))
gen  # <generator object <genexpr> at 0x000001EE7877F048>


# 等价于：
def _make_gen():
    for x in range(100):
        yield x**2


gen = _make_gen()

In [257]:
# 生成器表达式也可以用于取代列表推导式，作为函数参数
sum(x**2 for x in range(100))
dict((i, i**2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

In [258]:
# 求 100 以内奇数和
sum((x for x in range(100) if x % 2 == 1))

2500

### itertools 模块
标准库itertools模块中有一组用于许多常见数据算法的生成器。例如，groupby可以接受任何序列和一个函数。它根据函数的返回值对序列中的连续元素进行分组。

常用 itertools 函数：

![](Img/7178691-111823d8767a104d.png)

In [259]:
import itertools
first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names))  # names is a generator

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


## 错误和异常处理

- 捕获异常

```Python
def attempt_float(x):
    try:
        return float(x)
    except:
        return x
```

- 指定多个异常

```Python
def attempt_float(x):
    try:
        return float(x)
    except (ValueError, TypeError):
        return x
```

- `finally`

```Python
f = open(path, 'w')

try:
    write_to_file(f)
except:
    print('Failed')
else:
    print('Succeeded')
finally: # 不管是否会报错，文件总会被关闭
    f.close()
```

## 文件和操作系统

文件读写模式：
![](Img/7178691-28274484129f0ea7.png)

如果输入f =open(path,'w')，就会有一个新文件被创建在examples/segismundo.txt，并覆盖掉该位置原来的任何数据。另外有一个x文件模式，它可以创建可写的文件，但是如果文件路径存在，就无法创建。

In [260]:
# 使用内置 open() 打开文件

path = 'Examples/segismundo.txt'
f = open(path)  # 默认是只读 'r'

for line in f:
    pass

从文件中取出的行都带有完整的行结束符（EOL），因此你常常会看到下面这样的代码（得到一组没有EOL的行）:

In [261]:
lines = [x.strip() for x in open(path)]
lines
f.close()  # 操作完毕后关闭文件

In [262]:
# 用 with 语句在退出代码块时，自动关闭文件
with open(path) as f:
    lines = [x.strip() for x in f]

对于可读文件，一些常用的方法是`read()`,`seek()`和`tell()`。`read()` 会从文件返回字符，字符内容由文件的编码决定，如果是二进制模式打开的就是原始字节。

In [263]:
f = open(path)
f.read(10)

'Sue帽a el r'

In [264]:
f2 = open(path, 'rb')  # binary mode
f2.read(10)

b'Sue\xc3\xb1a el '

In [265]:
# read模式会将文件句柄的位置提前，提前的数量是读取的字节数。
# tell可以给出当前的位置

print(f.tell())  # 11
f2.tell()  # 10

# 疑问：为什么读取 10 个字符，位置却是 11？
# 原因：因为默认的编码用了这么多字节才解码这 10 个字符。

11


10

In [266]:
import sys
sys.getdefaultencoding()  # utf-8

'utf-8'

In [267]:
`seek` 将文件位置更改该为文件中的指定字节：

SyntaxError: invalid syntax (<ipython-input-267-40b74c4391ef>, line 1)

In [None]:
f.seek(3) # 3
f.read(1)

f.close() 
f2.close()

向文件写入，可以使用文件的 `write` 或 `writelines` 方法。例如，我们可以创建一个无空行版的 `prof_mod.py`：

In [268]:
# 去除空格
with open('tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)

# 读取数据
with open('tmp.txt') as f:
    lines = f.readlines()

lines 

['Sue帽a el rico en su riqueza,\n',
 'que m谩s cuidados le ofrece;\n',
 'sue帽a el pobre que padece\n',
 'su miseria y su pobreza;\n',
 'sue帽a el que a medrar empieza,\n',
 'sue帽a el que afana y pretende,\n',
 'sue帽a el que agravia y ofende,\n',
 'y en el mundo, en conclusi贸n,\n',
 'todos sue帽an lo que son,\n',
 'aunque ninguno lo entiende.\n']

常用文件方法：
![](Img/7178691-d25bd6e730afeb39.png)

### 文件和字节

Python文件的默认操作是“文本模式”，也就是说，你需要处理Python的字符串（即Unicode）。它与“二进制模式”相对，文件模式加一个b。我们来看上一节的文件（UTF-8编码、包含非ASCII字符）:

In [269]:
with open(path) as f:
    chars = f.read(10)
chars

'Sue帽a el r'

UTF-8是长度可变的Unicode编码，所以当我从文件请求一定数量的字符时，Python会从文件读取足够多（可能少至10或多至40字节）的字节进行解码。如果以“rb”模式打开文件，则读取确切的请求字节数：

In [270]:
with open(path, 'rb') as f:
    data = f.read(10)

取决于文本的编码，你可以将字节解码为str对象，但只有当每个编码的Unicode字符都完全成形时才能这么做：

In [271]:
data.decode('utf8')

'Sueña el '

In [272]:
# data[:4].decode('utf8')

文本模式结合了open的编码选项，提供了一种更方便的方法将Unicode转换为另一种编码：

In [273]:
# sink_path = 'Examples\sink.txt'
# with open(path) as source:
#     with open(sink_path,'xt',encoding='iso-8859-1') as sink:
#         sink.write(source.read())
# with open(sink_path, encoding='iso-8859-1') as f:
#     print(f,read(10))

注意，不要在二进制模式中使用seek。如果文件位置位于定义Unicode字符的字节的中间位置，读取后面会产生错误：

In [274]:
f = open(path)
f.read(5)

'Sue帽a'

In [275]:
f.seek(4)

4

In [276]:
f.read(1)
f.close()

如果你经常要对非ASCII字符文本进行数据分析，通晓Python的Unicode功能是非常重要的。