# Anonymous (Lambda) Functions

In [1]:
strings_1 = ['foo', 'card', 'bar', 'aaaa', 'abab']

In [2]:
strings_1.sort(key = lambda x: len(set(list(x))))

In [3]:
strings_1

['aaaa', 'foo', 'abab', 'bar', 'card']

这是以每个单词含有多少个不同字母（distinct letter）来排序，值得注意的是 foo 并没有排在 abab 后面（只是简单的 sort 加上 key=None 的话）

所以这里的排序结构是先按照有多少不同字母来排序，然后再按照原来的 index 排序

#### How they sort things out???

1. key != None -> carry out what is written in the key first
2. key = None -> just normal sort function haha
3. if few elements satisfy the same key function -> arrange them in the order they were in the list before (order matters! bc of indexing)

In [4]:
strings_2 = ['foo', 'card', 'bar', 'aaaa', 'abab']

In [5]:
strings_2.sort(key = lambda x: len(list(x)))

In [6]:
strings_2

['foo', 'bar', 'card', 'aaaa', 'abab']

同理`list()`也是通过 index 来排序单词有多少个字母，以此类推

In [11]:
strings_3 = ['ab', 'foo', 'ac', 'card', 'bar', 'aaaa', 'abab', 'gcc']

In [12]:
strings_3.sort(key = lambda x: len(set(x)))

In [13]:
strings_3

['aaaa', 'ab', 'foo', 'ac', 'abab', 'gcc', 'bar', 'card']

在这个例子里面，就更能彰显出之前所说的数据结构了，同样是有两个 distinct letter，可以看出并不会按首字母排序

# Currying: Partial Argument Application

柯里化：指将现存的 function 带到新的 function 里面去

In [15]:
def add_numbers(x, y):
    return x + y

In [16]:
add_five = lambda y: add_numbers(5, y)

第二部分的`add_numbers`就是柯里化，我们可以通过`functools`模块进行简化

In [17]:
from functools import partial

In [18]:
add_five = partial(add_numbers, 5)

# Generator

当一个正常的 function 最后用`yield`来结尾时，这个 function 我们叫做生成器，主要用作于建立一个迭代的 object（又称迭代器）

如果对 [iterator protocol](https://www.programiz.com/python-programming/iterator) 不太清晰的话，建议先行了解了解这个概念

In [28]:
def squares(n = 10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        yield i ** 2

当你直接定义的时候，没有代码会被直接运行

In [29]:
gen = squares()

In [30]:
gen

<generator object squares at 0x06E4BD80>

直到你 request elements，这个生成器才会运行

In [31]:
for x in gen:
    print(x, end = ' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

## Generator expressions

不用`[]` 而是像 list comprehension 一样用`()`来表达你的生成器

In [32]:
gen = (x ** 2 for x in range(100))

In [33]:
gen

<generator object <genexpr> at 0x06E4BB50>

这和下面的代码是一个功能的：

In [34]:
def _make_gen():
    for x in range(100):
        yield x ** 2
gen = _make_gen()

在很多时候并不需要像 list comprehensions 一样去表达，反而可以像 function arguments 一样就可以

In [35]:
sum(x ** 2 for x in range(100))

328350

In [36]:
dict((i, i ** 2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

## `itertools` module

`itertools`里有许多常见算法的生成器，这里用`groupby`来做一个例子

In [37]:
import itertools

In [38]:
first_letter = lambda x: x[0]

In [39]:
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

In [40]:
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names)) # names is a generator

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


一些常用的`itertools`公式（更多请看 [the official Python documentation](https://docs.python.org/3/library/itertools.html)）

Function | Description
- | -
`combinations(iterable, k)` | 以可迭代的方式生成所有可能的k元组的序列，忽略顺序并且不进行替换
`permutations(iterable, k)` | 按照可迭代的顺序生成元素的所有可能k元组的序列, 保持顺序
`groupby(iterable[, keyfunc])` | 对于每个唯一 key 生成（key, sub-iterator）
`product(*iterables, repeat = 1)` | 生成输入可迭代项的笛卡尔积作为元组，类似于嵌套的 for 循环

##  Exceptions in IPython

如果在运行脚本（%run-ing script）或执行任何语句时引发异常，则默认情况下，IPython 将打印完整调用栈跟踪（回溯），并在栈中每个点的位置周围加几行上下文

您可以使用`％xmode magic`命令控制显示的上下文数量，范围从 `Plain`（与标准 Python 解释器相同）到 `Verbose`（内联函数参数值等）

您可以在交互式事后调试发生错误后进入堆栈（使用`％debug`或`％pdb`）

# Files and the Operating System

In [2]:
path = 'D:\PycharmProject\Python Learning\pydata-book-2nd-edition\examples\segismundo.txt'

In [3]:
f = open(path, encoding = 'utf-8')

文档会默认地以只读模式`r`打开

In [4]:
for line in f:
    pass

这些行是从文件中出来的，带有完整的行尾（EOL）标记，因此您经常会看到代码来获取文件中无 EOL 的行列表，例如:

In [5]:
lines = [x.rstrip() for x in open(path, encoding = 'utf-8')]

In [6]:
lines

['Sueña el rico en su riqueza,',
 'que más cuidados le ofrece;',
 '',
 'sueña el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sueña el que a medrar empieza,',
 'sueña el que afana y pretende,',
 'sueña el que agravia y ofende,',
 '',
 'y en el mundo, en conclusión,',
 'todos sueñan lo que son,',
 'aunque ninguno lo entiende.',
 '']

打开文档后，要记得最后要`close`，不然所改变的内容不会被重新写入

In [7]:
f.close()

一个更简单的方法来进行这个操作是`with`，文档就会自动关闭并保存

In [8]:
with open(path) as f:
    lines = [x.rstrip() for x in f]

在打开文档的时候，会有各种 mode 选择：

Mode | Description
:- | :-
r | 只读模式
w | 只写模式； 创建一个新文件（删除任何具有相同名称的文件的数据）
x | 只写模式； 创建一个新文件，但是如果文件路径已经存在则失败
a | 追加到现有文件（如果尚不存在，则创建该文件）
r+ | 读写模式
b | 为二进制文件添加模式（即`rb` 或 `wb`）
t | 文本模式（自动解码为Unicode）一般为默认，将t添加到其他 mode 以使用此功能（即 `rt`或 `xt`）

如果只是想单独要指定的文本，可使用`read()`来指定

In [9]:
f = open(path, encoding = 'utf-8')

In [10]:
f.read(10)

'Sueña el r'

In [11]:
f2 = open(path, 'rb') # Binary mode

In [12]:
f2.read(10)

b'Sue\xc3\xb1a el '

`read` 会通过读取的字节数来确认文件句柄（file handle）的位置， `tell`会返回你现在的位置：

In [13]:
f.tell()

11

In [14]:
f2.tell()

10

即使我们从文件中读取10个字符，该位置也是11，因为使用默认编码花费了那么多字节来解码10个字符。 您可以在 sys 模块中检查默认编码：

In [15]:
import sys

In [16]:
sys.getdefaultencoding()

'utf-8'

`seek()` 方法用于移动文件读取指针到指定位置

In [17]:
f.seek(3)

3

In [18]:
f.read(1)

'ñ'

In [19]:
f.close() #别忘了关闭文档

In [20]:
f2.close()

用`write`或者`writelines`来编写文档，我们可以创建一个无空行的版本

In [21]:
with open('tmp.txt', 'w', encoding = 'utf-8') as handle:
    handle.writelines(x for x in open(path, encoding = 'utf-8') if len(x) > 1)

In [22]:
with open('tmp.txt', encoding = 'utf-8') as f:
    lines = f.readlines()

In [23]:
lines

['Sueña el rico en su riqueza,\n',
 'que más cuidados le ofrece;\n',
 'sueña el pobre que padece\n',
 'su miseria y su pobreza;\n',
 'sueña el que a medrar empieza,\n',
 'sueña el que afana y pretende,\n',
 'sueña el que agravia y ofende,\n',
 'y en el mundo, en conclusión,\n',
 'todos sueñan lo que son,\n',
 'aunque ninguno lo entiende.\n']

常用的文件 function：

Method | Description
:- | :-
`read([size])` | 从文件中以字符串形式返回数据，可选的`size`参数指示要读取的字节数
`readlines([size])` | 返回文件中的行列表，带有可选的`size`参数
`write(str)` | 将传递的字符串写入文件
`writelines(strings)` | 将传递的字符串序列写入文件
`close()` | 关闭文件
`flush()` | 将内部 I/O 缓冲区刷新到磁盘
`seek(pos)` | 移至指示的文件位置（整数）
`tell()` | 返回当前文件位置为整数
`closed` | 如果文件已关闭则返回 `True`

尝试去 encode 到另一种编码

In [27]:
sink_path = 'sink.txt'

In [28]:
with open(path, encoding = 'iso-8859-1') as source:
    with open(sink_path, 'xt', encoding = 'iso-8859-1') as sink:
        sink.write(source.read())

In [29]:
with open(sink_path, encoding = 'iso-8859-1') as f:
    print(f.read(10))

SueÃ±a el 
