集合
集合是无序的不可重复的元素集合

In [1]:
#集合创建
set([2,2,3,3,4,4,5,5,6,6,6,6])

{2, 3, 4, 5, 6}

In [2]:
{1,2,2,3,3,4,5,5,5,6,7,7,7,7,}

{1, 2, 3, 4, 5, 6, 7}

支持 合并，交集，差分和对称差等数学运算

In [4]:
a = {1,2,3,4,5}
b = {3,4,5,6,7,8}
a.union(b)
a | b

{1, 2, 3, 4, 5, 6, 7, 8}

In [5]:
a & b

{3, 4, 5}

所有逻辑集合操作都有另外的原地实现方法，可以直接用结果替代集合内容。
对于大集合这么做效率更高

In [7]:
c = a.copy()
c |= b

In [8]:
#与字典类似，集合元素通常不可变
#要转成集合，必须转成元组
my_data = [1,2,3,4]
my_set = {tuple(my_data)}
my_set

{(1, 2, 3, 4)}

你还可以检测一个集合是否另一个集合的子集或者父集

In [9]:
a_set = {1,2,3,4,5}
{1,2,3}.issubset(a_set)

True

In [10]:
a_set.issuperset({1,2,3})

True

集合的内容相同时，集合是对等的

In [12]:
{1,2,3} == {2,3,1}

True

列表，集合和字典推导式
列表推导式是python最喜爱的特性之一
表现形式如下:
[expr for val in collection if condition]
它等同于
result = []
for val in collection:
    if condition:
        result.append(expr)
        


In [14]:
strings = ['a','as','bat','car','dove','python']
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

用相似方法，还可以推导集合和字典，推导式如下：
dict_comp = {key-expr:value-expr for value in collection if condition}

In [15]:
strings = ['a','as','bat','car','dove','python']
dict_string = { str:len(str) for str in strings if len(str) > 0}
dict_string

{'a': 1, 'as': 2, 'bat': 3, 'car': 3, 'dove': 4, 'python': 6}

In [16]:
#用map 函数可以进一步简化
set(map(len,strings))

{1, 2, 3, 4, 6}

作为一个字典推导式的例子，我们可以创建一个字符串的查找映射以确定它在的列表中位置

In [18]:
loc_mapping = {val:index for index,val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

嵌套列表推导式

In [20]:
all_data = [['John','Emily','Michael','Mary','Steven'],
            ['Maria','Juan','Javier','Natalia','Pilar']]
name_of_interest = []
for names in all_data:
    enough_es = [name for name in names if name.count('e') >= 2]
    name_of_interest.extend(enough_es)
name_of_interest

['Steven']

In [22]:
#嵌套推导
result = [name for names in all_data for name in names
            if name.count('a') == 2]
result

['Maria']

In [23]:
some_tuples = [(1,2,3),(4,5,6),(7,8,9)]
some_list = [x for item in some_tuples for x in item]
some_list

[1, 2, 3, 4, 5, 6, 7, 8, 9]

3.2 函数
函数式python 最主要的也是最重要的代码组织和复用手段
函数用def 关键字声明 和return 返回

匿名（lambda） 函数
Python 支持一种被称为匿名的，或lambda函数

def short_function(x):
    return x * 2

equic_anon = lambda x:x*2

在数据分析工作中非常方便，因为你会发现很多数据转换函数都以函数作为参数
直接传入lambda函数比编写完整函数声明要少输入很多字（也更清晰）

In [24]:
def apply_to_list(some_list,f):
    return([f(x) for x in some_list])

apply_to_list([4,1,2,4],lambda x:x*2)


[8, 2, 4, 8]

柯里化:部分参数应用
柯里化（currying） 是一个有趣的计算机科学术语，它指的是通过部分参数应用，从现在有函数派生出新函数技术

In [None]:
def add_number(x,y):
    return x + y

#通过这个函数，我们可以派生出一个 add_five 函数

add_five =lambda y : add_number(5,y)

柯里化也就是函数作为一个参数传入新的函数，内置functiontools模块可以用partial将此简化

In [None]:
#优雅
from functools import partial
add_five = partial(add_number,5)

生成器
能以一种一致的方式对序列进行迭代（比如列表的对象或文件中的行）是python的一个重要特点

In [1]:
some_dict = {'a':1,'b':2,'c':3}

for key in some_dict:
    print(key)


a
b
c


当你编写 for key in some_dict时，python解释器首先会尝试从some_dict创建一个迭代器

In [3]:
dict_iterator = iter(some_dict)
dict_iterator

<dict_keyiterator at 0x18732a7acc0>

迭代器是一种特殊对象，它可以在诸如for 循环之类的上下文中向python解释器输送对象

In [4]:
list(dict_iterator)

['a', 'b', 'c']

生成器（generator）是构造新的可迭代对象的一种简单方式，一般函数执行之后只会返回单个值
而生成器是以延迟的方式返回一个值序列，即每返回一个值之后暂停，直到下一个值被请求时再继续。要创建一个生成器，只需要将函数中的return替换为yelid即可

In [6]:
def squares(n=10):
    print('generating squares from 1 to {0}'.format(n**2))
    for i in range(1,n+1):
        yield i ** 2
gen = squares(20)
gen

<generator object squares at 0x000001873407E890>

In [7]:
#直到你的从该生成器中请求元素，它才会执行其他代码
for x in gen:
    print(x,end=' ')

generating squares from 1 to 400
1 4 9 16 25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 400 

生成器表达式
另一种更简洁的构造生成器的方法式使用生成器表达式

In [9]:
gen =(x ** 2 for x in range(100))
gen

<generator object <genexpr> at 0x000001873407C5F0>

In [10]:
sum(x ** 2 for x in range(100))

328350

In [11]:
dict((i, i ** 3) for i in range(10))

{0: 0, 1: 1, 2: 8, 3: 27, 4: 64, 5: 125, 6: 216, 7: 343, 8: 512, 9: 729}

itertools 模块
标准库itertools模块中有一组用于许多常见的数据算法的生成器

In [None]:
#groupby可以接受任何序列和一个函数，它根据函数的返回值对序列中连续元素进行分组

In [14]:
import itertools

first_letter = lambda x:x[0]
names = ['Alan','Adam','Wes','Will','BBC','Peter']
for letter,name in itertools.groupby(names,first_letter):
    print(letter,list(name))

A ['Alan', 'Adam']
W ['Wes', 'Will']
B ['BBC']
P ['Peter']


建议参考python 官方文档进行进一步学习

错误和异常处理
优雅地处理python的错误和异常是构建健壮程序的重要部分

In [None]:
#优雅处理float 错误
def attempt_float(x):
    try:
        return(float(x))
    except:
        return x
#你可能只想处理ValueError，TypeError错误吗，可能是一个合理的bug可以写成异常类
def attempt_float_1(x):
    try:
        return float(x)
    except ValueError:
        return x
#元组包含多个异常
def attempt_float_2(x):
    try:
        return(float(x))
    except(TypeError,ValueError):
        return x


某种情况你可能不想抑制异常，你想无论是否成功都执行一段代码可以使用finally
f = open(path,'w')
try:
    write_to_file(f)
finally:
    f.close()