# 函数是对象
由于Python的函数是对象，很多在其他语言中比较难的构造在Python中非常容易实现。  
假设我们正在进行数据清洗，需要将一些变形应用到下列字符串列表中：

In [1]:
states=["   Alabama ","Georgia!","Georgia","FlOrIda","south   carolina##","West virginia?"]

现在我们要去除上面字符串列表中字符串包含的空格，移除标点符号，调整适当的大小写。一种方式是使用内建的字符串方法，结合标准中的正则表达式模块re:

In [6]:
import re

def clean_strings(strings):
    result=[]
    for value in strings:
        value=value.strip()
        value=re.sub('[!#?]','',value)
        value=value.title()
        result.append(value)
    return result

In [7]:
clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

另一种会让你觉得有用的实现就是将特定的列表操作应用到某个字符串的集合上：

In [8]:
def remove_punctuation(value):
    return re.sub('[!#?]','',value)

clean_ops=[str.strip,remove_punctuation,str.title]

def clean_strings(strings,ops):
    result=[]
    for value in strings:
        for function in ops:
            value=function(value)
        result.append(value)
    return result

In [9]:
clean_strings(states,clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

像这种更为函数化的模式可以使你在更高层次上方便得修改字符串变换方法。clean_strings函数现在也具有更强的复用性和通用性。
你可以将函数作为一个参数传给其他的函数，比如内建的map函数，可以将一个函数应用到一个序列上：

In [11]:
for x in map(remove_punctuation,states):
    print(x)

   Alabama 
Georgia
Georgia
FlOrIda
south   carolina
West virginia


# 匿名函数
Python支持所谓的匿名或lambda函数。匿名函数是一种通过单个语句生成函数的方式，其结果是返回值。匿名函数使用lambda关键字定义 ，该关键字仅表达“我们声明匿名函数”的意思：

In [12]:
def short_function(x):
    return x*2

equiv_anon = lambda x:x*2

匿名函数代码量小，将它作为参数进行传值，比写一个完整的函数或者将匿名函数赋值给局部变量更好。  
假设你想要根据字符串中不同字符的数量对一个字符串集合进行排序：

In [13]:
strings=['foo','card','bar','aaaa','abab']

这里我们可以将一个匿名函数传给列表的sort方法：

In [14]:
strings.sort(key=lambda x:len(set(list(x))))
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

和def关键字声明的函数不同，匿名函数对象自身并没有一个显式的__name__属性，这是lambda函数被称为匿名函数的一个原因。

# 柯里化：部分参数应用
柯里化是计算机科学术语（一数学家Haskell Curry命名），它表示通过部分参数应用的方式从已有的函数中衍生出新的函数。例如，假设我们有一个不重要的函数，其功能是将两个数加一起：

In [15]:
def add_numbers(x,y):
    return x+y

使用这个函数，我们可以衍生出一个只有一个变量的新函数，add_five，可以给参数加上5：

In [16]:
add_five=lambda y:add_numbers(5,y)

第二个参数对于函数add_numbers就是柯里化了。这里并没有什么神奇的地方，我们真正做的事只是定义了一个新函数，这个新函数调用了已经存在的函数。内建的functools模块可以使用partial函数简化这种处理：

In [17]:
from functools import partial
add_five=partial(add_numbers,5)

In [18]:
add_five(3)

8

# 生成器
通过一致的方式遍历序列，例如列表中的对象或者文件中的一行行内容，这是Python的一个重要特性。这个特性是通过迭代器协议来实现的，迭代器协议是一种令对象可遍历的通用方式。例如，遍历一个字典，获得字典的键：


In [19]:
some_dict={'a':1,'b':2,'c':3}
for key in some_dict:
    print(key)

a
b
c


当你写下for key in some_dict的语句时，Python解释器首先尝试根据some_dict生成一个迭代器：

In [21]:
dict_iterator=iter(some_dict)
dict_iterator

<dict_keyiterator at 0x5663a48>

迭代器是一种用于在上下文中（比如for循环）向Python解释器生成对象的对象。大部分列表或列表型对象为参数的方法都可以接收任意的迭代器对象。包括内建方法比如min,max和sum，以及类型构造函数比如list和tuple:

In [22]:
list(dict_iterator)

['a', 'b', 'c']

生成器是构造新的可遍历对象的一种非常简洁的方式。普通函数执行并一次返回单个结果，而生成器则“惰性”地返回一个多结果序列，在每一个元素产生之后暂停，直到下一个请求。如需创建一个生成器，只需要在函数中将返回关键字return替换为yield关键字：

In [23]:
def squares(n=10):
    print("Generating squares from 1 to {0}".format(n**2))
    for i in range(1,n+1):
        yield i**2

当你实际调用生成器时，代码并不会立即执行：

In [25]:
gen=squares()
gen

<generator object squares at 0x0000000006168408>

直到你请求生成器中的元素时，它才会执行它的代码：

In [26]:
for x in gen:
    print(x,end=' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

# 生成器表达式
用生成器表达式来创建生成器更为简单。生成器表达式与列表、字典、集合的推导式很类似，创建一个生成器表达式，只需要将列表推导式中的中括号替换为小括号即可：

In [27]:
gen=(x**2 for x in range(100))
gen

<generator object <genexpr> at 0x00000000061682A0>

在很多情况下，生成器表达式可以作为函数参数用于替代列表推导式：

In [28]:
sum(x**2 for x in range(100))

328350

In [29]:
dict((i,i**2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

# itertools模块
标准库中的itertools模块是适用于大多数数据算法的生成器集合。例如，groupby可以根据任意的序列和一个函数，通过函数的返回值对序列中的连续的元素进行分组，参见下面的例子：

In [30]:
import itertools

first_letter=lambda x:x[0]

names=['Alan','Adam','Wes','Will','Albert','Steven']

for letter,names in itertools.groupby(names,first_letter):
    print(letter,list(names))

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


# 错误和异常处理
优雅地处理Python的错误或异常是构建稳定性程序的重要组成部分。在数据分析应用中，很多函数只能处理特定的输入。例如，Python的float函数可以将字符串转换为浮点数字，但是对不正确的输入会产生ValueError:

In [31]:
float('1.2345')

1.2345

In [32]:
float('something')

ValueError: could not convert string to float: 'something'

假设我们想要在float函数运行失败时可以优雅地返回输入参数。我们可以通过将float函数写入一个try/except代码段来实现：

In [34]:
def attemp_float(x):
    try:
        return float(x)
    except:
        return x

如果float(x)执行时抛出了异常，则代码段中的except部分代码将会被执行：

In [35]:
attemp_float('1.2345')

1.2345

In [36]:
attemp_float('something')

'something'