In [3]:
#字典，默认值
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}

for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)#不存在，向字典中的value中追加word

by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [4]:
#setdefault方法就正是干这个的。前面的for循环可以改写为：
for word in words:
    letter = word[0]
    by_letter.setdefault(letter,[]).append(word)
    
by_letter

{'a': ['apple', 'atom', 'apple', 'atom'],
 'b': ['bat', 'bar', 'book', 'bat', 'bar', 'book']}

In [5]:
from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)
by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

列表、集合和字典推导式

In [7]:
#列表推导式
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [8]:
#集合推导式，与列表相似但是用{}
unique_lengths = {len(x) for x in strings}
unique_lengths

{1, 2, 3, 4, 6}

In [9]:
#用map函数继续简化上式
set(map(len, strings))

{1, 2, 3, 4, 6}

In [10]:
#enumerate函数
#Python内建了一个enumerate函数，可以返回(i, value)元组序列：
some_list = ['foo','bar','baz']
mapping = {}
for i,v in enumerate(some_list):
    mapping[i] = v
mapping

{0: 'foo', 1: 'bar', 2: 'baz'}

In [12]:
#字典推到式
loc_mapping = {val:index for index, val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

In [14]:
#嵌套列表推导式
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'], 
            ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]
names_of_interest = []
for names in all_data:
    enough_es = [name for name in names if name.count('e')>=2]
    names_of_interest.extend(enough_es)
    
names_of_interest

['Steven']

In [15]:
#可以用嵌套列表推导式的方法，将这些写在一起
result = [name for names in all_data for name in names if name.count('e')>=2]
result

['Steven']

In [1]:
#函数也是对象
#清理一些数据
import re
def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append()
states = [' Alabama ', 'Georgia!', 'Georgia', 'georgia', 
          'FlOrIda', 'south carolina##', 'West virginia?']


In [3]:
#其实还有另外一种不错的办法：将需要在一组给定字符串上执行的所有运算做成一个列表
def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South Carolina',
 'West Virginia']

In [6]:
#还可以将函数用作其他函数的参数，比如内置的map函数，它用于在一组数据上应用一个函数
#类似于java8的map
for x in map(remove_punctuation, states):
    print(x)

 Alabama 
Georgia
Georgia
georgia
FlOrIda
south carolina
West virginia


匿名(lambda)函数
Python支持一种被称为匿名的或者lambd函数。它仅由单条语句组成，该语句的结果就是返回值。
它是通过lambda关键字定义的，这个关键字没有别的含义，仅仅是说“我们正在声明的是一个匿名函数”。

In [7]:
def short_function(x):
    return x * 2
#等价于
equiv_anon = lambda x: x * 2

In [9]:
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4,0,1,5,6]
apply_to_list(ints, lambda x: x * 2)

[8, 0, 2, 10, 12]

In [11]:
#我们可以传入一个lambda函数到列表的sort方法
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']
strings.sort(key = lambda x: len(set(list(x))))
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

In [25]:
"""
生成器(generator)是构造器的可迭代对象的一种简单方式。一般的函数执行之后
只会返回单个值，而生成器则是以延迟的方式返回一个值序列，即每返回一个值之后
暂停，直到下一个被请求再继续。要创建一个生成器，只需将函数中的return替换为yield即可：
"""
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n**2))
    for i in range(1, n+1):
        yield i**2

gen = squares() #调用该生成器时，没有任何代码会被立刻执行
gen

<generator object squares at 0x000001FA9080EA40>

In [26]:
#直到从生成器中请求元素时，它才开始执行代码：
for x in gen:
    print(x, end=' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

In [28]:
#生成器表达式
#另一种更简洁的构造生成器的方法是使用生成器表达式（generator expression）。
#这是一种类似于列表、字典、集合推导式的生成器。其创建方式为，把列表推导式两端的方括号改成圆括号：
gen = (x**2 for x in range(100))
gen

<generator object <genexpr> at 0x000001FA9080E9E8>

In [29]:
#生成器表达式也可以取代列表推导式，作为函数参数
sum(x**2 for x in range(100))

328350

错误和异常处理

In [30]:
#假如想优雅地处理float的错误，让它返回输入值。我们可以写一个函数，在try/except中调用float：
def attempt_float(x):
    try:
        return float(x)
    except:
        return x

In [31]:
#当float(x)抛出异常时，才会执行except的部分：
attempt_float('1.2345')

1.2345

In [32]:
attempt_float('something')

'something'

In [33]:
#你可能注意到float抛出的异常不仅是ValueError：
#你可能只想处理ValueError，TypeError错误（输入不是字符串或数值）可能是合理的bug。可以写一个异常类型：
def attempt_float(x):
    try:
        return float(x)
    except ValueError: #只处理value error
        return x

In [34]:
attempt_float((1,2))

TypeError: float() argument must be a string or a number, not 'tuple'

In [35]:
#可以用元组包含多个异常：
def attempt_float(x):
    try:
        return float(x)
    except (ValueError, TypeError): #只处理多个异常
        return x
attempt_float((1,2))

(1, 2)

In [None]:
#某些情况下，你可能不想抑制异常，你想无论try部分的代码是否成功，都执行一段代码。可以使用finally：
f = open(path, 'w')

try:
    write_to_file(f)
finally:
    f.close()

In [None]:
f = open(path, 'w')
try:
write_to_file(f)
except:
print('Failed')
else:
print('Succeeded')
finally:
f.close()

### NumPy基础：数组和矢量计算

NumPy的ndarray：一种多维数组对象

In [37]:
import numpy as np

#Generate some random data
data = np.random.randn(2,3)
data

array([[-1.19264198,  1.61900744, -0.45583795],
       [-0.55456218, -0.12029555, -0.96977051]])

In [38]:
data*10

array([[-11.92641982,  16.19007442,  -4.55837953],
       [ -5.54562185,  -1.20295553,  -9.69770507]])

In [39]:
data+data

array([[-2.38528396,  3.23801488, -0.91167591],
       [-1.10912437, -0.24059111, -1.93954101]])

In [40]:
#每个数组都有一个shape（一个表示各维度大小的元组）和一个dtype（一个用于说明数组数据类型的对象）
print(data.shape)
print(data.dtype)

(2, 3)
float64


#### 创建ndarray

In [43]:
#创建数组最简单的办法就是使用array函数。它接受一切序列型的对象（包括其他数组），
#然后产生一个新的含有传入数据的NumPy数组。
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [44]:
#嵌套序列（比如由一组等长列表组成的列表）将会被转换为一个多维数组
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [45]:
#验证维度ndim和形状shape
print(arr2.ndim)
print(arr2.shape)

2
(2, 4)


In [47]:
"""
zeros和ones分别可以创
建指定长度或形状的全0或全1数组。empty可以创建一个没有任何具体值的数
组。要用这些方法创建多维数组，只需传入一个表示形状的元组即可
"""
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [49]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [50]:
np.empty((2,3,2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [51]:
#arange是Python内置函数range的数组版
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [54]:
#可以通过ndarrydeastype方法明确地将一个数组从一个dtype转换为另一个dtype
arr = np.array([1,2,3,4,5])
arr.dtype #dtype('int32')
float_arr = arr.astype(np.float64)
float_arr.dtype #dtype('float64')

dtype('float64')

In [56]:
#如果将浮点数转换成整数，则小数部分将会被截取删除
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

NumPy数组的运算

In [59]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print(arr)
print(arr*arr)
print(arr-arr)

[[1. 2. 3.]
 [4. 5. 6.]]
[[ 1.  4.  9.]
 [16. 25. 36.]]
[[0. 0. 0.]
 [0. 0. 0.]]


In [62]:
#数组与标量的算术运算会将标量值传播到各个元素：
print(1/arr)
print(arr*0.5)

[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]
[[0.5 1.  1.5]
 [2.  2.5 3. ]]


In [66]:
#大小相同的数组之间的比较会生成布尔值数组
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
print(arr2)
arr2 > arr
#不同大小的数组之间的运算叫做广播（broadcasting）

[[ 0.  4.  1.]
 [ 7.  2. 12.]]


array([[False,  True, False],
       [ True, False,  True]])

基本的索引和切片

In [69]:
"""如上所示，当你将一个标量值赋值给一个切片时（如arr[5:8]=12），该值会自动
传播（也就说后面将会讲到的“广播”）到整个选区。跟列表最重要的区别在于，
数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直
接反映到源数组上"""
arr = np.arange(10)
arr_slice = arr[5:8]
arr_slice

array([5, 6, 7])

In [70]:
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,     5, 12345,     7,     8,
           9])

In [71]:
#切片[ : ]会给数组中的所有值赋值
arr_slice[:] = 64
arr
#如果你想要得到的是ndarray切片的一份副本而非视图，就需要明确地进行复制操作，例如arr[5:8].copy()。

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

布尔类型索引

In [76]:
#来看这样一个例子，假设我们有一个用于存储数据的数组以及一个存储姓名的数组（含有重复项）。
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [77]:
data

array([[-1.16353943, -0.25898691, -0.88593942,  0.6971944 ],
       [-0.96216507, -0.28566003, -0.58424732,  0.44417259],
       [-0.71990473, -0.03061771,  0.18055718,  0.13358286],
       [ 0.37131505,  0.84844577,  1.22977216,  0.78405412],
       [-0.87689254, -0.14919674, -1.30502772, -0.70371188],
       [ 0.2865141 ,  0.83396347,  0.855432  ,  0.09855867],
       [ 1.40404982,  0.93680303,  0.05189366,  0.47612287]])

In [78]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [79]:
data[names == 'Bob']

array([[-1.16353943, -0.25898691, -0.88593942,  0.6971944 ],
       [ 0.37131505,  0.84844577,  1.22977216,  0.78405412]])

In [80]:
data[data < 0]

array([-1.16353943, -0.25898691, -0.88593942, -0.96216507, -0.28566003,
       -0.58424732, -0.71990473, -0.03061771, -0.87689254, -0.14919674,
       -1.30502772, -0.70371188])

In [81]:
data[names != 'Joe'] = 7
data

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [-0.96216507, -0.28566003, -0.58424732,  0.44417259],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.2865141 ,  0.83396347,  0.855432  ,  0.09855867],
       [ 1.40404982,  0.93680303,  0.05189366,  0.47612287]])

花式索引