# Built-in Data Structures, Functions, 

## Data Structures and Sequences

### Tuple 元组是一个固定长度，不可改变的Python序列对象。

In [2]:
#创建元组最简单的方式，使用逗号分隔一列值
tup = 4, 5, 6
tup

(4, 5, 6)

In [3]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

In [4]:
#用tuple可以将任意序列或者迭代器转换成元组
tuple([4, 0, 2])
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

In [5]:
#可以用方括号访问元组中的元素
tup[0]

's'

In [6]:
#元组中存储的对象可能是可变对象。一旦创建了元组，元组中的对象就不能修改了
tup = tuple(['foo', [1, 2], True])
tup[2] = False

TypeError: 'tuple' object does not support item assignment

In [7]:
#如果元组中的某个对象是可变的，比如列表，可以在原位进行修改
tup[1].append(3)
tup

('foo', [1, 2, 3], True)

In [8]:
#可以用加号运算符将元组串联起来
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

In [9]:
#元祖成衣一个整数，像列表一样，会将几个元组的复制串联起来
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

#### Unpacking tuples 拆分元组

In [10]:
#如果你想将元组赋值给类似元组的变量，Python会试图拆分等号右边的值
tup = (4, 5, 6)
a, b, c = tup
b

5

In [11]:
#即使含有元组的元组也会被拆分
tup = 4, 5, (6, 7)
a, b, (c, d) = tup
d

7

#变量交换

tmp = a
a = b
b = tmp

In [12]:
#在python中，变量交换可以这样做
a, b = 1, 2
a
b
b, a = a, b
a
b

1

In [13]:
#变量拆分常用来迭代元组或列表序列
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print('a={0}, b={1}, c={2}'.format(a, b, c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


In [1]:
#元组的拆分功能，允许从元组开头“摘取”几个元素。使用了特殊的语法*rest
values = 1, 2, 3, 4, 5
a, b, *rest = values
a, b
rest

[3, 4, 5]

In [2]:
#rest的部分是想要舍弃的部分，rest的名字不重要。作为惯用写法，许多python程序员会将不需要的变量使用下划线
a, b, *_ = values

#### Tuple methods tuple的方法

In [3]:
#因为元组的大小和内容不能修改，它的实例方法都很轻量。其中一个很有用的就是count，可以统计某个值出现大的频率
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2)

4

### List 与元组相比，列表的长度可变、内容可以被修改。

In [4]:
#列表可以用方括号定义，或用list函数定义
a_list = [2, 3, 7, None]
tup = ('foo', 'bar', 'baz')
b_list = list(tup)
b_list
b_list[1] = 'peekaboo'
b_list

['foo', 'peekaboo', 'baz']

In [5]:
#list函数常用来在数据处理中实体化迭代器或生成器
gen = range(10)
gen
list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

#### Adding and removing elements 添加和删除元素

In [6]:
#用append在列表末尾添加元素
b_list.append('dwarf')
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

In [7]:
#insert可以在特定的位置插入元素，插入元素的序号必须在0和列表长度之间
b_list.insert(1, 'red')
b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

In [8]:
#移除并返回指定位置的元素
b_list.pop(2)
b_list

['foo', 'red', 'baz', 'dwarf']

In [10]:
#可以用remove去除某个值，remove会先寻找第一个值并除去
b_list.append('foo')
b_list
b_list.remove('foo')
b_list
#如果不考虑性能，使用append和remove，可以把Python的列表当做完美的"多重集"数据结构

['red', 'baz', 'dwarf', 'foo']

In [11]:
#用in可以检查列表是否包含某个值
'dwarf' in b_list

True

In [13]:
#否定in可以再加一个not
'dwarf' not in b_list
#在列表中检查是否存在某个值远比字典和集合速度慢，因为python是线性搜索列表中的值，但在字典和集合中，在同样的时间内
#还可以检查其他项

False

#### Concatenating and combining lists  串联和组合列表

In [14]:
#与元组类似，可以用加号将两个列表串联起来
[4, None, 'foo'] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

In [16]:
#如果已经定义了一个列表，用extend方法可以追加多个元素
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])
x
#通过加法将列表串联的计算量较大，因为要新建一个列表，并且要复制对象。用extend追加元素更为可取

[4, None, 'foo', 7, 8, (2, 3)]

#这种方法比较快
everything = []
for chunk in list_of_lists:
    everything.extend(chunk)

everything = []
for chunk in list_of_lists:
    everything = everything + chunk

#### Sorting   排序 

In [17]:
#可以用sort函数将一个列表原地排序（不创建新的对象）
a = [7, 2, 5, 1, 3]
a.sort()
a

[1, 2, 3, 5, 7]

In [18]:
#sort有一些选项，有时会很好用。其中之一是二级排序key，可以用这个key进行排序。例如我们可以按长度对字符串进行排序
b = ['saw', 'small', 'He', 'foxes', 'six']
b.sort(key=len)
b

['He', 'saw', 'six', 'small', 'foxes']

#### Binary search and maintaining a sorted list 二分搜索和维护已排序的列表

In [25]:
#bisect模块支持二分查找，和向已排序的列表插入值。
#bisect.bisect可以找到插入值后仍保证排序的位置，
#bisect.insort是向这个位置插入值
import bisect
c = [1, 2, 2, 2, 3, 4, 7]
bisect.bisect(c, 2)
bisect.bisect(c, 5)
bisect.insort(c, 6)
c
#注意：bisect模块不会检查列表是否已排好序，进行检查的话会耗费大量计算。
#因此，对未排序的列表使用bisect不会产生错误，但结果不一定正确。

[1, 2, 2, 2, 3, 4, 6, 7]

#### Slicing 切片

In [26]:
#用切边可以选取大多数序列类型的一部分，切片的基本形式是在方括号中使用start：stop：
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

[2, 3, 7, 5]

In [27]:
#切片也可以被序列赋值
seq[3:4] = [6, 3]
seq
#切片的起始元素是包括的，不包含结束元素。因此，结果中包含的元素个数是stop-start

[7, 2, 3, 6, 3, 5, 6, 0, 1]

In [28]:
#start或stop都可以被省略，省略之后，分别默认序列的开头和结尾
seq[:5]
seq[3:]

[6, 3, 5, 6, 0, 1]

In [29]:
#负数表明从后向前切片
seq[-4:]
seq[-6:-2]

[6, 3, 5, 6]

In [30]:
#在第二个冒号后面使用step，可以隔一个取一个元素
seq[::2]

[7, 3, 3, 6, 1]

In [31]:
#一个聪明的方法是使用-1，它可以将列表或元组颠倒过来
seq[::-1]

[1, 0, 6, 5, 3, 6, 3, 2, 7]

### Built-in Sequence Functions 序列函数

#### enumerate

In [35]:
#迭代一份序列是，你可能想跟踪当前项的序号。手动的方法可能是下面这样
# i = 0
# for value in collection:
#    do something with value
#    i += 1

In [36]:
#因为这么做很常见，Python内建了一个enumerate函数，可以返回（i,value)元组序列
# for i, value in enumerate(collection):
#    do something with value

In [37]:
#当你索引数据时，使用enumerate的一个好方法是计算序列（唯一的）dict映射到位置的值
some_list = ['foo', 'bar', 'baz']
mapping = {}
for i, v in enumerate(some_list):
    mapping[v] = i
mapping

{'foo': 0, 'bar': 1, 'baz': 2}

#### sorted

In [38]:
#sorted函数可以从任意序列的元素返回一个新的排好序的列表
sorted([7, 1, 2, 6, 0, 3, 2])
sorted('horse race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

#### zip

In [39]:
#zip可以将多个列表、元组或其它序列成对组合成一个元组列表
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']
zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [40]:
#zip可以处理任意多的序列，元素的个数取决于最短的序列
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

In [41]:
#zip的常见用法之一是同事迭代多个序列，可能结合enumerate使用
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


In [42]:
#给出一个“被压缩的”序列，zip可以被用来解压序列。也可以当作把行的列表转换为列的列表。
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),
            ('Schilling', 'Curt')]
first_names, last_names = zip(*pitchers)
first_names
last_names

('Ryan', 'Clemens', 'Curt')

#### reversed

In [43]:
#reversed可以从后向前迭代一个序列
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

### dict 字典可能是Python最为重要的数据结构。它更为常见的名字是哈希映射和关联数组。它是键值对的大小可变集合，键和值都是Python对象。

In [44]:
#创建字典的方法之一是使用尖括号，用冒号分割键和值
empty_dict = {}
d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

In [45]:
#你可以像访问列表或元组中的元素一样，访问、插入或设定字典中的元素
d1[7] = 'an integer'
d1
d1['b']

[1, 2, 3, 4]

In [46]:
#你可以用检查列表和元组是否包含某个值的方法，检查字典中是否包含某个键
'b' in d1

True

In [47]:
#可以用del关键字或pop方法（返回值的同时删除键）删除值
d1[5] = 'some value'
d1
d1['dummy'] = 'another value'
d1
del d1[5]
d1
ret = d1.pop('dummy')
ret
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [48]:
#keys和values是字典的键和值的迭代器方法。虽然键值对没有顺序，这两个方法可以用相同的顺序输出键和值
list(d1.keys())
list(d1.values())

['some value', [1, 2, 3, 4], 'an integer']

In [50]:
#可以用update方法将一个字典和另一个融合
d1.update({'b' : 'foo', 'c' : 12})
d1
#update方法是原地改变字典，因此任何传递给update的键的旧值都会被舍弃

{'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

#### Creating dicts from sequences 用序列创建字典

In [51]:
#常常，你可能想将两个序列配对成组合成字典。下面是一种写法
# mapping = {}
# for key, value in zip(key_list, value_list):
#     mapping[key] = value

In [53]:
#因为字典本质上是2元元组的集合，dict可以接受2元元组的列表
mapping = dict(zip(range(5), reversed(range(5))))
mapping
#后面会谈到dict comprehensions，另一种构建字典的优雅方式

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

#### Default values 默认值

In [None]:
# if key in some_dict:
#     value = some_dict[key]
# else:
#     value = default_value

In [54]:
#因此dict的方法get和pop可以去默认值进行返回，上面的if-else语句可以简写成下面这样
#value = some_dict.get(key, default_value)

In [59]:
#get默认会返回None，如果不存在键，pop会抛出一个例外。关于设定值，常见的情况是在字典的值属于其他集合，如列表。
#例如，你可以通过首字母，将一个列表中的单词分类
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}
for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [60]:
#setdefault方法就正是干这个的。前面的for循环可以改写为
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}
for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [64]:
#collections模块有一个很有用的类，defaultdict，它可以进一步简化上面。传递类型或函数以生成每个位置的默认值
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}
from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)
by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

#### Valid dict key types 有效的键类型

In [68]:
#字典的值可以是任意Python对象，而键通常是不可变的标量类型（整数、浮点型、字符串）或元组（元组中的对象必须是不可变的）。
#这被称为“可哈希性”。可以用hash函数检测一个对象是否是可哈希的（可被用作字典的键）
hash('string')
hash((1, 2, (2, 3)))
hash((1, 2, [2, 3])) # fails because lists are mutable

1097636502276347782

In [66]:
#要用列表当作键，一种方法是将列表转化为元组，只要内部元素可以被哈希，他也就可以被哈希
d = {}
d[tuple([1, 2, 3])] = 5
d

{(1, 2, 3): 5}

### set 集合

In [1]:
#集合是无序的不可重复的元素的集合。你可以把它当做字典，但是只有键没有值。
#可以用两种方式创建集合：通过set函数或使用尖括号set语句
set([2, 2, 2, 1, 3, 3])
{2, 2, 2, 1, 3, 3}

{1, 2, 3}

In [6]:
#集合支持合并、交集、差分和对称差等数学集合运算
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

In [7]:
#合并是取两个集合中不重复的元素。可以用union方法，或者|运算符
a.union(b)
a | b

{1, 2, 3, 4, 5, 6, 7, 8}

In [8]:
#交集的元素包含在两个集合中。可以用intersection或&运算符
a.intersection(b)
a & b

{3, 4, 5}

In [9]:
#所有逻辑集合操作都有另外原地实现方法，它可以直接用结果替代集合的内容。对于大的集合，这么做效率更高
c = a.copy()
c |= b
c
d = a.copy()
d &= b
d

{3, 4, 5}

In [10]:
#与字典类似，集合元素通常都是不可变的。要获得类似列表的元素，必须转换成元组
my_data = [1, 2, 3, 4]
my_set = {tuple(my_data)}
my_set

{(1, 2, 3, 4)}

In [11]:
#你还可以检测一个集合是否是另外一个集合的子集或者父集
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set)
a_set.issuperset({1, 2, 3})

True

In [12]:
#集合的内容相同时，集合才对等
{1, 2, 3} == {3, 2, 1}

True

  ### List, Set, and Dict Comprehensions   列表、集合和字典推导式

In [13]:
#列表推导式是Python最受喜爱的特性之一。
#它允许用户方便的从一个集合过滤元素，形成列表，在传递参数的过程中还可以修改元素。形式如下
#[expr for val in collection if condition]

In [14]:
#等同于下面的for循环
# result = []
# for val in collection:
#    if condition:
#       result.append(expr)

In [None]:
#filter条件可以被忽略，只留下表达式就行。
#例如，给定一个字符串列表，我们可以过滤出长度在2及以下的字符串，并将其转换成大写
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]

dict_comp = {

set_comp = {

In [None]:
unique_lengths = {len(x) for x in strings}
unique_lengths

In [None]:
set(map(len, strings))

In [None]:
loc_mapping = {val : index for index, val in enumerate(strings)}
loc_mapping

#### Nested list comprehensions

In [None]:
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'],
            ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

names_of_interest = []
for names in all_data:
    enough_es = [name for name in names if name.count('e') >= 2]
    names_of_interest.extend(enough_es)

In [None]:
result = [name for names in all_data for name in names
          if name.count('e') >= 2]
result

In [None]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup]
flattened

flattened = []

for tup in some_tuples:
    for x in tup:
        flattened.append(x)

In [None]:
[[x for x in tup] for tup in some_tuples]

## Functions

def my_function(x, y, z=1.5):
    if z > 1:
        return z * (x + y)
    else:
        return z / (x + y)

my_function(5, 6, z=0.7)
my_function(3.14, 7, 3.5)
my_function(10, 20)

### Namespaces, Scope, and Local Functions

def func():
    a = []
    for i in range(5):
        a.append(i)

a = []
def func():
    for i in range(5):
        a.append(i)

In [None]:
a = None
def bind_a_variable():
    global a
    a = []
bind_a_variable()
print(a)

### Returning Multiple Values

def f():
    a = 5
    b = 6
    c = 7
    return a, b, c

a, b, c = f()

return_value = f()

def f():
    a = 5
    b = 6
    c = 7
    return {'a' : a, 'b' : b, 'c' : c}

### Functions Are Objects

In [None]:
states = ['   Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda',
          'south   carolina##', 'West virginia?']

In [None]:
import re

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return result

In [None]:
clean_strings(states)

In [None]:
def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

In [None]:
clean_strings(states, clean_ops)

In [None]:
for x in map(remove_punctuation, states):
    print(x)

### Anonymous (Lambda) Functions

def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2

def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2)

In [None]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

In [None]:
strings.sort(key=lambda x: len(set(list(x))))
strings

### Currying: Partial Argument Application

def add_numbers(x, y):
    return x + y

add_five = lambda y: add_numbers(5, y)

from functools import partial
add_five = partial(add_numbers, 5)

### Generators

In [None]:
some_dict = {'a': 1, 'b': 2, 'c': 3}
for key in some_dict:
    print(key)

In [None]:
dict_iterator = iter(some_dict)
dict_iterator

In [None]:
list(dict_iterator)

In [None]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        yield i ** 2

In [None]:
gen = squares()
gen

In [None]:
for x in gen:
    print(x, end=' ')

#### Generator expresssions

In [None]:
gen = (x ** 2 for x in range(100))
gen

def _make_gen():
    for x in range(100):
        yield x ** 2
gen = _make_gen()

In [None]:
sum(x ** 2 for x in range(100))
dict((i, i **2) for i in range(5))

#### itertools module

In [None]:
import itertools
first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names)) # names is a generator

### Errors and Exception Handling

In [None]:
float('1.2345')
float('something')

In [None]:
def attempt_float(x):
    try:
        return float(x)
    except:
        return x

In [None]:
attempt_float('1.2345')
attempt_float('something')

In [None]:
float((1, 2))

In [None]:
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x

In [None]:
attempt_float((1, 2))

In [None]:
def attempt_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return x

f = open(path, 'w')

try:
    write_to_file(f)
finally:
    f.close()

f = open(path, 'w')

try:
    write_to_file(f)
except:
    print('Failed')
else:
    print('Succeeded')
finally:
    f.close()

#### Exceptions in IPython

In [10]: %run examples/ipython_bug.py
---------------------------------------------------------------------------
AssertionError                            Traceback (most recent call last)
/home/wesm/code/pydata-book/examples/ipython_bug.py in <module>()
     13     throws_an_exception()
     14
---> 15 calling_things()

/home/wesm/code/pydata-book/examples/ipython_bug.py in calling_things()
     11 def calling_things():
     12     works_fine()
---> 13     throws_an_exception()
     14
     15 calling_things()

/home/wesm/code/pydata-book/examples/ipython_bug.py in throws_an_exception()
      7     a = 5
      8     b = 6
----> 9     assert(a + b == 10)
     10
     11 def calling_things():

AssertionError:

## Files and the Operating System

In [None]:
%pushd book-materials

In [None]:
path = 'examples/segismundo.txt'
f = open(path)

for line in f:
    pass

In [None]:
lines = [x.rstrip() for x in open(path)]
lines

In [None]:
f.close()

In [None]:
with open(path) as f:
    lines = [x.rstrip() for x in f]

In [None]:
f = open(path)
f.read(10)
f2 = open(path, 'rb')  # Binary mode
f2.read(10)

In [None]:
f.tell()
f2.tell()

In [None]:
import sys
sys.getdefaultencoding()

In [None]:
f.seek(3)
f.read(1)

In [None]:
f.close()
f2.close()

In [None]:
with open('tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)
with open('tmp.txt') as f:
    lines = f.readlines()
lines

In [None]:
import os
os.remove('tmp.txt')

### Bytes and Unicode with Files

In [None]:
with open(path) as f:
    chars = f.read(10)
chars

In [None]:
with open(path, 'rb') as f:
    data = f.read(10)
data

In [None]:
data.decode('utf8')
data[:4].decode('utf8')

In [None]:
sink_path = 'sink.txt'
with open(path) as source:
    with open(sink_path, 'xt', encoding='iso-8859-1') as sink:
        sink.write(source.read())
with open(sink_path, encoding='iso-8859-1') as f:
    print(f.read(10))

In [None]:
os.remove(sink_path)

In [None]:
f = open(path)
f.read(5)
f.seek(4)
f.read(1)
f.close()

In [None]:
%popd

## Conclusion