# Built-in Data Structures, Functions and Files

## 1. Tuple
元组是一个固定长度，不可改变的Python序列对象。创建元组的最简单方式，是用逗号分隔一列值：

In [1]:
tu = 1,2,3,4
tu

(1, 2, 3, 4)

Tuple不可改变，但是其中的对象可以在原位改变，并且可以相加，相乘

In [2]:
tup = tuple(['foo', [1, 2], True])
tup[1].append(3)
tup

('foo', [1, 2, 3], True)

In [3]:
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

In [4]:
 ('foo', 'bar') * 3

('foo', 'bar', 'foo', 'bar', 'foo', 'bar')

#### 元祖的拆分

In [5]:
tup = 4, 5, (6, 7)
a, b, (c, d) = tup
d

7

In [6]:
# 数据替换
a, b = 1, 2
print('a={0}, b={1}'.format(a, b))
a, b = b, a
print('a={0}, b={1}'.format(a, b))

a=1, b=2
a=2, b=1


#### 迭代拆分元祖

In [7]:
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print('a={0}, b={1}, c={2}'.format(a, b, c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


Python最近新增了更多高级的元组拆分功能，允许从元组的开头“摘取”几个元素。它使用了特殊的语法*rest，这也用在函数签名中以抓取任意长度列表的位置参数：

In [8]:
values = 1, 2, 3, 4, 5
a, b, *rest = values
print(a, b)
print(rest)

1 2
[3, 4, 5]


In [9]:
a = (1, 2, 3, 4, 2, 3, 2, 2)
a.count(2)

4

## 2. List

In [10]:
# 可以用append在列表末尾添加元素：
b = ['foo', 'bar', 'baz']
b.append('end')
b

['foo', 'bar', 'baz', 'end']

In [11]:
# 可以用remove去除某个值，remove会先寻找第一个值并除去：
b.remove('end')
b

['foo', 'bar', 'baz']

In [12]:
# insert可以在特定的位置插入元素：插入的序号必须在0和列表长度之间。
b.insert(1,'red')
b

['foo', 'red', 'bar', 'baz']

```
警告：与append相比，insert耗费的计算量大，因为对后续元素的引用必须在内部迁移，以便为新元素提供空间。如果要在序列的头部和尾部插入元素，你可能需要使用collections.deque，一个双尾部队列。 
```

In [13]:
# insert的逆运算是pop，它移除并返回指定位置的元素：
print(b.pop(1))
b

red


['foo', 'bar', 'baz']

In [14]:
# 用in可以检查列表是否包含某个值：
'bar' in b

True

#### 串联和组合列表

In [15]:
[4, None, 'foo'] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

In [16]:
# 如果已经定义了一个列表，用extend方法可以追加多个元素：
# 比 + 速度更快
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])
x

[4, None, 'foo', 7, 8, (2, 3)]

#### 排序
可以用sort函数将一个列表原地排序（不创建新的对象）：

In [17]:
a = [7, 2, 5, 1, 3]
a.sort()
a

[1, 2, 3, 5, 7]

sort有一些选项，有时会很好用。其中之一是二级排序key，可以用这个key进行排序。

In [18]:
b = ['saw', 'small', 'He', 'foxes', 'six']
b.sort(key=len)
b

['He', 'saw', 'six', 'small', 'foxes']

#### 二分搜索和维护已排序的列表
bisect模块支持二分查找，和向已排序的列表插入值。
* bisect.bisect可以找到插入值后仍保证排序的位置，
* bisect.insort是向这个位置插入值：

注意：bisect模块不会检查列表是否已排好序，进行检查的话会耗费大量计算。因此，对未排序的列表使用bisect不会产生错误，但结果不一定正确。

In [19]:
import bisect
c = [1, 2, 2, 2, 3, 4, 7]
bisect.bisect(c, 5)

6

In [20]:
bisect.insort(c,5)
c

[1, 2, 2, 2, 3, 4, 5, 7]

### 序列函数

#### 1. enumerate函数

In [21]:
some_list = ['foo', 'bar', 'baz']
mapping = {}
for i,v in enumerate(some_list):
    mapping[v] = i
mapping

{'foo': 0, 'bar': 1, 'baz': 2}

#### 2. sorted 函数
sorted函数可以从任意序列的元素返回一个新的排好序的列表（新建对象）：

In [22]:
a = [7, 1, 2, 6, 0, 3, 2]
b = sorted(a)
print(a)
print(b)

[7, 1, 2, 6, 0, 3, 2]
[0, 1, 2, 2, 3, 6, 7]


#### 3. zip 函数
zip可以将多个列表、元组或其它序列成对组合成一个元组列表：

In [23]:
seq1 = ['foo', 'bar', 'baz']
seq2 = [2, 3, 1]
zipped = zip(seq1,seq2)
print(list(zipped))

[('foo', 2), ('bar', 3), ('baz', 1)]


zip可以用于同时迭代多个序列

In [24]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


给出一个“被压缩的”序列，zip可以被用来解压序列。也可以当作把行的列表转换为列的列表。

In [25]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), ('Schilling', 'Curt')]
first_names, last_names = zip(*pitchers)
print(first_names)
print(last_names)

('Nolan', 'Roger', 'Schilling')
('Ryan', 'Clemens', 'Curt')


#### reversed函数
reversed可以从后向前迭代一个序列：

In [26]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

## 3. 字典
可以像访问列表或元组中的元素一样，访问、插入或设定字典中的元素，也可以用del关键字或pop方法（返回值得同时删除键）删除值

In [27]:
d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
d1[7] = 'an integer'
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

`keys` 和 `values` 是字典的键和值的迭代器方法。虽然键值对没有顺序，这两个方法可以用相同的顺序输出键和值：

In [28]:
list(d1.keys())

['a', 'b', 7]

In [29]:
list(d1.values())

['some value', [1, 2, 3, 4], 'an integer']

用`update`方法可以将一个字典与另一个融合：

In [30]:
d1.update({'b' : 'foo', 'c' : 12})
# update b value
d1

{'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

#### 用序列创建字典

In [31]:
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

### 默认值
```python
if key in some_dict:
    value = some_dict[key]
else:
    value = default_value
```
上面的if-else语句可以简写成下面：
```python
value = some_dict.get(key, default_value)
```

In [32]:
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}

for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)

by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

`setdefault` 用于设置默认值
```python
dict.setdefault(key, default=None) ```

* key − This is the key to be searched.
* default − This is the Value to be returned in case key is not found.

In [33]:
by_letter = {}
for word in words:
    letter = word[0]
    by_letter.setdefault(letter,[]).append(word)
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

`collections`模块有一个很有用的类，`defaultdict`，它可以进一步简化上面。传递类型或函数以生成每个位置的默认值：

In [34]:
from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)
dict(by_letter)

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

####  [defaultdict](https://www.accelebrate.com/blog/using-defaultdict-python/)
A `defaultdict` works exactly like a normal dict, but it is initialized with a function (“default factory”) that takes no arguments and provides the default value for a nonexistent key.

A defaultdict will `never` raise a `KeyError`. Any key that does not exist gets the value returned by the default factory.

## 4. 集合
集合是无序的不可重复的元素的集合。你可以把它当做字典，但是只有键没有值。可以用两种方式创建集合：通过set函数或使用大括号set语句：

In [35]:
set([2, 2, 2, 1, 3, 3])

{1, 2, 3}

In [36]:
{2, 2, 2, 1, 3, 3}

{1, 2, 3}

In [39]:
# 合并是取两个集合中不重复的元素。可以用union方法，或者|运算符：
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}
print(a.union(b))
print(a|b)

{1, 2, 3, 4, 5, 6, 7, 8}
{1, 2, 3, 4, 5, 6, 7, 8}


In [40]:
# 交集的元素包含在两个集合中。可以用intersection或&运算符：
print(a.intersection(b))
print(a&b)

{3, 4, 5}
{3, 4, 5}


### 集合常用方法
| 函数                             | 替代语法 | 说明                                                  |
|----------------------------------|----------|-------------------------------------------------------|
| a.add(x)                         | -        | 将元素x添加到集合a                                    |
| a.clear()                        | -        | 将集合清空                                            |
| a.remove(x)                      | -        | 将元素x从集合a中除去                                  |
| a.pop()                          | -        | 从集合a去除任意元素，如果集合为空，则抛出KeyError错误 |
| a.union(b)                       | a &#00124; b    | 集合a和b中所有不重复元素                              |
| a.update(b)                      | a &#00124;= b   | 设定集合a中的元素为a与b的合并                         |
| a.intersection(b)                | a & b    | 集合a和b中所有交叉元素                                |
| a.intersection_update(b)         | a &= b   | 设定集合a中的元素为a与b的交叉                         |
| a.difference(b)                  | a - b    | 存在于a 但是不存在于b的元素                           |
| a.difference_update(b)           | a -= b   | 设定集合a中的元素为 a和b的差                          |
| a.symmetric_difference(b)        | a ^ b    | 只在a或者只在b中的元素                                |
| a.symmetric_difference_update(b) | a ^= b   | 设定a中的元素为只在a或者只在b中的元素                 |
| a.issubset(b)                    | -        | 如果a是b的子集，则true                                |
| a.issuperset(b)                  | -        | 如果b是a的子集，则true                                |
| a.isdisjoint(b)                  | -        | 如果a和b无交集，则true                                |

## 5. 列表、集合和字典推导式
```python 
list_comp = [expr for val in collection if condition] 
dict_comp = {key-expr : value-expr for value in collection if condition}
set_comp = {expr for value in collection if condition}
```
Same as:
```python 
result = []
for val in collection:
    if condition:
        result.append(expr)
```

In [42]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
l = [x.upper() for x in strings if len(x) > 2]
print(l)
s = {len(x) for x in strings}
print(s)

['BAT', 'CAR', 'DOVE', 'PYTHON']
{1, 2, 3, 4, 6}


In [43]:
d = {val : index for index, val in enumerate(strings)}
d

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

### 嵌套推导式

In [45]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [46]:
# Same as
flattened = []
for tup in some_tuples:
    for x in tup:
        flattened.append(x)
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

## 6. 函数
函数也是对象

In [48]:
import re
states = [
    '   Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda',
    'south   carolina##', 'West virginia?'
]

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return result

clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

将要对列表做的所有操作做成一个列表

In [50]:
def remove_punctuation(value):
    return re.sub(r'[^\w\s]','',value)

clean_ops = [str.strip, remove_punctuation, str.title]

def clean_string(string,ops):
    result = []
    for value in string:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

### 匿名(lambda) 函数

In [53]:
# 假设有一组字符串，你想要根据各字符串不同字母的数量对其进行排序：
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']
strings.sort(key=lambda x: len(set(list(x))))
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

## 7.iterator - Generator

In [54]:
some_dict = {'a': 1, 'b': 2, 'c': 3}
i = iter(some_dict)
i

<dict_keyiterator at 0x1090d4818>

In [56]:
list(i)

['a', 'b', 'c']

生成器（generator）是构造新的可迭代对象的一种简单方式。一般的函数执行之后只会返回单个值，而生成器则是以延迟的方式返回一个值序列，即每返回一个值之后暂停，直到下一个值被请求时再继续。要创建一个生成器，只需将函数中的return替换为yeild即可：

In [57]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n + 1):
        yield i ** 2

gen = squares()
gen

<generator object squares at 0x1090cd468>

In [58]:
for x in gen:
    print(x,end=' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

#### 生成器表达式
另一种更简洁的构造生成器的方法是使用生成器表达式（generator expression）。这是一种类似于列表、字典、集合推导式的生成器。其创建方式为，把列表推导式两端的方括号改成圆括号：

In [59]:
gen = (x ** 2 for x in range(100))
gen

<generator object <genexpr> at 0x1090cdd58>

In [60]:
sum(x ** 2 for x in range(100))

328350

In [61]:
dict((i, i **2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

## 8.文件和操作系统
| 模式 | 说明                                             |
|------|--------------------------------------------------|
| r    | 只读模式                                         |
| w    | 只写模式，创建文件，删除同名的文件               |
| a    | 附加到现有文件，如果文件不存在则创建             |
| r+   | 读写模式                                         |
| b    | 附加说明某模式用于二进制文件，i.e. 'rb' 'wb'     |
| U    | 通用换行模式。单独使用‘U’或者附加到其他模式 ‘rU’ |