## 数据结构


- **list**(列表): 支持插入，弹出，索引，切片等


- **tuple**(元组): 一经创建不可修改


- **set**(集合): 交集，并集等操作


- **dict**(字典): 无序的key－val健值对


以上四种结构也可以相互嵌套， **list** 和 **dict**是最常用的两个结构。

## 列表操作

### 列表创建

In [1]:
fibonacci_numbers = [1, 1, 2, 3, 5, 8, 13, 21]
print fibonacci_numbers


strings = ['a', 'b', 'c', 'd']
print strings

# list内元素支持不同类型的数据；R中的vector要求是同类型的，不可混杂
num_str_bool = ['a', 1, 'b', 2, 'c', 3, True, False]
print num_str_bool

# list嵌套
print [fibonacci_numbers, strings, num_str_bool]

[1, 1, 2, 3, 5, 8, 13, 21]
['a', 'b', 'c', 'd']
['a', 1, 'b', 2, 'c', 3, True, False]
[[1, 1, 2, 3, 5, 8, 13, 21], ['a', 'b', 'c', 'd'], ['a', 1, 'b', 2, 'c', 3, True, False]]


### 索引 & 切片

Python的索引和切片都是**从0开始**.

In [5]:
print fibonacci_numbers

# 从0开始
print '第1个元素:', fibonacci_numbers[0] # the first element
print '第4个元素:', fibonacci_numbers[3] # the fourth element

# 包含左侧，不包含右侧 
print '前3个元素:', fibonacci_numbers[0:3] # 前三个元素 [0, 3)
print '第4到最后:', fibonacci_numbers[3:] # 第4个到最后

[1, 1, 2, 3, 5, 8, 13, 21]
第1个元素: 1
第4个元素: 3
前3个元素: [1, 1, 2]
第4到最后: [3, 5, 8, 13, 21]


### 添加/删除元素

In [5]:
fibonacci_numbers.append(34) # add one more element
print fibonacci_numbers

fibonacci_numbers.pop()
print fibonacci_numbers

[1, 1, 2, 3, 5, 8, 13, 21, 34]
[1, 1, 2, 3, 5, 8, 13, 21]


### 列表推导式(list comprehension)

**one line**版的循环，基于已有列表创建新列表。

比使用for循环依次在空列表中添加新元素高效。

In [8]:
fibonacci_numbers_plus1 = [i + 1 for i in fibonacci_numbers]
print fibonacci_numbers_plus1

[2, 2, 3, 4, 6, 9, 14, 22]


In [13]:
%%timeit
fibonacci_numbers_plus1 = [i + 1 for i in fibonacci_numbers]

1000000 loops, best of 3: 763 ns per loop


In [12]:
%%timeit
fibonacci_numbers_plus1 = []
for i in fibonacci_numbers:
    fibonacci_numbers_plus1.append(i + 1) # append在list末尾插入元素，复杂度O(n)

100000 loops, best of 3: 1.31 µs per loop


## 字典

{key: value}的健－值对，从字典从取出某个健对应的值的复杂度为O(1)。

In [15]:
someone = {'sex': 'male', 'height': 6.1, 'age': 30}
print someone
print someone['sex'] # 取出sex对应的值
print 'location' in someone # 是否含有location这个健
print someone.get('skill', 'python') # 取出skill健对应的值，不存在则返回'python'

{'age': 30, 'height': 6.1, 'sex': 'male'}
male
False
python


In [16]:
print someone.keys() 
print someone.values()
print someone.items() # 转为有序的list

['age', 'height', 'sex']
[30, 6.1, 'male']
[('age', 30), ('height', 6.1), ('sex', 'male')]


## 元组 & 集合

In [17]:
tuple_example = ('age', 30) # 只读，有序
print type(tuple_example)


set_example = {'age', 30}  # 无序，可写
print type(set_example)

<type 'tuple'>
<type 'set'>


In [18]:
# tuple组成的list
print someone.items() 

[('age', 30), ('height', 6.1), ('sex', 'male')]


## 常用函数

- map: 相当于R中的apply函数，对每个元素进行同样的函数操作


- filter: 过滤


- reduce: 聚合

In [19]:
map(lambda x: x+1, fibonacci_numbers) # 每个元素执行＋1的匿名函数

[2, 2, 3, 4, 6, 9, 14, 22]

In [6]:
filter(lambda x: x % 2 == 0, fibonacci_numbers) # 过滤出偶数

[13, 21]

- python中的reduce内建函数是一个二元操作函数，他用来将一个数据集合（链表，元组等）中的所有数据进行下列操作：用传给reduce中的函数 func()（必须是一个二元操作函数）先对集合中的第1，2个数据进行操作，得到的结果再与第三个数据用func()函数运算，最后得到一个结果。

In [21]:
reduce(lambda x,y: x+y, fibonacci_numbers) # 加法聚合

54