# 利用 Python 进行数据分析

In [2]:
# 变量拆分常用来迭代元组或列表序列：
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq:
    print(f'a={a}, b={b}, c={c}') # f-string 格式化

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


In [12]:
# 元组拆分
values = 1, 2, 3, 4, 5
a, b, *rest = values
a, b
rest
# rest 可以取其他的名称 如下划线 _
a, b, *_ = values
_

[3, 4, 5]

In [13]:
# tuple 方法
# .count() 统计某个值的出现频率
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2)

4

In [14]:
# list 串联和组合列表，.extend() 追加元素 最优（比'+'快）
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])
x

[4, None, 'foo', 7, 8, (2, 3)]

In [18]:
# 二分搜索和维护已排序的列表
# bisect 模块支持二分查找，和向已排序的列表插入值
# bisect.bisect 可以找到插入值后仍保证排序的位置
# bisect.insort 是向这个位置插入值

import bisect
c = [1, 2, 2, 2, 3, 4, 7]
bisect.bisect(c, 2)
bisect.bisect(c, 5)
c
bisect.insort(c, 6)
c

[1, 2, 2, 2, 3, 4, 6, 7]

In [19]:
# list 切片 list[start:stop:step]
# step=-1，可以将列表或元组颠倒过来
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

### 序列函数

In [23]:
# enumerate() 函数
# 迭代序列时，跟踪当前项的序号
collection = [2, 4, 5, 8, 7, 34]
for i, value in enumerate(collection):
    print(i, value)
# 索引数据时，计算序列（唯一的）dict 映射到位置的值
some_list = ['foo', 'bar', 'baz']
mapping = {}
for i, v in enumerate(some_list):
    mapping[v] = i
mapping

0 2
1 4
2 5
3 8
4 7
5 34


{'foo': 0, 'bar': 1, 'baz': 2}

In [25]:
# sorted() 函数
# 从任意序列的元素返回一个新的排好序的列表
d = sorted([7, 1, 3, 8, 0, 4, 2])
print(d)
sorted('horse race')

[0, 1, 2, 3, 4, 7, 8]


[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

In [38]:
# zip() 函数
# 可以将多个列表、元组或其它序列成对组合成一个元组列表
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']
zipped = zip(seq1, seq2)
list(zipped)

# 可以处理任意多的序列，元素的个数取决于最短的序列
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

# 常见用法之一是同时迭代多个序列，可能结合 enumerate 使用
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print(f'{i}: {a}, {b}')

# 给出一个“被压缩的”序列， zip 可以被用来解压序列。也可以当作把行的列表转换为列的列表
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),
           ('Schilling', 'Curt')]
print(*pitchers)
first_names, last_names = zip(*pitchers)
first_names
last_names

0: foo, one
1: bar, two
2: baz, three
('Nolan', 'Ryan') ('Roger', 'Clemens') ('Schilling', 'Curt')


('Ryan', 'Clemens', 'Curt')

In [40]:
# reversed() 函数
# 可以从后向前迭代一个序列
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

In [43]:
# Numpy
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

%time for _ in range(10): my_arr2 = my_arr * 2
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

Wall time: 31.2 ms
Wall time: 1.45 s
