# Chap01 预备知识

## Pandas

1. 列表推导式
   - 利用列表推导式可以对for循环进行写法上的简化`[* for i in *]`
   - 列表表达式还支持多层嵌套，多个for依次排列即可`[* for i in * for j in *]`

In [1]:
def my_func(x):
    return 2*x
[my_func(x) for x in range(5)]

[0, 2, 4, 6, 8]

In [2]:
[m+'-'+n for m in ['a','b'] for n in ['c','d']]

['a-c', 'a-d', 'b-c', 'b-d']

2. 条件赋值
   - 对简单if语句进行写法上的简化`value = a if condition else b`

In [4]:
# 截断列表中超过5的元素，即超过5的用5代替，小于5的保留原来的值
test_l = [1,4,8,0,2,5,10,6,3,2]
[i if i<5 else 5 for i in test_l]

[1, 4, 5, 0, 2, 5, 5, 5, 3, 2]

3. 匿名函数
   - 匿名函数的方法可以简洁地表示具有**清晰简单**的映射关系
   - 不关心函数的名字，只关心映射关系

In [2]:
[(lambda x: 2*x) (i) for i in range(5)]

[0, 2, 4, 6, 8]

4. 匿名函数+map函数
    - `map`函数可以完成列表推导式的匿名函数映射，搭配list将map对象转为列表
    - 对于多个输入值的函数映射，直接追加迭代对象

In [3]:
list(map(lambda x: 2*x, range(5)))

[0, 2, 4, 6, 8]

In [6]:
list(map(lambda x,y,z: str(x)+'_'+y+z, range(5), list('abcde'), list('00112')))

['0_a0', '1_b0', '2_c1', '3_d1', '4_e2']

5. zip对象与enumerate方法
   - `zip`函数能够把多个可迭代对象打包成一个元组构成的可迭代对象
   - `zip`函数返回一个zip对象，通过`tuple、list`可以得到相应的打包结果
   - `enumerate`是一种特殊的打包，可以在迭代时绑定迭代元素的遍历序号
   - `*操作符`和`zip`联合使用可进行解压操作

In [8]:
L1,L2,L3 = list('abc'), list('def'), list('hij')
list(zip(L1,L2,L3))

[('a', 'd', 'h'), ('b', 'e', 'i'), ('c', 'f', 'j')]

In [9]:
tuple(zip(L1,L2,L3))

(('a', 'd', 'h'), ('b', 'e', 'i'), ('c', 'f', 'j'))

In [10]:
for index, value in enumerate(L1):
    print(index,value)

0 a
1 b
2 c


In [11]:
[(index, value) for index, value in enumerate(L1)]

[(0, 'a'), (1, 'b'), (2, 'c')]

In [12]:
dict(zip(L1,L2))

{'a': 'd', 'b': 'e', 'c': 'f'}

In [14]:
zipped = list(zip(L1,L2,L3))
zipped

[('a', 'd', 'h'), ('b', 'e', 'i'), ('c', 'f', 'j')]

In [18]:
list(zip(*zipped))

[('a', 'b', 'c'), ('d', 'e', 'f'), ('h', 'i', 'j')]

## Numpy

In [19]:
import numpy as np

### np数组的构造
1. 一般数组
   - 通过array构造
2. 等差序列
   - `np.linspace(起始,终止(包含),样本个数)`
   - `np.arange(起始,终止(不包含),步长)`
3. 特殊矩阵
   - `np.zeros(n1,n2)`(n1,n2)零矩阵
   - `np.eye(n,k=k1)`n*n的单位矩阵，当k有值时表示偏移主对角线k1个单位的伪单位矩阵
   - `np.full((n,m),v/[i,j])`元组(n,m)传入矩阵大小，v或[i,j]表示填充的数值or列表，**len([i,j])==m**
4. 随机矩阵`np.random`
   - 0-1均匀分布的随机数组`np.random.rand(n) or np.random.rand(n1,n2)`
   - 标准正态的随机数组`np.random.randn(n) or np.random.randn(n1,n2)`
   - 随机整数组`np.random.randint(最小值,最大值(不包含),维度大小)`
   - 随即列表抽样，当不指定概率时为均匀采样，默认抽取方式为有放回抽样`np.random.choice`

In [20]:
np.array([1,2,3])

array([1, 2, 3])

In [22]:
np.linspace(1,6.5,11)

array([1.  , 1.55, 2.1 , 2.65, 3.2 , 3.75, 4.3 , 4.85, 5.4 , 5.95, 6.5 ])

In [24]:
np.arange(1,5,2)

array([1, 3])

In [25]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [26]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [27]:
np.eye(5,k=2)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [28]:
np.full((2,3),9)

array([[9, 9, 9],
       [9, 9, 9]])

In [31]:
np.full((3,4),[1,2,3,4])

array([[1, 2, 3, 4],
       [1, 2, 3, 4],
       [1, 2, 3, 4]])

In [32]:
np.random.rand(3)

array([0.99068263, 0.42113724, 0.23824668])

In [33]:
np.random.rand(4,4) # 注意这里不是传入元组

array([[0.24857001, 0.28283881, 0.27576108, 0.80742215],
       [0.96844116, 0.85763754, 0.27081683, 0.41551325],
       [0.9237837 , 0.42317382, 0.87993655, 0.51381836],
       [0.41434021, 0.18986149, 0.38185495, 0.95583731]])

In [36]:
# 服从从区间a到b上的均匀分布
a,b = 5,15
print((b-a)*np.random.rand(3)+a)
# 可以选择已有的函数
print(np.random.uniform(5,15,3))

[9.97163612 6.88307687 5.8659349 ]
[ 5.70506264 11.12456954  7.38272384]


In [37]:
np.random.randn(3)

array([ 0.43422151, -0.46998492, -1.31213683])

In [40]:
# 方差为sigma均值为mu的一元正态分布如下
sigma, mu = 2.5, 3
print(mu + np.random.randn(3) * sigma)
# 也可以选择从已有的函数生成
print(np.random.normal(3,2.5,3))

[-2.1405104   1.02408327  2.49438017]
[2.46398466 2.72285226 1.17386431]


In [41]:
low, high, size = 5, 15, (3,3)
np.random.randint(low, high, size)

array([[ 9, 13, 14],
       [10, 11, 10],
       [12, 13,  8]])

In [42]:
my_list = ['a','b','c','d']
np.random.choice(my_list, 2, replace=False, p=[0.1,0.7,0.1,0.1])

array(['b', 'a'], dtype='<U1')

In [44]:
np.random.choice(my_list,4)

array(['b', 'c', 'a', 'b'], dtype='<U1')

In [43]:
np.random.choice(my_list, (3,3))

array([['a', 'b', 'c'],
       ['c', 'd', 'c'],
       ['d', 'c', 'a']], dtype='<U1')

In [49]:
# 不放回采样
np.random.permutation(my_list)

array(['a', 'd', 'c', 'b'], dtype='<U1')

In [51]:
# 随机种子
np.random.seed(100)
np.random.randint(5,10,4)

array([5, 5, 8, 5])

In [53]:
np.random.seed(100)
np.random.randint(5,10,4)

array([5, 5, 8, 5])