# Chap01 预备知识

## Pandas

1. 列表推导式
   - 利用列表推导式可以对for循环进行写法上的简化`[* for i in *]`
   - 列表表达式还支持多层嵌套，多个for依次排列即可`[* for i in * for j in *]`

In [1]:
def my_func(x):
    return 2*x
[my_func(x) for x in range(5)]

[0, 2, 4, 6, 8]

In [2]:
[m+'-'+n for m in ['a','b'] for n in ['c','d']]

['a-c', 'a-d', 'b-c', 'b-d']

2. 条件赋值
   - 对简单if语句进行写法上的简化`value = a if condition else b`

In [4]:
# 截断列表中超过5的元素，即超过5的用5代替，小于5的保留原来的值
test_l = [1,4,8,0,2,5,10,6,3,2]
[i if i<5 else 5 for i in test_l]

[1, 4, 5, 0, 2, 5, 5, 5, 3, 2]

3. 匿名函数
   - 匿名函数的方法可以简洁地表示具有**清晰简单**的映射关系
   - 不关心函数的名字，只关心映射关系

In [2]:
[(lambda x: 2*x) (i) for i in range(5)]

[0, 2, 4, 6, 8]

4. 匿名函数+map函数
    - `map`函数可以完成列表推导式的匿名函数映射，搭配list将map对象转为列表
    - 对于多个输入值的函数映射，直接追加迭代对象

In [3]:
list(map(lambda x: 2*x, range(5)))

[0, 2, 4, 6, 8]

In [6]:
list(map(lambda x,y,z: str(x)+'_'+y+z, range(5), list('abcde'), list('00112')))

['0_a0', '1_b0', '2_c1', '3_d1', '4_e2']

5. zip对象与enumerate方法
   - `zip`函数能够把多个可迭代对象打包成一个元组构成的可迭代对象
   - `zip`函数返回一个zip对象，通过`tuple、list`可以得到相应的打包结果
   - `enumerate`是一种特殊的打包，可以在迭代时绑定迭代元素的遍历序号
   - `*操作符`和`zip`联合使用可进行解压操作

In [8]:
L1,L2,L3 = list('abc'), list('def'), list('hij')
list(zip(L1,L2,L3))

[('a', 'd', 'h'), ('b', 'e', 'i'), ('c', 'f', 'j')]

In [9]:
tuple(zip(L1,L2,L3))

(('a', 'd', 'h'), ('b', 'e', 'i'), ('c', 'f', 'j'))

In [10]:
for index, value in enumerate(L1):
    print(index,value)

0 a
1 b
2 c


In [11]:
[(index, value) for index, value in enumerate(L1)]

[(0, 'a'), (1, 'b'), (2, 'c')]

In [12]:
dict(zip(L1,L2))

{'a': 'd', 'b': 'e', 'c': 'f'}

In [14]:
zipped = list(zip(L1,L2,L3))
zipped

[('a', 'd', 'h'), ('b', 'e', 'i'), ('c', 'f', 'j')]

In [18]:
list(zip(*zipped))

[('a', 'b', 'c'), ('d', 'e', 'f'), ('h', 'i', 'j')]

## Numpy

In [19]:
import numpy as np

### np数组的构造
1. 一般数组
   - 通过array构造
2. 等差序列
   - `np.linspace(起始,终止(包含),样本个数)`
   - `np.arange(起始,终止(不包含),步长)`
3. 特殊矩阵
   - `np.zeros(n1,n2)`(n1,n2)零矩阵
   - `np.eye(n,k=k1)`n*n的单位矩阵，当k有值时表示偏移主对角线k1个单位的伪单位矩阵
   - `np.full((n,m),v/[i,j])`元组(n,m)传入矩阵大小，v或[i,j]表示填充的数值or列表，**len([i,j])==m**
4. 随机矩阵`np.random`
   - 0-1均匀分布的随机数组`np.random.rand(n) or np.random.rand(n1,n2)`
   - 标准正态的随机数组`np.random.randn(n) or np.random.randn(n1,n2)`
   - 随机整数组`np.random.randint(最小值,最大值(不包含),维度大小)`
   - 随即列表抽样，当不指定概率时为均匀采样，默认抽取方式为有放回抽样`np.random.choice`

In [20]:
np.array([1,2,3])

array([1, 2, 3])

In [22]:
np.linspace(1,6.5,11)

array([1.  , 1.55, 2.1 , 2.65, 3.2 , 3.75, 4.3 , 4.85, 5.4 , 5.95, 6.5 ])

In [24]:
np.arange(1,5,2)

array([1, 3])

In [25]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [26]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [27]:
np.eye(5,k=2)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [28]:
np.full((2,3),9)

array([[9, 9, 9],
       [9, 9, 9]])

In [31]:
np.full((3,4),[1,2,3,4])

array([[1, 2, 3, 4],
       [1, 2, 3, 4],
       [1, 2, 3, 4]])

In [32]:
np.random.rand(3)

array([0.99068263, 0.42113724, 0.23824668])

In [33]:
np.random.rand(4,4) # 注意这里不是传入元组

array([[0.24857001, 0.28283881, 0.27576108, 0.80742215],
       [0.96844116, 0.85763754, 0.27081683, 0.41551325],
       [0.9237837 , 0.42317382, 0.87993655, 0.51381836],
       [0.41434021, 0.18986149, 0.38185495, 0.95583731]])

In [36]:
# 服从从区间a到b上的均匀分布
a,b = 5,15
print((b-a)*np.random.rand(3)+a)
# 可以选择已有的函数
print(np.random.uniform(5,15,3))

[9.97163612 6.88307687 5.8659349 ]
[ 5.70506264 11.12456954  7.38272384]


In [37]:
np.random.randn(3)

array([ 0.43422151, -0.46998492, -1.31213683])

In [40]:
# 方差为sigma均值为mu的一元正态分布如下
sigma, mu = 2.5, 3
print(mu + np.random.randn(3) * sigma)
# 也可以选择从已有的函数生成
print(np.random.normal(3,2.5,3))

[-2.1405104   1.02408327  2.49438017]
[2.46398466 2.72285226 1.17386431]


In [41]:
low, high, size = 5, 15, (3,3)
np.random.randint(low, high, size)

array([[ 9, 13, 14],
       [10, 11, 10],
       [12, 13,  8]])

In [42]:
my_list = ['a','b','c','d']
np.random.choice(my_list, 2, replace=False, p=[0.1,0.7,0.1,0.1])

array(['b', 'a'], dtype='<U1')

In [44]:
np.random.choice(my_list,4)

array(['b', 'c', 'a', 'b'], dtype='<U1')

In [43]:
np.random.choice(my_list, (3,3))

array([['a', 'b', 'c'],
       ['c', 'd', 'c'],
       ['d', 'c', 'a']], dtype='<U1')

In [49]:
# 不放回采样
np.random.permutation(my_list)

array(['a', 'd', 'c', 'b'], dtype='<U1')

In [51]:
# 随机种子
np.random.seed(100)
np.random.randint(5,10,4)

array([5, 5, 8, 5])

In [53]:
np.random.seed(100)
np.random.randint(5,10,4)

array([5, 5, 8, 5])

### np数组的变形与合并
1. 转置`T`
2. 上下合并`r_` 左右合并`c_`，一维数组和二维数组进行合并时，应当将其视为**列向量**
3. 维度变换`reshape`把原数组按照新的维度重新排列，`C模式`和`F模型`分别以逐行和逐列的顺序进行填充和读取，`reshape`允许有一个维度空缺，只需填充-1即可

In [54]:
np.zeros((2,3)).T

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [55]:
np.r_[np.zeros((2,3)), np.zeros((2,3))]

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [59]:
np.c_[np.zeros((2,3)), np.eye((2))]

array([[0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [75]:
np.zeros((2,1))

array([[0.],
       [0.]])

In [76]:
np.zeros(2)

array([0., 0.])

In [70]:
np.r_[np.array([0,0]), np.array([2,3])]

array([0, 0, 2, 3])

In [69]:
np.c_[np.array([1,2,3]),np.zeros((3,2))]

array([[1., 0., 0.],
       [2., 0., 0.],
       [3., 0., 0.]])

In [77]:
target = np.arange(8).reshape(2,4)
target

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [78]:
target.reshape((4,2), order='C')

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [79]:
target.reshape((4,2), order='F')

array([[0, 2],
       [4, 6],
       [1, 3],
       [5, 7]])

In [82]:
target.reshape((2,-1))

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

### np数组的切片与索引
1. 数组的切片模式支持使用slice类型的`start:end:step`切片，还可以直接传入列表指定某个维度的索引进行切片
2. 还可以利用`np.ix_`在对应的维度上使用布尔索引，但此时不能使用slice切片

In [89]:
target = np.arange(16).reshape(4,4)
target

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [90]:
target[0:2:2]

array([[0, 1, 2, 3]])

In [91]:
target[np.ix_([True, False, True], [True, False, True])]

array([[ 0,  2],
       [ 8, 10]])

In [92]:
new = target.reshape(-1)
new[new%2==0]

array([ 0,  2,  4,  6,  8, 10, 12, 14])

### 常用函数
1. `where`指定满足条件与不满足条件位置对应的填充值
2. 返回索引
   - 返回非零数的索引`nonzero`
   - 返回最大数的索引`argmax`
   - 返回最小数的索引`argmin`
   - `argmax`和`argmin`先将数组转为一维，返回的索引也为一维数组的索引结果
3. `any,all`
   - `any`当序列至少存在一个True或非零元素时返回True，否则返回False
   - `all`当序列元素全为True或非零元素时返回True，否则返回False
4. `cumprod,cumsum,diff`
   - 累乘函数`cumprod`
   - 累加函数`cumsum`
   - 差分函数`diff`表示和前一个元素做差
5. 统计函数
   - `max,min,mean,median,std,var,sum,quantile`，其中分位数计算是全局方法，不能通过`array.quantile`的方法调用。但是对于含有缺失值的数组，返回的结果也是有缺失值的，如果需要略过缺失值，必须使用`nan*`类型的函数，上述几个统计函数都有对应的`nan*`函数
   - 协方差计算`cov`
   - 相关系数计算`coffcoef`
   - `axis`参数能够进行某一个维度下的统计特征计算，当`axis=0`时结果为**列**的统计指标，当`axis=1`时结果为**行**的统计指标

In [118]:
a = np.array([-1,2,3,0,8,0,-1,7]).reshape(4,2)
np.where(a>0, a, 888)

array([[888,   2],
       [  3, 888],
       [  8, 888],
       [888,   7]])

In [119]:
a

array([[-1,  2],
       [ 3,  0],
       [ 8,  0],
       [-1,  7]])

In [120]:
np.nonzero(a)

(array([0, 0, 1, 2, 3, 3], dtype=int64),
 array([0, 1, 0, 0, 0, 1], dtype=int64))

In [121]:
a.argmax()

4

In [122]:
a.argmin()

0

In [111]:
a.any()

True

In [112]:
a.all()

False

In [123]:
a.cumprod()

array([-1, -2, -6,  0,  0,  0,  0,  0], dtype=int32)

In [132]:
a.cumsum()

array([-1,  1,  4,  4, 12, 12, 11, 18], dtype=int32)

In [135]:
a

array([[-1,  2],
       [ 3,  0],
       [ 8,  0],
       [-1,  7]])

In [134]:
np.diff(a)

array([[ 3],
       [-3],
       [-8],
       [ 8]])

In [125]:
b = np.eye(4)
b

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [131]:
np.nonzero(b)

(array([0, 1, 2, 3], dtype=int64), array([0, 1, 2, 3], dtype=int64))

In [136]:
np.diff(b)

array([[-1.,  0.,  0.],
       [ 1., -1.,  0.],
       [ 0.,  1., -1.],
       [ 0.,  0.,  1.]])

In [137]:
target = np.arange(5)
target

array([0, 1, 2, 3, 4])

In [138]:
target.max()

4

In [139]:
np.quantile(target, 0.5)

2.0

In [140]:
target = np.array([1,2,np.nan])
target

array([ 1.,  2., nan])

In [141]:
target.max()

nan

In [142]:
np.nanmax(target)

2.0

In [144]:
np.nanquantile(target, 0.5)

1.5

In [145]:
target1 = np.array([1,3,5,9])
target2 = np.array([1,5,3,-9])
np.cov(target1, target2)

array([[ 11.66666667, -16.66666667],
       [-16.66666667,  38.66666667]])

In [146]:
np.corrcoef(target1, target2)

array([[ 1.        , -0.78470603],
       [-0.78470603,  1.        ]])

In [147]:
a.sum(0)

array([9, 9])

In [148]:
a.sum(1)

array([1, 3, 8, 6])

### 广播机制
1. 标量和数组的操作，当一个标量和数组进行运算时，标量会自动把大小扩充为数组大小，之后进行逐元素操作
2. 某个数组的维度是`m x 1`或者`n x 1`，那么会扩充其具有1的维度为另一个数组对应维度的大小

In [149]:
res = 3*np.ones((2,2))+1
res

array([[4., 4.],
       [4., 4.]])

In [150]:
np.zeros((3,1))

array([[0.],
       [0.],
       [0.]])

In [154]:
np.r_[np.array([[2],[3],[4]]),np.array([[1],[2],[3]])]

array([[2],
       [3],
       [4],
       [1],
       [2],
       [3]])

In [158]:
np.array([[2,3]])

array([[2, 3]])

In [159]:
res = np.ones((3,2))
res*np.array([2,3])

array([[2., 3.],
       [2., 3.],
       [2., 3.]])

In [160]:
res*np.array([[2],[3],[4]])

array([[2., 2.],
       [3., 3.],
       [4., 4.]])

In [161]:
res*np.array([2])

array([[2., 2.],
       [2., 2.],
       [2., 2.]])