### np.random.rand(), randn(), randint(), normal(), cumsum(), cumprod()

#### randn()

- 通过本函数可以返回一个或一组服从 “0~1” 均匀分布的随机样本值。随机样本取值范围是 \[0,1)，不包括 1.
- 当函数括号内没有参数时，返回一个浮点值；
- 当函数括号内有一个参数时，返回秩为 1 的数组，不能表示向量和矩阵
- 当函数括号内有两个或以上参数时，返回对应维度的数组，能表示向量和矩阵
- np.random.normal()函数与np.random.randn()类似，但是np.random.normal()函数的输入参数为元组
- 输入通常为整数，但是如果为浮点数，则会自动直接截断转换为整数。

**作用：**
通过本函数可以返回一个或一组服从标准正态分布的随机样本值。

**特点：**
标准正态分布是以0为均值，1为标准差的正态分布，记为N(0, 1), 分布曲线如下：
![image.png](attachment:image.png)

标准正态分布曲线下面积的分布规律是：

在 **- 1.96～+1.96** 范围内曲线下的面积等于 0.9500（即取值在这个范围的概率为 95%），在 **- 2.58～+2.58** 范围内曲线下面积为 0.9900（即取值在这个范围的概率为 99%）. 
因此，由 np.random.randn() 函数所产生的随机样本基本上取值主要在 - 1.96~+1.96 之间，当然也不排除存在较大值的情形，只是概率较小而已。

**应用场景**

在神经网络构建中，权重参数 W 通常采用该函数进行初始化，当然需要注意的是，通常会在生成的矩阵后面乘以小数，比如 0.01，目的是为了提高梯度下降算法的收敛速度。 
W = np.random.randn(2,2)*0.01

**产生其他的正态分布**

X = m + sqrt(segma)* randn(5,5), 生成均值为m，标准差为segma 的一个5x5矩阵


In [1]:
import numpy as np
import pandas as pd 
import math

X = 2 + math.sqrt(4) * np.random.randn(5,5)


In [2]:
np.random.randn()

-1.6316511678770114

In [3]:
np.random.randn(1)


array([-0.39186703])

In [4]:
np.random.randn(1,1)

array([[-0.31478132]])

In [5]:
np.random.randn(2)

array([-1.33344167,  0.4938714 ])

In [6]:
np.random.randn(3,3)

array([[-1.2621703 ,  0.82336603, -0.21512078],
       [-0.59540316,  1.78914589,  0.01081517],
       [-1.11256052, -0.22994735, -0.90607139]])

#### rand()
**作用：**

通过本函数可以返回一个或一组服从均匀分布的随机样本值。随机样本取值范围是\[0,1),不包括1.

**应用**

在深度学习的Dropout正则化方法中，可以用于生成dropout随机向量(dl)，例如(keep prob 表示保留神经元的比例）：dl = np.random.rand(al.shape[0], al.shape[1])<keep_prob


In [7]:
np.random.rand(2)

array([0.2019436 , 0.60800476])

In [8]:
np.random.rand(5,2)

array([[0.79300678, 0.53401325],
       [0.62598418, 0.53953028],
       [0.05016034, 0.19051435],
       [0.96669537, 0.89051585],
       [0.38664909, 0.02734182]])

#### randint()

**使用方法**
np.random.randint(low, high = None, size = None, dtype =' |')
low—–为最小值 
high—- 为最大值 
size—–为数组维度大小 
dtype—为数据类型，默认的数据类型是 np.int。 

**返回值：** 
返回随机整数或整型数组，范围区间为 \[low,high），包含 low，不包含 high； 
high 没有填写时，默认生成随机数的范围是 [0，low）

In [9]:
np.random.randint(1)   # low = 1, 输出范围[0,1)的一个整数，就是0

0

In [10]:
np.random.randint(1, size = (2,2)) #low = 1, high=none, size = 2x2， 输出范围[0,1)内的一个整数数组

array([[0, 0],
       [0, 0]])

In [11]:
np.random.randint(1,20,size = (4,4), dtype = 'uint8')

array([[ 1,  2, 15, 16],
       [ 3,  5, 12, 11],
       [14, 14,  4,  2],
       [17,  7, 12,  2]], dtype=uint8)

In [37]:
data = np.random.randint(1,100, (6,6))
data

array([[ 4, 13, 76, 49, 99, 10],
       [99, 49, 39, 85, 49, 47],
       [64, 75, 16, 75, 84, 14],
       [13, 26, 66, 61, 75, 81],
       [39, 42, 33, 74, 54, 14],
       [59, 50,  6, 86, 17, 56]])

#### normal()

numpy.random.normal(loc=0,scale=1,size=shape) ，意义如下：

- 参数loc(float)：正态分布的均值，对应着这个分布的中心。loc=0说明这一个以Y轴为对称轴的正态分布，
- 参数scale(float)：正态分布的标准差，对应分布的宽度，scale越大，正态分布的曲线越矮胖，scale越小，曲线越高瘦。
- 参数size(int 或者整数元组)：输出的值赋在shape里，默认为None。



In [12]:
X = np.random.normal(0,1, (2,2))
X

array([[-0.36403542,  0.6828036 ],
       [ 0.3723352 , -0.23582244]])

#### cumsum()
**cumsum(a, axis = None, dtype = None, out= None)**
**a.cumsum(axis = None, dtype = None, out= None)**

**返回**
沿着指定轴的元素**累加和**所组成的数组，其形状应与输入数组a一致



In [13]:
import numpy as np

arr = np.array([1,2,3,4,5,6,7,8,9])
arr.cumsum()

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45], dtype=int32)

In [14]:
X = np.array([[1,2,3], [4,5,6], [7,8,9]])
X

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [15]:
# 输出结果的数组result[i][j]的结果为sum(arr[:i+1,j])；
X.cumsum(axis = 0, )

array([[ 1,  2,  3],
       [ 5,  7,  9],
       [12, 15, 18]], dtype=int32)

In [16]:
#输出结果的数组result[i][j]的结果为sum(arr[i,:j+1])
X.cumsum(axis = 1,)

array([[ 1,  3,  6],
       [ 4,  9, 15],
       [ 7, 15, 24]], dtype=int32)

In [17]:
#将X重塑为一维数组后，重新计算cumsum()
X.cumsum()

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45], dtype=int32)

#### cumprod()
除了连加变为连乘，其他参数及其用法和cumsum()一样

In [18]:
X

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [19]:
X.cumprod()

array([     1,      2,      6,     24,    120,    720,   5040,  40320,
       362880], dtype=int32)

In [20]:
X.cumprod(axis = 0)

array([[  1,   2,   3],
       [  4,  10,  18],
       [ 28,  80, 162]], dtype=int32)

In [21]:
X.cumprod(axis = 1)

array([[  1,   2,   6],
       [  4,  20, 120],
       [  7,  56, 504]], dtype=int32)

### numpy 中将数组叠加
np.stack(array, axis) 

np.vstack([a,b]) 垂直方向叠加

np.hstack([a,b]) 水平方向叠加

np.concatenate((a,b), axis = 0,1)

In [22]:
a = np.arange(10).reshape(2, -1)     # create a 0-9 one-dimension array, convert it to 2 rows' 2-dimension array
a

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [23]:
b = np.repeat(1,10).reshape(2, -1)     # create a ten 1's array
b

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

#### np.vstack() / hstack()

In [24]:
c =np.vstack([a,b])
c

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [25]:
c = np.hstack([a,b])
c

array([[0, 1, 2, 3, 4, 1, 1, 1, 1, 1],
       [5, 6, 7, 8, 9, 1, 1, 1, 1, 1]])

#### np.concatenate()

In [26]:
c = np.concatenate((a,b), axis = 0)
c

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [27]:
c = np.concatenate((a,b), axis = 1)
c

array([[0, 1, 2, 3, 4, 1, 1, 1, 1, 1],
       [5, 6, 7, 8, 9, 1, 1, 1, 1, 1]])

In [28]:
c = np.concatenate((a,b), )
c

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

#### np.stack()
https://blog.csdn.net/weixin_44330492/article/details/100126774?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase

In [29]:
a = np.arange(1,7,1).reshape(2,-1)
a

array([[1, 2, 3],
       [4, 5, 6]])

In [30]:
c = np.stack(a, axis = 0)
c

array([[1, 2, 3],
       [4, 5, 6]])

In [31]:
c = np.stack(a, axis = 1)
c

array([[1, 4],
       [2, 5],
       [3, 6]])

In [32]:
d = np.arange(1, 13, 1).reshape(3,-1)
d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [33]:
e = np.stack(d, axis = 0)
e

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [34]:
e = np.stack(d, axis = 1)
e

array([[ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

### How to read the txt (or csv file) with tab(not comma) as separator

df = pd.read_csv('./shanghai_gdp_78_18.txt',sep= '\\s+')
df.head()
