# Numpy的优点：
    
    1. 可分配连续的内存空间 --> 处理速度快
    2. 矩阵运算，CPU指令运算（并行化） --> 处理速度快

- 列表的缺点：
    - 随机分配空间 --> 处理速度慢
    - GIL锁，解释性语言 --> 处理速度慢
    
- Numpy与Pandas
    - 逻辑（选择，合并，分析）处理：pandas
    - 运算处理：numpy

In [2]:
import numpy as np
import random
import time

a = []
for i in range(100000000): 
    a.append(random.random())
t1 = time.time()
sum1=sum(a)
t2=time.time()

b=np.array(a)
t4=time.time()
sum3=np.sum(b)
t5=time.time()
print(t2-t1, t5-t4)

5.265557050704956 0.5102479457855225


# 1. Numpy的属性和存储方式：

In [3]:
# 一维：
a1 = np.array([1,2,3])
print(type(a1))    # <class 'numpy.ndarray'>
print(a1.shape)    # (3,)  三个元素


# 二维：
a2 = np.array([[1,2,3],[4,5,6]], dtype=np.int32)   # dtype= 指定存储数组的类型
print(type(a2))
print(a2.shape)    # (2, 3) 二行三列的表格
print(a2.ndim)     # 返回数组的维度数: 2
print(a2.dtype)    # 返回数组的类型，默认 dtype('int64')
print(a2.size)     # 返回数组的元素个数: 6

# 三维：
a3 = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
print(type(a3))
print(a3.shape)    # (2, 2, 3) 两张二行三列的表格


# 自动优化c或fortran进行数组运算，
# 查看方式: ndarray.flags

<class 'numpy.ndarray'>
(3,)
<class 'numpy.ndarray'>
(2, 3)
2
int32
6
<class 'numpy.ndarray'>
(2, 2, 3)


In [4]:
a2.flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False

# 2. numpy基本操作方法：

In [5]:
# 2.1 创建数组：

print(np.ones([2,3]))    # 创建一个两行三列，元素全为1的数组
print(np.zeros([2,3]))    # 创建一个两行三列，元素全为0的数组

[[1. 1. 1.]
 [1. 1. 1.]]
[[0. 0. 0.]
 [0. 0. 0.]]


In [6]:
# 2.1.1 从现有的数据创建数组

array1 = np.array([[1,2,3],[4,5,6]])
array2 = np.array(array1)    # 创建一个新的内存空间，储存array1；若array1变，array2不变
array3 = np.asarray(array1)  # 创建一个引用，指向array1； 若array1变，则array3变

array1[0] = 1    # array1=（2，3），将第一行数据，变成1
print("array2:", array2, "array3:", array3)

array2: [[1 2 3]
 [4 5 6]] array3: [[1 1 1]
 [4 5 6]]


In [7]:
# 2.1.2 生成等间隔的数列

# 从1到100，生成5个等间距的数组
np.linspace(1,100,5)    # start=1，end=100, num=5
# np.arrange(start,stop,step,dtype)
# np.logspace(start,stop,num,endpoint,base,dtype)

array([  1.  ,  25.75,  50.5 ,  75.25, 100.  ])

In [8]:
# 2.1.3 创建随机数组

a = np.random.rand(10)       # 随机产生一个数组，包含10个0-1的元素，类型numpy.ndarray
b = np.random.uniform(1,100) # 随机产生一个0-100的元素，类型float
c = np.random.randint(100)   # 同上，类型int


### 2.1.4 正态分布（高斯分布）：

- 意义：
    - 符合现实生活数据分布的一个规律
- 平均值（u）：决定大部分数据的位置
- 方差：反应数据的离散程度
    - 计算方式：sum[(每个样本 - theta)^2] / 总样本数
    - 方差越大，数据越离散；方差越小，数据越集中
    - 标准差（theta/σ） = root(方差)

- 标准正态分布
    - mean=0, stddev=1
    - np.random.standard_normal(size=(3,4))


In [9]:
np.random.normal(1.75,0.01,(3,4))    # mean=1.75, stddev=0.01, 三行四列(12个人)

array([[1.74755439, 1.76536994, 1.75284495, 1.76178804],
       [1.76494094, 1.75330065, 1.75107303, 1.74883455],
       [1.75176678, 1.75032213, 1.72900676, 1.73699649]])

## 案例：随机生成500个公司，2年交易日的股票涨跌幅

- 每年交易日（除去节假日）：252天
- 2年的交易日：252*2=504天
- 随机生成涨跌幅在某个正态分布内，比如标准正态分布
- 获取第一支股票的前100个交易日的涨跌幅数据

In [36]:
stock_day_rise = np.random.standard_normal(size=(500,504))    # 行：公司，列：天数

In [37]:
stock_day_rise[0:1, :101]      # [行，列]
# stock_day_rise[0][:100]      # [第一行][前100个数据]，结果同上
# stock_day_rise[0][100]    # 0.0147

array([[-1.36207867, -1.83181991, -0.90422753, -0.89406768, -0.35147564,
         0.22259611,  0.84635215,  0.4584213 , -0.04778862,  1.51881511,
         0.38628231, -1.43460497,  0.1393711 ,  1.10288868, -0.61007672,
        -0.65376275,  0.41967515, -2.33301927,  1.29490876,  0.33300403,
        -1.39037067,  0.11609492, -0.55577174, -1.43066955, -1.26522411,
         0.02402035,  0.40490395, -1.00324258,  0.04028264, -0.06605067,
         1.32671821,  0.09509136, -0.68429143,  0.49196225,  1.04753434,
         2.21674692, -0.40784244,  0.64872525, -0.52290709,  1.65674897,
        -0.75324315, -2.02135422, -0.89332603, -0.27645114,  0.45796476,
         1.07089281, -1.93093242,  0.82477906,  1.14743623,  0.21601511,
         0.93974966,  0.15688137, -0.35018282, -0.50989966, -1.20884884,
        -1.50380146, -0.75030321, -0.4300458 , -0.36372306, -0.11605075,
         0.5476353 , -0.85965722,  0.23510224,  0.00269755,  0.58991153,
         0.7626343 ,  2.5989136 ,  1.61237329, -0.1

### 2.2 索引

In [20]:
# 获取前4个公司，前4天的交易日涨跌幅
stock_day_rise[0:4,0:4]

# 获取第4个公司，前4天的交易日涨跌幅
# stock_day_rise[4,0:4]

array([ 0.43165614, -2.34652011,  2.05116877, -1.88721748])

In [21]:
a3 = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
a3[0]    # 获取第一张表，（2,3）

array([[1, 2, 3],
       [4, 5, 6]])

### 2.3 改变形状

In [24]:
print(stock_day_rise.shape)
# 把500行504列，变成504列500行，返回一个新数组
print(stock_day_rise.reshape([504,500]).shape)

(500, 504)
(504, 500)


### 2.4 修改数据类型

In [28]:
stock_day_rise.dtype    # dtype('float64')
stock_day_rise.astype("int").dtype    # dtype('int64')

dtype('int64')

### 2.5 保留小数

In [29]:
# 保留4位小数
np.round(stock_day_rise[0:3,0:3],4)

array([[-1.3827,  1.8671, -0.6905],
       [ 0.2291, -0.2834, -0.2533],
       [-1.2661, -0.1756, -0.5416]])

# 2. Numpy相关运算

1. 数据筛选运算
    1. 逻辑条件运算
        - <、 >、 =
    2. 通用判断函数
        - np.all()、np.unique()
        - np.where()
            - logical_and、logical_or 
2. 数据统计运算
    - max,min,std,mean,argmax,argmin
    
3. 数组间运算
    - 数组 与 数
    - 数组 与 数组
    - **矩阵运算**
        - 必须是二维数组
        - 矩阵的乘法运算
            - (m,n) * (n,l) = (m,l)
             

## 2.1 数据筛选运算

In [39]:
# 2.1.1 逻辑条件运算

# 获取前两个股票，前5个交易日，涨幅大于0.5的数据
# stock_day_rise[:2,:5] > 0.5
tmp = stock_day_rise[:2,:5].copy()

# 把结果数据标记为0.1
# stock_day_rise[:2,:5][stock_day_rise[:2,:5] > 0.5] = 1    # 直接改变原数据，所以需要先拷贝【.copy()】，再操作
tmp[stock_day_rise[:2,:5] > 0.5] = 1
 
tmp

array([[-1.36207867, -1.83181991, -0.90422753, -0.89406768, -0.35147564],
       [-1.92183319, -0.97690434, -0.42584086, -1.38294377,  1.        ]])

In [41]:
stock_day_rise[:2,:5]

array([[-1.36207867, -1.83181991, -0.90422753, -0.89406768, -0.35147564],
       [-1.92183319, -0.97690434, -0.42584086, -1.38294377,  1.02321145]])

In [42]:
# 2.1.2 通用判断函数

# 判断这两个公司，前5个交易日，是否全上涨
np.all(stock_day_rise[:2,:5]>0)    # False：有涨有跌

False

In [43]:
# 将数组中，唯一且不重复的值，组成新的数组。相当于去重
array4 = np.array([[1,2,2],[1,3,2]])
np.unique(array4)

array([1, 2, 3])

In [44]:
# 把涨幅大于0.5标记为1，否则为0
test = stock_day_rise[:2,:5]
np.where(test > 0.5, 1, 0)

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1]])

In [45]:
# 把涨幅在[0.5，1]标记为1，否则为0
np.where(np.logical_and(test>0.5, test<1), 1, 0)

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

## 2.2 数据统计运算

In [49]:
# 分析前4支股票，前4天涨幅最大值与最小值
stock_4 = stock_day_rise[0:4,0:4].copy()
stock_4 # 行：股票，列：天数

array([[-1.36207867, -1.83181991, -0.90422753, -0.89406768],
       [-1.92183319, -0.97690434, -0.42584086, -1.38294377],
       [ 2.37735531,  1.69693835,  0.38192999,  0.74203486],
       [ 0.36375773,  0.22921611,  1.0113829 , -1.41173861]])

In [53]:
# axis指定轴，axis=1 按行求最大值，axis=0 按列求最大值

print("前4支股票，每支股票的最大值：", np.max(stock_4, axis=1))
print("前4天，每天的（某支股票）涨幅最大值", np.max(stock_4, axis=0))

# 不同指标，考量不同业务

# 针对股票来说(axis=1)，获取最小涨幅，平均值，方差
print("最大跌幅{}".format(np.min(stock_4, axis=1)))
print("振幅幅度{}".format(np.std(stock_4, axis=1)))    # 离散越大，公司越不稳定；离散越小，越稳定
print("平均涨跌幅{}".format(np.mean(stock_4, axis=1)))  # >0，每天都在涨；<0，每天都在跌 



前4支股票，每支股票的最大值： [-0.89406768 -0.42584086  2.37735531  1.0113829 ]
前4天，每天的（某支股票）涨幅最大值 [2.37735531 1.69693835 1.0113829  0.74203486]
最大跌幅[-1.83181991 -1.92183319  0.38192999 -1.41173861]
振幅幅度[0.38642826 0.54805739 0.78619836 0.89323647]
平均涨跌幅[-1.24804845 -1.17688054  1.29956463  0.04815453]


In [54]:
# 求出最大值，并记录位置(/记录索引)
# axis=1 返回某一行最大值的下标
print("最大涨幅的天数{}".format(np.argmax(stock_4,axis=1)))    # [3 2 0 2] -->第4、3、1、3天

最大涨幅的天数[3 2 0 2]


## 2.3 数组间运算

In [56]:
# 2.3.1 数组与数的运算
# 底层运算，避免一些for循环操作

a = np.array([[1,2,3],[4,5,6]])
print(a+1)
print(a*2)

[[2 3 4]
 [5 6 7]]
[[ 2  4  6]
 [ 8 10 12]]


In [57]:
b = [1,2,3]
print(b*2)    # 把原列表扩大一倍；可用for循环计算

[1, 2, 3, 1, 2, 3]


In [58]:
c = np.array([[7,8,9],[10,11,12]])
print(a+c)
print(a*c)

[[ 8 10 12]
 [14 16 18]]
[[ 7 16 27]
 [40 55 72]]


In [59]:
# 矩阵运算：np.matmul()
d = [[1],[2],[3]]
np.matmul(a,d)

array([[14],
       [32]])