# numpy 介绍
高性能科学计算和数据分析的基础包

功能：

+ 快速且节省空间的多维数组ndarray

+ 标准数学函数，对数组作快速的矢量运算

+ 线性代数、随机数生成、傅里叶变换等功能

+ 提供简单易用的C API


# ndarray

In [1]:
# N维数组
# 一系列同类型数据的集合
# 每个ndarray都有一个shape和dtype


# 创建ndarray

In [2]:
# array函数
import numpy as np
a = np.array([1,2,3])
a = np.array([[1,2],[3,4]])
print(a)

[[1 2]
 [3 4]]


In [3]:
# dtype指定元素类型
a = np.array([1,2,3], dtype=np.complex64)  
print(a)

[1.+0.j 2.+0.j 3.+0.j]


In [4]:
# zeros函数生成全为0的ndarray
np.zeros((2,3))


array([[0., 0., 0.],
       [0., 0., 0.]])

In [5]:
# ones函数生成全为1的ndarray
np.ones((2,3))


array([[1., 1., 1.],
       [1., 1., 1.]])

In [6]:
# eye函数生成单位矩阵
np.eye(10)


array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [7]:
# arange函数生成序列
# 类似Python里的range，但是结果是ndarray类型
# 生成[0, 10)区间内的整数序列
np.arange(10)

# 生成[5, 10)区间内的整数序列
np.arange(5, 10)

# 生成[2, 10)区间内的整数序列，步长为2
np.arange(2, 10, 2)

array([2, 4, 6, 8])

In [8]:
# linspace生成一个区间上等间隔划分的数值，即等差数列
# 生成[1, 10]区间内的等间隔划分的10个数
a = np.linspace(1,10,num=10)
print(a)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]


# 思考一下：ndarray和Python列表有什么区别？

# 数据类型

In [9]:
# numpy数据类型举例，表格见PPT
# 浮点数类型的ndarray
a = np.array([1,2,3], dtype=np.float64)
print(a.dtype)

float64


In [10]:
# 整数类型的ndarray
a = np.array([1,2,3], dtype=np.int32)

In [11]:
# 字符串类型的ndarray
a = np.array(['abc', 'defg'], dtype=np.string_)

# 矢量运算

In [12]:
# 对数据进行批量运算，不需要写循环
a = np.array([1,2,3])
print(a * a)
print(a + a)
print(1/a)

[1 4 9]
[2 4 6]
[1.         0.5        0.33333333]


In [13]:
a=np.arange(10)
# 求平方根
print(np.sqrt(a))
# 求e的幂次
print(np.exp(a))

[0.         1.         1.41421356 1.73205081 2.         2.23606798
 2.44948974 2.64575131 2.82842712 3.        ]
[1.00000000e+00 2.71828183e+00 7.38905610e+00 2.00855369e+01
 5.45981500e+01 1.48413159e+02 4.03428793e+02 1.09663316e+03
 2.98095799e+03 8.10308393e+03]


In [14]:
# numpy算术函数
a= np.arange(1, 11) * np.arange(1, 11)
b= np.arange(1, 11)

# 加法运算
c = np.add(a, b)

# 减法
c = np.subtract(a, b)

# 乘法
c = np.multiply(a, b)

# 除法
c = np.divide(a,b)
# 求最大值
c = np.maximum(a, b)

# 求倒数
c = np.reciprocal(a)

# 指数运算
c = np.power(b, 2)

# 三角函数 - sin
a = np.array([0,30,45,60,90])
c = np.sin(a*np.pi/180)

# 三角函数 - cos
c = np.cos(a*np.pi/180)



In [15]:
# dot函数
# 如果两个都是一维数组，做内积，图见PPT
a = np.arange(3)
b = np.arange(3)
np.dot(a, b)

5

In [16]:
# 如果两个都是二维数组，做矩阵积，图见PPT
a = np.arange(1, 5).reshape(2, 2)
b = np.arange(5, 9).reshape(2, 2)
np.dot(a, b)

array([[19, 22],
       [43, 50]])

# 索引和切片

In [17]:
# 一维数组的索引和切片
arr = np.arange(10)

# 切片操作
arr[5:8] 
# 赋值操作
arr[5:8] = 12 


In [18]:
# 高维数组的索引和切片
# 二维数组的索引方式，见PPT
arr2d = np.arange(9).reshape((3,3))
print(arr2d)


[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [19]:
# 获取第2行数据，是一个一维数组
arr2d[2] 

array([6, 7, 8])

In [20]:
# 获取第0行第2列，是一个数值
arr2d[0][2]

2

In [21]:
# 另外一种方式获取第0行第2列
arr2d[0, 2]


2

In [22]:
# 使用数组作用索引，见PPT图
arr2d[[0, 1], [1, 2]]


array([1, 5])

In [23]:
# 选择前2行数据
arr2d[:2]


array([[0, 1, 2],
       [3, 4, 5]])

In [24]:
# 选择前2行，后2列数据
arr2d[:2, 1:]

array([[1, 2],
       [4, 5]])

In [25]:
# 选择第1行，前2列的数据
arr2d[1, :2]

array([3, 4])

In [26]:
# 选择所有的行，前2列的数据
arr2d[:, :2]

array([[0, 1],
       [3, 4],
       [6, 7]])

In [27]:
# 布尔索引，选择所有小于5的数
arr2d[arr2d<5]


array([0, 1, 2, 3, 4])

# 练习一 - 见PPT

In [28]:
# 练习一答案
array=np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
odd_nums=array[array%2!=0]
print(odd_nums)

[1 3 5 7 9]


# 数据统计

In [29]:
# 计算平均值
arr = np.array([3, 2, 4, 1])
arr.mean() 

2.5

In [30]:
# 求和运算
arr = np.array([3, 2, 4, 1])
arr.sum() 

10

In [31]:
# 计算方差
arr = np.array([3, 2, 4, 1])
arr.std() 

1.118033988749895

In [32]:
# 求最大值
arr = np.array([3, 2, 4, 1])
arr.max()

4

In [33]:
# 求最小值
arr = np.array([3, 2, 4, 1])
arr.min() 

1

In [34]:
# 求最大值的索引
arr = np.array([3, 2, 4, 1])
arr.argmax()

2

In [35]:
# 求最小值的索引
arr = np.array([3, 2, 4, 1])
arr.argmin() 

3

In [36]:
# 累积求和
arr = np.array([3, 2, 4, 1])
arr.cumsum() 

array([ 3,  5,  9, 10])

In [37]:
# 使用accumulate函数实现累计运算
# 运算步骤见PPT
arr = np.array([3, 2, 4, 1])
np.add.accumulate(arr)

array([ 3,  5,  9, 10])

In [38]:
# 计算大于1的个数
arr = np.array([3, 2, 4, 1])
print(arr>1)
(arr>1).sum() 

[ True  True  True False]


3

In [39]:
# 是否存在大于1的元素
arr = np.array([3, 2, 4, 1])
(arr>1).any() 

True

In [40]:
# 是否所有元素都大于1
arr = np.array([3, 2, 4, 1])
(arr>1).all() 

False

# 练习二 - 见PPT

In [41]:
# 练习二答案
a = np.array([1,2,3,2,3,4,3,4,5,6])
b = np.array([7,2,10,2,7,4,9,4,9,8])
distance=np.sqrt(np.sum((a-b)**2))
print(distance)

12.529964086141668


# 随机数生成

In [42]:
# 生成满足标准正态分布的随机数
a = np.random.randn(3, 4) 
print(a)

[[-3.48717901e-04  9.25917211e-01 -1.79671072e+00 -4.70122180e-01]
 [-7.64835347e-01 -2.40608656e-01 -2.59538178e-01  9.91121705e-01]
 [ 1.53470471e+00 -1.20462554e+00  1.58596692e+00 -8.66163772e-01]]


In [43]:
# 生成[0, 10)区间内的随机整数，size指定生成几个数
a = np.random.randint(low=10, size=5)
print(a)
# 生成[7, 10)区间内的随机数
a = np.random.randint(low=7, high=10, size=5)
print(a)

[1 1 4 1 4]
[8 8 7 7 7]


In [44]:
# 生成满足泊松分布的随机数，第一个参数lambda，第二个参数size指定生成几个数
a = np.random.poisson(5, size=1000)
print(len(a))

1000


In [45]:
# 生成随机样本
arr = ['a', 'b', 'c', 'd', 'e']
# 默认采样可重新放回
# size指定生成几个数，p指定arr中每个数出现的概率
a = np.random.choice(arr, size=3, p=(0.1, 0, 0.3, 0.6, 0))
print(a)

# 不可重新放回可指定replace=False
a = np.random.choice(arr, size=3, replace=False, p=(0.1, 0, 0.3, 0.6, 0))
print(a)

['c' 'd' 'd']
['d' 'c' 'a']


# 练习三 - 见PPT

In [46]:
# 练习三答案
a = np.random.randint(0, 10, size=10)
print(a)
a[np.argmax(a)] = 0
print(a)


[4 6 9 0 0 0 7 3 2 5]
[4 6 0 0 0 0 7 3 2 5]


# 练习四 - 见PPT

In [47]:
# 练习四答案
N = 500 # steps

r = np.random.randint(1,3,N) # move 1 or 2 units of distance each step
theta = np.radians(np.random.randint(0,361,N))

# np.cumsum Return the cumulative sum of the elements along a given axis.
x = np.cumsum(r*np.cos(theta))
y = np.cumsum(r*np.sin(theta))
print(x, y)
import matplotlib.pyplot as plt
plt.plot(x, y)
plt.show()


[  0.61803399  -0.29551147  -0.70224811  -1.21728619  -0.27759357
  -2.27728896  -1.88655783  -0.79727976  -2.51161436  -3.07080726
  -3.58584534  -4.35188978  -2.40314965  -1.51214313  -0.55088143
   0.13315886  -0.84846833  -1.42204476  -2.24119681  -4.20445118
  -3.86243103  -2.39972363  -0.70362744  -0.47867638  -0.04030524
  -1.35242329  -2.23537089  -2.93002926  -4.90540594  -4.13936149
  -2.4432653   -3.41356103  -3.4833175   -3.13602115  -4.11039121
  -2.26938151  -3.26801104  -1.44092012  -1.30174702  -0.31147895
   0.04688899  -0.19684969  -1.0628751   -0.95834663  -0.11029854
   1.54777661   2.37681418   2.75843217   3.08400033   1.1352602
  -0.64675285  -2.39599227  -2.56964044  -0.99361894  -1.16726711
  -1.83639772  -3.83639772  -5.82878712  -6.44444859  -4.44932049
  -5.68064344  -5.83707791  -7.74968742  -7.16494401  -5.85282595
  -6.82312168  -5.83831392  -6.65178721  -5.70626864  -5.25227814
  -6.15858592  -5.5567709   -7.54581469  -7.66768403  -8.63730327
  -9.321343

<Figure size 640x480 with 1 Axes>

# 实战项目 - 见PPT

# 实战项目答案

In [48]:
# 实战数据
np.random.seed(1)
values = np.random.randn(1000).cumsum()

In [49]:
# 实现
max_drawdown = np.max(np.maximum.accumulate(values) - values)
print(max_drawdown)

17.008446252634755
