# numpy 介绍
高性能科学计算和数据分析的基础包

功能：

+ 快速且节省空间的多维数组ndarray

+ 标准数学函数，对数组作快速的矢量运算

+ 线性代数、随机数生成、傅里叶变换等功能

+ 提供简单易用的C API


# ndarray

In [1]:
# N维数组
# 一系列同类型数据的集合
# 每个ndarray都有一个shape和dtype


# 创建ndarray

In [2]:
# array函数
import numpy as np
a = np.array([1,2,3])
a = np.array([[1,2],[3,4]])


In [3]:
# dtype指定元素类型
a = np.array([1,2,3], dtype=np.complex64)  

In [4]:
# zeros函数生成全为0的ndarray
np.zeros((2,3))


array([[0., 0., 0.],
       [0., 0., 0.]])

In [5]:
# ones函数生成全为1的ndarray
np.ones((2,3))


array([[1., 1., 1.],
       [1., 1., 1.]])

In [6]:
# eye函数生成单位矩阵
np.eye(10)


array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [7]:
# arange函数生成序列
# 类似Python里的range，但是结果是ndarray类型
# 生成[0, 10)区间内的整数序列
np.arange(10)

# 生成[5, 10)区间内的整数序列
np.arange(5, 10)

# 生成[2, 10)区间内的整数序列，步长为2
np.arange(2, 10, 2)

array([2, 4, 6, 8])

In [8]:
# linspace生成一个区间上等间隔划分的数值，即等差数列
# 生成[1, 10]区间内的等间隔划分的10个数
a = np.linspace(1,10,num=10)
print(a)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]


# 思考一下：ndarray和Python列表有什么区别？

# 数据类型

In [9]:
# numpy数据类型举例，表格见PPT
# 浮点数类型的ndarray
a = np.array([1,2,3], dtype=np.float64)

In [10]:
# 整数类型的ndarray
a = np.array([1,2,3], dtype=np.int32)

In [11]:
# 字符串类型的ndarray
a = np.array(['abc', 'defg'], dtype=np.string_)

# 矢量运算

In [12]:
# 对数据进行批量运算，不需要写循环
a = np.array([1,2,3])
print(a * a)
print(a + a)
print(1/a)

[1 4 9]
[2 4 6]
[1.         0.5        0.33333333]


In [13]:
a=np.arange(10)
# 求平方根
print(np.sqrt(a))
# 求e的幂次
print(np.exp(a))

[0.         1.         1.41421356 1.73205081 2.         2.23606798
 2.44948974 2.64575131 2.82842712 3.        ]
[1.00000000e+00 2.71828183e+00 7.38905610e+00 2.00855369e+01
 5.45981500e+01 1.48413159e+02 4.03428793e+02 1.09663316e+03
 2.98095799e+03 8.10308393e+03]


In [14]:
# numpy算术函数
a= np.arange(1, 11) * np.arange(1, 11)
b= np.arange(1, 11)

# 加法运算
c = np.add(a, b)

# 减法
c = np.subtract(a, b)

# 乘法
c = np.multiply(a, b)

# 除法
c = np.divide(a,b)
# 求最大值
c = np.maximum(a, b)

# 求倒数
c = np.reciprocal(a)

# 指数运算
c = np.power(b, 2)

# 三角函数 - sin
a = np.array([0,30,45,60,90])
c = np.sin(a*np.pi/180)

# 三角函数 - cos
c = np.cos(a*np.pi/180)



In [15]:
# dot函数
# 如果两个都是一维数组，做内积，图见PPT
a = np.arange(3)
b = np.arange(3)
np.dot(a, b)

5

In [16]:
# 如果两个都是二维数组，做矩阵积，图见PPT
a = np.arange(1, 5).reshape(2, 2)
b = np.arange(5, 9).reshape(2, 2)
np.dot(a, b)

array([[19, 22],
       [43, 50]])

# 索引和切片

In [17]:
# 一维数组的索引和切片
arr = np.arange(10)

# 切片操作
arr[5:8] 
# 赋值操作
arr[5:8] = 12 


In [18]:
# 高维数组的索引和切片
# 二维数组的索引方式，见PPT
arr2d = np.arange(9).reshape((3,3))

# 获取第2行数据，是一个一维数组
arr2d[2] 

# 获取第0行第2列，是一个数值
arr2d[0][2]

# 另外一种方式获取第0行第2列
arr2d[0, 2]

# 使用数组作用索引，见PPT图
arr2d[[0, 1], [1, 2]]


array([1, 5])

In [19]:
# 选择前2行数据
arr2d[:2]


array([[0, 1, 2],
       [3, 4, 5]])

In [20]:
# 选择前2行，后2列数据
arr2d[:2, 1:]

array([[1, 2],
       [4, 5]])

In [21]:
# 选择第1行，前2列的数据
arr2d[1, :2]

array([3, 4])

In [22]:
# 选择所有的行，前2列的数据
arr2d[:, :2]

array([[0, 1],
       [3, 4],
       [6, 7]])

In [23]:
# 布尔索引，选择所有小于5的数
arr2d[arr2d<5]


array([0, 1, 2, 3, 4])

# 练习一 - 见PPT

# 数据统计

In [24]:
# 计算平均值
arr = np.array([3, 2, 4, 1])
arr.mean() 

2.5

In [25]:
# 求和运算
arr = np.array([3, 2, 4, 1])
arr.sum() 

10

In [26]:
# 计算方差
arr = np.array([3, 2, 4, 1])
arr.std() 

1.118033988749895

In [27]:
# 求最大值
arr = np.array([3, 2, 4, 1])
arr.max()

4

In [28]:
# 求最小值
arr = np.array([3, 2, 4, 1])
arr.min() 

1

In [29]:
# 求最大值的索引
arr = np.array([3, 2, 4, 1])
arr.argmax()

2

In [30]:
# 求最小值的索引
arr = np.array([3, 2, 4, 1])
arr.argmin() 

3

In [31]:
# 累积求和
arr = np.array([3, 2, 4, 1])
arr.cumsum() 

array([ 3,  5,  9, 10])

In [32]:
# 使用accumulate函数实现累计运算
# 运算步骤见PPT
arr = np.array([3, 2, 4, 1])
np.add.accumulate(arr)

array([ 3,  5,  9, 10])

In [33]:
# 计算大于1的个数
arr = np.array([3, 2, 4, 1])
(arr>1).sum() 

3

In [34]:
# 是否存在大于1的元素
arr = np.array([3, 2, 4, 1])
(arr>1).any() 

True

In [35]:
# 是否所有元素都大于1
arr = np.array([3, 2, 4, 1])
(arr>1).all() 

False

# 练习二 - 见PPT

# 随机数生成

In [36]:
# 生成满足标准正态分布的随机数
a = np.random.randn(3, 4) 


In [37]:
# 生成[0, 10)区间内的随机整数，size指定生成几个数
a = np.random.randint(low=10, size=5)
print(a)
# 生成[7, 10)区间内的随机数
a = np.random.randint(low=7, high=10, size=5)
print(a)

[1 7 2 5 7]
[9 9 8 8 8]


In [38]:
# 生成满足泊松分布的随机数，第一个参数lambda，第二个参数size指定生成几个数
a = np.random.poisson(5, size=1000)

In [39]:
# 生成随机样本
arr = ['a', 'b', 'c', 'd', 'e']
# 默认采样可重新放回
# size指定生成几个数，p指定arr中每个数出现的概率
a = np.random.choice(arr, size=3, p=(0.1, 0, 0.3, 0.6, 0))
print(a)

# 不可重新放回可指定replace=False
a = np.random.choice(arr, size=3, replace=False, p=(0.1, 0, 0.3, 0.6, 0))
print(a)

['d' 'd' 'd']
['d' 'a' 'c']


# 练习三 - 见PPT

# 练习四 - 见PPT

# 实战项目

# 实战项目答案

In [40]:
# 实战数据
np.random.seed(1)
values = np.random.randn(1000).cumsum()

In [41]:
# 实现
i = np.argmax(np.maximum.accumulate(values) - values)
j = np.argmax(values[:i+1])
print(i, j)

790 599
