# Numpy基础

### 面授班讲义  by 杨庆跃
请安装最新版本Jupyter notebook进行编程实验

## 关于Numpy

- Numpy是Python语言的一个library [numpy](http://www.numpy.org/)
- Numpy主要支持矩阵操作和运算
- Numpy是数据分析和机器学习的核心Python库
- Numpy非常高效，核心代码由C语言编写
- pandas也是基于Numpy构建的一个工具库
- 是TensorFlow等机器学习框架的基础  

官方教程[地址](https://docs.scipy.org/doc/numpy/user/quickstart.html)

## 目录
- 数组简介和数组的构造(ndarray)
- 数组取值和赋值
- 数学运算
- 数组高级操作

首先引入numpy包:

In [1]:
import numpy as np

### 数组Arrays
numpy中的数组是多维具有同样类型的数据集合，使用shape函数查看数组的维度信息。  
可以使用Python中的列表list初始化numpy数组，使用中括号访问:

In [3]:
a = np.array([1, 2, 3])  # 创建1维数组
print(type(a))
a.shape

<class 'numpy.ndarray'>


(3,)

In [5]:
b = np.array([[1,2,3],
              [4,5,6]])   # 创建2维数组
print(b)
print(b.shape)

[[1 2 3]
 [4 5 6]]
(2, 3)


In [70]:
print(b.ndim) #维度
print(b.shape) #查看每个维度的规模 
b

2
(2, 3)


array([[1, 2, 3],
       [4, 5, 6]])

Numpy提供了专门的函数创建数组并初始化值:

In [7]:
a = np.zeros((2,2),dtype=int)  # 创建全0数组
print(a)

[[0 0]
 [0 0]]


In [23]:
b = np.ones((1,2))   # 创建全1数组
print(b)

[[1. 1.]]


In [188]:
c = np.full((2,2), 7) # 创建常数数组
print c 

[[ 7.  7.]
 [ 7.  7.]]


In [6]:
d = np.eye(5,dtype=int)        # 创建单位矩阵
print(d)

[[1 0 0 0 0]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 1 0]
 [0 0 0 0 1]]


In [11]:
#e = np.random.random(5) #生成随机数，0-1之间
#print(e)
e = np.random.random((2,3)) # 创建全随机数数组
print(e)

[[0.48567587 0.08283701 0.11854967]
 [0.12848501 0.13236146 0.07425852]]


### 数组索引Array indexing与数据访问

切片Slicing: 可以像list一样切片（多维数组可以从各个维度同时切片）:

In [34]:
import numpy as np

a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
print(a)

b = a[:2, 1:3].copy() #copy函数生成新的内存空间
print(b)

c = a[1:,2:3]
print(c)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[2 3]
 [6 7]]
[[ 7]
 [11]]


切片之后的结果相当于原始数组的一个视图，修改切片会直接修改原始数据

In [35]:
print(a[0, 1])  
b[0, 0] = 888
print(a)

2
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [111]:
# 创建2维数组shape为(3, 4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [112]:
row_r1 = a[1, :]    # 1维 
row_r2 = a[1:2, :]  # 2维
row_r3 = a[[1], :]  # 2维
print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape)
print(row_r3, row_r3.shape)

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[[5 6 7 8]] (1, 4)


In [113]:
# 也可针对列进行切片:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print(col_r2, col_r2.shape)

[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


#### 取得数据的其他方式

In [47]:
a = np.array([[1,2], [3, 4], [5, 6]])

print(a[[0, 1, 2], [0, 1, 0]])
print([a[0, 0], a[1, 1], a[2, 0]])

[1 4 5]
[1, 4, 5]


#### 对数组进行条件判断

In [123]:
import numpy as np

a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2) 

print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


In [128]:
print(a[bool_idx])

# 等价于下列语句，注意，结果变为1维:
print(a[a > 2])

[3 4 5 6]
[3 4 5 6]


### 数组计算

基础数学运算都可用于数组:

In [37]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]

a ** 2

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144]], dtype=int32)

In [53]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# 下列两种方式等价
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


subtract,multiply,divide,等函数同样操作

Numpy为数组提供了一些计算函数，如sum`:

In [55]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))  # 所有值相加
print(np.sum(x, axis=0))  # 所有列相加
print(np.sum(x, axis=1))  # 所有行相加

10
[4 6]
[3 7]


其他计算函数参见文档 [documentation](http://docs.scipy.org/doc/numpy/reference/routines.math.html).

In [102]:
print(x)
print(x.T) #转置

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]


#### 生成随机数组
* np.random.rand 0-1之间小数
* np.random.randn 正态分布
* np.random.randint 随机整数 #无法生成二维数组

#### 下面演示如何生成随机数

In [8]:
a = np.random.rand(5,8) #生成二维数组
a

array([[-6.21704646e-01,  5.28858978e-01,  4.39572703e-01,
         2.06210984e-01, -1.47159823e-02, -1.03228007e+00,
         2.82412363e-03, -2.69449689e-01],
       [-1.78598086e+00, -7.13503691e-02, -5.24869841e-01,
         6.52654047e-01,  8.42884771e-01, -3.57225266e-01,
         7.72876569e-01,  1.02599402e-01],
       [ 6.28309019e-02, -6.28453371e-01, -8.77392498e-01,
        -7.28610535e-01, -1.13740975e+00, -1.29591404e-01,
        -2.28348522e-01, -3.23697234e-01],
       [ 3.80653580e-01, -1.38739543e+00, -6.50081232e-01,
         1.66290041e-01, -5.12024609e-04,  2.25095306e-01,
         7.67942349e-01,  7.39336892e-02],
       [-2.70529648e-01, -8.43468039e-01, -1.76137951e+00,
        -1.06947296e+00, -8.38428576e-01,  1.63664339e+00,
        -6.09402168e-01,  3.56072385e-02]])

#### 生成等距离数组
* numpy.arange([start,] stop[, step,], dtype=None)  #生成整型值
* numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)  

#### 下面演示

In [14]:
np.arange?
#np.arange(1,47,5) #生成1到50之间连续50个值
#np.random.randint(1,50,50)

In [26]:
np.linspace(1,50,100)

array([ 1.        ,  1.49494949,  1.98989899,  2.48484848,  2.97979798,
        3.47474747,  3.96969697,  4.46464646,  4.95959596,  5.45454545,
        5.94949495,  6.44444444,  6.93939394,  7.43434343,  7.92929293,
        8.42424242,  8.91919192,  9.41414141,  9.90909091, 10.4040404 ,
       10.8989899 , 11.39393939, 11.88888889, 12.38383838, 12.87878788,
       13.37373737, 13.86868687, 14.36363636, 14.85858586, 15.35353535,
       15.84848485, 16.34343434, 16.83838384, 17.33333333, 17.82828283,
       18.32323232, 18.81818182, 19.31313131, 19.80808081, 20.3030303 ,
       20.7979798 , 21.29292929, 21.78787879, 22.28282828, 22.77777778,
       23.27272727, 23.76767677, 24.26262626, 24.75757576, 25.25252525,
       25.74747475, 26.24242424, 26.73737374, 27.23232323, 27.72727273,
       28.22222222, 28.71717172, 29.21212121, 29.70707071, 30.2020202 ,
       30.6969697 , 31.19191919, 31.68686869, 32.18181818, 32.67676768,
       33.17171717, 33.66666667, 34.16161616, 34.65656566, 35.15

#### 排序
numpy.sort(a, axis=-1, kind='quicksort', order=None)：返回已排序新数组  
numpy.argsort(a, axis=-1, kind='quicksort', order=None)：间接排序，返回数组排序后元素对应的位置整数组成的索引数组(又称索引器)  
argmax() 和 argmin():分别沿给定轴返回最大和最小元素的索引    
#### 下面演示使用sort以及argsort排序

【课堂练习】随机生成100个值的整数数组，值域在1到1000之间，打印最小的10个值

In [18]:
np.random.seed(134) #同一随机种子下的抽样结果是相同的
a= np.random.randint(1,1000,100)
a.sort()  #等价于， np.sort(a)
print(a[:10])

[ 2  4 15 16 27 29 30 32 36 38]


### reshape函数
numpy可以很方便地进行数组的维度转换  
reshape函数不改变原矩阵，resize函数改变原矩阵
#### 下面演示使用reshape改变数组维度

In [57]:
a = np.arange(1,13)
print(a)
print(a.reshape(3,4))
print(a)
a.resize(3,4)
print(a)


[ 1  2  3  4  5  6  7  8  9 10 11 12]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[ 1  2  3  4  5  6  7  8  9 10 11 12]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [59]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a.ravel()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

# 【思考】numpy可以做以下任务吗？
* 文件读写
* 数组合并
* 对数组元素进行复杂查询