# numpy基础

### 七月在线python数据分析集训营 julyedu.com

褚则伟 zeweichu@gmail.com

## Numpy简介

- Numpy是Python语言的一个library [numpy](http://www.numpy.org/)
- Numpy主要支持矩阵操作和运算
- Numpy非常高效，core代码由C语言写成
- 我们第三课要讲的pandas也是基于Numpy构建的一个library
- 现在比较流行的机器学习框架（例如Tensorflow/PyTorch等等），语法都与Numpy比较接近

## 目录
- 数组简介和数组的构造(ndarray)
- 数组取值和赋值
- 数学运算

python里面调用一个包，用import对吧, 所以我们import `numpy` 包:

如果还没有安装的话，你可以在command line界面使用`pip install numpy`

In [1]:
import numpy as np

## Arrays/数组

### 七月在线python数据分析集训营 julyedu.com

看你数组的维度啦，我自己的话比较简单粗暴，一般直接把1维数组就看做向量/vector，2维数组看做2维矩阵，3维数组看做3维矩阵...

可以调用np.array去从list初始化一个数组:

In [2]:
a = np.array([1, 2, 3])  # 1维数组
print(type(a), a.shape, a[0], a[1], a[2])
a[0] = 5                 # 重新赋值
print(a)            

<class 'numpy.ndarray'> (3,) 1 2 3
[5 2 3]


In [3]:
b = np.array([[1,2,3],[4,5,6]])   # 2维数组
print(b)

[[1 2 3]
 [4 5 6]]


In [4]:
print(b.shape)  #可以看形状的（非常常用！！！）                  
print(b[0, 0], b[0, 1], b[1, 0])

(2, 3)
1 2 4


In [5]:
print(b.size)

6


In [6]:
print(b.dtype)

int64


查看每个element的大小

In [7]:
print(b.itemsize)

8


有一些内置的创建数组的函数:

In [8]:
a = np.zeros((2,2))  # 创建2x2的全0数组
print(a)

[[ 0.  0.]
 [ 0.  0.]]


In [9]:
b = np.ones((1,2))   # 创建1x2的全1数组
print(b)

[[ 1.  1.]]


In [10]:
c = np.full((2,2), 7) # 定值数组
print(c) 

[[7 7]
 [7 7]]


In [11]:
d = np.eye(2)        # 对角矩阵（对角元素为1）
print(d)

[[ 1.  0.]
 [ 0.  1.]]


In [12]:
e = np.random.random((2,2)) # 2x2的随机数组(矩阵)
print(e)

[[ 0.18371333  0.67849295]
 [ 0.56642033  0.87021502]]


In [13]:
f = np.empty((2,3,2)) # empty是未初始化的数据
print(f)
print(f.shape)

[[[  0.00000000e+000   3.11108892e+231]
  [  2.96439388e-323   0.00000000e+000]
  [  2.12199579e-314   1.58817677e-052]]

 [[  5.20845631e-090   1.69175720e-052]
  [  3.61111103e+174   4.79126305e-037]
  [  3.99910963e+252   8.34404912e-309]]]
(2, 3, 2)


In [14]:
g = np.arange(15) # 用arange可以生成连续的一串元素
print(g)
print(g.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
(15,)


linspace也是一个很常用的初始化数据的手段，它可以帮我们产生一连串等间距的数组

In [15]:
np.linspace(2.0, 3.0, 5)

array([ 2.  ,  2.25,  2.5 ,  2.75,  3.  ])

## 使用reshape来改变tensor的形状
### 七月在线python数据分析集训营 julyedu.com

numpy可以很容易地把一维数组转成二维数组，三维数组。

In [16]:
import numpy as np

arr = np.arange(8)
print("(4,2):", arr.reshape((4,2)))
print()
print("(2,2,2):", arr.reshape((2,2,2)))

(4,2): [[0 1]
 [2 3]
 [4 5]
 [6 7]]

(2,2,2): [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]


直接把shape给重新定义了其实也可以

In [17]:
arr = np.arange(8)
arr.shape = 2,4
arr

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

如果我们在某一个维度上写上-1，numpy会帮我们自动推导出正确的维度

In [18]:
arr = np.arange(15)
print(arr.reshape((5,-1)))
print(arr.reshape((5,-1)).shape)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]
(5, 3)


还可以从其他的ndarray中获取shape信息然后reshape

In [19]:
other_arr = np.ones((3,5))
print(other_arr.shape)
print(arr.reshape(other_arr.shape))

(3, 5)
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


高维数组可以用ravel来拉平

In [20]:
print(arr.ravel())

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


### 数组的数据类型 dtype

数组可以有不同的数据类型

生成数组时可以指定数据类型，如果不指定numpy会自动匹配合适的类型

In [21]:
arr = np.array([1,2,3], dtype=np.float64)
print(arr.dtype)

float64


In [22]:
arr = np.array([1,2,3], dtype=np.int32)
print(arr.dtype)

int32


有时候如果我们需要ndarray是一个特定的数据类型，可以使用astype复制数组并转换数据类型

In [23]:
int_arr = np.array([1,2,3,4,5])
float_arr = int_arr.astype(np.float)
print(int_arr.dtype)
print(float_arr.dtype)

int64
float64


使用astype将float转换为int时小数部分被舍弃

In [24]:
float_arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
int_arr = float_arr.astype(dtype = np.int)
print(int_arr)

[ 3 -1 -2  0 12 10]


使用astype把字符串转换为数组，如果失败抛出异常。

In [25]:
str_arr = np.array(['1.25', '-9.6', '42'], dtype = np.string_)
float_arr = str_arr.astype(dtype = np.float)
print(float_arr)

[  1.25  -9.6   42.  ]


astype使用其它数组的数据类型作为参数

In [26]:
int_arr = np.arange(10)
float_arr = np.array([.23, 0.270, .357, 0.44, 0.5], dtype = np.float64)
print(int_arr.astype(float_arr.dtype))
print(int_arr[0], int_arr[1])

[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9.]
0 1


更多的内容可以读读[文档](http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html).

## Array indexing/数组取值和赋值

### 七月在线python数据分析集训营 julyedu.com

Numpy提供了蛮多种取值的方式的.

可以像list一样切片（多维数组可以从各个维度同时切片）:

In [27]:
import numpy as np

# 创建一个如下格式的3x4数组
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# 在两个维度上分别按照[:2]和[1:3]进行切片，取需要的部分
# [[2 3]
#  [6 7]]
b = a[:2, 1:3]
print(b)

[[2 3]
 [6 7]]


虽然，怎么说呢，不建议你这样去赋值，但是你确实可以修改切片出来的对象，然后完成对原数组的赋值.

In [28]:
print(a[0, 1])  
b[0, 0] = 77    # b[0, 0]改了，很遗憾a[0, 1]也被修改了
print(a[0, 1])

2
77


关于Copy和View的关系
- 简单的数组赋值，切片，包括作为函数的参数传递一个数组--并不会复制出一个新的数组，只是制造了一个新的reference。所以如果我们在新赋值的变量上改变数组的内容，原来的那个数组内容也会发生改变。这一点千万要注意哦！

In [29]:
b = a
b is a

True

- 使用`view`方法，我们可以拿到数组的一部分或者全部，但是在view上面修改内容还是会把原来的数组给更改了

In [30]:
c = a.view()
c is a

False

使用`base`方法可以查看一个数组的owner是谁，也就是说这个数组是由谁制造产生的。

In [31]:
c.base is a

True

其实使用切片方法我们拿到的也是一个view

In [32]:
s = a[:, 2:]
s.base is a

True

所以更改切片上的内容之后，原来数组的内容也被更改了

In [33]:
s[:] = 10
a

array([[ 1, 77, 10, 10],
       [ 5,  6, 10, 10],
       [ 9, 10, 10, 10]])

如果要复制出一个新的数组，我们就需要使用`copy()`这个方法了

In [34]:
d = a.copy()
d is a

False

In [35]:
d.base is a

False

In [36]:
d[0,0] = 9999
a

array([[ 1, 77, 10, 10],
       [ 5,  6, 10, 10],
       [ 9, 10, 10, 10]])

下面我们继续回到数组切片的问题上

创建3x4的2维数组/矩阵

In [37]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


你就放心大胆地去取你想要的数咯:

In [38]:
row_r1 = a[1, :]    # 第2行，但是得到的是1维输出（列向量）
row_r2 = a[1:2, :]  # 1x2的2维输出
row_r3 = a[[1], :]  # 同上
print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape)
print(row_r3, row_r3.shape)

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[[5 6 7 8]] (1, 4)


试试在第2个维度上切片也一样的:

In [39]:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print()
print(col_r2, col_r2.shape)

[ 2  6 10] (3,)

[[ 2]
 [ 6]
 [10]] (3, 1)


dots(...)

In [40]:
import numpy as np
c = np.arange(120).reshape(2,3,4,5)
c[1, ..., 3, :]

array([[ 75,  76,  77,  78,  79],
       [ 95,  96,  97,  98,  99],
       [115, 116, 117, 118, 119]])

下面这个高级了，更自由地取值和组合，但是要看清楚一点:

In [41]:
a = np.array([[1,2], [3, 4], [5, 6]])

# 其实意思就是取(0,0),(1,1),(2,0)的元素组起来
print(a[[0, 1, 2], [0, 1, 0]])

# 下面这个比较直白啦
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

[1 4 5]
[1 4 5]


In [42]:
a = np.arange(4*5*6).reshape(4,5,6)
a[np.arange(4), np.arange(4), [1,3,5,2]]

array([  1,  39,  77, 110])

In [43]:
# 再来试试
print(a[[0, 0], [1, 1]])

# 还是一样
print(np.array([a[0, 1], a[0, 1]]))

[[ 6  7  8  9 10 11]
 [ 6  7  8  9 10 11]]
[[ 6  7  8  9 10 11]
 [ 6  7  8  9 10 11]]


再来熟悉一下

先创建一个2维数组

In [44]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


用下标生成一个向量

In [45]:
b = np.array([0, 2, 0, 1])

你能看明白下面做的事情吗？

In [46]:
print(a[np.arange(4), b]) 

[ 1  6  7 11]


既然可以取出来，我们当然也可以对这些元素操作咯

In [47]:
a[np.arange(4), b] += 10
print(a)

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


### numpy的条件判断

比较fashion的取法之一，用条件判定去取（但是很好用）:

In [48]:
a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)  # 就是判定一下是否大于2

print(bool_idx)  # 返回一个布尔型的3x2数组

[[False False]
 [ True  True]
 [ True  True]]


用刚才的布尔型数组作为下标就可以去除符合条件的元素啦

In [49]:
print(a[bool_idx])

[3 4 5 6]


其实一句话也可以完成是不是？

In [50]:
print(a[a > 2])

[3 4 5 6]


那个，真的，其实还有很多细节，其他的方式去取值，你可以看看官方文档。

我们一起来来总结一下，看下面切片取值方式（对应颜色是取出来的结果）：

![](http://old.sebug.net/paper/books/scipydoc/_images/numpy_intro_02.png)
![](http://old.sebug.net/paper/books/scipydoc/_images/numpy_intro_03.png)

## 简单数学运算
### 七月在线python数据分析集训营 julyedu.com

下面这些运算是你在科学运算中经常经常会用到的，比如逐个元素的运算如下:

In [2]:
import numpy as np
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

逐元素求和有下面2种方式

In [52]:
print(x + y)
print(np.add(x, y))

[[  6.   8.]
 [ 10.  12.]]
[[  6.   8.]
 [ 10.  12.]]


逐元素作差

In [53]:
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


逐元素相乘

In [54]:
print(x * y)
print(np.multiply(x, y))

[[  5.  12.]
 [ 21.  32.]]
[[  5.  12.]
 [ 21.  32.]]


逐元素相除

In [55]:
print(x / y)
print(np.divide(x, y))

[[ 0.2         0.33333333]
 [ 0.42857143  0.5       ]]
[[ 0.2         0.33333333]
 [ 0.42857143  0.5       ]]


逐元素求平方根！！！

In [56]:
print(np.sqrt(x))

[[ 1.          1.41421356]
 [ 1.73205081  2.        ]]


当然还可以逐个元素求平方

In [57]:
print(x**2)

[[  1.   4.]
 [  9.  16.]]


你猜你做科学运算会最常用到的矩阵内元素的运算是什么？对啦，是求和，用 `sum`可以完成:

In [58]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))  # 数组/矩阵中所有元素求和; prints "10"
print(np.sum(x, axis=0))  # 按行去求和; prints "[4 6]"
print(np.sum(x, axis=1))  # 按列去求和; prints "[3 7]"

10
[4 6]
[3 7]


还有一些其他我们可以想到的运算，比如求和，求平均，求cumulative sum，sumulative product用numpy都可以做到

In [59]:
print(np.mean(x))
print(np.mean(x, axis=0))
print(np.mean(x, axis=1))
print(x.cumsum(axis=0))
print(x.cumprod(axis=1))

2.5
[ 2.  3.]
[ 1.5  3.5]
[[1 2]
 [4 6]]
[[ 1  2]
 [ 3 12]]


当我们在某一个维度上对ndarray求和求平均的时候，那一个维度会被自动压缩掉，但是如果我们希望保留这个维度的话，可以使用keepdims这个parameter，这个小技巧有时候很有用

In [12]:
print(x)

[[ 1.  2.]
 [ 3.  4.]]


In [9]:
x_mean = x.mean(1, keepdims=True)
print(x_mean.shape, "\n", x_mean)

(2, 1) 
 [[ 1.5]
 [ 3.5]]


In [10]:
x - x.mean(1)

array([[-0.5, -1.5],
       [ 1.5,  0.5]])

In [11]:
x - x.mean(1, keepdims=True)

array([[-0.5,  0.5],
       [-0.5,  0.5]])

我想说最基本的运算就是上面这个样子，更多的运算可能得查查[文档](http://docs.scipy.org/doc/numpy/reference/routines.math.html).

一维数组的排序

In [60]:
arr = np.random.randn(8)
print(arr)
arr.sort()
print(arr)

[-0.59089959 -0.69464228  0.19764173  1.06542957 -0.93167911  0.72010009
  0.98485164  0.64554892]
[-0.93167911 -0.69464228 -0.59089959  0.19764173  0.64554892  0.72010009
  0.98485164  1.06542957]


二维数组也可以在某些维度上排序

In [61]:
arr = np.random.randn(5,3)
print(arr)
arr.sort(1)
print(arr)

[[ 0.96442199  0.24170399 -0.34868107]
 [ 0.49019122 -0.44247649  0.26807994]
 [-0.19606933  0.8373728  -0.42110106]
 [-1.17488438 -0.01514267 -1.40175246]
 [ 1.03809644 -0.32226042  1.21621558]]
[[-0.34868107  0.24170399  0.96442199]
 [-0.44247649  0.26807994  0.49019122]
 [-0.42110106 -0.19606933  0.8373728 ]
 [-1.40175246 -1.17488438 -0.01514267]
 [-0.32226042  1.03809644  1.21621558]]


下面我们做一个小案例，找出排序后位置在5%的数字

In [62]:
large_arr = np.random.randn(1000)
large_arr.sort()
print(large_arr[int(0.05*len(large_arr))])

-1.69029967076


如果我们想要找出某个dimension上最大的index呢？

In [16]:
x = np.random.random((5, 6))
print(x)

[[ 0.69729261  0.46836516  0.61262327  0.5116643   0.11963729  0.65744612]
 [ 0.59042301  0.52653756  0.83107804  0.49619956  0.8131979   0.90982086]
 [ 0.54387051  0.7645951   0.03996066  0.60462687  0.21541442  0.33530842]
 [ 0.89684909  0.46083355  0.45639174  0.03490184  0.54921917  0.42301243]
 [ 0.23118945  0.46970828  0.25111209  0.48423839  0.69496104  0.22514291]]


In [17]:
np.argmax(x, 1)

array([0, 5, 1, 0, 4])

如果我们想要找出top k个数字呢？

In [20]:
x.argsort()[:, -3:][:, ::-1]

array([[0, 5, 2],
       [5, 2, 4],
       [1, 3, 0],
       [0, 4, 1],
       [4, 3, 1]])