# Numpy 入门及实践

## Numpy 安装

通过如下方式可以方便安装Numpy：
```
pip install numpy
```
如果是windows系统，可以直接去这个网站: [Unofficial Windows Binaries for Python Extension Packages](https://www.lfd.uci.edu/~gohlke/pythonlibs/), 下载对应的numpy版本，如：numpy‑1.15.2+mkl‑cp36‑cp36m‑win_amd64.whl, 需要确认本地python版本，如果是3.6，那么下载这个即可。否则选择对应的版本组件。<br>
下载完成后还是通过pip安装:
```
pip install yourpath/numpy‑1.15.2+mkl‑cp36‑cp36m‑win_amd64.whl
```
本课件主要内容源于：[Numpy Tutorial](https://www.machinelearningplus.com/python/numpy-tutorial-part1-array-python-examples/)，力求深入浅出~~~

## Numpy 介绍

Numpy是在python中用于科学计算和数据操作的最基本和强大的包。<br>
如果你打算从事数据分析或机器学习项目，那么几乎必须了解numpy的使用方式。<br>
**numpy的许多函数不仅是用C实现了，还使用了BLAS（一般Windows下link到MKL的，Linux下link到OpenBLAS）。基本上那些BLAS实现在每种操作上都进行了高度优化，例如使用AVX向量指令集，甚至能比你自己用C实现快上许多，更不要说和用Python实现的比。**<br>
因为其他用于数据分析的包（比如Pandas）是建立在numpy之上的，而用于构建机器学习应用程序的scikit-learn包也同样适用于numpy。<br>
那么numpy提供了什么呢？<br>
在核心中，numpy提供了优秀的ndarray对象，而不是n维数组。<br>
在一个“ndarray”对象中，也就是“数组”，您可以存储同一数据类型的多个项目。它是array对象相关的基础设施，使得numpy非常方便地执行数学和数据操作。<br>
您可能想知道，“我可以在python列表中存储数字和其他对象，并通过列表、for循环等进行各种计算和操作。我需要一个numpy数组来做什么？”<br>
Well, 使用numpy数组的列表有非常重要的优势。<br>
为了理解这一点，让我们首先看看如何创建一个numpy数组。<br>

# 数组(ndarray)部分

## 如何创建numpy数组

创建一个numpy数组有多种方法，本文尽可能涵盖。<br>
然而，最常见的一种方法是传递一个列表或如同列表的对象，并以此通过```np.array```函数创建numpy数组。

In [34]:
import numpy as np
# 通过list创建np.array对象
samplelist = [0, 1, 2, 3, 4]
arrld = np.array(samplelist)

# 打印array与其对应的type
print(type(arrld))
print(arrld)
print(samplelist)

<class 'numpy.ndarray'>
[0 1 2 3 4]
[0, 1, 2, 3, 4]


数组和列表之间的关键区别在于，数组被设计用来处理矢量化操作，而python列表则不是

>### 附注：什么是向量？
在数学中，向量（也称为欧几里得向量、几何向量、矢量），指具有大小（magnitude）和方向的量。它可以形象化地表示为带箭头的线段。箭头所指：代表向量的方向；线段长度：代表向量的大小。与向量对应的只有大小，没有方向的量叫做数量（物理学中称标量）。<br>
如果用R<sup>n</sup>表示n个实数的有序集，Rn中的一个向量就是一个n元有序组，R<sup>n</sup> = {(x1, x2,……xn) | xi ∈ R}<br>
向量的记法：印刷体记作粗体的字母（如a、b、u、v），书写时在字母顶上加一小箭头“→”。如果给定向量的起点（A）和终点（B），可将向量记作  。实际上向量有多种记法，可以用元组表示一个向量，如 (x1, x2) 或 < x1, x2>。在线性代数中，n元向量可以用n×1矩阵表示，如：

<img src='./image/vector.png' />

这意味着，如果你应用一个函数，它会在数组中的每一个item上执行，而不是在整个数组对象上执行。<br>
假设想要将列表中的每一项都+2, 直观的方法是这样的：

In [35]:
# 这个操作会报错
print(samplelist)
samplelist = samplelist + 2
print(samplelist)

[0, 1, 2, 3, 4]


TypeError: can only concatenate list (not "int") to list

但是可以通过ndarray完成这个操作：

In [36]:
print(arrld + 2)
print(arrld)
print(arrld - 1)

[2 3 4 5 6]
[0 1 2 3 4]
[-1  0  1  2  3]


另一个特点是，一旦创建了numpy数组，就不能扩展它的大小。<br>
要做到这一点，您必须创建一个新的数组。但是这种扩展大小的行为在列表中是很自然的。<br>
这就是numpy中的1d数组，这个看似很简单。<br>
不过还可以通过一个复合列表来创建一个类似于2d数组的矩阵。<br>
注意打印list与打印ndarray的显示区别，numpy的ndarray其实是矩阵的概念

In [43]:
# 根据复合列表创建2d array
list2d = [[0, 1, 2], [3, 4, 5], [6, 7, 8]]
# print(list2d+2)
print(list2d)
arr2d = np.array(list2d)
print(arr2d)

[[0, 1, 2], [3, 4, 5], [6, 7, 8]]
[[0 1 2]
 [3 4 5]
 [6 7 8]]


你也可以通过设置dtype参数来指定数据类型。一些最常用的numpy dtype是：“float”、“int”、“bool”、“str”和“object”。<br>
为了控制内存分配，你可以选择使用“float32”、“float64”、“int8”、“int16”或“int32”。

In [44]:
# Create a float 2d array
arr2d_f = np.array(list2d, dtype='float')
# arr2d_f = np.array(list2d)
print(arr2d_f)
print(arr2d_f + 0.5)

[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
[[0.5 1.5 2.5]
 [3.5 4.5 5.5]
 [6.5 7.5 8.5]]


每个数字后面的小数点表示浮点数据类型，还可以使用astype方法将其转换为不同的数据类型。

In [45]:
# Convert to 'int' datatype
arr2d_i = arr2d_f.astype('int')

print(arr2d_i)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [48]:
# Convert to int then to str datatype
arr2d_s = arr2d_f.astype('int').astype('str')
print(arr2d_s)
# print(arr2d_s + 1)

[['0' '1' '2']
 ['3' '4' '5']
 ['6' '7' '8']]


一个numpy数组必须具有相同数据类型的所有条目，这是与列表相比，另一个显著的区别。<br>
但是，如果不确定数组将持有何种数据类型，或者想要在同一个数组中共存字符和数字，可以将dtype设置为“object”。

In [52]:
# Create a boolean array
arr2d_b = np.array([1, 0, 10, -1], dtype='bool')
print(arr2d_b)

# a = 0
# if a is not None:
#     a += 1
# else:
#     a += 2
# print(a)

[ True False  True  True]


In [54]:
arr1d_obj = np.array([1, 'a'], dtype='object')
print(arr1d_obj)

[1 'a']


最终，可以通过```tolist()```方法，将numpy的ndarray对象，转换回python的list对象

In [55]:
print(arr1d_obj.tolist())

[1, 'a']


以下是numpy的数组(ndarray)与python list的主要区别：
>* ndarray支持矢量化操作，而list则不支持。
* 一旦创建了ndarray，就不能改变它的大小。将不得不创建一个新的ndarray或覆盖现有的ndarray。
* 每个ndarray都有一个且只有一个dtype。所有的items都应该是dtype。
* 一个等价的numpy ndarray占用的空间比python列表的要少得多。

## 如何检查numpy array的大小和形状？

每个数组都有一些我想要理解的属性，以便了解数组。<br>
让我们考虑一下刚刚创建的2维数组。因为它是由2维列表创建的，所以它有两个维度，可以显示为行和列，就像在矩阵中一样。<br>
如果我从3维列表创建数组，它会有三个维度，就像在一个立方体中一样。等等。<br>
让我们假设你得到了一个不是你亲自创建的numpy向量。为了了解这个数组，你想要探索的是什么？<br>
好吧，我想知道：
* 它有多少维度：1维，2维，...，n维(ndim)
* 每个dimension（shape）有多少items
* 它的数据类型（dtype）是什么？
* 它的总数量（size）是多少？
* 数组中的前几个items（通过索引）的样本

In [14]:
# Create a 2d array with 3 rows and 4 columns
list2 = [[1, 2, 3, 4],[3, 4, 5, 6], [5, 6, 7, 8]]
arr2 = np.array(list2, dtype='float')
print(arr2)
# shape
print('Shape: ', arr2.shape)

# dtype
print('Datatype: ', arr2.dtype)

# size
print('Size: ', arr2.size)

# ndim
print('Num Dimensions: ', arr2.ndim)

[[1. 2. 3. 4.]
 [3. 4. 5. 6.]
 [5. 6. 7. 8.]]
Shape:  (3, 4)
Datatype:  float64
Size:  12
Num Dimensions:  2


三维数据可以理解为(Height, Width, Channel)

In [56]:
# Create a 3d array
list3 = [[[1, 2], [3, 4]],[[3, 4], [5, 6]], [[5, 6], [7, 8]]]
arr3 = np.array(list3, dtype='float')
print(arr3)
# shape
print('Shape: ', arr3.shape)

# dtype
print('Datatype: ', arr3.dtype)

# size
print('Size: ', arr3.size)

# ndim
print('Num Dimensions: ', arr3.ndim)

[[[1. 2.]
  [3. 4.]]

 [[3. 4.]
  [5. 6.]]

 [[5. 6.]
  [7. 8.]]]
Shape:  (3, 2, 2)
Datatype:  float64
Size:  12
Num Dimensions:  3


### Numpy对张量(Tensor)的简单操作

以三维Tensor为例，其中axis=-1是对最里面的一个维度操作，如numpy.sum(tensor, axis=-1)，即对第2维度进行操作，即对Channel进行相加。

In [61]:
import numpy as np
a = [[[1, 2, 3,4], 
      [4, 5, 6, 5],
      [5, 6, 7, 8]], 
     [[1.1, 2.1, 3.1, 4.1], 
      [4.1, 5.1, 6.1, 7.1],
      [8.1, 9.1, 10.1, 11.1]]]
arr_a = np.array(a, dtype='float')
print(arr_a.shape)
print(arr_a)
print('对Channel维度进行加和')
print( np.sum(a, axis=-1))
print('对Height维度进行加和')
print( np.sum(a, axis=0))
print('对Width维度进行加和')
print( np.sum(a, axis=1))
print('对Channel维度进行加和')
print( np.sum(a, axis=2))

(2, 3, 4)
[[[ 1.   2.   3.   4. ]
  [ 4.   5.   6.   5. ]
  [ 5.   6.   7.   8. ]]

 [[ 1.1  2.1  3.1  4.1]
  [ 4.1  5.1  6.1  7.1]
  [ 8.1  9.1 10.1 11.1]]]
对Channel维度进行加和
[[10.  20.  26. ]
 [10.4 22.4 38.4]]
对Height维度进行加和
[[ 2.1  4.1  6.1  8.1]
 [ 8.1 10.1 12.1 12.1]
 [13.1 15.1 17.1 19.1]]
对Width维度进行加和
[[10.  13.  16.  17. ]
 [13.3 16.3 19.3 22.3]]
对Channel维度进行加和
[[10.  20.  26. ]
 [10.4 22.4 38.4]]


## 如何从一个array中抽取特定的items？

以arr2为例：

In [62]:
print(arr2)

[[101.   2.   3.   4.]
 [  3.   4.   5.   6.]
 [  5.   6.   7.   8.]]


您可以使用从0开始的索引来提取数组的特定部分，类似于如何处理python列表。<br>
但是与列表不同的是，numpy数组可以选择性地接受方括号中的许多参数，因为有多个维度。

In [72]:
# Extract the first 2 rows and columns
print(arr2.shape)
print('获取前两行数据')
print(arr2[:2])
print()
print(arr2[1:])
print()
print('arr2')
print(arr2)
print()
print('获取第一行的前两列数据')
print(arr2[:-1, :2])
print()
print(arr2[:, :2])
print()
print('下面的代码会出错')
print(list2)
print(list2[:2, :2])  # error

(3, 4)
获取前两行数据
[[101.   2.   3.   4.]
 [  3.   4.   5.   6.]]

[[3. 4. 5. 6.]
 [5. 6. 7. 8.]]

arr2
[[101.   2.   3.   4.]
 [  3.   4.   5.   6.]
 [  5.   6.   7.   8.]]

获取第一行的前两列数据
[[101.   2.]
 [  3.   4.]]

[[101.   2.]
 [  3.   4.]
 [  5.   6.]]

下面的代码会出错
[[1, 2, 3, 4], [3, 4, 5, 6], [5, 6, 7, 8]]


TypeError: list indices must be integers or slices, not tuple

另外，numpy数组支持布尔索引。<br>
一个布尔索引数组与数组被过滤的shape是相同的，它只包含True和False。与True positions相对应的值保留在输出中。

In [73]:
# Get the boolean output by applying the condition to each element.
b = arr2 > 4
print(arr2)
print()
print(b)

[[101.   2.   3.   4.]
 [  3.   4.   5.   6.]
 [  5.   6.   7.   8.]]

[[ True False False False]
 [False False  True  True]
 [ True  True  True  True]]


### 如何翻转行与整个数组?

翻转numpy的数组，如同如何操作python中的列表。<br>
但是如果需要完全翻转数组，则需要操作所有的Axies（维：Dimensions）

In [74]:
print(arr2)

[[101.   2.   3.   4.]
 [  3.   4.   5.   6.]
 [  5.   6.   7.   8.]]


><b>先回忆切片写法，如果这个不了解，下面的课程没法进行了</b>，比如:

<--回忆切片写法开始--->

In [76]:
mylist = [1, 2, 3, 4, 5, 6, 7, 8]
# 从第3个数，到第7个数，步长为2: 
# [开始:结束:步长]
#（索引从0开始，所以索引2为从3开始，根据要头去尾原则，事实上索引7只能取到7而不是8。）
print(mylist[2:7:2])
# [2, 7)

[3, 5, 7]


In [77]:
# 如果是对整个数组取步长为2的数，则可以省去开始与结束，直接这样写：
print(mylist[::2])

[1, 3, 5, 7]


In [80]:
# 翻转列表的写法，将步长设置为-1即可
print(mylist[::-1])

[8, 7, 6, 5, 4, 3, 2, 1]


仅仅翻转行,即1 2 3 ... n行数据，变成n ... 3 2 1：

<--回忆切片写法结束--->

In [83]:
print(arr2)
print('翻转')
print(arr2[::-1,])

[[101.   2.   3.   4.]
 [  3.   4.   5.   6.]
 [  5.   6.   7.   8.]]
翻转
[[  5.   6.   7.   8.]
 [  3.   4.   5.   6.]
 [101.   2.   3.   4.]]


翻转行与列数据：

In [85]:
print(arr2)
print()
print(arr2[::-1, ::-1])

print('矩阵转置')
print(arr2.T)

[[101.   2.   3.   4.]
 [  3.   4.   5.   6.]
 [  5.   6.   7.   8.]]

[[  8.   7.   6.   5.]
 [  6.   5.   4.   3.]
 [  4.   3.   2. 101.]]
矩阵转置
[[101.   3.   5.]
 [  2.   4.   6.]
 [  3.   5.   7.]
 [  4.   6.   8.]]


### 如何表示缺失的值，以及无穷大？

缺失的值，可以通过```np.nan```对象表示，而无穷大可以用```np.inf```对象表示。如例：

In [86]:
print(arr2)
# insert a nan and an inf
arr2[1, 1] = np.nan # not a number
arr2[1, 2] = np.inf # ininite
print(arr2)

[[101.   2.   3.   4.]
 [  3.   4.   5.   6.]
 [  5.   6.   7.   8.]]
[[101.   2.   3.   4.]
 [  3.  nan  inf   6.]
 [  5.   6.   7.   8.]]


In [87]:
# replace nan and inf with -1. Don't use arr2 == np.nan
missing_bool = np.isnan(arr2) | np.isinf(arr2)
print('missing_bool\n', missing_bool)
arr2[missing_bool] = -1
print(arr2)

missing_bool
 [[False False False False]
 [False  True  True False]
 [False False False False]]
[[101.   2.   3.   4.]
 [  3.  -1.  -1.   6.]
 [  5.   6.   7.   8.]]


### 如何通过ndarray计算均值，最小值，最大值？

ndarray有丰富的方法，进行常用的统计运算。

In [88]:
# mean, max and min
print('Mean value is: ', arr2.mean())
print('Max value is: ', arr2.max())
print('Min value is: ', arr2.min())

Mean value is:  11.916666666666666
Max value is:  101.0
Min value is:  -1.0


然而，如果想基于行或者列为单位，计算最小值，可以使用np.amin版本

In [91]:
print(arr2)
# Row wise and column wise min
print('Column wise minimum: ', np.amin(arr2, axis=0))
print('Row wise minimum: ', np.amin(arr2, axis=1))

[[101.   2.   3.   4.]
 [  3.  -1.  -1.   6.]
 [  5.   6.   7.   8.]]
Column wise minimum:  [ 3. -1. -1.  4.]
Row wise minimum:  [ 2. -1.  5.]


In [92]:
# Row wise and column wise max
print('Column wise maximum: ', np.amax(arr2, axis=0))
print('Row wise maximum: ', np.amax(arr2, axis=1))

Column wise maximum:  [101.   6.   7.   8.]
Row wise maximum:  [101.   6.   8.]


计算最小的行是可以的。但是如果你想要做其他的计算/函数行呢？它可以用np.apply_over_axis来完成。这个将在未来的topic中进行演示

In [95]:
print(arr2)
# 计算累加和|
print(np.cumsum(arr2))

[[101.   2.   3.   4.]
 [  3.  -1.  -1.   6.]
 [  5.   6.   7.   8.]]
[101. 103. 106. 110. 113. 112. 111. 117. 122. 128. 135. 143.]


## 如何通过已经存在的array创建新的array？

如果你只是将数组的一部分分配给另一个数组，你刚刚创建的新数组实际上是指内存中的父数组。<br>
这意味着，如果你对新数组做了任何改动，它也会反映在父数组中。<br>
因此，为了避免修改父数组，您需要使用copy（）复制它。所有numpy数组都带有copy（）方法。<br>
如下面的例子所示，修改了所谓的子array，父array的相应的值，也被更新了。

In [108]:
# Assign portion of arr2 to arr2a. Doesn't really create a new array.
print(arr2)
arr2a = arr2[:2,:2]  
print('arr2a\n')
print(arr2a)
print('arr2a[0]')
print(type(int(arr2a[0][0])))
print(type(arr2a[0, 0]))
print(type(arr2a[:1, :1]))
# arr2a[0, 0] = 100
arr2a[:1, :1] = 100  # 100 will reflect in arr2
print('arr2a\n')
print(arr2a)
print('arr2\n')
print(arr2)

[[100.   2.   3.   4.]
 [  3.  -1.  -1.   6.]
 [  5.   6.   7.   8.]]
arr2a

[[100.   2.]
 [  3.  -1.]]
arr2a[0]
<class 'int'>
<class 'numpy.float64'>
<class 'numpy.ndarray'>
arr2a

[[100.   2.]
 [  3.  -1.]]
arr2

[[100.   2.   3.   4.]
 [  3.  -1.  -1.   6.]
 [  5.   6.   7.   8.]]


下面演示真正的copy方法, 可以发现arr2b的成员操作已经不再影响arr2了：

In [109]:
# Copy portion of arr2 to arr2b
arr2b = arr2[:2, :2].copy()
print('arr2b\n')
print(arr2b)
arr2b[:1, :1] = 101  # 101 will not reflect in arr2
print('arr2b\n')
print(arr2b)
print('arr2\n')
print(arr2)

arr2b

[[100.   2.]
 [  3.  -1.]]
arr2b

[[101.   2.]
 [  3.  -1.]]
arr2

[[100.   2.   3.   4.]
 [  3.  -1.  -1.   6.]
 [  5.   6.   7.   8.]]


## Reshaping与Flattening多维数组

Reshaping的目的是改变物品的排列方式，使矩阵的形状发生变化，同时保持相同数量的维度。<br>
然而，Flattening(扁平化)将把一个多维数组转换成一个平面的一维数组。而不是其他形状。<br>
首先，尝试把arr2数组从3x4 reshape为4x3数组。

In [110]:
print('original arr2: \n')
print(arr2)

original arr2: 

[[100.   2.   3.   4.]
 [  3.  -1.  -1.   6.]
 [  5.   6.   7.   8.]]


In [111]:
print('Reshaped arr2: \n')
print(arr2.reshape(4, 3))

Reshaped arr2: 

[[100.   2.   3.]
 [  4.   3.  -1.]
 [ -1.   6.   5.]
 [  6.   7.   8.]]


In [112]:
print('Flatten arr2: \n')
print(arr2.flatten())

Flatten arr2: 

[100.   2.   3.   4.   3.  -1.  -1.   6.   5.   6.   7.   8.]


### Flatten与Ravel的区别是什么？

有两种流行的方法来实现扁平化。这是使用```flatten()```方法，另一个使用```ravel()```方法。
<br><b>Ravel和Flatten之间的区别在于，使用Ravel创建的新数组实际上是对父数组的引用。</b>所以，对新数组的任何修改都会影响到父节点。但是，内存被有效利用的，因为它没有创建副本。<br>

In [113]:
# Flatten的示例
b1 = arr2.flatten()
b1[0] = 88
print('b1:')
print(b1)
print('对b1的修改没有影响到arr2本身')
print()
print('arr2:')
print(arr2)

b1:
[88.  2.  3.  4.  3. -1. -1.  6.  5.  6.  7.  8.]
对b1的修改没有影响到arr2本身

arr2:
[[100.   2.   3.   4.]
 [  3.  -1.  -1.   6.]
 [  5.   6.   7.   8.]]


In [114]:
# Ravel的示例
b2 = arr2.ravel()
b2[0] = 101
print('b2:')
print(b2)
print()
print('对b2的修改影响到arr2本身')
print()
print('arr2:')
print(arr2)

b2:
[101.   2.   3.   4.   3.  -1.  -1.   6.   5.   6.   7.   8.]

对b2的修改影响到arr2本身

arr2:
[[101.   2.   3.   4.]
 [  3.  -1.  -1.   6.]
 [  5.   6.   7.   8.]]


<font color='red'><b>第七章将介绍掌握linspace, logspace, random的方法，对于机器学习中需要自动生成一批数据的场景，非常有用</b></font>

## 如何通过numpy创建sequences, repetitions与random numbers？

```np.arrange```函数可以作为ndarray对象，创建数字sequences

In [116]:
# Lower limit is 0 be default
print(np.arange(5))  

# 0 to 9
print(np.arange(0, 10))  

# 0 to 9 with step of 2
print(np.arange(0, 10, 2))  

# 10 to 1, decreasing order
print(np.arange(10, 0, -1))

[0 1 2 3 4]
[0 1 2 3 4 5 6 7 8 9]
[0 2 4 6 8]
[10  9  8  7  6  5  4  3  2  1]


可以使用```np.arange```来设置起始和结束位置。但是如果将注意力集中在矩阵中的item数量上，将不得不手动计算适当的step值。
比如说，想要在1到50之间创建一个10个数字的数组，你能计算出step的值是多少吗？
这里可以使用```np.linspace```解决手动计算step的问题。
Linespace对于构建虚拟数据，非常使用

In [2]:
import numpy as np
# start at 1 and end at 50
print(np.linspace(start=1, stop=50, num=10, dtype=float))

[ 1.          6.44444444 11.88888889 17.33333333 22.77777778 28.22222222
 33.66666667 39.11111111 44.55555556 50.        ]


注意，由于显式地强迫dtype为int，所以由于四舍五入，数字不是等距的。
类似于```np.linspace```，也有```np.logspace```，只是成员是按照对数方法增长。在```np.logspace```，base是幂的基底，默认值是10，所以开始点和结束点是10的幂，start为1代表10的1次方，stop为50代表10的50次方，num为10代表需要从start与end之间取10个数。我们看下面的例子。

In [117]:
# Limit the number of digits after the decimal to 2
np.set_printoptions(precision=2)  

# Start at 10^1 and end at 10^50
print(np.logspace(start=1, stop=50, num=10, base=10))

[1.00e+01 2.78e+06 7.74e+11 2.15e+17 5.99e+22 1.67e+28 4.64e+33 1.29e+39
 3.59e+44 1.00e+50]


下面的例子，是幂的基底是2的例子, 即start为2^1 = 2, end为2^10 = 1024，并取区间的10个数：

In [118]:
print(np.logspace(start=1, stop=10, num=10, base=2))

[   2.    4.    8.   16.   32.   64.  128.  256.  512. 1024.]


```np.zeros```和```np.ones```，可以创建所需形状的数组，其中所有的项都是0或1。

In [119]:
print('np.zeros的用法: \n')
print(np.zeros([2, 2]))
print('\n')
print('np.ones的用法: \n')
print(np.ones([2, 2]))

np.zeros的用法: 

[[0. 0.]
 [0. 0.]]


np.ones的用法: 

[[1. 1.]
 [1. 1.]]


### 如何创建重复的sequences？

```np.tile```将整个列表或数组重复n遍。<br>
然而，```np.repeat```的用途是重复每个item n遍。

In [62]:
a = [1, 2, 3]
# Repeat whole of 'a' two times
# 单位是矩阵本身
print('Tile:   ', np.tile(a, 2))

# Repeat each element of 'a' two times
# 单位是矩阵中的每个item
print('Repeat: ', np.repeat(a, 2))

Tile:    [1 2 3 1 2 3]
Repeat:  [1 1 2 2 3 3]


### 如何生成随机数？

```random``` 模块提供了很好的方法，可以生成任意给定shape的随机数（包括统计学中的随机分布）

In [120]:
# Random numbers between [0,1) of shape 2,2
print('随机2x2数组：\n')
print(np.random.rand(2,2))
print('\n')
# the Normal distribution with mean=0 and variance=1 of shape 2,2
print('随机2x2正态分布数组：\n')
print(np.random.randn(2,2))
print('\n')
# Random integers between [0, 10) of shape 2,2
print('随机2x2，位于0-10之间的整数数组：\n')
print(np.random.randint(0, 10, size=[2,2]))
print('\n')
# One random number between [0,1)
print('随机数，位于0~1之间的浮点数：\n')
print(np.random.random())
print('\n')
# Random numbers between [0,1) of shape 2,2
print('随机2x2，位于0~1之间的浮点数：\n')
print(np.random.random(size=[2,2]))
print('\n')
# Pick 10 items from a given list, with equal probability
print('随机10个字母，且范围为a, e, i, o, u：\n')
print(np.random.choice(['a', 'e', 'i', 'o', 'u'], size=10))  
print('\n')
# Pick 10 items from a given list with a predefined probability 'p'
print('随机10个字母，范围为a, e, i, o, u, 且每个字母的出现概率已经给定（p参数的和应该为1）：\n')
print(np.random.choice(['a', 'e', 'i', 'o', 'u'], size=100, p=[0.3, 0.1, 0.1, 0.4, 0.1])) 

随机2x2数组：

[[0.48 0.41]
 [0.13 0.68]]


随机2x2正态分布数组：

[[ 0.23 -0.95]
 [-0.06 -0.04]]


随机2x2，位于0-10之间的整数数组：

[[5 8]
 [0 2]]


随机数，位于0~1之间的浮点数：

0.29623829271919755


随机2x2，位于0~1之间的浮点数：

[[0.49 0.79]
 [0.32 0.03]]


随机10个字母，且范围为a, e, i, o, u：

['i' 'e' 'i' 'i' 'a' 'o' 'u' 'o' 'o' 'a']


随机10个字母，范围为a, e, i, o, u, 且每个字母的出现概率已经给定（p参数的和应该为1）：

['i' 'e' 'u' 'a' 'o' 'a' 'i' 'o' 'a' 'e' 'a' 'o' 'o' 'o' 'o' 'u' 'a' 'i'
 'a' 'e' 'i' 'o' 'a' 'e' 'o' 'e' 'a' 'a' 'a' 'a' 'u' 'o' 'o' 'a' 'e' 'o'
 'a' 'a' 'o' 'i' 'a' 'a' 'u' 'o' 'a' 'e' 'o' 'a' 'o' 'a' 'o' 'o' 'a' 'o'
 'o' 'u' 'e' 'o' 'o' 'o' 'o' 'o' 'a' 'o' 'u' 'o' 'u' 'o' 'o' 'u' 'o' 'u'
 'o' 'o' 'o' 'o' 'a' 'o' 'o' 'o' 'o' 'o' 'o' 'u' 'a' 'e' 'a' 'e' 'u' 'e'
 'o' 'a' 'o' 'o' 'e' 'i' 'a' 'e' 'o' 'a']


现在，每次运行上述函数时，都会得到一组不同的随机数。<br>
如果想每次都重复相同的随机数字，你需要设置种子或随机状态。这个可以是任何值。唯一的要求是，必须在每次想要生成相同的随机数集时，将种子设置为相同的值。<br>
一旦```np.random.RandomState```被创建，则所有的```np.random```模块对已创建的随机数对象可用。<br>
下面这两个例子是等价的

In [122]:
# Create the random state
rn = np.random.RandomState(99)

# Create random numbers between [0,1) of shape 2,2
print(rn.rand(2,2))

[[0.67 0.49]
 [0.83 0.03]]


In [124]:
# Set the random seed
np.random.seed(99)

# Create random numbers between [0,1) of shape 2,2
print(np.random.rand(2,2))

[[0.67 0.49]
 [0.83 0.03]]


### 如何获得唯一的items与counts?

如何获取矩阵中的唯一items以及各个item出现的频次呢？<br>
```np.unique```方法可以被用来获得唯一项。<br>
如果想对每个项目重复计数，请将```return_counts```参数设为True.

In [126]:
# Create random integers of size 10 between [0,10)
# 设置seed的目的，是确保每次执行都获得相同的随机数
np.random.seed(100)
arr_rand = np.random.randint(0, 10, size=10)
print(arr_rand)

[8 8 3 7 7 0 4 2 5 2]


In [127]:
# Get the unique items and their counts
uniqs, counts = np.unique(arr_rand, return_counts=True)
print("Unique items : ", uniqs)
print("Counts       : ", counts)

Unique items :  [0 2 3 4 5 7 8]
Counts       :  [1 2 1 1 1 2 2]


## Numpy中array和matrix用于矩阵乘法及其区别

在NumPy中，array用于表示通用的N维数组，matrix则特定用于线性代数计算。<br>
array和matrix都可以用来表示矩阵，二者在进行乘法操作时，有一些不同之处。

使用array时，运算\*用于计算数量积（点乘），函数```dot()```用于计算[矢量积（叉乘）](https://baike.baidu.com/item/%E7%9F%A9%E9%98%B5%E4%B9%98%E6%B3%95)，例子如下：

In [128]:
import numpy as np
a = np.array([[1, 2], 
              [3, 4]])
b = np.array([[5, 6], 
              [7, 8]])
print('矩阵a与b点乘的计算方法: \n')
print('1x5=5  2x6=12')
print('3x7=21 4x8=32')
print('a * b = \n', a * b)
print()
print('矩阵a与b叉乘的计算方法: \n')
print('1x5+2x7=19  1x4+2x8=22')
print('3x5+4x7=43  3x6+4x8=50')
print(a)
print(b)
print('np.dot(a, b) = \n', np.dot(a, b))

矩阵a与b点乘的计算方法: 

1x5=5  2x6=12
3x7=21 4x8=32
a * b = 
 [[ 5 12]
 [21 32]]

矩阵a与b叉乘的计算方法: 

1x5+2x7=19  1x4+2x8=22
3x5+4x7=43  3x6+4x8=50
[[1 2]
 [3 4]]
[[5 6]
 [7 8]]
np.dot(a, b) = 
 [[19 22]
 [43 50]]


可见，当a和b为array时， ```a * b``` 计算了a和b的数量积（对应Matlab的 ```a .* b``` ）， ```dot(a, b)``` 计算了a和b的矢量积（对应Matlab的 ```a * b``` ）

与array不同的是，使用matrix时，运算符 \* 用于计算矢量积，函数 ```multiply()``` 用于计算数量积，例子如：

In [129]:
a = np.mat('1 2; 3 4')
b = np.mat('5 6; 7 8')
print('a * b = \n', a * b)
print('np.multiply(a, b) = \n', np.multiply(a, b))

a * b = 
 [[19 22]
 [43 50]]
np.multiply(a, b) = 
 [[ 5 12]
 [21 32]]


可见，当a和b为matrix时， ```a * b``` 计算了a和b的矢量积， ```multiply(a, b)``` 计算了a和b的数量积。当使用matrix时，无论是生成矩阵还是计算，Numpy的风格和Matlab更加贴近，降低了语言切换时的负担。

## Numpy的其他简单矩阵用法

矩阵转置的方法很简单，使用T即可：

In [7]:
a = np.array([[1, 2], 
              [3, 4]])
a = a.T
print(a)

[[1 3]
 [2 4]]


创建所有值都是1的矩阵

In [8]:
print(np.ones((3, 2)))

[[1. 1.]
 [1. 1.]
 [1. 1.]]


创建所有值都是0的矩阵

In [9]:
print(np.zeros((2, 3)))

[[0. 0. 0.]
 [0. 0. 0.]]


创建3维单位矩阵：

In [10]:
print(np.eye(3))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


创建主对角线矩阵

In [11]:
y = np.array([4, 5, 6])
print(np.diag(y))

[[4 0 0]
 [0 5 0]
 [0 0 6]]
