# Numpy 入门及实践

## 0. Numpy 安装

通过如下方式可以方便安装Numpy：
```
pip install numpy
```
如果是windows系统，可以直接去这个网站: [Unofficial Windows Binaries for Python Extension Packages](https://www.lfd.uci.edu/~gohlke/pythonlibs/), 下载对应的numpy版本，如：numpy‑1.15.2+mkl‑cp36‑cp36m‑win_amd64.whl, 需要确认本地python版本，如果是3.6，那么下载这个即可。否则选择对应的版本组件。<br>
下载完成后还是通过pip安装:
```
pip install yourpath/numpy‑1.15.2+mkl‑cp36‑cp36m‑win_amd64.whl
```

## 1. Numpy 介绍

Numpy是在python中用于科学计算和数据操作的最基本和强大的包。<br>
如果你打算从事数据分析或机器学习项目，那么几乎必须了解numpy的使用方式。<br>
**numpy的许多函数不仅是用C实现了，还使用了BLAS（一般Windows下link到MKL的，Linux下link到OpenBLAS）。基本上那些BLAS实现在每种操作上都进行了高度优化，例如使用AVX向量指令集，甚至能比你自己用C实现快上许多，更不要说和用Python实现的比。**<br>
因为其他用于数据分析的包（比如Pandas）是建立在numpy之上的，而用于构建机器学习应用程序的scikit-learn包也同样适用于numpy。<br>
那么numpy提供了什么呢？<br>
在核心中，numpy提供了优秀的ndarray对象，而不是n维数组。<br>
在一个“ndarray”对象中，也就是“数组”，您可以存储同一数据类型的多个项目。它是array对象相关的基础设施，使得numpy非常方便地执行数学和数据操作。<br>
您可能想知道，“我可以在python列表中存储数字和其他对象，并通过列表、for循环等进行各种计算和操作。我需要一个numpy数组来做什么？”<br>
Well, 使用numpy数组的列表有非常重要的优势。<br>
为了理解这一点，让我们首先看看如何创建一个numpy数组。<br>

## 2. 如何创建numpy数组

创建一个numpy数组有多种方法，本文尽可能涵盖。<br>
然而，最常见的一种方法是传递一个列表或如同列表的对象，并以此通过```np.array```函数创建numpy数组。

In [2]:
import numpy as np
# 通过list创建np.array对象
samplelist = [0, 1, 2, 3, 4]
arrld = np.array(samplelist)

# 打印array与其对应的type
print(type(arrld))
print(arrld)

<class 'numpy.ndarray'>
[0 1 2 3 4]


数组和列表之间的关键区别在于，数组被设计用来处理矢量化操作，而python列表则不是

>### 附注：什么是向量？
在数学中，向量（也称为欧几里得向量、几何向量、矢量），指具有大小（magnitude）和方向的量。它可以形象化地表示为带箭头的线段。箭头所指：代表向量的方向；线段长度：代表向量的大小。与向量对应的只有大小，没有方向的量叫做数量（物理学中称标量）。<br>
如果用R<sup>n</sup>表示n个实数的有序集，Rn中的一个向量就是一个n元有序组，R<sup>n</sup> = {(x1, x2,……xn) | xi ∈ R}<br>
向量的记法：印刷体记作粗体的字母（如a、b、u、v），书写时在字母顶上加一小箭头“→”。如果给定向量的起点（A）和终点（B），可将向量记作  。实际上向量有多种记法，可以用元组表示一个向量，如 (x1, x2) 或 < x1, x2>。在线性代数中，n元向量可以用n×1矩阵表示，如：

<img src='./image/vector.png' />

这意味着，如果你应用一个函数，它会在数组中的每一个item上执行，而不是在整个数组对象上执行。<br>
假设想要将列表中的每一项都+2, 直观的方法是这样的：

In [3]:
# 这个操作会报错
samplelist = samplelist + 2

TypeError: can only concatenate list (not "int") to list

但是可以通过ndarray完成这个操作：

In [4]:
print(arrld + 2)

[2 3 4 5 6]


另一个特点是，一旦创建了numpy数组，就不能扩展它的大小。<br>
要做到这一点，您必须创建一个新的数组。但是这种扩展大小的行为在列表中是很自然的。<br>
这就是numpy中的1d数组，这个看似很简单。<br>
不过还可以通过一个复合列表来创建一个类似于2d数组的矩阵。<br>
注意打印list与打印ndarray的显示区别，numpy的ndarray其实是矩阵的概念

In [6]:
# 根据复合列表创建2d array
list2d = [[0, 1, 2], [3, 4, 5], [6, 7, 8]]
print(list2d)
arr2d = np.array(list2d)
print(arr2d)

[[0, 1, 2], [3, 4, 5], [6, 7, 8]]
[[0 1 2]
 [3 4 5]
 [6 7 8]]


你也可以通过设置dtype参数来指定数据类型。一些最常用的numpy dtype是：“float”、“int”、“bool”、“str”和“object”。<br>
为了控制内存分配，你可以选择使用“float32”、“float64”、“int8”、“int16”或“int32”。

In [10]:
# Create a float 2d array
arr2d_f = np.array(list2d, dtype='float')
print(arr2d_f)

[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]


每个数字后面的小数点表示浮动数据类型，还可以使用astype方法将其转换为不同的数据类型。

In [12]:
# Convert to 'int' datatype
arr2d_i = arr2d_f.astype('int')

print(arr2d_i)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [13]:
# Convert to int then to str datatype
arr2d_s = arr2d_f.astype('int').astype('str')
print(arr2d_s)

[['0' '1' '2']
 ['3' '4' '5']
 ['6' '7' '8']]


一个numpy数组必须具有相同数据类型的所有条目，这是与列表相比，另一个显著的区别。<br>
但是，如果不确定数组将持有何种数据类型，或者想要在同一个数组中共存字符和数字，可以将dtype设置为“object”。

In [14]:
# Create a boolean array
arr2d_b = np.array([1, 0, 10], dtype='bool')
print(arr2d_b)

[ True False  True]


In [15]:
arr1d_obj = np.array([1, 'a'], dtype='object')
print(arr1d_obj)

[1 'a']


最终，可以通过```tolist()```方法，将numpy的ndarray对象，转换回python的list对象

In [16]:
print(arr1d_obj.tolist())

[1, 'a']


以下是numpy的数组(ndarray)与python list的主要区别：
>* ndarray支持矢量化操作，而list则不支持。
* 一旦创建了ndarray，就不能改变它的大小。将不得不创建一个新的ndarray或覆盖现有的ndarray。
* 每个ndarray都有一个且只有一个dtype。所有的items都应该是dtype。
* 一个等价的numpy ndarray占用的空间比python列表的要少得多。

## 3. 如何检查numpy array的大小和形状？

每个数组都有一些我想要理解的属性，以便了解数组。<br>
让我们考虑一下刚刚创建的2维数组。因为它是由2维列表创建的，所以它有两个维度，可以显示为行和列，就像在矩阵中一样。<br>
如果我从3维列表创建数组，它会有三个维度，就像在一个立方体中一样。等等。<br>
让我们假设你得到了一个不是你亲自创建的numpy向量。为了了解这个数组，你想要探索的是什么？<br>
好吧，我想知道：
* 它有多少维度：1维，2维，...，n维(ndim)
* 每个dimension（shape）有多少items
* 它的数据类型（dtype）是什么？
* 它的总数量（size）是多少？
* 数组中的前几个items（通过索引）的样本

In [24]:
# Create a 2d array with 3 rows and 4 columns
list2 = [[1, 2, 3, 4],[3, 4, 5, 6], [5, 6, 7, 8]]
arr2 = np.array(list2, dtype='float')
print(arr2)
# shape
print('Shape: ', arr2.shape)

# dtype
print('Datatype: ', arr2.dtype)

# size
print('Size: ', arr2.size)

# ndim
print('Num Dimensions: ', arr2.ndim)

[[1. 2. 3. 4.]
 [3. 4. 5. 6.]
 [5. 6. 7. 8.]]
Shape:  (3, 4)
Datatype:  float64
Size:  12
Num Dimensions:  2


In [25]:
# Create a 3d array
list3 = [[[1, 2], [3, 4]],[[3, 4], [5, 6]], [[5, 6], [7, 8]]]
arr3 = np.array(list3, dtype='float')
print(arr3)
# shape
print('Shape: ', arr3.shape)

# dtype
print('Datatype: ', arr3.dtype)

# size
print('Size: ', arr3.size)

# ndim
print('Num Dimensions: ', arr3.ndim)

[[[1. 2.]
  [3. 4.]]

 [[3. 4.]
  [5. 6.]]

 [[5. 6.]
  [7. 8.]]]
Shape:  (3, 2, 2)
Datatype:  float64
Size:  12
Num Dimensions:  3


## 4. 如何从一个array中抽取特定的items？

以arr2为例：

In [26]:
print(arr2)

[[1. 2. 3. 4.]
 [3. 4. 5. 6.]
 [5. 6. 7. 8.]]


您可以使用从0开始的索引来提取数组的特定部分，类似于如何处理python列表。<br>
但是与列表不同的是，numpy数组可以选择性地接受方括号中的许多参数，因为有多个维度。

In [31]:
# Extract the first 2 rows and columns
# 获取前两行数据
print(arr2[:2])
print()
# 获取前两行的前两列数据
print(arr2[:2, :2])
print(list2[:2, :2])  # error

[[1. 2. 3. 4.]
 [3. 4. 5. 6.]]

[[1. 2.]
 [3. 4.]]


TypeError: list indices must be integers or slices, not tuple

另外，numpy数组支持布尔索引。<br>
一个布尔索引数组与数组被过滤的shape是相同的，它只包含True和False。与True positions相对应的值保留在输出中。

In [33]:
# Get the boolean output by applying the condition to each element.
b = arr2 > 4
print(arr2)
print()
print(b)

[[1. 2. 3. 4.]
 [3. 4. 5. 6.]
 [5. 6. 7. 8.]]

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]
