## Numpy 简介

NumPy提供：
1. ndarray a fast and space-efficient multidimensional array providing vectorised arithmetic operations.
2. Standard mathematical functions for fast operations on entire arrays of data without having to write loops

推荐使用：
1. Jupyter lab
2. DateSpell

Jupyter lab的安装如下所示：

```
pip3 install jupyterlab

或者

pip3 install jupyter lab
```

尝试：

In [26]:
import numpy as np

In [27]:
a = np.random.randn(100, 100)
a

array([[-0.07891874,  0.78938362, -0.33541227, ...,  0.23910571,
        -0.5866038 , -0.92288851],
       [ 2.23545344, -0.06088618, -0.00391163, ...,  0.70872209,
         0.14181362,  0.73657529],
       [-0.28162945, -0.68051181,  0.14560061, ...,  0.98042239,
        -2.4515131 , -0.49220573],
       ...,
       [-0.94968552,  0.93109803,  1.62911962, ...,  1.79095273,
         0.67157995, -1.23140163],
       [-0.77461476, -1.30662592,  0.49951389, ...,  0.29512791,
        -0.41851734, -1.31449001],
       [-1.25507898, -1.38611469, -0.01628899, ...,  0.56395129,
         0.67345438, -1.58738342]])

In [28]:
%timeit np.dot(a, a)

42.6 µs ± 503 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


## The Numpy ndarray

In [29]:
import numpy as np
data = np.array([[1, 2, 3], [4, 5, 6]])  # array传入的是一个列表，列表中嵌套列表

In [30]:
data

array([[1, 2, 3],
       [4, 5, 6]])

In [31]:
type(data)

numpy.ndarray

In [32]:
data * 10  # numpy提供广播机制

array([[10, 20, 30],
       [40, 50, 60]])

In [33]:
data

array([[1, 2, 3],
       [4, 5, 6]])

In [34]:
data + data

array([[ 2,  4,  6],
       [ 8, 10, 12]])

访问第一个row：

In [35]:
data[0]

array([1, 2, 3])

访问第一个row中的第一个元素：

In [36]:
data[0][0]

1

访问最后一个row：

In [37]:
data[-1]

array([4, 5, 6])

最后一个row的最后一个column的元素：

In [38]:
data[-1][-1]

6

我们可以使用shape来确定ndarray的形状：

In [39]:
data.shape  # 这回返回一个tuple

(2, 3)

dtype则可以确定ndarray中的元素的类型：

In [40]:
data.dtype

dtype('int32')

Int32 值类型表示值介于-2,147,483,648 到+2,147,483,647 之间的有符号整数。 Int64 值类型表示值介于-9,223,372,036,854,775,808 到+9,223,372,036,854,775,807 之间的整数。2015年9月25日

In [41]:
data_int64 = np.array([[1232132132654541, 21321561], [1234124, 12341341]])

In [42]:
data_int64.dtype

dtype('int64')

In [43]:
type(data)

numpy.ndarray

In [44]:
data.ndim  # ndim的意思是n dimension

2

## 几种便捷的创建

创建指定数量的0组成的narray：

In [45]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

同理，创建指定数量1组成的narray：

In [46]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

创建从0到指定数字（不包括）的narray：

In [47]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

使用empty：

In [53]:
np.empty((2, 3, 2))  # 创建两个matrix，行数为3，列数为2，内容是随机的

array([[[8.15484023e-312, 3.16202013e-322],
        [0.00000000e+000, 0.00000000e+000],
        [1.16709769e-312, 1.08605898e-071]],

       [[4.19796923e+175, 8.83986218e+165],
        [4.16072155e-061, 9.77203593e+165],
        [4.46755556e-033, 1.40415688e+165]]])

In [52]:
np.empty((2, 3, 3))  # 创建两个matrix，行数为3，列数为3

array([[[0.07891874, 0.78938362, 0.33541227],
        [0.23910571, 0.5866038 , 0.92288851],
        [2.23545344, 0.06088618, 0.00391163]],

       [[0.70872209, 0.14181362, 0.73657529],
        [0.28162945, 0.68051181, 0.14560061],
        [0.98042239, 2.4515131 , 0.49220573]]])

一些常用的创建函数：

![image.png](attachment:47e7c3cb-db64-477c-9f9a-b51c35ac53eb.png)

NumPy的Data types:

![image.png](attachment:39082197-ce06-4e7e-a903-608898cad06c.png)

![image.png](attachment:0ee1c6e5-e8e8-46e0-867b-2a9eb7dfeb8c.png)

## NumPy 类型转换

我们首先来创建一个int32类型的narray：

In [54]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [55]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In [60]:
arr_float = np.array([1.1, 2.2, 3.3, 5.6, -6.6, -7.7])
arr_float

array([ 1.1,  2.2,  3.3,  5.6, -6.6, -7.7])

In [63]:
arr_float.astype(np.int32)

array([ 1,  2,  3,  5, -6, -7])

可以发现float转换为int32的时候，会直接去除小数部分而不是进行四舍五入。

In [64]:
str_narr = np.array(["1.1", "3.2", "6.5"])

In [67]:
str_narr.dtype

dtype('<U3')

In [68]:
str_narr.astype(float)

array([1.1, 3.2, 6.5])

## 序数

1D narray中的序数：

In [71]:
arr_1d = np.arange(10)

In [72]:
arr_1d

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [73]:
arr_1d[0]

0

In [74]:
arr_1d[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [75]:
arr_1d[4:6]

array([4, 5])

接着我们来尝试2D narray：

![image.png](attachment:94ec29bd-5923-49e0-bdde-4b7edaf66c31.png)

In [76]:
arr_2d = np.arange(9).reshape(3, 3)

In [77]:
arr_2d

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [80]:
# 获得第一个row
arr_2d[0]

array([0, 1, 2])

In [79]:
# 获得最后一个row
arr_2d[-1]

array([6, 7, 8])

In [81]:
# 获得第一个column
arr_2d[:,0]

array([0, 3, 6])

In [82]:
# 获得最后一个column
arr_2d[:, -1]

array([2, 5, 8])

In [83]:
# 截取子matrix
arr_2d[0:2, 0:2]

array([[0, 1],
       [3, 4]])

In [87]:
# 或者非连续元素作子matrix
arr_2d[::2, ::2]

array([[0, 2],
       [6, 8]])

当nD的n超过2的时候：

In [95]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]], [[9, 8, 7], [4, 5, 6], [3, 2, 1]]])

In [96]:
arr3d

array([[[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]],

       [[9, 8, 7],
        [4, 5, 6],
        [3, 2, 1]]])

In [97]:
arr3d.shape

(2, 3, 3)

两个3 * 3。

In [99]:
arr3d[0]  # 获得第一个

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [100]:
arr3d[1]

array([[9, 8, 7],
       [4, 5, 6],
       [3, 2, 1]])

In [101]:
# 将第一个全部修改为 14
arr3d[0] = 14

In [102]:
arr3d

array([[[14, 14, 14],
        [14, 14, 14],
        [14, 14, 14]],

       [[ 9,  8,  7],
        [ 4,  5,  6],
        [ 3,  2,  1]]])

![image.png](attachment:a6565da0-6b26-497b-b3d2-717b455e202f.png)

## NumPy中的boolean indexing

我们首先来创建这样的一个narray：

In [113]:
names = np.array(['Belinda', 'Malgorzata', 'John','Belinda', 'John', 'Jasper', 'Jasper'])

In [114]:
names

array(['Belinda', 'Malgorzata', 'John', 'Belinda', 'John', 'Jasper',
       'Jasper'], dtype='<U10')

In [115]:
names == "Belinda"

array([ True, False, False,  True, False, False, False])

可以发现numpy的广播机制依旧是成立的，numpy会将array中的每一个元素都和Banab这个单词进行比较，并且返回一个narray类型的布尔值作为结果。

In [116]:
colours = np.array(['green','red','blue','yellow','brown','green','purple'])

In [117]:
colours[names == "Belinda"]

array(['green', 'yellow'], dtype='<U6')

当True和False作为一个narray的index的时候，对应位置如果为True，则这个位置的元素会被保留，否则会被去除。

In [124]:
colours[names != "Belinda"]

array(['red', 'blue', 'brown', 'green', 'purple'], dtype='<U6')

## NumPy 花式索引

In [134]:
arr = np.arange(32).reshape((8, 4))

In [135]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [136]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

将行为1,5,7,2中对应的列为0,3,1,2的元素提取出来。

![image.png](attachment:ad59707b-190a-4dc6-a85a-47d43c752567.png)

In [137]:
arr = np.arange(11)

In [138]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [139]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ,
       3.16227766])

In [140]:
x = y = np.random.randn(8)

In [141]:
x

array([-0.29773052, -0.40957874, -0.57552343,  1.78800117,  2.16227467,
       -1.16210593, -0.824855  ,  1.10518768])

In [142]:
y

array([-0.29773052, -0.40957874, -0.57552343,  1.78800117,  2.16227467,
       -1.16210593, -0.824855  ,  1.10518768])

In [143]:
np.add(x, y)

array([-0.59546103, -0.81915749, -1.15104686,  3.57600233,  4.32454935,
       -2.32421185, -1.64971   ,  2.21037536])

In [144]:
x + y

array([-0.59546103, -0.81915749, -1.15104686,  3.57600233,  4.32454935,
       -2.32421185, -1.64971   ,  2.21037536])

In [147]:
arr = np.random.randn(7) * 5

In [148]:
arr

array([-3.42037667,  1.67335594,  0.2966345 ,  0.23916962,  7.84263606,
        7.33801389,  0.13509792])

In [149]:
np.modf(arr)

(array([-0.42037667,  0.67335594,  0.2966345 ,  0.23916962,  0.84263606,
         0.33801389,  0.13509792]),
 array([-3.,  1.,  0.,  0.,  7.,  7.,  0.]))

Unary ufuncs：

![image.png](attachment:8dccbffc-1144-4149-9d51-49ca66ffac9c.png)

Binary ufuncs：

![image.png](attachment:04bb4354-6f7d-4c15-8d73-5375e1a93450.png)

## Conditional Logic

numpy.where：

In [150]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
xarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])

cond = np.array([True, False, True, True, False])

**这部分需要回过头来看**

**❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤❤**

## Array的一些常用的函数

In [156]:
arr = np.random.randn(5, 4)

In [157]:
arr

array([[ 1.11454041, -1.16511225, -1.19267083,  2.56585302],
       [ 0.78498296,  0.17099745, -1.00742978,  0.79639151],
       [ 0.34336172,  0.29349804, -0.54588145, -0.06340538],
       [ 0.24202418,  1.54375762,  0.10854574,  0.99479306],
       [ 1.37952807, -2.0434616 , -0.60356037,  0.44688967]])

In [161]:
arr.mean()  # 整个array的值

0.20818208996706425

In [162]:
arr.mean(axis=1)  # 每一列的平均值

array([ 0.33065259,  0.18623554,  0.00689323,  0.72228015, -0.20515106])

In [163]:
arr = np.random.randn(100)
(arr > 0).sum()  # 所有的大于0的值的总和

50

In [165]:
bools = np.array([False, False, True, False])
bools.any()  # 如果array中有任意一个值是True

True

In [166]:
bools.all()  # 如果所有的值都是True

False

## Random Number Generation

In [172]:
samples = np.random.normal(size=(4, 4))

In [173]:
from random import normalvariate

In [174]:
N = 1000000

In [176]:
%timeit np.random.normal(size=N)

15 ms ± 111 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


numpy的random中的：

![image.png](attachment:ab20f01c-f592-4562-aee8-3de7147f026c.png)