## NumPy Basics: arrays

In [1]:
import numpy as np


In [2]:
array1 = np.array([1,2,3,4])
print(type(array1))

<class 'numpy.ndarray'>


In [3]:
array1 += 1
array1

array([2, 3, 4, 5])

这样就解决了list格式的数据无法直接通过`+= 1`来递增的问题。

In [4]:
array = [1, 2, 3, 4, 5]
array += 1

TypeError: 'int' object is not iterable

NumPy将很多有用的函数封装，这样方便做一些数据处理。

NumPy的array在需要时会对数据做一个自动的转型。自上而下转型。比如，列表里有1，2，3，4，5.0时列表类型为Int，但是，array会把所有数据类型转化为float。可以在下面的代码里再试试转换成为'5'。

In [5]:
import numpy as np
list = [1, 2, 3, 4, 5]
pu_array = np.array(list)
pu_array

array([1, 2, 3, 4, 5])

In [6]:
pu_array.dtype

dtype('int32')

## 一些属性

`dtype` describes the data type of the array

In [7]:
pu_array.itemsize

4

In [8]:
pu_array.shape

(5,)

表示现在构造的是一个一维数组，一共是5*1个元素

In [9]:
pu_array.size

5

这个表示的含义就是数组里有多少元素就打印该值，不考虑一维还是二维。下面是另一种写法。

In [10]:
np.size(pu_array)

5

In [11]:
np.shape(pu_array)

(5,)

ndim表示这个数组是几维

In [12]:
pu_array.ndim

1

fill用作填充

In [13]:
pu_array.fill(0)
pu_array

array([0, 0, 0, 0, 0])

索引和切片:与Python相同都是从零开始

In [14]:
pu_list = [1,2,3,4,5]
pu_array = np.array(pu_list)
pu_array


array([1, 2, 3, 4, 5])

In [15]:
pu_array[1:3]

array([2, 3])

In [16]:
pu_array[-2:]

array([4, 5])

矩阵格式（多维的格式）

In [17]:
pu_array = np.array([[1,2,3], [4,5,6], [7,8,9]])
pu_array

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [18]:
pu_array.shape

(3, 3)

In [19]:
pu_array.dtype

dtype('int32')

In [20]:
pu_array.size

9

In [21]:
pu_array.ndim

2

In [22]:
pu_array[1,2]  # 直接取第几行第几个。先是第一维什么位置，再是第二维，然后是行，最后是列

6

In [23]:
pu_array[1,2] = 10  # 赋值
pu_array

array([[ 1,  2,  3],
       [ 4,  5, 10],
       [ 7,  8,  9]])

In [24]:
pu_array[1]  # 取一行

array([ 4,  5, 10])

In [25]:
pu_array[:, 1]  # 取一列。[:]切片中这个表示的含义是从第一个到最后一个，那么[:,1]就是每一行的第二个，合起来就是第二列

array([2, 5, 8])

In [26]:
pu_array[0, 0:2]

array([1, 2])

和python一样，也可以有two references

In [27]:
pu_array2 = pu_array
pu_array2[1, 1] = 100
pu_array2

array([[  1,   2,   3],
       [  4, 100,  10],
       [  7,   8,   9]])

In [28]:
pu_array

array([[  1,   2,   3],
       [  4, 100,  10],
       [  7,   8,   9]])

但如果我不想要这种two references，我希望他俩一是一二是二的话，需要copy这个方法

In [29]:
pu_array2 = pu_array.copy()
pu_array2

array([[  1,   2,   3],
       [  4, 100,  10],
       [  7,   8,   9]])

In [31]:
pu_array2[1,1] = 1000000
pu_array2

array([[      1,       2,       3],
       [      4, 1000000,      10],
       [      7,       8,       9]])

In [32]:
pu_array

array([[  1,   2,   3],
       [  4, 100,  10],
       [  7,   8,   9]])

构造等差数组

In [34]:
pu_array = np.arange(0, 100, 10)  # 左闭右开的区间
pu_array

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

构造布尔值

In [38]:
mask = np.array([0, 0, 0, 1, 2, 4, 1, 0, 1, 0], dtype=bool)  # 小于1都是false, 大于等于1都是true
mask

array([False, False, False,  True,  True,  True,  True, False,  True,
       False])

两者联动就是一种特殊的切片，布尔类型可以用来做索引

In [39]:
pu_array[mask]

array([30, 40, 50, 60, 80])

这种布尔类型的数组用处很多。下面是一个列子：

In [45]:
random_array = np.random.rand(10)
random_array

array([0.39563886, 0.14645575, 0.3825322 , 0.23210815, 0.26052263,
       0.88349332, 0.49507843, 0.18101065, 0.42703839, 0.007042  ])

In [46]:
mask = random_array > 0.5
mask

array([False, False, False, False, False,  True, False, False, False,
       False])

用where方法来索引

In [50]:
pu_array = np.array([10, 20, 30, 40, 50])
pu_array > 30

array([False, False, False,  True,  True])

In [51]:
np.where(pu_array > 30)

(array([3, 4], dtype=int64),)

可见where方法会导出一个索引。当然可以用这个索引来切片

In [52]:
pu_array[np.where(pu_array > 30)]

array([40, 50])

指定数组类型

In [62]:
pu_array = np.array([1,2,3,4,5], dtype=np.float32)
pu_array




array([1., 2., 3., 4., 5.], dtype=float32)

In [63]:
pu_array.dtype

dtype('float32')

In [64]:
pu_array.nbytes

20

32bit占用四个Bytes，然后五个元素，一共二十个字节。因此一般用float32，为了省空间。

这是一种特殊的数组类型np.object

In [71]:
pu_array = np.array([1,2,3,4.5,'str'], dtype = np.object)
pu_array

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  pu_array = np.array([1,2,3,4.5,'str'], dtype = np.object)


array([1, 2, 3, 4.5, 'str'], dtype=object)

In [72]:
pu_array * 2

array([2, 4, 6, 9.0, 'strstr'], dtype=object)