## 7. 使用Python包(Package) - NumPy

作为一个开源软件，Python有着非常丰富的第三方工具包即packages, 帮助使用者完成各种任务。这些包在安装后，都可以直接拿来使用，非常方便。

我们首先学习数据分析中必不可少的一个包 - **NumPy**

NumPy(Numerical Python extensions) 是一个第三方的 Python 包，用于科学计算。这个库的前身是 1995 年开始开发的一个用于数组运算的库，经过了长时间的发展之后，基本上成为大部分 Python科学计算如Pandas，Scikit-learn等的基础包。


Numpy中的基础数据结构为**数组**

安装完毕后，在使用NumPy之前，必需先导入numpy包：
- 一般用np来作为numpy的简写:

In [4]:
import numpy as np

## 7.1 NumPy基本数据结构 - array:

- ndarray，别名array, 也就是数组，是NumPy中最基础的数据结构.
- 最关键的属性是维度和元素类型
- 在 NumPy 中，可以非常方便地创建各种不同类型的多维数组，并且执行一些基本操作

使用np.array()基于list或者tuple创建数组：

In [65]:
#基于list
array1 = np.array([1,2,3,4,5,6])
print(array1)

[1 2 3 4 5 6]


In [66]:
type(array1)

numpy.ndarray

In [3]:
#基于tuple
array2 = np.array((1,2,3,4,5,6))
print(array2)
type(array2)

[1 2 3 4 5 6]


numpy.ndarray

    - 创建二维数组：

In [69]:
array3 = np.array([[1,2,3], [4,5,6]])
print(array3)

[[1 2 3]
 [4 5 6]]


- 一维数组用print输出的时候为 [1 2 3 4 5 6]，跟python的列表是有些差异的，没有逗号分隔
- 在创建二维数组时，在每个子list外面还有一个[ ]，形式为[[list1], [list2]]

In [None]:
使用函数创建数组:

In [7]:
range_array = np.arange(1,10)  # 等间距分布的数组
print(range_array)

[1 2 3 4 5 6 7 8 9]


In [8]:
zero_array = np.zeros(5)  # 元素全为0的数组
print(zero_array)

[0. 0. 0. 0. 0.]


In [4]:
zero_array = np.zeros((5,1))  # 元素全为0的数组
print(zero_array)


[[0.]
 [0.]
 [0.]
 [0.]
 [0.]]


In [5]:
one_array = np.ones(5)  # 元素全为0的数组
print(one_array)

[1. 1. 1. 1. 1.]


In [6]:
twod_array_zeros = np.zeros((5, 5))
print(twod_array_zeros)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


数组的常见**属性**：#什么是属性?

- ndarray.ndim：数组的维度数
- ndarray.shape：数组每个维度的大小
    - 数组是行主导原则(row-major order), 因此.shape先返回行数，然后是列数
- ndarray.size：数组中元素的总个数
- ndarray.dtype: 数组中元素的类型
- ndarray.T： 转置属性 - 行变列，列变行

In [13]:
#
array3 = np.array([[1,2,3], [4,5,6]])
print(array3)
# array3 = np.array([[1,0,0], [0,0,0]])

[[1 2 3]
 [4 5 6]]


In [14]:
print(array3.ndim)
print(array3.shape)
print(array3.size)
print(array3.dtype)

2
(2, 3)
6
int64


In [15]:
array3.T

array([[1, 4],
       [2, 5],
       [3, 6]])

创建数组时可以指定数据类型:

In [16]:
c = np.array([1, 2, 3])
print(c.dtype)           

int64


In [17]:
d = np.array([1, 2, 3], dtype=float)
print(d.dtype)
d

float64


array([1., 2., 3.])

也可以使用ndarray.astype()方法改变格式:

In [18]:
#
e = np.array([1.,2.,3.])
print(e.dtype)   

float64


In [19]:
#ndarray.astype()会返回一个拷贝，不会改变原来的array
e=e.astype('int')
e

array([1, 2, 3])

改变数组的形状:
- numpy.reshape()：改变数组的形状，但是**不会改变所作用的数组**
- numpy.resize(): 改变所作用的数组的形状，也即**同时改变被作用的数组**

In [17]:
five_x_five = np.arange(25)
print(five_x_five)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24]


In [24]:
five_x_five.reshape(5,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [25]:
print(five_x_five)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24]


In [22]:
five_x_two = np.arange(10)
print(five_x_two)

[0 1 2 3 4 5 6 7 8 9]


In [23]:
five_x_two.resize(5,2)

In [61]:
print(five_x_two)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


NumPy数组的优势

- NumPy数组通常是由相同种类的元素组成的，即数组中的数据项的类型一致，这样可以方便分析

- 可以比列表更方便的管理多维数据

- 运算速度快

## 7.2 NumPy的索引和切片

数组的索引和切片方式和其他可迭代对象类似
    - 方括号[ ]里放**单个数字**进行索引，索引的第一个位置从0开始
    - 方括号里放[开始位置:结束位置:步长]进行切片
    - 切片范围遵从半开放原则
    - [:]代表行列全选

一维数组:

In [27]:
test_array = np.arange(1,20)
print(test_array)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


   - 一维数组索引：

In [28]:
print(test_array[5]) 

6


In [29]:
print(test_array[-1]) 

19


   - 一维数组切片：

In [30]:
print(test_array[3:6]) 

[4 5 6]


In [31]:
print(test_array[3::2])

[ 4  6  8 10 12 14 16 18]


In [32]:
print(test_array[:]) 

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


二维数组:
对于多维数组，必须为每个维度分别做索引和切片

In [5]:
list_of_lists = [ [1,2,3], [4, 5, 6] ]
array_of_lists = np.array(list_of_lists)
array_of_lists

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
   - 二维数组索引：

In [91]:
print(array_of_lists[1][2])

6


In [119]:
print(array_of_lists[0][1])

2


In [9]:
print(array_of_lists[:][0])
#注意！！！ 此处[:]并不代表行索引, 所以这里不是先选所有行，再选第一列！ 它代表全部切片 - 行列全选！

[1 2 3]


In [None]:
list_of_lists = [ [1,2,3], [4, 5, 6] ]
array_of_lists = np.array(list_of_lists)
array_of_lists

array([[1, 2, 3],
       [4, 5, 6]])

   - 二维数组切片：
        先行，后列；逗号隔开行与列的切片参数

In [10]:
print(array_of_lists[:,0])

[1 4]


In [11]:
print(array_of_lists[1:2, 0:2])

[[4 5]]


In [117]:
print(array_of_lists[:]) #全部切片 - 行列全选

[[1 2 3]
 [4 5 6]]


## 7.3 NumPy的数据筛选

数据分析中，筛选数据必不可少；NumPy中可以通过**布尔过滤(boolean masking)**对数组进行筛选：

list(列表)不能做筛选:

In [14]:
#
bool_list = [True,True,False,False,True]
data_list = [1,2,3,4,5]

In [15]:
#
bool_list = [True,True,False,False,True]
data_list = [1,2,3,4,5]
data_list[bool_list]

TypeError: list indices must be integers or slices, not list

把list转换成array, 再进行筛选:
 1. 生成一个布尔过滤(手动或者通过条件判断生成)
 2. 将一个布尔过滤(boolean masking)放入一个数组中
 3. 返回一个新的数组，里面的每一个元素对应布尔过滤中的True

In [16]:
bool_array = np.array(bool_list)
data_array = np.array(data_list)

In [17]:
print(bool_array)

[ True  True False False  True]


In [18]:
print(data_array)

[1 2 3 4 5]


In [19]:
data_array[bool_array]

array([1, 2, 5])

In [20]:
newarray=data_array[bool_array]
print(newarray)

[1 2 5]


通过条件生成一个布尔过滤，并用来筛选:

In [4]:
data_array = np.arange(10)
data_array > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

将生成的布尔过滤(boolean masking)放入数组中做**筛选**：

In [21]:
print(data_array[data_array > 5])
print(data_array)

[]
[1 2 3 4 5]


还可以将生成的布尔过滤(boolean masking)放入数组中做**赋值, 更改原数组**：

In [154]:
data_array[data_array > 5] = -999
print(data_array)

[   0    1    2    3    4    5 -999 -999 -999 -999]


NumPy中，使用
   - **&** (并列条件and)
   - **|** (或者条件or)
   
进行多条件判断:

In [158]:
data_array = np.arange(10)
filtered_data_array_and = data_array[(data_array >= 5) & (data_array < 9)] 
print(filtered_data_array_and)

[5 6 7 8]


In [159]:
#练习
#对于数组data_array, 只返回大于5或者小于8的元素

In [160]:
filtered_data_array_or = data_array[(data_array > 5) | (data_array < 8)]
print(filtered_data_array_or)

[0 1 2 3 4 5 6 7 8 9]


## 7.4 NumPy的运算和广播

NumPy数组的数学运算会对数组中元素逐个进行计算，既可以利用操作符，也可以使用函数方式：

In [2]:
import numpy as np
x = np.arange(10)
y = np.arange(10,20)
print(x)
print(y)

[0 1 2 3 4 5 6 7 8 9]
[10 11 12 13 14 15 16 17 18 19]


In [4]:
#乘以一个常数
print(x*3.14)

[ 0.    3.14  6.28  9.42 12.56 15.7  18.84 21.98 25.12 28.26]


In [7]:
#求平方根
print(np.sqrt(x))

[0.         1.         1.41421356 1.73205081 2.         2.23606798
 2.44948974 2.64575131 2.82842712 3.        ]


In [5]:
#两个数组相加 - 元素逐个相加
print(x + y)
print(np.add(x, y))

[10 12 14 16 18 20 22 24 26 28]
[10 12 14 16 18 20 22 24 26 28]


In [None]:
#两个数组相乘 - 元素逐个相乘
print(x * y)
print(np.multiply(x, y))

In [10]:
#两个数组相除 - 元素逐个相除
print(x / y)
print(np.divide(x, y))

[0.         0.09090909 0.16666667 0.23076923 0.28571429 0.33333333
 0.375      0.41176471 0.44444444 0.47368421]
[0.         0.09090909 0.16666667 0.23076923 0.28571429 0.33333333
 0.375      0.41176471 0.44444444 0.47368421]


数组的比较操作:

In [22]:
h = np.array([5, 2, 3, 4])
k = np.array([4, 3, 2, 4])

In [21]:
#逐个比较
print (h == k)

[False False False  True]


In [23]:
#逐个比较
print (h > k)

[ True False  True False]


默认情况下数组的运算都是逐元素(elementwise)进行的，这就意味着进行运算的两个数组大小(shape)相同。然而，不同shape的两个数组之间也可以进行运算，比如上面例子中的*x*3.14* - 这是因为NumPy中的**广播(broadcasting)**机制

**广播规则**：

- 1. 如果两个数组在所有维度上都是**相容(compatible)**的，他们就能使用广播
- 2. 怎么判断两个数组的在某个维度上**相容**？
        - 1. 在某个维度上的长度一样，则相容
        - 2. 某一个数组在该维度上长度为1, 则相容
- 3. 注意， 如果两个数组维度数不同，小维度数组的形状会在最左边补1从而'完成维度填充'，然后去判断每个维度是否相容(被补1的肯定会相容)

当条件满足时，基于广播机制，NumPy会**扩展**形状不同的数组，使最终的数组们都有相同形状，然后进行运算

和一个常量进行运算，常量会和整个数组的每个元素一一运算

如果条件不满足，会收到报错信息: operands could not be broadcast together

正确情况1：维度相同，形状相同

In [26]:
x = np.arange(25).reshape(5,5)
print(x.ndim)
print(x.shape)
print(x)

2
(5, 5)
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


In [27]:
y = np.ones((5,5))
print(y.ndim)
print(y.shape)
print(y)

2
(5, 5)
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [28]:
print(x + y)

[[ 1.  2.  3.  4.  5.]
 [ 6.  7.  8.  9. 10.]
 [11. 12. 13. 14. 15.]
 [16. 17. 18. 19. 20.]
 [21. 22. 23. 24. 25.]]


正确情况2：维度相同，其中一个维度的长度为1，从而每个维度相容

In [23]:
a = np.arange(5).reshape(1,5)
print(a.ndim)
print(a.shape)
print(a)

2
(1, 5)
[[0 1 2 3 4]]


In [30]:
b = np.arange(5).reshape(5,1)
print(b.ndim)
print(b.shape)
print(b)

2
(5, 1)
[[0]
 [1]
 [2]
 [3]
 [4]]


In [25]:
print(a + b)

[[0 1 2 3 4]
 [1 2 3 4 5]
 [2 3 4 5 6]
 [3 4 5 6 7]
 [4 5 6 7 8]]


正确情况3：维度不相同，小维度数组的形状会在最左边补1从而'完成维度填充'，然后判断相容并运算

In [93]:
e = np.arange(5)
print(e.ndim)
print(e.shape)
print(e)

1
(5,)
[0 1 2 3 4]


In [3]:
f = np.ones((5,5))
print(f.ndim)
print(f.shape)
print(f)

2
(5, 5)
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [95]:
#数组e,会被填充成二维并且有(1,5)的形状
print(e + f)

[[1. 2. 3. 4. 5.]
 [1. 2. 3. 4. 5.]
 [1. 2. 3. 4. 5.]
 [1. 2. 3. 4. 5.]
 [1. 2. 3. 4. 5.]]


正确情况4：和一个常量进行运算，常量会和整个数组的每个元素一一运算

In [13]:
x = np.arange(25).reshape(5,5)
print(x)
print(x * 100)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]
[[   0  100  200  300  400]
 [ 500  600  700  800  900]
 [1000 1100 1200 1300 1400]
 [1500 1600 1700 1800 1900]
 [2000 2100 2200 2300 2400]]


    - 错误情况1：维度相同，但长度不相同，且没有一个维度的长度为1

In [64]:
x = np.arange(4)
print(x.ndim)
print(x.shape)
print(x)

1
(4,)
[0 1 2 3]


In [65]:
y = np.ones(5)
print(y.ndim)
print(y.shape)
print(y)

1
(5,)
[1. 1. 1. 1. 1.]


In [66]:
print(x + y)

ValueError: operands could not be broadcast together with shapes (4,) (5,) 

    - 错误情况2：维度相同, 但一个维度相容，另一个不相容

In [77]:
xx =np.arange(4).reshape(4,1)
print(xx.ndim)
print(xx.shape)
print(xx)

2
(4, 1)
[[0]
 [1]
 [2]
 [3]]


In [78]:
z = np.ones((3,4))
print(z.ndim)
print(z.shape)
print(z)

2
(3, 4)
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [79]:
print(xx + z)

ValueError: operands could not be broadcast together with shapes (4,1) (3,4) 

    - 错误情况3：维度不相同, '填充维度'后不相容

In [97]:
ee = np.arange(4)
print(ee.ndim)
print(ee.shape)
print(ee)

1
(4,)
[0 1 2 3]


In [98]:
f = np.ones((2,5))
print(f.ndim)
print(f.shape)
print(f)

2
(2, 5)
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [99]:
#数组ee,会被填充成二维并且有(1,4)的形状
print(ee + f)

ValueError: operands could not be broadcast together with shapes (4,) (2,5) 

其他广播后可以运行的例子：

A      (2d array):  5 x 4

B      (1d array):  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1

Result (2d array):  5 x 4


--------------------------------


A      (3d array):  15 x 3 x 5

B      (2d array):  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;3 x 1

Result (3d array):  15 x 3 x 5



--------------------------------

A      (3d array):  15 x 3 x 5

B      (3d array):  15 x 1 x 5

Result (3d array):  15 x 3 x 5

总结 - 如何判断是否可以广播:

    -使用ndarray.ndim, ndarray.shape获取维度和形状信息
    -结合广播原则判断每个维度是否相容 - 长度相同，或者某个为1
    -全部相容则不报错



## 7.5 NumPy常用函数

NumPy中的随机函数numpy.random

在使用Python做数据分析时，经常需要用到NumPy的随机函数-random, 它有着非常丰富的功能

   - **numpy.random.rand**(d0, d1, ..., dn)
       - rand函数根据给定维度生成[0,1)之间的数据，包含0，不包含1
       - dn代表维度
       - 返回值为指定维度的数组

In [133]:
a = np.random.rand(4,2)
print(a)

[[0.08209554 0.37360459]
 [0.03804002 0.65957087]
 [0.21330364 0.67284281]
 [0.29825834 0.26506013]]


   - **numpy.random.randint**(low, high=None, size=None, dtype=int):
       - 返回随机整数，范围区间为 [low,high），包含low，不包含high
       - 参数：low为最小值，high为最大值，size为数组维度大小，dtype为数据类型，默认的数据类型是整数t
       - high没有填写时，默认生成随机数的范围是[0，low)
       - size 默认为None,返回一个单独整数,而不是数组

In [134]:
a = np.random.randint(0,7,size=(2,3)) 
print(a)

[[6 2 5]
 [2 6 3]]


In [174]:
#因为没有size参数，所以返回1个[1,3)区间的随机整数
a = np.random.randint(1,3) 
print(a)
type(a)

1


int

In [43]:
 #若只设置一个参数，则表示[0,low）
a = np.random.randint(5,size=(3,2))
print(a)

[[2 4]
 [4 2]
 [3 0]]


In [184]:
#返回一维数组
a = np.random.randint(5,8,size=(6,))
print(a)
print(a.ndim)

[5 6 7 6 5 5]
1


   - **np.random.seed()**
        - 当我们设置相同的seed，每次生成的随机数相同。如果不设置seed，则每次会生成不同的随机数

In [44]:
np.random.seed(1234)
np.random.rand(5)

array([0.19151945, 0.62210877, 0.43772774, 0.78535858, 0.77997581])

In [45]:
np.random.seed(12345)
np.random.rand(5)

array([0.92961609, 0.31637555, 0.18391881, 0.20456028, 0.56772503])

In [46]:
np.random.seed(1234)
np.random.rand(5)

array([0.19151945, 0.62210877, 0.43772774, 0.78535858, 0.77997581])

NumPy常用统计函数:

- numpy.sum() 返回求和
- numpy.mean() 返回均值
- numpy.max() 返回最大值
- numpy.min() 返回最小值
- numpy.std() 返回标准偏差
- numpy.median 返回中位数
- numpy.argmax() 返回最大值索引
- numpy.argmin() 返回最小值索引
- numpy.ptp()，数组沿指定轴返回最大值减去最小值，即(max-min)


- 这几个函数都有一个参数 - 轴(axis)，若不指定，默认时axis=None, 整个数组会被扁平化(flattened), 然后针对所有元素进行运算
- 轴(axis)用来为超过一维的数组定义的属性，二维数据拥有两个轴：

    **axis= 0: 对横轴进行操作，在运算的过程中其运算的方向表现为纵向运算**
    
    **axis= 1: 对纵轴进行操作，在运算的过程中其运算的方向表现为横向运算**
    
     axis = 0 means along the column and axis = 1 means working along the row.

In [24]:
a = np.random.randint(0,100,size=(4,5)) 
print(a)

[[26 23 81 74 36]
 [32 21 35 10 94]
 [75 68 30 83  2]
 [43 67  1 86 26]]


In [157]:
#对所有元素进行求和
np.sum(a)

862

In [158]:
#横向运算
np.sum(a, axis=1)

array([225, 187, 225, 225])

In [159]:
#纵向运算
np.sum(a, axis=0)

array([172, 201, 183, 155, 151])

In [161]:
#返回所有元素中最大值的索引(从左到右，一行一行找，然后返回对应索引)
np.argmax(a)

16

In [162]:
#横向找最大值 - 找到每行中的最大值，返回索引
np.argmax(a, axis=1)

array([1, 3, 4, 1], dtype=int64)

In [164]:
#纵向找最大值 - 找到每列中的最大值，返回索引
np.argmax(a, axis=0)

array([0, 3, 1, 1, 2], dtype=int64)

NumPy的排序函数：
   - **numpy.sort**(a, axis=-1, kind=None, order=None)
       - 返回排好序的一个数组
       - axis 默认为-1，也就是对最后一个轴进行排序(对于二维数组，最后一个轴即axis=1); 如果axis=None则数组被扁平化，然后排序
       - order：在结构化数组中，可以指定按某个字段排序; 默认没有时，**对数组只能进行升序排列，无法降序**

In [192]:
a = np.random.randint(0,100,size=(4,5)) 
print(a)

[[57 40 95 65 33]
 [ 7 28 78 57 19]
 [40 43 45 64 44]
 [59 35  2 27 99]]


In [193]:
#axis默认为-1, 如果是二维数组时，也就是相当于axis= 1， 对纵轴进行操作，即横向运算
np.sort(a)

array([[33, 40, 57, 65, 95],
       [ 7, 19, 28, 57, 78],
       [40, 43, 44, 45, 64],
       [ 2, 27, 35, 59, 99]])

In [195]:
#axis= 1， 二维数组时，对纵轴进行操作，即横向运算
np.sort(a, axis=1)

array([[33, 40, 57, 65, 95],
       [ 7, 19, 28, 57, 78],
       [40, 43, 44, 45, 64],
       [ 2, 27, 35, 59, 99]])

In [196]:
#数组被扁平化，然后排序
np.sort(a, axis=None)

array([ 2,  7, 19, 27, 28, 33, 35, 40, 40, 43, 44, 45, 57, 57, 59, 64, 65,
       78, 95, 99])

In [199]:
#一维数组升序排列
b = np.random.randint(0,100,size=(7,)) 
c = np.sort(b)
print(c)

[ 0 11 30 69 71 73 79]


In [201]:
#如何实现降序？ 通过切片
d = c[::-1]
print(d)

[79 73 71 69 30 11  0]


NumPy的排序方法(method)：

   - **numpy.ndarray.sort**(axis=-1, kind=None, order=None)
        
        - 用法和numpy.sort一样。区别在于，作用于对象，也就是被作用的原数组会被改变

In [202]:
b = np.random.randint(0,100,size=(7,)) 
print(b)

[83 63 41 68 60 17 90]


In [203]:
b.sort()

In [204]:
print(b)

[17 41 60 63 68 83 90]


NumPy的numpy.unique()函数：

   - **numpy.unique**(ar, return_index=False, return_inverse=False, return_counts=False, axis=None)
        - 返回新数组。该新数组由原数组中去掉重复后的元素并排好序组成
        - 除了上述结果，还能返回另外三个结果：
            - return_index: 返回去重后的值在原数组中对应的索引
            - return_inverse：返回一系列新数组中元素对应的索引。可以通过返回的这些索引重新构建原来的数组
            - return_counts：返回每个去重后的元素在原数组中出现的次数

In [3]:
b = np.random.randint(0,10,size=(15,)) 
print(b)

[6 2 6 9 2 7 0 0 8 3 5 8 1 1 7]


In [213]:
np.unique(b)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [214]:
np.unique(b, return_index=True)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8]),
 array([ 4,  1,  0, 10,  9,  2,  8,  6,  7], dtype=int64))

In [4]:
np.unique(b, return_inverse=True)

(array([0, 1, 2, 3, 5, 6, 7, 8, 9]),
 array([5, 2, 5, 8, 2, 6, 0, 0, 7, 3, 4, 7, 1, 1, 6]))

In [5]:
a,b = np.unique(b, return_inverse=True)

In [7]:
def m_a(array1, array2):
    l = []
    for i in array2:
        l.append(array1[i])
    return l
m_a(a, b)

[6, 2, 6, 9, 2, 7, 0, 0, 8, 3, 5, 8, 1, 1, 7]

In [222]:
for i in b:
    print(a[i])

2
1
5
2
0
1
7
8
6
4
3
5
8
3
8


In [223]:
np.unique(b, return_counts=True)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8], dtype=int64),
 array([1, 2, 2, 2, 1, 2, 1, 1, 3], dtype=int64))

In [1]:
#练习: 按照下列未完成的函数中Docstrings(文档字符串)的要求，将函数补充完整

In [2]:
import numpy as np

def create_array():
    '''
    返回一个满足以下4个条件的数组:
    1. 一维数组
    2. 从0开始，并包含每第三个数
        (比如： 0, 3, 6, 9...).
    3. 结束的最后一个数字为1101.
    4. 全部由整数构成
    Arguments:
    None
    Returns:
    输出: 返回一个满足上述条件的数组
    '''


In [22]:
import numpy as np

def create_array():
    '''
    返回一个满足以下4个条件的数组:
    1. 一维数组
    2. 从0开始，并包含每第三个数
        (比如： 0, 3, 6, 9...).
    3. 结束的最后一个数字为1101.
    4. 全部由整数构成
    Arguments:
    None
    Returns:
    输出: 返回一个满足上述条件的数组
    '''

    return np.arange(0,1102,3)

In [25]:
a=create_array()
a

array([   0,    3,    6,    9,   12,   15,   18,   21,   24,   27,   30,
         33,   36,   39,   42,   45,   48,   51,   54,   57,   60,   63,
         66,   69,   72,   75,   78,   81,   84,   87,   90,   93,   96,
         99,  102,  105,  108,  111,  114,  117,  120,  123,  126,  129,
        132,  135,  138,  141,  144,  147,  150,  153,  156,  159,  162,
        165,  168,  171,  174,  177,  180,  183,  186,  189,  192,  195,
        198,  201,  204,  207,  210,  213,  216,  219,  222,  225,  228,
        231,  234,  237,  240,  243,  246,  249,  252,  255,  258,  261,
        264,  267,  270,  273,  276,  279,  282,  285,  288,  291,  294,
        297,  300,  303,  306,  309,  312,  315,  318,  321,  324,  327,
        330,  333,  336,  339,  342,  345,  348,  351,  354,  357,  360,
        363,  366,  369,  372,  375,  378,  381,  384,  387,  390,  393,
        396,  399,  402,  405,  408,  411,  414,  417,  420,  423,  426,
        429,  432,  435,  438,  441,  444,  447,  4