In [1]:
import numpy as np

 <font color=red size=6>05 Numpy初体验：数组创建与数据类型</font>

## 1.ndarray对象与创建

**np.array()**

In [2]:
data0 = [2, 4, 6.5, 8]
arr0 = np.array(data0)
arr0

array([2. , 4. , 6.5, 8. ])

**isinstance函数**

In [19]:
# 可以用isinstance函数来判断是否是ndarray类型
isinstance(arr0, np.ndarray)

True

In [5]:
# 创建多维数组
data1 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr1 = np.array(data1)
arr1

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [9]:
# 利用dtype关键字，传入合适的数据类型，显式地定义
arr2 = np.array(data1, dtype=np.float32)
arr2.dtype 

dtype('float32')

In [10]:
arr2.shape

(2, 4)

In [11]:
# 通过整形1和0，定义布尔类型的数组
data3 = [[1, 0], [0, 1]]
arr3 = np.array(data3, dtype=np.bool)
arr3

array([[ True, False],
       [False,  True]])

In [12]:
data4 = [["a", "b"], ["c", ""]]         # 空字符串为False
arr4 = np.array(data4, dtype=np.bool)
arr4

array([[ True,  True],
       [ True, False]])

In [13]:
arr5 = np.array(data4, dtype=np.string_) # |S1元素的固定长度为1
arr5

array([[b'a', b'b'],
       [b'c', b'']], dtype='|S1')

## 2.数据类型的更改与格式化输出

In [14]:
# 更改ndarray的数据类型, 用astype函数来对数组进行操作
data6 = [[1.230, 2.670], [1.450, 6.000]]
arr6 = np.array(data6, np.float32)
arr6

array([[1.23, 2.67],
       [1.45, 6.  ]], dtype=float32)

**astype函数**----改变ndarray数据类型

In [20]:
arr6_ = arr6.astype(np.float16)
arr6_

array([[1.23, 2.67],
       [1.45, 6.  ]], dtype=float16)

**set_printoptions**----格式化输出

In [22]:
# 数组的格式化输出
# precision: 默认保留8位位有效数字，后面不会补0；supress: 对很大/小的数不使用科学计数法 (True)
arr7 = np.array([[3.141592653], [9.8]], dtype=np.float16)	    # 定义一个2维数组
np.set_printoptions(precision=3, suppress=True)
arr7

array([[3.14],
       [9.8 ]], dtype=float16)

## 3.创建数组的其它方式

**zeros函数**----创建指定维度的全为0的数组

In [23]:
np.zeros(10, dtype=np.int8)        # 大小为10的全0数组

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [24]:
np.zeros((2, 3), dtype=np.float16) # 大小为2×3的全0数组

array([[0., 0., 0.],
       [0., 0., 0.]], dtype=float16)

**ones函数**----创建指定维度的全为1的数组

In [25]:
np.ones((2,3), dtype=np.float16)

array([[1., 1., 1.],
       [1., 1., 1.]], dtype=float16)

**empty函数**----创建一个空数组，只分配内存空间，但是不填充任何值

In [26]:
np.empty((2,3), dtype=np.int8)

array([[1, 1, 1],
       [1, 1, 1]], dtype=int8)

**identity函数**----创建一个大小为n×n的单位矩阵（对角线为1，其余为0）

In [28]:
np.identity(4, dtype=np.int8)

array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 0, 0, 1]], dtype=int8)

**eye函数**----identity的升级版本，同时指定N和M，则输出大小为N×M的矩形矩阵。K为调节值，调节为1的对角线的位置偏离度。

In [29]:
np.eye(N=3, M=4, dtype=np.int8)

array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0]], dtype=int8)

In [30]:
np.eye(N=3, M=4, k=1,dtype=np.int8)

array([[0, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 0, 0, 1]], dtype=int8)

 <font color=red size=6>06 创建数组</font>

## 1.创建等差数组

**arange()**----指定 start、stop、以及step。arange和range一样，是左闭右开的区间。

In [31]:
np.arange(1, 10, 1)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [32]:
# 也可以只传入一个参数，这种情况下默认start=0，step=1
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

**linspace()**----np.linspace(start, stop[, num=50[, endpoint=True[, retstep=False[, dtype=None]]]]])

In [33]:
np.linspace(1, 99, 11)

array([ 1. , 10.8, 20.6, 30.4, 40.2, 50. , 59.8, 69.6, 79.4, 89.2, 99. ])

In [35]:
np.linspace(1, 99, 11, retstep=True)

(array([ 1. , 10.8, 20.6, 30.4, 40.2, 50. , 59.8, 69.6, 79.4, 89.2, 99. ]),
 9.8)

In [36]:
np.linspace(1, 99, 11, endpoint=False)

array([ 1.   ,  9.909, 18.818, 27.727, 36.636, 45.545, 54.455, 63.364,
       72.273, 81.182, 90.091])

## 2.创建等比数组

**geomspace()**----创建指数等比数列

In [37]:
np.geomspace(2, 16, 4)

array([ 2.,  4.,  8., 16.])

**logspace()**----创建对数等比数列 logspace（start, stop, num=50, endpoint=True, base=10.0, dtype=None）

In [42]:
#num：为待生成等比数列的长度。按照对数，即start和stop值进行等分。默认值为50
np.logspace(1, 4, num=4, base=3)

array([ 3.,  9., 27., 81.])

## 3.创建随机数数组

**np.random.<font color=red>rand()</font>**----创建[0, 1)之间的均匀分布的随机数组

In [45]:
np.random.rand(3, 2)

array([[0.4  , 0.366],
       [0.759, 0.651],
       [0.572, 0.582]])

**numpy.random.<font color=red>uniform</font>(low=0.0, high=1.0, size=None)**----创建[low, high)之间的均匀分布的随机数组

In [44]:
np.random.uniform(1, 10, (3, 2))

array([[9.301, 1.745],
       [1.394, 2.286],
       [1.538, 4.666]])

**np.random.<font color=red>randn</font>**----创建服从标准正态分布的数组（均值为0，方差为1）

In [47]:
np.random.randn(3, 2)

array([[ 0.19 , -0.487],
       [ 1.082,  0.226],
       [ 1.354, -0.282]])

**np.random.<font color=red>normal</font>(loc=0.0, scale=1.0, size=None)**----创建服从μ=loc，σ=scale的正态分布的数组

In [49]:
np.random.normal(5, 10, (3, 2))

array([[ 17.378,   8.938],
       [-24.279,  14.309],
       [  2.206,   7.441]])

**np.random.<font color=red>randint</font>(low, high=None, size=None, dtype=np.int64)**----在指定区间[low, high)中离散均匀抽样的数组

In [53]:
# 有放回抽样6次
np.random.randint(1, 5, (3, 2))

array([[2, 1],
       [4, 4],
       [1, 1]])

**np.random.<font color=red>choice</font>(a, size=None, replace=True, p=None)**----对具体样本进行有放回或者无放回的抽样

In [54]:
# 从样本a中进行抽样，a可以为数组、列表或者整数，若为整数，表示[0,a)的离散抽样；
# replace为False，表示无放回抽样；replace为True，表示有放回抽样
# size为生成样本的大小
# p为给定数组中元素出现的概率
np.random.choice(["命中", "未命中"], size=10, replace=True, p=[0.65, 0.35])

array(['命中', '未命中', '命中', '命中', '命中', '未命中', '命中', '未命中', '未命中', '命中'],
      dtype='<U3')

 <font color=red size=6>07 索引和切片</font>

## 1.数组索引与切片

In [65]:
# 一维数组
arr1d = np.arange(1, 10, 1, dtype=np.float32)
arr1d[6]

7.0

In [59]:
arr1d[5:8]      # 左闭右开

array([6., 7., 8.], dtype=float32)

In [66]:
# 二维数组
arr2d = np.arange(9, dtype=np.float32).reshape(3, 3)
arr2d

array([[0., 1., 2.],
       [3., 4., 5.],
       [6., 7., 8.]], dtype=float32)

In [67]:
arr2d[1]

array([3., 4., 5.], dtype=float32)

In [69]:
arr2d[1,1]

4.0

In [75]:
temp = arr2d[:1,1:3]
temp

array([[1., 2.]], dtype=float32)

In [76]:
# 三维数组
np.arange(1, 19, 1).reshape(3, 2, 3)

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]],

       [[13, 14, 15],
        [16, 17, 18]]])

In [82]:
# 布尔型索引
cities = np.array(["hz", "sh", "hz", "bj", "wh", "sh", "sz"])
arr_rnd = np.random.randn(7, 4)
arr_rnd

array([[ 0.153,  0.721,  0.325,  0.612],
       [-0.365, -0.455,  1.363, -0.292],
       [-0.106, -0.25 ,  0.639,  1.392],
       [ 2.829,  1.385,  0.323, -0.359],
       [ 0.54 ,  0.929, -0.569, -0.29 ],
       [-0.074,  1.683,  1.515,  0.777],
       [ 0.384, -1.172,  0.261,  0.758]])

In [80]:
# 生成一个布尔类型的数组
cities == "hz"  

array([ True, False,  True, False, False, False, False])

In [84]:
arr_rnd[cities == "hz"]      # 取为true的两行

array([[ 0.153,  0.721,  0.325,  0.612],
       [-0.106, -0.25 ,  0.639,  1.392]])

In [85]:
# 把数组中的负数都筛选出来,变为0
arr_rnd[arr_rnd < 0] = 0
arr_rnd

array([[0.153, 0.721, 0.325, 0.612],
       [0.   , 0.   , 1.363, 0.   ],
       [0.   , 0.   , 0.639, 1.392],
       [2.829, 1.385, 0.323, 0.   ],
       [0.54 , 0.929, 0.   , 0.   ],
       [0.   , 1.683, 1.515, 0.777],
       [0.384, 0.   , 0.261, 0.758]])

## 2.花式索引

In [86]:
arr_demo01 = np.arange(24).reshape(4, 6)
arr_demo01

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])

In [87]:
# 方法1：分别将4个角的元素索引出来，然后把取出来的4个元素，重新组成一个新2×2的数组
np.array([[arr_demo01[0, 0], arr_demo01[0, -1]],
                        [arr_demo01[-1, 0], arr_demo01[-1, -1]]])

array([[ 0,  5],
       [18, 23]])

In [88]:
# 方法2：利用布尔索引，可以同时索引不连续的行。分别对axis 0方向和axis 1方向进行索引。但是需要注意的是，得分2次索引；
arr_demo01[[True, False, False, True]][:, [True, False, False, False, False, True]]

array([[ 0,  5],
       [18, 23]])

In [90]:
# 方法3：分别传入4个角的坐标，请朋友们注意观察传入的2个整数数组的规律
arr_demo01[[0, 0, -1, -1], [0, -1, 0, -1]]

array([ 0,  5, 18, 23])

In [92]:
# 方法4：利用花式索引和切片混用，整体思路和方法2很相似。也是通过连续2次索引，得到一个矩形状的区域
arr_demo01[[0, -1]][:, [0, -1]]

array([[ 0,  5],
       [18, 23]])

 <font color=red size=6>08 数组运算</font>

## 1.数组与标量之间的运算

In [97]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [100]:
arr+1
arr*5
2/arr
arr**2

array([[ 1,  4,  9],
       [16, 25, 36]], dtype=int32)

## 2.数组的通用函数运算

能够对数组中的每个元素进行微操，也就是元素级的函数运算 

**对应位置相加减,非矩阵运算**

In [101]:
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

In [102]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

**一元函数**  
add, subtract, multiply, divide	算术四则运算，分别对应加、减、乘、除  

<font color=red>常用的一元函数列举如下，供大家查阅：</font>

In [103]:
np.multiply(arr, arr)

array([[ 1,  4,  9],
       [16, 25, 36]])

**二元函数**  
但是在使用之前，大家千万要注意数组中是否有空值，空值的存在可能会导致运算结果错误甚至是报错。  
判断数组是否存在空值，需要使用isnan函数。

<font color=red>常用的二元函数列举如下，供大家查阅：</font>

In [105]:
x = np.random.normal(5, 10, (3, 1))
y = np.random.normal(5, 10, (3, 1))

In [106]:
x

array([[-4.584],
       [-4.957],
       [-7.699]])

In [107]:
y

array([[-3.724],
       [11.098],
       [18.702]])

In [109]:
# 计算，比较元素级的最大值
np.maximum(x, y)

array([[-3.724],
       [11.098],
       [18.702]])

In [110]:
# 计算，执行元素级的比较
np.greater(x, y)

array([[False],
       [False],
       [False]])

## 3.数组的线性代数运算

**np.dot()矩阵的乘法**  
arr.T表示对arr数组进行转置  
np.dot表示对输入的两个数组进行矩阵乘法运算

In [112]:
arr = np.random.randn(3, 1)
np.dot(arr, arr.T)

array([[ 5.749,  1.185, -0.115],
       [ 1.185,  0.244, -0.024],
       [-0.115, -0.024,  0.002]])

**numpy.linalg工具**----封装了一组标准的矩阵分解运算以及诸如逆运算**inv函数**、行列式等功能

In [115]:
# 利用inv函数，求解矩阵的逆矩阵（注意：矩阵可变，首先必须是方阵）
from numpy.linalg import inv

In [118]:
arr_lg = np.array([[0, 1, 2], [1, 0, 3], [4, -3, 8]])
arr_lg

array([[ 0,  1,  2],
       [ 1,  0,  3],
       [ 4, -3,  8]])

In [120]:
arr_inv = inv(arr_lg)
arr_inv

array([[-4.5,  7. , -1.5],
       [-2. ,  4. , -1. ],
       [ 1.5, -2. ,  0.5]])

In [121]:
np.dot(arr_lg, arr_inv)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [124]:
# 函数solve可以求解形如 Ax = b 的线性方程组，其中 A 为矩阵，b 为一维数组，x 是未知变量。
from numpy.linalg import solve
A = np.array([[1, -2, 1], [0, 2, -8], [-4, 5, 9]])
b = np.array([0, 8, -9])
X = solve(A, b)
np.equal(np.dot(A, X), b)

array([ True,  True,  True])

<font color=red>numpy.linalg中还封装了一些其它函数，根据需要选择合适的函数：</font>

## 4.数组的聚合函数运算

<font color=red>聚合函数</font>是指对一组值（比如一个数组）进行操作，返回一个单一值  
作为结果的函数，比如求数组所有元素之和就是聚合函数。常见的聚合  
函数有：求和，求最大最小，求平均，求标准差，求中位数等。

In [125]:
arr = np.random.randn(3, 4)
arr

array([[ 3.109,  1.425,  0.375,  0.163],
       [-0.872, -0.282, -0.608, -0.897],
       [-2.033,  1.413, -1.107,  0.544]])

In [126]:
np.max(arr)

3.1091786070189182

In [127]:
np.sum(arr)

1.2307153809928666

In [128]:
np.max(arr, axis=0)

array([3.109, 1.425, 0.375, 0.544])

 ## 5.自定义函数np.frompyfunc

In [129]:
# 定义函数，购买x件订单，返回订单金额
def order(x):
    if x >= 100:
        return 20 * 0.6 * x
    if x >= 50:
        return 20 * 0.8 * x
    if x >= 10:
        return 20 * 0.9 * x
    return 20 * x

In [130]:
# frompyfunc函数有三个输入参数，分别是待转化的函数、函数的输入参数的个数、函数的返回值的个数
income = np.frompyfunc(order, 1, 1)

In [131]:
# order_lst 为5位顾客的下单量
order_lst = [600, 300, 5, 2, 85]

In [135]:
result = income(order_lst)
result

array([7200.0, 3600.0, 100, 40, 1360.0], dtype=object)

In [134]:
np.sum(result)

12300.0

 <font color=red size=6>09 引用拷贝与视图</font>

## 1.Python篇

**深拷贝**

In [138]:
import copy
m = ["Jack", "Tom", "Brown"]
n = copy.deepcopy(m)

In [139]:
m == n

True

In [140]:
m is n

False

In [141]:
m[0] = "Helen" # 不会都改变

In [142]:
m

['Helen', 'Tom', 'Brown']

In [143]:
n

['Jack', 'Tom', 'Brown']

**浅拷贝**

In [153]:
a = ["Jack", "Tom", "Brown"]
b = copy.copy(m)
a

['Jack', 'Tom', 'Brown']

In [154]:
b

['Jack', 'Tom', 'Brown']

In [155]:
a == b

True

In [156]:
a is b

False

In [157]:
a[0] = "Helen" # 不会都改变

In [158]:
a

['Helen', 'Tom', 'Brown']

In [159]:
b

['Jack', 'Tom', 'Brown']

**特殊情况:嵌套列表**

In [160]:
# 对于嵌套列表里的可变元素（深层次的数据结构），浅拷贝并没有进行拷贝，只是对其进行了引用
students = ["Class 1", ["Jack", 178, 120], ["Tom", 174, 109]]
students_c = copy.copy(students)
print(students[1] is students_c[1])

True


In [167]:
students[1][1] = 180    # 都改变
students

['Class 2', ['Jack', 180, 120], ['Tom', 174, 109]]

In [168]:
students_c

['Class 1', ['Jack', 180, 120], ['Tom', 174, 109]]

In [169]:
students[0] = "Class 2"  # 不会都改变
students

['Class 2', ['Jack', 180, 120], ['Tom', 174, 109]]

In [170]:
students_c

['Class 1', ['Jack', 180, 120], ['Tom', 174, 109]]

In [174]:
# 切片与浅拷贝
# 切片其实就是对源列表进行部分元素的浅拷贝
students = ["Class 1", ["Jack", 178, 120], ["Tom", 174, 109]]
students_silce = students[:2]
students_silce[-1][1] = 185   # 都改变

In [175]:
students_silce

['Class 1', ['Jack', 185, 120]]

In [176]:
students

['Class 1', ['Jack', 185, 120], ['Tom', 174, 109]]

## 2.Numpy篇

对于Numpy来讲，我们主要甄别两个概念，即视图与副本  
视图view是对数据的引用，通过该引用，可以方便地访问、操作原有数据，但原有数据不会产生拷贝。如果我们对视图进行修改，它会影响到原始数据，因为它们的物理内存在同一位置。  
副本是对数据的完整拷贝（Python中深拷贝的概念），如果我们对副本进行修改，它不会影响到原始数据，它们的物理内存不在同一位置   

view视图

In [185]:
arr_0 = np.arange(12).reshape(3, 4)
view_0 = arr_0.view()

In [181]:
# 更改视图的元素，则原始数据会产生联动效果
# 注意: 视图的纬度更改并不会传递到原始数组
view_0[1, 1] = 100

In [182]:
arr_0

array([[  0,   1,   2,   3],
       [  4, 100,   6,   7],
       [  8,   9,  10,  11]])

In [183]:
view_0

array([[  0,   1,   2,   3],
       [  4, 100,   6,   7],
       [  8,   9,  10,  11]])

副本  
Numpy建立副本的方法稍有不同。  
方法一，是利用Numpy自带的<font color=red>copy</font>函数；  
方法二，是利用deepcopy（）函数。

In [186]:
arr_2 = np.array([[1, 2, 3], [4, 5, 6]])
copy_2 = arr_2.copy()
copy_2[1, 1] = 500

In [189]:
copy_2

array([[  1,   2,   3],
       [  4, 500,   6]])

In [190]:
arr_2

array([[1, 2, 3],
       [4, 5, 6]])