## **Numpy入门**
---
### **创建数组**
- **用array函数转换**
- **用numpy.arange方法生成**

In [1]:
import numpy as np
data1 = [6,7.5,8,0,1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [2]:
import numpy as np
my_arr1 = np.arange(100000)
my_arr1

array([    0,     1,     2, ..., 99997, 99998, 99999])

### **查看数组维度、形状、类型**
- **ndim**
- **shape**
- **dtype**

In [3]:
my_arr1.ndim

1

In [4]:
my_arr1.shape

(100000,)

In [5]:
my_arr1.dtype

dtype('int32')

### **其他函数创建数组**
- **zeros和ones分别可以创建指定长度或形状的全0或全1数组。**
- **empty可以创建一个没有任何具体值的数组。**
- **要用这些方法创建多维数组，只需传入一个表示形状的元组即可：**

In [6]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [7]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [8]:
np.empty((2, 3, 2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

![](img/creat_ndarray.webp)

### **ndarray的数据类型**

> **通常只需要知道你所处理的数据的大致类型是浮点数、复数、整数、布尔值、字符串，还是普通的Python对象即可。**

- **datype:查看数据类型、声明数据类型**
- **astype:转换数据类型**

In [9]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr1.dtype
arr2.dtype

dtype('int32')

In [10]:
arr = np.array([1, 2, 3, 4, 5])
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

> **笔记：调用astype总会创建一个新的数组（一个数据的备份），即使新的dtype与旧的dtype相同。**

### **NumPy 数组的运算**
- **加**
- **减**
- **乘**
- **除**
- **平方等等跟矩阵运算一样**

- **比较运算会产生布尔值**
- **不同大小的数组之间的运算叫做广播（broadcasting），会传递到每一个值。**

### **基本的索引和切片**

In [11]:
# 索引
arr = np.arange(10)
arr[5]

5

In [12]:
# 切片
arr[5:8]

array([5, 6, 7])

In [13]:
# 广播
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

> **如上所示，当你将一个标量值赋值给一个切片时（如arr[5:8]=12），该值会自动传播（也就说后面将会讲到的“广播”）到整个选区。跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。**
不懂看这：https://pyda.apachecn.org/#/docs/4?id=%e5%9f%ba%e6%9c%ac%e7%9a%84%e7%b4%a2%e5%bc%95%e5%92%8c%e5%88%87%e7%89%87

In [14]:
arr_slice = arr[5:8]
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [15]:
# 切片[:]会给数组中的所有值赋值
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

> **注意：如果你想要得到的是ndarray切片的一份副本而非视图，就需要明确地进行复制操作，例如arr[5:8].copy()**

### **高维度数组**
**高维度数组切片时先行再列**\
能做的事情更多。在一个二维数组中，各索引位置上的元素不再是标量而是一维数组

In [16]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [17]:
# 下面是一样的
arr2d[0][2]
arr2d[0, 2]

3

In [18]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [19]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [20]:
arr3d[1, 0]

array([7, 8, 9])

> **注意，在上面所有这些选取数组子集的例子中，返回的数组都是视图。**

### **切片索引**
**ndarray的切片语法跟 Python 列表这样的一维对象差不多**

In [21]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [22]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [23]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [24]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [25]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

> **注意，“只有冒号”表示选取整个轴，因此你可以像下面这样只对高维轴进行切片**

In [26]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [27]:
arr2d[:2, 1:] = 0 # 对切片赋值会扩散到整个数组
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### **布尔型索引**
> 利用布尔运算符索引时，前后数组的行数必须相同，列数可以不同。**把name列理解成表头。**

In [28]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)

In [29]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [30]:
data

array([[-0.89883541, -1.60358202, -0.62400325, -0.04471701],
       [ 1.75747747,  0.54492975,  1.0699133 ,  0.73700013],
       [-0.42949987,  0.68226001, -1.8281887 , -1.47044032],
       [-0.94854233, -0.08011568,  0.45094168, -0.78459694],
       [-1.11417608, -0.02056558, -0.14990902,  0.55471375],
       [-0.38843342,  0.54254116, -1.02317705, -0.25717949],
       [ 0.65239516,  0.05543818,  0.55351729, -0.56821806]])

> **假设每个名字都对应data数组中的一行，而我们想要选出对应于名字"Bob"的所有行。跟算术运算一样，数组的比较运算（如==）也是向量化的。**

In [31]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [32]:
data[names == 'Bob']

array([[-0.89883541, -1.60358202, -0.62400325, -0.04471701],
       [-0.94854233, -0.08011568,  0.45094168, -0.78459694]])

In [33]:
# 这个布尔型数组可用于数组索引
data[names == 'Bob', 2:]

array([[-0.62400325, -0.04471701],
       [ 0.45094168, -0.78459694]])

In [34]:
data[names == 'Bob', 3]

array([-0.04471701, -0.78459694])

In [35]:
# 选取这三个名字中的两个需要组合应用多个布尔条件，使用&（和）、|（或）之类的布尔算术运算符即可
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [36]:
# 更改数值
data[data < 0] = 0
data

array([[0.        , 0.        , 0.        , 0.        ],
       [1.75747747, 0.54492975, 1.0699133 , 0.73700013],
       [0.        , 0.68226001, 0.        , 0.        ],
       [0.        , 0.        , 0.45094168, 0.        ],
       [0.        , 0.        , 0.        , 0.55471375],
       [0.        , 0.54254116, 0.        , 0.        ],
       [0.65239516, 0.05543818, 0.55351729, 0.        ]])

### **花式索引**
**一次传入多个索引数组会有一点特别，用来查找确定的行数**

In [37]:
arr = np.empty((8, 4)) # 生成8行4列的空值

for i in range(8): 
    arr[i] = i # 遍历的每个结果赋值给相应的行上的值

arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [38]:
arr[[4, 3, 0, 6]] # 注意看[[]]意思是选取了4306开头的行

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [39]:
arr[[4, 3]] # 这个是2维数组的选取第4行和第3行

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.]])

In [40]:
arr[4, 3] # 这个是2维数组的选取第4行，第3列

4.0

In [41]:
arr = np.arange(32).reshape((8, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [42]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]
# (1,0)第2行的第1个
# (5,3)第6行的第4个
# (7,1)第8行的第2个
# (2,2)第3行的第3个 记住索引号总是比实际长度大1

array([ 4, 23, 29, 10])

In [43]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]] # 看不懂？？？

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

> **记住，花式索引跟切片不一样，它总是将数据复制到新数组中。**

### **数组转置和轴对换**
> **转置是重塑的一种特殊形式，它返回的是源数据的视图（不会进行任何复制操作）。数组不仅有transpose方法，还有一个特殊的T属性方法：**

In [44]:
import numpy as np 
arr = np.arange(15).reshape((3,5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [45]:
arr.T # 转置

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

> **在进行矩阵计算时，经常需要用到该操作，比如利用np.dot计算矩阵内积：**

In [46]:
import numpy as np
arr = np.random.randn(6,3)
arr

array([[ 0.60051789, -2.04909729,  0.38454977],
       [ 0.83509747,  0.43123124, -1.05870484],
       [-0.80105915,  0.58397553, -0.58651209],
       [-0.64947719, -1.55305913, -0.29695534],
       [-0.18778259,  2.81033846,  0.02426624],
       [ 1.37861474, -0.24339382, -1.05820612]])

In [47]:
np.dot(arr.T,arr)

array([[ 4.05736679, -1.19280086, -1.45391144],
       [-1.19280086, 15.09502294, -0.80008881],
       [-1.45391144, -0.80008881,  2.8213024 ]])

In [48]:
# 对于高维数组，transpose需要得到一个由轴编号组成的元组才能对这些轴进行转置（比较费脑子）
arr = np.arange(16).reshape((2, 2, 4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [49]:
arr = np.arange(16).reshape(2, 2, 4)
arr.transpose((1, 0, 2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

> **这里，第一个轴被换成了第二个，第二个轴被换成了第一个，最后一个轴不变。**
**简单的转置可以使用.T，它其实就是进行轴对换而已。ndarray还有一个swapaxes方法，它需要接受一对轴编号：**

In [50]:
arr.swapaxes(1, 2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

# **通用函数（库内置函数）**
可以将其看做简单函数（接受一个或多个标量值，并产生一个或多个标量值）的向量化包装器  


> **一元函数 sqrt**

In [51]:
import numpy as np
arr = np.arange(10)
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

> **二元函数 maximum**

In [52]:
x = np.random.randn(8)
y = np.random.randn(8)
np.maximum(x, y)

array([-0.66496973,  1.4788545 ,  1.85030778,  0.13046475, -0.82279033,
       -0.51756923,  0.05358353, -0.06113367])

> **【重点】常见ufunc函数**
![](img/ufunc1.png)
![](img/ufunc2.png)

## **利用数组进行数据处理**