## **Numpy入门**
---
### **创建数组**
- **用array函数转换**
- **用numpy.arange方法生成**

In [None]:
import numpy as np
data1 = [6,7.5,8,0,1]
arr1 = np.array(data1)
arr1

In [None]:
import numpy as np
my_arr1 = np.arange(100000)
my_arr1

### **查看数组维度、形状、类型**
- **ndim**
- **shape**
- **dtype**

In [None]:
my_arr1.ndim

In [None]:
my_arr1.shape

In [None]:
my_arr1.dtype

### **其他函数创建数组**
- **zeros和ones分别可以创建指定长度或形状的全0或全1数组。**
- **empty可以创建一个没有任何具体值的数组。**
- **要用这些方法创建多维数组，只需传入一个表示形状的元组即可：**

In [None]:
np.zeros(10)

In [None]:
np.zeros((3, 6))

In [None]:
np.empty((2, 3, 2))

![](img/creat_ndarray.webp)

### **ndarray的数据类型**

> **通常只需要知道你所处理的数据的大致类型是浮点数、复数、整数、布尔值、字符串，还是普通的Python对象即可。**

- **datype:查看数据类型、声明数据类型**
- **astype:转换数据类型**

In [None]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr1.dtype
arr2.dtype

In [None]:
arr = np.array([1, 2, 3, 4, 5])
float_arr = arr.astype(np.float64)
float_arr.dtype

> **笔记：调用astype总会创建一个新的数组（一个数据的备份），即使新的dtype与旧的dtype相同。**

### **NumPy 数组的运算**
- **加**
- **减**
- **乘**
- **除**
- **平方等等跟矩阵运算一样**

- **比较运算会产生布尔值**
- **不同大小的数组之间的运算叫做广播（broadcasting），会传递到每一个值。**

### **基本的索引和切片**

In [None]:
# 索引
arr = np.arange(10)
arr[5]

In [None]:
# 切片
arr[5:8]

In [None]:
# 广播
arr[5:8] = 12
arr

> **如上所示，当你将一个标量值赋值给一个切片时（如arr[5:8]=12），该值会自动传播（也就说后面将会讲到的“广播”）到整个选区。跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。**
不懂看这：https://pyda.apachecn.org/#/docs/4?id=%e5%9f%ba%e6%9c%ac%e7%9a%84%e7%b4%a2%e5%bc%95%e5%92%8c%e5%88%87%e7%89%87

In [None]:
arr_slice = arr[5:8]
arr_slice[1] = 12345
arr

In [None]:
# 切片[:]会给数组中的所有值赋值
arr_slice[:] = 64
arr

> **注意：如果你想要得到的是ndarray切片的一份副本而非视图，就需要明确地进行复制操作，例如arr[5:8].copy()**

### **高维度数组**
**高维度数组切片时先行再列**\
能做的事情更多。在一个二维数组中，各索引位置上的元素不再是标量而是一维数组

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

In [None]:
# 下面是一样的
arr2d[0][2]
arr2d[0, 2]

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

In [None]:
arr3d[0]

In [None]:
arr3d[1, 0]

> **注意，在上面所有这些选取数组子集的例子中，返回的数组都是视图。**

### **切片索引**
**ndarray的切片语法跟 Python 列表这样的一维对象差不多**

In [None]:
arr

In [None]:
arr[1:6]

In [None]:
arr2d

In [None]:
arr2d[:2]

In [None]:
arr2d[:2, 1:]

> **注意，“只有冒号”表示选取整个轴，因此你可以像下面这样只对高维轴进行切片**

In [None]:
arr2d[:, :1]

In [None]:
arr2d[:2, 1:] = 0 # 对切片赋值会扩散到整个数组
arr2d

### **布尔型索引**
> 利用布尔运算符索引时，前后数组的行数必须相同，列数可以不同。**把name列理解成表头。**

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)

In [None]:
names

In [None]:
data

> **假设每个名字都对应data数组中的一行，而我们想要选出对应于名字"Bob"的所有行。跟算术运算一样，数组的比较运算（如==）也是向量化的。**

In [None]:
names == 'Bob'

In [None]:
data[names == 'Bob']

In [None]:
# 这个布尔型数组可用于数组索引
data[names == 'Bob', 2:]

In [None]:
data[names == 'Bob', 3]

In [None]:
# 选取这三个名字中的两个需要组合应用多个布尔条件，使用&（和）、|（或）之类的布尔算术运算符即可
mask = (names == 'Bob') | (names == 'Will')
mask

In [None]:
# 更改数值
data[data < 0] = 0
data

### **花式索引**
**一次传入多个索引数组会有一点特别，用来查找确定的行数**

In [None]:
arr = np.empty((8, 4)) # 生成8行4列的空值

for i in range(8): 
    arr[i] = i # 遍历的每个结果赋值给相应的行上的值

arr

In [None]:
arr[[4, 3, 0, 6]] # 注意看[[]]意思是选取了4306开头的行

In [None]:
arr[[4, 3]] # 这个是2维数组的选取第4行和第3行

In [None]:
arr[4, 3] # 这个是2维数组的选取第4行，第3列

In [None]:
arr = np.arange(32).reshape((8, 4))
arr

In [None]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]
# (1,0)第2行的第1个
# (5,3)第6行的第4个
# (7,1)第8行的第2个
# (2,2)第3行的第3个 记住索引号总是比实际长度大1

In [None]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]] # 看不懂？？？

> **记住，花式索引跟切片不一样，它总是将数据复制到新数组中。**

### **数组转置和轴对换**
> **转置是重塑的一种特殊形式，它返回的是源数据的视图（不会进行任何复制操作）。数组不仅有transpose方法，还有一个特殊的T属性方法：**

In [None]:
import numpy as np 
arr = np.arange(15).reshape((3,5))
arr

In [None]:
arr.T # 转置

> **在进行矩阵计算时，经常需要用到该操作，比如利用np.dot计算矩阵内积：**

In [None]:
import numpy as np
arr = np.random.randn(6,3)
arr

In [None]:
np.dot(arr.T,arr)

In [None]:
# 对于高维数组，transpose需要得到一个由轴编号组成的元组才能对这些轴进行转置（比较费脑子）
arr = np.arange(16).reshape((2, 2, 4))
arr

In [None]:
arr = np.arange(16).reshape(2, 2, 4)
arr.transpose((1, 0, 2))

> **这里，第一个轴被换成了第二个，第二个轴被换成了第一个，最后一个轴不变。
简单的转置可以使用.T，它其实就是进行轴对换而已。ndarray还有一个swapaxes方法，它需要接受一对轴编号：**

In [None]:
arr.swapaxes(1, 2)

# **通用函数（库内置函数）**
可以将其看做简单函数（接受一个或多个标量值，并产生一个或多个标量值）的向量化包装器  


> **一元函数 sqrt**

In [None]:
import numpy as np
arr = np.arange(10)
np.sqrt(arr)

> **二元函数 maximum**

In [None]:
x = np.random.randn(8)
y = np.random.randn(8)
np.maximum(x, y)

> **【重点】常见ufunc函数**
![](img/ufunc1.png)
![](img/ufunc2.png)

## **利用数组进行数据处理**