In [6]:
import numpy as np

my_arr = np.arange(1_000_000)
my_list = list(range(1_000_000))

%timeit my_arr2 = my_arr * 2

780 μs ± 11.6 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [5]:
%timeit my_list2 = [x * 2 for x in my_list]

21.6 ms ± 79 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [7]:
#numPy中的ndarray：多位数组对象
data = np.array([[1.5, -0.1, 3], [0, -3, 6.5]])
data

array([[ 1.5, -0.1,  3. ],
       [ 0. , -3. ,  6.5]])

In [8]:
#二维数据运算
data * 10

array([[ 15.,  -1.,  30.],
       [  0., -30.,  65.]])

In [9]:
data + data

array([[ 3. , -0.2,  6. ],
       [ 0. , -6. , 13. ]])

In [10]:
#ndarray同构数据多维容器，同构数据中的元素必须是相同类型。
#每个数组都有一个shape（用于表示各个维度大小的元组）和一个dtype（数组的数据模型）：
data.shape

(2, 3)

In [11]:
data.dtype

dtype('float64')

In [12]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [13]:
#嵌套序列  由一组等长列表组成的列表会被转化为多维数组
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

因为data2是列表的列表，所以numpy数组有arr2有两个维度，它的形状取决于数据。
可以用ndim和shape来确认数组的维度和形状

In [15]:
#维度
arr2.ndim

2

In [16]:
#维度中的个数
arr2.shape

(2, 4)

In [17]:
arr2.dtype

dtype('int64')

除了numpy.array,还有其他一些函数可以创建数组。
比如numpy.zeros和numpy.ones创建指定长度或形状的全0和全1数组。 
numpy.empty可以创建一个没有任何元素的多维数组，只需传入一个表示形状的元组即可

In [2]:
import numpy as np

np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [3]:
np.zeros((3, 6))  #三行六列

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [4]:
np.empty((2, 3, 2))  #两个三行两列的数组，不建议用empty，因为0可能是垃圾值

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [5]:
#numpy.arange是py内置的range函数的数组版本
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

Numpy一般默认是float64
Numpy数组创建函数：P97

![jupyter](./4.1.png)

![jupyter](./4.2.png)

code插入
图片<img src="/Users/dususu/Desktop/srcphoto.png", width=320, heigth=240>

In [7]:
#ndarray的数据类型
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr1.dtype

dtype('float64')

In [8]:
arr2.dtype

dtype('int32')

数据类型是Numpy与其他系统灵活交互数据的来源。float占用8字节（64位），因此在Numpy中就是float64

Numpy的数据类型

![jupyter](./4.3.png)

int8：有符号型， 无符号型uint8,只能表示0～255

In [9]:
#通过ndarray的astype方法可以将数组从一种数据类型转换或投射成另一种数据类型
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int64')

In [10]:
float_arr = arr.astype(np.float64)
float_arr

array([1., 2., 3., 4., 5.])

In [11]:
float_arr.dtype

dtype('float64')

In [12]:
#将浮点转换为整数则小数部分会被截断,不会舍入
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [14]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

In [16]:
#如果某个字符串数组表示的全是数字，也可以用astype将其转化为数值形式
numeric_strings = np.array(["1.25", "-9.6", "42"], dtype=np.string_)
numeric_strings.astype(float)
#float 和 np.float64 作用相同，Numpy会将py相同类型映射到等价的dtype上

array([ 1.25, -9.6 , 42.  ])

使用numpy.string_类型时，需要注意的是：因为Numpy的字符串大多数都是大小固定的，截断时不会警告，pandas会给出更好的处理方法，转换过程出错的情况下，比如字符串无法转为float，会抛出valueError

In [2]:
#可以用另一个数组的dtype属性
import numpy as np

int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .300, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [3]:
#更简洁的代码表示dtype
zeros_uint32 = np.zeros(9, dtype="u4")
zeros_uint32

array([0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=uint32)

"u4"是numpy中表示无符号4位整数的数据类型。这里的u代表无符号（unsigned），而4表示整数的位数。
np.zeros(9, dtype="u4")会创建一个包含9个元素的全零数组，每个元素的数据类型是无符号4位整数。
numpy通常不使用u4作为数据类型，因为4位整数的数据范围相对较小，numpy更常使用uint8（无符号8位整数）、uint16（无符号16位整数）或uint32（无符号32位整数）。
创建一个包含9个元素的全零数组，zeros_uint32 = np.zeros(9, dtype="uint32")

In [4]:
#NumPy数组运算  向量化
arr = np.array([[1, 2, 3.], [4, 5, 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [5]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [6]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [7]:
#数组与标量的算数运算会将标量值传播到数组的各个元素
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [8]:
arr ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [9]:
#大小相同的数组之间的比较会生成bool值
arr2 = np.array([[0, 4, 1.], [7, 2, 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [10]:
#大小不同的数组之间的运算是广播，需要深入了解
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

In [11]:
#索引与切片base
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
arr[5]

5

In [17]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [18]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

#与列表最重要的区别在于，数组切片是原始数组的视图。
#这意味着数据不会被复制，视图上的任何修改都会直接反映到原数组上
#修改arr_arr_slice中的值时，原数组arr也会被修改，相当于C中的将指针指向列表
arr_slice[1] = 12345
arr

In [20]:
#切片[:]会给数组中的所有赋值,因为前面切片只切了三个元素，所以再赋值也是这三个元素
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

NumPy不是讲数据复制来复制去，而是通过指针的方式，直接定位到那一个数组，直接进行修改以节省内存空间
如果想要得到切片的副本，而非视图，则需要显式的复制数组如 arr[5:8].copy()

In [22]:
#二维数组的各索引位置上的元素不再是标量，而是一维数组
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [23]:
arr2d[0][2]

3

In [24]:
arr2d[0, 2]

3

二维数组索引，轴0为数组行，轴1为数组列

![jupyter](./4.4.png)

In [26]:
#二维数组中的索引元素，多位数组中，如果省略了后面的索引，则返回对象会是低维度的ndarray，它包含更高维度上的所有数据。
#因此，在2✖️2✖️3数组arr3d中：
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [28]:
#arr3d[0]是一个2✖️3数组：
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [29]:
#标量值和数组都可以赋值给arr3d[0]
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [31]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [32]:
#arr3d[1, 0]可以访问索引以(1, 0)开头的那些值(以一维数组的形式返回)
arr3d[1, 0]

array([7, 8, 9])

In [33]:
#这个表达式等于两步进行索引,先将arr3d中的2✖️2✖️3中的第一层2提取出右边的那一个数组
x = arr3d[1]
x

array([[ 7,  8,  9],
       [10, 11, 12]])

In [34]:
#再将2✖️2✖️3中的中间的2提取出左边的那个数组
x[0]

array([7, 8, 9])

以上的查看数组中不同位置的元素都是以视图的方式返回

In [35]:
#numpy数组的多维索引语法不适用于Python的常规对象，比如嵌套列表
#二维数组切片
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [36]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [37]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [38]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

二维数组切片可以认定为是“选取arr2d的前两行”

In [43]:
#可以一次传入多个切片，就像传入索引一样
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

[:2]：这个切片表示您要选择arr2d的前两行。
在Python中，切片操作使用方括号[]来表示，冒号:用来指定切片的起始和结束位置。
没有指定结束位置时，默认选择直到数组的末尾。
[1:]：这个切片表示您要选择arr2d的第二列之后的所有列。
冒号:前面的数字1表示起始列，而]表示选择直到数组的末尾。
arr2d[:2, 1:]就是选取arr2d中所有第二列之后的元素，但只包括前两行。
这是一个常见的操作，用于提取二维数组中的子矩阵。

In [46]:
#选取第二行的前两列
lower_dim_slice = arr2d[1, :2]
lower_dim_slice.shape

(2,)

arr2d[1, :2]就是选取数组中的第二行的前两列，但为什么只显示(2,)?           
因为：在Python中，尤其是在使用NumPy库时，
.shape属性用于获取数组或矩阵的形状，即它的高度和宽度。
这个属性对于多维数组尤其重要，因为它告诉你在每个维度上有多少个元素。

![jupyter](./4.5.PNG)

In [47]:
#直接输出数组
lower_dim_slice

array([4, 5])

In [48]:
lower_dim_slice.shape

(2,)

arr.shape返回(3, 4)，这意味着arr是一个3行4列的二维数组。
arr3d.shape返回(1, 2, 2)，这意味着arr3d是一个1层（深度）的3维数组，其中每一层有2行2列

因为lower_dim_slice是一维数组[4, 5],所以对其进行.shape时会显示(2,)
一维数组，但它的形状显示为(2,)，这意味着它有两个元素。
这种情况在NumPy中是可能的，因为NumPy允许您指定数组的维度，即使它实际上只包含一个行。
这种情况下，额外的维度被视为长度为1的行。

In [56]:
#前两行前两列
a = arr2d[1:2, :2]
a

array([[4, 5]])

在NumPy中，arr[1:2]表示对数组arr进行切片操作，选择索引从1到2（不包括2）的所有元素。
arr[1:2]也就是选取第二行元素

In [58]:
#arr2d[1:2, :2] 切片后新的数组为一行两列的形状，扁平形状，跟一维数组差不多
a.shape

(1, 2)

![jupyter](./4.6.PNG)

In [52]:
a = arr2d[:2, 2]
a.shape

(2,)

In [59]:
#第三列的前两行  arr2d[:2] 选取数据为第0行和第一行，共两行，前两行
arr2d[:2, 2]

array([3, 6])

In [70]:
#冒号本身意味着选取整个轴，可以只对高维轴进行切片
#前三行，前两列
b = arr2d[:, :2]
b

array([[1, 2],
       [4, 5],
       [7, 8]])

In [72]:
#切片后b的形状为三行两列
b.shape

(3, 2)

![jupyter](./4.7.PNG)

In [75]:
#对切片的赋值会扩散到整个区域
#对前两行的后两列赋值为0
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

In [78]:
#bool型索引
names = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
data = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2], [-12, -4], [3, 4]])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [79]:
data

array([[  4,   7],
       [  0,   2],
       [ -5,   6],
       [  0,   0],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [80]:
#假设每个名字对应data数组中的一行，而我们想要选出对应于名字“Bob”的所有行。
names == "Bob"

array([ True, False, False,  True, False, False, False])

In [81]:
#这个bool型数组可以用于数组索引
data[names == "Bob"]

array([[4, 7],
       [0, 0]])

In [82]:
#bool型数组的长度与被索引轴长度一致，bool型数组与切片、整数或序列混合使用，一维后只表示列数
data[names == "Bob", 1:]

array([[7],
       [0]])

data[names == "Bob", 1:] 选取data中names是“Bob”对应的一维数组，并输出每个数组的第二个元素后面的所有元素
或者说是输出第二列开始的所有列

In [84]:
data[names == "Bob", 1]

array([7, 0])

在Pandas中，data[names == "Bob", 1]这样的语法用于同时进行条件筛选和列选择。
names == "Bob"用于筛选names列中值为"Bob"的行，而1表示选择这些行的第二列。

In [85]:
#选取“Bob”之外的数据
names != "Bob"

array([False,  True,  True, False,  True,  True,  True])

In [86]:
~(names == "Bob")

array([False,  True,  True, False,  True,  True,  True])

In [87]:
data[~(names == "Bob")]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [88]:
cond = names == "Bob"
data[~cond]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [91]:
mask = (names == "Bob") | (names == "Will")
mask

array([ True, False,  True,  True,  True, False, False])

In [92]:
data[mask]

array([[ 4,  7],
       [-5,  6],
       [ 0,  0],
       [ 1,  2]])

py中关键字and和or不能用于bool数据类型，bool类型的只能用&,|

In [93]:
#通过bool类型判断负数，将data中的所有负数都设置为0
data[data < 0] = 0
data

array([[4, 7],
       [0, 2],
       [0, 6],
       [0, 0],
       [1, 2],
       [0, 0],
       [3, 4]])

In [94]:
#通过一维bool数组设置整行整列的值也很简单,后续pandas更为便捷
data[names != "Joe"] = 7
data

array([[7, 7],
       [0, 2],
       [7, 7],
       [7, 7],
       [7, 7],
       [0, 0],
       [3, 4]])

In [96]:
#花式索引 Numpy术语，用整数数组进行索引。
arr = np.zeros((8, 4))
for i in range(8):
    arr[i] = i

arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [97]:
#以特定顺序选取行子集，只需传入用于指定顺序的整数列表或ndarray即可
arr[[4, 3, 0 ,6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

arr[[4, 3, 0 ,6]]代表了我选取arr数组中第5行，4行，0行，6行的列表

In [99]:
#使用负数索引将会从末尾开始选取
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

arr[[-3, -5, -7]]代表了选取arr数组中从后向前第3行，5行，7行的列表

In [100]:
#一次传入多个索引数组会很特别，它返回一维数组，其中的元素对应各个索引元素
arr = np.arange(32).reshape((8, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [101]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

.reshape 函数是 NumPy 库中的一个非常有用的工具，它用于改变数组（矩阵）的形状，同时保持其元素的总数不变。
在使用 .reshape 时，我们可以指定新的形状，如果不指定某些维度的大小，可以使用 -1 来代替。
-1 表示这个维度的大小会自动计算，确保数组的元素总数不变。

二维数组arr中，花式索引选择行和列。
在这个例子中，我们选择第1行、第5行、第7行和第2行，以及第0列、第3列、第1列和第2列的元素。
即1行0列（4），5行3列（23）以此类推
(1, 0)(5, 3)(7, 1)(2, 2)

In [102]:
#无论花式索引数组是多少维的，结果总是一维的
#
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

arr[[1, 5, 7, 2]] 选择了数组中的第1、第5、第7和第2行
[:, [0, 3, 1, 2]] 表示选择所有列中的第0、第3、第1和第2列
这里的冒号 : 表示选择所有行，而方括号 [] 表示选择特定的列。

In [103]:
arr[[1, 5, 7, 2]][:, [0, 1, 2]]

array([[ 4,  5,  6],
       [20, 21, 22],
       [28, 29, 30],
       [ 8,  9, 10]])

这里表示选择第1、5、7、2行，后面选取所有我们挑出的行，并在所有列中选取0、1、2列
这就是花式索引与切片的不同点

In [104]:
#花式索引与切片不同，对结果赋值时，它会将数据复制到新数组中，花式索引赋值时，会修改被索引的值
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

In [105]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]] = 0
arr

array([[ 0,  1,  2,  3],
       [ 0,  5,  6,  7],
       [ 8,  9,  0, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22,  0],
       [24, 25, 26, 27],
       [28,  0, 30, 31]])

In [106]:
#数组转置与轴对换 transpos T属性
#转置返回的是原数据的视图，不会进行任何赋值操作
arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [107]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [108]:
#在进行矩阵操作时，可能会用到该操作，比如利用numpy.dot计算矩阵内积
arr = np.array([[0, 1, 0], [1, 2, -2], [6, 3, 2], [-1, 0, 1], [1, 0, 1]])
arr

array([[ 0,  1,  0],
       [ 1,  2, -2],
       [ 6,  3,  2],
       [-1,  0,  1],
       [ 1,  0,  1]])

In [109]:
np.dot(arr.T, arr)

array([[39, 20, 10],
       [20, 14,  2],
       [10,  2, 10]])

In [110]:
#矩阵乘法另一种则是@中缀运算符：
arr.T @ arr

array([[39, 20, 10],
       [20, 14,  2],
       [10,  2, 10]])

arr是一个5行3列的矩阵，转置后是3行5列的矩阵，3✖️5@5✖️3=3✖️3

In [111]:
#简单的转置可以用.T,其实就是进行轴对换。ndarray还有swapaxes方法，它需要接收一对轴编号，对换标记的轴以重排数据
arr

array([[ 0,  1,  0],
       [ 1,  2, -2],
       [ 6,  3,  2],
       [-1,  0,  1],
       [ 1,  0,  1]])

In [112]:
arr.swapaxes(0, 1)

array([[ 0,  1,  6, -1,  1],
       [ 1,  2,  3,  0,  0],
       [ 0, -2,  2,  1,  1]])

swapaxes 函数用于交换数组的两个轴。(转置)轴是指数组数据的维度。
对于一个二维数组，轴0和轴1分别代表行和列。
这个数组有5行（轴0）和3列（轴1）。
当我们调用 arr.swapaxes(0, 1) 时，我们是在交换轴0和轴1，即交换行和列。
数组的行变成了原来的列，而列变成了原来的行。这就是 swapaxes 函数的作用。

In [113]:
arr.swapaxes(2, 3)

AxisError: axis1: axis 2 is out of bounds for array of dimension 2

这是因为 swapaxes 函数期望的两个轴索引超出了数组的维度。
在二维数组中，我们只能交换行（轴 0）和列（轴 1）。
如果需要处理更高维度的数组，可以使用 reshape 或者 transpose 函数来实现类似的操作。

swapaxes也是原数据的视图，不进行复制

In [None]:
#伪随机数
