In [1]:
import numpy as np
# 生成随机数组
data = np.random.randn(2, 3)
data

array([[-1.13968179,  0.7550481 ,  0.09823171],
       [-0.58940768,  1.23236902, -0.31392774]])

In [2]:
data * 10

array([[-11.39681787,   7.55048101,   0.98231712],
       [ -5.89407683,  12.3236902 ,  -3.1392774 ]])

In [3]:
data + data

array([[-2.27936357,  1.5100962 ,  0.19646342],
       [-1.17881537,  2.46473804, -0.62785548]])

In [4]:
data.shape  # 表示数组每一维度的数量

(2, 3)

In [5]:
data.dtype  # 表示数组的数据类型

dtype('float64')

In [6]:
# 4.1.1 生成 ndarray
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [8]:
# 嵌套序列，例如同等长度的列表，将会自动转换程多维数组
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [9]:
# 因为data2是一个包含列表的列表，
# 所以Numpy数组arr2形成了二维数组。
# 我们可以通过检查ndim和shape属性来确认这一点
arr2.ndim

2

In [10]:
arr2.shape

(2, 4)

In [12]:
"""
除非显式地指定，否则np.array会自动推断生成数组的数据类型。
数据类型被存储在一个特殊的元数据dtype中
"""
arr1.dtype

dtype('float64')

In [13]:
arr2.dtype

dtype('int64')

In [17]:
"""
除了np.array，还有很多其他函数可以创建新数组。
例如，给定长度及形状后，zeros可以一次性创造全0数组，
ones可以一次性创造全1数组。
empty则可以创建一个没有初始化数值的数组。
想要创建高维数组，则需要为shape传递一个元组
"""
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [18]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [19]:
"""
使用np.empty来生成一个全0数组，
并不安全，有些时候它可能会返回未初始化的垃圾数值。
"""
np.empty((2, 3, 2))

array([[[6.92562312e-310, 6.92562312e-310],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000]],

       [[0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000]]])

In [20]:
# arange是 Python内建函数range的数组版
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [22]:
"""
由于NumPy专注于数值计算，
如果没有特别指明的话，默认的数据类型是float64（浮点型）。
"""

'\n由于NumPy专注于数值计算，\n如果没有特别指明的话，默认的数据类型是float64（浮点型）。\n'

In [None]:
# 4.1.2 ndarray的数据类型

In [26]:
"""
数据类型，即dytpe，是一个特殊的对象，
它包含了ndarray需要为某一种类型数据所申明的内存块信息
（也称为元数据，即表示数据的数据）
"""
arr3 = np.array([1, 2, 3], dtype=np.float64)  # 指定数据申明类型
arr4 = np.array([1, 2, 3], dtype=np.int32)

arr3.dtype

dtype('float64')

In [27]:
arr4.dtype

dtype('int32')

In [29]:
"""
可以使用astype方法显式地转换数组的数据类型
"""
arr5 = np.array([1, 2, 3, 4, 5])
arr5.dtype

dtype('int64')

In [30]:
float_arr = arr5.astype(np.float64)  # 转换数据类型
float_arr.dtype

dtype('float64')

In [31]:
"""
在上面例子中，整数被转换成了浮点数。
如果我把浮点数转换成整数，则小数点后的部分将被消除
"""
arr6 = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr6

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [32]:
arr6.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

In [33]:
"""
如果你有一个数组，里面的元素都是表达数字含义的字符串，
也可以通过astype将字符串转换为数字
"""
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)

In [34]:
numeric_strings

array([b'1.25', b'-9.6', b'42'], dtype='|S4')

In [35]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

In [36]:
"""
在NumPy中，当使用numpy.string_类型作字符串数据要小心，
因为NumPy会修正它的大小或删除输入且不发出警告。
pandas在处理非数值数据时有更直观的开箱型操作
"""

'\n在NumPy中，当使用numpy.string_类型作字符串数据要小心，\n因为NumPy会修正它的大小或删除输入且不发出警告。\npandas在处理非数值数据时有更直观的开箱型操作\n'

In [37]:
"""
数据类型的转换和指定，可以使用另一个数组的dtype属性
"""
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [38]:
"""
数据类型的转换和指定，也可以使用类型代码来传入数据类型
"""
empty_uint32 = np.empty(8, dtype='u4')  # u4 指定是4个字节，即 32 位
empty_uint32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

In [44]:
"""使用astype时总是生成一个新的数组，即使你传入的dtype与之前一样。"""
arr7 = np.arange(8)
arr8 = arr7.astype(arr7.dtype)
id(arr7) == id(arr8)

False

In [45]:
# 4.1.3 NumPy 数组算术

In [46]:
"""
数组之所以重要是因为它允许你进行批量操作而无须任何for循环。
NumPy用户称这种特性为向量化。
任何在两个等尺寸数组之间的算术操作都应用了逐元素操作的方式
"""
arr9 = np.array([[1., 2., 3.], [4., 5., 6.]])
arr9

array([[1., 2., 3.],
       [4., 5., 6.]])

In [47]:
arr9 * arr9

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [48]:
arr9 - arr9

array([[0., 0., 0.],
       [0., 0., 0.]])

In [49]:
"""
带有标量计算的算术操作，会把计算参数传递给数组的每一个元素
"""
1 / arr9

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [50]:
arr9 ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [51]:
"""同尺寸数组之间的比较，会产生一个布尔值数组"""
arr10 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr10

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [52]:
arr10 > arr9

array([[False,  True, False],
       [ True, False,  True]])

In [53]:
"""
不同尺寸的数组间的操作，将会用到广播特性，将会在附录A中介绍。
对于本书大部分内容来说，并不需要深入理解广播特性
"""

'\n不同尺寸的数组间的操作，将会用到广播特性，将会在附录A中介绍。\n对于本书大部分内容来说，并不需要深入理解广播特性\n'

In [54]:
# 4.1.4 基础索引与切片

In [55]:
"""
NumPy数组索引是一个大话题，
有很多种方式可以让你选中数据的子集或某个单个元素。
一维数组比较简单，看起来和Python的列表很类似
"""
arr11 = np.arange(10)
arr11

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [56]:
arr11[5]

5

In [58]:
arr11[5:8]

array([5, 6, 7])

In [59]:
arr11[5:8] = 12
arr11

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [60]:
"""
如果你传入了一个数值给数组的切片，
例如arr[5:8]= 12，数值被传递给了整个切片。
区别于Python的内建列表，数组的切片是原数组的视图。
这意味着数据并不是被复制了，任何对于视图的修改都会反映到原数组上
"""
# 示例如下：
arr_slice = arr11[5:8]
arr_slice

array([12, 12, 12])

In [61]:
"""当我改变arr_slice，变化也会体现在原数组上"""
arr_slice[1] = 12345
arr11

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [62]:
"""
不写切片值的[:]将会引用数组的所有值
"""
arr_slice[:] = 64
arr11

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [64]:
"""
如果你还是想要一份数组切片的拷贝而不是一份视图的话，
你就必须显式地复制这个数组，例如arr[5:8].copy()
"""
arr_slice2 = arr11[5:8].copy()
arr_slice2[:] = 3
arr11  # 此时，可以看到，原arr11并未受到影响

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [66]:
"""
对更高维度的数组，你会有更多选择。在一个二维数组中，
每个索引值对应的元素不再是一个值，而是一个一维数组
"""
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [67]:
"""
以通过传递一个索引的逗号分隔列表去选择单个元素，以下两种方式效果一样
"""
arr2d[0][2]

3

In [68]:
arr2d[0, 2]

3

In [69]:
"""
在多维数组中，你可以省略后续索引值，返回的对象将是降低一个维度的数组
"""
arr3d = np.array([
                   [
                    [1, 2, 3],
                    [4, 5, 6]
                   ], 
                 [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [70]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [71]:
"""标量和数组都可以传递给arr3d[0]"""
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [72]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [73]:
"""类似地，arr3d[1, 0]返回的是一个一维数组"""
arr3d[1, 0]

array([7, 8, 9])

In [74]:
# 4.1.4.1 数组的切片索引

In [75]:
arr11

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [76]:
arr11[1:6]

array([ 1,  2,  3,  4, 64])

In [77]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [78]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [81]:
"""还可以进行多组切片，与多组索引类似"""
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [82]:
"""
当你像在上面这个例子中那样切片时，你需要按照原数组的维度进行切片。
如果将索引和切片混合，就可以得到低维度的切片。
例如，我可以选择第二行但是只选择前两列：
"""
arr2d[1, :2]

array([4, 5])

In [83]:
"""
类似地，我也可以选择第三列，但是只选择前两行：
"""
arr2d[:2, 2]

array([3, 6])

In [84]:
"""
需要注意的是，单独一个冒号表示选择整个轴上的数组，
因此你可以按照下面的方式在更高维度上进行切片
"""
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [85]:
"""
当然对切片表达式赋值时，整个切片都会重新赋值：
"""
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

In [86]:
# 4.1.5 布尔索引

In [90]:
"""
让我们考虑以下例子，假设我们的数据都在数组中，
并且数组中的数据是一些存在重复的人名。
我会使用numpy.random中的randn函数来生成一些随机正态分布的数据
"""
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4)
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [88]:
data

array([[-0.09147707,  0.65720346,  0.05305393, -1.26317848],
       [ 0.56079902,  0.48533903, -0.09749071, -0.40050027],
       [-0.62937118, -0.55568491,  1.03140459,  0.31702133],
       [-0.16620565,  1.29659463, -0.07731763, -1.05218085],
       [-0.78727321,  0.10468512, -0.6411732 ,  0.47127012],
       [ 1.14251196,  0.76461633,  0.06598341, -0.92222286],
       [ 0.956505  , -0.66978118, -0.73792861, -2.50014972]])

In [91]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [92]:
data[names == 'Bob']

array([[-0.00399599, -0.42943434, -0.00457869, -0.74025028],
       [-1.03582416,  1.32620832,  1.34852919, -1.03600104]])