In [1]:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [4]:
%time for _ in range(10): my_arr2 = my_arr * 2

Wall time: 20 ms


In [5]:
%time for _ in range(10): my_list2 = my_list * 2

Wall time: 152 ms


In [6]:
data = np.random.randn(2,3)

In [7]:
data

array([[-1.54078807, -0.58329257, -0.35027627],
       [ 2.5651516 , -0.46503048,  1.084692  ]])

In [8]:
data * 10

array([[-15.40788068,  -5.83292573,  -3.50276268],
       [ 25.65151601,  -4.65030478,  10.84691996]])

In [9]:
data + data

array([[-3.08157614, -1.16658515, -0.70055254],
       [ 5.1303032 , -0.93006096,  2.16938399]])

In [10]:
# shape 表示各维度大小
data.shape

(2, 3)

In [11]:
# dtype 表示数组数据类型
data.dtype

dtype('float64')

In [30]:
# 创建ndarray对象
data1 = [6,7,8]
arr1 = np.array(data1)

In [31]:
arr1

array([6, 7, 8])

In [23]:
data2 = [[1.23,1.1,2.33],[2.1,2.4,1.22]]
arr2 = np.array(data2)

In [24]:
arr2

array([[1.23, 1.1 , 2.33],
       [2.1 , 2.4 , 1.22]])

In [25]:
arr2.shape

(2, 3)

In [26]:
arr2.ndim

2

In [32]:
arr1.shape

(3,)

In [33]:
arr1.dtype

dtype('int32')

In [34]:
arr2.dtype

dtype('float64')

In [35]:
# 创建全是0数组
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [37]:
# 创建全是1的数组
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [38]:
# arange 是 python内置函数range的数组版
np.arange(20)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [5]:
# np.array() 将输入数据(列表、元组、数组或其他序列类型)转换为ndarry。要么推断出dtype 要么特别指定dtype 默认直接复制输入数据
# np.asarray() 将输入转换为ndarray，如果输入本身就是一个ndarray就不进行复制
# np.arange() 类似于内置的range，但是返回的是一个ndarray而不是列表
# ones() 、ones_like() 依据指定的形状和dtype创建一个全1数组。one_like以另一个数组为参数，并依据其形状和dtype创建一个全1的数组
# zeros() 、zeros_like() 类似于ones() 和 ones_like() 只不过产生的是全0数组而已
# empty() 、empty_like() 创建新数组，只分配内存空间，但不填充任何值
# full() 、full_like() 用fill_value中的所有值，根据指定的形状和dtype创建一个数组。full_like()使用另一个数组，用相同的形状和dtype创建
# eye() 、identity() 创建一个正方形N*N单位矩阵(对角线是1，其余为0)
full_array = np.full((2,5),7)
eye_array = np.eye(3) 

In [6]:
full_array

array([[7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7]])

In [7]:
eye_array

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [8]:
# NumPy数据类型
# 类型                    类型代码            说明
# int8、uint8             i1、u1              有符号和无符号的8位(1个字节)整形
# int16、uint16           i2、u2              有符号和无符号的16位(2个字节)整形
# int32、uint32           i4、u4              有符号和无符号的32位(4个字节)整形
# int64、uint64           i8、u8              有符号和无符号的64位(8个字节)整形
# float16                 f2                  半精度浮点数
# float32                 f4或f               标准的单精度浮点数。与C的float兼容
# float64                 f8或d               标准的双精度浮点数。与C的double和Python的float对象兼容
# float128                f16或g              扩展精度浮点数
# complex64、complex128、comple256   c8、c16、c32    分别用两个32位、64位、或128位浮点数标识的复数
# bool                    ?                   存储True和False值的布尔类型
# object                  O                   Python对象类型
# string_                 S                   固定长度的字符串，每个字符1个字节.例如要创建一个长度为10的字符串，应使用S10
# unicode_                U                   固定长度的unicode类型(字节数由ing太决定)，跟字符串的定义方式一样，如U10

# astype() 将数组从一个dtype转换成另一个dtype
# astype 总会创建一个新的数组（一个数据备份），即使新的dtype与旧的dtype相同
arr_before = np.array([1,2,3,4,5,6])

In [9]:
arr_before.dtype

dtype('int32')

In [10]:
arr_after = arr_before.astype(np.float64)

In [11]:
arr_before

array([1, 2, 3, 4, 5, 6])

In [12]:
arr_after

array([1., 2., 3., 4., 5., 6.])

In [13]:
# 使用string_类型时要小心，因为字符串数据大小固定，发生截取时不会发出警告
# 可以使用类型代码声明类型
empty_array = np.empty((2,4),dtype='u4')

In [14]:
empty_array

array([[         0,          0, 1438110032,          0],
       [         2,          0, 4294967295, 4294967295]], dtype=uint32)

In [16]:
# NumPy数组运算
# 大小相等的数组之间的任何运算都会将运算应用到元素级
arr = np.array([[1,2,3,4],[1.2,2.3,3.4,6]])

In [17]:
arr

array([[1. , 2. , 3. , 4. ],
       [1.2, 2.3, 3.4, 6. ]])

In [18]:
arr.dtype

dtype('float64')

In [19]:
arr * arr

array([[ 1.  ,  4.  ,  9.  , 16.  ],
       [ 1.44,  5.29, 11.56, 36.  ]])

In [20]:
arr - arr

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [21]:
1/arr

array([[1.        , 0.5       , 0.33333333, 0.25      ],
       [0.83333333, 0.43478261, 0.29411765, 0.16666667]])

In [22]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081, 2.        ],
       [1.09544512, 1.51657509, 1.84390889, 2.44948974]])

In [26]:
arr2 = [[3.2,11,23,1],[23,11,21,1]]

In [27]:
arr2

[[3.2, 11, 23, 1], [23, 11, 21, 1]]

In [28]:
arr > arr2

array([[False, False, False,  True],
       [False, False, False,  True]])

In [29]:
# 数组的索引和切片
# 一维数组跟python的列表功能差不多
arr = np.arange(10)

In [30]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [31]:
arr[7]

7

In [32]:
arr[5:8]

array([5, 6, 7])

In [33]:
# 将一个标量赋值给一个切片是，该值会自动传播(广播)到整个选区。跟列表最重要的区别在于，数组切片时原始数组的视图，意味数据不会被复制，视图上的任何修改都会直接反映到源数组上
arr[5:8] = 12

In [34]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [36]:
arr_slice = arr[5:8]

In [37]:
arr_slice

array([12, 12, 12])

In [39]:
arr_slice[2] = 666

In [40]:
arr

array([  0,   1,   2,   3,   4,  12,  12, 666,   8,   9])

In [41]:
# 切片[:]会给数组中的所有值赋值
arr_slice[:] = 777

In [42]:
arr

array([  0,   1,   2,   3,   4, 777, 777, 777,   8,   9])

In [43]:
# NumPy设计目的是为了处理大数据，这么做的目的是为了减少复制操作的内存和性能消耗.
# 要复制数组 但不改变源数据的方法.copy() 。 不同点在于 切片得到的时视图，.copy()的的送的时ndarray的副本
arr_slice2 = arr[6:-1].copy()

In [44]:
arr_slice2

array([777, 777,   8])

In [45]:
arr_slice2[:] = 765

In [46]:
arr

array([  0,   1,   2,   3,   4, 777, 777, 777,   8,   9])

In [63]:
# 对于高纬度数组，对各个元素进行递归访问，可以传入一个以逗号隔开的索引来获取单个元素
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [64]:
arr2d[0][2]

3

In [65]:
arr2d[0,2]

3

In [66]:
# 多为数组的切片选区类似
arr2d[:2,:2]

array([[1, 2],
       [4, 5]])

In [67]:
arr2d[1,2:]

array([6])

In [75]:
# 布尔型索引
names = np.array(['bob','jone','weili','zanmis','wuhua','bili'])
data = np.random.randn(6,4)

In [76]:
names

array(['bob', 'jone', 'weili', 'zanmis', 'wuhua', 'bili'], dtype='<U6')

In [77]:
data

array([[ 0.71916134, -0.31119011,  0.19413629, -0.18376815],
       [ 0.25445172, -0.78387908, -0.22048303,  0.63476854],
       [ 0.41674874, -0.64881859,  0.32138403, -1.14473791],
       [ 0.22715746,  0.29402456, -0.29493564, -0.7822341 ],
       [-0.60054128, -0.52136064,  0.74065381,  0.38616305],
       [ 1.84861132,  1.3580076 , -0.11928621,  0.2550122 ]])

In [78]:
names == 'wuhua'

array([False, False, False, False,  True, False])

In [79]:
# 上面的布尔值可用于索引
# 布尔型数组的长苏必须跟被索引的轴长保持一致，此外，可以将布尔型数组与切片、整数混合使用
data[names == 'wuhua']

array([[-0.60054128, -0.52136064,  0.74065381,  0.38616305]])

In [80]:
data[names == 'weili',:3]

array([[ 0.41674874, -0.64881859,  0.32138403]])

In [81]:
data[names != 'zanmis',:3]

array([[ 0.71916134, -0.31119011,  0.19413629],
       [ 0.25445172, -0.78387908, -0.22048303],
       [ 0.41674874, -0.64881859,  0.32138403],
       [-0.60054128, -0.52136064,  0.74065381],
       [ 1.84861132,  1.3580076 , -0.11928621]])

In [82]:
data[~(names == 'jone')]

array([[ 0.71916134, -0.31119011,  0.19413629, -0.18376815],
       [ 0.41674874, -0.64881859,  0.32138403, -1.14473791],
       [ 0.22715746,  0.29402456, -0.29493564, -0.7822341 ],
       [-0.60054128, -0.52136064,  0.74065381,  0.38616305],
       [ 1.84861132,  1.3580076 , -0.11928621,  0.2550122 ]])

In [84]:
# 花式索引 
# NumPy中的术语，指利用整数数组进行索引
arr = np.empty((8,5))

In [96]:
for i in range(8):
    for _ in range(5):
        arr[i,_] = i + _* 0.1

In [97]:
arr

array([[0. , 0.1, 0.2, 0.3, 0.4],
       [1. , 1.1, 1.2, 1.3, 1.4],
       [2. , 2.1, 2.2, 2.3, 2.4],
       [3. , 3.1, 3.2, 3.3, 3.4],
       [4. , 4.1, 4.2, 4.3, 4.4],
       [5. , 5.1, 5.2, 5.3, 5.4],
       [6. , 6.1, 6.2, 6.3, 6.4],
       [7. , 7.1, 7.2, 7.3, 7.4]])

In [89]:
# 以特定顺序选区子集
arr[[4,6,7,2]]

array([[4. , 4.1, 4.2, 4.3, 4.4],
       [6. , 6.1, 6.2, 6.3, 6.4],
       [7. , 7.1, 7.2, 7.3, 7.4],
       [2. , 2.1, 2.2, 2.3, 2.4]])

In [91]:
# 一次传入多个索引数组，会有一点特别——返回一个一维数组
arr[[4,6,7,2],[2,3,1,0]]

array([4.2, 6.3, 7.1, 2. ])

In [102]:
# 返回的元素是[4,2]、[6,3]、[7,1]、[2,0]
# 花式索引跟切片不一样，它总是将数据复制到新数组中 =》呸
arr_slice =  arr[[4,6,7,2],[2,3,1,0]]

In [103]:
arr_slice

array([4.2, 6.3, 7.1, 2. ])

In [104]:
arr_slice = 7

In [106]:
arr_slice

7

In [107]:
arr

array([[0. , 0.1, 0.2, 0.3, 0.4],
       [1. , 1.1, 1.2, 1.3, 1.4],
       [2. , 2.1, 2.2, 2.3, 2.4],
       [3. , 3.1, 3.2, 3.3, 3.4],
       [4. , 4.1, 4.2, 4.3, 4.4],
       [5. , 5.1, 5.2, 5.3, 5.4],
       [6. , 6.1, 6.2, 6.3, 6.4],
       [7. , 7.1, 7.2, 7.3, 7.4]])

In [108]:
# 无论数组是多少维的，花式索引总是一维的
# 要想得到矩阵的行列子集，下面是一个办法
arr[[4,6,7,2]][:,[3,0,1]]

array([[4.3, 4. , 4.1],
       [6.3, 6. , 6.1],
       [7.3, 7. , 7.1],
       [2.3, 2. , 2.1]])

In [110]:
# 数组的转置和轴兑换
# 转置(transpose)是重塑的一种特殊形式，他返回的是源数据的视图(不会进行任何复制操作)
# 数组不仅有transpose方法，还有一个特殊T属性
# reshape 方法
arr = np.arange(28).reshape((4,7))

In [111]:
arr

array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12, 13],
       [14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27]])

In [112]:
arr.T

array([[ 0,  7, 14, 21],
       [ 1,  8, 15, 22],
       [ 2,  9, 16, 23],
       [ 3, 10, 17, 24],
       [ 4, 11, 18, 25],
       [ 5, 12, 19, 26],
       [ 6, 13, 20, 27]])

In [120]:
arr.transpose()

array([[ 0,  7, 14, 21],
       [ 1,  8, 15, 22],
       [ 2,  9, 16, 23],
       [ 3, 10, 17, 24],
       [ 4, 11, 18, 25],
       [ 5, 12, 19, 26],
       [ 6, 13, 20, 27]])

In [121]:
# 利用np.dot计算矩阵内积
np.dot(arr.T,arr)

array([[ 686,  728,  770,  812,  854,  896,  938],
       [ 728,  774,  820,  866,  912,  958, 1004],
       [ 770,  820,  870,  920,  970, 1020, 1070],
       [ 812,  866,  920,  974, 1028, 1082, 1136],
       [ 854,  912,  970, 1028, 1086, 1144, 1202],
       [ 896,  958, 1020, 1082, 1144, 1206, 1268],
       [ 938, 1004, 1070, 1136, 1202, 1268, 1334]])

In [132]:
# 对于高维数组，transpose 需要得到一个由轴编号组成的元组才能对这些轴进行转置
arr = np.arange(24).reshape((2,3,4))

In [133]:
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [128]:
arr.transpose((1,0,2))

array([[[ 0,  1,  2,  3],
        [12, 13, 14, 15]],

       [[ 4,  5,  6,  7],
        [16, 17, 18, 19]],

       [[ 8,  9, 10, 11],
        [20, 21, 22, 23]]])

In [129]:
arr.T

array([[[ 0, 12],
        [ 4, 16],
        [ 8, 20]],

       [[ 1, 13],
        [ 5, 17],
        [ 9, 21]],

       [[ 2, 14],
        [ 6, 18],
        [10, 22]],

       [[ 3, 15],
        [ 7, 19],
        [11, 23]]])

In [130]:
arr.swapaxes(1,2)

array([[[ 0,  4,  8],
        [ 1,  5,  9],
        [ 2,  6, 10],
        [ 3,  7, 11]],

       [[12, 16, 20],
        [13, 17, 21],
        [14, 18, 22],
        [15, 19, 23]]])

In [139]:
# 通用函数:快速的元素及数组函数
arr = np.arange(10)
arr2 = np.arange(15).reshape((3,5))
arr3 = np.arange(60).reshape((3,4,5))

In [140]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [141]:
arr2

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [142]:
arr3

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34],
        [35, 36, 37, 38, 39]],

       [[40, 41, 42, 43, 44],
        [45, 46, 47, 48, 49],
        [50, 51, 52, 53, 54],
        [55, 56, 57, 58, 59]]])

In [143]:
# 计算各元素的平方根 相当于arr ** 0.5
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [144]:
# 计算各元素的指数 eˆx
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

In [145]:
x = np.random.rand(8)
y = np.random.rand(8)

In [146]:
x

array([0.75766057, 0.51854939, 0.9053875 , 0.43039016, 0.5474128 ,
       0.856498  , 0.93468339, 0.0933862 ])

In [147]:
y

array([0.24773009, 0.58348431, 0.86581861, 0.74858102, 0.33818572,
       0.12726169, 0.88799952, 0.13567283])

In [148]:
# 最大值
np.maximum(x,y)

array([0.75766057, 0.58348431, 0.9053875 , 0.74858102, 0.5474128 ,
       0.856498  , 0.93468339, 0.13567283])

In [149]:
# 小数和整数部分以两个独立的数组返回
remainder , whole_part = np.modf(arr)

In [150]:
remainder

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [151]:
whole_part

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [160]:
# 计算平方根 并赋值
np.sqrt(x,x)

array([0.96590483, 0.92118905, 0.98765283, 0.89997986, 0.92744757,
       0.98082335, 0.99159212, 0.74350747])

In [None]:
# 