# numpy 创建 ndarray (n-dimensional array)

In [1]:
import numpy as np

print('使用普通一维数组生成NumPy一维数组')
data = [6, 7.5, 8, 0, 1]
arr = np.array(data)
print(arr)
print('打印元素类型')
print(arr.dtype)

使用普通一维数组生成NumPy一维数组
[ 6.   7.5  8.   0.   1. ]
打印元素类型
float64


In [2]:
print('使用普通二维数组生成NumPy二维数组')
data = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr = np.array(data)
print(arr)
print('打印数组维度')
print(arr.shape)

使用普通二维数组生成NumPy二维数组
[[1 2 3 4]
 [5 6 7 8]]
打印数组维度
(2L, 4L)


In [3]:
print('使用zeros/empty')
print(np.zeros(10)) # 生成包含10个0的一维数组
print(np.zeros((3, 6))) # 生成3*6的二维数组
print(np.empty((2, 3, 2))) # 生成2*3*2的三维数组，所有元素未初始化。

使用zeros/empty
[ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
[[ 0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.]]
[[[  1.18575755e-321   0.00000000e+000]
  [  0.00000000e+000   0.00000000e+000]
  [  0.00000000e+000   0.00000000e+000]]

 [[  0.00000000e+000   0.00000000e+000]
  [  0.00000000e+000   0.00000000e+000]
  [  0.00000000e+000   0.00000000e+000]]]


In [4]:
print('使用arrange生成连续元素')
print(np.arange(15)) # [0, 1, 2, ..., 14]

使用arrange生成连续元素
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


# numpy 数据类型

In [5]:
import numpy as np

print('生成数组时指定数据类型')
arr = np.array([1, 2, 3], dtype = np.float64)
print(arr.dtype)
arr = np.array([1, 2, 3], dtype = np.int32)
print(arr.dtype)

生成数组时指定数据类型
float64
int32


In [6]:
print('使用astype复制数组并转换数据类型')
int_arr = np.array([1, 2, 3, 4, 5])
float_arr = int_arr.astype(np.float)
print(int_arr.dtype)
print(float_arr.dtype)

使用astype复制数组并转换数据类型
int32
float64


In [7]:
print('使用astype将float转换为int时小数部分被舍弃')
float_arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
int_arr = float_arr.astype(dtype = np.int)
print(int_arr)

使用astype将float转换为int时小数部分被舍弃
[ 3 -1 -2  0 12 10]


In [8]:
print('使用astype把字符串转换为数组，如果失败抛出异常。')
str_arr = np.array(['1.25', '-9.6', '42'], dtype = np.string_)
float_arr = str_arr.astype(dtype = np.float)
print(float_arr)

使用astype把字符串转换为数组，如果失败抛出异常。
[  1.25  -9.6   42.  ]


In [9]:
print('astype使用其它数组的数据类型作为参数')
int_arr = np.arange(10)
float_arr = np.array([.23, 0.270, .357, 0.44, 0.5], dtype = np.float64)
print(int_arr.astype(float_arr.dtype))
print(int_arr[0], int_arr[1])  # astype做了复制，数组本身不变。

astype使用其它数组的数据类型作为参数
[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9.]
(0, 1)


# Operations between arrays and scalars

In [10]:
import numpy as np

# 数组乘法／减法，对应元素相乘／相减。
arr = np.array([[1.0, 2.0, 3.0], [4., 5., 6.]])
arr * arr

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [11]:
arr - arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [12]:
# 标量操作作用在数组的每个元素上
arr = np.array([[1.0, 2.0, 3.0], [4., 5., 6.]])
1 / arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

In [13]:
arr ** 0.5  # 开根号

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

# 基本索引和切片

In [14]:
import numpy as np

# 通过索引访问二维数组某一行或某个元素
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr[2])
print(arr[0][2])
print(arr[0, 2]) # 普通Python数组不能用, Numpy特有的写法，效果和上一行一样

[7 8 9]
3
3


In [15]:
# 对更高维数组的访问和操作
arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr.shape)
arr

(2L, 2L, 3L)


array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [16]:
print(arr[0].shape)
arr[0]  # 结果是个2维数组

(2L, 3L)


array([[1, 2, 3],
       [4, 5, 6]])

In [17]:
print(arr[1, 0].shape)
arr[1, 0] # 结果是个2维数组 ???

(3L,)


array([7, 8, 9])

In [18]:
old_values = arr[0].copy()  # 复制arr[0]的值
arr[0] = 42 # 把arr[0]所有的元素都设置为同一个值
arr

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [19]:
arr[0] = old_values # 把原来的数组写回去
arr

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [20]:
#使用切片访问和操作数组

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
arr[1:6] # 打印元素arr[1]到arr[5]

array([2, 3, 4, 5, 6])

In [21]:
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr[:2] # 打印第1、2行

array([[1, 2, 3],
       [4, 5, 6]])

In [22]:
arr[:2, 1:] # 打印第1、2行，第2、3列

array([[2, 3],
       [5, 6]])

In [23]:
arr[:, :1]  # 打印第一列的所有元素

array([[1],
       [4],
       [7]])

In [24]:
print(arr)
arr[:2, 1:] = 0 # 第1、2行，第2、3列的元素设置为0
arr

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

# boolean indexing

In [25]:
import numpy as np
import numpy.random as np_random

print '使用布尔数组作为索引'
name_arr = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
rnd_arr = np_random.randn(7, 4) # 随机7*4数组
rnd_arr

使用布尔数组作为索引


array([[ 1.24247887, -0.49331447,  0.90338733,  0.36949535],
       [-0.73536228,  0.39704435, -1.44870951, -1.3662859 ],
       [ 0.26954955,  0.02381796, -1.54020906, -0.02161121],
       [ 0.11428104, -1.34006857,  0.88230236,  0.14169866],
       [-0.93220977, -0.70196244, -0.46290321, -1.13325656],
       [-1.04431613, -0.1313138 ,  0.13935642, -0.71161923],
       [-0.73656279, -1.01375543, -2.55794766, -1.41029853]])

In [26]:
name_arr == 'Bob' # 返回布尔数组，元素等于'Bob'为True，否则False。

array([ True, False, False,  True, False, False, False], dtype=bool)

In [27]:
rnd_arr[name_arr == 'Bob']  # 利用布尔数组选择行

array([[ 1.24247887, -0.49331447,  0.90338733,  0.36949535],
       [ 0.11428104, -1.34006857,  0.88230236,  0.14169866]])

In [28]:
rnd_arr[name_arr == 'Bob', :2]  # 增加限制打印列的范围

array([[ 1.24247887, -0.49331447],
       [ 0.11428104, -1.34006857]])

In [29]:
rnd_arr[~(name_arr == 'Bob')] # 对布尔数组的内容取反

array([[-0.73536228,  0.39704435, -1.44870951, -1.3662859 ],
       [ 0.26954955,  0.02381796, -1.54020906, -0.02161121],
       [-0.93220977, -0.70196244, -0.46290321, -1.13325656],
       [-1.04431613, -0.1313138 ,  0.13935642, -0.71161923],
       [-0.73656279, -1.01375543, -2.55794766, -1.41029853]])

In [30]:
mask_arr = (name_arr == 'Bob') | (name_arr == 'Will') # 逻辑运算混合结果
rnd_arr[mask_arr]

array([[ 1.24247887, -0.49331447,  0.90338733,  0.36949535],
       [ 0.26954955,  0.02381796, -1.54020906, -0.02161121],
       [ 0.11428104, -1.34006857,  0.88230236,  0.14169866],
       [-0.93220977, -0.70196244, -0.46290321, -1.13325656]])

In [31]:
rnd_arr[name_arr != 'Joe'] = 7  # 先布尔数组选择行，然后把每行的元素设置为7。
rnd_arr

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [-0.73536228,  0.39704435, -1.44870951, -1.3662859 ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [-1.04431613, -0.1313138 ,  0.13935642, -0.71161923],
       [-0.73656279, -1.01375543, -2.55794766, -1.41029853]])

# Fancy Indexing: 使用整数数组作为索引

In [32]:
import numpy as np

arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

In [33]:
print arr[[4, 3, 0, 6]] # 打印arr[4]、arr[3]、arr[0]和arr[6]。
print arr[[-3, -5, -7]] # 打印arr[-3]、arr[-5]和arr[-7]行

[[ 4.  4.  4.  4.]
 [ 3.  3.  3.  3.]
 [ 0.  0.  0.  0.]
 [ 6.  6.  6.  6.]]
[[ 5.  5.  5.  5.]
 [ 3.  3.  3.  3.]
 [ 1.  1.  1.  1.]]


In [34]:
arr = np.arange(32).reshape((8, 4))  # 通过reshape变换成二维数组
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [35]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]] # 打印arr[1, 0]、arr[5, 3]，arr[7, 1]和arr[2, 2]

array([ 4, 23, 29, 10])

In [36]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]  # 1572行的0312列

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [37]:
arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])] # 可读性更好的写法

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])