In [1]:
##2.How to create a numpy array

import numpy as np
list1 = [0, 1, 2, 3, 4]
arr1d = np.array(list1)

print(type(arr1d))
arr1d

<class 'numpy.ndarray'>


array([0, 1, 2, 3, 4])

In [2]:
#array和list之间的区别是：array被设计用于向量化操作，这意味着：
#如果apply a function，那么function将会被用于每一个元素，而不是array对象
arr1d + 2

array([2, 3, 4, 5, 6])

In [3]:
#另外一个特性是：一旦numpy array被创建，不能增加大小，想要增加，必须创建一个新的array，
#但如果是list，可以直接改变大小
list2 = [[0,1,2], [3,4,5], [6,7,8]]
arr2d = np.array(list2)
arr2d

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [4]:
#创建指定数据类型的array，常见的数据类型有：‘float’,‘int’,'bool','str'和‘object’
#此外，数据类型还有‘float32’,'float64','int8','int16'或‘int32’
arr2d_f = np.array(list2, dtype='float')
arr2d_f

array([[ 0.,  1.,  2.],
       [ 3.,  4.,  5.],
       [ 6.,  7.,  8.]])

In [5]:
#可以通过 astype 关键字来转换数据类型
arr2d_f.astype('int')

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [6]:
#先转换成‘int’，再转换成‘str’
arr2d_f.astype('int').astype('str')

array([['0', '1', '2'],
       ['3', '4', '5'],
       ['6', '7', '8']], 
      dtype='<U21')

In [7]:
#一个numpy array的所有items必须是同一数据类型，这一点不同于list，这是一个重要的不同
#如果不确定使用哪种数据类型，想同时保存characters和numbers，可以把dtype设为‘object’
arr1d_obj = np.array([1, 'a'], dtype='object')
arr1d_obj

array([1, 'a'], dtype=object)

In [8]:
#下面是创建一个'bool'类型array的方法
arr1d_b = np.array([1, 0, 10], dtype='bool')
arr1d_b

array([ True, False,  True], dtype=bool)

In [9]:
#转换array到list的方法：使用tolist()
arr1d_obj.tolist()

[1, 'a']

In [10]:
arr2d.tolist()

[[0, 1, 2], [3, 4, 5], [6, 7, 8]]

In [11]:
##3.How to inspect the size and shape of a numpy array?

list2 = [[1, 2, 3, 4], [3, 4, 5, 6], [5, 6, 7, 8]]
arr2 = np.array(list2, dtype='float')
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3.,  4.,  5.,  6.],
       [ 5.,  6.,  7.,  8.]])

In [12]:
#打印shape, dtype, size, ndim
print("Shape: ", arr2.shape)

print("Datatype ", arr2.dtype)

print("Size: ", arr2.size)

print("Num Dimensions: ", arr2.ndim)


Shape:  (3, 4)
Datatype  float64
Size:  12
Num Dimensions:  2


In [13]:
##4.How to extract specific items from an array?

arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3.,  4.,  5.,  6.],
       [ 5.,  6.,  7.,  8.]])

In [14]:
#使用索引、切片来获取

#提取前两行、前两列
arr2[:2, :2]

#这一条会报错: list2[:2, :2]  

array([[ 1.,  2.],
       [ 3.,  4.]])

In [15]:
#numpy还支持boolean索引，一个boolean类型的索引array和待过滤的array的shape一样，
#但它只含True和False

b = arr2 > 4
b

array([[False, False, False, False],
       [False, False,  True,  True],
       [ True,  True,  True,  True]], dtype=bool)

In [16]:
#现在用相同shape的b去过滤arr2，只会保留True positions的值
arr2[b]

array([ 5.,  6.,  5.,  6.,  7.,  8.])

In [17]:
##4.1 How to reverse the rows and the whole array
##    如何颠倒 array的行 和 整个array

#只颠倒行
arr2[::-1,]

array([[ 5.,  6.,  7.,  8.],
       [ 3.,  4.,  5.,  6.],
       [ 1.,  2.,  3.,  4.]])

In [18]:
#颠倒行和列
arr2[::-1, ::-1]

array([[ 8.,  7.,  6.,  5.],
       [ 6.,  5.,  4.,  3.],
       [ 4.,  3.,  2.,  1.]])

In [19]:
##4.2 How to represent missing values and infinite
##    如何表示丢失的值和无穷

#缺失的值可以用objet np.nan 表示，np.inf表示无穷
arr2[1,1] = np.nan #not a number
arr2[1,2] = np.inf
arr2

array([[  1.,   2.,   3.,   4.],
       [  3.,  nan,  inf,   6.],
       [  5.,   6.,   7.,   8.]])

In [20]:
#把 nan和inf 用-1来代替，不使用 arr2 == np.nan
missing_bool = np.isnan(arr2) | np.isinf(arr2)
arr2[missing_bool] = -1
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., -1., -1.,  6.],
       [ 5.,  6.,  7.,  8.]])

In [21]:
##4.3 How to compute mean, min, max on the ndarray?
##    如何在ndarray上计算均值，最小值，最大值

#可以直接调用对应的方法计算整个array的均值，最小值，最大值
print("Mean value is: ", arr2.mean())
print("Max value is: ", arr2.max())
print("Min value is: ", arr2.min())

Mean value is:  3.58333333333
Max value is:  8.0
Min value is:  -1.0


In [22]:
#如果计算对应行，列，可用：np.amin()
print("Column wise minimum: ", np.amin(arr2, axis=0))
print("Row wise minimum: ", np.amin(arr2, axis=1))

print("Column wise maximum: ", np.amax(arr2, axis=0))
print("Row wise maximum: ", np.amax(arr2, axis=1))

Column wise minimum:  [ 1. -1. -1.  4.]
Row wise minimum:  [ 1. -1.  5.]
Column wise maximum:  [ 5.  6.  7.  8.]
Row wise maximum:  [ 4.  6.  8.]


In [23]:
#计算累计的和
np.cumsum(arr2)

array([  1.,   3.,   6.,  10.,  13.,  12.,  11.,  17.,  22.,  28.,  35.,
        43.])

In [24]:
##5. How to create a new array from an existing array
##   如何从现有的array创建一个新的array

#如果你把一个array的一部分赋予array_new，那么新创建的arrar_new实际指向了原来内存
#中的array，任何在array_new上的操作都会影响parent array

#我们要借助 copy() 方法来完成复制，所有的numpy arrays都从copy() 方法而来

arr2b = arr2[:2, :2].copy()
arr2b[:1,:1] = 101
arr2b

array([[ 101.,    2.],
       [   3.,   -1.]])

In [25]:
##6. Reshaping and Flatteing Multidimensional arrays
##   改变数组的形状，把多维数组变扁平(变成一维数组)

arr2.reshape(4,3)

array([[ 1.,  2.,  3.],
       [ 4.,  3., -1.],
       [-1.,  6.,  5.],
       [ 6.,  7.,  8.]])

In [26]:
##6.1 flatten() 和 ravel()有什么区别

#flatten() 和 ravel() 都能将多维数组变成一维数组，不同的是：通过ravel()的到新数组
#仍然指向parent数组，任何对新数组的操作都会影响parent数组，而flatten()则不会这样

b1 = arr2.flatten()
b1[0] = 100
arr2

array([[ 1.,  2.,  3.,  4.],
       [ 3., -1., -1.,  6.],
       [ 5.,  6.,  7.,  8.]])

In [27]:
b2 = arr2.ravel()
b2[0] = 100
arr2

array([[ 100.,    2.,    3.,    4.],
       [   3.,   -1.,   -1.,    6.],
       [   5.,    6.,    7.,    8.]])

In [28]:
##7. How to create sequences, repetitions and random numbers using numpy
##   如何用numpy创建序列、重复数以及随机数

#可以使用 np.arange() 方法，很方便的创建number sequences

# 起始数默认是0
print(np.arange(5))

# 0到9
print(np.arange(0, 10))

# 0到9，步长为2
print(np.arange(0, 10, 2))

# 10到1，递减顺序
print(np.arange(10, 0, -1))

[0 1 2 3 4]
[0 1 2 3 4 5 6 7 8 9]
[0 2 4 6 8]
[10  9  8  7  6  5  4  3  2  1]


In [29]:
#使用 np.linspage() 方法，很方便，不用计算补偿，只需指定start, stop, num
#num代表数的个数

np.linspace(start=1, stop=50, num=10, dtype='int')

#注意：由于强制dtype为int，由于取整，数据可能不等间距

array([ 1,  6, 11, 17, 22, 28, 33, 39, 44, 50])

In [30]:
#有一个和 np.linspace() 类似的方法，np.logspace，指定start、stop、num、base
#数据的值其实是：base^start 到 base^stop，base默认是10

# 先设小数点后两位小数
np.set_printoptions(precision=2)

# 从10^1开始，结束与10^50
np.logspace(start=1, stop=50, num = 10, base=10)

array([  1.00e+01,   2.78e+06,   7.74e+11,   2.15e+17,   5.99e+22,
         1.67e+28,   4.64e+33,   1.29e+39,   3.59e+44,   1.00e+50])

In [31]:
#通过 np.zeros() 和 np.ones() 创建全为0或全为1的数组
print(np.zeros([2,2]))
print(np.ones([2,2]))

[[ 0.  0.]
 [ 0.  0.]]
[[ 1.  1.]
 [ 1.  1.]]


In [32]:
##7.1 How to create repeating sequences
##    如何创建重复序列

# np.tile() 重复整个list或array n次，而 np.repeat() 重复每个item n次
a = [1, 2, 3]
array_a = np.array(a)
print("Tile: ", np.tile(a, 2))

print("Repeat: ", np.repeat(array_a, 2))

Tile:  [1 2 3 1 2 3]
Repeat:  [1 1 2 2 3 3]


In [33]:
##7.2 How to generate random numbers
##    如何产生随机数

# 可以通过 random模块 产生随机数，或随机分布，shape任意

# [0,1)的随机数，shape 2,2
print(np.random.rand(2,2))

# 正太分布，均值为0，方差为1，shape 2,2
print(np.random.randn(2,2))

# [0,10)的随机数，shape 2,2
print(np.random.randint(1, 10, size=[2,2]))

# 一个随机数，[0,1)
print(np.random.random())

# [0,1)的随机数，shape 2,2
print(np.random.random(size=[2,2]))

# 从给定的list中选10个items，等概率
print(np.random.choice(['a', 'e', 'i', 'o', 'u'], size=10))

# 从给定的list中选10个items，自己设定概率
print(np.random.choice(['a', 'e', 'i', 'o', 'u'], size=10, p=[0.3, 0.1, 0.1, 0.4, 0.1]))

[[ 0.19  0.49]
 [ 0.69  0.33]]
[[-2.14  0.78]
 [-0.    1.54]]
[[3 3]
 [7 6]]
0.6418675614358623
[[ 0.95  0.55]
 [ 0.41  0.69]]
['u' 'o' 'o' 'u' 'i' 'u' 'e' 'e' 'u' 'i']
['a' 'u' 'e' 'a' 'o' 'e' 'i' 'u' 'o' 'o']


In [34]:
#每次运行上面的代码，结果都不一样，如果想重复同一批的随机数，需要设定seed或random
#state，seed可以任意value，唯一要求是：当需要得到同一批的随机数时，设定同一个seed

# 创建random state
rn = np.random.RandomState(100)

# 创建[0,1)的随机数，shape 2,2
print(rn.rand(2,2))

# 设random seed
np.random.seed(100)

# 创建[0,1)的随机数，shape 2,2
print(np.random.rand(2,2))

[[ 0.54  0.28]
 [ 0.42  0.84]]
[[ 0.54  0.28]
 [ 0.42  0.84]]


In [35]:
##7.3 How to get unique items and the counts
##    如何得到不同的items，并计数

#通过 np.unique() 来完成，如果要返回计数，设置 return_counts = True
np.random.seed(100)
arr_rand = np.random.randint(2, 8, size=[5,5])
print(arr_rand)

#得到不一样的数，并计数
uniqs, counts = np.unique(arr_rand, return_counts=True)
print("Uniqs: ", uniqs)
print("Counts: ", counts)


[[2 2 5 2 4]
 [6 4 7 4 4]
 [4 3 2 2 6]
 [5 6 4 2 5]
 [3 7 4 5 6]]
Uniqs:  [2 3 4 5 6 7]
Counts:  [6 2 7 4 4 2]
