In [1]:
##1. How to get index locations that satisfy a given condition using
##   np.where
##   如何用 np.where 得到满足给定条件的索引位置

import numpy as np
arr_rand = np.array([8, 8, 3, 7, 7, 0, 4, 2, 5, 2])
print("Array: ", arr_rand)

# 找到 value>5 的索引
index_gt5 = np.where(arr_rand > 5)
print("Positions where value > 5: ", index_gt5)

# 使用array的 take 方法取出
arr_rand.take(index_gt5)


Array:  [8 8 3 7 7 0 4 2 5 2]
Positions where value > 5:  (array([0, 1, 3, 4]),)


array([[8, 8, 7, 7]])

In [2]:
arr_rand[index_gt5]

array([8, 8, 7, 7])

In [3]:
# thankfully，np.where 还接收两个可选参数X、y，YIELD x，否则y

# 如果值大于5，then yield 'gt5' 否则 ‘le5’
np.where(arr_rand > 5, 'gt5', 'le5')

array(['gt5', 'gt5', 'le5', 'gt5', 'gt5', 'le5', 'le5', 'le5', 'le5', 'le5'], 
      dtype='<U3')

In [4]:
# 通过 np.argmax() 和 np.argmin() 找到最大数、最小数的索引
print("Position of max value: ", np.argmax(arr_rand))
print("Position of min value: ", np.argmin(arr_rand))

Position of max value:  0
Position of min value:  5


In [5]:
##2. How to import and export data as a csv file
##   如何导入、导出csv文件

#一种导入datasets的方法是使用 np.genfromtxt() 方法，它能从网络URLS导入datasets，
#从本地导入datasets，还能处理缺失数据，分隔符，处理不规则的列数等

#而另一个 np.loadtxt() 方法，假定数据集没有缺失值

#下面读取一个 .csv 类型的文件，由于numpy中所有数据都应该是统一数据类型，因为最后一列
#是text，要被默认imported为 'nan'

# 关闭科学计数法
np.set_printoptions(suppress=True)

# 从一个 .csv 文件url导入数据
path = 'https://raw.githubusercontent.com/selva86/datasets/master/Auto.csv'
data = np.genfromtxt(path, delimiter=",", skip_header=1, filling_values=-999, dtype="float")
data[:3]  #展示前3行数据

array([[   18. ,     8. ,   307. ,   130. ,  3504. ,    12. ,    70. ,
            1. ,  -999. ],
       [   15. ,     8. ,   350. ,   165. ,  3693. ,    11.5,    70. ,
            1. ,  -999. ],
       [   18. ,     8. ,   318. ,   150. ,  3436. ,    11. ,    70. ,
            1. ,  -999. ]])

In [6]:
##2.1 How to handle datasets that have both numbers and text columns
##    如何处理既有number列、又有text列的dataset

#如果必须保留text列，可以把 dtype 设置为 ‘object’ 或 None
#data2 = np.genfromtxt(path, delimiter=",", skip_header=1, dtype="object")
data2 = np.genfromtxt(path, delimiter=",", skip_header=1, dtype=None)
data2[:3]

array([( 18., 8,  307., 130, 3504,  12. , 70, 1, b'"chevrolet chevelle malibu"'),
       ( 15., 8,  350., 165, 3693,  11.5, 70, 1, b'"buick skylark 320"'),
       ( 18., 8,  318., 150, 3436,  11. , 70, 1, b'"plymouth satellite"')], 
      dtype=[('f0', '<f8'), ('f1', '<i8'), ('f2', '<f8'), ('f3', '<i8'), ('f4', '<i8'), ('f5', '<f8'), ('f6', '<i8'), ('f7', '<i8'), ('f8', 'S38')])

In [7]:
#最后，通过 np.savetxt() 方法即可把array exported as .csv 文件
np.savetxt("/Users/andy/Desktop/out.csv", data, delimiter=",")

In [8]:
##3. How to save and load numpy objects?
##   如何保存、加载numpy对象

#有时候，需要保存大规模的转换后的numpy数组到磁盘，或重新导入控制台（without having
#the re-run the data transformations code）

#numpy提供 .npy 和 .npz 两种文件类型来达到这个目的

#如果需要存储单个ndarray对象，使用 np.save() 将它存储为 .npy类型的文件，可用
#np.load() 将它重新导入

#如果需要存储 多于一个ndarray对象 为 单个文件，可用 np.savez() 将它存储为 .npz类型
#的文件

list2_a = [[0,1,2], [3,4,5], [6,7,8]]
arr2d_a = np.array(list2_a)

list2_b = [[11,12], [22,24]]
arr2d_b = np.array(list2_b)

np.save("/Users/andy/Desktop/myarray.npy", arr2d_a)

#save多个
np.savez("/Users/andy/Desktop/array.npz", arr2d_a, arr2d_b)

In [9]:
#load back .npy 文件
a = np.load("/Users/andy/Desktop/myarray.npy")
print(a)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [10]:
#load back .npz 文件
b = np.load("/Users/andy/Desktop/array.npz")
print(b.files)

['arr_0', 'arr_1']


In [11]:
b['arr_1']

array([[11, 12],
       [22, 24]])

In [12]:
##4. How to concstenate two numpy arrays columnwise and rowwise
##   如何 columnwise 以及 rowwise 的拼接两个numpy arrays

#有三种方法拼接两个或多个numpy arrays
# 方法1: 通过 np.concatenate(), 设置参数 axis 为 0或1
# 方法2: 通过 np.vstack() 或 np.hstack()
# 方法3: 通过 np.r_ 或 np.c_

#三种方法的输出都一样，需要注意的是：np.r_ 和 np.c_ 使用 中括号

a = np.zeros([4, 4])
b = np.ones([4, 4])
print(a)
print(b)

np.concatenate([a, b], axis=0)
np.vstack([a, b])
np.r_[a, b]


[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]
[[ 1.  1.  1.  1.]
 [ 1.  1.  1.  1.]
 [ 1.  1.  1.  1.]
 [ 1.  1.  1.  1.]]


array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.]])

In [13]:
np.concatenate([a, b], axis=1)
np.hstack([a, b])
np.c_[a, b]

array([[ 0.,  0.,  0.,  0.,  1.,  1.,  1.,  1.],
       [ 0.,  0.,  0.,  0.,  1.,  1.,  1.,  1.],
       [ 0.,  0.,  0.,  0.,  1.,  1.,  1.,  1.],
       [ 0.,  0.,  0.,  0.,  1.,  1.,  1.,  1.]])

In [14]:
#此外，还可以通过 np.r_ 创建更多复杂的 一维 数字序列

np.r_[[1, 2, 3], 0, 0, [4, 5, 6]]

array([1, 2, 3, 0, 0, 4, 5, 6])

In [15]:
##5. How to sort a numpy array based on one or more colomns
##   如何根据 一列或多列 对 numpy array 进行排序

# 先创建一个随机的 8*4 的数组
arr = np.random.randint(1, 6, size=[8, 4])
arr

array([[4, 1, 5, 1],
       [1, 2, 5, 1],
       [2, 2, 3, 5],
       [5, 5, 2, 3],
       [3, 2, 2, 5],
       [3, 4, 1, 4],
       [4, 5, 3, 5],
       [5, 3, 4, 1]])

In [16]:
#如果使用 np.sort() with axis=0 对它按列进行排序，每一列将会独立的按照 递增 顺序
#排列，打乱了每一行的顺序

np.sort(arr, axis=0)

array([[1, 1, 1, 1],
       [2, 2, 2, 1],
       [3, 2, 2, 1],
       [3, 2, 3, 3],
       [4, 3, 3, 4],
       [4, 4, 4, 5],
       [5, 5, 5, 5],
       [5, 5, 5, 5]])

In [17]:
#若不想每行的顺序被打乱，要用一个间接的方法：np.argsort()

##5.1 How to sort a numpy array based on 1 columns using argsort
##    如何根据一列，使用 np.argsort() 进行排序

#给定一个一维数组，np.argsort() 返回排序后对应位置的元素索引

x = np.array([1, 10, 5, 2, 8, 9])
sort_index = np.argsort(x)
print(sort_index)

[0 3 2 4 5 1]


In [18]:
# 上面的结果意味着：在数组 x 里面，0th 个 item 是最小的，3rd 个 item 是第二小的
x[sort_index]

array([ 1,  2,  5,  8,  9, 10])

In [19]:
# 现在，为了对原始的 arr 进行排序，需要先对第一列进行排序，然后利用得到的索引排序

#sorted_index_1stcol = np.sort(arr[:,0])
sorted_index_1stcol = arr[:,0].argsort()
sorted_index_1stcol

array([1, 2, 4, 5, 0, 6, 3, 7])

In [20]:
# 现在，可以按照这个索引对 arr 按照第一列进行排序
arr[sorted_index_1stcol]

array([[1, 2, 5, 1],
       [2, 2, 3, 5],
       [3, 2, 2, 5],
       [3, 4, 1, 4],
       [4, 1, 5, 1],
       [4, 5, 3, 5],
       [5, 5, 2, 3],
       [5, 3, 4, 1]])

In [21]:
# 如果要以 递减顺序 排序，只需 reverse 索引即可
arr[sorted_index_1stcol[::-1]]

array([[5, 3, 4, 1],
       [5, 5, 2, 3],
       [4, 5, 3, 5],
       [4, 1, 5, 1],
       [3, 4, 1, 4],
       [3, 2, 2, 5],
       [2, 2, 3, 5],
       [1, 2, 5, 1]])

In [22]:
##5.2 How to sort a numpy array based on 2 or more columns
##    如何根据 2列或多列 对 numpy arrays 进行排序

#可以使用 np.lexsort(), 根据数组应该怎么排序，传入一个表示列的 tuple
#牢记：第一个排序的顺序 应该 放在最右边，看作优先级

# 如下，先根据第0列排序，然后根据第1列

lexsorted_index = np.lexsort((arr[:, 1], arr[:, 0]))
arr[lexsorted_index]

array([[1, 2, 5, 1],
       [2, 2, 3, 5],
       [3, 2, 2, 5],
       [3, 4, 1, 4],
       [4, 1, 5, 1],
       [4, 5, 3, 5],
       [5, 3, 4, 1],
       [5, 5, 2, 3]])

In [23]:
##6. Working with dates
##   有关日期

#numpy 通过 np.datetime64 对象实现有关日期的操作，可精确到纳秒，可以创建一个
#标准的 YYYY-MM—DD 格式的日期字符串

# 创建一个 datetime64 对象
date64 = np.datetime64('2018-03-03 21:04:55')
date64

numpy.datetime64('2018-03-03T21:04:55')

In [24]:
# 移除 datetime64 对象的时间部分
dt64 = np.datetime64(date64, 'D')
dt64

numpy.datetime64('2018-03-03')

In [25]:
# 默认情况，增加一个数提升一天，但如果需要提升其他时间单位，如月、小时、秒等，
# 使用 timedelta 对象会更方便

tenminutes = np.timedelta64(10, 'm') #表示10分钟
tenseconds = np.timedelta64(10, 's') #表示10秒
tennanoseconds = np.timedelta64(10, 'ns') #表示10纳秒

print('Add 10 days: ', dt64+10)
print('Add 10 minutes: ', dt64+tenminutes)
print('Add 10 seconds: ', dt64+tenseconds)
print('Add 10 nanoseconds: ', dt64+tennanoseconds)

Add 10 days:  2018-03-13
Add 10 minutes:  2018-03-03T00:10
Add 10 seconds:  2018-03-03T00:00:10
Add 10 nanoseconds:  2018-03-03T00:00:00.000000010


In [26]:
# 下面把 dt64 重新转换为字符串
np.datetime_as_string(dt64)

'2018-03-03'

In [27]:
#当 work with dates 的时候，经常需要从数据中过滤出工作日(business day)
#通过 np.is_busday()，传入一个日期，可以得到是不是工作日

print('Date: ', dt64)
print('Is it a business day?: ', np.is_busday(dt64))
print('Add 2 business days, rolling forward to nearest biz day: ', np.busday_offset(dt64, 2, roll='forward'))
print('Add 2 business days, rolling backward to nearest biz day: ', np.busday_offset(dt64, 2, roll='backward'))

#注意：上面增加的是 business day

Date:  2018-03-03
Is it a business day?:  False
Add 2 business days, rolling forward to nearest biz day:  2018-03-07
Add 2 business days, rolling backward to nearest biz day:  2018-03-06


In [28]:
##6.1 How to create a sequence of dates
##    如何创建时间序列

#可以通过 np.arange() 来完成，传入 datetime64 对象
dates = np.arange(np.datetime64('2018-03-03'), np.datetime64('2018-03-13'))
print(dates)

# 检查是否是工作日
np.is_busday(dates)

['2018-03-03' '2018-03-04' '2018-03-05' '2018-03-06' '2018-03-07'
 '2018-03-08' '2018-03-09' '2018-03-10' '2018-03-11' '2018-03-12']


array([False, False,  True,  True,  True,  True,  True, False, False,  True], dtype=bool)

In [29]:
##6.2 How to convert numpy.datetime64 to datetime.datetime object
##    如何把 numpy.datetime64 对象 转换为 datetime.datetime 对象

# 把 np.datetime64 转换为 datetime.datetime
import datetime
dt = dt64.tolist()
dt

datetime.date(2018, 3, 3)

In [30]:
#转换为 datetime.date 对象后，可以提取出年、月、天等

print('Year: ', dt.year)
print('Day of month: ', dt.day)
print('Month of year: ', dt.month)
print('Day of Week: ', dt.weekday()) #该周的第几天，周六

Year:  2018
Day of month:  3
Month of year:  3
Day of Week:  5


In [31]:
##7. Advanced numpy functions
##   高级 numpy 方法

##7.1 vectorize - Make a scalar function word on vectors
##    向量化，在向量上使用标量方法

# 如下方法，当传入标量时有效，当传入向量时报错

def foo(x):
    if x % 2 == 1:
        return x**2 #奇数求平方
    else:
        return x/2  #偶数除2
    
#传入标量
print(foo(10))
print(foo(11))

5.0
121


In [32]:
# 当传入向量时，不工作
#print(foo([10, 11, 12]))

In [33]:
# 下面把方法 foo() 向量化，使它支持向量
foo_v = np.vectorize(foo, otypes=['float'])

print(foo_v([10, 11, 12]))

# otypes 的意思是指定 输出数据 类型，必须加上 中括号

[   5.  121.    6.]


In [34]:
##7.2 apply_along_axis - Apply a function columnwise or rowwise
##    apply_along_axis - 按列或行应用方法

# 创建一个 4*10 的随机数组

np.random.seed(42)
arr_x = np.random.randint(1, 10, size=[4, 10])
arr_x

array([[7, 4, 8, 5, 7, 3, 7, 8, 5, 4],
       [8, 8, 3, 6, 5, 2, 8, 6, 2, 5],
       [1, 6, 9, 1, 3, 7, 4, 9, 3, 5],
       [3, 7, 5, 9, 7, 2, 4, 9, 2, 9]])

In [35]:
# 任务：计算每行的 max 与 min 的差，利用apply_along_axis

# 先定义一个计算 max-min 的方法
def max_minus_min(x):
    #return x.max() - x.min()
    return np.max(x) - np.min(x)

# 按行
print("Rowwise: ", np.apply_along_axis(max_minus_min, 1, arr=arr_x))
print("Colwise: ", np.apply_along_axis(max_minus_min, 0, arr=arr_x))

Rowwise:  [5 6 8 7]
Colwise:  [7 4 6 8 4 5 4 3 3 5]


In [36]:
##7.3 searchsorted - Find the location to insert so the array will remain sorted
##    搜索排序 - 找到插入位置，插入后的数组仍有序

x = np.arange(10)
print("在哪儿插入5: ", np.searchsorted(x, 5))
print("在哪儿插入6(右边): ", np.searchsorted(x, 5, side='right'))

在哪儿插入5:  5
在哪儿插入6(右边):  6


In [37]:
##7.4 How to add a new axis to a numpy
##    如何向一个数组增加新的 axis

#有时需要把 一维数组 变成 二维数组，而不增加额外数据，可以通过 np.newaxis 来完成

# 创建一个一维数组
x = np.arange(5)
print("原始数组：", x)
print("原始数组shape：", x.shape)


# 插入新的一列
x_col = x[:, np.newaxis]
print("x_col shape: ", x_col.shape)
print(x_col)

# 插入新的一行
x_row = x[np.newaxis, :]
print("x_row shape: ", x_row.shape)
print(x_row)

原始数组： [0 1 2 3 4]
原始数组shape： (5,)
x_col shape:  (5, 1)
[[0]
 [1]
 [2]
 [3]
 [4]]
x_row shape:  (1, 5)
[[0 1 2 3 4]]


In [38]:
##7.5 More useful functions
##    更多有用的功能

# 使用 np.digitize() 返回每个元素
x = np.arange(10)

# 使用 np.clip() 修剪元素
np.clip(x, 3, 8)

array([3, 3, 3, 3, 4, 5, 6, 7, 8, 8])