# numpy cheatsheet - operations
本文档包含绝大多数numpy操作数组的函数，但不包含ufunc，ufunc文档在另外的notebook中

## 总体参数说明
- a/array_like: 可以使用__array__函数返回成数组任何对象，包括```list, tuple, list[list...], tuple[tuple...], list[tuple...], tuple[list...]```
- v: 向量参数
- shape: numpy数组的各维度长度的tuple
- out: 代入的numpy数组作为输出
- dtype: numpy数组类型
- order: C顺序或Fortran顺序
- subok: True返回ndarray的子类，False返回ndarray
- axis: 操作的维度，第一个维度为0，以此类推
- axes：操作维度的集合

In [1]:
# 引入numpy和matplotlib内联
import numpy as np
%matplotlib inline

## 二进制运算
### 位运算

In [2]:
# bitwise_and(arr1, arr2 [, out, where])
# bitwise_or(arr1, arr2 [, out, where])
# bitwise_xor(arr1, arr2 [, out, where])
# invert(arr [, out, where]) equiv bitwise_not(arr [, out, where])
# where - 一个bool数组，决定哪些元素需要参与运算
# 指定数组的与、或、异或、非运算
arr1 = np.arange(6).reshape(2, 3)
arr2 = np.arange(9, 15).reshape(2, 3)
print(np.bitwise_and(arr1, arr2))
print(arr1 & arr2) # 使用&运算完成bitwise_and
print(np.bitwise_or(arr1, arr2))
print(arr1 | arr2) # 使用|运算完成bitwsie_or
print(np.bitwise_xor(arr1, arr2))
print(arr1 ^ arr2) # 使用^运算完成bitwise_xor
print(np.invert(arr1))
print(np.bitwise_not(arr1))
print(~arr1) #使用~运算完成invert或bitwise_not
print(np.bitwise_and(arr1, arr2, where=(arr1>3)))

[[0 0 2]
 [0 4 4]]
[[0 0 2]
 [0 4 4]]
[[ 9 11 11]
 [15 13 15]]
[[ 9 11 11]
 [15 13 15]]
[[ 9 11  9]
 [15  9 11]]
[[ 9 11  9]
 [15  9 11]]
[[-1 -2 -3]
 [-4 -5 -6]]
[[-1 -2 -3]
 [-4 -5 -6]]
[[-1 -2 -3]
 [-4 -5 -6]]
[[-1 -2 -3]
 [-4  4  4]]


In [3]:
# left_shift(arr, shift [, out, where])
# right_shift(arr, shift [, out, where])
# shift - 数组元素二进制位移的位数
# 将数组的元素进行二进制的左移left_shift和二进制右移right_shift
arr = np.arange(100, 106).reshape(2, 3)
print(np.left_shift(arr, 1))
print(arr<<1) # 使用<<运算完成left_shift
print(np.right_shift(arr, 2))
print(arr>>2) # 使用>>运算完成right_shift

[[200 202 204]
 [206 208 210]]
[[200 202 204]
 [206 208 210]]
[[25 25 25]
 [25 26 26]]
[[25 25 25]
 [25 26 26]]


### 比特封装

In [4]:
# packbits(arr [, axis])
# 将arr数组的元素沿axis维度组合成一个uint8的二进制数，如果元素不足8位，函数会自动在后面填充0补足8位
arr = np.random.randint(0, 2, (2, 3, 2))
print(arr)
print(np.packbits(arr, axis=2))
print(np.packbits(arr)) # arr扁平化后每8位组成一个数，最后不足8位的末尾用0补全

[[[1 1]
  [1 0]
  [1 1]]

 [[0 1]
  [0 0]
  [0 0]]]
[[[192]
  [128]
  [192]]

 [[ 64]
  [  0]
  [  0]]]
[237   0]


In [5]:
# unpackbits(arr [, axis])
# 将uint8类型的数组arr的元素拆分成8个0/1表示的二进制数位
arr = np.arange(6, dtype=np.uint8).reshape(2, 3, 1)
print(arr)
print(np.unpackbits(arr, axis=2))
print(np.unpackbits(arr)) # 生成的二进制数组将会是1维扁平化的

[[[0]
  [1]
  [2]]

 [[3]
  [4]
  [5]]]
[[[0 0 0 0 0 0 0 0]
  [0 0 0 0 0 0 0 1]
  [0 0 0 0 0 0 1 0]]

 [[0 0 0 0 0 0 1 1]
  [0 0 0 0 0 1 0 0]
  [0 0 0 0 0 1 0 1]]]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0
 1 0 0 0 0 0 0 0 1 0 1]


### 二进制格式化

In [6]:
# binary_repr(num [, width])
# width - 需要转换为二进制表示的宽度，如果指定不为none的正整数值，则负数会以补码形式显示，否则负数为在前面加上-号，默认值none
# 将num数值转换为二进制字符串表现形式，转换后二进制的位数由width指定
print(np.binary_repr(15))
print(np.binary_repr(-15))
print(np.binary_repr(15, 8))
print(np.binary_repr(-15, 8))

1111
-1111
00001111
11110001


## 字符串运算
### 基本运算

In [7]:
# 引入字符串运算库
import numpy.core.defchararray as defchar

In [8]:
# core.defchararray.add(arr1, arr2) 相当于str的+运算，进行每个字符串元素相加
# core.defchararray.multiply(arr1, arr2) 相当于str的*运算，进行arr1每个字符串元素的重复，重复次数由arr2的元素确定
# core.defchararray.mod(arr1, arr2) 相当于str的%运算，将arr1每个字符串元素中的%模式替换成arr2中的元素值
arr1 = np.array([['hello%s', '%s'], ['bye%s', '%s']])
arr2 = np.array([['', 'john'], ['', 'doe']])
print(defchar.add(arr1, arr2))
print(defchar.multiply(arr2, 4))
print(defchar.mod(arr1, arr2))

[['hello%s' '%sjohn']
 ['bye%s' '%sdoe']]
[['' 'johnjohnjohnjohn']
 ['' 'doedoedoedoe']]
[['hello' 'john']
 ['bye' 'doe']]


In [9]:
# core.defchararray.capitalize(arr) 相当于str的capitalize函数，对每个字符串元素首字母大写后输出
# core.defchararray.lower(arr) 相当于str的lower函数，将每个字符串元素转换为小写
# core.defchararray.upper(arr) 相当于str的upper函数，将每个字符串元素转换为大写
# core.defchararray.swapcase(arr) 相当于str的swapcase函数，将每个字符串元素小写转换为大写，大写转换为小写
# core.defchararray.title(arr) 相当于str的title函数，将每个字符串元素转换为标题形式
arr = np.array(['hEllO', 'woRLd'])
print(defchar.capitalize(arr))
print(defchar.lower(arr))
print(defchar.upper(arr))
print(defchar.swapcase(arr))
print(defchar.title(arr))

['Hello' 'World']
['hello' 'world']
['HELLO' 'WORLD']
['HeLLo' 'WOrlD']
['Hello' 'World']


In [10]:
# core.defchararray.decode(arr [, encoding, error])
# core.defchararray.encode(arr [, encoding, error])
# encoding - 编码的名称
# 对每个字符串元素进行编码encode（返回bytearray）和解码decode（返回字符串）
arr = np.array(['中文', '字符串'])
d = defchar.encode(arr, encoding='utf8')
print(d)
print(defchar.decode(d, encoding='utf8'))

[b'\xe4\xb8\xad\xe6\x96\x87' b'\xe5\xad\x97\xe7\xac\xa6\xe4\xb8\xb2']
['中文' '字符串']


In [11]:
# core.defchararray.join(sep, seq)
# core.defchararray.split(arr [, sep, maxsplit])
# core.defchararray.rsplit(arr [, sep, maxsplit])
# sep - 分隔的字符串（数组），默认值none
# seq - 用来连接的字符串数组
# maxsplit - 最大拆分字符串个数
# 相当于str的join、split、rsplit函数，将每个字符串元素组合、拆分、从右开始拆分
arr = np.array(['hello, john', 'bye, see you, doe'])
print(defchar.join(['-', '+'], arr))
print(defchar.split(arr, ','))
print(defchar.rsplit(arr, ',', 1))

['h-e-l-l-o-,- -j-o-h-n' 'b+y+e+,+ +s+e+e+ +y+o+u+,+ +d+o+e']
[list(['hello', ' john']) list(['bye', ' see you', ' doe'])]
[list(['hello', ' john']) list(['bye, see you', ' doe'])]


In [12]:
# core.defchararray.center(arr, width [, fillchar]) 将每个字符串置于长度为width的新字符串中间，填充字符为fillchar（默认值空格）
# core.defchararray.ljust(arr, width [, fillchar]) 将每个字符串置于长度为width的新字符串左边，填充字符为fillchar（默认值空格）
# core.defchararray.rjust(arr, width [, fillchar]) 将每个字符串置于长度为width的新字符串右边，填充字符为fillchar（默认值空格）
# core.defchararray.zfill(arr, width) 将每个字符串使用前置0填充值长度width
print(defchar.center(arr, width=20, fillchar='-'))
print(defchar.ljust(arr, width=20, fillchar='-'))
print(defchar.rjust(arr, width=20, fillchar='-'))
print(defchar.zfill([['1', '10'], ['-100', '-1']], 5))

['----hello, john-----' '-bye, see you, doe--']
['hello, john---------' 'bye, see you, doe---']
['---------hello, john' '---bye, see you, doe']
[['00001' '00010']
 ['-0100' '-0001']]


In [13]:
# core.defchararray.strip(arr [, chars])
# core.defchararray.lstrip(arr [, chars])
# core.defchararray.rstrip(arr [, chars])
# chars - 需要去除的符号组成的字符串，默认值none，表示空白符号
# 相当于str的strip、lstrip、rstrip函数，将每个字符串元素前后符号（strip）、前符号（lstrip）、后符号（rstrip）去除
arr = np.array(['   hello   ', '  dooooo  '])
print(defchar.strip(arr))
print(defchar.lstrip(arr))
print(defchar.rstrip(arr, 'o '))

['hello' 'dooooo']
['hello   ' 'dooooo  ']
['   hell' '  d']


In [14]:
# core.defchararray.replace(arr, old, new [, count]) 相当于str的replace函数，将每个字符串元素中的old替换成new
# core.defchararray.translate(arr, table [, delchars]) 相当于str的translate函数，将每个字符串元素根据table表翻译成对应字符串，删除delchars
arr = np.array(['hello', 'world'])
print(defchar.replace(arr, 'o', 'ggg'))
print(defchar.translate(arr, str.maketrans('heowrld', '0123456')))

['hellggg' 'wgggrld']
['01552' '32456']


In [15]:
# core.defchararray.partition(arr, sep) 相当于str的partition函数，每个字符串从左找到sep，分割成三部分，seq左边内容、seq本身、sep右边内容
# core.defchararray.rpartition(arr, sep) 相当于str的rpartition函数，每个字符串从右找到sep，分割成三部分，seq左边内容、seq本身、sep右边内容
# core.defchararray.splitlines(arr) 相当于str的splitlines函数，将每个字符串元素分割成多行的list
arr = np.array(['john@msn.com', 'doe@sina.com.cn'])
print(defchar.partition(arr, '@'))
print(defchar.rpartition(arr, '.'))
arr = np.array(['hello\njohn', 'bye\nsee you\ndoe'])
print(defchar.splitlines(arr))

[['john' '@' 'msn.com']
 ['doe' '@' 'sina.com.cn']]
[['john@msn' '.' 'com']
 ['doe@sina.com' '.' 'cn']]
[list(['hello', 'john']) list(['bye', 'see you', 'doe'])]


### 字符串比较运算

In [16]:
# equal(arr1, arr2) 等同于 arr1 == arr2
# not_equal(arr1, arr2) 等同于 arr1 != arr2
# greater_equal(arr1, arr2) 等同于 arr1 >= arr2
# less_equal(arr1, arr2) 等同于 arr1 <= arr2
# greater(arr1, arr2) 等同于 arr1 > arr2
# less(arr1, arr2) 等同于 arr1 < arr2
arr1 = np.array(['hello', 'john'])
arr2 = np.array(['hello', 'world'])
print(defchar.equal(arr1, arr2))
print(arr1 == arr2)
print(defchar.not_equal(arr1, arr2))
print(arr1 != arr2)
print(defchar.greater_equal(arr1, arr2))
print(arr1 >= arr2)
print(defchar.less_equal(arr1, arr2))
print(arr1 <= arr2)
print(defchar.greater(arr1, arr2))
print(arr1 > arr2)
print(defchar.less(arr1, arr2))
print(arr1 < arr2)

[ True False]
[ True False]
[False  True]
[False  True]
[ True False]
[ True False]
[ True  True]
[ True  True]
[False False]
[False False]
[False  True]
[False  True]


### 字符串信息

In [17]:
# count(arr, sub [, start, end])
# sub - 计算个数的子字符串
# start - 开始计算的位置（包含）
# end - 结束计算的位置（不包含）
# 对每个字符串元素计算子串sub不重叠出现的次数，生成一个整数的数组返回
arr = np.array([['hello', 'coll dell'], ['bye', 'jill delta']])
print(defchar.count(arr, 'll'))
print(defchar.count(arr, 'll', 0, 4))

[[1 2]
 [0 1]]
[[1 1]
 [0 1]]


In [18]:
# find(arr, sub [, start, end]) 相当于str的find函数
# index(arr, sub [, start, end]) 相当于str的index函数
# rfind(arr, sub [, start, end]) 相当于str的rfind函数
# rindex(arr, sub [, start, end]) 相当于str的rindex函数
# 在每个字符串元素中查找子串sub第一次出现的位置，如果没找到，find返回-1，index抛出错误。最终生成一个整数数组返回。
# 在每个字符串元素中查找子串sub最后一次出现的位置，如果没找到，find返回-1，index抛出错误。最终生成一个整数数组返回。
print(defchar.find(arr, 'll'))
print(defchar.find(arr, 'll', 4, 10))
print(defchar.index(arr, 'e'))
print(defchar.rfind(arr, 'll'))
print(defchar.rindex(arr, 'e'))

[[ 2  2]
 [-1  2]]
[[-1  7]
 [-1 -1]]
[[1 6]
 [2 6]]
[[ 2  7]
 [-1  2]]
[[1 6]
 [2 6]]


In [19]:
# startswith(arr, sub [, start, end]) 相当于str的startswith函数
# 判断每个字符串元素是否都以子串sub开始，生成一个bool数组返回
print(defchar.startswith(arr, 'ji'))
print(defchar.startswith(arr, 'll', start=2))

[[False False]
 [False  True]]
[[ True  True]
 [False  True]]


In [20]:
# isalpha(arr) 相当于str的isalpha函数，判断每个字符串元素是否都是字母组成
# isalnum(arr) 相当于str的isalnum函数，判断每个字符串元素是否都是字母数字组成
# isdecimal(arr) 相当于str的isdecimal函数，判断每个字符串元素是否都是数学表示组成，包括Unicode数字，，全角数字（双字节）
# isdigit(arr) 相当于str的isdigit函数，判断每个字符串元素是否都是数字组成，包括Unicode数字，byte数字（单字节），全角数字（双字节）
# isnumeric(arr) 相当于unicode的isnumeric函数，判断每个字符串元素是否都是数字组成，包括Unicode数字，全角数字（双字节），汉字数字
# isspace(arr) 相当于str的isspace函数，判断每个字符串元素是否都是空白字符组成
# istitle(arr) 相当于str的istitle函数，判断每个字符串元素是否都是标题格式
# islower(arr) 相当于str的islower函数，判断每个字符串元素是否都是小写字母组成
# isupper(arr) 相当于str的isupper函数，判断每个字符串元素是否都是大写字母组成
arr = np.array(['abcd', 'hello-world', 'c3p0'])
print(defchar.isalpha(arr))
print(defchar.isalnum(arr))
arr = np.array(['12345', '１２３４５', '一万二千三百四十五'])
print(defchar.isdecimal(arr))
print(defchar.isdigit(arr))
print(defchar.isnumeric(arr))
arr = np.array(['   \t   ', 'abc    ', '\n\t\n\t'])
print(defchar.isspace(arr))
arr = np.array(['Hello', 'world', 'SEE', 'You'])
print(defchar.istitle(arr))
print(defchar.islower(arr))
print(defchar.isupper(arr))

[ True False False]
[ True False  True]
[ True  True False]
[ True  True False]
[ True  True  True]
[ True False  True]
[ True False False  True]
[False  True False False]
[False False  True False]


## 日期时间支持函数
### 基础函数

In [21]:
# datetime_as_string(arr [, unit, timezone, casting])
# unit - 时间单位，默认值none，表示自动识别
# timezone - 时区，naive（默认值）: 原始；UTC: UTC标准时区；local: 本地时区
arr = np.arange('2018-04-06 13:00', '2018-04-06 16:00', 30, dtype=np.datetime64)
print(arr)
print(np.datetime_as_string(arr, unit='ms', timezone='UTC'))
import pytz
arr = np.arange('2018-04-06 13:00:00', 3600, 300, dtype=np.datetime64)
print(arr)
print(np.datetime_as_string(arr, timezone=pytz.timezone('Asia/Shanghai')))

['2018-04-06T13:00' '2018-04-06T13:30' '2018-04-06T14:00'
 '2018-04-06T14:30' '2018-04-06T15:00' '2018-04-06T15:30']
['2018-04-06T13:00:00.000Z' '2018-04-06T13:30:00.000Z'
 '2018-04-06T14:00:00.000Z' '2018-04-06T14:30:00.000Z'
 '2018-04-06T15:00:00.000Z' '2018-04-06T15:30:00.000Z']
['2018-04-06T13:00:00' '2018-04-06T13:05:00' '2018-04-06T13:10:00'
 '2018-04-06T13:15:00' '2018-04-06T13:20:00' '2018-04-06T13:25:00'
 '2018-04-06T13:30:00' '2018-04-06T13:35:00' '2018-04-06T13:40:00'
 '2018-04-06T13:45:00' '2018-04-06T13:50:00' '2018-04-06T13:55:00']
['2018-04-06T21:00:00+0800' '2018-04-06T21:05:00+0800'
 '2018-04-06T21:10:00+0800' '2018-04-06T21:15:00+0800'
 '2018-04-06T21:20:00+0800' '2018-04-06T21:25:00+0800'
 '2018-04-06T21:30:00+0800' '2018-04-06T21:35:00+0800'
 '2018-04-06T21:40:00+0800' '2018-04-06T21:45:00+0800'
 '2018-04-06T21:50:00+0800' '2018-04-06T21:55:00+0800']


In [22]:
# is_busday(arr [, weekmask, holidays, busdaycal, out])
# weekmask - 用来表示每周工作日的字符串或bool数组，1代表为工作日，0代表非工作日。默认值'1111100'
# holidays - 公众节日的日期数组，默认值none
# busdaycal - 表示工作日的日期数组
# 用于判断日期数组是否为工作日
arr = np.arange('2018-04-01', '2018-05-01', 1, dtype=np.datetime64)
print(arr)
print(np.is_busday(arr, holidays=['2018-04-05']))

['2018-04-01' '2018-04-02' '2018-04-03' '2018-04-04' '2018-04-05'
 '2018-04-06' '2018-04-07' '2018-04-08' '2018-04-09' '2018-04-10'
 '2018-04-11' '2018-04-12' '2018-04-13' '2018-04-14' '2018-04-15'
 '2018-04-16' '2018-04-17' '2018-04-18' '2018-04-19' '2018-04-20'
 '2018-04-21' '2018-04-22' '2018-04-23' '2018-04-24' '2018-04-25'
 '2018-04-26' '2018-04-27' '2018-04-28' '2018-04-29' '2018-04-30']
[False  True  True  True False  True False False  True  True  True  True
  True False False  True  True  True  True  True False False  True  True
  True  True  True False False  True]
