In [None]:
**numpy & pandas**
- cookbook https://pandas.pydata.org/pandas-docs/stable/tutorials.html#pandas-cookbook


### numpy

In [2]:
## numpy
# [doc] https://docs.scipy.org/doc/numpy-1.13.0/reference/
import numpy as np

In [None]:
# numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
ar = np.array([3, 7, 9])
br = np.array([[11, 14], [21, 25]]) # 二维
cr = np.array([1,  2,  3, 4, 5], ndmin =  2) # 指定为二维
dr = np.array([1,  2,  3], dtype = complex)
print(ar, '\t', br, '\t', cr, '\t', dr)

In [None]:
#自定义dtype
dt = np.dtype([('name', 'S20'), ('age', np.int8), ('score', 'f4')])
ar = np.array([('alex', 10, 89.0), ('june', 20, 78), ('jie', 30, 90)], dtype=dt)
print(dt, '\t', ar, '\t',ar.itemsize)
'''
内建类型都有一个唯一定义它的字符代码：
'b'：布尔值
'i'：符号整数	'u'：无符号整数
'f'：浮点		     'c'：复数浮点
'm'：时间间隔	   'M'：日期时间
'O'：Python对象	'S', 'a'：字节串
'U'：Unicode	        'V'：原始数据(void)
'''

In [None]:
# ndarray.shape 数组的维度 & 更改维度
ar = np.array([[1,2,3], [4,5,6]])
ar.shape = (3, 2)
print(ar.shape)
br = ar.reshape(2, 3) # 需赋给一个新的变量，原变量的维度不会变
print(ar.shape, '\t', br.shape)

# ndarray.ndim 返回数组的维数
ar = np.arange(24)
print(ar, '\t', ar.ndim)
br = ar.reshape(2,4,3)
print(br, '\t', br.ndim)

# numpy.itemsize 返回数组中每个元素的字节长度(dtype中元素的总长度
print(ar.dtype, '\t', ar.itemsize)

# numpy.flags  ndarray对象拥有以下属性，这个函数返回了它们的当前值
#   C_CONTIGUOUS :  数组位于单一的、C 风格的连续区段内
#   F_CONTIGUOUS :  数组位于单一的、Fortran 风格的连续区段内
#   OWNDATA : 数组的内存从其它对象处借用
#   WRITEABLE : 数据区域可写入。 将它设置为flase会锁定数据，使其只读
#   ALIGNED : 数据和任何元素会为硬件适当对齐
#   UPDATEIFCOPY : 这个数组是源数组的副本。当这个数组释放时，源数组会由这个数组中的元素更新
print(ar.flags)

In [None]:
# numpy.empty
#   创建指定形状和dtype的未初始化数组, 它使用以下构造函数：numpy.empty(shape, dtype = float, order = 'C') //F
#   注意：数组元素为随机值，因为它们未初始化.
ar = np.empty([3, 2], dtype =  int)

# numpy.zeros
#   以0填充新数组 numpy.zeros(shape, dtype = float, order = 'C')
br = np.zeros(5) # 默认为float类型
cr = np.zeros((2,2), dtype = [('x',  'i4'),  ('y',  'i4')]) # 自定义类型
print(br, '\t', cr)

# numpy.ones
#   返回特定大小，以1填充的新数组。numpy.ones(shape, dtype = None, order = 'C')
dr = np.ones([2,2], dtype =  int) # 默认为float类型
print(dr)

# numpy.asarray(a, dtype = None, order = None) 来自现有数据的数组
l1 = [7, 8, 9]
l2 = (70, 80, 90)
l3 = ([56, 78], [43, 13, 33]) # l4...
ar1 = np.asarray(l1)
ar2 = np.asarray(l2, dtype = float)
ar3 = np.asarray(l3)
print(ar1, '\t', ar2, '\t', ar3)

# numpy.frombuffer(buffer, dtype = float, count = -1, offset = 0) 将缓冲区解释为一维数组
#   count: 需要读取的数据数量，默认为-1，读取所有数据
#   offset: 需要读取的起始位置，默认为0
if False:
    st =  'tyyfrombufferbuffe'
    ar = np.frombuffer(st, dtype = 's1')
    print(ar)

# numpy.fromiter(iterable, dtype, count = -1)
#   从任何可迭代对象构建一个ndarray对象，返回一个新的一维数组
#   count 需要读取的数据数量，默认为-1，读取所有数据
l1 = range(6)
it = iter(l1)
ar = np.fromiter(it, dtype = float)
print(ar)

# numpy.arange(start, stop, step, dtype)
#   返回ndarray对象，包含给定范围内的等间隔值。
ar = np.arange(5, dtype = 'i2')
br = np.arange(0, 100, 6, dtype = float)
print(ar, '\t', br)

# numpy.linspace(start, stop, num, endpoint, retstep, dtype)
#   在此函数中，指定了范围之间的均匀间隔数量，而不是步长
#   endpoint 序列中是否包含stop值，默认为true
#   retstep 如果为true, 将相关步长之类的信息也打印出来
ar = np.linspace(10, 20,  5, endpoint =  False)
ar1 = np.linspace(10, 20,  5, endpoint =  False, retstep = True, dtype = 'i2')
br = np.linspace(0, 50, 10, retstep = True)
print(ar, '\t', ar1, '\t', br)

# numpy.logscale(start, stop, num, endpoint, base, dtype)
#   返回ndarray对象，其中包含在对数刻度上均匀分布的数字, 刻度的开始和结束端点是某个底数的幂，通常为 10, 即base的值
ar = np.logspace(1, 10, num =10,  base  =  2)
print(ar)

In [None]:
# 切片和索引 (start: stop: step), 它标记的是位置
# 基本索引
if False:
    a = np.arange(10)
    s1 = slice(2, 7, 2)
    print(a[s1])
    print(a[2: 7: 2])
    print(a[5])
    print(a[2:5], '\t', a[2:], '\t', a[:5])
    
    b = np.array([[1,2,3],[3,4,5],[4,5,6]])
    print(b[1:])
    print(b[2, ...]) #第二行的元素
    print(b[..., 2]) #第二列的元素
    print(b[..., 1:])
    pass

# 整数索引
if False:
    x = np.array([[1,  2],  [3,  4],  [5,  6]])
    y = x[[0,1,2],  [0,1,0]]
    print(y) # 输出(0, 0), (1,1), (2,0)元素的值
    
    x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
    rows = np.array([[0,0], [3,3]]) 
    cols = np.array([[0,2], [0,2]])  #(0, 0), (0, 2), (3, 0), (3, 2)
    y = x[rows, cols]
    print(y)
    
    z = x[1: 4, 1: 3]
    print(z, '\n')
    
    u = x[1: 4, [1, 2]]
    print(u)
    pass

# 布尔索引
if True:
    x = np.array([[  0,  1,  2], [  3,  4,  5], [  6,  7,  8], [  9,  10,  11]])
    y = x[x >= 6]
    print(y)
    
    x1 = np.array([np.nan, 5, 7, 8, np.nan])
    y1 = x1[~np.isnan(x1)] # ~(取补运算符)来过滤NaN，即非的概念
    print(y1)
    
    x2 = np.array([1,  2+6j,  5,  3.5+5j])
    y2 = x2[np.iscomplex(x2)]
    print(y2)
    pass


In [None]:
# NumPy - 广播
if False:
    a = np.array([1,2,3,4])
    b = np.array([10,20,30,40])
    print(a * b)
    
    a = np.array([[0.0,0.0,0.0],[10.0,10.0,10.0],[20.0,20.0,20.0],[30.0,30.0,30.0]]) 
    b = np.array([1.0,2.0,3.0])
    print(a, '\n', b)
    print(a + b) # 通过扩展第一行的数据再做运算
    print(a * b)

# NumPy - 数组上的迭代
if True:
    a = np.arange(0,60,5)
    a = a.reshape(3,4)
    b = a.T #a的转置
    x = a.copy(order = 'C')  # C,F方式读取顺序不一样，C按行读，order = 'F' 按列读

    for x in np.nditer(a):
        print(x,) # 打印成行，print(x) 打印成列
    for x in np.nditer(a, order = 'F'):
        print(x,) # 打印成行，print(x) 打印成列
    print(x)
    
    for x in np.nditer(a, op_flags=['readwrite']): #通过op_flags设置读写模式，默认为写
        x[...]=2*x
    print(a)
    
    for x in np.nditer(a, flags =  ['external_loop'], order =  'F'):  # external_loop: 给出的值是具有多个值的一维数组，而不是零维数组
        print(x)
    
    b = np.array([1,  2,  3,  4], dtype =  int)  # 广播迭代
    for x,y in np.nditer([a, b]):
        print("%d:%d"  %  (x,y))
    pass

In [None]:
# NumPy - 数组操作
if True:
    a = np.arange(8).reshape(2,4)
    print(a.flat[5]) # 展开数组中的下标的对应元素
    print(a.flatten(order = 'k')) # 折叠为一维的数组副本(order：'C' 按行，'F' 按列，'A' 原顺序，'k' 元素在内存中的出现顺序)
    print(a.ravel(order = 'F'))   # 展开为一维数组，并且按需生成副本，与flatten类似
    # 翻转操作
    print(a.transpose(), '\t', a.T) # 翻转操作，与转置同效，即a.T
    pass

if False:
    a = np.arange(24).reshape(3, 2, 4)
    print(np.rollaxis(a, 2, 0), '\n') # 将轴 2 滚动到轴 0(宽度到深度) 将指定轴轮转到其它轴的位置
    print(np.rollaxis(a, 0, 3))        # 将轴 0 滚动到轴 1(宽度到高度)
    # 部分图片默认图片格式是[chanel][height][width], 然而有些地方显示要求[height][width][chanel],就需要改变图片轴的次序。
    #   old_img是3*32*32的，new_img是32*32*3的，newimg = np.rollaxis(old_img, 0, 3)  # 把轴0放到轴3的位置
    a = np.arange(8).reshape(2, 2, 2)
    print(np.swapaxes(a, 2, 0))  # numpy.swapaxes(arr, axis1, axis2) 交换两个轴
    pass

# 修改维度
# broadcast 产生模仿广播的对象;  broadcast_to 将数组广播到新形状;  expand_dims 扩展数组的形状;  squeeze 从数组的形状中删除单维条目
if False:
    x = np.array([[1], [2], [3]])
    y = np.array([4, 5, 6])
    b = np.broadcast(x, y)
    c = np.empty(b.shape)
    print(b, '\t', c.shape)
    c.flat = [u + v for (u,v) in b]
    print(c)
    pass

if False:
    # numpy.broadcast_to(array, shape, subok) 将数组广播到新形状。 它在原始数组上返回只读视图
    a = np.arange(4).reshape(1, 4)
    b = np.broadcast_to(a, (4, 4))
    
    # numpy.expand_dims(arr, axis) 在指定位置插入新的轴来扩展数组形状
    # numpy.squeeze(arr, axis) 从给定数组的形状中删除一维条目
    x = np.arange(9).reshape(1, 3, 3)
    y = np.squeeze(x)
    print(x.shape, y.shape)
    print(b)
    
# 数组的连接
# concatenate 沿着现存的轴连接数据序列 stack 沿着新轴连接数组序列 hstack 水平堆叠序列中的数组(列方向) vstack 竖直堆叠序列中的数组(行方向)
if False:
    # numpy.concatenate((a1, a2, ...), axis) 用于沿指定轴连接相同形状的两个或多个数组
    a = np.array([[1,2],[3,4]])
    b = np.array([[5,6],[7,8]])
    print(np.concatenate((a, b))) # 沿轴 0 连接两个数组
    print(np.concatenate((a, b), axis = 1)) # 沿轴 1 连接两个数组
    
    c1 = np.stack((a,b), 0) # 0可略 numpy.stack(arrays, axis) 沿新轴连接数组序列
    c2 = np.stack((a,b), 1)
    print(c1, c1.shape)
    print(c2, c2.shape)
    
    c3 = np.hstack((a, b)) # 水平堆叠
    print(c3, c3.shape)
    c4 = np.vstack((a, b)) # 垂直堆叠
    print(c4, c4.shape)
    pass

# 数组分割
if False:
    x = np.arange(9)
    y1 = np.split(x, 3) # 分割为三个等大小的数组
    print(y1)
    y2 = np.split(x, [2, 7]) # 按指定的位置分割
    print(y2)
    
    a = np.arange(16).reshape(4, 4)
    b1 = np.hsplit(a, 2) # 水平分割成两个数组
    print(b1)
    b2 = np.vsplit(a, 2) # 垂直分割成两个数组
    print(b2)
    pass

# 添加或删除元素
# resize 返回指定形状的新数组 append 将值添加到数组末尾 insert 沿指定轴将值插入到指定下标之前 delete 返回删掉某个轴的子数组的新数组 unique 寻找数组内的唯一元素
if False:
    # numpy.resize(arr, shape)
    # numpy.append(arr, values, axis)
    # numpy.insert(arr, obj, values, axis)
    a = np.array([5,2,6,2,7,5,6,8,2,9])
    u = np.unique(a)
    print(u)
    
    u, indices = np.unique(a, return_index = True) # 重复元素所在的索引
    print(indices)
    
    u,indices = np.unique(a,return_inverse = True)
    print(u, indices, u[indices])
    
    u,indices = np.unique(a,return_counts = True) # 返回去重元素的重复数量
    print(u, indices)
    pass

In [None]:
# 位操作
# bitwise_and 对数组元素执行位与操作 bitwise_or 对数组元素执行位或操作 invert 计算位非 left_shift 向左移动二进制表示的位 right_shift 向右移动二进制表示的位
if True:
    a, b = 13, 20
    print(bin(a), np.binary_repr(b))
    c1 = np.bitwise_and(a, b)
    c2 = np.bitwise_or(a, b)
    print(c1, c2)
    np.invert(a)
    print(a)
    np.invert(np.array([13], dtype = np.uint8))
    np.binary_repr(242, width = 8) # np.binary_repr()函数返回给定宽度中十进制数的二进制表示
    
    s1 = np.left_shift(a, 2)
    s2 = np.right_shift(s1, 2)
    print(s1, s2)
    print(np.binary_repr(s1, width = 8), np.binary_repr(s2, width = 8))
    pass

In [None]:
# 字符串函数
# numpy.char.add() 按元素的字符串连接
# numpy.char.multiply() 多重连接
print(np.char.add('uis', 'me'))
print(np.char.add(['uis', 'io'], ['eis', 'me'])) # 分开连接
print(np.char.multiply('uis  ', 3))

# numpy.char.center() 返回所需宽度的数组，以使输入字符串位于中心，并使用fillchar在左侧和右侧进行填充
print(np.char.center('how How live YOU', 30, fillchar = '+')) #30为生成后字串的总长度

# numpy.char.capitalize()
# numpy.char.title() 返回它的标题版本，其中每个单词的首字母都大写
# numpy.char.lower()
# numpy.char.upper()
print(np.char.capitalize('how How live YOU'))
print(np.char.title('how How live YOU'))
print(np.char.lower('how How live YOU'))
print(np.char.upper('how How live YOU'))

# numpy.char.split()返回输入字符串中的单词列表；默认分隔为空格及\n \r，否则指定的分隔符字符用于分割字符串
print(np.char.split('ashok \na rora\rseieo \tios'))
print(np.char.split('ashok \na,rora \rseieo ,\tios', sep = ','))
# numpy.char.splitlines() '\n'，'\r'，'\r\n'都会用作换行符
print(np.char.splitlines('ashok\narora\rseieo\tios'))

# numpy.char.strip() 返回数组的副本，其中元素移除了开头或结尾处的特定字符
print(np.char.strip('ashok arora','ar'))
print(np.char.strip(['arora','admin','java'],'a'))

# numpy.char.join() 返回一个字符串，其中单个字符由特定的分隔符连接
print(np.char.join('-', 'ingookey'))
print(np.char.join(['-', '*'], ['ingookey', 'uis']))

# numpy.char.replace()
print(np.char.replace('you are lovely', 'are',  'ware'))

# numpy.char.encode() & numpy.char.decode()
a = np.char.encode('ingookey', 'cp500') #cp500是一种编码格式
b = np.char.decode(a, 'cp500')
print(a, '\t', b)

In [None]:
# 算数函数
# 三角函数, 以为弧度制单位
a = np.array([0,30,45,60,90])
b1 = np.sin(a * np.pi/180) # cos, tan...
print(b1)
b2 = np.arcsin(b1) #arccos, arctan... 默认为弧度, np.degrees()可转为角度信息
print(b2, np.degrees(b2))

# numpy.around() 返回四舍五入到所需精度的值, numpy.floor() 返回不大于输入参数的最大整数, numpy.ceil()
a = np.array([0.77383, 89.3,  700.8888], dtype = np.float_)
print(np.around(a), '\t', np.floor(a), '\t', np.ceil(a))

# 算数运算add subtract multiply divide
a = np.arange(9, dtype = np.float_).reshape(3,3)  
b = np.array([10,10,10])  
print(np.add(a, b))
print(np.subtract(a, b))
print(np.multiply(a, b))
print(np.divide(a, b))

# numpy.reciprocal() 返回参数逐元素的倒数, 对于绝对值大于 1 的整数元素，结果始终为 0， 对于整数 0，则发出溢出警告
a = np.array([1, 0.25, 0.7, 7])
b = np.array([1, 0.25, 0.7, 7], dtype = int)
print(np.reciprocal(a), '\t', np.reciprocal(b))

# numpy.power() 计算幂
a = np.array([45, 10, 78])
print(np.power(a[1], 2))
print(np.power(a, [2, 2, 2]))

# numpy.mod() & numpy.remainder() 这两者的作用相同
a = np.array([10,20,30]) 
b = np.array([3,5,7]) 
print(np.mod(a, b), '\t', np.remainder(a, b))

# 复数操作
a = np.array([-5.6j,  0.2j,  11.  ,  1+1j])
print(np.real(a), '\t', np.imag(a))
print(np.conj(a), '\t', np.angle(a), '\t', np.angle(a, deg = True)) # angle默认在弧度返回，若deg为true, 则以角度返回

In [None]:
# 统计函数
# numpy.amin() 和 numpy.amax() 返回给定数组的最小值和最大值
a = np.array([[3,7,5],[8,4,3],[2,4,9]])
print(np.amin(a))
print(np.amax(a, axis = 1))

# umpy.ptp()返回沿轴的值的范围(最大值 - 最小值)
a = np.array([[3,7,5],[8,4,3],[2,4,9]])
print(np.ptp(a))
print(np.ptp(a, axis = 1))

# numpy.percentile(a, q, axis) 百分位数是统计中使用的度量，表示小于这个值的观察值占某个百分比
a = np.array([[30,40,70],[80,20,10],[50,90,60]])
print(np.percentile(a, 50))
print(np.percentile(a, 50, axis = 1))

# numpy.median() 中值定义为将数据样本的上半部分与下半部分分开的值
a = np.array([[30,65,70], [80,95,10], [50,90,60]])
print(np.median(a))
print(np.median(a, axis = 0))

# numpy.mean() 算术平均值是沿轴的元素的总和除以元素的数量
a = np.arange(1, 10).reshape(3, 3)
print(np.mean(a)) # 所有元素的平均值
print(np.mean(a, axis = 1)) # 沿列向的平均值

# numpy.average() 加权平均值是由每个分量乘以反映其重要性的因子得到的平均值
a, b= np.array([1, 2, 3, 4]), np.array([4, 3, 2, 1])
print(np.average(a, weights = b, returned = True))
a, wt = np.arange(6).reshape(3,2), np.array([3, 5])
print(np.average(a, axis =1, weights = wt, returned = True))

# 标准差 std = sqrt(mean((x - x.mean())**2))
a = np.array([1, 2, 3, 4])
print(np.std(a))
# 方差 mean((x - x.mean())** 2) 标准差是方差的平方根
print(np.var(a))

In [None]:
# 排序、搜索和计数函数
a = np.arange(-2, 7).reshape(3, 3)
# numpy.sort(a, axis, kind, order) kind 默认为'quicksort'(快速排序)  order 如果数组包含字段，则是要排序的字段
print(np.sort(a))
print(np.sort(a, axis = 0))

dt = np.dtype([('name',  'S10'),('age',  int)])
m = np.array([("raju",21),("anil",25),("ravi",  17),  ("amar",27)], dtype = dt)
print(np.sort(m, order='name'))

# numpy.argsort() 对输入数组沿给定轴执行间接排序，并使用指定排序类型返回数据的索引数组。
m = np.array([6, 1, 78])
n = np.argsort(m)
print(m[n])

# numpy.lexsort() 使用键序列执行间接排序。 键可以看作是电子表格中的一列, 该函数返回一个索引数组，使用它可以获得排序数据。
nm =  ('raju','anil','ravi','amar') 
dv  =  ('f.y.',  's.y.',  's.y.',  'f.y.') 
ind = np.lexsort((dv, nm))    
print(ind)
print([nm[i]  +  ", "  + dv[i]  for i in ind])

# numpy.argmax() 和 numpy.argmin() 沿给定轴返回最大和最小元素的索引
x = np.argmin(a, axis = 1)
y = np.argmax(a, axis = 0)
print(np.argmin(a), np.argmin(a, axis = 1), '\t' , a.flatten()[x])
print(np.argmax(a), np.argmax(a, axis = 0),  '\t' , a.flatten()[y])

# numpy.nonzero()返回输入数组中非零元素的索引
index = np.nonzero(a)
print(index, a[index])

# numpy.where() 返回输入数组中满足给定条件的元素的索引
index = np.where(a > 5)
print(index, '\t', a[index])

# numpy.extract() 返回满足任何条件的元素
condition = np.mod(a, 2) == 0
print(condition)
print(np.extract(condition, a))

In [None]:
# 字节交换
#numpy.ndarray.byteswap()大端和小端之间切换(小端: 最小有效位存储在最小地址中)   大端: 最小有效字节存储在最大地址中))
a = np.array([1, 78,  500], dtype = np.int16)
print(list(map(hex, a))) #以16进制比较方便观察
a.byteswap(True)
print(list(map(hex, a)))

In [None]:
# 副本与视图
#当内容物理存储在另一个位置时，称为副本。 另一方面，如果提供了相同内存内容的不同视图，我们将其称为视图
#无复制  相同id, 其中一个改变，另一个也改变
a = np.arange(6)
b = a
print(a, b, id(a), id(b))
a[0] = 67
print(a, b, id(a), id(b))

#浅复制  其中数据的改变会影响，但shape的改变不会有影响
a = np.arange(6).reshape(3, 2)
b = a.view()
print(a, b, id(a), id(b))
a[0] = 67
a.shape = 2, 3
print(a, b, id(a), id(b))

#深复制   id不一样，数据改变互不影响
a = np.arange(6)
b = a.copy()
print(a, b, id(a), id(b))
a[0] = 67
print(a, b, id(a), id(b))

In [None]:
# 矩阵库
# numpy.matlib.empty(shape, dtype, order) //order C 或 F
import numpy.matlib as nm
print(nm.empty((2, 3), dtype = np.float_, order = 'C'))

# numpy.matlib.zeros()
print(nm.zeros((2,2)))

# numpy.matlib.ones() 全为1
print(nm.ones((2, 3)))

# numpy.matlib.eye() 对角线元素为 1，其他位置为零
print(nm.eye(n =  3, M =  4, k =  0, dtype = float))

# numpy.matlib.identity() 返回给定大小的单位矩阵
print(nm.identity(5, dtype = float))

# numpy.matlib.rand() 返回给定大小的填充随机值的矩阵
print(nm.rand((2, 3)))

# others
i = np.matrix('1,2;3,4')
j = np.asarray(i)
k = np.asmatrix(j)
print(i, j, k)

In [None]:
#线性代数
# dot 两个数组的点积
# 对于二维向量，其等效于矩阵乘法。 对于一维数组，它是向量的内积。 对于 N 维数组，它是a的最后一个轴上的和与b的倒数第二个轴的乘积
a = np.array([[1,2],[3,4]])
b = np.array([[11,12],[13,14]])
print(np.dot(a, b))

# vdot 两个向量的点积
print(np.vdot(a, b))

# inner 两个数组的内积
print(np.inner(np.array([1,2,3]),np.array([0,1,0])))

# matmul 两个数组的矩阵积
a = [[1,0],[0,1]] 
b = [[4,1],[2,2]] 
print(np.matmul(a, b))

# determinant 数组的行列式
a = np.array([[1,2], [3,4]])
print(np.linalg.det(a))

# solve 求解线性矩阵方程
a = np.array([[1,1,1],[0,2,5],[2,5,-1]])
b = np.array([[6],[-4],[27]])
print(np.linalg.solve(a,b)) # 结果即线性方向 x = 5, y = 3, z = -2 的解

# inv 寻找矩阵的乘法逆矩阵
x = np.array([[1,2],[3,4]]) 
print(np.linalg.inv(x))

In [None]:
#IO
# load()和save()函数处理 numPy 二进制文件(带npy扩展名)
#  save()和load()函数接受一个附加的布尔参数allow_pickles;
#  Python 中的pickle用于在保存到磁盘文件或从磁盘文件读取之前，对对象进行序列化和反序列化。
a = np.array([67, 90, 7])
np.save('../config/numpy_out', a)
b = np.load('../config/numpy_out.npy')
print(b)

# loadtxt()和savetxt()函数处理正常的文本文件
# 以文本文件格式存储和获取数组数据，是通过savetxt()和loadtx()函数完成的。
a = np.array([67, 90, 7])
np.savetxt('../config/numpy_out.txt', a)
b = np.loadtxt('../config/numpy_out.txt')
print(b)

### pandas

In [None]:
Pandas是一个开放源码的Python库，它使用强大的数据结构提供高性能的数据操作和分析工具，Pandas用于广泛的领域，包括金融，经济，统计，分析等学术和商业领域。

Pandas的主要特点
    快速高效的DataFrame对象，具有默认和自定义的索引。
    将数据从不同文件格式加载到内存中的数据对象的工具。
    丢失数据的数据对齐和综合处理。
    重组和摆动日期集。
    基于标签的切片，索引和大数据集的子集。
    可以删除或插入来自数据结构的列。
    按数据分组进行聚合和转换。
    高性能合并和数据加入。
    时间序列功能。

Pandas处理以下三个数据结构 -
    系列(Series)     均匀数据, 尺寸大小不变, 数据的值可变
    数据帧(DataFrame)    异构数据, 大小可变, 数据可变
    面板(Panel)    异构数据, 大小可变, 数据可变


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# 对象创建
s = pd.Series([1, 5, 89, np.nan, 800])
print(s)

dates = pd.date_range('20180315', periods=7)
df = pd.DataFrame(np.random.randn(7, 4), index=dates, columns=list('ABCD'))
print(df)
df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20170102'),
                     'C' : pd.Series(1, index=list(range(4)), dtype='float32'),
                     'D' : np.array([3] * 4, dtype='int32'),
                     'E' : pd.Categorical(["test","train","test","train"]),
                     'F' : 'foo' })
type(df2)
print(df2)

# 查看数据
print(df.head()) # 前5行数据
print(df.tail(2))
print(df.index)
print(df.columns)
print(df.values) # 仅所有的数据
print(df.describe()) # 显示数据的快速统计摘要
print(df.T) #转置数据，从另一个角度看看数据
print(df.sort_index(axis=1, ascending=False)) # 轴排序
print(df.sort_values(by='B', ascending=True)) # 值排序

# 选择区块
print(df['B'], '\n', df.B) # 选择一列
print(df[0: 3], '\n', df['2018-03-15': '2018-03-18']) # 通过[]操作符，选择切片行
print(df.loc[dates[1]])   #使用标签获取横截面
print(df.loc[:, ['A', 'C']]) #通过标签选择多轴
print(df.loc['2018-03-15': '2018-03-17', ['A', 'C']]) #显示标签切片，包括两个端点
print(df.loc[dates[1], 'A'], df.at[dates[1], 'A']) #获得标量值
print(df.iloc[0]) #通过传递的整数的位置选择
print(df.iloc[3:5, 0:2])
print(df.iloc[[1,2,4], [0,2]])
print(df.iloc[1:3, :])
print(df.iloc[1,1])
print(df.iat[1,1])
print(df[df.A > 0]) #布尔索引
print(df[df > 0])
df2 = df.copy() #使用 isin()方法进行过滤
df2['E'] = ['one', 'uio', 'one', 'yui', 'one', 'uio', 'one']
print(df2[df2['E'].isin(['uio', 'yui'])])

In [None]:
# Pandas系列
# 创建Series
# pandas.DataFrame( data, index, dtype, copy)
#   //data  数据采取各种形式，如：ndarray，list，constants
#   //copy  复制数据，默认为false
s = pd.Series()
data = np.array(['a','b','c','d'])
s = pd.Series(data)
data = np.array(['a','b','c','d'])
s = pd.Series(data, index=[100,101,102,103])
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data)
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data,index=['b','c','d','a'])
s = pd.Series(5, index=[0, 1, 2, 3]) #标量的创建

# 从具有位置的系列中访问数据
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s[0], '\n', s[: 3], '\n', s[-3: ])

# 使用标签检索数据(索引)
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s['a'])
print(s[['a', 'c', 'e']])

In [None]:
# Pandas数据帧（DataFrame）
#创建DataFrame
df = pd.DataFrame()
data = [1,2,3,4,5]
df = pd.DataFrame(data)
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'], dtype=float)
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}] #通过字典创建
df = pd.DataFrame(data, index=['first', 'second'])
df = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b', 'd'])

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
        'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print(df['one']) #列选择
df['three'] = pd.Series([10, 20, 30], index=['a', 'b', 'c']) #列添加
df['four'] = df['one'] +df['two']
del df['three'] #列删除; 两种方式
df.pop('four')
# 行选择，添加和删除
print(df.loc['b']) #标签选择
print(df.iloc[1])  #按整数位置选择
print(df[0: 1]) # 行切片
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b']) # 附加行
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])
df = df.append(df2)
df.drop('0') # 删除行; 如果标签重复，则会删除多行
print(df)

In [None]:
# Pandas面板（Panel）
# pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)
# items: 每个项目对应于内部包含的数据帧
# major_axis: 数据帧的索引，即行
# minor_axis: 数据帧的列
# 创建面板
p = pd.Panel() #空面板
data = np.random.rand(2,4,5) # 从3D ndarray创建
p = pd.Panel(data)
# 从DataFrame对象的dict创建面板
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)),
             'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print(p['Item1']) #使用Items选择数据
#使用major_axis  0是行，1是列
print(p.major_xs(1))
#使用minor_axis
print(p.minor_xs(0))

In [None]:
# pandas series基本功能
# axes	返回行轴标签列表
# dtype	返回对象的数据类型(dtype)
# empty	如果系列为空，则返回True
# ndim	返回底层数据的维数，默认定义：1
# size	返回基础数据中的元素数
# values	将系列作为ndarray返回
s = pd.Series(np.random.randn(4))
print(s, s.axes, s.empty, s.ndim, s.size, s.values)

# pandas DataFrame基本功能
# T	转置行和列
# axes	返回一个列，行轴标签和列轴标签作为唯一的成员
# dtypes	返回此对象中的数据类型(dtypes)
# empty	如果NDFrame完全为空[无项目]，则返回为True; 如果任何轴的长度为0
# ndim	轴/数组维度大小
# shape	返回表示DataFrame的维度的元组
# size	NDFrame中的元素数
# values	NDFrame的Numpy表示
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Minsu','Jack']),
   'Age':pd.Series([25,26,25,23,30,29,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
df = pd.DataFrame(d)
print(df, df.T, df.axes, df.dtypes, df.empty, df.ndim, df.shape, df.size, df.values)

In [None]:
# Pandas描述性统计
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Minsu','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}
df = pd.DataFrame(d)
#print(df, '\n' , df.sum(axis=0), df.mean(), df.std()) #1为行向计算，0为列向计算

# count()	非空观测数量
# sum()	所有值之和
# mean()	所有值的平均值
# median()	所有值的中位数
# mode()	值的模值
# std()	值的标准偏差
# min()	所有值中的最小值
# max()	所有值中的最大值
# abs()	绝对值
# prod()	数组元素的乘积
# cumsum()	累计总和
# cumprod()	累计乘积
# object 汇总字符串列, number 汇总数字列, all 将所有列汇总在一起(不应将其作为列表值传递)
print(df.describe())
print(df.describe(include=['object']))

In [None]:
# Pandas函数应用
# 表格级函数应用 pipe()
def adder(ele1,ele2):
   return ele1+ele2

df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
#df.pipe(adder,2)

# 行或列级函数应用 apply()
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
#df.apply(np.mean, axis=1) # 按行执行
#df.apply(lambda x: x.max() - x.min())

# 元素级函数应用 applymap()
#df['col1'].map(lambda x: x*100)
df.applymap(lambda x: x*100)
print(df)

In [None]:
# Pandas重建索引
# 按一定的方式过滤数据
if True:
    N=20
    df = pd.DataFrame({
       'A': pd.date_range(start='2016-01-01', periods=N, freq='D'),
       'x': np.linspace(0, stop=N-1, num=N),
       'y': np.random.rand(N),
       'C': np.random.choice(['Low','Medium','High'], N).tolist(),
       'D': np.random.normal(100, 10, size=(N)).tolist()
    })
    #reindex the DataFrame
    df_reindexed = df.reindex(index=[0,2,5], columns=['A', 'C', 'B'])
    print(df_reindexed)
    pass

# 按已有数据集产生数据
if False:
    df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
    df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])
    print(df2.reindex_like(df1))
    print("Data Frame with Forward Fill:")
    df3 = df2.reindex_like(df1, method='ffill') # pad/ffill 向前填充值  bfill/backfill 向后填充值  nearest 从最近的索引值填充
    print(df3)
    pass

# 填充时重新加注
if False:
    df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
    df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])
    print(df2.reindex_like(df1))
    print ("Data Frame with Forward Fill limiting to 1:")
    df3 = df2.reindex_like(df1,method='ffill', limit=1)
    print(df3)
    pass

# 重命名index & column
if False:
    df1 = pd.DataFrame(np.random.randn(6,3), columns=['col1','col2','col3'])
    print ("After renaming the rows and columns:")
    df2 = df1.rename(columns={'col1' : 'c1', 'col2' : 'c2'}, index = {0 : 'apple', 1 : 'banana', 2 : 'durian'})
    print(df2)
    pass

In [None]:
# Pandas迭代
# iteritems()将每个列作为键，将值与值作为键和列值迭代为Series对象。
if True:
    df = pd.DataFrame(np.random.randn(4,3), columns=['col1','col2','col3'])
    for key,value in df.iteritems():
        print (key,value)
    pass

# iterrows()返回迭代器，产生每个索引值以及包含每行数据的序列。
if False:
    df = pd.DataFrame(np.random.randn(4,3), columns = ['col1','col2','col3'])
    for row_index,row in df.iterrows():
        print(row_index,row)
    pass

# itertuples()方法将为DataFrame中的每一行返回一个产生一个命名元组的迭代器。元组的第一个元素将是行的相应索引值，而剩余的值是行值。
#  迭代是用于读取，迭代器返回原始对象(视图)的副本，因此更改将不会反映在原始对象上。
if False:
    df = pd.DataFrame(np.random.randn(4,3), columns = ['col1','col2','col3'])
    for row in df.itertuples():
        print (row)
    pass

In [None]:
# Pandas排序
df = pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7],columns = ['col2','col1'])
# 使用sort_index()方法，通过传递axis参数和排序顺序，可以对DataFrame进行排序。 默认情况下，按照升序对行标签进行排序。
if False:
    df2 = df.sort_index(ascending=True) # 默认是升序
    print(df2)
    pass

# 通过传递axis参数值为0或1，可以对列标签进行排序, 默认情况下，axis = 0逐行排列
if False:
    df2 = df.sort_index(axis = 0)
    print(df2)
    pass

# 像索引排序一样，sort_values()是按值排序的方法。它接受一个by参数，它将使用要与其排序值的DataFrame的列名称
# sort_values()提供了从mergeesort，heapsort和quicksort中选择算法的一个配置。Mergesort是唯一稳定的算法。
if True:
    df2 = df.sort_values(by='col1')
    df2 = df.sort_values(by=['col1', 'col2'], kind='heapsort')
    print(df2)
    pass

In [None]:
# Pandas字符串和文本数据
s = pd.Series(['Tom ', 'William Rick', ' John', 'Alber@t', np.nan, '1234','SteveMinsu'])
# lower()	将Series/Index中的字符串转换为小写。
# upper()	将Series/Index中的字符串转换为大写。
# len()	计算字符串长度。
if False:
    print(s.str.lower(), s.str.upper(), s.str.len())
    pass

# strip()	帮助从两侧的系列/索引中的每个字符串中删除空格(包括换行符)。
# split(' ')	用给定的模式拆分每个字符串。
# cat(sep=' ')	使用给定的分隔符连接系列/索引元素。
# get_dummies()	返回具有单热编码值的数据帧(DataFrame)。
# contains(pattern)	如果元素中包含子字符串，则返回每个元素的布尔值True，否则为False。
if False:
    print(s.str.strip(), s.str.split(' '), s.str.cat(sep='='), s.str.get_dummies(), s.str.contains('J'))
    pass

# replace(a,b)	将值a替换为值b。
# repeat(value)	重复每个元素指定的次数。
# count(pattern)	返回模式中每个元素的出现总数。
if False:
    print(s.str.replace('@', '**'), s.str.repeat(2), s.str.count('i'))
    pass

# startswith(pattern)	如果系列/索引中的元素以模式开始，则返回true。
# endswith(pattern)	如果系列/索引中的元素以模式结束，则返回true。
# find(pattern)	返回模式第一次出现的位置。
# findall(pattern)	返回模式的所有出现的列表。
if False:
    print(s.str.startswith('T'), s.str.endswith('t'), s.str.find('e'), s.str.findall('e'))
    pass

# swapcase	变换字母大小写。
# islower()	检查系列/索引中每个字符串中的所有字符是否小写，返回布尔值
# isupper()	检查系列/索引中每个字符串中的所有字符是否大写，返回布尔值
# isnumeric()	检查系列/索引中每个字符串中的所有字符是否为数字，返回布尔值。
if False:
    print(s.str.swapcase(), s.str.islower(), s.str.isupper(), s.str.isnumeric())
    pass

In [None]:
# Pandas选项和自定义
# get_option(param)需要一个参数，并返回下面输出中给出的值, 具体设置项如下：
#   display.max_rows	要显示的最大行数
#   display.max_columns	要显示的最大列数
#   display.expand_frame_repr	显示数据帧以拉伸页面
#   display.max_colwidth	显示最大列宽
#   display.precision	显示十进制数的精度
if True:
    print(pd.get_option('display.precision'))
    pass

# set_option需要两个参数，并将该值设置为指定的参数值
if True:
    pd.set_option('display.max_rows', 80)
    print(pd.get_option('display.max_rows'))
    pass

# reset_option接受一个参数，并将该值设置为默认值
if True:
    pd.reset_option('display.max_rows')
    print(pd.get_option('display.max_rows'))
    pass

# describe_option打印参数的描述,，结果可以看到可设置的选项非常多；
if False:
    print(pd.describe_option())
    pass

# option_context上下文管理器用于临时设置语句中的选项。当退出使用块时，选项值将自动恢复
if True:
    with pd.option_context("display.max_rows", 10):
        print(pd.get_option("display.max_rows")) # 10
    print(pd.get_option("display.max_rows")) # 60
    pass


In [None]:
# Pandas索引和选择数据
# Python和NumPy索引运算符"[]"和属性运算符"."
#  .loc() 基于标签(loc需要两个单/列表/范围运算符，用","分隔。第一个表示行，第二个表示列)
if False:
    df = pd.DataFrame(np.random.randn(8, 4), index = ['a','b','c','d','e','f','g','h'], columns = ['A', 'B', 'C', 'D'])
    print(df.loc['a' : 'd', :])
    print(df.loc[['c', 'g'], ['A', 'C']])
    print (df, df.loc['a']>0)
    pass

#  .iloc() 基于整数  以获得纯整数索引。像python和numpy一样，第一个位置是基于0的索引
if False:
    df = pd.DataFrame(np.random.randn(8, 4), columns = ['A', 'B', 'C', 'D'])
    print (df.iloc[[1, 3, 5], [1, 3]])
    print (df.iloc[1:3, :])
    print (df.iloc[:,1:3])
    pass

#  .ix() 基于标签和整数   除了基于纯标签和纯整数之外，还提供了一种使用.ix()运算符进行选择和子集化对象的混合方法。
if False:
    df = pd.DataFrame(np.random.randn(8, 4), columns = ['A', 'B', 'C', 'D'])
    print(df.ix[:4])
    print(df.ix[:, 'C'])
    pass

if True:
    # 使用基本索引运算符 []
    df = pd.DataFrame(np.random.randn(8, 4), columns = ['A', 'B', 'C', 'D'])
    print(df[['A','B']])
    print(df[1:2])
    
    # 使用属性运算符.来选择列
    df = pd.DataFrame(np.random.randn(8, 4), columns = ['A', 'B', 'C', 'D'])
    print(df.A)
    pass

In [None]:
# Pandas统计函数
# pct_change()函数：此函数将每个元素与其前一个元素进行比较，并计算变化百分比。
if True:
    s = pd.Series([1,2,3,4,5,4])
    print(s.pct_change())
    df = pd.DataFrame(np.random.randn(5, 2))
    print(df.pct_change())
    pass

# 协方差：协方差方法计算所有列之间的协方差(cov)值
if False:
    frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
    print(frame['a'].cov(frame['b']))
    print(frame.cov())
    pass

# 相关性：相关性显示了任何两个数值(系列)之间的线性关系
if False:
    frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
    print(frame['a'].corr(frame['b']))
    print(frame.corr())
    pass

# 数据排名
if False:
    s = pd.Series(np.random.randn(5), index=list('abcde'))
    s['b'] = s['a']
    print(s.rank())
    pass

In [None]:
# Pandas窗口函数
# rolling()可以应用于一系列数据,指定window=n参数并在其上应用适当的统计函数。
if False:
    df = pd.DataFrame(np.random.randn(10, 4), index = pd.date_range('1/1/2020', periods=10), columns = ['A', 'B', 'C', 'D'])
    print (df.rolling(window=3).mean())
    pass

# expanding()应用于一系列数据, 指定min_periods = n参数并在其上应用适当的统计函数。
if False:
    df = pd.DataFrame(np.random.randn(10, 4), index = pd.date_range('1/1/2020', periods=10), columns = ['A', 'B', 'C', 'D'])
    print (df.expanding(min_periods=3).mean())
    pass

# ewm()应用于系列数据,指定com，span，halflife参数，并在其上应用适当的统计函数,它以指数形式分配权重。
if True:
    df = pd.DataFrame(np.random.randn(10, 4), index = pd.date_range('1/1/2020', periods=10), columns = ['A', 'B', 'C', 'D'])
    print (df.ewm(com=0.5).mean())
    pass

In [None]:
# Pandas聚合
df = pd.DataFrame(np.random.randn(10, 4), index = pd.date_range('1/1/2020', periods=10), columns = ['A', 'B', 'C', 'D'])
r = df.rolling(window=3,min_periods=1)

print(r.aggregate(np.sum)) # 在整个数据框上应用聚合
print(r['A'].aggregate(np.sum)) # 在数据框的单个列上应用聚合
print(r['A', 'C'].aggregate(np.sum)) # 在数据框的多个列上应用聚合
print(r['A'].aggregate(np.sum, np.mean)) # 在DataFrame的单个列上应用多个函数
print(r['A', 'C'].aggregate(np.sum, np.mean)) # 在DataFrame的多列上应用多个函数
print(r.aggregate({'A' : np.sum, 'B' : np.mean})) # 将不同的函数应用于DataFrame的不同列

In [None]:
# Pandas缺失数据

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f','h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
#检查缺失值
if False:
    print(df['one'].isnull())
    print(df['two'].notnull())
    pass

# 缺少数据的计算(在求和数据时，NA将被视为0 如果数据全部是NA，那么结果将是NA)
if False:
    print(df['one'].sum())
    df2 = pd.DataFrame(index=[0,1,2,3,4,5],columns=['one','two'])
    print(df2['one'].sum())
    pass

# 清理/填充缺少数据
if False:
    print(df.fillna(0)) # 用标量值替换NaN
    print(df.fillna(method='pad')) #向前填充 na, bfill 为向后填充 na
    pass

# 删除缺少的值
if False:
    print(df.dropna(axis=0)) # 默认按行删除，即axis=0
    pass

# 替换丢失(或)通用值
if True:
    df = pd.DataFrame({'one':[10,20,30,40,50,2000], 'two':[1000,0,30,40,50,60]})
    print(df.replace({1000:10,2000:60}))
    pass

In [None]:
#Pandas分组（GroupBy）
ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
         'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
         'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
         'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
         'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)

# 将数据拆分成组
if False:
    print(df)
    print(df.groupby('Team'))
    print(df.groupby('Team').groups)
    print(df.groupby(['Team', 'Year']).groups)
    pass

# 迭代遍历分组
if False:
    grouped = df.groupby('Team')
    for name, group in grouped:
            print(name)
            print(group)
    pass

# 选取一个分组
if False:
    grouped = df.groupby('Year')
    print(grouped.get_group(2015))
    pass

#聚合
if False:
    grouped = df.groupby('Year')
    print(grouped['Points'].agg(np.mean))
    # 查看每个分组的大小的方法是应用size()函数 
    g2 = df.groupby('Team')
    print(g2.agg(np.size))
    print(g2['Points'].agg([np.sum, np.mean, np.std])) #一次应用多个聚合函数
    pass

if False:
    grouped = df.groupby('Team') #转换
    score = lambda x: (x - x.mean()) / x.std()*10
    print(grouped.transform(score))
    
    filter = df.groupby('Team').filter(lambda x: len(x) >= 3) #过滤
    print(filter)
    pass

In [None]:
# Pandas合并/连接
# pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True)
left = pd.DataFrame({
         'id':[1,2,3,4,5],
         'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
         'subject_id':['sub1','sub2','sub4','sub6','sub5']})
right = pd.DataFrame({
         'id':[1,2,3,4,5],
         'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
         'subject_id':['sub2','sub4','sub3','sub6','sub5']})
if True:
    print(pd.merge(left, right, on='id')) #在一个键上合并两个数据帧
    print(pd.merge(left, right, on=['id', 'subject_id'])) # 合并多个键上的两个数据框
    print(pd.merge(left, right, on='subject_id', how='left')) #合并使用“how”的参数
    pass

In [None]:
# Pandas级联
one = pd.DataFrame({
         'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
         'subject_id':['sub1','sub2','sub4','sub6','sub5'],
         'Marks_scored':[98,90,87,69,78]},
         index=[1,2,3,4,5])
two = pd.DataFrame({
         'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
         'subject_id':['sub2','sub4','sub3','sub6','sub5'],
         'Marks_scored':[89,80,79,97,88]},
         index=[1,2,3,4,5])
if False:
    print(pd.concat([one,two])) # concat()函数完成了沿轴执行级联操作的所有重要工作
    print(pd.concat([one,two],keys=['x','y']))
    print(pd.concat([one,two],keys=['x','y'], ignore_index=True))
    pass

if False:
    # 使用附加连接
    rs = one.append(two)
    rs = one.append([two, one, two])
    print(rs)
    pass

if True:
    # 时间序列
    print(pd.datetime.now())
    # 创建一个时间戳
    time = pd.Timestamp('2018-11-11')
    time = pd.Timestamp(1588686880, unit='s')
    # 创建一个时间范围
    time = pd.date_range("12:00", "23:59", freq="30min").time
    #改变时间的频率
    time = pd.date_range("12:00", "23:59", freq='H').time
    #转换为时间戳 : NaT表示不是一个时间的值(相当于NaN)
    time = pd.to_datetime(pd.Series(['Jul 31, 2009','2019-10-10', '2009/11/23', None]))
    print(time)
    pass

In [None]:
# Pandas日期功能
if True:
    #创建一个日期范围
    datelist = pd.date_range('2020/11/21', periods=5)
    #更改日期频率
    datelist = pd.date_range('2020/11/21', periods=5, freq='M')
    # bdate_range()用来表示商业日期范围，不同于date_range()，它不包括星期六和星期天。
    datelist = pd.bdate_range('2018.1.12', periods=6)
    
    start = pd.datetime(2017, 11, 1)
    end = pd.datetime(2017, 11, 5)
    datelist = pd.date_range(start, end)
    print(datelist)
    pass
#  偏移别名
#  B	工作日频率
#  BQS	商务季度开始频率
#  D	日历/自然日频率
#  A	年度(年)结束频率
#  W	每周频率
#  BA	商务年底结束
#  M	月结束频率
#  BAS	商务年度开始频率
#  SM	半月结束频率
#  BH	商务时间频率
#  SM	半月结束频率
#  BH	商务时间频率
#  BM	商务月结束频率
#  H	小时频率
#  MS	月起始频率
#  T, min	分钟的频率
#  SMS	SMS半开始频率
#  S	秒频率
#  BMS	商务月开始频率
#  L, ms	毫秒
#  Q	季度结束频率
#  U, us	微秒
#  BQ	商务季度结束频率
#  N	纳秒
#  BQ	商务季度结束频率
#  QS	季度开始频率

In [None]:
# Pandas时间差（Timedelta）
# 时间差(Timedelta)是时间上的差异，以不同的单位来表示，
# 例如：日，小时，分钟，秒。它们可以是正值，也可以是负值。
if True:
    timediff = pd.Timedelta(' 2 days 2 hours 4 minutes 6 seconds') #字符串
    timediff = pd.Timedelta(8, unit='h') #整数
    timediff = pd.Timedelta(days=3) #数据偏移
    
    s = pd.Series(pd.date_range('2012-1-1', periods=3, freq='D')) #运算操作
    td = pd.Series([ pd.Timedelta(days=i) for i in range(3) ])
    df = pd.DataFrame(dict(A = s, B = td))
    df['C']=df['A']+df['B'] #相加操作
    df['D']=df['C']- df['B'] #相减操作
    print(df)
    
    pass

In [None]:
#Pandas分类数据

if False:
    s = pd.Series(['a', 'b', 'c', 'a'], dtype='category') #类别/分类
    s = pd.Categorical(['a', 'b', 'c', 'a', 'b', 'c']) #pd.Categorical 分类构造函数
    cat = pd.Categorical(['a','b','c','a','b','c','d'], ['c', 'b', 'a'])
    cat=pd.Categorical(['a','b','c','a','b','c','d'], ['c', 'b', 'a'],ordered=True)
    print(cat, cat.describe())
    print(cat.categories) #获取类别的属性
    pass

if True:
    s = pd.Series(["a","b","c","a"], dtype="category")
    s.cat.categories = ["Group %s" % g for g in s.cat.categories] # 重命名类别
    s = s.cat.add_categories([4]) #附加新类别
    s = s.cat.remove_categories(4) #删除类别
    
    # 分类数据的比较
    cat2 = pd.Series([1,2,3]).astype("category", categories=[1,2,3], ordered=True)
    cat3 = pd.Series([2,2,2]).astype("category", categories=[1,2,3], ordered=True)
    print(cat2 > cat3)
    pass

In [None]:
# Pandas可视化
# Series和DataFrame上的这个功能使用matplotlib进行简单包装
from pylab import *

if False:
    df = pd.DataFrame(np.random.randn(10,4),index=pd.date_range('2018/12/18', periods=10), columns=list('ABCD'))
    df.plot()
    pass

if False:
    data = pd.DataFrame({
            'Weekly':['W18.02','W18.03','W18.04','W18.05','W18.06','W18.07/08','W18.09','W18.10','W18.11'],
            'Jira': [2, 2, 4, 13, 22, 9, 13, 22, 17],
            'Non-Jira':[0, 0, 0, 26, 22, 20, 23, 30, 51]})
    df = pd.DataFrame(data, columns=['Weekly', 'Jira','Non-Jira'])
    df.plot.bar(stacked=True)
    plt.show()
    pass

if True:
    df = pd.read_csv('../config/tes.csv', dtype={'Jira':np.float},  names=['a', 'b', 'c'], header=0) # dtype转换器可转换类型
    print(df)
    bar(np.arange(9), df['b'],  facecolor='#9999ff', edgecolor='white')
    bar(np.arange(9), -df['c'],  facecolor='#ff9999', edgecolor='white')
    show()
    pass

In [None]:
#Pandas稀疏数据
# 调用 to_sparse可以将任何稀疏对象转换成稀疏对象形式
# 调用 to_dense可以将任何稀疏对象转换回标准密集形式
if True:
    df = pd.DataFrame(np.random.randn(10000, 4))
    df.ix[:9998] = np.nan
    sdf = df.to_sparse()
    print (sdf.density)
    pass