In [None]:
**numpy & pandas**
- movie show https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/
- cookbook https://pandas.pydata.org/pandas-docs/stable/tutorials.html#pandas-cookbook
    
    

In [2]:
## numpy
import numpy as np

In [None]:
# numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
ar = np.array([3, 7, 9])
br = np.array([[11, 14], [21, 25]]) # 二维
print(ar, '\t', br)

cr = np.array([1,  2,  3, 4, 5], ndmin =  2) # 指定最为二维
dr = np.array([1,  2,  3], dtype = complex)
print(cr, '\t', dr)

In [None]:
dt = np.dtype([('name', 'S20'), ('age', np.int8), ('score', 'f4')])
ar = np.array([('alex', 10, 89.0), ('june', 20, 78), ('jie', 30, 90)], dtype=dt)
print(dt, '\t', ar, '\t',ar.itemsize)
'''
内建类型都有一个唯一定义它的字符代码：
'b'：布尔值
'i'：符号整数	'u'：无符号整数
'f'：浮点		     'c'：复数浮点
'm'：时间间隔	   'M'：日期时间
'O'：Python对象	'S', 'a'：字节串
'U'：Unicode	        'V'：原始数据(void)
'''

In [None]:
# ndarray.shape 数组的维度 & 如何更改维度
ar = np.array([[1,2,3],[4,5,6]])
print(ar.shape)

ar = np.array([[1,2,3],[4,5,6]])
ar.shape = (3, 2)
print(ar.shape)

br = ar.reshape(2, 3) # 必需赋给一个新的变量，原变量的维度不会变
print(ar.shape, '\t', br.shape)

# ndarray.ndim 返回数组的维数
ar = np.arange(24)
print(ar, '\t', ar.ndim)
br = ar.reshape(2,4,3)
print(br, '\t', br.ndim)

# numpy.itemsize 返回数组中每个元素的字节长度(dtype中元素的总长度)
print(ar.dtype, '\t', ar.itemsize)

# numpy.flags  ndarray对象拥有以下属性，这个函数返回了它们的当前值
#   C_CONTIGUOUS :  数组位于单一的、C 风格的连续区段内
#   F_CONTIGUOUS :  数组位于单一的、Fortran 风格的连续区段内
#   OWNDATA : 数组的内存从其它对象处借用
#   WRITEABLE : 数据区域可写入。 将它设置为flase会锁定数据，使其只读
#   ALIGNED : 数据和任何元素会为硬件适当对齐
#   UPDATEIFCOPY : 这个数组是源数组的副本。当这个数组释放时，源数组会由这个数组中的元素更新
print(ar.flags)

In [None]:
# numpy.empty
#   创建指定形状和dtype的未初始化数组, 它使用以下构造函数：numpy.empty(shape, dtype = float, order = 'C') //F
#   注意：数组元素为随机值，因为它们未初始化.
ar = np.empty([3, 2], dtype =  int)
print(ar)

# numpy.zeros
#   以0填充新数组 numpy.zeros(shape, dtype = float, order = 'C')
br = np.zeros(5) # 默认为float类型
cr = np.zeros((2,2), dtype = [('x',  'i4'),  ('y',  'i4')]) # 新建自定义类型
print(br, '\t', cr)

# numpy.ones
#   返回特定大小，以1填充的新数组。numpy.ones(shape, dtype = None, order = 'C')
dr = np.ones([2,2], dtype =  int) # 默认为float类型
print(dr)

# numpy.asarray(a, dtype = None, order = None) 来自现有数据的数组
l1 = [7, 8, 9]
l2 = (70, 80, 90)
l3 = ([56, 78], [43, 13, 33]) # l4...
ar1 = np.asarray(l1)
ar2 = np.asarray(l2,dtype = float)
ar3 = np.asarray(l3)
print(ar1, '\t', ar2, '\t', ar3)

# numpy.frombuffer(buffer, dtype = float, count = -1, offset = 0) 将缓冲区解释为一维数组
#   count: 需要读取的数据数量，默认为-1，读取所有数据
#   offset: 需要读取的起始位置，默认为0
if False:
    st =  'tyyfrombufferbuffe'
    ar = np.frombuffer(st, dtype = 's1')
    print(ar)

# numpy.fromiter(iterable, dtype, count = -1)
#   从任何可迭代对象构建一个ndarray对象，返回一个新的一维数组
#   count 需要读取的数据数量，默认为-1，读取所有数据
l1 = range(6)
it = iter(l1)
ar = np.fromiter(it, dtype = float)
print(ar)

# numpy.arange(start, stop, step, dtype)
#   返回ndarray对象，包含给定范围内的等间隔值。
ar = np.arange(5, dtype = 'i2')
br = np.arange(0, 100, 6, dtype = float)
print(ar, '\t', br)

# numpy.linspace(start, stop, num, endpoint, retstep, dtype)
#   在此函数中，指定了范围之间的均匀间隔数量，而不是步长
#   endpoint 序列中是否包含stop值，默认为true
#   retstep 如果为true, 将相关步长之类的信息也打印出来
ar = np.linspace(10, 20,  5, endpoint =  False)
ar1 = np.linspace(10, 20,  5, endpoint =  False, retstep = True, dtype = 'i2')
br = np.linspace(0, 50, 10, retstep = True)
print(ar, '\t', ar1, '\t', br)

# numpy.logscale(start, stop, num, endpoint, base, dtype)
#   返回ndarray对象，其中包含在对数刻度上均匀分布的数字, 刻度的开始和结束端点是某个底数的幂，通常为 10, 即base的值
ar = np.logspace(1, 10, num =10,  base  =  2)
print(ar)

In [28]:
# 切片和索引 (start: stop: step), 它标记的是位置
# 基本索引
if False:
    a = np.arange(10)
    s1 = slice(2, 7, 2)
    print(a[s1])
    print(a[2: 7: 2])
    print(a[5])
    print(a[2:5], '\t', a[2:], '\t', a[:5])
    
    b = np.array([[1,2,3],[3,4,5],[4,5,6]])
    print(b[1:])
    print(b[2, ...]) #第二行的元素
    print(b[..., 2]) #第二列的元素
    print(b[..., 1:])
    pass

# 整数索引
if False:
    x = np.array([[1,  2],  [3,  4],  [5,  6]])
    y = x[[0,1,2],  [0,1,0]]
    print(y) # 输出(0, 0), (1,1), (2,0)元素的值
    
    x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
    rows = np.array([[0,0], [3,3]]) 
    cols = np.array([[0,2], [0,2]])  #(0, 0), (0, 2), (3, 0), (3, 2)
    y = x[rows, cols]
    print(y)
    
    z = x[1: 4, 1: 3]
    print(z, '\n')
    
    u = x[1: 4, [1, 2]]
    print(u)
    pass

# 布尔索引
if True:
    x = np.array([[  0,  1,  2], [  3,  4,  5], [  6,  7,  8], [  9,  10,  11]])
    y = x[x >= 6]
    print(y)
    
    x1 = np.array([np.nan, 5, 7, 8, np.nan])
    y1 = x1[~np.isnan(x1)] # ~(取补运算符)来过滤NaN
    print(y1)
    
    x2 = np.array([1,  2+6j,  5,  3.5+5j])
    y2 = x2[np.iscomplex(x2)]
    print(y2)
    pass


[ 6  7  8  9 10 11]
[ 5.  7.  8.]
[ 2.0+6.j  3.5+5.j]
