In [9]:
import numpy as np
a = np.array([1,2,3,4])
b = a.reshape(2,-1)

In [31]:
#定义结构数组：
#实际上就像C语言中的struct结构体
#dtype表示numpy的多维数组的元素的数据类型
#我们自己定义一个数据类型叫做“人”
persontype = np.dtype({'names':['name','age','weight'],'formats':['S32','i','f']})
#注意了这里的‘names','formats'是固定的语法！不能改的，在names里面给出人为设定的参数，formats制定类型，两个都是list！
#S32 32个字节的字符串类型，由于结构中每个元素大小必须固定，因此需要指定字符串的长度。
#i:32bit 的整数类型，相当于np.int32
#f:32bit 的单精度浮点数类型，相当于np.float32
a = np.array([('Zhong',32,75.5),('Wang',26,65.2)],dtype = persontype)
a.dtype

dtype([('name', 'S32'), ('age', '<i4'), ('weight', '<f4')])

In [32]:
c = a[1]
c["name"]#不知道为什么有b

b'Wang'

In [37]:
b = a[:]["age"]#这里可以直接修改b来修改a
print(b)
b[0]=40
a[0]["age"]

[32 26]


40

In [38]:
a.tofile("test.bin")#直接将数组a输出为二进制形式

### ufunc ---- universal function 是一种能够对数组的每一个元素进行操作的函数！是C语言级别实现的，因此计算的速度非常快！
#### 这就是为什么np.sin(x)可以对数组中的每一个元素运算。


In [54]:
import time
import math
import numpy as np
x = [1,2,3]
#enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。
a = list(enumerate(x))
print(a)
#需要配合list来使用，主要用在for循环，而且可以加一个start参数
print(enumerate(x))#直接打印出来是一个数据结构
a = list(enumerate(x,start = 1))
#start 改变的是编号
print(a)
for i,t in a :
    print(i,t)


[(0, 1), (1, 2), (2, 3)]
<enumerate object at 0x12b28dca8>
[(1, 1), (2, 2), (3, 3)]
1 1
2 2
3 3


In [55]:
#这个例子说明的是对于大量的数据而言，numpy.sin在C语言级别的循环计算
#但是事实上如果只处理单个数字就是math占上风了
x = [i * 0.001 for i in range(10000000)]
start = time.clock()
for i,t in enumerate(x):
   x[i] = math.sin(t)
print("math.sin:",time.clock()-start)

x = [i * 0.001 for i in range(10000000)]
x = np.array(x)#这个就很快了
start = time.clock()
np.sin(x,x)
print("numpy.sin:", time.clock() - start)

  
  """


math.sin: 2.5150179999999995
numpy.sin: 0.02846300000000035


  if __name__ == '__main__':
  # This is added back by InteractiveShellApp.init_path()


In [61]:
#确实好像是math快了几倍，不到5倍吧，总之对于单个数的是math快，对array，list是numpy快
x = [i * 0.001 for i in range(1000000)]
start = time.clock()
for i, t in enumerate(x):
    x[i] = np.sin(t)
print ("numpy.sin loop:", time.clock() - start)

start = time.clock()
for i, t in enumerate(x):
    x[i] = math.sin(t)
print ("math.sin loop:", time.clock() - start)

  
  """
  import sys


numpy.sin loop: 0.9202350000000017
math.sin loop: 0.2668140000000001


  # Remove the CWD from sys.path while we load stuff.


In [64]:
def triangle_wave(x, c, c0, hc):
    x = x - int(x) # 三角波的周期为1，因此只取x坐标的小数部分进行计算
    if x >= c: r = 0.0
    elif x < c0: r = x / c0 * hc
    else: r = (c-x) / (c-c0) * hc
    return r
x = np.linspace(0, 2, 1000)
print(triangle_wave(x,0.6,0.4,1.0))
#可见自己写的这个函数是只能够处理单个数而不能够处理数组的
#问题出在 int()只能处理单个数字！而不是别的地方，只要能避免这一点就行了

TypeError: only size-1 arrays can be converted to Python scalars

In [71]:
#法1:
time1 = time.time()
x = np.linspace(0, 2, 1000000)
y = np.array([triangle_wave(t, 0.6, 0.4, 1.0) for t in x])
print(time.time()-time1)
#这就是合法操作了。我们首先利用列表包容(List comprehension)计算出一个list，然后
#后用array函数将列表转换为数组
##但是这种方法每次都需要利用列表包容语法调用函数，对于多维数组是很麻烦的。

1.02046799659729


In [72]:
#法2:
#采用frompyfunc 函数来解决
#可以看出时间上来说还是有一定提高的！一旦提高数据数量差距就变得很明显了！
#这种方法更加值得提倡
time1 = time.time()
x = np.linspace(0, 2, 1000000)
triangle_ufunc = np.frompyfunc( lambda x: triangle_wave(x, 0.6 , 0.4, 1.0), 1, 1)
y2 = triangle_ufunc(x)
print(time.time()-time1)

0.4664161205291748


frompyfunc:调用格式为frompyfunc(func, nin, nout)
其中func是计算单个元素的函数，nin是此函数的输入参数的个数，nout是返回值个数
用一个lambda函数对triangle_wave的参数进行包装，这样传入frompyfunc的函数就
只有一个参数，但是直观感觉这样的效率还不是太高。

In [84]:
#法3:比之前更快了一点
#这个嵌套函数我也是第一次见到
def triangle_func(c, c0, hc):
    def trifunc(x):
        x = x - int(x)
        if x >= c: r = 0.0
        elif x < c0: r = x / c0 * hc
        else: r = (c-x) / (c-c0) * hc
        return r
    # 用trifunc函数创建一个ufunc函数，可以直接对数组进行计算
    return np.frompyfunc(trifunc, 1, 1)
time1 = time.time()
x = np.linspace(0, 2, 1000000)
y2 = triangle_func(0.6, 0.4, 1.0)(x)
print(time.time()-time1)

0.43184733390808105


In [89]:
def func1(a,b,c):
    def func2(x):
        x = (x+a)*b+c
        return x
    return np.frompyfunc(func2,1,1)
x = np.linspace(0,5,10)
y = func1(0.5,0.5,0.5)(x)
print(y)

[0.75 1.0277777777777777 1.3055555555555556 1.5833333333333335
 1.8611111111111112 2.138888888888889 2.416666666666667 2.6944444444444446
 2.9722222222222223 3.25]


In [91]:
def func1(a,b,c):
    def func2(x):
        x = (x+a)*b+c
        return x
    return x+1#问题出在这里，但是我暂时还说不清楚
#x = np.linspace(0,5,10)
x = 1
y = func1(0.5,0.5,0.5)(x)
print(y)
#不论是采用单一数字还是数组这个程序都无法跑起来，原因？
#Typeerror 是 'int'/'ndarray' object is not callable

TypeError: 'int' object is not callable

# 我们来看一下Python 嵌套函数和闭包

在一个外函数内定义了一个内函数，内函数里运用了外函数的临时变量，并且外函数的返回值是内函数的引用，
这样就构成了一个闭包。

In [93]:
def out_func():
    def inner_func1():
        print("The first inner func")
        return None
    def inner_func2():
        print("The second inner func")
        return None
    inner_func1()
    inner_func2()
    return None
out_func()

The first inner func
The second inner func


In [94]:
#Eg of 闭包： outer()是外函数，a和b都是外部函数的临时变量
def outer(a):
    b = 10
    #inner()是内部函数
    def inner():
        #用到外部函数的临时变量
        print(a+b)
    #这里返回的就是内函数的引用！！！和之前不太一样
    return inner

demo1 = outer(5)
#这里实际就是构造了一个小函数了demo1已经变成了一个函数
demo1()

demo2 = outer(7)

demo2()


15
17


# 再来看看np.frompyfunc()

In [100]:
x = [1,2,3]
def func(x):
    y = x + 1
    return y
y = np.frompyfunc(func,1,1)(x)
y

array([2, 3, 4], dtype=object)

# 广播
当我们使用ufunc函数对两个数组进行计算时，ufunc函数会对这两个数组的对应元素进行计算，因此它要求这两个数组有相同的大小(shape相同)。如果两个数组的shape不同的话，会进行如下的广播(broadcasting)处理：

#### 1 让所有输入数组都向其中shape最长的数组看齐，shape中不足的部分都通过在前面加1补齐
#### 2 输出数组的shape是输入数组shape的各个轴上的最大值
#### 3 如果输入数组的某个轴和输出数组的对应轴的长度相同或者其长度为1时，这个数组能够用来计算，否则出错
#### 4 当输入数组的某个轴的长度为1时，沿着此轴运算时都用此轴上的第一组值

In [1]:
%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [29]:
a = np.arange(0,60,10).reshape(-1,1)
print(a)
a.shape

[[ 0]
 [10]
 [20]
 [30]
 [40]
 [50]]


(6, 1)

In [25]:
b = np.arange(0,5)
print(b)
print(b.shape)
type(b)

[0 1 2 3 4]
(5,)


numpy.ndarray

In [9]:
c = a + b
print(c)
print(c.shape)

[[ 0  1  2  3  4]
 [10 11 12 13 14]
 [20 21 22 23 24]
 [30 31 32 33 34]
 [40 41 42 43 44]
 [50 51 52 53 54]]
(6, 5)


In [26]:
#Step1:根据规则a的shape最大，所以b向a看齐通过在前面补1形成(1,5)
print(b)
b.shape = 1,5#可以用这种语句改变array的shape,注意了只有np.ndarray才可以，list不可以的
print(b)

[0 1 2 3 4]
[[0 1 2 3 4]]


In [27]:
#step2 相加的两部分为(6,1)和(1,5)，根据规则2，输出数组的各个轴的长度为输入数组各个
#轴上的长度的最大值->(6,5)
# 由于b的第0轴上长度为1，而a为6，因此为了让他们可以相加需要将b在第0轴上长度扩展为6
b = b.repeat(6,axis=0)
b
#复制了6次

array([[0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4]])

In [33]:
#step3 由于a的第1轴长度为1而b的第一轴长度为，为了可以相加需要将a的第一轴复制到5
a = a.repeat(5,axis=1)
a

array([[ 0,  0,  0,  0,  0],
       [10, 10, 10, 10, 10],
       [20, 20, 20, 20, 20],
       [30, 30, 30, 30, 30],
       [40, 40, 40, 40, 40],
       [50, 50, 50, 50, 50]])

In [34]:
#因此就看到了我们最开始所计算得到的结果
#step1 :(6,1) + (5,)
#step2 :answer = (6,5)
#step3 (5,)->(1,5)>(6,5)  x
#step4 (6,1)->(6,5)       y
#step5 answer = x + y
a + b


array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44],
       [50, 51, 52, 53, 54]])

In [40]:
#但是事实上numpy内部采取的不是这种事情，因为用repeat函数扩展很浪费空间。
# numpy 提供了 ogrid 快速产生a,b数组
x, y = np.ogrid[0:5,0:5]
x,y#很有趣地看到结果x是(5,1)，y是(1,5)

[array([[0],
       [1],
       [2],
       [3],
       [4]]), array([[0, 1, 2, 3, 4]])]


    ogrid 是一个很有趣的对象，它像一个多维数组一样，用切片组元作为下标进行存取，返回的是一组
可以用来广播计算的数组。
    其切片有两种形式：
    开始值：结束值：步长 ~ np.arange
    开始值：结束值：长度j ~np.linspace

In [41]:
x, y = np.ogrid[0:1:4j, 0:1:3j]
print(x)
print(y)

[[0.        ]
 [0.33333333]
 [0.66666667]
 [1.        ]]
[[0.  0.5 1. ]]


In [47]:
#中间插播一下slice()函数，因为好像没啥映像了:(
#class slice(stop)
#class slice (start, stop[, step])#step可有可无
#这个函数功能还是不错！
myslice = slice(5)
myslice2 = slice(1,8,2)
print(myslice)
arr = np.arange(10)
print(arr)
print(arr[myslice])
print(arr[myslice2])

slice(None, 5, None)
[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4]
[1 3 5 7]


In [48]:
np.ogrid?#可见ogrid并不是函数而是一个类

In [51]:
import numpy as np
from mayavi import mlab

x , y = np.ogrid[-2:2:20j, -2:2:20j]
z = x*np.exp( -x**2 - y**2)

pl = mlab.surf(x,y,z,warp_scale = "auto")
mlab.axes(xlabel = 'x',ylabel = 'y', zlabel = 'z')
mlab.outline(pl)
mlab.show()

In [104]:
#下面会用到很多axis，但是我对axis还没有完全吃透，因此在这里再罗列一下
b = np.array([[[1,2,3,4],[1,3,4,5]],[[2,4,7,5],[8,4,3,5]],[[2,5,7,3],[1,5,3,7]]])
print(b)
print(b.shape)#可见axis0长3，axis1长2， axis2长4                                                             

[[[1 2 3 4]
  [1 3 4 5]]

 [[2 4 7 5]
  [8 4 3 5]]

 [[2 5 7 3]
  [1 5 3 7]]]
(3, 2, 4)


In [57]:
#ufunc 的方法，只对两个输入一个输出的方法有效
#reduce 
print(np.add.reduce([1,2,3]))
print(np.add.reduce([[1,2,3],[4,5,6]],axis=1))#1+2+3
print(np.add.reduce([[1,2,3],[4,5,6]],axis=0))
#现在看起来这个可以理解了，对于第一个只有一个axis无脑相加
#第二个指定对第二个轴进行求和，而第二个轴不要理解为列，而是理解为第二个轴可以取遍的数
#两个元素 在第二个轴分别可以取遍1，2，3；4，5，6
#第三个指定对第一个轴进行求和，而第一个轴不要理解为行，而是理解为第一个轴可以取遍的数
#两个元素 在第一个轴分别可以取遍1，4；2，5；3，6

6
[ 6 15]
[5 7 9]


In [106]:
X = np.arange(8).reshape(2,2,2)
print(X)
print(f"np.add.reduce(X,axis=0):\n{np.add.reduce(X,axis=0)}")
print(f"np.add.reduce(X,axis=1):\n{np.add.reduce(X,axis=1)}")
print(f"np.add.reduce(X,axis=2):\n{np.add.reduce(X,axis=2)}")
print(X[0,:,:])
print(X[1,:,:])
#第0轴可以取遍的已经不是数了而是两个矩阵，对应相加

[[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]
np.add.reduce(X,axis=0):
[[ 4  6]
 [ 8 10]]
np.add.reduce(X,axis=1):
[[ 2  4]
 [10 12]]
np.add.reduce(X,axis=2):
[[ 1  5]
 [ 9 13]]
[[0 1]
 [2 3]]
[[4 5]
 [6 7]]


In [72]:
a=[[1,2,3],[2,4,5]]
print(a[1][2])
b = ((1,2,3),(2,4,3))
print(b[1][1])
c = np.array([[1,2,3],[2,4,5]])
print(f"c[1][2]:{c[1][2]},c[1,2]:{c[1,2]}")
#这个例子告诉我一直忽略的一个问题就是对于tuple和list而言多重嵌套必须像C一样索引
#但是np.array就是牛逼，可以用我最喜欢的这种索引方式

5
4
c[1][2]:5,c[1,2]:5


In [98]:
np.add.accumulate([1,2,3])#保留中间结果
print(np.add.accumulate([[1,2,3],[4,5,6]],axis = 0))
print(np.add.accumulate([[1,2,3],[4,5,6]],axis = 1))

[[1 2 3]
 [5 7 9]]
[[ 1  3  6]
 [ 4  9 15]]


In [100]:
np.sum([[1,2,3],[4,5,6]],axis=0)

array([5, 7, 9])

In [107]:
#不看ufunc啦！
#Matrix容易搞混，这里暂时不考虑
#文件读取

In [109]:
a = np.arange(0,12)
a.shape = 3,4
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [112]:
a.tofile("a.bin")
b = np.fromfile("a.bin", dtype = np.float)
b#出错啦！因为类型不对

array([0.0e+000, 4.9e-324, 9.9e-324, 1.5e-323, 2.0e-323, 2.5e-323,
       3.0e-323, 3.5e-323, 4.0e-323, 4.4e-323, 4.9e-323, 5.4e-323])

In [116]:
print(a.dtype)
b = np.fromfile("a.bin", dtype = np.int64)
b.shape = 3,4
b

int64


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

NameError: name 'file' is not defined