# 效率对比
• 三种数据结构：list / array / numpy.array
• 三种方法求和：for / sum / numpy.sum

In [1]:
import timeit

common_for = """
for d in data:
    s += d
"""

common_sum = """
sum(data)
"""

common_numpy_sum = """
numpy.sum(data)
"""

def timeit_list(n, loops):
    list_setup = """
import numpy
data = [1] * {}
s = 0
""".format(n)
    print 'list:'
    print timeit.timeit(common_for, list_setup, number = loops)
    print timeit.timeit(common_sum, list_setup, number = loops)
    print timeit.timeit(common_numpy_sum, list_setup, number = loops)

def timeit_array(n, loops):
    array_setup = """
import numpy
import array
data = array.array('L', [1] * {})
s = 0
""".format(n)
    print 'array:'
    print timeit.timeit(common_for, array_setup, number = loops)
    print timeit.timeit(common_sum, array_setup, number = loops)
    print timeit.timeit(common_numpy_sum, array_setup, number = loops)

def timeit_numpy(n, loops):
    numpy_setup = """
import numpy
data = numpy.array([1] * {})
s = 0
""".format(n)
    print 'numpy:'
    print timeit.timeit(common_for, numpy_setup, number = loops)
    print timeit.timeit(common_sum, numpy_setup, number = loops)
    print timeit.timeit(common_numpy_sum, numpy_setup, number = loops)

if __name__ == '__main__':
    timeit_list(50000, 500)
    timeit_array(50000, 500)
    timeit_numpy(50000, 500)


list:
1.130332243
0.158508304044
1.58619403799
array:
2.54726935362
1.64654198805
5.713534114
numpy:
5.68711264224
3.74797461041
0.0201724312672


# 创建ndarray

In [9]:
import numpy as np

print '使用普通一维数组生成NumPy一维数组'
data = [6, 7.5, 8, 0, 1]
arr = np.array(data)
print arr
print '打印元素类型'
print arr.dtype
print 

使用普通一维数组生成NumPy一维数组
[ 6.   7.5  8.   0.   1. ]
打印元素类型
float64



In [10]:
print arr #不同shell之间可以传递变量

[ 6.   7.5  8.   0.   1. ]


In [5]:
print '使用普通二维数组生成NumPy二维数组'
data = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr = np.array(data)
print arr
print '打印数组维度'
print arr.shape
print

使用普通二维数组生成NumPy二维数组
[[1 2 3 4]
 [5 6 7 8]]
打印数组维度
(2L, 4L)



In [37]:
print '使用zeros/empty'
print np.zeros(10)          # 生成包含10个0的一维数组
print np.zeros((3, 6))      # 生成3*6的二维数组
print np.empty((2, 3, 2))   # 生成2*3*2的三维数组，所有元素未初始化。
print np.ones((3, 3))       # 生成3*3的二维数组
print

print '使用arrange生成连续元素'
print np.arange(15)         # [0, 1, 2, ..., 14]

使用zeros/empty
[ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
[[ 0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.]
 [ 0.  0.  0.  0.  0.  0.]]
[[[ 7.  7.]
  [ 7.  7.]
  [ 3.  3.]]

 [[ 3.  3.]
  [ 1.  1.]
  [ 1.  1.]]]
[[ 1.  1.  1.]
 [ 1.  1.  1.]
 [ 1.  1.  1.]]

使用arrange生成连续元素
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


# NumPy的ndarray 数组和标量之间的运算

In [26]:
import numpy as np

# 数组乘法／减法，对应元素相乘／相减。
arr = np.array([[1.0, 2.0, 3.0], [4., 5., 6.]])
print arr * arr
print arr - arr
print

# 标量操作作用在数组的每个元素上
arr = np.array([[1.0, 2.0, 3.0], [4., 5., 8.]])
print 1 / arr     # 取倒数
print
print arr ** 0.5  # 1/2次方
#print (arr ** (1/3)) Python3
print arr ** 2    # 2次方

[[  1.   4.   9.]
 [ 16.  25.  36.]]
[[ 0.  0.  0.]
 [ 0.  0.  0.]]

[[ 1.          0.5         0.33333333]
 [ 0.25        0.2         0.125     ]]

[[ 1.          1.41421356  1.73205081]
 [ 2.          2.23606798  2.82842712]]
[[  1.   4.   9.]
 [ 16.  25.  64.]]


# NumPy的ndarray 基本的索引和切片

In [11]:
import numpy as np

# 通过索引访问二维数组某一行或某个元素
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print arr[2]
print arr[0][2]
print arr[0, 2] # 普通Python数组不能用。

[7 8 9]
3
3



In [38]:
'''不要存在行列这个概念,记得轴[0][1][2][***] axis=0,1,2'''
arr = np.arange(32).reshape((2, 2, 2, 2, 2))  # 通过reshape变换成五维数组
print "---------五维数组arr[0]-----------------"
print arr[0] # 结果是个5-1维数组
print "---------五维数组arr[1, 0]-----------------"
print arr[1, 0] # 结果是个5-2维数组

---------五维数组arr[0]-----------------
[[[[ 0  1]
   [ 2  3]]

  [[ 4  5]
   [ 6  7]]]


 [[[ 8  9]
   [10 11]]

  [[12 13]
   [14 15]]]]
---------五维数组arr[1, 0]-----------------
[[[16 17]
  [18 19]]

 [[20 21]
  [22 23]]]


In [28]:
# 对更高维数组的访问和操作
arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]) #共3维
old_values = arr[0].copy()  # 复制arr[0]的值
'''没有.copy(),任一改动,全部改动 '''
arr[0] = 42 # 把arr[0]所有的元素都设置为同一个值
print arr
print "--------------------------"
print old_values
print
arr[0] = old_values # 把原来的数组写回去
print arr

[[[ 0  0  0]
  [ 0  0  0]]

 [[ 7  8  9]
  [10 11 12]]]
--------------------------
[[0 0 0]
 [0 0 0]]

[[[ 0  0  0]
  [ 0  0  0]]

 [[ 7  8  9]
  [10 11 12]]]


In [11]:
print '使用切片访问和操作数组'
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print arr[1:6]      # 1:6 arr[1]到arr[5]   #前闭后开
print arr[:6]       # :6 arr[0]到arr[5]
print arr[3:]       # 3: arr[3]到arr[n]
print "--------------------------"
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print arr[:2]      # 打印第1、2行 
print "--------------------------"
print arr[:2, 1:]  # 打印第1、2行，第2、3列
print arr[:, :1]   # 打印第所有行，第1列 的所有元素
print "--------------------------"
arr[:2, 1:] = 0     # 第1、2行，第2、3列的元素设置为0
print arr

使用切片访问和操作数组
[2 3 4 5 6]
[1 2 3 4 5 6]
[ 4  5  6  7  8  9 10]
--------------------------
[[1 2 3]
 [4 5 6]]
--------------------------
[[2 3]
 [5 6]]
[[1]
 [4]
 [7]]
--------------------------
[[1 0 0]
 [4 0 0]
 [7 8 9]]


# NumPy的ndarray 布尔型索引

In [15]:
import numpy as np
import numpy.random as np_random

print '使用布尔数组作为索引'
name_arr = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
rnd_arr = np_random.randn(7, 4) # 随机7*4数组
print rnd_arr
print "----------布尔数组，元素等于'Bob'为True，否则False----------------"
print name_arr == 'Bob' # 返回布尔数组，元素等于'Bob'为True，否则False。
print 
print rnd_arr[name_arr == 'Bob']  # 利用布尔数组选择行
print "--------------------------"
print rnd_arr[name_arr == 'Bob', :2]  # 增加限制打印列的范围(Bob行，0，1列)
print "----------取反----------------"
print rnd_arr[~(name_arr == 'Bob')] # 对布尔数组的内容取反
mask_arr = (name_arr == 'Bob') | (name_arr == 'Will') # 逻辑运算混合结果
print "----------逻辑运算混合结果----------------"
print rnd_arr[mask_arr]
rnd_arr[name_arr != 'Joe'] = 7  # 先布尔数组选择行，然后把每行的元素设置为7。
print "---------非Joe行为7-----------------"
print rnd_arr

使用布尔数组作为索引
[[-0.25404054  0.80447614  0.14768206  0.40061631]
 [ 0.36607961  2.37102792 -0.80481481  0.13926109]
 [-0.79640294 -1.32478409 -0.28878792 -0.98708892]
 [ 0.09740153 -1.80535538 -1.28688644  0.29514798]
 [ 1.06520895  1.58082934  0.03480575 -1.71736673]
 [ 0.54378051 -0.81607328  0.82546702 -1.06029429]
 [-0.22531588 -0.10226072  0.61288873 -0.11523331]]
----------布尔数组，元素等于'Bob'为True，否则False----------------
[ True False False  True False False False]

[[-0.25404054  0.80447614  0.14768206  0.40061631]
 [ 0.09740153 -1.80535538 -1.28688644  0.29514798]]
--------------------------
[[-0.25404054  0.80447614]
 [ 0.09740153 -1.80535538]]
----------取反----------------
[[ 0.36607961  2.37102792 -0.80481481  0.13926109]
 [-0.79640294 -1.32478409 -0.28878792 -0.98708892]
 [ 1.06520895  1.58082934  0.03480575 -1.71736673]
 [ 0.54378051 -0.81607328  0.82546702 -1.06029429]
 [-0.22531588 -0.10226072  0.61288873 -0.11523331]]
----------逻辑运算混合结果----------------
[[-0.25404054  0.80447614  

# NumPy的ndarray 花式索引

In [31]:
'''arr[[4, 3, 0, 6]] 两层中括号'''
import numpy as np

print 'Fancy Indexing: 使用整数数组作为索引'
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
print arr
print "---------arr[[4, 3, 0, 6]]-----------------"
print arr[[4, 3, 0, 6]] # 打印arr[4]、arr[3]、arr[0]和arr[6]。
print "---------arr[[-1, -5, -7]]-----------------"
print arr[[-1, -5, -7]] # 打印arr[-1]、arr[-5]和arr[-7]行；arr[-3]：倒数低3行
print "----------通过reshape变换成二维数组----------------"
arr = np.arange(32).reshape((8, 4))  # 通过reshape变换成二维数组
print arr[0]
print "-------arr[[1, 5, 7, 2], [0, 3, 1, 2]]--------------------"
print arr[[1, 5, 7, 2], [0, 3, 1, 2]] # 打印arr[1, 0]、arr[5, 3]，arr[7, 1]和arr[2, 2]
print "-------(自动排序)arr[[1, 5, 7, 3]][[0, 3, 1, 2]]-------------------"
print arr[[1, 5, 7, 3]][[0, 3, 1, 2]] # 1357(自动排序)行的0123(自动排序)列
print "--------(冒号 :,)arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]------------------"
print arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]  # 1572行的0312列
print "--------arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])]------------------"
print arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])] # 可读性更好的写法

Fancy Indexing: 使用整数数组作为索引
[[ 0.  0.  0.  0.]
 [ 1.  1.  1.  1.]
 [ 2.  2.  2.  2.]
 [ 3.  3.  3.  3.]
 [ 4.  4.  4.  4.]
 [ 5.  5.  5.  5.]
 [ 6.  6.  6.  6.]
 [ 7.  7.  7.  7.]]
---------arr[[4, 3, 0, 6]]-----------------
[[ 4.  4.  4.  4.]
 [ 3.  3.  3.  3.]
 [ 0.  0.  0.  0.]
 [ 6.  6.  6.  6.]]
---------arr[[-1, -5, -7]]-----------------
[[ 7.  7.  7.  7.]
 [ 3.  3.  3.  3.]
 [ 1.  1.  1.  1.]]
----------通过reshape变换成二维数组----------------
[0 1 2 3]
-------arr[[1, 5, 7, 2], [0, 3, 1, 2]]--------------------
[ 4 23 29 10]
-------(自动排序)arr[[1, 5, 7, 3]][[0, 3, 1, 2]]-------------------
[[ 4  5  6  7]
 [12 13 14 15]
 [20 21 22 23]
 [28 29 30 31]]
--------(冒号 :,)arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]------------------
[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]
--------arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])]------------------
[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


# NumPy的ndarray 数组转置和轴对换

In [32]:
import numpy as np
import numpy.random as np_random


arr = np.arange(15).reshape((3, 5))
print arr
print '----------arr.T-----------'
print arr.T   #转置矩阵
print

print '转置矩阵做点积'
#arr = np_random.randn(6, 3)
print np.dot(arr.T, arr)  #正常的矩阵乘法：横*竖
print

print '高维矩阵转换(2, 2, 4)'
arr = np.arange(16).reshape((2, 2, 4))
print arr
'''
详细解释：
arr数组的内容为
- a[0][0] = [0, 1, 2, 3]
- a[0][1] = [4, 5, 6, 7]
- a[1][0] = [8, 9, 10, 11]
- a[1][1] = [12, 13, 14, 15]
transpose的参数为坐标，正常顺序为(0, 1, 2, ... , n - 1)，
现在传入的为(1, 0, 2)代表a[x][y][z] = a[y][x][z]，地址位置互换。
- a'[0][0] = a[0][0] = [0, 1, 2, 3]
- a'[0][1] = a[1][0] = [8, 9, 10, 11]
- a'[1][0] = a[0][1] = [4, 5, 6, 7]
- a'[1][1] = a[1][1] = [12, 13, 14, 15]
'''
print "----transpose((1, 0, 2))-------------"
print arr.transpose((1, 0, 2))
print "----transpose((0, 2, 1))-------------"
print arr.transpose((0, 2, 1))
print "----swapaxes(1, 2)指定对应两轴--------"
print arr.swapaxes(1, 2)  # 指定对应两轴交换

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
arr.T
[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]

转置矩阵做点积
[[125 140 155 170 185]
 [140 158 176 194 212]
 [155 176 197 218 239]
 [170 194 218 242 266]
 [185 212 239 266 293]]

高维矩阵转换(2, 2, 4)
[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]
----transpose((1, 0, 2))-------------
[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]
----transpose((0, 2, 1))-------------
[[[ 0  4]
  [ 1  5]
  [ 2  6]
  [ 3  7]]

 [[ 8 12]
  [ 9 13]
  [10 14]
  [11 15]]]
----swapaxes(1, 2)指定对应两轴--------
[[[ 0  4]
  [ 1  5]
  [ 2  6]
  [ 3  7]]

 [[ 8 12]
  [ 9 13]
  [10 14]
  [11 15]]]


# NumPy的ndarray 快速的元素级数组函数

In [36]:
import numpy as np
import numpy.random as np_random

print '求平方根'
arr = np.arange(10)
print np.sqrt(arr)
print

print '数组比较'
x = np_random.randn(5)
y = np_random.randn(5)
print x
print y
print '较大者'
print np.maximum(x, y)
print

print '使用modf函数把浮点数分解成整数和小数部分'
arr = np_random.randn(7) * 5  # 统一乘5
print np.modf(arr)
a, b = np.modf(arr)
print b

求平方根
[ 0.          1.          1.41421356  1.73205081  2.          2.23606798
  2.44948974  2.64575131  2.82842712  3.        ]

数组比较
[-0.0401451   1.0031101  -1.31845593 -0.06837904 -0.83879347]
[ 0.44427351 -1.64404492  0.56366882  0.79654413 -0.52427296]
较大者
[ 0.44427351  1.0031101   0.56366882  0.79654413 -0.52427296]

使用modf函数把浮点数分解成小数和整数部分
(array([ 0.08774422, -0.48218243,  0.01367019,  0.03503997, -0.83879478,
        0.23515748,  0.53732826]), array([ 1., -0.,  0.,  4., -5.,  3.,  1.]))
[ 0.08774422 -0.48218243  0.01367019  0.03503997 -0.83879478  0.23515748
  0.53732826] [ 1. -0.  0.  4. -5.  3.  1.]


# 利用数组进行数据处理 简介 part B