# NumPy

Numpy, 全称Numerical Python

高性能科学计算和数据分析基础包

* ndarray 多维数组

注意numpy的ndarray与python自带的list是有区别的，打印出来之后，前者是用空格隔开的，后者是用逗号隔开的。

In [1]:
import numpy as np

# 生成指定维度的随机多维数据
data = np.random.rand(2, 3)
print data
print type(data)

[[ 0.63402125  0.44228225  0.48705288]
 [ 0.95954529  0.01158681  0.12972844]]
<type 'numpy.ndarray'>


* ndim, shape 和 dtype 属性

可以查看多维数组的维度的个数，各个维度的大小，以及数组中的数据类型。

In [2]:
print '维度个数', data.ndim
print '各维度大小: ', data.shape
print '数据类型: ', data.dtype

维度个数 2
各维度大小:  (2L, 3L)
数据类型:  float64


* 创建ndarray

In [3]:
# list转换为 ndarray
l = range(10)
data = np.array(l)
print data
print data.shape
print data.ndim

[0 1 2 3 4 5 6 7 8 9]
(10L,)
1


In [4]:
# 嵌套序列转换为ndarray
l2 = [range(10), range(10)]
data = np.array(l2)
print data
print data.shape

[[0 1 2 3 4 5 6 7 8 9]
 [0 1 2 3 4 5 6 7 8 9]]
(2L, 10L)


In [5]:
# np.zeros, np.ones 和 np.empty

# np.zeros
zeros_arr = np.zeros((3, 4))

# np.ones
ones_arr = np.ones((2, 3))

# np.empty
empty_arr = np.empty((3, 3))

# np.empty 指定数据类型
empty_int_arr = np.empty((3, 3), int)

print zeros_arr
print '-------------'
print ones_arr
print '-------------'
print empty_arr
print '-------------'
print empty_int_arr

[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]
-------------
[[ 1.  1.  1.]
 [ 1.  1.  1.]]
-------------
[[  4.24399158e-314   8.48798317e-314   1.27319747e-313]
 [  1.69759663e-313   2.12199580e-314   6.36598737e-314]
 [  1.06099790e-313   1.48539705e-313   1.90979621e-313]]
-------------
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [6]:
# np.arange()
print np.arange(10)

[0 1 2 3 4 5 6 7 8 9]


* ndarray数据类型

In [7]:
# 创建数组时可以直接指定数据类型，不指定的话就用默认的数据类型
zeros_float_arr = np.zeros((3, 4), dtype=np.float64)
print zeros_float_arr
print zeros_float_arr.dtype

[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]
float64


In [8]:
# astype转换数据类型
zeros_int_arr = zeros_float_arr.astype(np.int32)
print zeros_int_arr
print zeros_int_arr.dtype

[[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]
int32


* 矢量化 (vectorization)

In [9]:
# 矢量与矢量运算
arr = np.array([[1, 2, 3],
                [4, 5, 6]])

# 对应位置的元素直接相乘或相加
print "元素相乘："
print arr * arr

print "矩阵相加："
print arr + arr

元素相乘：
[[ 1  4  9]
 [16 25 36]]
矩阵相加：
[[ 2  4  6]
 [ 8 10 12]]


In [10]:
# 矢量与标量运算：对矢量中的每个元素都做相同的作用
print 1. / arr
print 2. * arr

[[ 1.          0.5         0.33333333]
 [ 0.25        0.2         0.16666667]]
[[  2.   4.   6.]
 [  8.  10.  12.]]


* 索引与切片

In [12]:
# 一维数组
arr1 = np.arange(10)
print arr1

# 打印索引为2到4的
print arr1[2:5]

[0 1 2 3 4 5 6 7 8 9]
[2 3 4]


In [13]:
# 多维数组
arr2 = np.arange(12).reshape(3,4)
print arr2

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [14]:
print arr2[1] # 索引为1的整行

print arr2[0:2, 2:]  # 行索引为0,1， 列索引为2,3

print arr2[:, 1:3]  # 所有行，列索引为1,2

[4 5 6 7]
[[2 3]
 [6 7]]
[[ 1  2]
 [ 5  6]
 [ 9 10]]


In [15]:
# 条件索引

# 找出 data_arr 中 2015年后的数据
data_arr = np.random.rand(3,3)
print data_arr

year_arr = np.array([[2000, 2001, 2000],
                     [2005, 2002, 2009],
                     [2001, 2003, 2010]])

#is_year_after_2005 = year_arr >= 2005
#print is_year_after_2005, is_year_after_2005.dtype

#filtered_arr = data_arr[is_year_after_2005]

filtered_arr = data_arr[year_arr >= 2005]
print filtered_arr

[[ 0.84062025  0.68535538  0.82778413]
 [ 0.12221562  0.6983633   0.71440006]
 [ 0.9935824   0.32761404  0.54124812]]
[ 0.12221562  0.71440006  0.54124812]


In [16]:
# 多个条件 用&或者|
filtered_arr = data_arr[(year_arr <= 2005) & (year_arr % 2 == 0)]
print filtered_arr

[ 0.84062025  0.82778413  0.6983633 ]


* 转置

In [17]:
arr = np.random.rand(2,3)
print arr
print arr.transpose()  # 转换成(3,2)

[[ 0.78632412  0.34092099  0.47019284]
 [ 0.31253014  0.46419822  0.69889233]]
[[ 0.78632412  0.31253014]
 [ 0.34092099  0.46419822]
 [ 0.47019284  0.69889233]]


In [18]:
arr3d = np.random.rand(2,3,4)
print arr3d
print '----------------------'
print arr3d.transpose((1,0,2)) # 3x2x4 

[[[ 0.2964305   0.59441093  0.55023818  0.08411281]
  [ 0.76549357  0.56797346  0.66275329  0.51559809]
  [ 0.26321336  0.38191788  0.62142557  0.54272197]]

 [[ 0.17144369  0.95337459  0.11778474  0.88360171]
  [ 0.22408532  0.30405268  0.80170414  0.51028941]
  [ 0.1288004   0.55685466  0.86933542  0.18420452]]]
----------------------
[[[ 0.2964305   0.59441093  0.55023818  0.08411281]
  [ 0.17144369  0.95337459  0.11778474  0.88360171]]

 [[ 0.76549357  0.56797346  0.66275329  0.51559809]
  [ 0.22408532  0.30405268  0.80170414  0.51028941]]

 [[ 0.26321336  0.38191788  0.62142557  0.54272197]
  [ 0.1288004   0.55685466  0.86933542  0.18420452]]]


* 通用函数

In [21]:
arr = np.random.randn(2,3)

print arr
print '---'
print np.ceil(arr)  # 向上取整
print '---'
print np.floor(arr)  # 向下取整
print '---'
print np.rint(arr)  # 四舍五入
print '---'
print np.isnan(arr) # 是否为空nan

[[ 0.83585065 -0.98707548 -0.4449391 ]
 [ 0.32040632  1.75431013  1.67256645]]
---
[[ 1. -0. -0.]
 [ 1.  2.  2.]]
---
[[ 0. -1. -1.]
 [ 0.  1.  1.]]
---
[[ 1. -1.  0.]
 [ 0.  2.  2.]]
---
[[False False False]
 [False False False]]


* np.where

In [22]:
arr = np.random.randn(3,4)
print arr

# 将大于0的元素全部转换成1，其他的为-1
np.where(arr > 0, 1, -1)

[[ 1.39574911  1.03859658  0.67221656 -1.30909762]
 [ 0.14281813 -0.66783622  1.88621754 -0.58328573]
 [ 0.18056602  1.50730263  0.83140404  0.25978389]]


array([[ 1,  1,  1, -1],
       [ 1, -1,  1, -1],
       [ 1,  1,  1,  1]])

*  常用的统计方法

In [24]:
arr = np.arange(10).reshape(5,2)
print arr

# 对所有元素求和
print np.sum(arr)
# 对每列做求和
print np.sum(arr, axis=0)
# 对每行做求和
print np.sum(arr, axis=1)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
45
[20 25]
[ 1  5  9 13 17]


* np.all 和 np.any

np.all，全部满足条件则返回ture

np.any，至少有一个元素满足条件则返回true

In [25]:
arr = np.random.randn(2,3)
print arr

print np.any(arr > 0)
print np.all(arr > 0)

[[-2.06668527  1.67369094 -0.92659177]
 [-1.46075779  0.58103732 -0.38010351]]
True
False


* np.unique

找到去重后的值并返回排序结果

In [26]:
arr = np.array([[1, 2, 1], [2, 3, 4]])
print arr
print np.unique(arr)

[[1 2 1]
 [2 3 4]]
[1 2 3 4]


* 文本文件的读取

In [27]:
# loadtxt
filename = './presidential_polls.csv'
data_array = np.loadtxt(filename,      # 文件名
                        delimiter=',', # 分隔符
                        dtype=str,     # 数据类型
                        usecols=(0,2,3)) # 指定读取的列索引号
print data_array, data_array.shape

[['cycle' 'type' 'matchup']
 ['2016' '"polls-plus"' '"Clinton vs. Trump vs. Johnson"']
 ['2016' '"polls-plus"' '"Clinton vs. Trump vs. Johnson"']
 ..., 
 ['2016' '"polls-only"' '"Clinton vs. Trump vs. Johnson"']
 ['2016' '"polls-only"' '"Clinton vs. Trump vs. Johnson"']
 ['2016' '"polls-only"' '"Clinton vs. Trump vs. Johnson"']] (10237L, 3L)


In [28]:
# loadtxt, 明确指定每列数据的类型
filename = './presidential_polls.csv'
data_array = np.loadtxt(filename,      # 文件名
                        delimiter=',', # 分隔符
                        skiprows=1,
                        dtype={'names':('cycle', 'type', 'matchup'),
                               'formats':('i4', 'S15', 'S50')},     # 数据类型
                        usecols=(0,2,3)) # 指定读取的列索引号

print data_array, data_array.shape # 读取的结果是一维的数组，每个元素是一个元组

[(2016, '"polls-plus"', '"Clinton vs. Trump vs. Johnson"')
 (2016, '"polls-plus"', '"Clinton vs. Trump vs. Johnson"')
 (2016, '"polls-plus"', '"Clinton vs. Trump vs. Johnson"') ...,
 (2016, '"polls-only"', '"Clinton vs. Trump vs. Johnson"')
 (2016, '"polls-only"', '"Clinton vs. Trump vs. Johnson"')
 (2016, '"polls-only"', '"Clinton vs. Trump vs. Johnson"')] (10236L,)


比较以上两次读数据的结果，居然有所不同。

第一次打印结果是以空格隔开的ndarray, 而第二次的时候却是逗号隔开的元组了。

那是因为在第二次到时候指定了三个列的数据类型都是不同的。而numpy的ndarray要求数据类型都是一致的。所以后者默认为元组类型。