In [1]:
# NumPy基础：数组和矢量计算
'''
1.ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
2.用于对整组数据进行快速运算的标准数学函数（无需编写循环）。
3.用于编写磁盘数据的工具以及用于操作内存映射文件的工具。
4.线性代数，随机数生成以及傅立叶变换功能。
5.用于集成由C，C++，Fortran等语言编写的代码工具。
'''

'\n1.ndarray\xef\xbc\x8c\xe4\xb8\x80\xe4\xb8\xaa\xe5\x85\xb7\xe6\x9c\x89\xe7\x9f\xa2\xe9\x87\x8f\xe7\xae\x97\xe6\x9c\xaf\xe8\xbf\x90\xe7\xae\x97\xe5\x92\x8c\xe5\xa4\x8d\xe6\x9d\x82\xe5\xb9\xbf\xe6\x92\xad\xe8\x83\xbd\xe5\x8a\x9b\xe7\x9a\x84\xe5\xbf\xab\xe9\x80\x9f\xe4\xb8\x94\xe8\x8a\x82\xe7\x9c\x81\xe7\xa9\xba\xe9\x97\xb4\xe7\x9a\x84\xe5\xa4\x9a\xe7\xbb\xb4\xe6\x95\xb0\xe7\xbb\x84\xe3\x80\x82\n2.\xe7\x94\xa8\xe4\xba\x8e\xe5\xaf\xb9\xe6\x95\xb4\xe7\xbb\x84\xe6\x95\xb0\xe6\x8d\xae\xe8\xbf\x9b\xe8\xa1\x8c\xe5\xbf\xab\xe9\x80\x9f\xe8\xbf\x90\xe7\xae\x97\xe7\x9a\x84\xe6\xa0\x87\xe5\x87\x86\xe6\x95\xb0\xe5\xad\xa6\xe5\x87\xbd\xe6\x95\xb0\xef\xbc\x88\xe6\x97\xa0\xe9\x9c\x80\xe7\xbc\x96\xe5\x86\x99\xe5\xbe\xaa\xe7\x8e\xaf\xef\xbc\x89\xe3\x80\x82\n3.\xe7\x94\xa8\xe4\xba\x8e\xe7\xbc\x96\xe5\x86\x99\xe7\xa3\x81\xe7\x9b\x98\xe6\x95\xb0\xe6\x8d\xae\xe7\x9a\x84\xe5\xb7\xa5\xe5\x85\xb7\xe4\xbb\xa5\xe5\x8f\x8a\xe7\x94\xa8\xe4\xba\x8e\xe6\x93\x8d\xe4\xbd\x9c\xe5\x86\x85\xe5\xad\x98\xe6\x98\xa0\xe5\xb0

In [None]:
# 大部分分析应用，作者关注的功能集中在
'''
1.用于数据和清理，子集构造和过滤，转换等快速的矢量化数组运算。
2.常用的数组算法，排序，唯一化，集合运算。
3.高效的描述统计和数据集合/摘要运算。
4.用于异构数据集的合并/链接运算的数据对齐和关系型数据运算。
5.将条件逻辑非表述为数组表达式。
6.数据的分组运算（聚合，转换，函数应用）。
'''

In [10]:
import numpy as np

# Numpy的ndarray：一种多维数组对象
data = np.array([[0.9526, -0.246, -0.8856], [0.5639, 0.2379, 0.9104]])
print(data)
print(data*10)
print(data + data)

# 每个数组都有shape和一个dtype
data.shape
data.dtype

[[ 0.9526 -0.246  -0.8856]
 [ 0.5639  0.2379  0.9104]]
[[ 9.526 -2.46  -8.856]
 [ 5.639  2.379  9.104]]
[[ 1.9052 -0.492  -1.7712]
 [ 1.1278  0.4758  1.8208]]


dtype('float64')

In [14]:
# 创建ndarray
data1 = [6, 7.5, 8., 0., 1.]
arr1 = np.array(data1)
arr1

data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

arr2.ndim
arr2.shape

(2, 4)

In [18]:
np.zeros(10)
np.zeros((3, 6))
np.empty((2, 3, 2))
np.arrange(15)

AttributeError: 'module' object has no attribute 'arrange'

In [24]:
'''
array 将输入数据转换为ndarray。要么推断出dtype，要么显式制定dtype。
asarray 将输入转换为ndarray，如果输入本身就是一个ndarray就不进入。
arange 类似于内置的range，但反悔的是一个ndarray而不是列表。
ones，ones_like 类似于内置的range，但是反悔的是一个ndarray而不是列表。
zeros，zeros_like 类似于ones和ones_like，只不过产生的全0数组而已。
empty，empty_like 创建新数组，只分配内存空间但不填充任何值。
eye，identity 创建一个正方形NxN单位矩阵
'''

# ndarray的数据类型
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

float_arr = arr.astype(np.float64)
float_arr.dtype

arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr.astype(np.int32)

numeric_strings = np.array(['1,25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)
array([1.25, -9.6, 42.])

int_array = np.arrange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

ValueError: invalid literal for float(): 1,25

In [27]:
# 数组和标量之间的运算
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr * arr
arr - arr
1/ arr
arr**0.5
# 不同大小的数组之间的运算叫做广播

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

In [31]:
# 基本的索引和切片
arr = np.arange(10)
print(arr)
print(arr[5])
print(arr[5:8])

[0 1 2 3 4 5 6 7 8 9]
5
[5 6 7]


In [37]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]
arr2d[0, 2]
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [41]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d
arr3d[0] = old_values
arr3d[1, 0]

array([7, 8, 9])

In [43]:
# 切片索引
arr[1:6]
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [61]:
# 布尔型索引
names = np.array(['Bob', 'Joe', 'Will', 'Joe', 'Joe'])
data = np.random.rand(7, 4)
arrA = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 基本上[a：b]=[a=< x <b]
arrA[1:, :2]
names = 'Bob'
data[names == 'Bob']
data[names == 'Bob', 2:]
names != 'Bob'

False

In [70]:
# 花式索引
'''
它指的是利用整数数组进行索引。
'''
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

# 用数组表达数组
arr[[4, 3, 0, 6]]
arr[[-3, -5, -7]]

arr = np.arange(32).reshape((8, 4))
print(arr)
arr[[1, 5, 7, 2], [0, 3, 1, 2]]
arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])]

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [78]:
# 数组转置和轴对换
arr = np.arange(15).reshape((3, 5))
arr.T

arr = np.random.randn(6, 3)
np.dot(arr.T, arr)
arr = np.arange(16).reshape((2, 2, 4))
arr

arr.swapaxes(1, 2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

In [86]:
# 通用函数：快速的元素级数组函数
'''
通用函数是一种对ndarray中的数据执行元素级别运算的函数。你可以将其看作简单函数的矢量化包装器。
'''

# 一元func sqrt exp等
arr = np.arange(10)
np.sqrt(arr)

# 二元func返回的是一个结果数组
x = np.random.rand(8)
y = np.random.rand(8)
maxi = np.maximum(x, y)
mini = np.minimum(x, y)
print(maxi, mini)

# 一元func
''' 
abs，fabs 计算整数，浮点数或复数的绝对值，对于非复数值，可以使用更快的fabs
sqrt 计算各个元素的平方根。相当于arr**0.5
square 计算各个元素的平方。相当于arr**2
exp 计算各个元素的指数e^x
log,log10,1og2,log1P 分别为自然对数，底为10，2，的log和log（1+x）
sign 计算各个元素的正负号：1-正数，0-零，-1-负数
ceil 计算各个元素的ceiling值，即大雨等于该值的最小整数
floor 计算各个元素的floor值，即小于等于该值的最大整数
rint 将各个元素值四舍五入到最接近的整数，保留dtype
modf 将数组的小数和整数部分以两个独立数组的形式返回
isnan 返回一个表示“哪些是NaN”的布尔型数组
isfinite，isinf 分别返回一个表示“哪些元素是由穷或无穷”的布尔型数组
cos，cosh，sin，sinh 普通型和双曲型三角函数
logical_not 计算各个元素not x的真值。相当于-arr
'''

# 二元func
'''
add 将数组中对应的元素相加
subtract 从第一个数组中减去第二个数组中减去第二个数组中的元素
multiply 数组元素相乘
divide，floor_divide 除法或向下圆整出发（丢弃余数）
power 对第一个数组中的元素A，根据第二个数组中的响应元素B，计算A^B
maximum,fmax 元素级的最大值计算。fmax将忽略NaN
minimum,fmin 元素级的最小值计算。fmin将忽略NaN
mod 元素级的求模（除法的余数）
copysign 将第二个数组中的值的符号复制给给第一个数组中的值
greater，greater_equal,less,less_equel,equal,not_qual >,>=,<,<=,==,!=
logical_and,logical_or，logical_xor &,|,^,
'''

(array([ 0.35231323,  0.9240285 ,  0.32051798,  0.24584005,  0.81629641,
        0.6676673 ,  0.43166652,  0.32353961]), array([ 0.30337562,  0.29916355,  0.17564647,  0.08336489,  0.01878235,
        0.14304169,  0.17942178,  0.14894067]))


In [96]:
# 利用数组进行数据处理
'''
用数组表达式代替循环的做法，通常称为矢量化。
sqrt(x^2 + y^2)
'''
points = np.arange(-5, 5, 0.01)
xs, ys = np.meshgrid(points, points)

import matplotlib.pyplot as plt
z = np.sqrt(xs**2 + ys**2)
plt.imshow(z, cmap=plt.cm.gray)
plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for agrid of values")

Text(0.5,1,u'Image plot of $\\sqrt{x^2 + y^2}$ for agrid of values')

In [103]:
# 将条件逻辑表述为数组运算
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])
result = [(x if c else y) for x, y, c in zip(xarr, yarr, cond)]

result = np.where(cond, xarr, yarr)
result

arr = np.random.rand(4, 4)
arr

np.where(arr > 0, 2, -2)
np.where(arr > 0, 2, arr)

array([[ 2.,  2.,  2.,  2.],
       [ 2.,  2.,  2.,  2.],
       [ 2.,  2.,  2.,  2.],
       [ 2.,  2.,  2.,  2.]])

In [105]:
result = []
n = 10
for i in range(n):
    if cond1[i] and cond2[i]:
        result.append(0)
    elif cond1[i]:
        result.append(1)
    elif cond2[i]:
        result.append(2)
    else:
        result.append(3)
        
np.where(cond1 & cond2, 0, np.where(cond1, 1, np.where(cond2, 2, 3)))
result = 1*(cond1 - cond2) + 2*(cond2 & -cond1) + 3*-(cond1|cond2)

NameError: name 'cond1' is not defined

In [112]:
# 数学和统计方法
arr = np.random.randn(5, 4)
arr.mean()
np.mean(arr)
arr.sum()

# cumsum: /cumprod:
arr = np.array([[0, 1, 3], [3, 4, 5], [6, 7, 8]])
print(arr.cumsum(0))
print(arr.cumsum(1))

[[ 0  1  4]
 [ 3  7 12]
 [ 6 13 21]]


In [None]:
'''
sum 对数组中全部或某轴向的元素求和。零长度的数组的sum为0。
mean 算数平均数。零长度的数组的mean为NaN。
std，var 分别标准差和方差，自由度可调（默认为n）
min，max 最大值和最小值
argmin，argmax 分别为最大和最小元素的索引。
cumsum 所有元素的累积和。
sumprod 所有元素累积积。
'''

In [118]:
# 用于布尔型数组的方法
arr = np.random.randn(100)
(arr > 0).sum() #正值的数量
bools = np.array([False, False, True, False])
bools.any()
bools.all()

False

In [123]:
# 排序
arr = np.random.randn(8)
arr.sort()
arr

arr = np.random.randn(5, 3)
arr.sort(1)
arr

large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05*len(large_arr))] # 5%分位数

array([[-2.04861719, -0.91010738, -0.29148296],
       [-0.66800231,  0.26701088,  0.80945552],
       [-1.01808638,  0.23910676,  0.44404523],
       [-0.31937297,  0.03502416,  0.71067815],
       [-2.22459838, -0.83593197,  0.35147983]])

In [128]:
# 唯一化以及其他的集合逻辑
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
np.unique(names)
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

sorted(set(names))
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.in1d(values, [2, 3, 6])

'''
unique(x) 计算x中的唯一元素，并返回有序结果
intersect1d(x, y) 计算x和y中的公共元素，并返回有序结果
union1d(x, y) 计算x和y的并集，并返回有序结果
in1d(x, y) 得到一个表示“x的元素是否包含于y”的布尔值型数组
setdiff1d(x, y) 集合的差，即元素在x中且不在y中
setxor1d(x, y) 集合的对称差，即存在一个数组中但不同是存在于两个数组中的元素
'''

array([ True, False, False,  True,  True, False,  True], dtype=bool)

In [132]:
# 用于数组的文件输入输出
# 将数组以二进制格式保存到磁盘
arr = np.arange(10)
np.save('some_array', arr)

np.load('some_array.npy')
np.savez('array_archive.npz', a=arr, b=arr)
arch = np.load('array_archive.npz')
arch['b']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [134]:
# 存取文本文件
!cat array_ex.txt
arr = np.loadtxt('array_ex.txt', delimiter=',')
arr

cat: array_ex.txt: No such file or directory


IOError: [Errno 2] No such file or directory: 'array_ex.txt'

In [139]:
# 线性代数
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
x.dot(y)
np.dot(x, y)

np.dot(x, np.ones(3))

array([  6.,  15.])

In [145]:
from numpy.linalg import inv, qr

X = np.random.randn(5, 5)
mat = X.T.dot(X)
inv(mat)
mat.dot(inv(mat))
q, r = qr(mat)
print(r)
print(q)

'''
diag 以一位数组的形式返回方阵的对角线（或非对角线）元素，或将一位数组转换为方阵（非对角线元素位0）
dot 矩阵乘法
trace 计算对角线元素的和
det 计算矩阵行列式
eig 计算方阵的本征值和本征向量
inv 计算方阵的逆
pinv 计算矩阵的Moore-Penrose伪逆
qr 计算RQ分解
svd 计算奇艺值分解（SVD）
solve 解线性方程组Ax=b，其中A为一个方阵
Istsq 计算Ax=b的最小二乘解
'''

[[-3.1912259  -3.83886969 -3.37513165  0.45799669 -1.05750658]
 [ 0.         -6.55437202 -1.529754    1.946616   -1.78844487]
 [ 0.          0.         -6.00710265  2.31126714 -4.51936351]
 [ 0.          0.          0.         -0.16567565 -0.16811085]
 [ 0.          0.          0.          0.          0.91155535]]
[[-0.81598494  0.29886309  0.16495211  0.34997454  0.30847697]
 [-0.36775835 -0.88594518  0.22592985 -0.16159445 -0.05194107]
 [-0.40924253  0.05060768 -0.73690901 -0.219311   -0.48869951]
 [-0.16649382  0.30257952  0.30877505 -0.88052396  0.10030431]
 [ 0.06101415 -0.17795081 -0.53232469 -0.16728805  0.80824249]]


In [148]:
# 随机数生成
samples = np.random.normal(size=(4, 4))
samples

from random import normalvariate
N = 10000000
%timeit samples = [normalvariate(0, 1) for _ in xrange(N)]

# 部分numpy.random函数
'''
seed 确定随机数生成器的种子
permutation 返回一个序列的随机排列或返回一个随机排列的范围
shuffle 对一个序列就地随机排列
rand 产生均匀分布的样本值
randint 从给定的上下限范围内随机选取整数
randn 产生正态分布（平均值为0，标准差为1）的样本值，类似于MATLAB接口
binnomial 产生二项分布的样本值
normal 产生正态（搞死）分布的样本值
beta 产生Beta分布的样本值
chisquare 产生卡方分布的样本值
gamma 产生Gamma分布的样本值
uniform 产生在[0, 1)中均匀分布的样本值
'''

1 loop, best of 3: 10.4 s per loop


In [149]:
# 范例：随机漫步
import random
position = 0
walk = [position]
steps = 1000
for i in xrange(steps):
    step = 1 if random.randint(0, 1) else -1 
    position += step
    walk.append(position)

print(walk)

[0, -1, 0, -1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, -1, 0, 1, 0, 1, 0, 1, 0, -1, 0, -1, -2, -3, -4, -5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, 4, 5, 6, 7, 6, 7, 6, 7, 6, 7, 8, 9, 8, 9, 8, 7, 6, 7, 6, 5, 4, 3, 2, 1, 2, 3, 2, 3, 2, 3, 4, 5, 4, 5, 6, 7, 6, 7, 8, 9, 8, 7, 8, 7, 6, 7, 6, 7, 8, 9, 8, 9, 8, 9, 8, 7, 8, 7, 6, 7, 8, 7, 8, 9, 8, 9, 8, 9, 8, 9, 8, 7, 6, 5, 4, 5, 4, 3, 4, 3, 4, 5, 6, 5, 6, 5, 4, 3, 2, 1, 2, 3, 2, 1, 2, 3, 4, 3, 4, 5, 6, 5, 4, 5, 6, 5, 6, 5, 4, 5, 4, 3, 4, 5, 4, 3, 4, 5, 6, 7, 6, 5, 6, 7, 6, 5, 6, 7, 6, 7, 8, 9, 10, 11, 10, 11, 12, 13, 12, 11, 12, 11, 12, 13, 12, 13, 14, 13, 14, 13, 14, 15, 16, 17, 18, 17, 18, 17, 16, 17, 18, 17, 16, 17, 18, 17, 18, 19, 20, 21, 22, 23, 22, 23, 24, 23, 22, 23, 22, 21, 22, 23, 24, 25, 26, 25, 26, 27, 26, 25, 24, 23, 24, 25, 24, 23, 22, 21, 20, 19, 20, 19, 18, 17, 16, 15, 14, 13, 12, 13, 14, 15, 16, 15, 16, 17, 18, 19, 20, 21, 20, 21, 22, 21, 20, 19, 18, 17, 18, 19, 20, 21, 20, 19, 20, 19, 20, 21, 20, 19, 18, 17, 16, 15, 16, 17, 18, 17, 16, 17