# 第二章 Numpy入门
本章和第 3 章将介绍通过 Python 有效导入、存储和操作内存数据的主要技巧。这个主题非常广泛，因为数据集的来源与格式都十分丰富，比如文档集合、图像集合、声音片段集合、数值数据集合，等等。这些数据虽然存在明显的异构性，但是将所有数据简单地看作数字数组非常有助于我们理解和处理数据。
## 2.1 理解python中的数据类型

In [9]:
import numpy as np
import array
L = list(range(10))
A = array.array('i',L) # i 为数据类型码，表示为整型
A

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
np.array([1,4,6,2,7]) # 整型

array([1, 4, 6, 2, 7])

In [11]:
# NumPy 要求数组必须包含同一类型的数据。如果类型不匹配，NumPy 将会向上转换（如果可行）
np.array([1.2,4,6,8,9]) # 浮点型

array([1.2, 4. , 6. , 8. , 9. ])

In [12]:
# type 指定数据的数据类型
np.array([1,4,6,2,7], dtype='float32')

array([1., 4., 6., 2., 7.], dtype=float32)

In [14]:
# 嵌套列表构成的多维数据
np.array([range(i, i +3) for i in [2,4,6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

### 从头创建数据

In [16]:
# 创建一个长度为10的数组，数组的值都是0
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [18]:
# 创建一个3×5的浮点型数组，数组的值都是1
np.ones((3,5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [20]:
# 创建一个3×5的浮点型数组，数组的值都是3.14
np.full((3,5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [23]:
# 创建一个数组，数组的值是线性序列
# 从0开始，到20结束，步长为2
np.arange(0,20,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [24]:
# 创建一个5个元素的数组，这5个数均匀的分配到0~1
np.linspace(0,1,5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [25]:
# 创建一个3×3的、在0~1均匀分布的随机数组成的数组
np.random.random((3,3))

array([[0.34257625, 0.15760412, 0.64057604],
       [0.09408527, 0.10391708, 0.3301986 ],
       [0.88648974, 0.36104166, 0.04369058]])

In [27]:
# 创建一个3×3的、均值为0、方差为1的正态分布的随机数数组
np.random.normal(0,1,(3,3))

array([[-0.23662001, -0.65484761,  0.03916343],
       [ 0.38600157,  0.89412236, -0.52917506],
       [-1.56499563, -2.03598618, -0.80146018]])

In [28]:
# 创建一个3×3的、[0,10)区间的随机整型数组
np.random.randint(0, 10,(3,3))

array([[4, 4, 9],
       [6, 3, 6],
       [8, 7, 5]])

In [29]:
# 创建一个3×3的单位矩阵
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [30]:
# 创建一个由3个整形数组成的未初始化的数据
# 数据的值是内存空间中的任意值
np.empty(3)

array([1., 1., 1.])

### NumPy标准数据类型


|数据类型|描述|
| :--: | :--: |
|bool_|布尔值（真、True 或假、False），用一个字节存储|
|int_|默认整型（类似于 C 语言中的 long，通常情况下是 int64 或 int32）|
|intc|同 C 语言的 int 相同（通常是 int32 或 int64）|
|intp|用作索引的整型（和 C 语言的 ssize_t 相同，通常情况下是 int32 或 int64）|
|int8|字节（byte，范围从 –128 到 127）|
|int16|整型（范围从 –32768 到 32767）|
|int32|整型（范围从 –2147483648 到 2147483647）|
|int64|整型（范围从 –9223372036854775808 到 9223372036854775807）|
|uint8|无符号整型（范围从 0 到 255）|
|uint16|无符号整型（范围从 0 到 65535）|
|uint32|无符号整型（范围从 0 到 4294967295）|
|uint64|无符号整型（范围从 0 到 18446744073709551615）|
|float_|float64 的简化形式|
|float16|半精度浮点型：符号比特位，5 比特位指数（exponent），10 比特位尾数（mantissa）|
|float32|单精度浮点型：符号比特位，8 比特位指数，23 比特位尾数|
|float64|双精度浮点型：符号比特位，11 比特位指数，52 比特位尾数|
|complex_|complex128 的简化形式|
|complex64|复数，由两个 32 位浮点数表示|
|complex128|复数，由两个 64 位浮点数表示|


## 2.2 NumPy数组基础
数组的属性  
    确定数组的大小、形状、存储大小、数据类型。  

数组的索引  
    获取和设置数组各个元素的值。  

数组的切分  
    在大的数组中获取或设置更小的子数组。 

数组的变形  
    改变给定数组的形状。    
    
数组的拼接和分裂  
    将多个数组合并为一个，以及将一个数组分裂成多个。

### NumPy数组的属性

In [2]:
import numpy as np
np.random.seed(0) # 设置随机数种子
x1 = np.random.randint(10, size=6)
x2 = np.random.randint(10, size=(3,4))
x3 = np.random.randint(10, size=(3,4,5))

In [6]:
print("x3 ndim : ",x3.ndim) # 维度
print("x3 shape: ",x3.shape) # 各维度大小
print("x3 size : ",x3.size) # 数组总大小
print("dtype:", x3.dtype) 
print("itemsize:",x3.itemsize,"bytes")
print("nbytes:",x3.nbytes,"bytes") # nbytes 跟 itemsize 和 size 的乘积大小相等

x3 ndim :  3
x3 shape:  (3, 4, 5)
x3 size :  60
dtype: int32
itemsize: 4 bytes
nbytes: 240 bytes


### 数据索引：获取单个元素

In [10]:
print(x1,'\n'
      ,x1[0],'\n'
      ,x1[2],'\n'
      ,x1[-1],'\n'
      ,x1[-2],'\n')
print(x2,'\n'
      ,x2[0,3],'\n')

[5 0 3 3 7 9] 
 5 
 3 
 9 
 7 

[[3 5 2 4]
 [7 6 8 8]
 [1 6 7 7]] 
 4 



### 数据切片
数组切片返回的是数组数据的视图，而不是数值数据的副本。修改子数组，将会看到原始数组也被修改。

In [12]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
x[:5]

array([0, 1, 2, 3, 4])

In [15]:
# 创建数组的副本
x2_sub_copy = x2[:2,:2].copy()
x2_sub_copy

array([[3, 5],
       [7, 6]])

In [17]:
grid = np.arange(1, 10).reshape((3,3))
grid

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [20]:
x = np.array([1,2,3])
print(x.reshape((1,3)))# 通过变形获得的行向量
print(x[np.newaxis,:])# 通过newaxis获得的行向量
print(x.reshape((3,1)))# 通过变形获得的列向量
print(x[:,np.newaxis])# 通过newaxis获得的列向量

[[1 2 3]]
[[1 2 3]]
[[1]
 [2]
 [3]]
[[1]
 [2]
 [3]]


### 数组拼接和分裂

In [1]:
import numpy as np
x = np.array([1,2,3])
y = np.array([3,2,1])
print(np.concatenate([x, y]))

z = np.array([99,99,99])
print(np.concatenate([x, y, z]))

[1 2 3 3 2 1]
[ 1  2  3  3  2  1 99 99 99]


In [5]:
grid = np.array([[1,2,3],[4,5,6]])
print(np.concatenate([grid,grid]))

print(np.concatenate([grid,grid],axis=1))

[[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]]
[[1 2 3 1 2 3]
 [4 5 6 4 5 6]]


In [11]:
# 沿着固定维度处理数组时，使用 np.vstack（垂直栈）和 np.hstack（水平栈）函数会更简洁
x = np.array([1, 2, 3])
print(np.vstack([x,grid]))

y = np.array([[99],[99]])
print(np.hstack([y,grid]))

[[1 2 3]
 [1 2 3]
 [4 5 6]]
[[99  1  2  3]
 [99  4  5  6]]


In [13]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


In [19]:
grid = np.arange(16).reshape((4,4))
print(grid,'\n')
upper, lower = np.vsplit(grid,[2])
print(upper,'\n')
print(lower,'\n')
left, right = np.hsplit(grid,[2])
print(left,'\n')
print(right,'\n')


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]] 

[[0 1 2 3]
 [4 5 6 7]] 

[[ 8  9 10 11]
 [12 13 14 15]] 

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]] 

[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]] 



## 2.3 Numpy数组的计算：通用函数
### 缓慢的循环

In [31]:
import numpy as np
np.random.seed(0)

def comute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0/values[i]
    return output

values = np.random.randint(1,10,size=5)
%timeit comute_reciprocals(values)

8.48 µs ± 179 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [32]:
%timeit 1.0/values

884 ns ± 5.36 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [34]:
x = np.arange(9).reshape((3,3))
2**x

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]], dtype=int32)

### 探索NumPy的通用函数

In [44]:
# 数组的运算
x = np.arange(4)
print("x =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2) #地板除法运算

print("-x = ", -x)
print("x ** 2 = ", x ** 2)
print("x % 2 = ", x % 2)

print(-(0.5*x + 1) ** 2)

x = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]
-x =  [ 0 -1 -2 -3]
x ** 2 =  [0 1 4 9]
x % 2 =  [0 1 0 1]
[-1.   -2.25 -4.   -6.25]


[2 1 0 1 2]
[2 1 0 1 2]
[2 1 0 1 2]




array([0.        , 1.57079633, 3.14159265])

In [47]:
# 绝对值
x = np.array([-2,-1,0,1,2])
print(abs(x))
print(np.abs(x))
print(np.absolute(x))

[2 1 0 1 2]
[2 1 0 1 2]
[2 1 0 1 2]


In [50]:
# 三角函数
theta = np.linspace(0, np.pi, 3)
print("theta = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

theta =  [0.         1.57079633 3.14159265]
sin(theta) =  [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta) =  [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta) =  [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [55]:
# 指数和对数
x = [1, 2, 3]
print("x =", x)
print("e^x =", np.exp(x))
print("2^x =", np.exp2(x))
print("3^x =", np.power(3, x))

print("")

x = [1, 2, 4, 10]
print("x =", x)
print("ln(x) =", np.log(x))
print("log2(x) =", np.log2(x))
print("log10(x) =", np.log10(x))

x = [1, 2, 3]
e^x = [ 2.71828183  7.3890561  20.08553692]
2^x = [2. 4. 8.]
3^x = [ 3  9 27]

x = [1, 2, 4, 10]
ln(x) = [0.         0.69314718 1.38629436 2.30258509]
log2(x) = [0.         1.         2.         3.32192809]
log10(x) = [0.         0.30103    0.60205999 1.        ]


In [61]:
# 专用的通用函数
from scipy import special

# Gamma函数（广义阶乘，generalized factorials）和相关函数
x = [1, 5, 10]
print("gamma(x) =", special.gamma(x))
print("ln|gamma(x)| =", special.gammaln(x))
print("beta(x, 2) =", special.beta(x, 2))
print("")
# 误差函数（高斯积分）
# 它的实现和它的逆实现
x = np.array([0, 0.3, 0.7, 1.0])
print("erf(x) =", special.erf(x))
print("erfc(x) =", special.erfc(x))
print("erfinv(x) =", special.erfinv(x))

gamma(x) = [1.0000e+00 2.4000e+01 3.6288e+05]
ln|gamma(x)| = [ 0.          3.17805383 12.80182748]
beta(x, 2) = [0.5        0.03333333 0.00909091]

erf(x) = [0.         0.32862676 0.67780119 0.84270079]
erfc(x) = [1.         0.67137324 0.32219881 0.15729921]
erfinv(x) = [0.         0.27246271 0.73286908        inf]


### 高级的通用函数特性

In [2]:
# 指定输出
import numpy as np
x = np.arange(5)
y = np.empty(5)
np.multiply(x, y,out=y)
print(y)


[0.00000000e+000 9.57365961e-312 1.91473192e-311 2.87209778e-311
 3.82946384e-311]
