对于大部分数据分析应用而言，NumPy 需要关注的功能主要集中在：

    用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算。
    常用的数组算法，如排序、唯一化、集合运算等。
    高效的描述统计和数据聚合/摘要运算。
    用于异构数据集的合并/连接运算的数据对齐和关系型数据运算。
    将条件逻辑表述为数组表达式（而不是带有if-elif-else分支的循环）。
    数据的分组运算（聚合、转换、函数应用等）。。

当然，我觉得更重要的是 pandas......

# 4.1 NumPy 的 ndarray：一种多维数组对象

In [2]:
import numpy as np

# 创建 ndarray 对象
data = np.random.rand(2, 3)
print(data)
print()
print(type(data))

[[0.28646221 0.23516112 0.1468454 ]
 [0.81870138 0.89643866 0.86633058]]

<class 'numpy.ndarray'>


In [7]:
# 数组运算
print(data * 10)
print()
print(data + data)

[[4.04374108 4.87539682 9.96845177]
 [8.67017177 5.12951488 7.18539981]]

[[0.80874822 0.97507936 1.99369035]
 [1.73403435 1.02590298 1.43707996]]


In [8]:
print(data.shape)  # ndarray 的 shape 属性，说明形状的元组
print()
print(data.dtype)   # ndarray 的 dtype 属性，说明数据类型

(2, 3)

float64


## 创建 ndarray  
np.array() 函数，创建 ndarray，它接受一切类型的序列对象。

In [9]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [10]:
# 嵌套序列
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [11]:
print(arr2.ndim)  # ndim 属性，说明维度，简单理解最外层有几个中括号就是几维数组。
print()
print(arr2.shape)

2

(2, 4)


np.zeros() 函数，生成全 0 数组。  
np.ones() 函数，生成全 1。  
np.empty() 函数，生成无具体值数组。  
只需传入一个表示形状的元组即可

In [12]:
# 全 0 数组
print(np.zeros(10))
print()

# 全 1 数组
print(np.ones((2, 3)))
print()

# 无具体值数组
print(np.empty((3, 2, 2)))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

[[1. 1. 1.]
 [1. 1. 1.]]

[[[1.18422408e-311 2.47032823e-322]
  [0.00000000e+000 0.00000000e+000]]

 [[0.00000000e+000 2.42336543e-057]
  [7.72825487e-091 8.23585362e-067]]

 [[1.52472309e-052 1.84705683e-076]
  [3.99910963e+252 9.18253739e-072]]]


np.arange() 函数，是 Python 内置函数 range() 的数组版

In [13]:
np.arange(6)

array([0, 1, 2, 3, 4, 5])

[常用 ndarray 创建函数](http://shitu.info/wp-content/uploads/2018/07/常用-ndarray-创建函数.png)

## ndarray 的数据类型

In [14]:
# 设置 dtype 属性，指定数据类型
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1 ,2, 3], dtype=np.int32)

print(arr1.dtype)
print(arr2.dtype)

float64
int32


In [16]:
# ndarray.astype() 函数，转换数据类型
arr = np.array([1, 2, 3])
float_arr = arr.astype(np.float64)

print(float_arr)
print(float_arr.dtype)

[1. 2. 3.]
float64


## NumPy 数组运算  
数组很重要，因为它使你不用编写循环即可对数据执行批量运算。NumPy用户称其为矢量化（vectorization）。大小相等的数组之间的任何算术运算都会将运算应用到元素级  


In [17]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print(arr)
print()

print(arr * arr)
print()
print(arr - arr)

[[1. 2. 3.]
 [4. 5. 6.]]

[[ 1.  4.  9.]
 [16. 25. 36.]]

[[0. 0. 0.]
 [0. 0. 0.]]


In [18]:
# 数组与标量运算，标量会被广播
print(1 / arr)
print()
print(arr ** 0.5)

[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]

[[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]]


In [19]:
# 比较则会生成布尔变量
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

## 基本的索引和切片

In [23]:
arr = np.arange(10)
print(arr)
print()

print(arr[5])
print()

print(arr[5:8])
print()

arr[5:8] = 12
print(arr)

[0 1 2 3 4 5 6 7 8 9]

5

[5 6 7]

[ 0  1  2  3  4 12 12 12  8  9]


In [10]:
# ndarray 的赋值是地址传递（节约内存）
arr = np.arange(6)

arr2 = arr[3:6]  # 地址传递
arr2[0] = 123123
print(arr)
print()

arr3 = arr  # 地址传递
arr3[0] = 1111111
print(arr)
print()

arr4 = arr[3:6]
arr4 = [11111, 22222, 33333, 44444]  # 这里是直接被赋值了其他列表
print(arr)
print()

# 如果需要值传递，使用 copy() 函数
arr5 = arr.copy()
arr5[0] = 555
print(arr)

[     0      1      2 123123      4      5]

[1111111       1       2  123123       4       5]

[1111111       1       2  123123       4       5]

[1111111       1       2  123123       4       5]


In [13]:
# 多维 ndarray 的选取
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d[1])
print()
print(arr2d[0][1])
print()
print(arr2d[0, 1])

[4 5 6]

2

2


## 切片索引  
这个和 Python 列表差不多

In [20]:
# 一维 ndarray 切片
arr = np.arange(6)
print(arr)
print()
print(arr[1:4])
print()

# 多维 ndarray 切片
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d)
print()
print(arr2d[:2])
print()
print(arr2d[:2, 1:])
print()
print(arr2d[:2, 2])
print()

# 利用切片赋值
arr2d[:2, 1:] = 0
print(arr2d)

[0 1 2 3 4 5]

[1 2 3]

[[1 2 3]
 [4 5 6]
 [7 8 9]]

[[1 2 3]
 [4 5 6]]

[[2 3]
 [5 6]]

[3 6]

[[1 0 0]
 [4 0 0]
 [7 8 9]]


## 布尔索引

In [34]:
# 通过布尔索引选择数据
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
print(names)
print(data)
print()

print(data[names == 'Bob'])  # 选择 Bob 对应的行
print()
print(data[names=='Bob', 2:])
print()
print(data[names=='Bob', 2])

['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe']
[[ 0.26385953 -0.39426728 -1.28343729 -0.47630775]
 [ 1.0992668   1.7408367  -1.81075885  0.64178532]
 [ 0.37838273  0.35480313 -0.05157533  0.12515077]
 [ 0.68716693 -0.65432734 -0.48164105  0.17237725]
 [ 1.44320923 -0.94888026 -0.60578347 -0.28326407]
 [ 0.52220655 -0.49212852  0.33902861  1.43534087]
 [ 0.40772969  0.44500511  2.18573772 -1.5079036 ]]

[[ 0.26385953 -0.39426728 -1.28343729 -0.47630775]
 [ 0.68716693 -0.65432734 -0.48164105  0.17237725]]

[[-1.28343729 -0.47630775]
 [-0.48164105  0.17237725]]

[-1.28343729 -0.48164105]


In [42]:
# ~ 取反操作
data[~(names == 'Bob')]

array([[ 1.0992668 ,  1.7408367 , -1.81075885,  0.64178532],
       [ 0.37838273,  0.35480313, -0.05157533,  0.12515077],
       [ 1.44320923, -0.94888026, -0.60578347, -0.28326407],
       [ 0.52220655, -0.49212852,  0.33902861,  1.43534087],
       [ 0.40772969,  0.44500511,  2.18573772, -1.5079036 ]])

In [36]:
# &（和）、|（或）

## 花式索引  
花式索引（Fancy indexing）是一个NumPy术语，它指的是利用整数数组进行索引。

In [37]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [43]:
# 以特定顺序选取行子集，只需传入一个用于指定顺序的整数列表或ndarray
print(arr[[4, 3, 0, 6]])
print()

# 负数表示从末尾开始选取行
print(arr[[-3, -5, -7]])

[[4. 4. 4. 4.]
 [3. 3. 3. 3.]
 [0. 0. 0. 0.]
 [6. 6. 6. 6.]]

[[5. 5. 5. 5.]
 [3. 3. 3. 3.]
 [1. 1. 1. 1.]]


In [45]:
# 传入多个数组，返回对应的具体元素
arr = np.arange(32).reshape((8, 4))
print(arr)
print()

print(arr[[1, 5, 7, 2], [0, 3, 1, 2]])
print()

# 选取矩阵的行列子集应该是矩形区域的形式。
print(arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]

[ 4 23 29 10]

[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


## 数组转置和轴对换  
转置是重塑的一种特殊形式，它返回的是源数据的视图（不会进行任何复制操作）。数组不仅有 transpose() 函数，还有一个特殊的 T 属性。

In [46]:
arr = np.arange(15).reshape((3, 5))
print(arr)
print()

# T 属性，转置
print(arr.T)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]

[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


In [47]:
# 在进行矩阵计算时，经常需要用到转置操作，比如利用 np.dot() 计算矩阵内积
arr = np.random.randn(6, 3)
print(arr)
print()

np.dot(arr.T, arr)

[[ 0.69025647  0.99260109  0.89482498]
 [ 1.70312458 -1.23559727  1.14575501]
 [-1.67631488 -0.73871849 -1.43320222]
 [ 1.15070589  0.76376425  1.97004759]
 [ 1.32706286  1.48725566 -0.21234282]
 [ 0.05110202  0.21270013  1.0082305 ]]



array([[9.27495019, 2.6825172 , 7.00819617],
       [2.6825172 , 5.89816911, 1.93454008],
       [7.00819617, 1.93454008, 9.11024059]])

In [48]:
# ndarray.transpose() 函数，用于高维数组的转置
arr = np.arange(16).reshape((2, 2, 4))
print(arr)
print()

arr.transpose((1, 0, 2))  # 原始数据轴号从 0 开始，传递转置后的轴顺序元组即可。

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]



array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [49]:
# ndarray.swapaxes() 函数，需要接受一对轴编号
arr = np.arange(16).reshape((2, 2, 4))
print(arr)
print()

arr.swapaxes(1 ,2)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]



array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

# 4.2 通用函数：快速的元素级数组函数

In [50]:
# 一元函数
arr = np.arange(10)

print(np.sqrt(arr))
print()
print(np.exp(arr))
print()

# 二元函数
x = np.random.randn(8)
y = np.random.randn(8)

print(np.maximum(x, y))

[0.         1.         1.41421356 1.73205081 2.         2.23606798
 2.44948974 2.64575131 2.82842712 3.        ]

[1.00000000e+00 2.71828183e+00 7.38905610e+00 2.00855369e+01
 5.45981500e+01 1.48413159e+02 4.03428793e+02 1.09663316e+03
 2.98095799e+03 8.10308393e+03]

[ 0.98550528  0.79391437  0.12562314 -1.31758322  0.16104769  0.72142452
  1.52302584  1.32306289]


[常用一元 ufunc](http://shitu.info/wp-content/uploads/2018/07/常用一元-ufunc.png)  
[常用二元 ufunc](http://shitu.info/wp-content/uploads/2018/07/常用二元-ufunc.png)  


# 4.3 利用数据进行数据处理