对于大部分数据分析应用而言，NumPy 需要关注的功能主要集中在：

    用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算。
    常用的数组算法，如排序、唯一化、集合运算等。
    高效的描述统计和数据聚合/摘要运算。
    用于异构数据集的合并/连接运算的数据对齐和关系型数据运算。
    将条件逻辑表述为数组表达式（而不是带有if-elif-else分支的循环）。
    数据的分组运算（聚合、转换、函数应用等）。。

当然，我觉得更重要的是 pandas......

# 4.1 NumPy 的 ndarray：一种多维数组对象

In [6]:
import numpy as np

# 创建 ndarray 对象
data = np.random.rand(2, 3)
print(data)
print()
print(type(data))

[[0.40437411 0.48753968 0.99684518]
 [0.86701718 0.51295149 0.71853998]]

<class 'numpy.ndarray'>


In [7]:
# 数组运算
print(data * 10)
print()
print(data + data)

[[4.04374108 4.87539682 9.96845177]
 [8.67017177 5.12951488 7.18539981]]

[[0.80874822 0.97507936 1.99369035]
 [1.73403435 1.02590298 1.43707996]]


In [8]:
print(data.shape)  # ndarray 的 shape 属性，说明形状的元组
print()
print(data.dtype)   # ndarray 的 dtype 属性，说明数据类型

(2, 3)

float64


## 创建 ndarray  
np.array() 函数，创建 ndarray，它接受一切类型的序列对象。

In [9]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [10]:
# 嵌套序列
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [11]:
print(arr2.ndim)  # ndim 属性，说明维度，简单理解最外层有几个中括号就是几维数组。
print()
print(arr2.shape)

2

(2, 4)


np.zeros() 函数，生成全 0 数组。  
np.ones() 函数，生成全 1。  
np.empty() 函数，生成无具体值数组。  
只需传入一个表示形状的元组即可

In [12]:
# 全 0 数组
print(np.zeros(10))
print()

# 全 1 数组
print(np.ones((2, 3)))
print()

# 无具体值数组
print(np.empty((3, 2, 2)))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

[[1. 1. 1.]
 [1. 1. 1.]]

[[[1.18422408e-311 2.47032823e-322]
  [0.00000000e+000 0.00000000e+000]]

 [[0.00000000e+000 2.42336543e-057]
  [7.72825487e-091 8.23585362e-067]]

 [[1.52472309e-052 1.84705683e-076]
  [3.99910963e+252 9.18253739e-072]]]


np.arange() 函数，是 Python 内置函数 range() 的数组版

In [13]:
np.arange(6)

array([0, 1, 2, 3, 4, 5])

[常用 ndarray 创建函数](http://shitu.info/wp-content/uploads/2018/07/常用-ndarray-创建函数.png)

## ndarray 的数据类型

In [14]:
# 设置 dtype 属性，指定数据类型
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1 ,2, 3], dtype=np.int32)

print(arr1.dtype)
print(arr2.dtype)

float64
int32


In [16]:
# ndarray.astype() 函数，转换数据类型
arr = np.array([1, 2, 3])
float_arr = arr.astype(np.float64)

print(float_arr)
print(float_arr.dtype)

[1. 2. 3.]
float64


## NumPy 数组运算  
数组很重要，因为它使你不用编写循环即可对数据执行批量运算。NumPy用户称其为矢量化（vectorization）。大小相等的数组之间的任何算术运算都会将运算应用到元素级  


In [17]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print(arr)
print()

print(arr * arr)
print()
print(arr - arr)

[[1. 2. 3.]
 [4. 5. 6.]]

[[ 1.  4.  9.]
 [16. 25. 36.]]

[[0. 0. 0.]
 [0. 0. 0.]]


In [18]:
# 数组与标量运算，标量会被广播
print(1 / arr)
print()
print(arr ** 0.5)

[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]

[[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]]


In [19]:
# 比较则会生成布尔变量
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

## 基本的索引和切片

In [23]:
arr = np.arange(10)
print(arr)
print()

print(arr[5])
print()

print(arr[5:8])
print()

arr[5:8] = 12
print(arr)

[0 1 2 3 4 5 6 7 8 9]

5

[5 6 7]

[ 0  1  2  3  4 12 12 12  8  9]


In [None]:
# 注意：ndarray 的复制是地址传递