Numpy 的优点：
ndarray，一个高效的多维数组，提供快速的面向数组的算术运算和灵活的广播功能
数学函数，用于对整个数据数组进行快速作，而无需编写循环
用于将阵列数据读取/写入磁盘以及处理内存映射文件的工具
线性代数、随机数生成和傅里叶变换能力
用于将 NumPy 与用 C、C++ 或 FORTRAN 编写的库连接起来的 C API

由于 NumPy 提供了全面且有据可查的 C API，因此将数据传递给用低级语言编写的外部库，以及外部库将数据作为 NumPy 数组返回给 Python 非常简单。此功能使 Python 成为包装旧版 C、C++ 或 FORTRAN 代码库并为其提供动态且可访问的界面的首选语言。

# 4.1 The NumPy ndarray: A Multidimensional Array Object

In [2]:
import numpy as np

my_arr = np.arange(1_000_000)

my_list = list(range(1_000_000))

%time for _ in range(10): my_arr2 = my_arr * 2

%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 9.57 ms, sys: 7.93 ms, total: 17.5 ms
Wall time: 18.4 ms
CPU times: user 375 ms, sys: 103 ms, total: 478 ms
Wall time: 495 ms


In [6]:
data = np.array([[1.5, -0.1, 3], [2, 0.5, 1]])
# ndarray 是元组的嵌套，数组内的元素必须是相同类型
# ndarray 的形状是一个元组，元组的长度就是数组的维度
data

array([[ 1.5, -0.1,  3. ],
       [ 2. ,  0.5,  1. ]])

In [7]:
data * 10

array([[15., -1., 30.],
       [20.,  5., 10.]])

In [8]:
data + data

array([[ 3. , -0.2,  6. ],
       [ 4. ,  1. ,  2. ]])

In [10]:
print(data.dtype)
print(data.shape)

float64
(2, 3)


## Creating ndarrays

因为 numpy 主要用于数学计算，所以如果不明说，ndarray 的 type 是 float64

In [11]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [None]:
data2 = ([1, 2, 3, 4], [5, 6, 7, 8]) # nested tuple
data3 =[[[1, 2, 3], [4, 5, 6]]] # nested list
arr2 = np.array(data2)
arr3 = np.array(data3)

print(arr2)
print(arr3)

[[1 2 3 4]
 [5 6 7 8]]
[[[1 2 3]
  [4 5 6]]]


In [None]:
print(arr2.ndim) # 获取维度,how many dimensions?
print(arr2.shape) # (n_rows, n_cols) 行， 列
print(arr2.size) # size = n_rows * n_cols
print(arr1.dtype)
print(arr2.dtype)


2
(2, 4)
8
float64
int64


In [None]:
np.zeros(10) # 创建一个长度为10的零向量


array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [None]:
np.ones((3, 6)) # 创建一个 3x6 的全 1 数组

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

In [None]:
empty1 = np.empty((2, 3, 2)) # 创建一个空的数组
print(empty1)
print(empty1.shape) # (n_rows, n_cols, n_channels)

[[[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]]
(2, 3, 2)


In [11]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [40]:
np.arange(15).reshape(3, 5) # 定义一个3行5列的数组

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
np.random.randn(4, 4)

array([[-0.76441509, -0.10344674,  1.48576886, -1.47186611],
       [ 0.36758231, -0.1056503 , -0.16033925,  0.13947908],
       [-2.00807741,  0.26751224, -1.5630986 , -0.96588658],
       [-1.02092705,  0.92362875,  1.04925465,  0.18824814]])

## Data Types for ndarrays

In [24]:
 arr1 = np.array([1, 2, 3, 4, 5], dtype=np.int32)
 arr2 = np.array([6, 7, 8, 9, 10], dtype=np.float64)
 
print(arr1.dtype)
print(arr2.dtype)

int32
float64


In [25]:
arr1_float = arr1.astype(np.float64)
print(arr1_float)
print(arr1_float.dtype)

[1. 2. 3. 4. 5.]
float64


将 float 转化为 int 会发生什么？

In [None]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr_int = arr.astype(np.int32) # 直接删掉小数位，而不是四舍五入
print(arr_int)
print(arr_int.dtype)

[ 3 -1 -2  0 12 10]
int32


In [None]:
numeric_strings = np.array(["1.25", "-9.6", "42"], dtype=np.bytes_) # 将字符串数组转换为浮点数
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

In [None]:
int_array = np.array(range(10), dtype=np.int32)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
print(int_array.astype(calibers.dtype))
print(int_array.dtype)
# 调用 astype 始终会创建一个新数组（数据的副本），即使新数据类型与旧数据类型相同。

[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]
int32


## Arithmetic with NumPy Arrays

数组很重要，因为它们使您能够在不编写任何 for 循环的情况下表达对数据的批处理作。NumPy 用户称之为矢量化 。大小相等的数组之间的任何算术运算都按元素应用运算：

In [35]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print(arr * arr)
print(arr - arr)

[[ 1.  4.  9.]
 [16. 25. 36.]]
[[0. 0. 0.]
 [0. 0. 0.]]


In [37]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

## Basic Indexing and Slicing

In [38]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print(arr[5])
print(arr[5:8])

6
[6 7 8]


In [39]:
arr[5:8] = 1279
arr

array([   1,    2,    3,    4,    5, 1279, 1279, 1279,    9,   10])

In [None]:
arr_slice = arr[5:8]
arr_slice[1] = 999
# 当在 arr_slice 中更改值时，突变会反映在原始数组 arr 中：
arr

array([   1,    2,    3,    4,    5, 1279,  999, 1279,    9,   10])

In [None]:
arr_slice[:] = 64 # 赋值给全部的arr_slice
arr

array([ 1,  2,  3,  4,  5, 64, 64, 64,  9, 10])

由于 NumPy 被设计为能够处理非常大的数组，因此如果 NumPy 坚持始终复制数据，您可以想象性能和内存问题。

如果你想要的是 ndarray 切片的副本而不是视图，则需要显式复制该数组，例如 arr[5:8].copy() 。正如你所见，pandas 也是这样工作的。
Numpy为了更高效地处理数据，因此与普通 python 不同，不允许频繁复制。

In [35]:
arr_copy = arr[5:8].copy()
arr_copy = 13
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [45]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [46]:
arr2d[0][2] # 0行2列

np.int64(3)

In [47]:
arr2d[0,2] # 0行2列
# 与上一段代码等价

np.int64(3)

In [39]:
arr3d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
arr3d

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [40]:
arr3d[1]

array([[5, 6],
       [7, 8]])

In [41]:
old_values = arr3d[1].copy()
arr3d[1] = 12
arr3d

array([[[ 1,  2],
        [ 3,  4]],

       [[12, 12],
        [12, 12]]])

In [42]:
arr3d[1] = old_values
arr3d

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [43]:
arr3d[1,1]

array([7, 8])

In [44]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [45]:
arr[1:6] 
# 索引第 2 到第 6 个元素
# 从1开始，到6结束，不包括6
# 索引从0开始

array([ 1,  2,  3,  4, 12])

In [46]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [47]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [48]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [49]:
lower_dim_slice = arr2d[1, :2]
lower_dim_slice

array([4, 5])

In [50]:
lower_dim_slice.shape

(2,)

In [51]:
arr2d[:2, 2:]

array([[3],
       [6]])

In [52]:
arr2d[:2,2]

array([3, 6])

In [53]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

### Boolean Indexing

In [54]:
names = np.array(["bob", "joe", "will", "bob", "will", "joe", "joe"])

data =  np.array([[4, 7], [0, 2], [-5, 6], [0, 12], [-1, 12], [7, 4], [2, -5]])

names

array(['bob', 'joe', 'will', 'bob', 'will', 'joe', 'joe'], dtype='<U4')

In [55]:
data

array([[ 4,  7],
       [ 0,  2],
       [-5,  6],
       [ 0, 12],
       [-1, 12],
       [ 7,  4],
       [ 2, -5]])

In [56]:
names == 'bob'

array([ True, False, False,  True, False, False, False])

In [57]:
data[names == 'bob']

array([[ 4,  7],
       [ 0, 12]])

In [58]:
data[names == 'bob', 1:]

array([[ 7],
       [12]])

In [59]:
data[names == 'bob', 1]

array([ 7, 12])

In [60]:
~(names == 'bob')
# “～”语法是取布尔值的相反值，在复杂布尔值算法下，非常方便。

array([False,  True,  True, False,  True,  True,  True])

In [61]:
data[names != 'bob']

array([[ 0,  2],
       [-5,  6],
       [-1, 12],
       [ 7,  4],
       [ 2, -5]])

In [62]:
cond = names == 'bob'

data[~cond]

array([[ 0,  2],
       [-5,  6],
       [-1, 12],
       [ 7,  4],
       [ 2, -5]])

通过布尔索引从数组中选择数据并将结果分配给新变量始终会创建数据的副本，即使返回的数组没有改变。

Python 关键字 and 和 or 不适用于布尔数组。请使用 & （与）和 | （或）代替。

In [63]:
mask = (names == 'bob') | (names == 'will')
mask

array([ True, False,  True,  True,  True, False, False])

使用布尔数组设置值的方法

In [64]:
data[data < 0] = 0
data

array([[ 4,  7],
       [ 0,  2],
       [ 0,  6],
       [ 0, 12],
       [ 0, 12],
       [ 7,  4],
       [ 2,  0]])

In [65]:
data[:, 1] = 1
data

array([[4, 1],
       [0, 1],
       [0, 1],
       [0, 1],
       [0, 1],
       [7, 1],
       [2, 1]])

### fancy indexing
与普通索引的区别
- 普通索引 arr[1:3] 会选择连续的行（从索引1到索引2）
- 花式索引 arr[[4, 3, 0, 6]] 允许您选择任意行并按照您指定的顺序排列

In [66]:
arr = np.zeros((8,4))
arr

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [67]:
for i in range(8):
    arr[i] = i # 为数组赋值1-8
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [68]:
# 按特定顺序选择行的子集
arr[[4, 3, 0, 6]] # 双中括号 == 花式索引

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [69]:
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])