# numpy

In [1]:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [2]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: user 16.8 ms, sys: 17.4 ms, total: 34.2 ms
Wall time: 33.3 ms


In [3]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 571 ms, sys: 173 ms, total: 744 ms
Wall time: 752 ms


NumPy之于数值计算特别重要的原因之一，是因为它可以高效处理大数组的数据。
基于NumPy的算法要比纯Python快10到100倍（甚至更快），并且使用的内存更少。

## 1.1 numpy-ndarray:多维数组对象

In [4]:
data = np.random.randn(2, 3)
print(data)
print('data * 10:\n', data * 10)
print('data + data:\n', data + data)

print('data shape:', data.shape)
print('data dtype:', data.dtype)

[[-0.17546542  0.48864643 -1.05901907]
 [ 0.22085741  1.26601501 -0.3214282 ]]
data * 10:
 [[ -1.75465423   4.88646433 -10.5901907 ]
 [  2.20857406  12.66015008  -3.21428199]]
data + data:
 [[-0.35093085  0.97729287 -2.11803814]
 [ 0.44171481  2.53203002 -0.6428564 ]]
data shape: (2, 3)
data dtype: float64


## 1.1.1 创建ndarray

In [5]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
print(arr1)

[6.  7.5 8.  0.  1. ]


In [6]:
data2 = [[1,2,3,4],[5,6,7,8]]
arr2 = np.array(data2)
print(arr2)
print(arr2.ndim)
print(arr2.shape)

[[1 2 3 4]
 [5 6 7 8]]
2
(2, 4)


In [7]:
#np.array会尝试为新建的这个数组推断出一个较为合适的数据类型
print(arr1.dtype)
print(arr2.dtype)

float64
int64


In [8]:
# 特殊数组的建立
print(np.zeros(10))
print(np.zeros((3,6)))
print(np.empty((2,3,2)))#认为np.empty会返回全0数组的想法是不安全的
# empty/empty_like分配内存空间产生随机值，不进行初始化

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]
[[[0.00000000e+00 0.00000000e+00]
  [0.00000000e+00 0.00000000e+00]
  [0.00000000e+00 0.00000000e+00]]

 [[0.00000000e+00 0.00000000e+00]
  [0.00000000e+00 0.00000000e+00]
  [0.00000000e+00 2.32035738e+77]]]


In [9]:
# arange是Python内置函数range的数组版
print(np.arange(15))

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


## 1.1.2 ndarray的数据类型

In [10]:
# 将一块内存解释为特定数据类型所需的信息
arr1 = np.array([1,2,3], dtype=np.float64)
arr2 = np.array([1,2,3], dtype=np.int32)
print(arr1.dtype)
print(arr2.dtype)

float64
int32


In [11]:
# 通过ndarray的astype方法明确地将一个数组从一个dtype转换成另一个dtype
arr = np.array([1,2,3,4,5])
print(arr.dtype)
float_arr = arr.astype((np.float64))
print(float_arr.dtype)

int64
float64


In [16]:
# 如果将浮点数转换成整数，则小数部分将会被截取删除
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
print(arr)
print(arr.astype(np.int32))

[ 3.7 -1.2 -2.6  0.5 12.9 10.1]
[ 3 -1 -2  0 12 10]


In [13]:
# 如果某字符串数组表示的全是数字，也可以用astype将其转换为数值形式:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
print(numeric_strings.astype(float))

[ 1.25 -9.6  42.  ]


In [14]:
# 数组dtype的，还可以根据另一数组的dtype进行转换
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
print(int_array.astype(calibers.dtype))

[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]


In [15]:
# 简洁的类型代码来表示
empty_uint32 = np.empty(8, dtype='u4')
print(empty_uint32)
print(empty_uint32.dtype)

[         0 1075314688          0 1075707904          0 1075838976
          0 1072693248]
uint32


## 1.1.3 numpy数组运算

In [17]:
# 数组与标量的算术运算会将标量值传播到各个元素:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print(arr)
print(arr * arr)
print(arr - arr)
print(1 / arr)
print(arr * 0.5)

[[1. 2. 3.]
 [4. 5. 6.]]
[[ 1.  4.  9.]
 [16. 25. 36.]]
[[0. 0. 0.]
 [0. 0. 0.]]
[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]
[[0.5 1.  1.5]
 [2.  2.5 3. ]]


In [18]:
# 大小相同的数组之间的比较会生成布尔值数组:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
print(arr2)
print(arr2 > arr)

[[ 0.  4.  1.]
 [ 7.  2. 12.]]
[[False  True False]
 [ True False  True]]


## 1.1.4 数组的广播

In [19]:
a = np.array([[0.0,0.0,0.0],[10.0,10.0,10.0],[20.0,20.0,20.0],[30.0,30.0,30.0]])
b = np.array([1.0,2.0,3.0])
print('第一个数组：')
print(a)
print('\n第二个数组：')
print(b)
print('\n第一个数组加第二个数组：')
print(a + b)

第一个数组：
[[ 0.  0.  0.]
 [10. 10. 10.]
 [20. 20. 20.]
 [30. 30. 30.]]

第二个数组：
[1. 2. 3.]

第一个数组加第二个数组：
[[ 1.  2.  3.]
 [11. 12. 13.]
 [21. 22. 23.]
 [31. 32. 33.]]
