## 数组

In [1]:
import numpy as np
import pandas as pd
import matplotlib as plt

In [2]:
%matplotlib inline
%load_ext autoreload
%autoreload 2

In [3]:
my_arr = np.arange(1000000)
my_list = list(range(1000000))

### 性能的差异
* NumPy是在一个连续的内存块中存储数据，独立于其他Python内置对象。NumPy的C语言编写的算法库可以操作内存，而不必进行类型检查或其它前期工作。比起Python的内置序列，NumPy数组使用的内存更少。

* NumPy可以在整个数组上执行复杂的计算，而不需要Python的for循环。

以下是一个例子：

In [4]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: user 28.8 ms, sys: 27.9 ms, total: 56.7 ms
Wall time: 55.4 ms


In [5]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 927 ms, sys: 375 ms, total: 1.3 s
Wall time: 1.33 s


In [6]:
type(my_arr)

numpy.ndarray

In [67]:
data = np.random.randn(2, 3); data

array([[ 1.80325584,  0.59674075,  1.00516963],
       [ 0.32458379, -0.70906428, -1.20836817]])

In [8]:
data = data * 10; data

array([[ -2.91386578,   2.29385629, -12.60229273],
       [  4.74805508,  -3.62301334,  -2.71639367]])

In [9]:
data = data + data; data

array([[ -5.82773155,   4.58771258, -25.20458546],
       [  9.49611016,  -7.24602668,  -5.43278734]])

In [17]:
data.shape

(2, 3)

In [18]:
data.dtype

dtype('float64')

In [19]:
data1 = [1,2,3,4]
arr1 = np.array(data1); arr1

array([1, 2, 3, 4])

In [20]:
data2 = [1,2,3.4,5]
arr2 = np.array(data2); arr2

array([1. , 2. , 3.4, 5. ])

In [25]:
print(arr1.dtype, arr2.dtype)

int64 float64


In [26]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [29]:
np.ones([2,3])

array([[1., 1., 1.],
       [1., 1., 1.]])

In [33]:
np.empty((2,3,2))

array([[[2.47014246e-316, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000]],

       [[0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000]]])

### 性能对比

np.arange()是np的range()数组版，根据实验看起来，好像是生成的速度更慢。可能是因为生成的数据类型比较大的缘故吧。

In [44]:
%time for i in range(100000000): pass

CPU times: user 4.03 s, sys: 1.74 ms, total: 4.03 s
Wall time: 4.5 s


In [47]:
%time for i in np.arange(100000000): pass

CPU times: user 6.65 s, sys: 693 ms, total: 7.35 s
Wall time: 7.74 s


#### astype函数

In [68]:
data = np.random.randn(2, 3); data

array([[ 0.71299824, -1.43333055, -0.29248003],
       [-1.23288109, -0.2581284 , -1.6900303 ]])

In [69]:
data.astype(np.int32)

array([[ 0, -1,  0],
       [-1,  0, -1]], dtype=int32)

np很聪明，它会将Python类型映射到等价的dtype上。比如下面的float是python的类型，被np映射成了‘S4’类型。

In [74]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)
numeric_strings.dtype

dtype('S4')

np.dtype的另一种用法

In [76]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64) 
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

## NumPy数组的运算

数组很重要，因为它使你不用编写循环即可对数据执行批量运算。NumPy用户称其为矢量化（vectorization）。大小相等的数组之间的任何算术运算都会将运算应用到元素级：

In [83]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]]); arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [84]:
arr + arr

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [85]:
arr * 7

array([[ 7., 14., 21.],
       [28., 35., 42.]])

In [86]:
arr ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [87]:
arr // 2

array([[0., 1., 1.],
       [2., 2., 3.]])

In [88]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [89]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]]); arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

返回布尔值

In [91]:
arr > arr2

array([[ True, False,  True],
       [False,  True, False]])