## 数组

In [2]:
import numpy as np
import pandas as pd
import matplotlib as plt

In [3]:
%matplotlib inline
%load_ext autoreload
%autoreload 2

### 性能的差异
* NumPy是在一个连续的内存块中存储数据，独立于其他Python内置对象。NumPy的C语言编写的算法库可以操作内存，而不必进行类型检查或其它前期工作。比起Python的内置序列，NumPy数组使用的内存更少。

* NumPy可以在整个数组上执行复杂的计算，而不需要Python的for循环。

以下是一个例子：

In [4]:
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [5]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: user 23.8 ms, sys: 33.6 ms, total: 57.4 ms
Wall time: 56 ms


In [6]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 748 ms, sys: 393 ms, total: 1.14 s
Wall time: 1.22 s


In [7]:
type(my_arr)

numpy.ndarray

In [8]:
data = np.random.randn(2, 3); data

array([[ 1.32283522, -0.50539666, -0.35973698],
       [-0.92095868, -0.93025252, -0.41956234]])

In [9]:
data = data * 10; data

array([[13.22835223, -5.05396656, -3.59736975],
       [-9.2095868 , -9.30252521, -4.19562337]])

In [10]:
data = data + data; data

array([[ 26.45670446, -10.10793311,  -7.19473951],
       [-18.41917359, -18.60505042,  -8.39124675]])

In [11]:
data.shape

(2, 3)

In [12]:
data.dtype

dtype('float64')

In [13]:
data1 = [1,2,3,4]
arr1 = np.array(data1); arr1

array([1, 2, 3, 4])

In [14]:
data2 = [1,2,3.4,5]
arr2 = np.array(data2); arr2

array([1. , 2. , 3.4, 5. ])

In [15]:
print(arr1.dtype, arr2.dtype)

int64 float64


In [16]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [17]:
np.ones([2,3])

array([[1., 1., 1.],
       [1., 1., 1.]])

In [18]:
np.empty((2,3,2))

array([[[2.53025325e-316, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000]],

       [[0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000]]])

### 性能对比

np.arange()是np的range()数组版，根据实验看起来，好像是生成的速度更慢。可能是因为生成的数据类型比较大的缘故吧。

In [19]:
%time for i in range(100000000): pass

CPU times: user 4.4 s, sys: 0 ns, total: 4.4 s
Wall time: 4.77 s


In [20]:
%time for i in np.arange(100000000): pass

CPU times: user 8.05 s, sys: 1.57 s, total: 9.62 s
Wall time: 9.78 s


#### astype函数

In [21]:
data = np.random.randn(2, 3); data

array([[ 0.13431076, -1.53735266, -0.14646776],
       [ 2.61710225, -1.2484714 ,  1.40235895]])

In [22]:
data.astype(np.int32)

array([[ 0, -1,  0],
       [ 2, -1,  1]], dtype=int32)

np很聪明，它会将Python类型映射到等价的dtype上。比如下面的float是python的类型，被np映射成了‘S4’类型。

In [23]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)
numeric_strings.dtype

dtype('S4')

np.dtype的另一种用法

In [24]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64) 
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

## NumPy数组的运算

数组很重要，因为它使你不用编写循环即可对数据执行批量运算。NumPy用户称其为矢量化（vectorization）。大小相等的数组之间的任何算术运算都会将运算应用到元素级：

In [25]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]]); arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [26]:
arr + arr

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [27]:
arr * 7

array([[ 7., 14., 21.],
       [28., 35., 42.]])

In [28]:
arr ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [29]:
arr // 2

array([[0., 1., 1.],
       [2., 2., 3.]])

In [30]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [31]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]]); arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

返回布尔值

In [32]:
arr > arr2

array([[ True, False,  True],
       [False,  True, False]])

## 布尔型索引

data[[bool]]使用布尔值来蒙版数据。

In [34]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4); data

array([[-1.34225417, -0.44214307,  0.66857128, -0.48085963],
       [ 1.00388987, -1.11869379, -0.04806467, -1.07400046],
       [ 0.50585115,  0.16880991, -0.47884842,  0.83516354],
       [-1.29172129,  1.41685649,  0.49156815, -0.97136747],
       [-1.84443057, -0.04665353,  0.70442377,  1.68695542],
       [-1.3948353 ,  0.7270292 , -1.68876614,  0.81974291],
       [-3.06629037,  0.25224795,  0.20817263,  0.60278567]])

In [35]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [36]:
data[names == 'Bob']

array([[-1.34225417, -0.44214307,  0.66857128, -0.48085963],
       [-1.29172129,  1.41685649,  0.49156815, -0.97136747]])

array = n的赋值操作其实是一个循环操作，它整理并返回一个数组。

In [44]:
data[data < 0] = 0; data

array([[0.        , 0.        , 0.66857128, 0.        ],
       [1.00388987, 0.        , 0.        , 0.        ],
       [0.50585115, 0.16880991, 0.        , 0.83516354],
       [0.        , 1.41685649, 0.49156815, 0.        ],
       [0.        , 0.        , 0.70442377, 1.68695542],
       [0.        , 0.7270292 , 0.        , 0.81974291],
       [0.        , 0.25224795, 0.20817263, 0.60278567]])

## 花式索引

不得不承认，np将索引玩出了花。

花式索引是指向array[]中传递一个或者多个列表，来达到分别索引各个维度的功能，传入的列表长度必须相同。

In [50]:
arr = np.empty([8, 4]); arr
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [55]:
arr[[1, 2, 7], [3, 2, 1]]

array([1., 2., 7.])