# Numpy-快速处理数据

## 1. **概念**
* **Numpy**是高性能科学计算和数据分析的基础包。

2. 线性代数一个最明显的优势就是用矩阵乘法代替循环，可以极大地提高运算速度。

3. 最重要的一个特点是其N维数组对象（即**ndarray**），它是一个通用的同构数据多维容器，其中的**所有元素必须是相同类型的**，可以利用这种数组对整块数据执行一些数学运算。 

* **导入Numpy函数库**

In [4]:
import numpy as np

## 2. **数组基本操作**

### 2.1 创建数组

#### 2.11 直接创建

使用**array**函数，接受的数据类型是**list**或者**tuple**

In [5]:
data1 = [6,7,8,9] #list

In [6]:
arr1 = np.array(data1)

In [7]:
arr1

array([6, 7, 8, 9])

In [8]:
data2 = (1,2,3,4) #tuple

In [9]:
arr2 = np.array(data2)

In [10]:
arr2

array([1, 2, 3, 4])

#### 2.12 快速创建 

In [11]:
a = np.arange(15).reshape(3,5) 
#reshape()方法可用来改变数组形状
#np.arange()的方式与python的range()类似，不同的是np.arange()支持小数的步长，而使用python的range时则会出错

In [12]:
a = np.arange(1,30,5)

In [13]:
a = np.arange(0,1,0.2)

In [14]:
a = np.linspace(0,np.e*10,5)

In [15]:
a = np.random.random((3,2))

In [16]:
a = np.zeros((3,4)) #对应维度的全零矩阵

In [17]:
a = np.ones((2,3,4),dtype = np.int64) #创建全1矩阵

In [18]:
a = np.empty((4,5))

### 2.2 查询数组的状态 

In [19]:
a = np.arange(15).reshape(3,5)

In [20]:
a.ndim # 返回数组的秩

2

In [21]:
a.shape # 返回数组的形状

(3, 5)

In [22]:
a.dtype.name # 返回数组中数据的类型

'int32'

In [23]:
a.itemsize # 对象中每个元素的大小，以字节为单位

4

In [24]:
a.size # 数组中总共有多少个元素

15

### 2.3 改变数组的形状 

In [25]:
a = np.random.random((3,4))

In [26]:
a

array([[ 0.60701707,  0.05316369,  0.08793492,  0.81906936],
       [ 0.36033711,  0.02503636,  0.79805448,  0.06048646],
       [ 0.24394017,  0.02997181,  0.14693925,  0.78834621]])

In [27]:
a.shape # 获得数组的形状

(3, 4)

In [28]:
a.T # 转置

array([[ 0.60701707,  0.36033711,  0.24394017],
       [ 0.05316369,  0.02503636,  0.02997181],
       [ 0.08793492,  0.79805448,  0.14693925],
       [ 0.81906936,  0.06048646,  0.78834621]])

In [29]:
a.reshape(2,6) # 可以改变数组形状，但不会改变原数组

array([[ 0.60701707,  0.05316369,  0.08793492,  0.81906936,  0.36033711,
         0.02503636],
       [ 0.79805448,  0.06048646,  0.24394017,  0.02997181,  0.14693925,
         0.78834621]])

In [30]:
a

array([[ 0.60701707,  0.05316369,  0.08793492,  0.81906936],
       [ 0.36033711,  0.02503636,  0.79805448,  0.06048646],
       [ 0.24394017,  0.02997181,  0.14693925,  0.78834621]])

In [31]:
a.resize(2,6) # 可以改变数组形状，同时改变原数组

In [32]:
a

array([[ 0.60701707,  0.05316369,  0.08793492,  0.81906936,  0.36033711,
         0.02503636],
       [ 0.79805448,  0.06048646,  0.24394017,  0.02997181,  0.14693925,
         0.78834621]])

In [33]:
a = np.random.random((2,3))
b = np.random.random((2,3))
print('a','\n',a)
print('b','\n',b)

a 
 [[ 0.15911937  0.66191566  0.81066664]
 [ 0.18483001  0.82592257  0.47526386]]
b 
 [[ 0.94063207  0.13165115  0.83740779]
 [ 0.27651292  0.52042612  0.50814419]]


In [34]:
print(np.vstack((a,b))) # 表示垂直堆叠，按行拼接，也就是竖方向拼接

[[ 0.15911937  0.66191566  0.81066664]
 [ 0.18483001  0.82592257  0.47526386]
 [ 0.94063207  0.13165115  0.83740779]
 [ 0.27651292  0.52042612  0.50814419]]


In [35]:
print(np.hstack((a,b))) # 表示水平堆叠，按列拼接，也就是横方向拼接

[[ 0.15911937  0.66191566  0.81066664  0.94063207  0.13165115  0.83740779]
 [ 0.18483001  0.82592257  0.47526386  0.27651292  0.52042612  0.50814419]]


### 2.4 复制数组 

#### 2.41 完全不拷贝 

In [36]:
a = np.arange(12)
b = a
# 不会创建新的对象，即a和b是同一个ndarray对象的两个名字
# 也就是说如果对b改变形状或者改变数据，a也会发生相应的变化

In [37]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [38]:
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [39]:
b.resize(2,6)

In [40]:
b

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [41]:
a #原数组a由于b的形状的改变而改变

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [42]:
b[0][1] = 100

In [43]:
b

array([[  0, 100,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [44]:
a #原数组a由于数组b的数据大小的改变而改变

array([[  0, 100,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

#### 2.42 浅拷贝 

In [45]:
a = np.arange(12)
c = a.view()
# a的形状不会随着c的改变而发生改变，但是a的数据会随着c的改变而改变
# 换句话说，view()方法会创建一个共享数据的新的数组对象
# 如果数组A是数组B的视图，则称为B为A的base，视图数组中的数据实际上保存在base数组中

In [46]:
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [47]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [48]:
c[2] = 100

In [49]:
c

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [50]:
a #数组a的大小随着c的改变而改变

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [51]:
c.resize(2,6)

In [52]:
c

array([[  0,   1, 100,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [53]:
a #a数组的形状并没有随着c形状的改变而改变

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

#### 2.43 深拷贝 

In [54]:
a = np.arange(12)
d = a.copy()
# 创建了新的数组和新的数据
# 换句话说，改变数组d不会影响到原数组a

In [55]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [56]:
d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [57]:
d[2] = 100

In [58]:
d

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [59]:
a #a的大小并没有随着d的改变而改变

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [60]:
d.resize(2,6)

In [61]:
d

array([[  0,   1, 100,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [62]:
a #a的形状并没有随着d的改变而改变

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### 2.5 数组的基本运算

**Numpy**数组运算的基本原则就是“按元素运算”

#### 2.51 加减法

In [63]:
a = np.array([10,20,30,40])

In [64]:
b = np.arange(4)

In [65]:
a

array([10, 20, 30, 40])

In [66]:
b

array([0, 1, 2, 3])

In [67]:
a - 4 # a中的所有元素都减去4

array([ 6, 16, 26, 36])

In [68]:
a - b # a中每个元素减去b中对应位置的元素

array([10, 19, 28, 37])

#### 2.52 乘法

In [69]:
a * b

array([  0,  20,  60, 120])

In [70]:
a.dot(b.T) #矩阵的点乘

200

#### 2.53 函数 

无论原始的数组是几维的，sum()、min()、max()函数都是将其当做一维的数组进行处理的

In [71]:
a = np.random.random((3,2))

In [72]:
a

array([[ 0.74578879,  0.86331763],
       [ 0.76269649,  0.2068153 ],
       [ 0.57860633,  0.26322772]])

In [73]:
a.sum()

3.4204522570413669

In [74]:
a.min()

0.20681530354068001

In [75]:
a.max()

0.86331762647520116

##### 2.531 sum( ) 函数 

计算数组元素之和

In [76]:
a.sum() #直接求和

3.4204522570413669

In [77]:
a.sum(axis=0) # 按照列的方向求和

array([ 2.08709161,  1.33336065])

In [78]:
a.sum(axis=1) # 按照行的方向求和

array([ 1.60910641,  0.96951179,  0.84183405])

##### 2.532 np.sqrt( ) 函数 

计算数组元素的的平方根

In [79]:
a = np.arange(12).reshape(2,6)

In [80]:
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [81]:
b = np.sqrt(a)

In [82]:
b

array([[ 0.        ,  1.        ,  1.41421356,  1.73205081,  2.        ,
         2.23606798],
       [ 2.44948974,  2.64575131,  2.82842712,  3.        ,  3.16227766,
         3.31662479]])

##### 2.533 np.ceil( ) 函数 

对数组元素向上取整

In [83]:
a = np.random.randn(3,2)

In [84]:
a

array([[ 0.14492542,  1.27688132],
       [-0.41668468,  0.57792006],
       [-1.75548627,  0.70623922]])

In [85]:
np.ceil(a)

array([[ 1.,  2.],
       [-0.,  1.],
       [-1.,  1.]])

##### 2.534 np.modf( ) 函数 

将数组各元素的小数和整数部分以两个独立数组形式返回

In [86]:
a = np.random.randn(4)

In [87]:
a

array([-0.35924501,  0.41809699, -1.6151385 , -0.38626357])

In [88]:
b = np.modf(a)

In [89]:
b #分成了两个数组

(array([-0.35924501,  0.41809699, -0.6151385 , -0.38626357]),
 array([-0.,  0., -1., -0.]))

In [90]:
b[0] #分离得到小数部分

array([-0.35924501,  0.41809699, -0.6151385 , -0.38626357])

##### 2.535 np.where( ) 函数 

按条件返回数组的索引值

In [101]:
a = np.arange(12).reshape(3,4)

In [102]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [103]:
b = np.where(a > 7) 

In [104]:
b # 满足条件的索引值

(array([2, 2, 2, 2], dtype=int64), array([0, 1, 2, 3], dtype=int64))

In [107]:
a[b] # 按照索引得到的数组元素

array([ 8,  9, 10, 11])

##### 2.536 np.take ( ) 函数 

从固定轴向的数组中取出指定元素

In [112]:
a = np.arange(12)

In [115]:
c = np.take(a,np.where(a>7)) # np.take 和 np.where 的综合使用

In [116]:
c

array([[ 8,  9, 10, 11]])

In [118]:
b = np.arange(12).reshape(3,4)

In [131]:
np.take(b,np.where(b>7)) # 不是一维数组的时候

array([[2, 2, 2, 2],
       [0, 1, 2, 3]])

In [125]:
c = np.ravel(b) # 是一维数组的时候

In [126]:
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [128]:
np.take(c,np.where(c>7))[0] # 貌似一维化后才可以按索引取值

array([ 8,  9, 10, 11])

##### 2.537  ravel ( ) 和 flatten ( )

**两者所要实现的功能是一致的，即将数组展平成一维数组,默认是行序优先**

ravel( ) 函数

In [132]:
a = np.arange(12).reshape(3,4)

In [133]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [153]:
b = np.ravel(a) # np.ravel( ) 返回的是视图，对视图的修改是会影响到原数组的

In [154]:
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [157]:
c = a.ravel() # 也可以写成这种形式

In [156]:
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [140]:
a # 原数组还未发生变化

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [141]:
b[2] = 100

In [144]:
b # 修改视图的元素 

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [146]:
a # 原数组发生了变化

array([[  0,   1, 100,   3],
       [  4,   5,   6,   7],
       [  8,   9,  10,  11]])

flatten( ) 函数

In [147]:
a = np.arange(12).reshape(4,3)

In [148]:
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [160]:
b = a.flatten() # 写成np.flatten()的形式会报错

In [161]:
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [162]:
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [163]:
b[2] = 100

In [167]:
b # 改变拷贝的数据

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [165]:
a # 原数组不受影响

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

### 2.6 数组索引  

python 是从0开始索引，数组的索引与列表的索引类似，这意味着数据不会被复制，任何修改都会直接反映到源数组上

In [93]:
a = np.arange(12).reshape(3,4)

In [94]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [95]:
a[2,-1] # [行向的位置，列向的位置] 支持负数下标，可以从尾部向前计数

11

In [96]:
a[:,1:3] # 选取的数据范围：所有行，1到3之间的所有列（不包括第3列） 

array([[ 1,  2],
       [ 5,  6],
       [ 9, 10]])

In [97]:
a[2,-1] = 100

In [98]:
a # 数据的修改直接反映到了源数组上

array([[  0,   1,   2,   3],
       [  4,   5,   6,   7],
       [  8,   9,  10, 100]])