# Numpy-快速处理数据

## 1. 概念
* **Numpy**是高性能科学计算和数据分析的基础包。

2. 线性代数一个最明显的优势就是用矩阵乘法代替循环，可以极大地提高运算速度。

3. 最重要的一个特点是其N维数组对象（即**ndarray**），它是一个通用的同构数据多维容器，其中的**所有元素必须是相同类型的**，可以利用这种数组对整块数据执行一些数学运算。 

* **导入Numpy函数库**

In [2]:
import numpy as np

## 2. **数组基本操作**

### 2.1 创建数组

#### 2.11 直接创建

使用**array**函数，接受的数据类型是**list**或者**tuple**

In [8]:
data1 = [6,7,8,9] #list

In [3]:
arr1 = np.array(data1)

In [4]:
arr1

array([6, 7, 8, 9])

In [5]:
data2 = (1,2,3,4) #tuple

In [6]:
arr2 = np.array(data2)

In [7]:
arr2

array([1, 2, 3, 4])

#### 2.12 快速创建 

In [12]:
a = np.arange(15).reshape(3,5) 
#reshape()方法可用来改变数组形状
#np.arange()的方式与python的range()类似，不同的是np.arange()支持小数的步长，而使用python的range时则会出错

In [15]:
a = np.arange(1,30,5)

In [16]:
a = np.arange(0,1,0.2)

In [17]:
a = np.linspace(0,np.e*10,5)

In [18]:
a = np.random.random((3,2))

In [19]:
a = np.zeros((3,4)) #对应维度的全零矩阵

In [21]:
a = np.ones((2,3,4),dtype = np.int64) #创建全1矩阵

In [26]:
a = np.empty((4,5))

### 2.2 查询数组的状态 

In [27]:
a = np.arange(15).reshape(3,5)

In [28]:
a.ndim # 返回数组的秩

2

In [29]:
a.shape # 返回数组的形状

(3, 5)

In [30]:
a.dtype.name # 返回数组中数据的类型

'int32'

In [31]:
a.itemsize # 对象中每个元素的大小，以字节为单位

4

In [32]:
a.size # 数组中总共有多少个元素

15

### 2.3 改变数组的形状 

In [33]:
a = np.random.random((3,4))

In [36]:
a

array([[ 0.62221316,  0.12048196,  0.48847668,  0.43461258],
       [ 0.79204666,  0.95560395,  0.84676919,  0.3473076 ],
       [ 0.44663078,  0.42616149,  0.08723797,  0.29308901]])

In [34]:
a.shape # 获得数组的形状

(3, 4)

In [35]:
a.T # 转置

array([[ 0.62221316,  0.79204666,  0.44663078],
       [ 0.12048196,  0.95560395,  0.42616149],
       [ 0.48847668,  0.84676919,  0.08723797],
       [ 0.43461258,  0.3473076 ,  0.29308901]])

In [37]:
a.reshape(2,6) # 可以改变数组形状，但不会改变原数组

array([[ 0.62221316,  0.12048196,  0.48847668,  0.43461258,  0.79204666,
         0.95560395],
       [ 0.84676919,  0.3473076 ,  0.44663078,  0.42616149,  0.08723797,
         0.29308901]])

In [38]:
a.resize(2,6) # 可以改变数组形状，同时改变原数组

In [39]:
a

array([[ 0.62221316,  0.12048196,  0.48847668,  0.43461258,  0.79204666,
         0.95560395],
       [ 0.84676919,  0.3473076 ,  0.44663078,  0.42616149,  0.08723797,
         0.29308901]])

In [4]:
a = np.random.random((2,3))
b = np.random.random((2,3))
print('a','\n',a)
print('b','\n',b)

a 
 [[ 0.13579205  0.4085501   0.18332412]
 [ 0.4067149   0.04963253  0.98436067]]
b 
 [[ 0.0249192   0.61906417  0.93844521]
 [ 0.61151601  0.96312717  0.46838802]]


In [5]:
print(np.vstack((a,b))) # 表示垂直堆叠，按行拼接，也就是竖方向拼接

[[ 0.13579205  0.4085501   0.18332412]
 [ 0.4067149   0.04963253  0.98436067]
 [ 0.0249192   0.61906417  0.93844521]
 [ 0.61151601  0.96312717  0.46838802]]


In [6]:
print(np.hstack((a,b))) # 表示水平堆叠，按列拼接，也就是横方向拼接

[[ 0.13579205  0.4085501   0.18332412  0.0249192   0.61906417  0.93844521]
 [ 0.4067149   0.04963253  0.98436067  0.61151601  0.96312717  0.46838802]]


### 2.4 复制数组 

#### 2.41 完全不拷贝 

In [30]:
a = np.arange(12)
b = a
# 不会创建新的对象，即a和b是同一个ndarray对象的两个名字
# 也就是说如果对b改变形状或者改变数据，a也会发生相应的变化

In [31]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [32]:
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [33]:
b.resize(2,6)

In [34]:
b

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [35]:
a #原数组a由于b的形状的改变而改变

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [36]:
b[0][1] = 100

In [37]:
b

array([[  0, 100,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [38]:
a #原数组a由于数组b的数据大小的改变而改变

array([[  0, 100,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

#### 2.42 浅拷贝 

In [50]:
a = np.arange(12)
c = a.view()
# a的形状不会随着c的改变而发生改变，但是a的数据会随着c的改变而改变
# 换句话说，view()方法会创建一个共享数据的新的数组对象
# 如果数组A是数组B的视图，则称为B为A的base，视图数组中的数据实际上保存在base数组中

In [51]:
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [52]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [54]:
c[2] = 100

In [55]:
c

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [57]:
a #数组a的大小随着c的改变而改变

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [58]:
c.resize(2,6)

In [59]:
c

array([[  0,   1, 100,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [61]:
a #a数组的形状并没有随着c形状的改变而改变

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

#### 2.43 深拷贝 

In [62]:
a = np.arange(12)
d = a.copy()
# 创建了新的数组和新的数据
# 换句话说，改变数组d不会影响到原数组a

In [63]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [64]:
d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [65]:
d[2] = 100

In [66]:
d

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [67]:
a #a的大小并没有随着d的改变而改变

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [68]:
d.resize(2,6)

In [69]:
d

array([[  0,   1, 100,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [70]:
a #a的形状并没有随着d的改变而改变

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### 2.5 数组的基本运算

**Numpy**数组运算的基本原则就是“按元素运算”

#### 2.51 加减法

In [71]:
a = np.array([10,20,30,40])

In [72]:
b = np.arange(4)

In [79]:
a

array([10, 20, 30, 40])

In [80]:
b

array([0, 1, 2, 3])

In [74]:
a - 4 # a中的所有元素都减去4

array([ 6, 16, 26, 36])

In [76]:
a - b # a中每个元素减去b中对应位置的元素

array([10, 19, 28, 37])

#### 2.52 乘法

In [77]:
a * b

array([  0,  20,  60, 120])

In [82]:
a.dot(b.T) #矩阵的点乘

200

#### 2.53 函数 

无论原始的数组是几维的，sum()、min()、max()函数都是将其当做一维的数组进行处理的

In [83]:
a = np.random.random((3,2))

In [84]:
a

array([[ 0.13836276,  0.95576571],
       [ 0.77489751,  0.65362795],
       [ 0.9279207 ,  0.7381018 ]])

In [85]:
a.sum()

4.1886764340384079

In [86]:
a.min()

0.13836276050129315

In [87]:
a.max()

0.95576570603113575

##### 2.531 sum()函数 

In [88]:
a.sum(axis=0) # 按照列的方向求和

array([ 1.84118097,  2.34749546])

In [89]:
a.sum(axis=1) # 按照行的方向求和

array([ 1.09412847,  1.42852546,  1.66602251])