# **Numpy-快速处理数据**

## 1. **概念**
* **Numpy**是高性能科学计算和数据分析的基础包。

2. 线性代数一个最明显的优势就是用矩阵乘法代替循环，可以极大地提高运算速度。

3. 最重要的一个特点是其N维数组对象（即**ndarray**），它是一个通用的同构数据多维容器，其中的**所有元素必须是相同类型的**，可以利用这种数组对整块数据执行一些数学运算。 

* **导入Numpy函数库**

In [1]:
import numpy as np

## 2. **数组基本操作**

### 2.1 创建数组

#### 2.11 直接创建

使用  <font color=DarkViolet>**array**函数</font>，接受的数据类型是<font color=DarkCyan>**list**</font>或者<font color=DarkCyan>**tuple**</font>

In [2]:
data1 = [6,7,8,9] #list

In [3]:
arr1 = np.array(data1)

In [4]:
arr1

array([6, 7, 8, 9])

In [5]:
data2 = (1,2,3,4) #tuple

In [6]:
arr2 = np.array(data2)

In [7]:
arr2

array([1, 2, 3, 4])

#### 2.12 快速创建 

In [8]:
a = np.arange(15).reshape(3,5) 
#reshape()方法可用来改变数组形状
#np.arange()的方式与python的range()类似，不同的是np.arange()支持小数的步长，而使用python的range时则会出错

In [9]:
a = np.arange(1,30,5)

In [10]:
a = np.arange(0,1,0.2)

In [11]:
a = np.linspace(0,np.e*10,5)

In [12]:
a = np.random.random((3,2))

In [13]:
a = np.zeros((3,4)) #对应维度的全零矩阵

In [14]:
a = np.ones((2,3,4),dtype = np.int64) #创建全1矩阵

In [15]:
a = np.empty((4,5))

### **2.2 查询数组的状态 **

In [16]:
a = np.arange(15).reshape(3,5)

In [17]:
a.ndim # 返回数组的秩

2

In [18]:
a.shape # 返回数组的形状

(3, 5)

In [19]:
a.dtype.name # 返回数组中数据的类型

'int32'

In [20]:
a.itemsize # 对象中每个元素的大小，以字节为单位

4

In [21]:
a.size # 数组中总共有多少个元素

15

### **2.3 改变数组的形状 **

In [22]:
a = np.random.random((3,4))

In [23]:
a

array([[ 0.00680961,  0.6147242 ,  0.13212081,  0.16053625],
       [ 0.80366573,  0.35632943,  0.0263238 ,  0.24281808],
       [ 0.28882594,  0.4512975 ,  0.65588616,  0.81506879]])

In [24]:
a.shape # 获得数组的形状

(3, 4)

#### 2.31 函数reshape 

In [25]:
a.reshape(2,6) # 可以改变数组形状，但不会改变原数组

array([[ 0.00680961,  0.6147242 ,  0.13212081,  0.16053625,  0.80366573,
         0.35632943],
       [ 0.0263238 ,  0.24281808,  0.28882594,  0.4512975 ,  0.65588616,
         0.81506879]])

In [26]:
a

array([[ 0.00680961,  0.6147242 ,  0.13212081,  0.16053625],
       [ 0.80366573,  0.35632943,  0.0263238 ,  0.24281808],
       [ 0.28882594,  0.4512975 ,  0.65588616,  0.81506879]])

#### 2.32 函数resize 

In [27]:
a.resize(2,6) # 可以改变数组形状，同时改变原数组

In [28]:
a

array([[ 0.00680961,  0.6147242 ,  0.13212081,  0.16053625,  0.80366573,
         0.35632943],
       [ 0.0263238 ,  0.24281808,  0.28882594,  0.4512975 ,  0.65588616,
         0.81506879]])

In [29]:
a.shape

(2, 6)

#### 2.33 用元组设置维度 

In [30]:
a.shape = (4,3) # 可直接用正整数元组来设置数组的维度，注意，这样会使得原数组发生改变

In [31]:
a

array([[ 0.00680961,  0.6147242 ,  0.13212081],
       [ 0.16053625,  0.80366573,  0.35632943],
       [ 0.0263238 ,  0.24281808,  0.28882594],
       [ 0.4512975 ,  0.65588616,  0.81506879]])

#### 2.34 数组的展平

<font color=DarkViolet>**函数ravel**</font>--返回数组的一个视图

In [32]:
a = np.arange(12).reshape(2,6)

In [33]:
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [34]:
a.ravel() 

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

<font color=DarkViolet>** 函数flatten** </font>--分配内存储存

In [35]:
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [36]:
a.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

#### 2.35 数组的转置 

In [37]:
a = np.arange(12).reshape(6,2)

In [38]:
a

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [39]:
a.T # 转置

array([[ 0,  2,  4,  6,  8, 10],
       [ 1,  3,  5,  7,  9, 11]])

In [40]:
a.transpose() # 也可以写成这种形式

array([[ 0,  2,  4,  6,  8, 10],
       [ 1,  3,  5,  7,  9, 11]])

### **2.4 数组的复制 **

#### 2.41 完全不拷贝 

In [41]:
a = np.arange(12)
b = a
# 不会创建新的对象，即a和b是同一个ndarray对象的两个名字
# 也就是说如果对b改变形状或者改变数据，a也会发生相应的变化

In [42]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [43]:
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [44]:
b.resize(2,6)

In [45]:
b

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [46]:
a #原数组a由于b的形状的改变而改变

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [47]:
b[0][1] = 100

In [48]:
b

array([[  0, 100,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [49]:
a #原数组a由于数组b的数据大小的改变而改变

array([[  0, 100,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

#### 2.42 浅拷贝 

In [50]:
a = np.arange(12)
c = a.view()
# a的形状不会随着c的改变而发生改变，但是a的数据会随着c的改变而改变
# 换句话说，view()方法会创建一个共享数据的新的数组对象
# 如果数组A是数组B的视图，则称为B为A的base，视图数组中的数据实际上保存在base数组中

In [51]:
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [52]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [53]:
c[2] = 100

In [54]:
c

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [55]:
a #数组a的大小随着c的改变而改变

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [56]:
c.resize(2,6)

In [57]:
c

array([[  0,   1, 100,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [58]:
a #a数组的形状并没有随着c形状的改变而改变

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

#### 2.43 深拷贝 

In [59]:
a = np.arange(12)
d = a.copy()
# 创建了新的数组和新的数据
# 换句话说，改变数组d不会影响到原数组a

In [60]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [61]:
d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [62]:
d[2] = 100

In [63]:
d

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [64]:
a #a的大小并没有随着d的改变而改变

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [65]:
d.resize(2,6)

In [66]:
d

array([[  0,   1, 100,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [67]:
a #a的形状并没有随着d的改变而改变

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### **2.5 数组的基本运算**

<font color=Crimson>**Numpy**</font>  数组运算的基本原则就是“按元素运算”

#### 2.51 加减法

In [68]:
a = np.array([10,20,30,40])

In [69]:
b = np.arange(4)

In [70]:
a

array([10, 20, 30, 40])

In [71]:
b

array([0, 1, 2, 3])

In [72]:
a - 4 # a中的所有元素都减去4

array([ 6, 16, 26, 36])

In [73]:
a - b # a中每个元素减去b中对应位置的元素

array([10, 19, 28, 37])

#### 2.52 乘法

In [74]:
a * b

array([  0,  20,  60, 120])

In [75]:
a.dot(b.T) #矩阵的点乘

200

### **2.6 常用函数 **

无论原始的数组是几维的，sum()、min()、max()函数都是将其当做一维的数组进行处理的

In [76]:
a = np.random.random((3,2))

In [77]:
a

array([[ 0.64400427,  0.2964173 ],
       [ 0.8746431 ,  0.41663605],
       [ 0.47986516,  0.72422404]])

In [78]:
a.sum()

3.4357899234676617

In [79]:
a.min()

0.29641729770657854

In [80]:
a.max()

0.87464310296958259

#### sum

计算数组元素之和

In [81]:
a.sum() #直接求和

3.4357899234676617

In [82]:
a.sum(axis=0) # 按照列的方向求和

array([ 1.99851253,  1.43727739])

In [83]:
a.sum(axis=1) # 按照行的方向求和

array([ 0.94042157,  1.29127916,  1.2040892 ])

#### np.compress 

np.compress(condition,a,axis=None,out=None)

<font color=DarkCyan>condition</font> 筛选的条件,一维数组的时候可用比较符，二维及以上数组的时候需要用一维布尔数组
<font color=DarkCyan>        a</font> 目标数组
<font color=DarkCyan>axis</font> 选择截取哪个轴，默认是截取展开的数组

返回一个根据给定条件筛选后的数组

In [84]:
a = np.arange(4)

In [85]:
a

array([0, 1, 2, 3])

In [86]:
np.compress(a>1,a) # 截取了符合条件的数组元素，一维数组推荐采用这种筛选方法

array([2, 3])

In [87]:
a = np.arange(12).reshape(3,4)

In [88]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [89]:
np.compress([True,False,False],a,axis=1)

array([[0],
       [4],
       [8]])

#### np.mean 

直接计算平均数

In [90]:
np.mean(np.arange(4)) # 对一维数组求平均

1.5

In [91]:
a = np.arange(6).reshape(2,3) # 对于多维数组

In [92]:
a

array([[0, 1, 2],
       [3, 4, 5]])

In [93]:
np.mean(a,axis=0) # 对列方向的元素求平均

array([ 1.5,  2.5,  3.5])

In [94]:
np.mean(a,axis=1) # 对行方向的数组元素求平均

array([ 1.,  4.])

In [95]:
np.mean(a) # 不指定axis的时候，默认是按照展平的数组求平均

2.5

#### np.average 

计算加权平均数，如果不提供权重参数，其等效于np.mean

In [96]:
a = np.arange(4)

In [97]:
a

array([0, 1, 2, 3])

In [98]:
np.average(a)

1.5

In [99]:
np.average(a) == np.mean(a) # 此时不指定权重

True

In [100]:
a = np.arange(4)

In [101]:
a

array([0, 1, 2, 3])

In [102]:
np.average(a,weights=[2,4,6,8]) #指定权重

2.0

In [103]:
a = np.arange(6).reshape(2,3)

In [104]:
a

array([[0, 1, 2],
       [3, 4, 5]])

In [105]:
np.average(a,axis=0,weights=[1./3,2./3]) # 指定axis=0求加权平均，即列方向

array([ 2.,  3.,  4.])

In [106]:
np.average(a,axis=1,weights=[2./5,1./5,2./5]) # 指定axis=1求加权平均，即行方向

array([ 1.,  4.])

#### np.sqrt 

计算数组元素的的平方根

In [107]:
a = np.arange(12).reshape(2,6)

In [108]:
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [109]:
b = np.sqrt(a)

In [110]:
b

array([[ 0.        ,  1.        ,  1.41421356,  1.73205081,  2.        ,
         2.23606798],
       [ 2.44948974,  2.64575131,  2.82842712,  3.        ,  3.16227766,
         3.31662479]])

#### np.diff

np.diff(a,n=1,axis=-1)

沿着指定轴计算第N维的离散差值
参数：
<font color=DarkCyan>a</font> : 输入矩阵
<font color=DarkCyan>n</font> : 可选，代表要执行几次差值
<font color=DarkCyan>axis</font> : 默认是最后一个

In [111]:
a = np.arange(6)

In [112]:
a

array([0, 1, 2, 3, 4, 5])

In [113]:
np.diff(a)

array([1, 1, 1, 1, 1])

In [114]:
a = np.arange(2,14).reshape(3,4)

In [115]:
a[2,3]=8

In [116]:
a

array([[ 2,  3,  4,  5],
       [ 6,  7,  8,  9],
       [10, 11, 12,  8]])

In [117]:
np.diff(a)

array([[ 1,  1,  1],
       [ 1,  1,  1],
       [ 1,  1, -4]])

In [118]:
np.diff(a,axis=0) # 可以选轴向进行差分

array([[ 4,  4,  4,  4],
       [ 4,  4,  4, -1]])

In [119]:
np.diff(a,n=2) # 进行2次差分

array([[ 0,  0],
       [ 0,  0],
       [ 0, -5]])

#### np.fill 

该函数用一个指定的标量值填充数组

In [120]:
a = np.ones((2,2))

In [121]:
a

array([[ 1.,  1.],
       [ 1.,  1.]])

In [122]:
a.fill(2)

In [123]:
a

array([[ 2.,  2.],
       [ 2.,  2.]])

#### np.ceil

对数组元素向上取整

In [124]:
a = np.random.randn(3,2)

In [125]:
a

array([[-1.15673228,  1.36469303],
       [ 0.06564221, -0.04608319],
       [-0.17916862,  0.39946321]])

In [126]:
np.ceil(a)

array([[-1.,  2.],
       [ 1., -0.],
       [-0.,  1.]])

####  np.modf

将数组各元素的小数和整数部分以两个独立数组形式返回

In [127]:
a = np.random.randn(4)

In [128]:
a

array([-1.68262798, -1.17287778,  0.33150568, -0.97943824])

In [129]:
b = np.modf(a)

In [130]:
b #分成了两个数组

(array([-0.68262798, -0.17287778,  0.33150568, -0.97943824]),
 array([-1., -1.,  0., -0.]))

In [131]:
b[0] #分离得到小数部分

array([-0.68262798, -0.17287778,  0.33150568, -0.97943824])

#### np.where

按条件返回数组的索引值

In [132]:
a = np.arange(12).reshape(3,4)

In [133]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [134]:
b = np.where(a > 7) 

In [135]:
b # 满足条件的索引值

(array([2, 2, 2, 2], dtype=int64), array([0, 1, 2, 3], dtype=int64))

In [136]:
type(b)

tuple

In [137]:
a[b] # 按照索引得到的数组元素

array([ 8,  9, 10, 11])

In [138]:
a = np.arange(12)

In [139]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [140]:
b = np.where(a>7)

In [141]:
b

(array([ 8,  9, 10, 11], dtype=int64),)

In [142]:
type(b)

tuple

#### np.take

从固定轴向的数组中取出指定元素

In [143]:
a = np.arange(12)

In [144]:
c = np.take(a,np.where(a>7)) # np.take 和 np.where 的综合使用

In [145]:
c

array([[ 8,  9, 10, 11]])

In [146]:
b = np.arange(12).reshape(3,4)

In [147]:
np.take(b,np.where(b>7)) # 不是一维数组的时候

array([[2, 2, 2, 2],
       [0, 1, 2, 3]])

In [148]:
c = np.ravel(b) # 是一维数组的时候

In [149]:
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [150]:
np.take(c,np.where(c>7))[0] # 貌似一维化后才可以按索引取值

array([ 8,  9, 10, 11])

#### ravel 和 flatten 

**两者所要实现的功能是一致的，即将数组展平成一维数组,默认是行序优先**

<font color=DarkViolet>**ravel( ) 函数**</font>

In [151]:
a = np.arange(12).reshape(3,4)

In [152]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [153]:
b = np.ravel(a) # np.ravel( ) 返回的是视图，对视图的修改是会影响到原数组的

In [154]:
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [155]:
c = a.ravel() # 也可以写成这种形式

In [156]:
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [157]:
a # 原数组还未发生变化

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [158]:
b[2] = 100

In [159]:
b # 修改视图的元素 

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [160]:
a # 原数组发生了变化

array([[  0,   1, 100,   3],
       [  4,   5,   6,   7],
       [  8,   9,  10,  11]])

<font color=DarkViolet>flatten( ) 函数</font>

In [161]:
a = np.arange(12).reshape(4,3)

In [162]:
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [163]:
b = a.flatten() # 写成np.flatten()的形式会报错

In [164]:
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [165]:
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [166]:
b[2] = 100

In [167]:
b # 改变拷贝的数据

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [168]:
a # 原数组不受影响

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

#### np.median 

函数返回的结果是中位数

In [169]:
a = np.arange(6)

In [170]:
a

array([0, 1, 2, 3, 4, 5])

In [171]:
np.median(a)

2.5

#### np.sign 

返回数组中每个元素的正负号，数组元素为负时返回-1，为正时返回1，否则返回0

In [172]:
a = np.array([1,0,2,-2,-5])

In [173]:
a

array([ 1,  0,  2, -2, -5])

In [174]:
np.sign(a)

array([ 1,  0,  1, -1, -1])

#### np.piecewise 

函数可以分段给定取值

np.piecewise(x,condlist,funclist,*args,**kw)
<font color=DarkCyan>x</font> : 数组
<font color=DarkCyan>condlist</font> : 布尔数组或列表布尔标量

In [175]:
a = np.array([2,4,0,-3,-5])

#### np.argmax 和 np.argmin 

np.argmax(array_like,axis=None,out=None)

返回沿轴axis最大值的索引

<font color=DarkCyan>array_like</font> 数组
<font color=DarkCyan>axis</font> 默认情况下，索引的是平铺的数组，否则沿指定的轴
<font color=DarkCyan>out</font> 如果提供，结果以合适的形状和类型被插入到此数组中
<font color=HotPink>Returns:</font>
<font color=DarkCyan>index_array</font> 索引数组，它具有与array_like.shape相同的形状

In [176]:
a = np.arange(6,12)

In [177]:
a

array([ 6,  7,  8,  9, 10, 11])

In [178]:
np.argmax(a) # 获得最大值的索引

5

In [179]:
a[np.argmax(a)] # 通过索引得到对应的最大值

11

In [180]:
np.take(a,np.argmax(a)) # 结合np.take来获取最大值

11

<font color=Crimson face="黑体">注意</font>

In [181]:
a[2]=11

In [182]:
a

array([ 6,  7, 11,  9, 10, 11])

In [183]:
np.argmax(a)

2

In [184]:
a[np.argmax(a)] # np.argmax只返回第一次出现的最大值的索引

11

In [185]:
a = np.arange(2,14).reshape(3,4)

In [186]:
a

array([[ 2,  3,  4,  5],
       [ 6,  7,  8,  9],
       [10, 11, 12, 13]])

In [187]:
np.argmax(a) # 默认情况下，索引的是平铺的数组

11

In [188]:
np.argmax(a,axis=0)

array([2, 2, 2, 2], dtype=int64)

In [189]:
np.argmax(a,axis=1)

array([3, 3, 3], dtype=int64)

同理，<font color=DarkViolet>np.argmin函数</font> 返回的是数组中最小元素的索引值

#### np.max 和 np.min 

不管数组是几维，函数都将其视为一维数组。返回序列的最值

In [190]:
a = np.arange(6) # 一维数组

In [191]:
a

array([0, 1, 2, 3, 4, 5])

In [192]:
np.max(a) # 获取数组的最大值

5

In [193]:
np.min(a) # 获取数组的最小值

0

In [194]:
b = np.arange(12).reshape(3,4) # 二维数组

In [195]:
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [196]:
np.max(b)

11

In [197]:
np.min(b)

0

In [198]:
a = np.arange(12).reshape(2,3,2) # 三维数组

In [199]:
a

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [200]:
a.ndim

3

In [201]:
np.max(a) # 最大值

11

In [202]:
np.min(a) # 最小值

0

#### np.maximum 和 np.minimum 

np.maximum(X,Y,out=None)

X和Y逐位比较取其大者

区别函数 np.max : max函数只能给出一个数组内的最大元素值

In [203]:
np.maximum([2,4,0],[3,3,3])

array([3, 4, 3])

In [204]:
np.maximum([2,4,0],3)

array([3, 4, 3])

### **2.7 数组的切片和索引 ** 

* python 是从0开始索引，数组的索引与列表的索引类似，这意味着数据不会被复制，任何修改都会直接反映到源数组上
* 理解多维数组：以2x3x4的三维数组为例，可以形象地把它看做一个两层楼建筑，每层楼有有12个房间，并排列成3行4列

In [205]:
a = np.arange(12).reshape(3,4)

In [206]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [207]:
a[2,-1] # [行向的位置，列向的位置] 支持负数下标，可以从尾部向前计数

11

In [208]:
a[::-1] # 利用负数下标翻转数组

array([[ 8,  9, 10, 11],
       [ 4,  5,  6,  7],
       [ 0,  1,  2,  3]])

In [209]:
b = np.arange(8)

In [210]:
b

array([0, 1, 2, 3, 4, 5, 6, 7])

In [211]:
b[::-1] # 注意一维数组和多维数组使用负数翻转的不一样

array([7, 6, 5, 4, 3, 2, 1, 0])

In [212]:
a[:,1:3] # 选取的数据范围：所有行，1到3之间的所有列（不包括第3列） 

array([[ 1,  2],
       [ 5,  6],
       [ 9, 10]])

In [213]:
a[2,-1] = 100

In [214]:
a # 数据的修改直接反映到了源数组上

array([[  0,   1,   2,   3],
       [  4,   5,   6,   7],
       [  8,   9,  10, 100]])

### **2.8 数组的组合**

In [215]:
a = np.random.random((2,3))
b = np.random.random((2,3))
c = np.random.random((2,3))
print('a','\n',a)
print('b','\n',b)
print('c','\n',c)

a 
 [[ 0.95950848  0.18091684  0.62408975]
 [ 0.39190271  0.81211234  0.81946903]]
b 
 [[ 0.20168073  0.53900502  0.30653929]
 [ 0.87229214  0.79325395  0.41127261]]
c 
 [[ 0.26469651  0.08218561  0.17147007]
 [ 0.33861948  0.25524627  0.93373185]]


#### 2.81 函数vstack 

垂直组合**vstack** -- 将ndarray对象构成的元组作为参数，传给vstack函数

In [216]:
np.vstack((a,b)) # 表示垂直堆叠，也就是竖方向拼接

array([[ 0.95950848,  0.18091684,  0.62408975],
       [ 0.39190271,  0.81211234,  0.81946903],
       [ 0.20168073,  0.53900502,  0.30653929],
       [ 0.87229214,  0.79325395,  0.41127261]])

可以接收多个数组的拼接

In [217]:
np.vstack((a,b,c)) # 传入的参数需要是元组的形式

array([[ 0.95950848,  0.18091684,  0.62408975],
       [ 0.39190271,  0.81211234,  0.81946903],
       [ 0.20168073,  0.53900502,  0.30653929],
       [ 0.87229214,  0.79325395,  0.41127261],
       [ 0.26469651,  0.08218561,  0.17147007],
       [ 0.33861948,  0.25524627,  0.93373185]])

vstack要求参与运算的多维数组在垂直方向上的个数必须相同，而水平方向的个数可以不同

In [218]:
d = np.random.random((4,3))

In [219]:
np.vstack((a,d))

array([[ 0.95950848,  0.18091684,  0.62408975],
       [ 0.39190271,  0.81211234,  0.81946903],
       [ 0.44513911,  0.07399069,  0.8062227 ],
       [ 0.48067863,  0.1276133 ,  0.66987558],
       [ 0.99439439,  0.0742724 ,  0.84838202],
       [ 0.20827424,  0.68064459,  0.23964525]])

#### 2.82 函数hstack 

水平组合 **hstack** -- 将ndarray对象构成的**元组**作为参数，传给hstack函数

In [220]:
np.hstack((a,b)) # 表示水平堆叠，也就是横方向拼接

array([[ 0.95950848,  0.18091684,  0.62408975,  0.20168073,  0.53900502,
         0.30653929],
       [ 0.39190271,  0.81211234,  0.81946903,  0.87229214,  0.79325395,
         0.41127261]])

hstack要求参与运算的多维数组在水平方向上的个数必须相同，则垂直方向的个数可以不同

In [221]:
d = np.random.random((2,5))

In [222]:
d

array([[ 0.11607723,  0.06822207,  0.5349709 ,  0.60426333,  0.86202736],
       [ 0.31962459,  0.10081326,  0.19719661,  0.06497041,  0.44393886]])

In [223]:
result = np.hstack((a,d))

In [224]:
result

array([[ 0.95950848,  0.18091684,  0.62408975,  0.11607723,  0.06822207,
         0.5349709 ,  0.60426333,  0.86202736],
       [ 0.39190271,  0.81211234,  0.81946903,  0.31962459,  0.10081326,
         0.19719661,  0.06497041,  0.44393886]])

In [225]:
result.shape

(2, 8)

#### 2.83 函数concatenate

<font color=Crismon>推荐使用</font>

* 传入的参数必须是多个数组的<font color=DarkViolet>元组</font>
* 需指定拼接的方向：当axis=1的时候表示水平堆叠，当axis=0的时候表示垂直堆叠, 默认是axis=0

In [226]:
np.concatenate((a,b))

array([[ 0.95950848,  0.18091684,  0.62408975],
       [ 0.39190271,  0.81211234,  0.81946903],
       [ 0.20168073,  0.53900502,  0.30653929],
       [ 0.87229214,  0.79325395,  0.41127261]])

In [227]:
np.concatenate((a,b),axis=0)

array([[ 0.95950848,  0.18091684,  0.62408975],
       [ 0.39190271,  0.81211234,  0.81946903],
       [ 0.20168073,  0.53900502,  0.30653929],
       [ 0.87229214,  0.79325395,  0.41127261]])

In [228]:
np.concatenate((a,b),axis=1)

array([[ 0.95950848,  0.18091684,  0.62408975,  0.20168073,  0.53900502,
         0.30653929],
       [ 0.39190271,  0.81211234,  0.81946903,  0.87229214,  0.79325395,
         0.41127261]])

In [229]:
np.concatenate((a,b,c)) # 当然也可以拼接多个数组

array([[ 0.95950848,  0.18091684,  0.62408975],
       [ 0.39190271,  0.81211234,  0.81946903],
       [ 0.20168073,  0.53900502,  0.30653929],
       [ 0.87229214,  0.79325395,  0.41127261],
       [ 0.26469651,  0.08218561,  0.17147007],
       [ 0.33861948,  0.25524627,  0.93373185]])

In [230]:
np.concatenate([a,b]) # 尝试了一下列表作为传入参数也可以，但是还是统一使用元组作为传入参数

array([[ 0.95950848,  0.18091684,  0.62408975],
       [ 0.39190271,  0.81211234,  0.81946903],
       [ 0.20168073,  0.53900502,  0.30653929],
       [ 0.87229214,  0.79325395,  0.41127261]])

#### 2.84 函数dstack 

所谓深度组合，就是将一系列数组沿着纵轴（深度）方向进行层叠组合

In [231]:
result = np.dstack((a,b))

In [232]:
result

array([[[ 0.95950848,  0.20168073],
        [ 0.18091684,  0.53900502],
        [ 0.62408975,  0.30653929]],

       [[ 0.39190271,  0.87229214],
        [ 0.81211234,  0.79325395],
        [ 0.81946903,  0.41127261]]])

In [233]:
result.shape

(2, 3, 2)

#### 2.85 函数column_stack

* 对于一维数组，将按列方向进行组合
* 对于二维数组，效果与hstack一致

In [234]:
c = np.arange(3)

In [235]:
c

array([0, 1, 2])

In [236]:
d = c * 2

In [237]:
d

array([0, 2, 4])

In [238]:
np.column_stack((c,d)) #  对于一维数组，按列方向进行组合

array([[0, 0],
       [1, 2],
       [2, 4]])

In [239]:
np.column_stack((a,b)) == np.hstack((a,b)) # 对于二维数组，两者效果是一样的

array([[ True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True]], dtype=bool)

#### 2.86 函数row_stack 

* 对于两个一维数组，将直接层叠起来组合成一个二维数组
* 对于二维数组，效果与vstack一致

In [240]:
np.row_stack((c,d)) 

array([[0, 1, 2],
       [0, 2, 4]])

In [241]:
np.row_stack((a,b)) == np.vstack((a,b))

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]], dtype=bool)

### **2.9 数组的分割 **

#### 2.91函数hsplit 

把数组沿着水平方向分割

In [242]:
a = np.arange(9).reshape(3,3)

In [243]:
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [244]:
b = np.hsplit(a,3)

In [245]:
b

[array([[0],
        [3],
        [6]]), array([[1],
        [4],
        [7]]), array([[2],
        [5],
        [8]])]

In [246]:
b[0].shape

(3, 1)

#### 2.92 函数 vsplit

把数组沿着垂直方向分割

In [247]:
b = np.vsplit(a,3)

In [248]:
b

[array([[0, 1, 2]]), array([[3, 4, 5]]), array([[6, 7, 8]])]

In [249]:
b[0].shape

(1, 3)

#### 2.93 函数split 

* 当axis=1时，相当于hsplit
* 当axis=0时，相当于vsplit
* 默认值是axis = 0

In [250]:
b = np.split(a,3,axis=1)

In [251]:
b

[array([[0],
        [3],
        [6]]), array([[1],
        [4],
        [7]]), array([[2],
        [5],
        [8]])]

In [252]:
b[0].shape

(3, 1)

In [253]:
b = np.split(a,3,axis=0)

In [254]:
b

[array([[0, 1, 2]]), array([[3, 4, 5]]), array([[6, 7, 8]])]

In [255]:
b[0].shape

(1, 3)

### **2.10 数组的转换 **

<font color=DarkViolet> tolist函数 </font> 可以将Numpy 数组转换成 Python 列表

In [256]:
a = np.arange(4)

In [257]:
a

array([0, 1, 2, 3])

In [258]:
a.tolist()

[0, 1, 2, 3]

<font color=DarkViolet> astype函数 </font> 可以在转换数组时指定数据类型

In [259]:
a = np.arange(4)

In [260]:
a.dtype

dtype('int32')

In [261]:
b = a.astype(np.float)

In [262]:
b

array([ 0.,  1.,  2.,  3.])

In [263]:
b.dtype

dtype('float64')

## **3. 读写文件 **

### 3.1 读文件 

#### 3.11 读入CSV文件 

<font color=DarkViolet>np.loadtxt( )</font> 用于从文本加载数据

loadtxt(fname,dtype=<'class float'>,commments='#',delimiter=None,converters=None,skiprows=0,usecols=None,unpack=False,ndim=0)

<font color=DarkCyan>fname</font> 要读取的文件、文件名或生成器
<font color=DarkCyan>dtype</font> 数据类型，默认float
<font color=DarkCyan>comments</font> 注释
<font color=DarkCyan>delimiter</font> 分隔符，默认是空格
<font color=DarkCyan>converters</font> 显式地告诉Numpy怎样来转换日期
<font color=DarkCyan>skiprows</font> 跳过前几行读取，默认是0，必须是int整型
<font color=DarkCyan>usecols</font> 要读取哪些列，0是第一列。默认读取所有列,usecols=(1,4,5)将提取第2、5、6列
<font color=DarkCyan>unpack</font> 如果为True，将分列读取