# **Numpy-快速处理数据**

## 1. **概念**
* **Numpy**是高性能科学计算和数据分析的基础包。

2. 线性代数一个最明显的优势就是用矩阵乘法代替循环，可以极大地提高运算速度。

3. 最重要的一个特点是其N维数组对象（即**ndarray**），它是一个通用的同构数据多维容器，其中的**所有元素必须是相同类型的**，可以利用这种数组对整块数据执行一些数学运算。 

* **导入Numpy函数库**

In [243]:
import numpy as np

## 2. **数组基本操作**

### 2.1 创建数组

#### 2.11 直接创建

使用  <font color=DarkViolet>**array**函数</font>，接受的数据类型是<font color=DarkCyan>**list**</font>或者<font color=DarkCyan>**tuple**</font>

In [244]:
data1 = [6,7,8,9] #list

In [245]:
arr1 = np.array(data1)

In [246]:
arr1

array([6, 7, 8, 9])

In [247]:
data2 = (1,2,3,4) #tuple

In [248]:
arr2 = np.array(data2)

In [249]:
arr2

array([1, 2, 3, 4])

#### 2.12 快速创建 

In [250]:
a = np.arange(15).reshape(3,5) 
#reshape()方法可用来改变数组形状
#np.arange()的方式与python的range()类似，不同的是np.arange()支持小数的步长，而使用python的range时则会出错

In [251]:
a = np.arange(1,30,5)

In [252]:
a = np.arange(0,1,0.2)

In [253]:
a = np.linspace(0,np.e*10,5)

In [254]:
a = np.random.random((3,2))

In [255]:
a = np.zeros((3,4)) #对应维度的全零矩阵

In [256]:
a = np.ones((2,3,4),dtype = np.int64) #创建全1矩阵

In [257]:
a = np.empty((4,5))

### **2.2 查询数组的状态 **

In [258]:
a = np.arange(15).reshape(3,5)

In [259]:
a.ndim # 返回数组的秩

2

In [260]:
a.shape # 返回数组的形状

(3, 5)

In [261]:
a.dtype.name # 返回数组中数据的类型

'int32'

In [262]:
a.itemsize # 对象中每个元素的大小，以字节为单位

4

In [263]:
a.size # 数组中总共有多少个元素

15

### **2.3 改变数组的形状 **

In [264]:
a = np.random.random((3,4))

In [265]:
a

array([[ 0.30497526,  0.92454843,  0.64035955,  0.39202769],
       [ 0.10407261,  0.73285373,  0.04840713,  0.98314788],
       [ 0.96423286,  0.62950192,  0.05770514,  0.2244536 ]])

In [266]:
a.shape # 获得数组的形状

(3, 4)

#### 2.31 函数reshape 

In [267]:
a.reshape(2,6) # 可以改变数组形状，但不会改变原数组

array([[ 0.30497526,  0.92454843,  0.64035955,  0.39202769,  0.10407261,
         0.73285373],
       [ 0.04840713,  0.98314788,  0.96423286,  0.62950192,  0.05770514,
         0.2244536 ]])

In [268]:
a

array([[ 0.30497526,  0.92454843,  0.64035955,  0.39202769],
       [ 0.10407261,  0.73285373,  0.04840713,  0.98314788],
       [ 0.96423286,  0.62950192,  0.05770514,  0.2244536 ]])

#### 2.32 函数resize 

In [269]:
a.resize(2,6) # 可以改变数组形状，同时改变原数组

In [270]:
a

array([[ 0.30497526,  0.92454843,  0.64035955,  0.39202769,  0.10407261,
         0.73285373],
       [ 0.04840713,  0.98314788,  0.96423286,  0.62950192,  0.05770514,
         0.2244536 ]])

In [271]:
a.shape

(2, 6)

#### 2.33 用元组设置维度 

In [272]:
a.shape = (4,3) # 可直接用正整数元组来设置数组的维度，注意，这样会使得原数组发生改变

In [273]:
a

array([[ 0.30497526,  0.92454843,  0.64035955],
       [ 0.39202769,  0.10407261,  0.73285373],
       [ 0.04840713,  0.98314788,  0.96423286],
       [ 0.62950192,  0.05770514,  0.2244536 ]])

#### 2.34 数组的展平

<font color=DarkViolet>**函数ravel**</font>--返回数组的一个视图

In [274]:
a = np.arange(12).reshape(2,6)

In [275]:
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [276]:
a.ravel() 

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

<font color=DarkViolet>** 函数flatten** </font>--分配内存储存

In [277]:
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [278]:
a.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

#### 2.35 数组的转置 

In [279]:
a = np.arange(12).reshape(6,2)

In [280]:
a

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [281]:
a.T # 转置

array([[ 0,  2,  4,  6,  8, 10],
       [ 1,  3,  5,  7,  9, 11]])

In [282]:
a.transpose() # 也可以写成这种形式

array([[ 0,  2,  4,  6,  8, 10],
       [ 1,  3,  5,  7,  9, 11]])

### **2.4 数组的复制 **

#### 2.41 完全不拷贝 

In [283]:
a = np.arange(12)
b = a
# 不会创建新的对象，即a和b是同一个ndarray对象的两个名字
# 也就是说如果对b改变形状或者改变数据，a也会发生相应的变化

In [284]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [285]:
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [286]:
b.resize(2,6)

In [287]:
b

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [288]:
a #原数组a由于b的形状的改变而改变

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [289]:
b[0][1] = 100

In [290]:
b

array([[  0, 100,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [291]:
a #原数组a由于数组b的数据大小的改变而改变

array([[  0, 100,   2,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

#### 2.42 浅拷贝 

In [292]:
a = np.arange(12)
c = a.view()
# a的形状不会随着c的改变而发生改变，但是a的数据会随着c的改变而改变
# 换句话说，view()方法会创建一个共享数据的新的数组对象
# 如果数组A是数组B的视图，则称为B为A的base，视图数组中的数据实际上保存在base数组中

In [293]:
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [294]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [295]:
c[2] = 100

In [296]:
c

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [297]:
a #数组a的大小随着c的改变而改变

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [298]:
c.resize(2,6)

In [299]:
c

array([[  0,   1, 100,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [300]:
a #a数组的形状并没有随着c形状的改变而改变

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

#### 2.43 深拷贝 

In [301]:
a = np.arange(12)
d = a.copy()
# 创建了新的数组和新的数据
# 换句话说，改变数组d不会影响到原数组a

In [302]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [303]:
d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [304]:
d[2] = 100

In [305]:
d

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [306]:
a #a的大小并没有随着d的改变而改变

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [307]:
d.resize(2,6)

In [308]:
d

array([[  0,   1, 100,   3,   4,   5],
       [  6,   7,   8,   9,  10,  11]])

In [309]:
a #a的形状并没有随着d的改变而改变

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### **2.5 数组的基本运算**

<font color=Crimson>**Numpy**</font>  数组运算的基本原则就是“按元素运算”

#### 2.51 加减法

In [310]:
a = np.array([10,20,30,40])

In [311]:
b = np.arange(4)

In [312]:
a

array([10, 20, 30, 40])

In [313]:
b

array([0, 1, 2, 3])

In [314]:
a - 4 # a中的所有元素都减去4

array([ 6, 16, 26, 36])

In [315]:
a - b # a中每个元素减去b中对应位置的元素

array([10, 19, 28, 37])

#### 2.52 乘法

In [316]:
a * b

array([  0,  20,  60, 120])

In [317]:
a.dot(b.T) #矩阵的点乘

200

### **2.6 常用函数 **

无论原始的数组是几维的，sum()、min()、max()函数都是将其当做一维的数组进行处理的

In [318]:
a = np.random.random((3,2))

In [319]:
a

array([[ 0.11492417,  0.93596138],
       [ 0.10903072,  0.48371038],
       [ 0.33308808,  0.7203557 ]])

In [320]:
a.sum()

2.6970704261992418

In [321]:
a.min()

0.10903071669532594

In [322]:
a.max()

0.93596138426641651

#### sum

计算数组元素之和

In [323]:
a.sum() #直接求和

2.6970704261992418

In [324]:
a.sum(axis=0) # 按照列的方向求和

array([ 0.55704296,  2.14002746])

In [325]:
a.sum(axis=1) # 按照行的方向求和

array([ 1.05088555,  0.5927411 ,  1.05344378])

#### np.compress 

np.compress(condition,a,axis=None,out=None)

<font color=DarkCyan>condition</font> 筛选的条件,一维数组的时候可用比较符，二维及以上数组的时候需要用一维布尔数组
<font color=DarkCyan>        a</font> 目标数组
<font color=DarkCyan>axis</font> 选择截取哪个轴，默认是截取展开的数组

返回一个根据给定条件筛选后的数组

In [539]:
a = np.arange(4)

In [540]:
a

array([0, 1, 2, 3])

In [541]:
np.compress(a>1,a) # 截取了符合条件的数组元素，一维数组推荐采用这种筛选方法

array([2, 3])

In [527]:
a = np.arange(12).reshape(3,4)

In [528]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [537]:
np.compress([True,False,False],a,axis=1)

array([[0],
       [4],
       [8]])

#### np.mean 

直接计算平均数

In [551]:
np.mean(np.arange(4)) # 对一维数组求平均

1.5

In [553]:
a = np.arange(6).reshape(2,3) # 对于多维数组

In [544]:
a

array([[0, 1, 2],
       [3, 4, 5]])

In [549]:
np.mean(a,axis=0) # 对列方向的元素求平均

array([ 1.5,  2.5,  3.5])

In [548]:
np.mean(a,axis=1) # 对行方向的数组元素求平均

array([ 1.,  4.])

In [555]:
np.mean(a) # 不指定axis的时候，默认是按照展平的数组求平均

2.5

#### np.average 

计算加权平均数，如果不提供权重参数，其等效于np.mean

In [572]:
a = np.arange(4)

In [573]:
a

array([0, 1, 2, 3])

In [574]:
np.average(a)

1.5

In [575]:
np.average(a) == np.mean(a) # 此时不指定权重

True

In [576]:
a = np.arange(4)

In [577]:
a

array([0, 1, 2, 3])

In [579]:
np.average(a,weights=[2,4,6,8]) #指定权重

2.0

In [580]:
a = np.arange(6).reshape(2,3)

In [581]:
a

array([[0, 1, 2],
       [3, 4, 5]])

In [583]:
np.average(a,axis=0,weights=[1./3,2./3]) # 指定axis=0求加权平均，即列方向

array([ 2.,  3.,  4.])

In [585]:
np.average(a,axis=1,weights=[2./5,1./5,2./5]) # 指定axis=1求加权平均，即行方向

array([ 1.,  4.])

#### np.sqrt 

计算数组元素的的平方根

In [326]:
a = np.arange(12).reshape(2,6)

In [327]:
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [328]:
b = np.sqrt(a)

In [329]:
b

array([[ 0.        ,  1.        ,  1.41421356,  1.73205081,  2.        ,
         2.23606798],
       [ 2.44948974,  2.64575131,  2.82842712,  3.        ,  3.16227766,
         3.31662479]])

#### np.fill 

该函数用一个指定的标量值填充数组

In [505]:
a = np.ones((2,2))

In [506]:
a

array([[ 1.,  1.],
       [ 1.,  1.]])

In [507]:
a.fill(2)

In [508]:
a

array([[ 2.,  2.],
       [ 2.,  2.]])

#### np.ceil

对数组元素向上取整

In [330]:
a = np.random.randn(3,2)

In [331]:
a

array([[-0.06599307,  0.55780225],
       [-0.44473144,  0.92669806],
       [ 0.6687048 ,  0.8480965 ]])

In [332]:
np.ceil(a)

array([[-0.,  1.],
       [-0.,  1.],
       [ 1.,  1.]])

####  np.modf

将数组各元素的小数和整数部分以两个独立数组形式返回

In [333]:
a = np.random.randn(4)

In [334]:
a

array([ 0.57180767,  1.09431752,  0.89365347, -1.75247774])

In [335]:
b = np.modf(a)

In [336]:
b #分成了两个数组

(array([ 0.57180767,  0.09431752,  0.89365347, -0.75247774]),
 array([ 0.,  1.,  0., -1.]))

In [337]:
b[0] #分离得到小数部分

array([ 0.57180767,  0.09431752,  0.89365347, -0.75247774])

#### np.where

按条件返回数组的索引值

In [445]:
a = np.arange(12).reshape(3,4)

In [446]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [447]:
b = np.where(a > 7) 

In [448]:
b # 满足条件的索引值

(array([2, 2, 2, 2], dtype=int64), array([0, 1, 2, 3], dtype=int64))

In [458]:
type(b)

tuple

In [459]:
a[b] # 按照索引得到的数组元素

array([ 8,  9, 10, 11])

In [509]:
a = np.arange(12)

In [510]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [512]:
b = np.where(a>7)

In [513]:
b

(array([ 8,  9, 10, 11], dtype=int64),)

In [514]:
type(b)

tuple

#### np.take

从固定轴向的数组中取出指定元素

In [343]:
a = np.arange(12)

In [344]:
c = np.take(a,np.where(a>7)) # np.take 和 np.where 的综合使用

In [345]:
c

array([[ 8,  9, 10, 11]])

In [346]:
b = np.arange(12).reshape(3,4)

In [347]:
np.take(b,np.where(b>7)) # 不是一维数组的时候

array([[2, 2, 2, 2],
       [0, 1, 2, 3]])

In [348]:
c = np.ravel(b) # 是一维数组的时候

In [349]:
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [350]:
np.take(c,np.where(c>7))[0] # 貌似一维化后才可以按索引取值

array([ 8,  9, 10, 11])

#### ravel 和 flatten 

**两者所要实现的功能是一致的，即将数组展平成一维数组,默认是行序优先**

<font color=DarkViolet>**ravel( ) 函数**</font>

In [351]:
a = np.arange(12).reshape(3,4)

In [352]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [353]:
b = np.ravel(a) # np.ravel( ) 返回的是视图，对视图的修改是会影响到原数组的

In [354]:
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [355]:
c = a.ravel() # 也可以写成这种形式

In [356]:
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [357]:
a # 原数组还未发生变化

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [358]:
b[2] = 100

In [359]:
b # 修改视图的元素 

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [360]:
a # 原数组发生了变化

array([[  0,   1, 100,   3],
       [  4,   5,   6,   7],
       [  8,   9,  10,  11]])

<font color=DarkViolet>flatten( ) 函数</font>

In [361]:
a = np.arange(12).reshape(4,3)

In [362]:
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [363]:
b = a.flatten() # 写成np.flatten()的形式会报错

In [364]:
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [365]:
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [366]:
b[2] = 100

In [367]:
b # 改变拷贝的数据

array([  0,   1, 100,   3,   4,   5,   6,   7,   8,   9,  10,  11])

In [368]:
a # 原数组不受影响

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

#### np.median 

函数返回的结果是中位数

In [369]:
a = np.arange(6)

In [370]:
a

array([0, 1, 2, 3, 4, 5])

In [371]:
np.median(a)

2.5

#### np.argmax 和 np.argmin 

np.argmax(array_like,axis=None,out=None)

返回沿轴axis最大值的索引

<font color=DarkCyan>array_like</font> 数组
<font color=DarkCyan>axis</font> 默认情况下，索引的是平铺的数组，否则沿指定的轴
<font color=DarkCyan>out</font> 如果提供，结果以合适的形状和类型被插入到此数组中
<font color=HotPink>Returns:</font>
<font color=DarkCyan>index_array</font> 索引数组，它具有与array_like.shape相同的形状

In [372]:
a = np.arange(6,12)

In [373]:
a

array([ 6,  7,  8,  9, 10, 11])

In [374]:
np.argmax(a) # 获得最大值的索引

5

In [375]:
a[np.argmax(a)] # 通过索引得到对应的最大值

11

In [376]:
np.take(a,np.argmax(a)) # 结合np.take来获取最大值

11

<font color=Crimson face="黑体">注意</font>

In [377]:
a[2]=11

In [378]:
a

array([ 6,  7, 11,  9, 10, 11])

In [379]:
np.argmax(a)

2

In [380]:
a[np.argmax(a)] # np.argmax只返回第一次出现的最大值的索引

11

In [381]:
a = np.arange(2,14).reshape(3,4)

In [382]:
a

array([[ 2,  3,  4,  5],
       [ 6,  7,  8,  9],
       [10, 11, 12, 13]])

In [383]:
np.argmax(a) # 默认情况下，索引的是平铺的数组

11

In [384]:
np.argmax(a,axis=0)

array([2, 2, 2, 2], dtype=int64)

In [385]:
np.argmax(a,axis=1)

array([3, 3, 3], dtype=int64)

同理，<font color=DarkViolet>np.argmin函数</font> 返回的是数组中最小元素的索引值

#### np.max 和 np.min 

不管数组是几维，函数都将其视为一维数组。返回序列的最值

In [486]:
a = np.arange(6) # 一维数组

In [477]:
a

array([0, 1, 2, 3, 4, 5])

In [484]:
np.max(a) # 获取数组的最大值

5

In [485]:
np.min(a) # 获取数组的最小值

0

In [487]:
b = np.arange(12).reshape(3,4) # 二维数组

In [488]:
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [482]:
np.max(b)

11

In [483]:
np.min(b)

0

In [495]:
a = np.arange(12).reshape(2,3,2) # 三维数组

In [490]:
a

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [493]:
a.ndim

3

In [497]:
np.max(a) # 最大值

11

In [498]:
np.min(a) # 最小值

0

#### np.maximum 和 np.minimum 

np.maximum(X,Y,out=None)

X和Y逐位比较取其大者

区别函数 np.max : max函数只能给出一个数组内的最大元素值

In [499]:
np.maximum([2,4,0],[3,3,3])

array([3, 4, 3])

In [501]:
np.maximum([2,4,0],3)

array([3, 4, 3])

### **2.7 数组的切片和索引 ** 

* python 是从0开始索引，数组的索引与列表的索引类似，这意味着数据不会被复制，任何修改都会直接反映到源数组上
* 理解多维数组：以2x3x4的三维数组为例，可以形象地把它看做一个两层楼建筑，每层楼有有12个房间，并排列成3行4列

In [386]:
a = np.arange(12).reshape(3,4)

In [387]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [388]:
a[2,-1] # [行向的位置，列向的位置] 支持负数下标，可以从尾部向前计数

11

In [389]:
a[::-1] # 利用负数下标翻转数组

array([[ 8,  9, 10, 11],
       [ 4,  5,  6,  7],
       [ 0,  1,  2,  3]])

In [390]:
b = np.arange(8)

In [391]:
b

array([0, 1, 2, 3, 4, 5, 6, 7])

In [392]:
b[::-1] # 注意一维数组和多维数组使用负数翻转的不一样

array([7, 6, 5, 4, 3, 2, 1, 0])

In [393]:
a[:,1:3] # 选取的数据范围：所有行，1到3之间的所有列（不包括第3列） 

array([[ 1,  2],
       [ 5,  6],
       [ 9, 10]])

In [394]:
a[2,-1] = 100

In [395]:
a # 数据的修改直接反映到了源数组上

array([[  0,   1,   2,   3],
       [  4,   5,   6,   7],
       [  8,   9,  10, 100]])

### **2.8 数组的组合**

In [396]:
a = np.random.random((2,3))
b = np.random.random((2,3))
c = np.random.random((2,3))
print('a','\n',a)
print('b','\n',b)
print('c','\n',c)

a 
 [[ 0.50751393  0.75266197  0.42800633]
 [ 0.84164964  0.91785589  0.84376861]]
b 
 [[ 0.34465832  0.69381068  0.08861547]
 [ 0.28554164  0.54835521  0.67658827]]
c 
 [[ 0.7087943   0.10435018  0.21000739]
 [ 0.17931428  0.70344226  0.09608954]]


#### 2.81 函数vstack 

垂直组合**vstack** -- 将ndarray对象构成的元组作为参数，传给vstack函数

In [397]:
np.vstack((a,b)) # 表示垂直堆叠，也就是竖方向拼接

array([[ 0.50751393,  0.75266197,  0.42800633],
       [ 0.84164964,  0.91785589,  0.84376861],
       [ 0.34465832,  0.69381068,  0.08861547],
       [ 0.28554164,  0.54835521,  0.67658827]])

可以接收多个数组的拼接

In [398]:
np.vstack((a,b,c)) # 传入的参数需要是元组的形式

array([[ 0.50751393,  0.75266197,  0.42800633],
       [ 0.84164964,  0.91785589,  0.84376861],
       [ 0.34465832,  0.69381068,  0.08861547],
       [ 0.28554164,  0.54835521,  0.67658827],
       [ 0.7087943 ,  0.10435018,  0.21000739],
       [ 0.17931428,  0.70344226,  0.09608954]])

vstack要求参与运算的多维数组在垂直方向上的个数必须相同，而水平方向的个数可以不同

In [399]:
d = np.random.random((4,3))

In [400]:
np.vstack((a,d))

array([[ 0.50751393,  0.75266197,  0.42800633],
       [ 0.84164964,  0.91785589,  0.84376861],
       [ 0.45689935,  0.74792177,  0.57769057],
       [ 0.64641578,  0.76806115,  0.03391552],
       [ 0.47758157,  0.91925796,  0.67993212],
       [ 0.2607512 ,  0.09934547,  0.44288807]])

#### 2.82 函数hstack 

水平组合 **hstack** -- 将ndarray对象构成的**元组**作为参数，传给hstack函数

In [401]:
np.hstack((a,b)) # 表示水平堆叠，也就是横方向拼接

array([[ 0.50751393,  0.75266197,  0.42800633,  0.34465832,  0.69381068,
         0.08861547],
       [ 0.84164964,  0.91785589,  0.84376861,  0.28554164,  0.54835521,
         0.67658827]])

hstack要求参与运算的多维数组在水平方向上的个数必须相同，则垂直方向的个数可以不同

In [402]:
d = np.random.random((2,5))

In [403]:
d

array([[ 0.08281171,  0.83376543,  0.61693723,  0.2721351 ,  0.8545533 ],
       [ 0.0140376 ,  0.36619169,  0.45771921,  0.52273655,  0.76782833]])

In [404]:
result = np.hstack((a,d))

In [405]:
result

array([[ 0.50751393,  0.75266197,  0.42800633,  0.08281171,  0.83376543,
         0.61693723,  0.2721351 ,  0.8545533 ],
       [ 0.84164964,  0.91785589,  0.84376861,  0.0140376 ,  0.36619169,
         0.45771921,  0.52273655,  0.76782833]])

In [406]:
result.shape

(2, 8)

#### 2.83 函数concatenate

<font color=Crismon>推荐使用</font>

* 传入的参数必须是多个数组的<font color=DarkViolet>元组</font>
* 需指定拼接的方向：当axis=1的时候表示水平堆叠，当axis=0的时候表示垂直堆叠, 默认是axis=0

In [407]:
np.concatenate((a,b))

array([[ 0.50751393,  0.75266197,  0.42800633],
       [ 0.84164964,  0.91785589,  0.84376861],
       [ 0.34465832,  0.69381068,  0.08861547],
       [ 0.28554164,  0.54835521,  0.67658827]])

In [408]:
np.concatenate((a,b),axis=0)

array([[ 0.50751393,  0.75266197,  0.42800633],
       [ 0.84164964,  0.91785589,  0.84376861],
       [ 0.34465832,  0.69381068,  0.08861547],
       [ 0.28554164,  0.54835521,  0.67658827]])

In [409]:
np.concatenate((a,b),axis=1)

array([[ 0.50751393,  0.75266197,  0.42800633,  0.34465832,  0.69381068,
         0.08861547],
       [ 0.84164964,  0.91785589,  0.84376861,  0.28554164,  0.54835521,
         0.67658827]])

In [410]:
np.concatenate((a,b,c)) # 当然也可以拼接多个数组

array([[ 0.50751393,  0.75266197,  0.42800633],
       [ 0.84164964,  0.91785589,  0.84376861],
       [ 0.34465832,  0.69381068,  0.08861547],
       [ 0.28554164,  0.54835521,  0.67658827],
       [ 0.7087943 ,  0.10435018,  0.21000739],
       [ 0.17931428,  0.70344226,  0.09608954]])

In [411]:
np.concatenate([a,b]) # 尝试了一下列表作为传入参数也可以，但是还是统一使用元组作为传入参数

array([[ 0.50751393,  0.75266197,  0.42800633],
       [ 0.84164964,  0.91785589,  0.84376861],
       [ 0.34465832,  0.69381068,  0.08861547],
       [ 0.28554164,  0.54835521,  0.67658827]])

#### 2.84 函数dstack 

所谓深度组合，就是将一系列数组沿着纵轴（深度）方向进行层叠组合

In [412]:
result = np.dstack((a,b))

In [413]:
result

array([[[ 0.50751393,  0.34465832],
        [ 0.75266197,  0.69381068],
        [ 0.42800633,  0.08861547]],

       [[ 0.84164964,  0.28554164],
        [ 0.91785589,  0.54835521],
        [ 0.84376861,  0.67658827]]])

In [414]:
result.shape

(2, 3, 2)

#### 2.85 函数column_stack

* 对于一维数组，将按列方向进行组合
* 对于二维数组，效果与hstack一致

In [415]:
c = np.arange(3)

In [416]:
c

array([0, 1, 2])

In [417]:
d = c * 2

In [418]:
d

array([0, 2, 4])

In [419]:
np.column_stack((c,d)) #  对于一维数组，按列方向进行组合

array([[0, 0],
       [1, 2],
       [2, 4]])

In [420]:
np.column_stack((a,b)) == np.hstack((a,b)) # 对于二维数组，两者效果是一样的

array([[ True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True]], dtype=bool)

#### 2.86 函数row_stack 

* 对于两个一维数组，将直接层叠起来组合成一个二维数组
* 对于二维数组，效果与vstack一致

In [421]:
np.row_stack((c,d)) 

array([[0, 1, 2],
       [0, 2, 4]])

In [422]:
np.row_stack((a,b)) == np.vstack((a,b))

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]], dtype=bool)

### **2.9 数组的分割 **

#### 2.91函数hsplit 

把数组沿着水平方向分割

In [465]:
a = np.arange(9).reshape(3,3)

In [466]:
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [467]:
b = np.hsplit(a,3)

In [468]:
b

[array([[0],
        [3],
        [6]]), array([[1],
        [4],
        [7]]), array([[2],
        [5],
        [8]])]

In [469]:
b[0].shape

(3, 1)

#### 2.92 函数 vsplit

把数组沿着垂直方向分割

In [470]:
b = np.vsplit(a,3)

In [471]:
b

[array([[0, 1, 2]]), array([[3, 4, 5]]), array([[6, 7, 8]])]

In [472]:
b[0].shape

(1, 3)

#### 2.93 函数split 

* 当axis=1时，相当于hsplit
* 当axis=0时，相当于vsplit
* 默认值是axis = 0

In [473]:
b = np.split(a,3,axis=1)

In [474]:
b

[array([[0],
        [3],
        [6]]), array([[1],
        [4],
        [7]]), array([[2],
        [5],
        [8]])]

In [433]:
b[0].shape

(3, 1)

In [434]:
b = np.split(a,3,axis=0)

In [435]:
b

[array([[0, 1, 2]]), array([[3, 4, 5]]), array([[6, 7, 8]])]

In [436]:
b[0].shape

(1, 3)

### **2.10 数组的转换 **

<font color=DarkViolet> tolist函数 </font> 可以将Numpy 数组转换成 Python 列表

In [437]:
a = np.arange(4)

In [438]:
a

array([0, 1, 2, 3])

In [439]:
a.tolist()

[0, 1, 2, 3]

<font color=DarkViolet> astype函数 </font> 可以在转换数组时指定数据类型

In [440]:
a = np.arange(4)

In [441]:
a.dtype

dtype('int32')

In [442]:
b = a.astype(np.float)

In [443]:
b

array([ 0.,  1.,  2.,  3.])

In [444]:
b.dtype

dtype('float64')

## **3. 读写文件 **

### 3.1 读文件 

#### 3.11 读入CSV文件 

<font color=DarkViolet>np.loadtxt( )</font> 用于从文本加载数据

loadtxt(fname,dtype=<'class float'>,commments='#',delimiter=None,converters=None,skiprows=0,usecols=None,unpack=False,ndim=0)

<font color=DarkCyan>fname</font> 要读取的文件、文件名或生成器
<font color=DarkCyan>dtype</font> 数据类型，默认float
<font color=DarkCyan>comments</font> 注释
<font color=DarkCyan>delimiter</font> 分隔符，默认是空格
<font color=DarkCyan>converters</font> 显式地告诉Numpy怎样来转换日期
<font color=DarkCyan>skiprows</font> 跳过前几行读取，默认是0，必须是int整型
<font color=DarkCyan>usecols</font> 要读取哪些列，0是第一列。默认读取所有列,usecols=(1,4,5)将提取第2、5、6列
<font color=DarkCyan>unpack</font> 如果为True，将分列读取