# Numpy
Numerical Python简介，是一个高性能科学计算和数据分析的基础包。
* ndarray,一个具有适量算数运算和复杂广播能力并且节省空间的**多维数组**
* 线性代数，随机数生成以及福利也变换功能
>numpy是一个大的类，包含数据和运算，所有的数据格式全都是numpy.ndarray数组格式，其他的都算是计算方法
如果把数组使用mat转换成矩阵格式，则是numpy.matrixlib.defmatrix.matrix类格式

In [1]:
import numpy as np

## ndarray:一种多维数组对象
ndarray是一个通用的同构数据多维容器，所有元素都必须是相同的类型，每个数组有一个shape（一个表示各个维度大小的元祖）和一个dtype(一个用欲说名数据类型的对象)：
>ndarray是支持下标索引操作滴,而且支持很骚的下标索引方式

In [2]:
data=np.empty((64,64,64),dtype='float32')

In [3]:
data.shape
data.shape[0]#shape返回的是元祖类型，可以使用下标来访问

64

## 数组拼接
在制作样本集的时候往往需要先对数据进行预处理，例如分割成小图，然后再组成一个大的样本集，这就需要用到数组的拼接<br/>
***
* 新建一个list[]
* 将处理好的ndarray对象append到list
* 使用np.asarray()将list转换为numpy数组

In [26]:
dataset=[]
data1=np.arange(6).reshape(2,3)
data2=np.arange(6,12).reshape(2,3)
dataset.append(data1)
dataset.append(data2)
dataset=np.asarray(dataset)
print (dataset)

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]


## 尺寸变化
对一个ndarray对象使用reshape强制改变其形状
>reshape不会改变里面的数据值，不会增多，也不会减少，这就要求在数量不能发生变化变化前后m×n=p×q×r
a.append(b,axis=)默认在最外层维度上进行操作;a,b的shape要一致

In [21]:
con=[]
a=np.arange(12).reshape(3,4,1)
b=np.arange(12,24).reshape(3,4,1)
a.reshape(3,4)
temp=np.asarray(con)
print ('temp:',temp)
print (type(temp))
print ('con:',con)
a=a.reshape(3,4,1)
c=np.concatenate((a,b))
c

temp: []
<class 'numpy.ndarray'>
con: []


array([[[ 0],
        [ 1],
        [ 2],
        [ 3]],

       [[ 4],
        [ 5],
        [ 6],
        [ 7]],

       [[ 8],
        [ 9],
        [10],
        [11]],

       [[12],
        [13],
        [14],
        [15]],

       [[16],
        [17],
        [18],
        [19]],

       [[20],
        [21],
        [22],
        [23]]])

>**Tip:在进行制作训练集的时候可能裁剪图片到统一的小尺寸，需要crop图片，这时候可能会用到np.mod()取余计算出每条边的整数值**

In [5]:
a=np.array([[1,2,3,4,5],[5,8,7,5,4],[1,2,34,5,3]])
h,w=a.shape
h=h-np.mod(h,2)
w=w-np.mod(w,2)
a=a[:h,:w]
print (a)

[[1 2 3 4]
 [5 8 7 5]]


In [6]:
b=np.arange(27).reshape((3,3,3))
b[:2,:2]

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 9, 10, 11],
        [12, 13, 14]]])

### flatten
将矩阵展平成一维矢量

In [28]:
temp=np.arange(12).reshape((3,4))
temp.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## 数据类型转换
`numpy.ndarray.astype`在一个ndarray类型后面.astype(类型)
将类型转换成指定类型，注意默认转换为一个副本copy

In [7]:
a=np.arange(10)
a.reshape(1,10)
b=np.arange(10,20).reshape(1,10)
con=[]
con.append(a)
con.append(b)
c=np.asarray(con,dtype='float32')#通过dtype制定类型，注意要有“
c

ValueError: setting an array element with a sequence.

In [None]:
import glob
import os
import scipy.ndimage as snd
import scipy.misc as sm
import matplotlib.pyplot as plt
%matplotlib inline
image_path=os.path.join(os.getcwd(),'inp.png')
image_paths=glob.glob(image_path)
image=sm.imread(image_paths[0],mode='YCbCr').astype(np.float)#astype改变ndarray的数据格式
image=snd.interpolation.zoom(image,3)
print (image.shape)
plt.imshow(image[1],cmap='gray')
con=[]
a=image[:,:20,:20]
con=con.append(a)


In [None]:

a=[[1,2,3],[4,5,6]]
b=[[3,4,5],[4,6,7]]
con=[]
con+=a
con+=b
con

In [None]:
data=[]


In [None]:
data

### 数据类型
int8,int16,float16,float32
>浮点型数据最后使用小数点进行标记

In [None]:
np.array([1.,2.,3.])#数字之后加小数点表示为浮点数据类型

In [None]:
np.asarray([1,2,3,4,5])

In [None]:
data.dtype

In [None]:
data1=[[1,2,3,4,5],[6,7,8,9,0]]
arr1=np.array(data1)
arr1

>值得注意的是，以二维矩阵(m*n)为例，进行下标索引arra1[]第一层索引指的是第几个一维序列，也就是对应于数组的行m，二维索引对应的是矩阵的列，也就是对应的维度n。
除非显示说明，array将会为新建的这个数组分配一个合适的数据类型，数据类型保存在一个特殊的dtype对象中

### 数组创建函数
***
**函数**                      **说明**
array              将输入的列表、元组、数组等其他序列类形转换为ndarray
arange            类似内置的range，但返回的是ndarray，里面元素的值是range序列
reshape             将arange的数组形状改为需要的形状，参数要是元组形式
empty               创建新数组，只分配内存空间但不填充任何值
eye                     创建一个正方形的N×N单位矩阵
ones                  根据指定形状创建一个全1数组

>注意：矩阵和数组的关系
numpy中存在两种数据类型，一种是矩阵matrix，一种是数组array，两者没有什么本质性的差别
matrix对应与线性代数中的二维矩阵，一旦array被转换为数组，那么，如果使用矩阵运算的操作（例如×）都可以直接使用，相当于矩阵有一些对应的运算符重载，就不需要再调用dot()这些函数了
* 可以使用mat()函数讲述组转换为矩阵

In [None]:
a1=np.arange(5).reshape((1,5))
a2=np.arange(5).reshape((5,1))
np.mat(a1)
np.mat(a2)
a2.dot(a1)

In [None]:
arry=np.ones((2,5,2,2),dtype='float32')#指定形状要使用元组，后面的参数可变
arry#4维张量
arry=np.arange(125).reshape((5,5,5))#reshape成需要的形状
arry

## numpy基础功能


### numpy.nonzero()
**返回不为0元素的下标indecies**
nonzero()返回数组a中不为0的元素下标，他的返回值是一个长度为a.ndim(数组a的轴数)的元组，元祖的每个元素都是一个数组，其值对应不为0的下标在相应轴上对应的位置<br/>
**例如:**

In [None]:
b1=np.array([[0,4,0,1],[1,0,1,0]])
index=np.nonzero(b1)#[0,1],[0,3],[1,0],[1,2]这四个元素不为0,返回的第一个元组对应第一个轴，第二个元祖对应第二个轴
index
#不直接返回整体坐标形式(m1,n1),其实这样方便进行索引访问

In [None]:
b1[([0,1,0],[0,2,1])]

## 基本的索引和切片（index and slice）
选取数据子集或单个元素的方式很重要<br/>
numpy索引与其他索引一样，都是从0开始的
### 基本索引
**重要：**一维数组a1=[1,2,3],索引轴a1[axis=0]<br/>
二维数组a2=[[1,2,3],[4,5,6]],索引轴a2[axis=0][axis=1]<br/>
三维数组（张量）a3=[[[1,2],[1,2]],[[3,4],[4,5]]],索引轴a3[axis=0][axis=1][axis=2]<br/>
不同维度的数组之间还是差别挺大的，通常需要转化为统一维度进行处理

>numpy的 [] 支持迭代效果,对!=和==进行了重载，但是list不支持如此效果，list的(arr[:]!=0)只能返回整个list是否为空

In [None]:
dataset=np.mat(np.arange(4))#注意，arange(start,end)不包含end节点这个数据！！！
print (dataset[:]!=0)

In [None]:
index=np.nonzero(dataset[:]!=0)

In [None]:
arr=np.arange(10)
print (arr[0])#基本的索引
arr[5]
arr[5:8]

In [None]:
arr[5:8]=12#将一个标量赋值给一个切片是，该值会自动广播
arr#数组切片相当于是原数组的一个映射，对切片的更改会直接更改原始数组

> Attention!与列表最重要的区别在于：数组切片是原始数组的视图，这意味着数据不会被赋值，任何修改都会直接反映到原始数组<br/>


In [None]:
arr_slice=arr[5:8]
arr_slice[1]=12345
arr#会发现切片后的修改都会对原始数据进行更改

对于高维数组，各所因为至上的元素不再是标量而是相应的数组

In [None]:
arr2d=np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d[0]#索引位置一维数组

In [None]:
arr2d[0][1]#访问坐标是（0，1）的元素，同样的道理，如果arr是三维张量，则使用一次索引得到的就是二维数组

### 切片索引
类似python列表的切片方法<br/>
切片类似切蛋糕，切了哪几部分，就会返回哪几部分作为数组
>注意：类似arange(start,end)，[start:end]包含start但是不包含end，共有end-start个数据，这点很重要，在进行数据处理的时候要小心!
>>

In [None]:
arr[:]#显示全部内容，arr[:]单个维度上这么写没啥子意义，等同于arr

In [None]:
arr[:4]#前面四个元素


In [None]:
arr[:]!=0#注意，numpy对!=进行了重载，使他可以对在整个迭代器每个元素进行判断操作，但是python的list没有这个功能（它只能判断真个迭代器是否为空）

二维索引时有两种方法
* arr2d[i,j,k] 
* arr2d[i][j][k]
二维切片方法
arr3d[:i,:j,:k] 在每个维度切片方法与一维类似
看下面的输出熟悉一下切片的方法
>注意：[i,j,k]这种元组索引方法是ndarray独有的形式，list不能使用如此索引！！！

In [None]:
arr2d[:,:]#二维索引
arr2d[:]

In [None]:
arr2d[([0,1],[0,1])]#索引支持元组方式,元组的每一个位置都是一个列表格式([m1,m2..],[n1,n2...])
#相当于取出(m1,n1)(m2,n2)(m3,n3)....这些点

In [None]:
arr2d[:,:2]#n×m，行取全部，列取前两列

In [None]:
arr2d[:2,1:]

In [None]:
arr2d[1:2,:2]

## 神奇的-1
-1有最后，或者**自动**的意思,因为有的时候并不确定长度，用-1表示最后的位置,在reshape中(m,-1)，-1指自动分配剩余的尺寸长度

In [1]:
a=np.arange(10)
a[-1]

NameError: name 'np' is not defined

## axis
numpy是针对矩阵或者多维数组进行运算的，再多维数组中，如果分析在不同行列中元素进行比较时，指定某个方向是很重要的，axis便是一个很好的指定方法<br/>
对于m×n的数组<br/>
axis=0，是指第一个维度上进行变化，x[i][:],i=0,1,2...m未指定表明所有的列都是按这个规则进行排序

In [None]:
data=np.random.randint(0,9,(4,4,4))
data

In [None]:
data.sort(axis=1)#x[:][i][:]在每一个二维数组中，按照每一列进行排序
data

In [None]:
data.sort(axis=2)#x[:][:][i]对于最后一个维度，也就是指每一个样本的[...]内部元素进行排序
data

### newaxis
新加一个空的轴方向,类似axis的使用方法，newaxis在哪个维度上，相当于哪个维度是变化轴向,比如说array[newaxis,:]相当于将m×n,m是发生变化的轴向

In [None]:
arr=np.arange(10)#是一个一维的行向量
print (arr[:,np.newaxis])#增加一个列维度,注意，不进行赋值操作原来的数组没有发生改变
arr.shape#将矩阵升维到10行，列元素保持为空,也就意味着原来10个元素的每一个都自成一行
print (arr)

### numpy合并
1. 使用np.concatenate((以元组的形式进行合并),axis=在哪个轴向上进行合并)

In [None]:
A=np.array([1,1,1])[:,np.newaxis]
B=np.array([2,2,2])[:,np.newaxis]
C=np.vstack((A,B))
print (A.shape,C.shape)
a=np.arange(10)
np.concatenate((A,B),axis=1)#在列n方向上进行合并


In [None]:
A=np.array([1,1,1])[np.newaxis,:]#加了一个括号[]，成了二维数组了
A

In [None]:
D=np.array([1,1,1])[np.newaxis,:]
E=np.array([2,2,2])[np.newaxis,:]
print (D.shape,E.shape)
np.concatenate((D,E))#默认在行m方向上

### 数组转制和轴变换
对于二维数组，可以简单的使用.T来进行转制

In [None]:
arr2d.T
arr2d.shape[0]

对于高维数组，需要用到一个由轴编号组成的元祖才能对这些轴进行转置


In [None]:
arr3d=np.arange(27).reshape((3,3,3))
arr3d

In [None]:
arr3d.transpose((1,0,2))


## 利用数组进行数据处理


In [None]:
points=np.arange(-5,5,0.01)
xs,ys=np.meshgrid(points,points)


In [None]:
import matplotlib.pyplot as plt
z=np.sqrt(xs**2+ys**2)
%matplotlib inline
z
plt.imshow(z,cmap=plt.cm.gray)#将矩阵放到imshow中就可以将矩阵绘制成图片
plt.colorbar()



### 条件逻辑表述为数组运算
使用numpy.where(条件，A数组，B数组)

In [None]:
xarr=np.array([1.1,1.2,1.3,1.4,1.5])
yarr=np.array([2.1,2.2,2.3,2.4,2.5])
cond=np.array([True,False,True,True,False])
result=[(x if c else y) for x,y,c in zip(xarr,yarr,cond)]#for in 迭代输出格式
result

In [None]:
result=np.where(cond,xarr,yarr)
result #实现了同样的效果

## 数学运算
### 基础数学运算
`numpy.reciprocal()`对逐个元素求倒数，对0发出溢出警告<br/>
`numpy.power(iterable,幂次)`求幂运算<br/>
`numpy.mod()`对每个元素除法取余
`np.sum(iterable)`求和，里面同样是一个序列

### 统计方法
mean求平均值，sum求和，std求标准差，这些既可以当作数组的实例方法使用，也可以当作顶级numpy使用
***
<br/>
**方法**                   **说明**<br/>
sum                      对数组中全部或某轴向的元素求和，axis设置轴向<br/>
mean                     算数平均数<br/>
std、var                 标准差，方差<br/>
min、max                 最大值，最小值<br/>
argmin、argmax           最小，大值的索引<br/>
sort                     排序<br/>
cumsum                   所有元素的累计和<br/>
cumprod                  所有元素的累计积<br/>
maxinum                  对比两个数组，取每个位置最大的元素，返回数组<br/>


In [None]:
arr=np.arange(9).reshape(3,3)
arr.cumsum(0)

In [None]:
arr=np.random.randn(5,4)
arr.mean()
np.mean(arr)#这两种形式都可以使用

In [None]:
np.maximum([1,6,3,9],[2,3,4,5])#取每个位置上最大的那个元素

In [None]:
a=np.array([1,2,3,4])[np.newaxis,:]
b=np.array([3,4,5,6])[np.newaxis,:]
con=[]
c=con.append(a)
c=np.asarray(c)
c

## 线性代数
**from numpy.linalg import inv,qr**<br/>
***
T                              矩阵转置(针对一二维矩阵)<br/>
transpose                      张量转置<br/>
dot                            矩阵乘法<br/>
diag                           以一维数组的形式返回方阵的对角线<br/>
trace                          计算对角线元素的和<br/>
det                            计算矩阵的行列式(针对方阵)<br/>
eig                            计算方针的特征值和特征向量<br/>
inv                            计算矩阵的逆<br/>
qr                             计算QR分解<br/>
svd                            计算奇异值分解SVD<br/>
istsq                          计算Ax=b的最小二乘解<br/>

In [None]:
import numpy.random as nr
from numpy.linalg import inv,qr
x=nr.randn(5,5)
mat=x.T.dot(x)
inv(mat)

## 统计分布随机数生成
**import numpy.random as nr**
***
**函数**                       **说明**<br/>
seed                           确定随机数种子<br/>
shuffle                        对一个序列随机排序<br/>
rand                           产生均匀分布的样本<br/>
randn                          产生 标准 正态分布<br/>
randint                        产生整数随机数的公式
normal                         产生自定义参数的正态分布<br/>
>注意，rand是生成一组随机数，要想随机产生一个随机数需要使用的是int(np.random.uniform(n1,n2))

In [None]:
r1=np.random.randint(0,9,(2,2))#前两个参数0-9是范围;后面的元组包含的形状
r1

In [None]:
np.random.normal(0,4,(3,3))#参数定义：(均值mean;方差var;矩阵形状(m×n))