## python numpy基础 数组和矢量计算
### 在python 中有时候我们用数组操作数据可以极大的提升数据的处理效率，
### 类似于R的向量化操作，是的数据的操作趋于简单化，在python 中是使用numpy模块可以进行数组和矢量计算。

In [79]:
import numpy as np
data=np.array([2,5,6,8,3]) #构造一个简单的数组
print(data)

[2 5 6 8 3]


In [80]:
data1=np.array([[2,5,6,8,3],np.arange(5)])  #构建一个二维数组
print(data1)

[[2 5 6 8 3]
 [0 1 2 3 4]]


### 我们也可以通过shape和dtype方法查看数组的维度和数据格式

In [81]:
print(data.shape)
print(data.dtype)
print(data1.shape)
print(data1.dtype)

(5,)
int32
(2, 5)
int32


#### 结果：
#### (5,)
#### int32
#### (2, 5)
#### int32

#### 可以看出data是一维数组，每组元素为5个，数据类型为32位int 类型
#### data1 为二维数组，每个组有5个元素，数据类型为32位int类型
#### 有一个较好的区分方法是看打印结果中，中括号的层数和位置，就可以看出数组的维度，一层中括号代表一个维度。


#### 其他的数组属性方法还有：
#### array.ndim 数组的维数，一维数组结果为1，二维数组打印结果为2
#### array.size 数组的元素个数
#### array.itemsiz 数组每个元素的字节大小

## numpy的数组维度问题

#### 由于之前写c++的时候大多用的是小于3维的数组，所以看到python中numpy的高维array（数组），层层叠叠的[]感觉把眼都看花了。 现在让我们睁大眼睛，仔细看看到底是怎么回事。
#### 举例说明：

In [82]:
x1 = np.array([[1,2,3],[4,5,6]])
x1.shape

(2, 3)

In [83]:
x2 = np.array([[[0],[1],[2]]])
x2.shape

(1, 3, 1)

#### 中括号虽然看的人眼花，但仔细分析很快就会看明白了。拿第一个例子来说，我们把数字忽略，把中括号和逗号提取出来，得到：

#### [   [ ，，，] ,  [ ，，，]   ]

#### 这样的结构，这下就明了了，第一个中括号里面有用逗号分开的两个并列的中括号，说明第一个维度有两个元素，所以是2，而更深层次的中括号里面没有了中括号，而是三个逗号，说明是三个并列的元素，所以是3.所以输出(2,3)，同理可知，x2为（1,3,1）

## numpy库数组属性查看：类型、尺寸、形状、维度

In [84]:
import numpy as np  
  
a1 = np.array([1,2,3,4],dtype=np.complex128)  
print(a1)  
print("数据类型",type(a1))           #打印数组数据类型  
print("数组元素数据类型：",a1.dtype) #打印数组元素数据类型  
print("数组元素总数：",a1.size)      #打印数组尺寸，即数组元素总数  
print("数组形状：",a1.shape)         #打印数组形状  
print("数组的维度数目",a1.ndim)      #打印数组的维度数目  

[1.+0.j 2.+0.j 3.+0.j 4.+0.j]
数据类型 <class 'numpy.ndarray'>
数组元素数据类型： complex128
数组元素总数： 4
数组形状： (4,)
数组的维度数目 1


## 机器学习储备（7）：numpy一维数组和矩阵

#### 1 矩阵相加

In [85]:
A = np.array( [1,2,3] )
np.shape(A)

(3,)

In [86]:
B= np.array([ [10],[11]] )
np.shape(B)

(2, 1)

In [87]:
A+B

array([[11, 12, 13],
       [12, 13, 14]])

In [88]:
#按照我们之前学习的线性代数中，矩阵的相加首先得满足A和B是同型矩阵才行，都是m行n列。所以在numpy操作以上两个数组时，显然不是线性代数意义上
#的同型矩阵，但是仍然可以相加，这是为什么呢。
#原来numpy自动做了一些处理，将A自动补全为B的行数，将B自动补全为A的列数。因此，将 A数组转化为：

#array([[1, 2, 3],

#       [1, 2, 3] ])

#将B转化为：

#array([[10, 10, 10],

#       [11, 11, 11]])
#然后这样就是线性代数中的同型矩阵了，然后按照理解相加即可。

#### 2 矩阵转置和shape

In [89]:
#大部分情况都和线性代数中的理论相同，比如
A = np.array([[11, 12, 13],

       [12, 13, 14]])
np.shape(A)

(2, 3)

In [90]:
np.shape(A.T)

(3, 2)

In [91]:
#到现在，和我们传统意义上的理解没有什么区别。但是有一种情况，会很特殊，如果数组只有一行，例如：
B = np.array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])#看一下几行几列：
np.shape(B)

(10,)

In [92]:
#此处就是与线代不一样的地方，此处，numpy中shape显示的是10，至于为什么显示的是10，因为它是一维的数组，线代中的矩阵都是二维的。
#然后，再做转置，如下:
np.shape(B.T)

(10,)

In [93]:
#仍然是：(10,)
#在B长这个样子下，转置后的样子与原来的样子一样。
#观察发现，B和B.T 它们都带一对方括号的，所以shape只显示一个数，对于这种仅含一对方括号的数组而言，都没有几行几列这个说法，因为是一维的。
#如果要想做出像线代中的那种1行10列的矩阵，我们在numpy中应该怎么写呢？numpy中的写法如下所示：
B2 = np.array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]])
np.shape(B2)
#此时B2的 shape 结果显示：(1,10)
#由此引出了numpy中的一个重要概念，维数 dimension

(1, 10)

#### 3 numpy中的dimension

In [94]:
#我们分别测试下上节中的B和B2的维数有什么不同，需要调用numpy中的ndim接口看数组的位数。
B = np.array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])
np.ndim(B)

1

In [95]:
B2 = np.array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]])
np.ndim(B2)

2

In [96]:
#再体验一个维数为3的数组：
test = [[[1,2,3]],[[4,8,12]]]
np.ndim(test)

3

#### 4 总结

In [97]:
#总结以上所述，numpy中的一维数组和线代中的矩阵是很不相同的，这样导致了它们的运算也就很不一样；但是numpy中的二维数组就等同于线代中的矩阵了，
#所以按照线代的理解去对它们做运算，就都符合我们的逻辑习惯了。

## numpy 数组维度，形状，大小

In [98]:
array = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

print(array)
print('number of dim:',array.ndim)
print('shape:', array.shape)
print('size:', array.size)

[[1 2 3]
 [4 5 6]]
number of dim: 2
shape: (2, 3)
size: 6


## numpy创建矩阵常用方法

#### arange+reshape

In [99]:
n = np.arange(0, 30, 2)# start at 0 count up by 2, stop before 30
n = n.reshape(3, 5) # reshape array to be 3x5

In [100]:
n

array([[ 0,  2,  4,  6,  8],
       [10, 12, 14, 16, 18],
       [20, 22, 24, 26, 28]])

In [101]:
n.shape

(3, 5)

#### linspace+resize

In [102]:
o = np.linspace(0, 4, 9)
o.resize(3, 3)

In [103]:
o

array([[0. , 0.5, 1. ],
       [1.5, 2. , 2.5],
       [3. , 3.5, 4. ]])

In [104]:
o.shape

(3, 3)

#### ones zeros eye diag random.randint等创建矩阵

In [105]:
np.ones((3, 2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [106]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [107]:
np.eye(3)#3维单位矩阵

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [108]:
y = np.array([4, 5, 6])
np.diag(y)#以y为主对角线创建矩阵

array([[4, 0, 0],
       [0, 5, 0],
       [0, 0, 6]])

In [109]:
np.random.randint(0, 10, (4,3))

array([[6, 0, 9],
       [7, 6, 1],
       [1, 8, 0],
       [8, 9, 2]])

#### 矩阵拼接

In [110]:
p = np.ones([2, 3], int)
np.hstack([p, 2*p])#水平拼接

array([[1, 1, 1, 2, 2, 2],
       [1, 1, 1, 2, 2, 2]])

In [111]:
np.vstack([p, 2*p])#竖直拼接

array([[1, 1, 1],
       [1, 1, 1],
       [2, 2, 2],
       [2, 2, 2]])

## 如何在NumPy中创建空数组/矩阵？

In [112]:
a = np.zeros(shape=(5,2))
a

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [113]:
a[0] = [1,2]
a[1] = [2,3]
a

array([[1., 2.],
       [2., 3.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

#### NumPy数组与列表是一个非常不同的数据结构，它被设计用于不同的方式。 你对 hstack的使用可能非常低效。 每次调用它时，现有数组中的所有数据都将复制到新数组中。 (append 函数会有同样的问题。) 如果你想一次构建一个矩阵，最好把它放在一个列表中，直到它完成，然后将它转换成数组。

In [114]:
data=[1,2,3,4,5,6]

In [115]:
mylist = []
for item in data:
    mylist.append(item)
mat = np.array(mylist)
mat

array([1, 2, 3, 4, 5, 6])

## numpy 辨异（一） —— reshape 与 resize

#### 0. reshape的参数

#### reshape的参数严格地说，应该是tuple类型（tuple of ints）

In [116]:
x = np.random.rand(2, 3)
x

array([[0.81047965, 0.17401092, 0.21649942],
       [0.10475215, 0.81361463, 0.87736012]])

In [117]:
x.reshape((3, 2))

array([[0.81047965, 0.17401092],
       [0.21649942, 0.10475215],
       [0.81361463, 0.87736012]])

#### 1. .reshape 实现维度的提升

#### (3, ) ≠ (3, 1)：前者表示一维数组（无行和列的概念），后者则表示一个特殊的二维数组，也即是一个列向量；

In [118]:
x = np.ones(3)
x

array([1., 1., 1.])

In [119]:
x.reshape(3, 1)

array([[1.],
       [1.],
       [1.]])

In [120]:
x.reshape(1, 3)

array([[1., 1., 1.]])

#### 2. .reshape 与 .resize

#### reshape：有返回值，所谓有返回值，即不对原始多维数组进行修改；
#### resize：无返回值，所谓有返回值，即会对原始多维数组进行修改；

In [121]:
X = np.random.randn(2, 3)
X

array([[-0.34649122,  1.2008957 , -1.13394643],
       [ 0.67545729,  0.76052644,  0.35782317]])

In [122]:
X.reshape((3, 2))

array([[-0.34649122,  1.2008957 ],
       [-1.13394643,  0.67545729],
       [ 0.76052644,  0.35782317]])

In [123]:
X

array([[-0.34649122,  1.2008957 , -1.13394643],
       [ 0.67545729,  0.76052644,  0.35782317]])

In [124]:
X.resize((3, 2))
X

array([[-0.34649122,  1.2008957 ],
       [-1.13394643,  0.67545729],
       [ 0.76052644,  0.35782317]])

## numpy里面列表和矩阵的相互转化

In [125]:
a=range(10)

In [126]:
print(list(a))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [127]:
b=np.array(a)#把列表a转化为矩阵。
print(b)

[0 1 2 3 4 5 6 7 8 9]


In [128]:
type(b)

numpy.ndarray

In [129]:
c=list(b)#用list反过来把矩阵转化为列表。
print(c)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [130]:
type(c)

list

In [131]:
#如果b是矩阵，那么b*10表示对b里面的每一个元素乘以10。而c是列表，c*10表示把c里面的元素复制10次。
print(b*10)
print(c*10)

[ 0 10 20 30 40 50 60 70 80 90]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [132]:
#b**3表示对b里面的每一个元素计算3次方。而c**3则没有意义，因为c是列表，不能进行幂运算。

In [133]:
#把c复制10次，再转化为矩阵：
np.array(c*10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1,
       2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3,
       4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5,
       6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7,
       8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [134]:
#把c*10转化为10*10的矩阵：
np.reshape(np.array(c*10),(10,10))

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])