## <font size=3>Numpy.array的基本操作</font>

In [9]:
import numpy as np

In [10]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### <font size=3>reshape</font>

* <font size=2>将一维数组转化为二维数组</font>
* <font size=2>数组元素个数要相等才能转化</font>

In [11]:
X = np.arange(15).reshape(3, 5)
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

### 基本属性

In [12]:
# 维度 Dimension
x.ndim

1

In [16]:
X.ndim

2

shape返回一个元组

ps: (10,) 这个表达是这个 元组 里只有一个元素, 说明它是一个一维数组, 第一个维度里有十个元素

In [17]:
x.shape

(10,)

In [18]:
X.shape

(3, 5)

In [19]:
# 元素个数
x.size

10

In [20]:
X.size

15

### numpy.array的数据访问

In [21]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [22]:
# 使用下标访问
x[0]

0

In [24]:
x[-1]

9

In [29]:
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [30]:
X[0][0]  # numpy不建议这么写, 会有问题

0

In [32]:
X[(2, 2)]  # 元组括号可以写

12

In [34]:
X[2, 2]  # 建议用法

12

In [36]:
# 切片: 前闭后开
x[0:5]

array([0, 1, 2, 3, 4])

In [37]:
x[:5]

array([0, 1, 2, 3, 4])

In [38]:
x[5:]

array([5, 6, 7, 8, 9])

In [39]:
# 从头访问到尾, 步长=2
x[::2]

array([0, 2, 4, 6, 8])

In [40]:
x[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [45]:
# 访问前两行, 前三列
X[:2, :3]

array([[0, 1, 2],
       [5, 6, 7]])

In [47]:
# 但是用这个就不行了
X[:2][:3]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [48]:
# 取X的前2行
X[:2]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [49]:
# 取X[:2]的前3行
X[:2][:3]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [52]:
# 前2行, 从头到尾间隔为2的列
X[:2, ::2]

array([[0, 2, 4],
       [5, 7, 9]])

In [54]:
# 相当于将矩阵进行了反转
X[::-1, ::-1]

array([[14, 13, 12, 11, 10],
       [ 9,  8,  7,  6,  5],
       [ 4,  3,  2,  1,  0]])

In [55]:
# 取第一行
X[0]

array([0, 1, 2, 3, 4])

In [57]:
# =取第一行, 列数从头到尾
X[0, :]

array([0, 1, 2, 3, 4])

In [58]:
X[0, :].ndim

1

In [60]:
# 只看第1列
X[:, 0]

array([ 0,  5, 10])

In [61]:
X[:, 0].ndim

1

In [63]:
# subX是X的一个子矩阵
subX = X[:2, :3]
subX

array([[0, 1, 2],
       [5, 6, 7]])

In [65]:
subX[0, 0] = 100
subX

array([[100,   1,   2],
       [  5,   6,   7]])

In [66]:
# 在Python中, 如果使用切片的话是创建了一个新矩阵, 和原来是没有关系的
# 但是在Numpy中, [0, 0]也变成了100, 因为Numpy非常注重效率, 采取了引用的方式非常快速获得子矩阵
# 子矩阵和元矩阵都是对应一个矩阵
X

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [68]:
# 创建新的子矩阵
subX = X[:2, :3].copy()
subX

array([[100,   1,   2],
       [  5,   6,   7]])

In [69]:
subX[0, 0] = 10
subX

array([[10,  1,  2],
       [ 5,  6,  7]])

In [70]:
# 现在引用的是不同的空间了
X

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

### <font size=3>Reshape</font>


In [71]:
# 改变维度
x.shape

(10,)

In [72]:
x.ndim

1

In [73]:
x.reshape(2, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [75]:
'''
和切片不同, reshape方法是没有改变x自身的
x依然是一个一维数组, 一维向量
'''
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [76]:
'''
二维矩阵
'''
A = x.reshape(2, 5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [77]:
'''
一维向量和二维矩阵是不一样的, 但是我们可以把一维向量转化为二维但只有一行的矩阵
'''
B = x.reshape(1, 10)
B

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [80]:
B.ndim

2

In [81]:
B.shape

(1, 10)

In [79]:
x.shape

(10,)

In [82]:
'''
有时候我们喜欢计算机只能的帮我们进行操作, 就可以用 -1 代替

reshape(10, -1): 10行, 每行有几个元素我不管
'''
x.reshape(10, -1)

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [83]:
'''
这次我不管有多少行, 但是每行要有10个元素(10列)
'''
x.reshape(-1, 10)

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [84]:
x.reshape(2, -1)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [85]:
x.reshape(3, -1)

ValueError: cannot reshape array of size 10 into shape (3,newaxis)

## <font size=3>合并操作</font>
### <font size=3>np.concatenate</font>
* np.concatenate(): 默认是沿着axis=0的方向进行拼接

<font size=3>沿着最外围维度往里, 从0到 维度-1</font>

In [86]:
'''
x, y都是一维向量
'''
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])

In [87]:
x

array([1, 2, 3])

In [88]:
y

array([3, 2, 1])

In [89]:
'''
我们想获得一个一行六列的一维向量
'''
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [92]:
z = np.array([666,666,666])

In [93]:
# concatenate对于合并向量并不局限
np.concatenate([x, y, z])

array([  1,   2,   3,   3,   2,   1, 666, 666, 666])

In [100]:
A = np.array([[1,2,3],
             [4,5,6]])

In [102]:
'''
和原来的2个样本一样的 3个相同特征
'''
np.concatenate([A, A])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [104]:
'''
和原来的2个样本不同的 3个特征
变成->两个样本, 6个特征
'''
np.concatenate([A, A], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [106]:
'''
concatenate只能处理维度一样的情况
此时A是二维矩阵, z是一维向量
'''
np.concatenate([A, z])

ValueError: all the input arrays must have same number of dimensions

In [107]:
'''
操作一下
z -> 二维, 一行, 列数由计算机决定
此时concat产生的是一个新的矩阵
'''
np.concatenate([A, z.reshape(1, -1)])

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

In [108]:
A

array([[1, 2, 3],
       [4, 5, 6]])

In [118]:
'''
所以必须赋值给一个新的变量
'''
A2 = np.concatenate([A, z.reshape(1, -1)])
A2

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

### <font size=3>np.vstack: 垂直堆叠</font>

In [113]:
'''
那我们还要手动给z.reshape? 麻不麻烦?

为此np.vstack就是在垂直方向上拼接向量

v: vertical 垂直的

容错性更好, 即使维度不同

一个是二维数组, 一个是一维数组, 依然可以完成很好的拼接
'''

np.vstack([A, z])

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

In [119]:
B = np.full((2, 2), 100)
B

array([[100, 100],
       [100, 100]])

### <font size=3>np.hstack: 水平堆叠</font>

In [117]:
np.hstack([A, B])

array([[  1,   2,   3, 100, 100],
       [  4,   5,   6, 100, 100]])

In [120]:
'''
传入非法的数组就不能支持了
A: 2*3 矩阵
z: 1*3 向量

显然我们可以再竖直方向上将矩阵堆叠
但是在水平方向上显然就不行了
'''
np.hstack([A, z])

ValueError: all the input arrays must have same number of dimensions

 ## <font size=3>分割操作</font>

In [121]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### <font size=3>np.split(要分割的数组对象, [分割点1, 分割点2, ...])</font>
* <font size=3>分割点: 1个, 切一刀, 分成两段</font>

In [122]:
np.split(x, [3, 7])

[array([0, 1, 2]), array([3, 4, 5, 6]), array([7, 8, 9])]

In [123]:
x1, x2, x3 = np.split(x, [3, 7])
display(x1, x2, x3)

array([0, 1, 2])

array([3, 4, 5, 6])

array([7, 8, 9])

In [124]:
x1, x2 = np.split(x, [5])
display(x1, x2)

array([0, 1, 2, 3, 4])

array([5, 6, 7, 8, 9])

In [125]:
A = np.arange(16).reshape((4, 4))
A

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [127]:
'''
当我们在二维进行分割的时候, 永远会有基于哪个维度进行分割的问题
默认axis=0: 基于行分割

'''
A1, A2 = np.split(A, [2])
display(A1, A2)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [129]:
 A1, A2 = np.split(A, [2], axis=1)
display(A1, A2)

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

### <font size=3>np.vsplit</font>
* 顾名思义: 垂直方向

In [132]:
'''
对A在垂直方向, 以2作为分割点

垂直方向切分就是 横着切

'''
upper, lower = np.vsplit(A, [2])
display(upper, lower)

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

### <font size=3>np.hsplit</font>
* 顾名思义: 水平方向切分, 竖着切

In [133]:
left, right = np.hsplit(A, [2])
display(left, right)

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

### <font size=3>分离data的样本与target</font>

In [137]:
'''
这是一个样本, 
一般前3列是三个不同的特征,
最后一列是target, 可以是label标签, 也可以是一组连续的数值 
'''
data = np.arange(16).reshape((4, 4))
data

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [138]:
X, y = np.hsplit(data, [-1])
display(X, y)

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

array([[ 3],
       [ 7],
       [11],
       [15]])

In [139]:
'''
有时候我们希望获得的是一个y的向量
 
所有行, 第0列

'''
y[:, 0]

array([ 3,  7, 11, 15])

In [141]:
'''
在真实数据预处理中, 我们会把数据分割开, 处理后再合并
'''

'\n在真实数据预处理中, 我们会把数据分割开, 处理后再合并\n'