# 第9章 数据分析与可视化
## 9.1 Numpy
* NumPy是Python的一种开源的数值计算扩展。
    * 可以用来存储和处理大型矩阵，比Python自身的嵌套列表（Nested List Structure）结构要高效的多。
    * Numpy（Numeric Python）提供了许多高级的数值编程工具。
    * Numpy的一个重要特性是它的数组计算，是我们做数据分析必不可少的一个包。
* 使用NumPy前要先导入NumPy包，当然Anaconda全家桶已经安排好了，不需要自己用conda或者pip安装，导入的方法如下：

```python
import numpy
import numpy as np   #推荐使用这种方式
from numpy import *
```

### 9.1.1 Numpy的数组对象及其索引

* 列表数据类型不适合数学操作

**假如我们想将列表中的每个元素增加1，但列表不支持这样的操作**


In [1]:
a = [1, 2, 3, 4]
print(a + 1)

TypeError: can only concatenate list (not "int") to list

正确的写法如下

In [2]:
a = [1, 2, 3, 4]
for i in range(len(a)):
    a[i] = a[i] + 1
print(a)

[2, 3, 4, 5]


还可以使用列表生成式

In [5]:
a = [1, 2, 3, 4]
x = [i + 1 for i in a]
print(x)

[2, 3, 4, 5]


**假如现在有两个长度相同的列表a和b，我想让两个列表对应元素相加。**

In [13]:
a = [1, 2, 3, 4]
b = [2, 3, 4, 5]
print(a + b)

[1, 2, 3, 4, 2, 3, 4, 5]


然而这并不是我们想要的结果，这里实现的是对两个列表进行拼接，而不是对应元素的相加，正确写法如下。

In [10]:
a = [1, 2, 3, 4]
b = [2, 3, 4, 5]
c = []
for i in range(len(a)):
    c.append(a[i] + b[i])
print(c)

[3, 5, 7, 9]


还可以使用列表生成式

In [12]:
a = [1, 2, 3, 4]
b = [2, 3, 4, 5]
c = [x + y for (x, y) in zip(a, b)]
print(c)

[3, 5, 7, 9]


**通过上面的例子我们发现，Python自带的列表在一些涉及到数学操作的时候，会比较麻烦，而且如果数据量特别大的话会非常耗时。**

* 如果我们使用Numpy，就会变得特别简单。

In [18]:
import numpy as np
a = np.array([1, 2, 3, 4])
print(a)
print(a + 1)
print(a * 2)
b = np.array([2, 3, 4, 5])
print(a + b)

[1 2 3 4]
[2 3 4 5]
[2 4 6 8]
[3 5 7 9]


* 使用Numpy产生数组

**从列表产生数组**

In [23]:
import numpy as np
l = [0, 1, 2, 3]
a = np.array(l)
print(a)

[0 1 2 3]


**从列表传入**

In [25]:
import numpy as np
a = np.array([1, 2, 3, 4])
print(a)

[1 2 3 4]


**生成全0数组**

In [26]:
import numpy as np
a = np.zeros(5)
print(a)

[0. 0. 0. 0. 0.]


**生成全1的数组**

In [28]:
import numpy as np
a = np.ones(5)
print(a)

[1. 1. 1. 1. 1.]


可以使用`dtype`参数指定填入的类型

In [30]:
import numpy as np
a = np.ones(5, dtype="int")
print(a)

[1 1 1 1 1]


In [31]:
import numpy as np
a = np.ones(5, dtype="bool")
print(a)

[ True  True  True  True  True]


**可以使用fill方法将数组设为指定值**

In [32]:
import numpy as np
a = np.array([1, 2, 3, 4])
print(a)
a.fill(5)
print(a)

[1 2 3 4]
[5 5 5 5]


**注意**：与列表不同，数组中要求所有元素的dtype是一样的，如果传入参数的类型与数组类型不一样，需要按照已有的类型进行转换。

假设现在我们要填充的数是2.5，那么a中的2.5会自动取整。

In [33]:
import numpy as np
a = np.array([1, 2, 3, 4])
a.fill(2.5)
print(a)

[2 2 2 2]


如果需要将a中填充的元素都是2.5，那么需要先进行数据格式的转换。

In [34]:
import numpy as np
a = np.array([1, 2, 3, 4])
a = a.astype("float") # 对a中存储的数据类型更改为float型
a.fill(2.5)
print(a)

[2.5 2.5 2.5 2.5]


* 可以使用一些特定的方法生成特殊的数组

**生成整数序列**

In [39]:
import numpy as np
# arange函数的第一个参数是起点，第二参数是终点（不包含），第三个参数是步长
a = np.arange(1, 10)
print(a)

a = np.arange(1, 10, 2)
print(a)

[1 2 3 4 5 6 7 8 9]
[1 3 5 7 9]


**生成等差数列**

In [42]:
import numpy as np
# arange函数的第一个参数是起点，第二参数是终点（包含），第三个参数是等差数列共有多少个数
a = np.linspace(1, 10, 21)
print(a)

[ 1.    1.45  1.9   2.35  2.8   3.25  3.7   4.15  4.6   5.05  5.5   5.95
  6.4   6.85  7.3   7.75  8.2   8.65  9.1   9.55 10.  ]


**生成随机数**

生成普通的随机数

In [43]:
import numpy as np
# np.random.rand函数中的参数表示随机数的个数
a = np.random.rand(10)
print(a)

[0.58729145 0.23478578 0.09268566 0.30722072 0.57801    0.62655126
 0.51953054 0.82981402 0.68959863 0.42103112]


生成满足正态分布的随机数

In [44]:
import numpy as np
# np.random.randn函数中的参数表示随机数的个数
a = np.random.randn(10)
print(a)

[ 1.19541021  0.58253944 -0.74518648  0.18946375  0.36845583  0.79899316
  1.94554582 -0.28499364  1.13889267  0.02071941]


生成随机整数

In [46]:
import numpy as np
# np.random.randint函数中的第一个参数表示起点，第二个参数表示终点，第三个参数表示随机整数的个数
a = np.random.randint(1, 10, 10)
print(a)

[3 2 1 9 7 6 6 1 5 1]


* 数组属性

查看类型

In [52]:
import numpy as np
a = np.linspace(1, 10, 21)
print(type(a))

<class 'numpy.ndarray'>


查看数组中元素的数据类型

In [53]:
import numpy as np
a = np.linspace(1, 10, 21)
print(a.dtype)

float64


查看形状，会返回一个元组，每个元素代表这一维的元素数目。

In [54]:
import numpy as np
a = np.linspace(1, 10, 21)
print(a.shape)

(21,)


查看数组里面元素的数目

In [55]:
import numpy as np
a = np.linspace(1, 10, 21)
print(a.size)

21


查看数组的维度

In [57]:
import numpy as np
a = np.linspace(1, 10, 21)
print(a.ndim)

1


* 索引与切片

和列表相似，数组也支持索引和切片操作。

索引第一个元素

In [60]:
import numpy as np
a = np.array([0, 1, 2, 3])
print(a[0])

0


修改第一个元素的值

In [61]:
import numpy as np
a = np.array([0, 1, 2, 3])
a[0] = 10
print(a)

[10  1  2  3]


切片，支持负索引

In [65]:
import numpy as np
a = np.array([11, 12, 13, 14, 15])
print(a[1:3]) # 注意这里区间是[1,3)，左闭右开
print(a[1:-2])

[12 13]
[12 13]


省略参数

In [67]:
import numpy as np
a = np.array([11, 12, 13, 14, 15])
print(a[-2:])
print(a[::2])

[14 15]
[11 13 15]


假设我们要记录一部电影的累计票房，那么如何计算每天的票房。

In [70]:
import numpy as np
ob = np.array([21000, 21800, 22240, 23450, 25000])
print(ob)

# 21800, 22240, 23450, 25000
# 21000, 21800, 22240, 23450
# 我们的目标就是上面的数组减去下面的数据
ob2 = ob[1:] - ob[:-1]
print(ob2)

[21000 21800 22240 23450 25000]
[ 800  440 1210 1550]


* 多维数组及其属性

array还可以用来生成多维数组

In [71]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a)

[[ 0  1  2  3]
 [10 11 12 13]]


**注意**：事实上我们传入的是一个以列表为元素的列表，最终得到一个二位数组。

查看形状

In [73]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a.shape)

(2, 4)


查看总的元素个数

In [74]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a.size)

8


查看维数

In [75]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a.ndim)

2


* 多维数组索引

对于二维数组，可以传入两个数字来索引。

In [77]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a[1, 3])

13


**其中，1是行索引，3是列索引，中间用逗号隔开，事实上，Python会将他们看成一个元组(1, 3)，然后按照顺序进行对应。**

可以利用索引给它赋值

In [78]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a)
a[1, 3] = -1
print(a)

[[ 0  1  2  3]
 [10 11 12 13]]
[[ 0  1  2  3]
 [10 11 12 -1]]


事实上，我们还可以使用单个索引来索引一整行的内容

In [86]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a)
print(a[1])
print(a[1,:])

[[ 0  1  2  3]
 [10 11 12 13]]
[10 11 12 13]
[10 11 12 13]


**注意**：Python会将这个单个元组当成对第一维的索引，然后返回对应的内容。

取某一列的值

In [87]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a)
print(a[:, 1])

[[ 0  1  2  3]
 [10 11 12 13]]
[ 1 11]


* 多维数组切片

多维数组，也支持切片操作。

In [88]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a)

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]


想得到第一行的第4和第5两个元素

In [90]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a)
print(a[0, 3:5])

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]
[3 4]


得到最后两行的最后两列

In [92]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a)
print(a[4:,4:])

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]
[[44 45]
 [54 55]]


得到第三列

In [93]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a)
print(a[:,2])

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]
[ 2 12 22 32 42 52]


每一维都支持切片的规则，包括负索引和省略。
```python
[lower:upper:step]
```
例如，取出3，5行的奇数列

In [94]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a)
print(a[2::2,::2])

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]
[[20 22 24]
 [40 42 44]]


* 切片是引用

In [98]:
import numpy as np
a = np.array([0, 1, 2, 3, 4])
print(a)
b = a[2:4]
print(b)
b[0] = 10
print(a)

[0 1 2 3 4]
[2 3]
[ 0  1 10  3  4]


**注意**：引用机制意味着，Python并没有为b分配新的空间来存储它的值，而是让b指向了a所分配的内存空间，因此改变b也会改变a的值。

而这种现象在列表中并不会出现。

In [99]:
a = [1, 2, 3, 4, 5]
b = a[2:4]
b[0] = 10
print(a)

[1, 2, 3, 4, 5]


**优点**：对于很大的数组，不用大量复制多余的值，节约了空间。

**缺点**：可能出现改变一个值的时候又改变另一个值的情况。

一个解决方法是使用copy()方法产生一个赋值，这个赋值会申请新的内存空间。

In [101]:
import numpy as np
a = np.array([0, 1, 2, 3, 4])
print(a)
b = a[2:4].copy()
b[0] = 10
print(a)

[0 1 2 3 4]
[0 1 2 3 4]


* 花式索引

切片只能支持连续或者等间隔的切片操作，要想实现任意位置的操作，需要使用花式索引（Fancy Slicing）。

* 一维花式索引

与range函数类似，我们可以使用arange函数来生成等差数组。

In [102]:
import numpy as np
a = np.arange(0, 100, 10)
print(a)

[ 0 10 20 30 40 50 60 70 80 90]


花式索引需要指定索引位置

In [103]:
import numpy as np
a = np.arange(0, 100, 10)
index = [1, 2, -3]
b = a[index]
print(b)

[10 20 70]


还可以使用布尔数组来花式索引

In [107]:
import numpy as np
a = np.arange(0, 100, 10)
mask = np.array([0, 1, 1, 0, 0, 1, 0, 0, 1, 0], dtype = "bool")
print(mask)
print(a[mask])

[False  True  True False False  True False False  True False]
[10 20 50 80]


* 二维花式索引

对于二维花式索引，我们需要给定行和列的值。

返回的是一条次对角线上的5个值。

In [108]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a[(0, 1, 2, 3, 4), (1, 2, 3, 4, 5)])

[ 1 12 23 34 45]


返回的是最后三行的第1，3，5列。

In [109]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a[3:,[0, 2, 4]])

[[30 32 34]
 [40 42 44]
 [50 52 54]]


也可以使用mask进行索引

In [110]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
mask = np.array([1, 0, 1, 0, 0, 1], dtype = "bool")
print(a[mask, 2])

[ 2 22 52]


**注意**：与切片不同，花式索引返回的是原对象的一个复制，而不是引用，他是会创建新的内存地址。

* “不完全”索引

只给定行索引的时候，返回整行。

In [111]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
b = a[:3]
print(b)

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]]


这时候也可以使用花式索引取出第2，3，5行。

In [113]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
con = np.array([0, 1, 1, 0, 1, 0], dtype = "bool")
print(a[con])

[[10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [40 41 42 43 44 45]]


* where语句

```python
where(array)
```

where函数会返回所有非零元素的索引

* 一维数组

先看一维的例子

In [115]:
import numpy as np
a = np.array([0, 12, 5, 20])
print(a > 10)

[False  True False  True]


数组中所有大于10的元素的索引位置

In [116]:
import numpy as np
a = np.array([0, 12, 5, 20])
print(np.where(a > 10))

(array([1, 3], dtype=int64),)


**注意**：where的返回值是一个元组。返回的是索引位置，索引[1,3]大于10的数。

也可以直接用数组操作。

In [118]:
import numpy as np
a = np.array([0, 12, 5, 20])
print(a[a>10])
print(a[np.where(a > 10)])

[12 20]
[12 20]


### 9.1.2 数组类型
|基本类型|可用的Numpy类型|备注|
|:-:|:-:|:-:|
|布尔型|bool|占1个字节|
|整型|int8,int16,int32,int64,int128,int|int跟C语言中的long一样大|
|无符号整型|uint8,uint16,uint32,uint64,uint128,uint|uint跟C语言中的unsigned long一样大|
|浮点数|float16,float32,float64,float,longfloat|默认为双精度float64，longfloat精度大小与系统有关|
|复数|complex64,complex128,complex,longcomplex|默认为complex128，即实部虚部都为双精度|
|字符串|string,unicode|可以使用dtype=64表示一个4字节字符串的数组|
|对象|object|数组中可以使用任意值|
|时间|datetime64,timedelta64|无|

* 类型转换

可以在创建numpy数组的时候指定数据类型

In [121]:
import numpy as np
a = np.array([1.5, -3], dtype = "float")
print(a)

[ 1.5 -3. ]


可以使用asarray函数对已经创建的numpy数组进行类型转换

In [122]:
import numpy as np
a = np.array([1, 2, 3])
np.asarray(a, dtype="float")

array([1., 2., 3.])

可以通过astype返回一个你需要数据类型的新数组。

In [125]:
import numpy as np
a = np.array([1, 2, 3])
print(a)
b = a.astype("float")
print(b)
b[0] = 0.5
print(b)
print(a)

[1 2 3]
[1. 2. 3.]
[0.5 2.  3. ]
[1 2 3]


### 9.1.3 数组操作
这里我们以豆瓣10部高分电影为例来讲解数组的操作。

In [126]:
import numpy as np
# 电影名称
mv_name = ["肖申克的救赎","控方证人","美丽人生","阿甘正传","霸王别姬","泰坦尼克号","辛德勒的名单","这个杀手不太冷","疯狂动物城","海豚湾"]

# 评分人数
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])

# 评分
mv_score = np.array([9.6,9.5,9.5,9.4,9.4,9.4,9.4,9.3,9.3,9.3])

#电影时长（分钟）
mv_length = np.array([142,116,116,142,171,194,195,133,109,92])

* 数组排序

**sort函数**

使用sort函数对电影评分进行从小到大排序

In [130]:
import numpy as np
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])
b = np.sort(mv_num)
print(b)
print(mv_num)

[ 42995 157074 159302 284652 306904 327855 478523 580897 662552 692795]
[692795  42995 327855 580897 478523 157074 306904 662552 284652 159302]


**注意**：sort函数并没有改变原变量mv_num的顺序

使用sort函数对电影评分进行从大到小排序

In [128]:
import numpy as np
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])
print(-np.sort(-mv_num))

[692795 662552 580897 478523 327855 306904 284652 159302 157074  42995]


**argsort函数**

argsort返回从小到达的排列在数组中的索引位置

In [134]:
import numpy as np
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])
mv_name = ["肖申克的救赎","控方证人","美丽人生","阿甘正传","霸王别姬","泰坦尼克号","辛德勒的名单","这个杀手不太冷","疯狂动物城","海豚湾"]
order = np.argsort(mv_num)
# 评分最高的电影
print(mv_name[order[-1]])

肖申克的救赎


**求和**

对所有电影进行过评分的人数进行求和

In [135]:
import numpy as np
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])

# 第一种写法
print(np.sum(mv_num))

# 第二种写法
print(mv_num.sum())

3693549
3693549


**最大值**

求所有电影时长的最大值

In [138]:
import numpy as np
mv_length = np.array([142,116,116,142,171,194,195,133,109,92])

# 第一种写法
print(np.max(mv_length))

# 第二种写法
print(mv_length.max())

195
195


**最小值**

求所有电影评分的最小值

In [139]:
import numpy as np
mv_score = np.array([9.6,9.5,9.5,9.4,9.4,9.4,9.4,9.3,9.3,9.3])

# 第一种写法
print(np.min(mv_score))

# 第二种写法
print(mv_score.min())

9.3
9.3


**均值**

求所有电影时长的均值

In [141]:
import numpy as np
mv_length = np.array([142,116,116,142,171,194,195,133,109,92])

# 第一种写法
print(np.mean(mv_length))

# 第二种写法
print(mv_length.mean())

141.0
141.0


**标准差**

求所有电影时长的标准差

In [143]:
import numpy as np
mv_length = np.array([142,116,116,142,171,194,195,133,109,92])

# 第一种写法
print(np.std(mv_length))

# 第二种写法
print(mv_length.std())

33.713498780162226
33.713498780162226


**协方差矩阵**

求电影评分和电影长度之间的相关性

In [145]:
import numpy as np

mv_length = np.array([142,116,116,142,171,194,195,133,109,92])
mv_score = np.array([9.6,9.5,9.5,9.4,9.4,9.4,9.4,9.3,9.3,9.3])

print(np.cov(mv_score, mv_length))

[[9.88888889e-03 4.55555556e-01]
 [4.55555556e-01 1.26288889e+03]]


* 多维数组操作

**数组形状**

使用shape属性修改数组形状

In [149]:
import numpy as np
a = np.arange(6)
print(a)
a.shape = 2,3
print(a)

[0 1 2 3 4 5]
[[0 1 2]
 [3 4 5]]


与之对应的方法是reshape，但是它不会修改原来数组的值，而是返回一个新的数组。

In [150]:
import numpy as np
a = np.arange(6)
print(a)
b = a.reshape(2, 3)
print(b)
print(a)

[0 1 2 3 4 5]
[[0 1 2]
 [3 4 5]]
[0 1 2 3 4 5]


**转置**

In [154]:
import numpy as np
a = np.arange(6)
# 做一个2行3列的数组
a = a.reshape(2,3)
print(a)
print(a.T)
print(a.transpose())
print(a)

[[0 1 2]
 [3 4 5]]
[[0 3]
 [1 4]
 [2 5]]
[[0 3]
 [1 4]
 [2 5]]
[[0 1 2]
 [3 4 5]]


**注意**：这里注意a.T和a.transpose()不会改变a的值。

**数组连接**

有时我们需要将不同的数组按照一定的顺序连接起来

```python
concatenate((a0,a1,...,aN),axis=0)
```

**注意**：这些数组要用()包括到一个元组中去。除了给定的轴外，这些数组其他轴的长度必须是一样的。

我们先创建两个数组

In [161]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
print(a)
print(a.shape)
print(b)
print(b.shape)

[[ 0  1  2]
 [10 11 12]]
(2, 3)
[[50 51 52]
 [60 61 62]]
(2, 3)


默认沿着第一维进行连接

In [156]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
c = np.concatenate((a,b))
print(c)

[[ 0  1  2]
 [10 11 12]
 [50 51 52]
 [60 61 62]]


沿着第二维进行连接

In [159]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
c = np.concatenate((a,b), axis = 1)
print(c)

[[ 0  1  2 50 51 52]
 [10 11 12 60 61 62]]


上面的例子，我们是举了一个特例，a和b的行数与列数是相同的，如果不相同的话就需要确认除了要连接的维度以外，其他维度的长度必须相同。

In [162]:
import numpy as np
# a是2*3
a = np.array([[0,1,2],[10,11,12]])

# b是3*3
b = np.array([[50,51,52],[60,61,62],[70,71,72]])

# 在第一个维度上可以连接
c = np.concatenate((a,b))
print(c)

# 在第二个维度上就不可以连接
c = np.concatenate((a,b), axis = 1)
print(c)

[[ 0  1  2]
 [10 11 12]
 [50 51 52]
 [60 61 62]
 [70 71 72]]


ValueError: all the input array dimensions except for the concatenation axis must match exactly

如果a和b在所有维度上的长度都相同，还可以将它们连接成三维数组，但是concatenate不能提供这样的功能，但是可以使用array方法实现。

In [170]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
c = np.array((a,b))
print(c)
print(c[0])
print(c[0,0])
print(c[0,0,0])

[[[ 0  1  2]
  [10 11 12]]

 [[50 51 52]
  [60 61 62]]]
[[ 0  1  2]
 [10 11 12]]
[0 1 2]
0


事实上，Numpy提供了分别对应这三种情况的函数。

vstack实现纵向堆叠

In [172]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
c = np.vstack((a, b))
print(c)

[[ 0  1  2]
 [10 11 12]
 [50 51 52]
 [60 61 62]]


hstack实现横向堆叠

In [173]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
c = np.hstack((a, b))
print(c)

[[ 0  1  2 50 51 52]
 [10 11 12 60 61 62]]


dstack实现维度上堆叠

* Numpy内置函数

Numpy的内置函数非常多，不需要死记硬背，要懂得查资料。

### 9.1.2 数组属性方法的总结

|**调用方法**|**作用**|
|-:|-:|
|**1**|**基本属性**|
|a.dtype|数组元素类型float32,uint8,...|
|a.shape|数组形状(m,n,o,...)|
|a.size|数组元素数|
|a.itemsize|每个元素占字节数|
|a.nbytes|所有元素占的字节|
|a.ndim|数组维度|
|-|-|
|**2**|**形状相关**|
|a.flat|所有元素的迭代器|
|a.flatten()|返回一个1维数组的复制|
|a.ravel()|返回一个一维数组，高效|
|a.resize(new_size)|改变形状|
|a.swapaxes(axis1,axis2)|交换两个维度的位置|
|a.transpose(* axex)|交换所有维度的位置|
|a.T|转置，a.transpose()|
|a.squeeze()|去除所有长度为1的维度|
|-|-|
|**3**|**填充复制**|
|a.copy()|返回数组的一个复制|
|a.fill(value)|将数组的元组设置为特定值|
|-|-|
|**4**|**转化**|
|a.tolist()|将数组转化为列表|
|a.tostring()|转换为字符串|
|a.astype(dtype)|转换为指定类型|
|a.byteswap(False)|转换大小字节序|
|a.view(type_or_dtype)|生成一个使用相同内存，但使用不同的表示方法的数组|
|-|-|
|**5**|**查找排序**|
|a.nonzero()|返回所有非零元素的索引|
|a.sort(axis=-1)|沿某个轴排序|
|a.argsort(axis=-1)|沿某个轴，返回按排序的索引|
|a.searchsorted(b)|返回将b中元素插入a后能保持有序的索引值|
|-|-|
|**6**|**元素数学操作**|
|a.clip(low,high)|将数值限制在一定范围内|
|a.round(decimals=0)|近似到指定精度|
|a.cumsum(axis=None)|累加和|
|a.cumprod(axis=None)|累乘积|
|-|-|
|**7**|**约简操作**|
|a.sum(axis=None)|求和|
|a.prod(axis=None)|求积|
|a.min(axis=None)|最小值|
|a.max(axis=None)|最大值|
|a.argmin(axis=None)|最小值索引|
|a.argmax(axis=None)|最大值索引|
|a.ptp(axis=None)|最大值减最小值|
|a.mean(axis=None)|平均值|
|a.std(axis=None)|标准差|
|a.var(axis=None)|方差|
|a.any(axis=None)|只要有一个不为0，返回真，逻辑或|
|a.all(axis=None)|所有都不为0，返回真，逻辑与|

Numpy的内容实在是太多，而且特别灵活，课上所讲内容有限，大家可以参考Numpy的文档。

* [Numpy中文网](https://www.numpy.org.cn/)
* [Numpy官方文档](https://numpy.org/doc/stable/reference/index.html)