# 第9章 数据分析与可视化
## 9.1 Numpy
* NumPy是Python的一种开源的数值计算扩展。
    * 可以用来存储和处理大型矩阵，比Python自身的嵌套列表（Nested List Structure）结构要高效的多。
    * Numpy（Numeric Python）提供了许多高级的数值编程工具。
    * Numpy的一个重要特性是它的数组计算，是我们做数据分析必不可少的一个包。
* 使用NumPy前要先导入NumPy包，当然Anaconda全家桶已经安排好了，不需要自己用conda或者pip安装，导入的方法如下：

```python
import numpy
import numpy as np   #推荐使用这种方式
from numpy import *
```

### 9.1.1 Numpy的数组对象及其索引

* 列表数据类型不适合数学操作

**假如我们想将列表中的每个元素增加1，但列表不支持这样的操作**


In [1]:
a = [1, 2, 3, 4]
print(a + 1)

TypeError: can only concatenate list (not "int") to list

正确的写法如下

In [2]:
a = [1, 2, 3, 4]
for i in range(len(a)):
    a[i] = a[i] + 1
print(a)

[2, 3, 4, 5]


还可以使用列表生成式

In [5]:
a = [1, 2, 3, 4]
x = [i + 1 for i in a]
print(x)

[2, 3, 4, 5]


**假如现在有两个长度相同的列表a和b，我想让两个列表对应元素相加。**

In [13]:
a = [1, 2, 3, 4]
b = [2, 3, 4, 5]
print(a + b)

[1, 2, 3, 4, 2, 3, 4, 5]


然而这并不是我们想要的结果，这里实现的是对两个列表进行拼接，而不是对应元素的相加，正确写法如下。

In [10]:
a = [1, 2, 3, 4]
b = [2, 3, 4, 5]
c = []
for i in range(len(a)):
    c.append(a[i] + b[i])
print(c)

[3, 5, 7, 9]


还可以使用列表生成式

In [12]:
a = [1, 2, 3, 4]
b = [2, 3, 4, 5]
c = [x + y for (x, y) in zip(a, b)]
print(c)

[3, 5, 7, 9]


**通过上面的例子我们发现，Python自带的列表在一些涉及到数学操作的时候，会比较麻烦，而且如果数据量特别大的话会非常耗时。**

* 如果我们使用Numpy，就会变得特别简单。

In [18]:
import numpy as np
a = np.array([1, 2, 3, 4])
print(a)
print(a + 1)
print(a * 2)
b = np.array([2, 3, 4, 5])
print(a + b)

[1 2 3 4]
[2 3 4 5]
[2 4 6 8]
[3 5 7 9]


* 使用Numpy产生数组

**从列表产生数组**

In [23]:
import numpy as np
l = [0, 1, 2, 3]
a = np.array(l)
print(a)

[0 1 2 3]


**从列表传入**

In [25]:
import numpy as np
a = np.array([1, 2, 3, 4])
print(a)

[1 2 3 4]


**生成全0数组**

In [26]:
import numpy as np
a = np.zeros(5)
print(a)

[0. 0. 0. 0. 0.]


**生成全1的数组**

In [28]:
import numpy as np
a = np.ones(5)
print(a)

[1. 1. 1. 1. 1.]


可以使用`dtype`参数指定填入的类型

In [30]:
import numpy as np
a = np.ones(5, dtype="int")
print(a)

[1 1 1 1 1]


In [31]:
import numpy as np
a = np.ones(5, dtype="bool")
print(a)

[ True  True  True  True  True]


**可以使用fill方法将数组设为指定值**

In [32]:
import numpy as np
a = np.array([1, 2, 3, 4])
print(a)
a.fill(5)
print(a)

[1 2 3 4]
[5 5 5 5]


**注意**：与列表不同，数组中要求所有元素的dtype是一样的，如果传入参数的类型与数组类型不一样，需要按照已有的类型进行转换。

假设现在我们要填充的数是2.5，那么a中的2.5会自动取整。

In [33]:
import numpy as np
a = np.array([1, 2, 3, 4])
a.fill(2.5)
print(a)

[2 2 2 2]


如果需要将a中填充的元素都是2.5，那么需要先进行数据格式的转换。

In [34]:
import numpy as np
a = np.array([1, 2, 3, 4])
a = a.astype("float") # 对a中存储的数据类型更改为float型
a.fill(2.5)
print(a)

[2.5 2.5 2.5 2.5]


* 可以使用一些特定的方法生成特殊的数组

**生成整数序列**

In [39]:
import numpy as np
# arange函数的第一个参数是起点，第二参数是终点（不包含），第三个参数是步长
a = np.arange(1, 10)
print(a)

a = np.arange(1, 10, 2)
print(a)

[1 2 3 4 5 6 7 8 9]
[1 3 5 7 9]


**生成等差数列**

In [42]:
import numpy as np
# arange函数的第一个参数是起点，第二参数是终点（包含），第三个参数是等差数列共有多少个数
a = np.linspace(1, 10, 21)
print(a)

[ 1.    1.45  1.9   2.35  2.8   3.25  3.7   4.15  4.6   5.05  5.5   5.95
  6.4   6.85  7.3   7.75  8.2   8.65  9.1   9.55 10.  ]


**生成随机数**

生成普通的随机数

In [43]:
import numpy as np
# np.random.rand函数中的参数表示随机数的个数
a = np.random.rand(10)
print(a)

[0.58729145 0.23478578 0.09268566 0.30722072 0.57801    0.62655126
 0.51953054 0.82981402 0.68959863 0.42103112]


生成满足正态分布的随机数

In [44]:
import numpy as np
# np.random.randn函数中的参数表示随机数的个数
a = np.random.randn(10)
print(a)

[ 1.19541021  0.58253944 -0.74518648  0.18946375  0.36845583  0.79899316
  1.94554582 -0.28499364  1.13889267  0.02071941]


生成随机整数

In [46]:
import numpy as np
# np.random.randint函数中的第一个参数表示起点，第二个参数表示终点，第三个参数表示随机整数的个数
a = np.random.randint(1, 10, 10)
print(a)

[3 2 1 9 7 6 6 1 5 1]


* 数组属性

查看类型

In [52]:
import numpy as np
a = np.linspace(1, 10, 21)
print(type(a))

<class 'numpy.ndarray'>


查看数组中元素的数据类型

In [53]:
import numpy as np
a = np.linspace(1, 10, 21)
print(a.dtype)

float64


查看形状，会返回一个元组，每个元素代表这一维的元素数目。

In [54]:
import numpy as np
a = np.linspace(1, 10, 21)
print(a.shape)

(21,)


查看数组里面元素的数目

In [55]:
import numpy as np
a = np.linspace(1, 10, 21)
print(a.size)

21


查看数组的维度

In [57]:
import numpy as np
a = np.linspace(1, 10, 21)
print(a.ndim)

1


* 索引与切片

和列表相似，数组也支持索引和切片操作。

索引第一个元素

In [60]:
import numpy as np
a = np.array([0, 1, 2, 3])
print(a[0])

0


修改第一个元素的值

In [61]:
import numpy as np
a = np.array([0, 1, 2, 3])
a[0] = 10
print(a)

[10  1  2  3]


切片，支持负索引

In [65]:
import numpy as np
a = np.array([11, 12, 13, 14, 15])
print(a[1:3]) # 注意这里区间是[1,3)，左闭右开
print(a[1:-2])

[12 13]
[12 13]


省略参数

In [67]:
import numpy as np
a = np.array([11, 12, 13, 14, 15])
print(a[-2:])
print(a[::2])

[14 15]
[11 13 15]


假设我们要记录一部电影的累计票房，那么如何计算每天的票房。

In [70]:
import numpy as np
ob = np.array([21000, 21800, 22240, 23450, 25000])
print(ob)

# 21800, 22240, 23450, 25000
# 21000, 21800, 22240, 23450
# 我们的目标就是上面的数组减去下面的数据
ob2 = ob[1:] - ob[:-1]
print(ob2)

[21000 21800 22240 23450 25000]
[ 800  440 1210 1550]


* 多维数组及其属性

array还可以用来生成多维数组

In [71]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a)

[[ 0  1  2  3]
 [10 11 12 13]]


**注意**：事实上我们传入的是一个以列表为元素的列表，最终得到一个二位数组。

查看形状

In [73]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a.shape)

(2, 4)


查看总的元素个数

In [74]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a.size)

8


查看维数

In [75]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a.ndim)

2


* 多维数组索引

对于二维数组，可以传入两个数字来索引。

In [77]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a[1, 3])

13


**其中，1是行索引，3是列索引，中间用逗号隔开，事实上，Python会将他们看成一个元组(1, 3)，然后按照顺序进行对应。**

可以利用索引给它赋值

In [78]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a)
a[1, 3] = -1
print(a)

[[ 0  1  2  3]
 [10 11 12 13]]
[[ 0  1  2  3]
 [10 11 12 -1]]


事实上，我们还可以使用单个索引来索引一整行的内容

In [86]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a)
print(a[1])
print(a[1,:])

[[ 0  1  2  3]
 [10 11 12 13]]
[10 11 12 13]
[10 11 12 13]


**注意**：Python会将这个单个元组当成对第一维的索引，然后返回对应的内容。

取某一列的值

In [87]:
import numpy as np
a = np.array([[0, 1, 2, 3],[10, 11, 12, 13]])
print(a)
print(a[:, 1])

[[ 0  1  2  3]
 [10 11 12 13]]
[ 1 11]


* 多维数组切片

多维数组，也支持切片操作。

In [88]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a)

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]


想得到第一行的第4和第5两个元素

In [90]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a)
print(a[0, 3:5])

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]
[3 4]


得到最后两行的最后两列

In [92]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a)
print(a[4:,4:])

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]
[[44 45]
 [54 55]]


得到第三列

In [93]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a)
print(a[:,2])

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]
[ 2 12 22 32 42 52]


每一维都支持切片的规则，包括负索引和省略。
```python
[lower:upper:step]
```
例如，取出3，5行的奇数列

In [94]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a)
print(a[2::2,::2])

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]
[[20 22 24]
 [40 42 44]]


* 切片是引用

In [98]:
import numpy as np
a = np.array([0, 1, 2, 3, 4])
print(a)
b = a[2:4]
print(b)
b[0] = 10
print(a)

[0 1 2 3 4]
[2 3]
[ 0  1 10  3  4]


**注意**：引用机制意味着，Python并没有为b分配新的空间来存储它的值，而是让b指向了a所分配的内存空间，因此改变b也会改变a的值。

而这种现象在列表中并不会出现。

In [99]:
a = [1, 2, 3, 4, 5]
b = a[2:4]
b[0] = 10
print(a)

[1, 2, 3, 4, 5]


**优点**：对于很大的数组，不用大量复制多余的值，节约了空间。

**缺点**：可能出现改变一个值的时候又改变另一个值的情况。

一个解决方法是使用copy()方法产生一个赋值，这个赋值会申请新的内存空间。

In [101]:
import numpy as np
a = np.array([0, 1, 2, 3, 4])
print(a)
b = a[2:4].copy()
b[0] = 10
print(a)

[0 1 2 3 4]
[0 1 2 3 4]


* 花式索引

切片只能支持连续或者等间隔的切片操作，要想实现任意位置的操作，需要使用花式索引（Fancy Slicing）。

* 一维花式索引

与range函数类似，我们可以使用arange函数来生成等差数组。

In [102]:
import numpy as np
a = np.arange(0, 100, 10)
print(a)

[ 0 10 20 30 40 50 60 70 80 90]


花式索引需要指定索引位置

In [103]:
import numpy as np
a = np.arange(0, 100, 10)
index = [1, 2, -3]
b = a[index]
print(b)

[10 20 70]


还可以使用布尔数组来花式索引

In [107]:
import numpy as np
a = np.arange(0, 100, 10)
mask = np.array([0, 1, 1, 0, 0, 1, 0, 0, 1, 0], dtype = "bool")
print(mask)
print(a[mask])

[False  True  True False False  True False False  True False]
[10 20 50 80]


* 二维花式索引

对于二维花式索引，我们需要给定行和列的值。

返回的是一条次对角线上的5个值。

In [108]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a[(0, 1, 2, 3, 4), (1, 2, 3, 4, 5)])

[ 1 12 23 34 45]


返回的是最后三行的第1，3，5列。

In [109]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
print(a[3:,[0, 2, 4]])

[[30 32 34]
 [40 42 44]
 [50 52 54]]


也可以使用mask进行索引

In [110]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
mask = np.array([1, 0, 1, 0, 0, 1], dtype = "bool")
print(a[mask, 2])

[ 2 22 52]


**注意**：与切片不同，花式索引返回的是原对象的一个复制，而不是引用，他是会创建新的内存地址。

* “不完全”索引

只给定行索引的时候，返回整行。

In [111]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
b = a[:3]
print(b)

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]]


这时候也可以使用花式索引取出第2，3，5行。

In [113]:
import numpy as np
a = np.array([[0, 1, 2, 3, 4, 5],
              [10, 11, 12, 13, 14, 15],
              [20, 21, 22, 23, 24, 25],
              [30, 31, 32, 33, 34, 35],
              [40, 41, 42, 43, 44, 45],
              [50, 51, 52, 53, 54, 55]])
con = np.array([0, 1, 1, 0, 1, 0], dtype = "bool")
print(a[con])

[[10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [40 41 42 43 44 45]]


* where语句

```python
where(array)
```

where函数会返回所有非零元素的索引

* 一维数组

先看一维的例子

In [115]:
import numpy as np
a = np.array([0, 12, 5, 20])
print(a > 10)

[False  True False  True]


数组中所有大于10的元素的索引位置

In [116]:
import numpy as np
a = np.array([0, 12, 5, 20])
print(np.where(a > 10))

(array([1, 3], dtype=int64),)


**注意**：where的返回值是一个元组。返回的是索引位置，索引[1,3]大于10的数。

也可以直接用数组操作。

In [118]:
import numpy as np
a = np.array([0, 12, 5, 20])
print(a[a>10])
print(a[np.where(a > 10)])

[12 20]
[12 20]


### 9.1.2 数组类型
|基本类型|可用的Numpy类型|备注|
|:-:|:-:|:-:|
|布尔型|bool|占1个字节|
|整型|int8,int16,int32,int64,int128,int|int跟C语言中的long一样大|
|无符号整型|uint8,uint16,uint32,uint64,uint128,uint|uint跟C语言中的unsigned long一样大|
|浮点数|float16,float32,float64,float,longfloat|默认为双精度float64，longfloat精度大小与系统有关|
|复数|complex64,complex128,complex,longcomplex|默认为complex128，即实部虚部都为双精度|
|字符串|string,unicode|可以使用dtype=64表示一个4字节字符串的数组|
|对象|object|数组中可以使用任意值|
|时间|datetime64,timedelta64|无|

* 类型转换

可以在创建numpy数组的时候指定数据类型

In [121]:
import numpy as np
a = np.array([1.5, -3], dtype = "float")
print(a)

[ 1.5 -3. ]


可以使用asarray函数对已经创建的numpy数组进行类型转换

In [122]:
import numpy as np
a = np.array([1, 2, 3])
np.asarray(a, dtype="float")

array([1., 2., 3.])

可以通过astype返回一个你需要数据类型的新数组。

In [125]:
import numpy as np
a = np.array([1, 2, 3])
print(a)
b = a.astype("float")
print(b)
b[0] = 0.5
print(b)
print(a)

[1 2 3]
[1. 2. 3.]
[0.5 2.  3. ]
[1 2 3]


### 9.1.3 数组操作
这里我们以豆瓣10部高分电影为例来讲解数组的操作。

In [126]:
import numpy as np
# 电影名称
mv_name = ["肖申克的救赎","控方证人","美丽人生","阿甘正传","霸王别姬","泰坦尼克号","辛德勒的名单","这个杀手不太冷","疯狂动物城","海豚湾"]

# 评分人数
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])

# 评分
mv_score = np.array([9.6,9.5,9.5,9.4,9.4,9.4,9.4,9.3,9.3,9.3])

#电影时长（分钟）
mv_length = np.array([142,116,116,142,171,194,195,133,109,92])

* 数组排序

**sort函数**

使用sort函数对电影评分进行从小到大排序

In [130]:
import numpy as np
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])
b = np.sort(mv_num)
print(b)
print(mv_num)

[ 42995 157074 159302 284652 306904 327855 478523 580897 662552 692795]
[692795  42995 327855 580897 478523 157074 306904 662552 284652 159302]


**注意**：sort函数并没有改变原变量mv_num的顺序

使用sort函数对电影评分进行从大到小排序

In [128]:
import numpy as np
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])
print(-np.sort(-mv_num))

[692795 662552 580897 478523 327855 306904 284652 159302 157074  42995]


**argsort函数**

argsort返回从小到达的排列在数组中的索引位置

In [134]:
import numpy as np
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])
mv_name = ["肖申克的救赎","控方证人","美丽人生","阿甘正传","霸王别姬","泰坦尼克号","辛德勒的名单","这个杀手不太冷","疯狂动物城","海豚湾"]
order = np.argsort(mv_num)
# 评分最高的电影
print(mv_name[order[-1]])

肖申克的救赎


**求和**

对所有电影进行过评分的人数进行求和

In [135]:
import numpy as np
mv_num = np.array([692795,42995,327855,580897,478523,157074,306904,662552,284652,159302])

# 第一种写法
print(np.sum(mv_num))

# 第二种写法
print(mv_num.sum())

3693549
3693549


**最大值**

求所有电影时长的最大值

In [138]:
import numpy as np
mv_length = np.array([142,116,116,142,171,194,195,133,109,92])

# 第一种写法
print(np.max(mv_length))

# 第二种写法
print(mv_length.max())

195
195


**最小值**

求所有电影评分的最小值

In [139]:
import numpy as np
mv_score = np.array([9.6,9.5,9.5,9.4,9.4,9.4,9.4,9.3,9.3,9.3])

# 第一种写法
print(np.min(mv_score))

# 第二种写法
print(mv_score.min())

9.3
9.3


**均值**

求所有电影时长的均值

In [141]:
import numpy as np
mv_length = np.array([142,116,116,142,171,194,195,133,109,92])

# 第一种写法
print(np.mean(mv_length))

# 第二种写法
print(mv_length.mean())

141.0
141.0


**标准差**

求所有电影时长的标准差

In [143]:
import numpy as np
mv_length = np.array([142,116,116,142,171,194,195,133,109,92])

# 第一种写法
print(np.std(mv_length))

# 第二种写法
print(mv_length.std())

33.713498780162226
33.713498780162226


**协方差矩阵**

求电影评分和电影长度之间的相关性

In [145]:
import numpy as np

mv_length = np.array([142,116,116,142,171,194,195,133,109,92])
mv_score = np.array([9.6,9.5,9.5,9.4,9.4,9.4,9.4,9.3,9.3,9.3])

print(np.cov(mv_score, mv_length))

[[9.88888889e-03 4.55555556e-01]
 [4.55555556e-01 1.26288889e+03]]


* 多维数组操作

**数组形状**

使用shape属性修改数组形状

In [149]:
import numpy as np
a = np.arange(6)
print(a)
a.shape = 2,3
print(a)

[0 1 2 3 4 5]
[[0 1 2]
 [3 4 5]]


与之对应的方法是reshape，但是它不会修改原来数组的值，而是返回一个新的数组。

In [150]:
import numpy as np
a = np.arange(6)
print(a)
b = a.reshape(2, 3)
print(b)
print(a)

[0 1 2 3 4 5]
[[0 1 2]
 [3 4 5]]
[0 1 2 3 4 5]


**转置**

In [154]:
import numpy as np
a = np.arange(6)
# 做一个2行3列的数组
a = a.reshape(2,3)
print(a)
print(a.T)
print(a.transpose())
print(a)

[[0 1 2]
 [3 4 5]]
[[0 3]
 [1 4]
 [2 5]]
[[0 3]
 [1 4]
 [2 5]]
[[0 1 2]
 [3 4 5]]


**注意**：这里注意a.T和a.transpose()不会改变a的值。

**数组连接**

有时我们需要将不同的数组按照一定的顺序连接起来

```python
concatenate((a0,a1,...,aN),axis=0)
```

**注意**：这些数组要用()包括到一个元组中去。除了给定的轴外，这些数组其他轴的长度必须是一样的。

我们先创建两个数组

In [161]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
print(a)
print(a.shape)
print(b)
print(b.shape)

[[ 0  1  2]
 [10 11 12]]
(2, 3)
[[50 51 52]
 [60 61 62]]
(2, 3)


默认沿着第一维进行连接

In [156]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
c = np.concatenate((a,b))
print(c)

[[ 0  1  2]
 [10 11 12]
 [50 51 52]
 [60 61 62]]


沿着第二维进行连接

In [159]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
c = np.concatenate((a,b), axis = 1)
print(c)

[[ 0  1  2 50 51 52]
 [10 11 12 60 61 62]]


上面的例子，我们是举了一个特例，a和b的行数与列数是相同的，如果不相同的话就需要确认除了要连接的维度以外，其他维度的长度必须相同。

In [162]:
import numpy as np
# a是2*3
a = np.array([[0,1,2],[10,11,12]])

# b是3*3
b = np.array([[50,51,52],[60,61,62],[70,71,72]])

# 在第一个维度上可以连接
c = np.concatenate((a,b))
print(c)

# 在第二个维度上就不可以连接
c = np.concatenate((a,b), axis = 1)
print(c)

[[ 0  1  2]
 [10 11 12]
 [50 51 52]
 [60 61 62]
 [70 71 72]]


ValueError: all the input array dimensions except for the concatenation axis must match exactly

如果a和b在所有维度上的长度都相同，还可以将它们连接成三维数组，但是concatenate不能提供这样的功能，但是可以使用array方法实现。

In [170]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
c = np.array((a,b))
print(c)
print(c[0])
print(c[0,0])
print(c[0,0,0])

[[[ 0  1  2]
  [10 11 12]]

 [[50 51 52]
  [60 61 62]]]
[[ 0  1  2]
 [10 11 12]]
[0 1 2]
0


事实上，Numpy提供了分别对应这三种情况的函数。

vstack实现纵向堆叠

In [172]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
c = np.vstack((a, b))
print(c)

[[ 0  1  2]
 [10 11 12]
 [50 51 52]
 [60 61 62]]


hstack实现横向堆叠

In [173]:
import numpy as np
a = np.array([[0,1,2],[10,11,12]])
b = np.array([[50,51,52],[60,61,62]])
c = np.hstack((a, b))
print(c)

[[ 0  1  2 50 51 52]
 [10 11 12 60 61 62]]


dstack实现维度上堆叠

* Numpy内置函数

Numpy的内置函数非常多，不需要死记硬背，要懂得查资料。

### 9.1.2 数组属性方法的总结

|**调用方法**|**作用**|
|-:|-:|
|**1**|**基本属性**|
|a.dtype|数组元素类型float32,uint8,...|
|a.shape|数组形状(m,n,o,...)|
|a.size|数组元素数|
|a.itemsize|每个元素占字节数|
|a.nbytes|所有元素占的字节|
|a.ndim|数组维度|
|-|-|
|**2**|**形状相关**|
|a.flat|所有元素的迭代器|
|a.flatten()|返回一个1维数组的复制|
|a.ravel()|返回一个一维数组，高效|
|a.resize(new_size)|改变形状|
|a.swapaxes(axis1,axis2)|交换两个维度的位置|
|a.transpose(* axex)|交换所有维度的位置|
|a.T|转置，a.transpose()|
|a.squeeze()|去除所有长度为1的维度|
|-|-|
|**3**|**填充复制**|
|a.copy()|返回数组的一个复制|
|a.fill(value)|将数组的元组设置为特定值|
|-|-|
|**4**|**转化**|
|a.tolist()|将数组转化为列表|
|a.tostring()|转换为字符串|
|a.astype(dtype)|转换为指定类型|
|a.byteswap(False)|转换大小字节序|
|a.view(type_or_dtype)|生成一个使用相同内存，但使用不同的表示方法的数组|
|-|-|
|**5**|**查找排序**|
|a.nonzero()|返回所有非零元素的索引|
|a.sort(axis=-1)|沿某个轴排序|
|a.argsort(axis=-1)|沿某个轴，返回按排序的索引|
|a.searchsorted(b)|返回将b中元素插入a后能保持有序的索引值|
|-|-|
|**6**|**元素数学操作**|
|a.clip(low,high)|将数值限制在一定范围内|
|a.round(decimals=0)|近似到指定精度|
|a.cumsum(axis=None)|累加和|
|a.cumprod(axis=None)|累乘积|
|-|-|
|**7**|**约简操作**|
|a.sum(axis=None)|求和|
|a.prod(axis=None)|求积|
|a.min(axis=None)|最小值|
|a.max(axis=None)|最大值|
|a.argmin(axis=None)|最小值索引|
|a.argmax(axis=None)|最大值索引|
|a.ptp(axis=None)|最大值减最小值|
|a.mean(axis=None)|平均值|
|a.std(axis=None)|标准差|
|a.var(axis=None)|方差|
|a.any(axis=None)|只要有一个不为0，返回真，逻辑或|
|a.all(axis=None)|所有都不为0，返回真，逻辑与|

Numpy的内容实在是太多，而且特别灵活，课上所讲内容有限，大家可以参考Numpy的文档。

* [Numpy中文网](https://www.numpy.org.cn/)
* [Numpy官方文档](https://numpy.org/doc/stable/reference/index.html)

## 9.2 Pandas

Python Data Analysis Library 或 Pandas是基于Numpy的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
```python
import pandas as pd
import numpy as np
```

Pandas基本数据结构
+ `Series`
    + 一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很接近。Series**能保存不同种数据类型**，字符串、boolean值、数字等都能保存在Series中。
+ `DataFrame`
    + 二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
    
### 9.2.1 Pandas库的series类型 

一维`Series`可以用一维列表初始化：

In [1]:
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8])
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


默认情况下，`Series`的下标都是数字，可以使用额外参数指定，类型是统一的。

In [2]:
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8], index = ['a','b','c','d','x','y'])
print(s)

a    1.0
b    3.0
c    5.0
d    NaN
x    6.0
y    8.0
dtype: float64


索引：数据的行标签 

In [4]:
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8])
print(s.index)

RangeIndex(start=0, stop=6, step=1)


值

In [7]:
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8])
print(s.values)

[ 1.  3.  5. nan  6.  8.]


切片操作

In [9]:
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8])
print(s[2:5]) # 左闭右开
print(s[::2])

2    5.0
3    NaN
4    6.0
dtype: float64
0    1.0
2    5.0
4    6.0
dtype: float64


索引赋值

In [13]:
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8])
s.index.name = '索引'
print(s)

索引
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [14]:
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8])
s.index = list("abcdef")
print(s)

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64


In [15]:
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8])
s.index = list("abcdef")
print(s['a':'c':2])

a    1.0
c    5.0
dtype: float64


**注意**：这里索引不再是数值，也不再遵守左闭右开的原则。

### 9.2.2 Pandas库的DataFrame类型
`DataFrame`则是个二维结构，这里首先构造一组时间序列，作为我们第一维的下标：

In [16]:
import pandas as pd
import numpy as np
date = pd.date_range("20180101", periods = 6)
print(date)

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')


然后创建一个`DataFrame`结构：

In [2]:
import pandas as pd
import numpy as np
date = pd.date_range("20180101", periods = 6)
print(date)
df = pd.DataFrame(np.random.randn(6,4), index = date, columns = list("ABCD"))
df

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')


Unnamed: 0,A,B,C,D
2018-01-01,-1.521197,0.917602,0.874045,0.704967
2018-01-02,-0.827472,-0.765161,0.653234,0.773203
2018-01-03,0.015737,-0.713135,0.13665,-1.006354
2018-01-04,-1.499645,-0.826832,-0.002459,0.586245
2018-01-05,-0.044501,0.66049,0.259101,-0.038983
2018-01-06,0.145179,2.378894,0.637116,1.103418


默认情况下，如果不指定`index`参数和`columns`，那么它们的值将从用0开始的数字替代。

In [48]:
import pandas as pd
import numpy as np
date = pd.date_range("20180101", periods = 6)
print(date)
df = pd.DataFrame(np.random.randn(6,4))
df

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')


Unnamed: 0,0,1,2,3
0,0.612476,0.631021,2.351589,0.884317
1,1.436861,0.197359,0.684687,-0.37159
2,1.118205,-0.99075,0.502693,0.633902
3,-0.059023,1.189993,-0.350823,-0.829407
4,-1.071734,-0.749699,0.251985,-0.819888
5,1.500889,1.00144,0.047792,0.44411


除了向`DataFrame`中传入二维数组，我们也可以使用字典传入数据：

In [53]:
import pandas as pd
import numpy as np
#B:时间戳,E分类类型
df2 = pd.DataFrame({'A':1.,
                    'B':pd.Timestamp("20181001"),
                    'C':pd.Series(1,index = list(range(4)),dtype = float),
                    'D':np.array([3]*4, dtype = int),
                    'E':pd.Categorical(["test","train","test","train"]),
                    'F':"abc"})
print(df2.dtypes)
df2

A           float64
B    datetime64[ns]
C           float64
D             int32
E          category
F            object
dtype: object


Unnamed: 0,A,B,C,D,E,F
0,1.0,2018-10-01,1.0,3,test,abc
1,1.0,2018-10-01,1.0,3,train,abc
2,1.0,2018-10-01,1.0,3,test,abc
3,1.0,2018-10-01,1.0,3,train,abc


字典的每个`key`代表一列，其`value`可以是各种能够转化为`Series`的对象。与`Series`要求所有的类型都一致不同，`DataFrame`只要求每一列数据的格式相同。

**查看数据**

头尾数据：`head`和`tail`方法可以分别查看最前面几行和最后面几行的数据（默认为5）。

In [54]:
import pandas as pd
import numpy as np
date = pd.date_range("20180101", periods = 6)
df = pd.DataFrame(np.random.randn(6,4), index = date, columns = list("ABCD"))
df.head()

Unnamed: 0,A,B,C,D
2018-01-01,1.824459,-1.207617,0.239773,-1.324003
2018-01-02,-0.379129,0.421142,0.531803,-0.179014
2018-01-03,1.879301,-1.005879,0.393336,-1.389884
2018-01-04,1.357715,0.15235,-1.258932,-0.556222
2018-01-05,0.224679,1.856082,0.443796,-0.570199


最后3行

In [55]:
import pandas as pd
import numpy as np
date = pd.date_range("20180101", periods = 6)
df = pd.DataFrame(np.random.randn(6,4), index = date, columns = list("ABCD"))
df.tail(3)

Unnamed: 0,A,B,C,D
2018-01-04,0.823872,-0.193263,1.742783,1.416937
2018-01-05,-0.007054,-0.770719,0.06222,0.8529
2018-01-06,-0.318077,-0.046952,-0.93746,0.601917


行标使用`index`属性查看

In [25]:
import pandas as pd
import numpy as np
date = pd.date_range("20180101", periods = 6)
df = pd.DataFrame(np.random.randn(6,4), index = date, columns = list("ABCD"))
print(df.index)

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')


列标使用`columns`属性查看

In [28]:
import pandas as pd
import numpy as np
date = pd.date_range("20180101", periods = 6)
df = pd.DataFrame(np.random.randn(6,4), index = date, columns = list("ABCD"))
print(df.columns)

Index(['A', 'B', 'C', 'D'], dtype='object')


数据值使用`values`查看

In [4]:
import pandas as pd
import numpy as np
date = pd.date_range("20180101", periods = 6)
df = pd.DataFrame(np.random.randn(6,4), index = date, columns = list("ABCD"))
print(df.values)

[[-0.19194566 -2.02415353 -0.27700164  0.60463379]
 [ 0.19047057  1.63989766 -0.27516612  0.37558053]
 [ 1.41666739 -0.10251771  0.48112208 -0.41954542]
 [-2.39405944 -0.13063606 -1.05751321  0.06873895]
 [ 0.47153437  0.21549055  1.65157232  2.8015633 ]
 [-2.15527436  0.02216603 -2.18354412 -0.3173829 ]]


### 9.2.3 pandas读取数据及数据操作
我们将以豆瓣的电影数据作为我们深入了解Pandas的一个示例。

In [6]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df.head()

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


行操作

In [7]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df.iloc[0]

名字                   肖申克的救赎
投票人数                 692795
类型                    剧情/犯罪
产地                       美国
上映时间    1994-09-10 00:00:00
时长                      142
年代                     1994
评分                      9.6
首映地点                 多伦多电影节
Name: 0, dtype: object

In [8]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df.iloc[0:5] #左闭右开

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


也可以使用loc

In [11]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df.loc[0:5] #左右皆闭

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆


添加一行

In [64]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
dit = {"名字":"复仇者联盟3","投票人数":123456,"类型":"剧情/科幻","产地":"美国","上映时间":"2018-05-04 00:00:00","时长":142,"年代":2018,"评分":np.nan,"首映地点":"美国"}
s = pd.Series(dit)
s.name = 38738
print(s)
df = df.append(s) #覆盖掉原来的数据重新进行赋值
df[-5:]

名字                   复仇者联盟3
投票人数                 123456
类型                    剧情/科幻
产地                       美国
上映时间    2018-05-04 00:00:00
时长                      142
年代                     2018
评分                      NaN
首映地点                     美国
Name: 38738, dtype: object


Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38734,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国
38738,复仇者联盟3,123456.0,剧情/科幻,美国,2018-05-04 00:00:00,142,2018,,美国


In [12]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
dit = {"名字":"复仇者联盟3","投票人数":123456,"类型":"剧情/科幻","产地":"美国","上映时间":"2018-05-04 00:00:00","时长":142,"年代":2018,"评分":np.nan,"首映地点":"美国"}
s = pd.Series(dit)
s.name = 38738
df = df.append(s) #覆盖掉原来的数据重新进行赋值
df = df.drop([38738]) #删除一行
df[-5:]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38733,神学院 S,46.0,Adult,法国,1905-06-05 00:00:00,58,1983,8.6,美国
38734,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国


列操作

In [14]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
print(df.columns)
df["名字"][:5] #后面中括号表示只想看到的行数，下同

Index(['名字', '投票人数', '类型', '产地', '上映时间', '时长', '年代', '评分', '首映地点'], dtype='object')


0    肖申克的救赎
1      控方证人
2     美丽人生 
3      阿甘正传
4      霸王别姬
Name: 名字, dtype: object

In [16]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df[["名字","类型"]][:5]

Unnamed: 0,名字,类型
0,肖申克的救赎,剧情/犯罪
1,控方证人,剧情/悬疑/犯罪
2,美丽人生,剧情/喜剧/爱情
3,阿甘正传,剧情/爱情
4,霸王别姬,剧情/爱情


增加一列

In [17]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df["序号"] = range(1,len(df)+1) #生成序号的基本方式
df[:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点,序号
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节,1
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国,2
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利,3
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映,4
4,霸王别姬,478523.0,剧情/爱情,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港,5


删除一列

In [18]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df["序号"] = range(1,len(df)+1) #生成序号的基本方式
df = df.drop("序号",axis = 1) #axis指定方向，0为行1为列，默认为0
df[:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


通过标签选择数据
```python
df.loc[[index],[colunm]]
```

In [21]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
print(df.loc[1,"名字"])

控方证人


In [22]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df.loc[[1,3,5,7,9],["名字","评分"]] #多行跳行多列跳列选择

Unnamed: 0,名字,评分
1,控方证人,9.5
3,阿甘正传,9.4
5,泰坦尼克号,9.4
7,新世纪福音战士剧场版：Air/真心为你 新世紀エヴァンゲリオン劇場版 Ai,9.4
9,这个杀手不太冷,9.4


条件选择

选取产地为美国的所有电影

In [25]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
#print(df["产地"] == "美国")
df[df["产地"] == "美国"][:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆
6,辛德勒的名单,306904.0,剧情/历史/战争,美国,1993-11-30 00:00:00,195,1993,9.4,华盛顿首映


选取产地为美国的所有电影，并且评分大于9分的电影。

In [77]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df[(df.产地 == "美国") & (df.评分 > 9)][:5] #df.标签:更简洁的写法

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆
6,辛德勒的名单,306904.0,剧情/历史/战争,美国,1993-11-30 00:00:00,195,1993,9.4,华盛顿首映


选取产地为美国或中国大陆的所有电影，并且评分大于9分。

In [26]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df[((df.产地 == "美国") | (df.产地 == "中国大陆")) & (df.评分 > 9)][:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆


### 9.2.4 缺失值及异常值处理

* 缺失值处理方法

|方法|说明|
|:-:|:-:|
|`dropna`|根据标签中的缺失值进行过滤，删除缺失值|
|`fillna`|对缺失值进行填充|
|`isnull`|返回一个布尔值对象，判断哪些值是缺失值|
|`notnull`|`isnull`的否定式|

判断缺失值

In [27]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df[df["名字"].isnull()][:10]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
231,,144.0,纪录片/音乐,韩国,2011-02-02 00:00:00,90,2011,9.7,美国
361,,80.0,短片,其他,1905-05-17 00:00:00,4,1964,5.7,美国
369,,5315.0,剧情,日本,2004-07-10 00:00:00,111,2004,7.5,日本
372,,263.0,短片/音乐,英国,1998-06-30 00:00:00,34,1998,9.2,美国
374,,47.0,短片,其他,1905-05-17 00:00:00,3,1964,6.7,美国
375,,1193.0,短片/音乐,法国,1905-07-01 00:00:00,10,2010,7.7,美国
411,,32.0,短片,其他,1905-05-17 00:00:00,3,1964,7.0,美国
432,,1081.0,剧情/动作/惊悚/犯罪,美国,2016-02-26 00:00:00,115,2016,6.0,美国
441,,213.0,恐怖,美国,2007-03-06 00:00:00,83,2007,3.2,美国
448,,110.0,纪录片,荷兰,2002-04-19 00:00:00,48,2000,9.3,美国


In [28]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df[df["名字"].notnull()][:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


填充缺失值

In [31]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
dit = {"名字":"复仇者联盟3","投票人数":123456,"类型":"剧情/科幻","产地":"美国","上映时间":"2018-05-04 00:00:00","时长":142,"年代":2018,"评分":np.nan,"首映地点":"美国"}
s = pd.Series(dit)
s.name = 38738
df = df.append(s)
df[df["评分"].isnull()][:10]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38738,复仇者联盟3,123456.0,剧情/科幻,美国,2018-05-04 00:00:00,142,2018,,美国


In [30]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
dit = {"名字":"复仇者联盟3","投票人数":123456,"类型":"剧情/科幻","产地":"美国","上映时间":"2018-05-04 00:00:00","时长":142,"年代":2018,"评分":np.nan,"首映地点":"美国"}
s = pd.Series(dit)
s.name = 38738
df = df.append(s)
df["评分"].fillna(np.mean(df["评分"]), inplace = True)
df[-5:]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38734,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国
38738,复仇者联盟3,123456.0,剧情/科幻,美国,2018-05-04 00:00:00,142,2018,6.935704,美国


**注意**：使用均值来替换缺失值，`inplace`表示直接在原始数据中进行修改。

In [97]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
dit = {"名字":"复仇者联盟3","投票人数":123456,"类型":"剧情/科幻","产地":"美国","上映时间":"2018-05-04 00:00:00","时长":142,"年代":2018,"评分":np.nan,"首映地点":"美国"}
s = pd.Series(dit)
s.name = 38738
df = df.append(s)
df1 = df.fillna("未知电影")
df1[df1["名字"] == "复仇者联盟3"]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38738,复仇者联盟3,123456.0,剧情/科幻,美国,2018-05-04 00:00:00,142,2018,未知电影,美国


**注意**：谨慎使用`df.fillna()`，除非确定所有的空值都是在一列中，否则所有的空值都会填成这个函数的参数值。

删除缺失值
```python
df.dropna()
```

参数说明：

* `how = 'all'`：删除全为空值的行或列。
* `inplace = True`：覆盖之前的数据。
* `axis = 0`：选择行或列，默认是行。

In [100]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
print(len(df))
df2 = df.dropna()
print(len(df2))

38738
38175


In [101]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df.dropna(inplace = True)
print(len(df))

38175


处理异常值

异常值，即在数据集中存在不合理的值，又称离群点。比如年龄为-1，笔记本电脑重量为1吨等，都属于异常值的范围。

In [104]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df[df["投票人数"] < 0] #直接删除，或者找原始数据来修正都行

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
19777,皇家大贼 皇家大,-80.0,剧情/犯罪,中国香港,1985-05-31 00:00:00,60,1985,6.3,美国
19786,日本的垃圾去中国大陆 にっぽんの“ゴミ” 大陆へ渡る ～中国式リサイクル錬,-80.0,纪录片,日本,1905-06-26 00:00:00,60,2004,7.9,美国
19797,女教徒,-118.0,剧情,法国,1966-05-06 00:00:00,135,1966,7.8,美国


In [103]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df[df["投票人数"] % 1 != 0] #小数异常值

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
19791,女教师 女教,8.3,剧情/犯罪,日本,1977-10-29 00:00:00,100,1977,6.6,日本
19804,女郎漫游仙境 ドレミファ娘の血は騒,5.9,喜剧/歌舞,日本,1985-11-03 00:00:00,80,1985,6.7,日本
19820,女仆日记,12.87,剧情,法国,2015-04-01 00:00:00,96,2015,5.7,法国
38055,逃出亚卡拉,12.87,剧情/动作/惊悚/犯罪,美国,1979-09-20 00:00:00,112,1979,7.8,美国


对于异常值，一般来说数量都会很少，在不影响整体数据分布的情况下，我们直接删除就可以了。

其他属性的异常值处理，我们会在格式转换部分，进一步讨论。

In [106]:
import pandas as pd
import numpy as np
df = pd.read_excel("../file/豆瓣电影数据.xlsx", index_col = 0)
df = df[df.投票人数 > 0]
df = df[df["投票人数"] % 1 == 0]
print(df[df.投票人数 < 0])
print(df[df["投票人数"] % 1 != 0])

Empty DataFrame
Columns: [名字, 投票人数, 类型, 产地, 上映时间, 时长, 年代, 评分, 首映地点]
Index: []
Empty DataFrame
Columns: [名字, 投票人数, 类型, 产地, 上映时间, 时长, 年代, 评分, 首映地点]
Index: []


## 9.3 Matplotlib
* matplotlib是一个Python的2D图形包。pyplot封装了很多画图的函数。在使用之前还是需要导入相关的包：

```python
import matplotlib.pyplot as plt
import numpy as np
```

* `matplotlib.pyplot`包含一系列类似MATLAB中绘图函数的相关函数。每个`matplotlib.pyplot`中的函数对当前的图像进行一些修改，例如：产生新的图像，在图像中产生新的绘图区域，在绘图区域中画线，给绘图加上标记，等等......。

* `matplotlib.pyplot`会自动记住当前的图像和绘图区域，因此这些函数会直接作用在当前的图像上。

* 在实际的使用过程中，常常以`plt`作为`matplotlib.pyplot`的省略。

### 9.3.1 `plt.show()`函数

* 默认情况下，``matplotlib.pyplot``不会直接显示图像，只有调用``plt.show()``函数时，图像才会显示出来。

* ``plt.show()``默认是在新窗口打开一幅图像，并且提供了对图像进行操作的按钮。
    * 使用Qt（会弹出图形界面）：`%matplotlib qt5`
    * 图形在笔记本中显示为静态：`%matplotlib inline`
    * 图形在笔记本中显示为动态：`%matplotlib notebook`

In [3]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
plt.figure()
plt.show()

### 9.3.2 plt.plot()函数

`plt.plot()`函数可以用来绘线型图。

In [2]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
plt.figure()
plt.plot([1,2,3,4]) #默认以列表的索引作为x，输入的是y
plt.ylabel('y') # 设定y轴标签
plt.xlabel("x轴") #设定x轴标签
plt.show()

x轴标签的“轴”字未能正常显示，出现了中文乱码问题，需要设定中文字体。

In [3]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.figure()
plt.plot([1,2,3,4]) #默认以列表的索引作为x，输入的是y
plt.ylabel('y') # 设定y轴标签
plt.xlabel("x轴") #设定x轴标签
plt.show()

* `plot`函数基本的用法：
    * 指定`x`和`y`
        * `plt.plot(x, y)`
    * 默认参数，`x`为[0, N-1]
        * `plt.plot(y)`

**注意**：上面的例子中，我们没有给定`x`的值，所以其默认值为`[0,1,2,3]`。

下面我们看一个指定`x`和`y`的例子。

In [4]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.figure()
plt.plot([1,2,3,4],[1,4,9,16])
plt.ylabel('y') # 设定y轴标签
plt.xlabel("x轴") #设定x轴标签
plt.show()

和**MATLAB**中类似，我们还可以用字符来指定绘图的格式：
* 表示颜色的字符参数有：

|字符|颜色|
|:-:|:-:|
|``'b'``|蓝色，blue|
|``'g'``|绿色，green|
|``'r'``|红色，red|
|``'c'``|青色，cyan|
|``'m'``|品红，magenta|
|``'y'``|黄色，yellow|
|``'k'``|黑色，black|
|``'w'``|白色，white|

* 表示类型的字符参数有：

|字符|类型|
|:-:|:-:|
|`'-'`|实线|
|`'--'`|虚线|
|`'-.'`|虚点线|
|`':'`|点线|
|`'.'`|点|
|`','`|像素点|
|`'o'`|圆点|
|`'v'`|下三角点|
|`'^'`|上三角点|
|`'<'`|左三角点|
|`'>'`|右三角点|
|`'1'`|下三叉点|
|`'2'`|上三叉点|
|`'3'`|左三叉点|
|`'4'`|右三叉点|
|`'s'`|正方点|
|`'p'`|五角点|
|`'*'`|星形点|
|`'h'`|六边形点1|
|`'H'`|六边形点2|
|`'+'`|加号点|
|`'x'`|乘号点|
|`'D'`|实心菱形点|
|`'d'`|瘦菱形点|
|`'_'`|横线点|

例如我们要画出红色圆点：

In [6]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.figure()
plt.plot([1,2,3,4],[1,4,9,16],"ro")
plt.ylabel('y') # 设定y轴标签
plt.xlabel("x轴") #设定x轴标签
plt.show()

可以看出，有两个点在图像的边缘，因此，我们需要改变轴的显示范围。

* 显示范围：与MATLAB类似，这里可以使用`axis`函数指定坐标轴显示的范围：

```python
plt.axis([xmin, xmax, ymin, ymax])
```

In [7]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.figure()
plt.plot([1,2,3,4],[1,4,9,16],"ro")
plt.axis([0,6,0,20])
plt.ylabel('y') # 设定y轴标签
plt.xlabel("x轴") #设定x轴标签
plt.show()

* 传入`Numpy`数组：之前我们传给`plot`的参数都是列表，事实上，向`plot`中传入`numpy`数组是更常用的做法。事实上，如果传入的是列表，``matplotlib``会在内部将它转化成数组再进行处理：

在一个图里面画多条线

In [9]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.figure()
t = np.arange(0.,5.,0.2)
plt.plot(t,t,"r--")
plt.plot(t,t**2,"bs")
plt.plot(t,t**3,"g^")
plt.ylabel('y') # 设定y轴标签
plt.xlabel("x轴") #设定x轴标签
plt.show()

* 传入多组数据：
    * 事实上，在上面的例子中，我们不仅仅向`plot`函数传入了数组，还传入了多组`(x,y,format_str)`参数，它们在同一张图上显示。
    * 这意味着我们不需要使用多个`plot`函数来画多组数组，只需要可以将这些组合放到一个`plot`函数中去即可。
* 线条属性：之前提到，我们可以用字符串来控制线条的属性，事实上还可以用关键词来改变线条的性质，例如`linewidth`可以改变线条的宽度，`color`可以改变线条的颜色。

In [11]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.figure()
x = np.linspace(-np.pi,np.pi)
y = np.sin(x)
plt.plot(x,y,linewidth = 4.0,color = 'r') #细节调整的两个方式
plt.show()

* 使用`plt.plot()`的返回值来设置线条属性：`plot`函数返回一个`Line2D`对象组成的列表，每个对象代表输入的一对组合。
    * line1,line2 为两个 Line2D 对象
    ```python
    line1, line2 = plt.plot(x1, y1, x2, y2)
    ```
    * 返回3个 Line2D 对象组成的列表
    ```python
    lines = plt.plot(x1, y1, x2, y2, x3, y3)
    ```

In [12]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.figure()
line1,line2 = plt.plot(x,y,"r-",x,y+1,"g-")
line1.set_antialiased(False)  #抗锯齿
plt.show()

In [13]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.figure()
line = plt.plot(x,y,"r-",x,y+1,"g-")
line[1].set_antialiased(False) #列表
plt.show()

* 使用`plt.setp()`修改线条性质

In [16]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.figure()
line = plt.plot(x,y)
plt.setp(line, color = 'g',linewidth = 4)
plt.show()

* 子图
    * `figure()`函数会产生一个指定编号为`num`的图：
    ```python
    plt.figure(num)
    ```
    * 这里，`figure(1)`其实是可以省略的，因为默认情况下`plt`会自动产生一幅图像。

    * 使用`subplot`可以在一幅图中生成多个子图，其参数为：
    ```python
    plt.subplot(numrows, numcols, fignum)
    ```
    * 当`numrows * numncols < 10`时，中间的逗号可以省略，因此`plt.subplot(211)`就相当于`plt.subplot(2,1,1)`。

In [19]:
def f(t):
    return np.exp(-t)*np.cos(2*np.pi*t)

import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

t1 = np.arange(0.0,5.0,0.1)
t2 = np.arange(0.0,4.0,0.02)

plt.figure(figsize = (10,6))
plt.subplot(211)
plt.plot(t1,f(t1),"bo",t2,f(t2),'k') #子图1上有两条线

plt.subplot(212)
plt.plot(t2,np.cos(2*np.pi*t2),"r--")
plt.show()

### 9.3.3 电影数据绘图

在了解绘图的基础知识之后，我们可以对电影数据进行可视化分析。