### 1.pandas

> pandas is an open source, BSD-licensed library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language.

**pandas**作为**python数据处理**的利器，提供了快速便捷处理结构化数据的大量数据结构和函数，兼具了NumPy高性能的数组计算功能以及电子表格和关系型数据库（如SQL）灵活的数据处理功能，并且提供了复杂精细的索引功能，能更加便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。
因此，**pandas**也是python进行**机器学习（Machine Learning）**数据操作、准备、清洗的首选框架。

### 2.quick start

要使用**pandas**首先需要安装好**pandas**依赖包，**pip**安装指令：
```python
pip install pandas
```

有了**pandas**环境之后，就可以在项目中引入**pandas**：

In [1]:
import pandas as pd

为了快速开始获取数据，现在直接使用**pandas**加载网上的`table`数据：

In [2]:
df = pd.read_html('http://ranking.promisingedu.com/qs')  #  2020年QS世界大学综合排名

In [3]:
df[0]

Unnamed: 0,Ranking,University English Name,Country/Region,Academic Reputation,Employer Reputation,Faculty Student,International Faculty,International Students,Citations per Faculty,Overall Score,Free
0,1,麻省理工学院Massachusetts Institute of Technology,United States,100.0,100.0,100.0,100,94.1,99.8,100.0,免费评估
1,2,斯坦福大学Stanford University,United States,100.0,100.0,100.0,99.8,67.7,98.6,98.4,免费评估
2,3,哈佛大学Harvard University,United States,100.0,100.0,98.7,86.3,62.2,99.6,97.4,免费评估
3,4,牛津大学University of Oxford,United Kingdom,100.0,100.0,100.0,99.7,98.5,84.7,97.2,免费评估
4,5,加利福尼亚理工学院California Institute of Technology,United States,97.8,81.2,100.0,99.4,87.3,100.0,96.9,免费评估
5,6,ETH Zurich - Swiss Federal Institute of Techno...,Switzerland,98.4,96.7,85.0,100,98,98.4,95.9,免费评估
6,7,剑桥大学University of Cambridge,United Kingdom,100.0,100.0,100.0,100,97.6,74.2,95.0,免费评估
7,8,伦敦大学学院University College London,United Kingdom,99.3,98.7,98.1,99.1,100,76.7,94.8,免费评估
8,9,帝国理工学院Imperial College London,United Kingdom,98.6,99.9,99.8,100,100,72.1,94.1,免费评估
9,10,芝加哥大学The University of Chicago,United States,99.5,93.7,96.5,70.2,81,78.5,92.0,免费评估


### 3.Series&DataFrame

**pandas**框架中最重要的数据结构是**[DataFrame](https://pandas.pydata.org/docs/reference/frame.html)**（Two-dimensional, size-mutable, potentially heterogeneous tabular data）和**[Series](https://pandas.pydata.org/docs/reference/series.html)**（One-dimensional ndarray with axis labels）。虽然它们并不能解决所有问题，但它们为大多数应用提供了一种可靠的、易于使用的基础。

#### 3.1Series

**Series**是一种类似于一维数组的对象，它由一组数据以及一组与之相关的数据标签（`index`）组成。

**Series**创建非常简单，只需要一个**python**列表：

In [4]:
s = pd.Series(range(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

其中，左边一列是**Series**的`index`，默认情况下`index`是由`0`开始的整数序列。

#### 3.2 DataFrame

**DataFrame**是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。
**DataFrame**既有行索引（`index`）也有列索引（`column`），它可以被看做由Series组成的字典（共用同一个索引）。

**DataFrame**作为**pandas**最为常见的数据结构，在数据分析领域也经常使用，创建也非常简单：

In [5]:
import numpy as np
d = pd.DataFrame(np.arange(10).reshape(2, 5))
d

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9


**DataFrame**最左边一列也是`index`，与Series不同的是，**DataFrame**最上面一行是`column`，而且，**DataFrame**的每一列数据可以看作是一个**Serise**。本文的后面部分将重点对**DataFrame**进行讲解。

### 4.Pandas实战

> 本文的实战部分以[广东省2020年5月20日婚姻登记数据](https://download.csdn.net/download/magician_Code/12495764)为例。

In [6]:
df = pd.read_csv('广东省20200520婚姻登记数据.csv', header=None, names=['预约业务', '预约登记号', '预约日期', '预约登记机关', '预约登记机关地址', '预约登记机关电话'])

In [7]:
df.shape

(7054, 6)

上面通过`pd.read_csv`读取**csv**文件数据转换成`DataFrame`保存在`df`变量中。**pandas**提供了很多便捷的**DataFrame**操作，使得用户可以通过简单的代码实现很多复杂的数据表处理的功能，并且远比直接使用**Excel**高效得多。下面以不同场景来进行**pandas**操作讲解。

#### 4.1筛选列（**column**）

现在要筛选出**预约登记号**这一列，**pandas**提供了类似`Numpy`的索引功能，可以通过`df.预约登记号`或者`df['预约登记号']`实现。

In [8]:
df.预约登记号

0       U02200520002215
1       V41200520000417
2       N04200520011818
3       R03200520004410
4       B01200520008219
5       B01200520009015
6       E09200520001814
7       E03200520005713
8       S01200520007417
9       S01200520019911
10      M04200520006819
11      L04200520000315
12      R07200520015111
13      H10200520000214
14      N04200520006315
15      P03200520008419
16      P04200520006419
17      L04200520001516
18      P06200520002018
19      F15200520002413
20      T18200520000211
21      V12200520000410
22      E18200520002812
23      M05200520006419
24      M05200520006513
25      R03200520001516
26      R03200520002111
27      M05200520003815
28      M02200520003511
29      H05200520001812
             ...       
7024    A16200520000436
7025    W05200520000133
7026    C01200520000137
7027    K03200520000131
7028    B02200520000336
7029    N08200520000133
7030    A15200520000136
7031    B10200520000139
7032    B01200520000535
7033    B02200520000239
7034    B0120052

值得注意的是，如果列名包含空格（` `）等特殊字符，那么只能通过类似**python**获取字典值的方式`df['列名']`来获取。
另外，跟上面提到的一样，这里筛选出来的每一列都是一个`Series`，所以`DataFrame`可以简单得看成是**列方向上的`Series`集合**。

In [9]:
type(df['预约登记号'])

pandas.core.series.Series

如果要筛选多列，则可以传入列名列表：

In [10]:
df[['预约登记号', '预约日期']]

Unnamed: 0,预约登记号,预约日期
0,U02200520002215,2020-05-20 11:00-11:30
1,V41200520000417,2020-05-20 10:00-11:00
2,N04200520011818,2020-05-20 10:00-11:00
3,R03200520004410,2020-05-20 8:30-9:00
4,B01200520008219,2020-05-20 10:00-11:00
5,B01200520009015,2020-05-20 16:30-17:00
6,E09200520001814,2020-05-20 11:30-12:00
7,E03200520005713,2020-05-20 15:30-16:30
8,S01200520007417,2020-05-20 13:00-13:30
9,S01200520019911,2020-05-20 13:00-13:30


#### 4.2筛选行（row）

**DataFrame**的每一行数据可以看成是一个索引（`index`）和一组数据（`series`）组成的**元组（`tuple`）**，下面遍历行数据例子，也显而易见得说明其真实数据结构确实如此：

In [11]:
for row in df.iterrows():
    print(row)
    break

(0, 预约业务                          结婚登记
预约登记号              U02200520002215
预约日期        2020-05-20 11:00-11:30
预约登记机关                 湘桥区民政局婚姻登记处
预约登记机关地址         潮州市湘桥区湘桥街道金龙大酒店后面
预约登记机关电话              0768-2216363
Name: 0, dtype: object)


所以，更优雅的方式是通过分别读取`index`和`Series`的方式遍历行数据：

In [12]:
for index, row in df.iterrows():
    business = row['预约业务']
    business_no = row['预约登记号']
    print(index, business, business_no)
    break

0 结婚登记 U02200520002215


对于**DataFrame**，**pandas**提供了**切片（slice）**的方式来进行数据筛选。比如筛选出前10行：

In [13]:
df[:10]

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
1,结婚登记,V41200520000417,2020-05-20 10:00-11:00,揭阳市惠来县神泉镇人民政府婚姻登记处,揭阳市惠来县神泉镇人民政府公共服务中心一楼（神泉镇东风路东）,0663-6711202
2,结婚登记,N04200520011818,2020-05-20 10:00-11:00,汕尾市海丰县民政局婚姻登记处,海丰县324国道县城西段468号,0660-6681900
3,结婚登记,R03200520004410,2020-05-20 8:30-9:00,清远市阳山县民政局婚姻登记处,广东省清远市阳山县城连江大道170号民政局二楼,0763－7802629
4,结婚登记,B01200520008219,2020-05-20 10:00-11:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
5,结婚登记,B01200520009015,2020-05-20 16:30-17:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
6,结婚登记,E09200520001814,2020-05-20 11:30-12:00,佛山市南海区里水镇人民政府婚姻登记处,佛山市南海区里水镇和顺沿江北路6号（和顺行政服务中心）,0757-85609977
7,结婚登记,E03200520005713,2020-05-20 15:30-16:30,佛山市南海区民政局婚姻登记处,南海区桂城街道海五路俊雅花园48座1楼,0757-86258192
8,结婚登记,S01200520007417,2020-05-20 13:00-13:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358
9,结婚登记,S01200520019911,2020-05-20 13:00-13:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358


In [14]:
df[10:20]

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
10,结婚登记,M04200520006819,2020-05-20 14:30-15:30,梅州市丰顺县民政局婚姻登记处,广东省梅州市丰顺县广场南,0753-6686239
11,结婚登记,L04200520000315,2020-05-20 10:00-11:00,惠东县民政局婚姻登记处,惠州市惠东县新平大道139号,0752-8160812
12,结婚登记,R07200520015111,2020-05-20 14:00-14:30,英德市民政局婚姻登记处,英德市英城富强路民政局婚姻登记处（英城镇街道对面）,0763-6835698.6835699
13,结婚登记,H10200520000214,2020-05-20 11:00-11:30,四会市高新区婚姻登记处,肇庆高新区富民大厦1楼,0758-3643236
14,结婚登记,N04200520006315,2020-05-20 8:30-9:00,汕尾市海丰县民政局婚姻登记处,海丰县324国道县城西段468号,0660-6681900
15,结婚登记,P03200520008419,2020-05-20 15:30-16:30,河源市紫金县民政局婚姻登记处,紫金县行政服务中心,0762-7812313
16,结婚登记,P04200520006419,2020-05-20 10:00-11:00,河源市龙川县民政局婚姻登记处,河源市龙川县老隆镇隆兴路,0762-6899991
17,结婚登记,L04200520001516,2020-05-20 10:00-11:00,惠东县民政局婚姻登记处,惠州市惠东县新平大道139号,0752-8160812
18,结婚登记,P06200520002018,2020-05-20 10:00-11:00,河源市和平县民政局婚姻登记处,河源市和平县科技局（工业大道西100米）,0762-5612299
19,结婚登记,F15200520002413,2020-05-20 15:30-16:30,韶关市乐昌市民政局婚姻登记处,广东省韶关市乐昌市昌山西路113号,0751-5573762


In [15]:
df[-10:]

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
7044,婚姻登记记录证明,S01200520000153,2020-05-20 15:30-16:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358
7045,婚姻登记记录证明,B08200520000154,2020-05-20 14:00-14:30,深圳市龙华区民政局婚姻登记处,深圳市龙华区清龙路8号,0755-23336173
7046,婚姻登记记录证明,J05200520000152,2020-05-20 15:30-16:30,开平市民政局婚姻登记处,广东省江门市开平市东兴大道人和东路10号,0750-2215434
7047,婚姻登记记录证明,E04200520000155,2020-05-20 9:00-10:00,佛山市南海区九江镇人民政府婚姻登记处,南海区九江镇梅圳广佛壹号商贸物流城启航大道1号A栋九江镇行政综合服务中心婚姻登记处,0757-81866127
7048,婚姻登记记录证明,B02200520000358,2020-05-20 9:00-10:00,深圳市福田区民政局婚姻登记处,深圳市福田区农园路30号香蜜公园西门（原市农科中心）,0755-82928049
7049,婚姻登记记录证明,M06200520000259,2020-05-20 9:00-10:00,兴宁市民政局婚姻登记处,广东省梅州市兴宁市和平路文化广场行政服务中心3层,0753-3253381
7050,婚姻登记记录证明,B08200520000250,2020-05-20 9:00-10:00,深圳市龙华区民政局婚姻登记处,深圳市龙华区清龙路8号,0755-23336173
7051,婚姻登记记录证明,V52200520000157,2020-05-20 16:30-17:00,普宁市洪阳镇人民政府婚姻登记处,普宁市洪阳镇政府大院内公共服务中心婚姻登记窗口,0663-2842244
7052,婚姻登记记录证明,D17200520000153,2020-05-20 10:00-11:00,汕头市潮南区民政局婚姻登记处,广东省汕头市潮南区峡山街道东山居委东祥路,0754-87917596
7053,婚姻登记记录证明,M06200520000155,2020-05-20 8:30-9:00,兴宁市民政局婚姻登记处,广东省梅州市兴宁市和平路文化广场行政服务中心3层,0753-3253381


**DataFram**的切片还能对列起作用，例如，筛选出前十行中的前两列：

In [16]:
df[:10]

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
1,结婚登记,V41200520000417,2020-05-20 10:00-11:00,揭阳市惠来县神泉镇人民政府婚姻登记处,揭阳市惠来县神泉镇人民政府公共服务中心一楼（神泉镇东风路东）,0663-6711202
2,结婚登记,N04200520011818,2020-05-20 10:00-11:00,汕尾市海丰县民政局婚姻登记处,海丰县324国道县城西段468号,0660-6681900
3,结婚登记,R03200520004410,2020-05-20 8:30-9:00,清远市阳山县民政局婚姻登记处,广东省清远市阳山县城连江大道170号民政局二楼,0763－7802629
4,结婚登记,B01200520008219,2020-05-20 10:00-11:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
5,结婚登记,B01200520009015,2020-05-20 16:30-17:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
6,结婚登记,E09200520001814,2020-05-20 11:30-12:00,佛山市南海区里水镇人民政府婚姻登记处,佛山市南海区里水镇和顺沿江北路6号（和顺行政服务中心）,0757-85609977
7,结婚登记,E03200520005713,2020-05-20 15:30-16:30,佛山市南海区民政局婚姻登记处,南海区桂城街道海五路俊雅花园48座1楼,0757-86258192
8,结婚登记,S01200520007417,2020-05-20 13:00-13:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358
9,结婚登记,S01200520019911,2020-05-20 13:00-13:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358


直接通过类python或者Numpy表达式的方式来获取切片显然更加直观，出于性能考虑，**pandas**官方还是建议用户使用`at`、`iat`、`loc`或`iloc`等方法来筛选数据：
**While standard Python / Numpy expressions for selecting and setting are intuitive and come in handy for interactive work, for production code, we recommend the optimized pandas data access methods, .at, .iat, .loc and .iloc.**

下面就来介绍这里提到的`at`、`iat`、`loc`和`iloc`方法。

#### 4.3使用pandas方法筛选数据

##### 4.3.1.DataFrame.at

`DataFrame.at`方法可以根据行和列的`label`值来获取对应“单元格”的数据。

In [17]:
df.at[0, '预约登记号']

'U02200520002215'

上面的方法等价于:

In [18]:
df['预约登记号'][0]

'U02200520002215'

##### 4.3.2DataFrame.iat

`DataFrame.iat`方法可以根据行和列的`index`（索引）值来获取对应“单元格”的数据。

In [19]:
df.iat[0, 1]

'U02200520002215'

##### 4.3.3DataFrame.loc

`DataFrame.loc`方法可以根据参数返回若干行或列数据，可以传递的参数情况如下：
* 单个`label`值，如`5`或者`a`（需要注意的是，这里的`5`是**label**值，而不是下表值）
* `label`列表，如['a', 'b', 'c']
* 切片对象，如：'a':'f'
* 一个长度和对应维度数据条数相同的`boolean`类型列表，如：[True, False, True]
* 一个回调函数

> `DataFrame.loc[]` is primarily `label` based, but may also be used with a `boolean array`.

接下来是几个应用`DataFrame.loc`的例子。

* 单个`label`值

In [20]:
df.loc[0]

预约业务                          结婚登记
预约登记号              U02200520002215
预约日期        2020-05-20 11:00-11:30
预约登记机关                 湘桥区民政局婚姻登记处
预约登记机关地址         潮州市湘桥区湘桥街道金龙大酒店后面
预约登记机关电话              0768-2216363
Name: 0, dtype: object

返回的是`Series`类型的行数据。

* `label`值列表

In [21]:
df.loc[[0, 5, 10, 15, 20]]

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
5,结婚登记,B01200520009015,2020-05-20 16:30-17:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
10,结婚登记,M04200520006819,2020-05-20 14:30-15:30,梅州市丰顺县民政局婚姻登记处,广东省梅州市丰顺县广场南,0753-6686239
15,结婚登记,P03200520008419,2020-05-20 15:30-16:30,河源市紫金县民政局婚姻登记处,紫金县行政服务中心,0762-7812313
20,结婚登记,T18200520000211,2020-05-20 10:00-11:00,中山市大涌镇人民政府婚姻登记处,广东省中山市大涌镇德政路72号,0760-87725325


使用列表返回的是若干行数据（`Series`）组成的`DataFrame`。

* 行和列的`label`值

In [22]:
df.loc[0, '预约登记号']

'U02200520002215'

等价于`df['预约登记号'][0]`和`df.at[0, '预约登记号']`。

* 行的`label`值切片和单个列`label`值

In [23]:
df.loc[0:5, '预约登记号']

0    U02200520002215
1    V41200520000417
2    N04200520011818
3    R03200520004410
4    B01200520008219
5    B01200520009015
Name: 预约登记号, dtype: object

需要注意的是，`DataFrame.loc`传入切片时（行或列），返回包括切片的开始和结束的元素对应的数据。

* 长度与行数相同的`boolean`类型列表

In [24]:
df[:5].loc[[True, False, True, False, True]]

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
2,结婚登记,N04200520011818,2020-05-20 10:00-11:00,汕尾市海丰县民政局婚姻登记处,海丰县324国道县城西段468号,0660-6681900
4,结婚登记,B01200520008219,2020-05-20 10:00-11:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873


注意，当使用`boolean`类型列表时，长度必须要与`DataFrame`的行或列的记录条数相同。这里为了简便，先筛选出了前5行数据，再进行`loc`操作。

* 返回`boolean`类型`Series`的条件语句

In [25]:
df.loc[df['预约业务'] == '结婚登记']

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
1,结婚登记,V41200520000417,2020-05-20 10:00-11:00,揭阳市惠来县神泉镇人民政府婚姻登记处,揭阳市惠来县神泉镇人民政府公共服务中心一楼（神泉镇东风路东）,0663-6711202
2,结婚登记,N04200520011818,2020-05-20 10:00-11:00,汕尾市海丰县民政局婚姻登记处,海丰县324国道县城西段468号,0660-6681900
3,结婚登记,R03200520004410,2020-05-20 8:30-9:00,清远市阳山县民政局婚姻登记处,广东省清远市阳山县城连江大道170号民政局二楼,0763－7802629
4,结婚登记,B01200520008219,2020-05-20 10:00-11:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
5,结婚登记,B01200520009015,2020-05-20 16:30-17:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
6,结婚登记,E09200520001814,2020-05-20 11:30-12:00,佛山市南海区里水镇人民政府婚姻登记处,佛山市南海区里水镇和顺沿江北路6号（和顺行政服务中心）,0757-85609977
7,结婚登记,E03200520005713,2020-05-20 15:30-16:30,佛山市南海区民政局婚姻登记处,南海区桂城街道海五路俊雅花园48座1楼,0757-86258192
8,结婚登记,S01200520007417,2020-05-20 13:00-13:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358
9,结婚登记,S01200520019911,2020-05-20 13:00-13:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358


* 返回`boolean`类型`Series`的条件语句和一个列`label`值

In [26]:
df.loc[df['预约业务'] == '结婚登记', ['预约登记号']]

Unnamed: 0,预约登记号
0,U02200520002215
1,V41200520000417
2,N04200520011818
3,R03200520004410
4,B01200520008219
5,B01200520009015
6,E09200520001814
7,E03200520005713
8,S01200520007417
9,S01200520019911


* 返回`boolean`类型`Series`的函数

In [27]:
df.loc[lambda df: df['预约业务'] == '结婚登记']

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
1,结婚登记,V41200520000417,2020-05-20 10:00-11:00,揭阳市惠来县神泉镇人民政府婚姻登记处,揭阳市惠来县神泉镇人民政府公共服务中心一楼（神泉镇东风路东）,0663-6711202
2,结婚登记,N04200520011818,2020-05-20 10:00-11:00,汕尾市海丰县民政局婚姻登记处,海丰县324国道县城西段468号,0660-6681900
3,结婚登记,R03200520004410,2020-05-20 8:30-9:00,清远市阳山县民政局婚姻登记处,广东省清远市阳山县城连江大道170号民政局二楼,0763－7802629
4,结婚登记,B01200520008219,2020-05-20 10:00-11:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
5,结婚登记,B01200520009015,2020-05-20 16:30-17:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
6,结婚登记,E09200520001814,2020-05-20 11:30-12:00,佛山市南海区里水镇人民政府婚姻登记处,佛山市南海区里水镇和顺沿江北路6号（和顺行政服务中心）,0757-85609977
7,结婚登记,E03200520005713,2020-05-20 15:30-16:30,佛山市南海区民政局婚姻登记处,南海区桂城街道海五路俊雅花园48座1楼,0757-86258192
8,结婚登记,S01200520007417,2020-05-20 13:00-13:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358
9,结婚登记,S01200520019911,2020-05-20 13:00-13:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358


##### 4.3.4DataFrame.iloc

`DataFrame.iloc`可以根据行或列的下标值来获取数据，可以传递的参数情况如下：
* 一个整数，如`5`
* 整数列表，如`[4, 3, 0]`
* 整数切片，如`1:7`
* `boolean`类型的列表
* 一个回调函数

> `DataFrame.iloc[]` is primarily `integer` position based (from 0 to length-1 of the axis), but may also be used with a `boolean` array.

接下来是几个应用`DataFrame.iloc`的例子。

* 一个整数

In [28]:
df.iloc[0]

预约业务                          结婚登记
预约登记号              U02200520002215
预约日期        2020-05-20 11:00-11:30
预约登记机关                 湘桥区民政局婚姻登记处
预约登记机关地址         潮州市湘桥区湘桥街道金龙大酒店后面
预约登记机关电话              0768-2216363
Name: 0, dtype: object

返回的是第一行数据的`Series`。

* 整数列表

In [29]:
df.iloc[[0, 1, 2]]

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
1,结婚登记,V41200520000417,2020-05-20 10:00-11:00,揭阳市惠来县神泉镇人民政府婚姻登记处,揭阳市惠来县神泉镇人民政府公共服务中心一楼（神泉镇东风路东）,0663-6711202
2,结婚登记,N04200520011818,2020-05-20 10:00-11:00,汕尾市海丰县民政局婚姻登记处,海丰县324国道县城西段468号,0660-6681900


返回的是前三行数据`Series`组成的`DataFrame`。

* 整数切片

In [30]:
df.iloc[:3]

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
1,结婚登记,V41200520000417,2020-05-20 10:00-11:00,揭阳市惠来县神泉镇人民政府婚姻登记处,揭阳市惠来县神泉镇人民政府公共服务中心一楼（神泉镇东风路东）,0663-6711202
2,结婚登记,N04200520011818,2020-05-20 10:00-11:00,汕尾市海丰县民政局婚姻登记处,海丰县324国道县城西段468号,0660-6681900


* 长度与行数相同的`boolean`类型列表

In [31]:
df[:5].iloc[[True, False, True, False, True]]

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
2,结婚登记,N04200520011818,2020-05-20 10:00-11:00,汕尾市海丰县民政局婚姻登记处,海丰县324国道县城西段468号,0660-6681900
4,结婚登记,B01200520008219,2020-05-20 10:00-11:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873


注意，当使用`boolean`类型列表时，长度必须要与`DataFrame`的行或列的记录条数相同。这里为了简便，先筛选出了前5行数据，再进行`iloc`操作。

* 返回`boolean`类型`Series`的函数

In [32]:
df.iloc[lambda x: x.index % 1000 == 0]

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
1000,结婚登记,B01200520001814,2020-05-20 15:30-16:30,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
2000,结婚登记,R07200520009810,2020-05-20 10:00-11:00,英德市民政局婚姻登记处,英德市英城富强路民政局婚姻登记处（英城镇街道对面）,0763-6835698.6835699
3000,结婚登记,P05200520000819,2020-05-20 10:00-11:00,河源市连平县民政局婚姻登记处,连平县东园大道75号,0762-4302553
4000,结婚登记,E18200520000513,2020-05-20 11:00-11:30,佛山市顺德区龙江镇人民政府婚姻登记处,顺德区龙江镇龙洲西路镇政府一楼,0757-23368705
5000,结婚登记,J01200520002618,2020-05-20 15:30-16:30,江门市蓬江区民政局婚姻登记处,江门市白沙大道东6号,0750-3399520、3399517
6000,结婚登记,F12200520000815,2020-05-20 9:00-10:00,韶关市翁源县民政局婚姻登记处,翁源县龙仙镇文化路130号,0751-2815313
7000,离婚登记,L03200520001125,2020-05-20 14:00-14:30,博罗县民政局婚姻登记处,博罗县罗阳镇商业西街155号社会服务中心大楼,0752-6206192


前面几个例子都是在行的维度（`axis=0`）上进行的操作，大体上也跟`loc`类似，接下来的几个例子是针对行和列两个维度的`iloc`操作。

* 行和列的下标值

In [33]:
df.iloc[0, 1]

'U02200520002215'

等价于`df.iat[0, 1]`。

* 行和列的下标值列表

In [34]:
df.iloc[[0, 2], [1, 3]]

Unnamed: 0,预约登记号,预约登记机关
0,U02200520002215,湘桥区民政局婚姻登记处
2,N04200520011818,汕尾市海丰县民政局婚姻登记处


* 行和列的下标切片

In [35]:
df.iloc[1:3, 0:3]

Unnamed: 0,预约业务,预约登记号,预约日期
1,结婚登记,V41200520000417,2020-05-20 10:00-11:00
2,结婚登记,N04200520011818,2020-05-20 10:00-11:00


* 指定列的`boolean`列表

In [36]:
df[:5].iloc[:, [True, False, True, False, True]]

Unnamed: 0,预约业务,预约日期,预约登记机关地址
0,结婚登记,2020-05-20 11:00-11:30,潮州市湘桥区湘桥街道金龙大酒店后面
1,结婚登记,2020-05-20 10:00-11:00,揭阳市惠来县神泉镇人民政府公共服务中心一楼（神泉镇东风路东）
2,结婚登记,2020-05-20 10:00-11:00,海丰县324国道县城西段468号
3,结婚登记,2020-05-20 8:30-9:00,广东省清远市阳山县城连江大道170号民政局二楼
4,结婚登记,2020-05-20 10:00-11:00,深圳市罗湖区沿河北路2021号


* 返回下标列表的函数

In [37]:
df[:5].iloc[:, lambda df: [0, 2]]

Unnamed: 0,预约业务,预约日期
0,结婚登记,2020-05-20 11:00-11:30
1,结婚登记,2020-05-20 10:00-11:00
2,结婚登记,2020-05-20 10:00-11:00
3,结婚登记,2020-05-20 8:30-9:00
4,结婚登记,2020-05-20 10:00-11:00


> 前面用了大量篇幅讲解了用**pandas**获取数据，基本涵盖了一般的应用场景。有一点需要注意的是，无论是`at`、`iat`、`loc`还是`iloc`，都只是返回了`DataFrame`本身的副本，`DataFrame`原来的数据并没有改变，如果要筛选覆盖`DataFrame`，则需要用赋值的方式，如：`df = df.loc[:5]`。
<br>
> 另外，要修改`DataFrame`本身的数据，可以直接对筛选出来的子集进行赋值，例如：`df.iloc[0, 0] = '离婚登记'`，需要注意的是，赋值语句右边的值必须要与筛选出来的子集类型、结构和规模一致，才能一一对应修改，否则就会报错。例如，`df.iloc[0:2, 0]`返回的是前两行的"预约业务"数据（Series），可以使用`df.iloc[0:2, 0] = ['离婚登记', '离婚登记']`或者`df.iloc[0:2, 0] = {0: '离婚登记', 1: '离婚登记'}`进行修改。如果修改的子集是`DataFrame`则需要用二维的数据结构进行赋值。

#### 4.4数据描述

在进行数据统计中，往往需要查看数据的整体情况，例如最小值、最大值或者数据分布情况，本节将对常见的统计场景进行讲解。

* 查看记录数

In [38]:
df.count()

预约业务        7054
预约登记号       7054
预约日期        7054
预约登记机关      7054
预约登记机关地址    6943
预约登记机关电话    6943
dtype: int64

这里的"预约登记机关地址"和"预约登记机关电话"记录数不是7054的原因是有空的记录。

* 最小值

In [39]:
df.loc[:, '预约登记号'].min()

'A01200520000119'

* 最大值

In [40]:
df.loc[:, '预约登记号'].max()

'W05200520006818'

* 数据分布

In [41]:
df.loc[:, '预约业务'].value_counts()

结婚登记        6789
离婚登记         216
补领《结婚证》       36
婚姻登记记录证明      10
补领《离婚证》        3
Name: 预约业务, dtype: int64

#### 4.5数据查询

这里的**数据查询（`query`）**跟上面的**数据筛选（`select`）**有点不同，数据查询是**设置查询条件**对数据进行查询，**pandas**对数据查询提供了类似于**SQL**查询语法的操作（`DataFrame.query`）。

* 查找预约业务为“结婚登记”的数据

In [42]:
df.query('预约业务=="结婚登记"')

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
0,结婚登记,U02200520002215,2020-05-20 11:00-11:30,湘桥区民政局婚姻登记处,潮州市湘桥区湘桥街道金龙大酒店后面,0768-2216363
1,结婚登记,V41200520000417,2020-05-20 10:00-11:00,揭阳市惠来县神泉镇人民政府婚姻登记处,揭阳市惠来县神泉镇人民政府公共服务中心一楼（神泉镇东风路东）,0663-6711202
2,结婚登记,N04200520011818,2020-05-20 10:00-11:00,汕尾市海丰县民政局婚姻登记处,海丰县324国道县城西段468号,0660-6681900
3,结婚登记,R03200520004410,2020-05-20 8:30-9:00,清远市阳山县民政局婚姻登记处,广东省清远市阳山县城连江大道170号民政局二楼,0763－7802629
4,结婚登记,B01200520008219,2020-05-20 10:00-11:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
5,结婚登记,B01200520009015,2020-05-20 16:30-17:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
6,结婚登记,E09200520001814,2020-05-20 11:30-12:00,佛山市南海区里水镇人民政府婚姻登记处,佛山市南海区里水镇和顺沿江北路6号（和顺行政服务中心）,0757-85609977
7,结婚登记,E03200520005713,2020-05-20 15:30-16:30,佛山市南海区民政局婚姻登记处,南海区桂城街道海五路俊雅花园48座1楼,0757-86258192
8,结婚登记,S01200520007417,2020-05-20 13:00-13:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358
9,结婚登记,S01200520019911,2020-05-20 13:00-13:30,东莞市民政局婚姻登记管理中心,广东省东莞市南城街道鸿福路199号市民服务中心一楼婚姻登记区,0769-22220199、0769-22220358


* 查找预约登记机关为“罗湖区民政局婚姻登记处”的结婚登记数据

In [43]:
df.query('预约业务=="结婚登记" & 预约登记机关=="罗湖区民政局婚姻登记处"')

Unnamed: 0,预约业务,预约登记号,预约日期,预约登记机关,预约登记机关地址,预约登记机关电话
4,结婚登记,B01200520008219,2020-05-20 10:00-11:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
5,结婚登记,B01200520009015,2020-05-20 16:30-17:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
83,结婚登记,B01200520005517,2020-05-20 10:00-11:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
84,结婚登记,B01200520006619,2020-05-20 11:00-11:30,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
87,结婚登记,B01200520012418,2020-05-20 14:00-14:30,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
337,结婚登记,B01200520004319,2020-05-20 11:00-11:30,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
340,结婚登记,B01200520005112,2020-05-20 14:00-14:30,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
403,结婚登记,B01200520011314,2020-05-20 15:30-16:30,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
574,结婚登记,B01200520002118,2020-05-20 15:30-16:30,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873
584,结婚登记,B01200520000619,2020-05-20 10:00-11:00,罗湖区民政局婚姻登记处,深圳市罗湖区沿河北路2021号,0755-25608873


#### 4.6保存数据

前面的章节展示了**pandas**在数据读取、筛选、查询以及操作方面的强大和简便，也不愧于**python数据分析利器**。最后，在本文最后一个实战，来对上一节查询出来的数据进行保存到**CSV**的操作。

In [44]:
df.query('预约业务=="结婚登记" & 预约登记机关=="罗湖区民政局婚姻登记处"').to_csv('罗湖区民政局婚姻登记处2020520数据.csv')