# 表格类型的大数据处理神器：pandas

pandas 不仅可以从多种不同的文件格式读取数据，还有各种各样的数据处理的功能。可以说学好了 pandas，就基本已经算踏上了数据分析之路。

首先是安装 pandas：

```shell
conda install pandas

# 或者

pip install pandas
```

之后就可以使用 pandas 读取 csv 文件，pandas 模块提供了一个 read_ csv 的方法，可以直接读取 csv 文件，并返回一个 DataFrame 对象。DataFrame 对象是 pandas 模块的核心，pandas 的所有表格都是通过 DataFrame 对象来存储的，并且 DataFrame 还提供了非常多查看数据、修改数据的方法。

## 1 使用 pandas 读取 csv 文件

In [None]:
import pandas as pd

df_rating = pd.read_csv("../02-ExtractContent/kj.csv")

# 当一个 Cell 的最后一行是一个变量时，那 notebook 就会将这个变量打印出来
df_rating

## 2 使用 pandas 读取 excel 文件

在 Python 还没有兴起之前，大量的数据分析是通过 Excel 完成的。这也造就了在很多传统行业中，还有大量的数据是保存在 Excel 中，所以读取 Excel 也是进行分析也是 Python 数据分析领域的常见任务。

In [1]:
import pandas as pd

department_staff = pd.read_excel("department.xlsx")
department_staff

Unnamed: 0,姓名,年龄,籍贯,部门
0,小明,22,河北,IT部
1,小亮,25,广东,IT部
2,小王,23,四川,财务部


In [2]:
import pandas as pd

# 一个 excel 文件可以包含多张表，第二个参数用于指定打开哪张表。
performance = pd.read_excel("department.xlsx", "绩效")
performance

Unnamed: 0,姓名,绩效考核,上期考核结果
0,小明,优秀,优秀
1,小亮,良好,优秀
2,小王,良好,优秀


In [3]:
import pandas as pd

# 打开部份表，并指定只读取相关的列。
performance_partial = pd.read_excel("department.xlsx", "绩效", usecols="A,B")
performance_partial

Unnamed: 0,姓名,绩效考核
0,小明,优秀
1,小亮,良好
2,小王,良好


## 3 使用 pandas 读取 html

有的时候数据并不是整理好的 csv 表格或者 Excel 表格，而是以网页中的表格的形式存在，比如：

- 同花顺的股票涨跌幅数据中心：<http://data.10jqka.com.cn/market/zdfph/>。
- 招商银行外汇：<https://fx.cmbchina.com/hq/>。

虽然可以使用 BeautifulSoup 来解析 html 数据，然后整理为 csv 文件，但是这个过程还是比较麻烦，也需要人工介入分析，幸好 pandas 也提供了一个 read_html 的方法，来智能的提取网页中的所有表格，并以 DataFrame 列表的形式返回，一个表格对应一个 DataFrame。

下面演示使用 pandas 解析招商银行外汇行情的页面：

In [2]:
import urllib3
import pandas as pd


def download_content(target_url):
    http_manager = urllib3.PoolManager()
    http_response = http_manager.request("GET", target_url)
    data = http_response.data
    return data.decode()


html_content = download_content("http://fx.cmbchina.com/Hq/")
cmb_table_list = pd.read_html(html_content)
print(len(cmb_table_list))

2


执行代码，输出结果为 2。这说明找到了两个表格，但我们回过头去看网页，主体应该只有一个表格。这种情况还是比较常见的，多半是网页在一些不是表格的元素也使用了表格的标签，导致 pandas 识别多了一个，遇到这样的情况我们只需要逐一查看返回的 DataFrame 列表，找到我们要的即可。

In [3]:
import urllib3
import pandas as pd

html_content = download_content("http://fx.cmbchina.com/Hq/")
cmb_table_list = pd.read_html(html_content)

# 分别使用 0 和 1 来打印，这里会发现第 2 个表格是我们需要的数据。
cmb_table_list[1]

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,交易币,交易币单位,基本币,现汇卖出价,现钞卖出价,现汇买入价,现钞买入价,时间,汇率走势图
1,港币,100,人民币,88.36,88.36,88.00,87.39,16:03:18,查看历史>>
2,新西兰元,100,人民币,425.87,425.87,422.47,409.11,16:03:18,查看历史>>
3,澳大利亚元,100,人民币,456.92,456.92,453.28,438.94,16:03:18,查看历史>>
4,美元,100,人民币,694.37,694.37,689.98,684.34,16:03:18,查看历史>>
5,欧元,100,人民币,739.17,739.17,733.29,710.09,16:03:18,查看历史>>
6,加拿大元,100,人民币,502.36,502.36,498.36,482.60,16:03:18,查看历史>>
7,英镑,100,人民币,835.26,835.26,828.60,802.40,16:03:18,查看历史>>
8,日元,100,人民币,5.1529,5.1529,5.1119,4.9502,16:03:18,查看历史>>
9,新加坡元,100,人民币,514.04,514.04,509.94,493.81,16:03:18,查看历史>>
