# 从 JSON 和 XML 文件中提取数据

现在你要练习从 JSON 和 XML 文件中提取数据了。要提取的数据和上个练习是一样的，只是文件格式不同。

JSON 和 XML 都是存储数据的常用格式。XML 比 JSON 出现得更早，JSON 目前更受欢迎。他们都用来通过网络 API 发送数据，这会在后面学到。

有时，你要获取的数据有 JSON 和 XML 两种格式，世界银行指标数据就提供了这两种格式。在本练习中，你使用的是相同的数据，只不过一个是 JSON 文件，一个是 XML 文件。

# 从 JSON 文件中提取数据

首先，你要练习从 JSON 文件中提取数据。运行下面的单元格打印 JSON 文件的第一行。

In [None]:
### 
#   Run the following cell.
#   This cell loads a function that prints the first n lines of
#   a file.
#
#   Then this function is called on the JSON file to print out
#   the first line of the population_data.json file
###

def print_lines(n, file_name):
    f = open(file_name)
    for i in range(n):
        print(f.readline())
    f.close()
    
print_lines(1, 'population_data.json')

这个文件的第一行其实就是整个文件了。JSON 是一种将数据表示为类似词典的紧凑的格式。幸运的是，pandas 有一个方法 [读取 JSON 文件](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_json.html) 并将结果进行解析。 

打开链接中的文档，你会看到一个 *orient* 参数让你能处理多种格式的 JSON 文件：
```
'split' : dict like {index -> [index], columns -> [columns], data -> [values]}

'records' : list like [{column -> value}, ... , {column -> value}]

'index' : dict like {index -> {column -> value}}

'columns' : dict like {column -> {index -> value}}

'values' : just the values array
```

这个例子中 JSON 的orientation 属性是 'records'，所以你要在 read_json() 方法中传入这个值。你也可以通过和文档中给出的 JSON 文件的不同格式进行对比，找出orientation 属性是 'records'。

接下来，使用 pandas 读取 population_data.json 文件。

In [None]:
# TODO: Read in the population_data.json file using pandas's 
# read_json method. Don't forget to specific the orient option
# store the results in df_json

import pandas as pd
df_json = None

In [None]:
# TODO: Use the head method to see the first few rows of the resulting
# dataframe

注意，人口数据和之前练习中用到的是一样的。列的顺序可能不同，但数据是一样的。

# 读取 JSON 文件的其他方法

读取 JSON 文件，除了用 pandas 库，还可以用 json 库。运行下方单元格中的代码，看看用 json 库读取 JSON 的示例。Python 将 JSON 数据视为词典类型。

In [None]:
import json

# read in the JSON file
with open('population_data.json') as f:
    json_data = json.load(f)

# print the first record in the JSON file
print(json_data[0])
print('\n')

# show that JSON data is essentially a dictionary
print(json_data[0]['Country Name'])
print(json_data[0]['Country Code'])

# 从 XML 文件中提取数据

接下来，你还是要处理这个数据，只是格式变成了 XML。运行下方单元格中的代码，看看数据文件中的前 15 行是什么样。

In [None]:
# Run the code cell to print out the first 15 lines of the xml file
print_lines(15, 'population_data.xml')

XML 看起来和 HTML 很像。XML 是通过标签嵌套标签的方式组织起来的。XML 不像 JSON 那样易于查询。Pandas 不能直接读取 XML 文件。一个原因是标签名称是用户自定义的。每个 XML 文件都有不同的格式。这也就是 XML 为什么不如 JSON 受欢迎。

### 读取 XML

有一个 Python 库叫做 BeautifulSoup，让读取和解析 XML 数据简单不少。这是文档的链接：[Beautiful Soup 文档](https://www.crummy.com/software/BeautifulSoup/)

find() 方法会找到 XML 元素第一个出现的地方。比如，使用 find('record') 会返回 XML 文件中第一次出现的 record

```xml
<record>
  <field name="Country or Area" key="ABW">Aruba</field>
  <field name="Item" key="SP.POP.TOTL">Population, total</field>
  <field name="Year">1960</field>
  <field name="Value">54211</field>
</record>
```

find_all() 方法会返回所有匹配的标签。find_all('record') 会返回所有的  `<record>` 标签。

运行下方单元格中的代码，感受一下如何使用 BeautifulSoup 定位 XML 文件。要定位 XML 文件，你要使用 find() 方法或 find_all() 方法。 

在这些代码单元格下面，有一个处理 XML 数据的练习。

In [None]:
# import the BeautifulSoup library
from bs4 import BeautifulSoup

# open the population_data.xml file and load into Beautiful Soup
with open("population_data.xml") as fp:
    soup = BeautifulSoup(fp, "lxml") # lxml is the Parser type

In [None]:
# output the first 5 records in the xml file
# this is an example of how to navigate the XML document with BeautifulSoup

i = 0
# use the find_all method to get all record tags in the document
for record in soup.find_all('record'):
    # use the find_all method to get all fields in each record
    i += 1
    for record in record.find_all('field'):
        print(record['name'], ': ' , record.text)
    print()
    if i == 5:
        break

# XML 练习 (困难)

用 XML 文件创建一个 dataframe。练习有点难度。一种思路是将 XML 数据转换成词典，然后使用词典创建 dataframe。 

Dataframe 格式如下：

| Country or Area | Year | Item | Value |
|----|----|----|----|
| Aruba | 1960 | Population, total | 54211 |
| Aruba | 1961 | Population, total | 55348 |
等等

理论上讲，提取 XML，转换数据，将其放入 dataframe 就是一个完整的 ETL 管道。这是后面要学到的内容，这个练习有点超前，但你可以先熟悉 XML。

In [None]:
# TODO: Create a pandas data frame from the XML data.
# HINT: You can use dictionaries to create pandas data frames.
# HINT: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.from_dict.html#pandas.DataFrame.from_dict
# HINT: You can make a dictionary for each column or for each row (See the link above for more information)
# HINT: Modify the code from the previous code cell

# 结语

像 CSV、JSON 和 XML 都是用来组织数据的格式。格式都正确的情况下，JSON 尤其好用。XML 是一个比较老的标准了，处理起来比较麻烦。提醒一下，这个练习配有解决方案文件。你可以打开 File->Open 点击 2_extract_exercise 查看。