JSON（JavaScript Object Notation，JavaScript 对象表示法），是存储和交换文本信息的语法，类似 XML。

JSON 比 XML 更小、更快，更易解析

Pandas 可以很方便的处理 JSON 数据

In [9]:
import pandas as pd 

df = pd.read_json('sites.json', encoding='utf-8')
print(df.to_string())

     id  likes    name             url
0  A001     61    菜鸟教程  www.runoob.com
1  A002    124  Google  www.google.com
2  A003     45      淘宝  www.taobao.com


In [10]:
df1 = pd.DataFrame(df)
print(df1)

     id  likes    name             url
0  A001     61    菜鸟教程  www.runoob.com
1  A002    124  Google  www.google.com
2  A003     45      淘宝  www.taobao.com


In [2]:
# JSON 对象与 Python 字典具有相同的格式，所以我们可以直接将 Python 字典转化为 DataFrame 数据
import pandas as pd


# 字典格式的 JSON                                                                                              
s = {
    "col1":{"row1":1,"row2":2,"row3":3},
    "col2":{"row1":"x","row2":"y","row3":"z"}
}

# 读取 JSON 转为 DataFrame                                                                                          
df = pd.DataFrame(s)
print(df)

      col1 col2
row1     1    x
row2     2    y
row3     3    z


In [3]:
# 从 URL 中读取 JSON 数据
import pandas as pd

URL = 'https://static.runoob.com/download/sites.json'
df = pd.read_json(URL)
print(df)

     id  likes    name             url
0  A001     61    菜鸟教程  www.runoob.com
1  A002    124  Google  www.google.com
2  A003     45      淘宝  www.taobao.com


In [6]:
# 内嵌的 JSON 数据
# 假设有一组内嵌的 JSON 数据文件 nested_list.json，使用以下代码格式化完整内容
import pandas as pd 
df = pd.read_json('nested_list.json')
print(df)

          school_name   class  \
0  ABC primary school  Year 1   
1  ABC primary school  Year 1   
2  ABC primary school  Year 1   

                                            students  
0  {'id': 'A001', 'name': 'Tom', 'math': 60, 'phy...  
1  {'id': 'A002', 'name': 'James', 'math': 89, 'p...  
2  {'id': 'A003', 'name': 'Jenny', 'math': 79, 'p...  


In [15]:
# 这时我们就需要使用到 json_normalize() 方法将内嵌的数据完整的解析出来
import pandas as pd
import json
from pandas.io.json import json_normalize

# 使用 Python JSON 模块载入数据
with open('nested_list.json','r') as f:
    data = json.loads(f.read())

# 展平数据
df_nested_list = json_normalize(data, record_path =['students'],meta=['school_name','class'])
print(df_nested_list)


# data = json.loads(f.read()) 使用 Python JSON 模块载入数据。
# json_normalize() 使用了参数 record_path 并设置为 ['students'] 用于展开内嵌的 JSON 数据 students。
# 显示结果还没有包含 school_name 和 class 元素，如果需要展示出来可以使用 meta 参数来显示这些元数据



   chemistry    id  math   name  physics         school_name   class
0         61  A001    60    Tom       66  ABC primary school  Year 1
1         51  A002    89  James       76  ABC primary school  Year 1
2         78  A003    79  Jenny       90  ABC primary school  Year 1


In [21]:
# 接下来，让我们尝试读取更复杂的 JSON 数据，该数据嵌套了列表和字典，数据文件 nested_mix.json ;
# nested_mix.json 文件转换为 DataFrame
import pandas as pd
from pandas.io.json import json_normalize
import json
# 使用 Python JSON 模块载入数据

with open('nested_mix.json','r') as f:
    data = json.loads(f.read())
   
df = json_normalize(
    data,
    record_path =['students'],
    meta=[
        'class',
        ['info', 'president'],
        ['info', 'contacts', 'tel']
    ]
)

print(df)

   chemistry    id  math   name  physics   class info.president  \
0         61  A001    60    Tom       66  Year 1    John Kasich   
1         51  A002    89  James       76  Year 1    John Kasich   
2         78  A003    79  Jenny       90  Year 1    John Kasich   

  info.contacts.tel  
0         123456789  
1         123456789  
2         123456789  
