# JSON
JSON (JavaScript Object Notation) is an open standard file format and data interchange format that uses human-readable text to store and transmit data objects consisting of attribute–value pairs and arrays (or other serializable values).

JSON Lines is a file format where each line is a valid JSON value.

The JSONLoader uses a specified jq schema to parse the JSON files. It uses the jq python package. Check this manual for a detailed documentation of the jq syntax.

In [1]:
from langchain_community.document_loaders import JSONLoader

In [2]:
import json
from pathlib import Path
from pprint import pprint


file_path='../../../text_files/chapter_10_01.json'
data = json.loads(Path(file_path).read_text())

In [3]:
pprint(data)

{'keywords': ['寵物',
              '營養',
              '健康',
              '整合式醫療照護',
              '犬類',
              '貓',
              '情感支持',
              '創傷後壓力症候群',
              '生活型態',
              '醫療照護'],
 'proposition': ['營養是健康的基礎。',
                 '沒有良好的營養，很難獲得良好的健康。',
                 '整合式醫療照護的討論必須從營養開始說起。',
                 '人與動物的連結可以溯及遠古時代。',
                 '馴養的犬類約在一萬六千年至三千兩百年之前出現。',
                 '科學家一直在爭論到底是人馴養狗，還是狗馴養人。',
                 '人與動物的共生關係已經維持很久了。',
                 '絕大多數人從自己和動物的互動關係中獲得的，遠遠超過自己給予牠們的任何吃住與關注。',
                 '我們對於寵物的愛，就像對待家人一樣。',
                 '動物的存在能提振人們的精神。',
                 '如果把可愛的動物帶去醫院的兒童病房，可以看到病童的改變。',
                 '把一隻呼嚕嚕放的貓放在因中風而無法講話的病患腿上，可以看到病患的臉立刻明亮起來。',
                 '寵物能安撫需要情感支持的兒童。',
                 '寵物能安撫發生創傷後壓力症候群（PTSD）的退役軍人。',
                 '寵物在人類社會中擔任的角色，即使是人都無法取而代之。',
                 '飼主要完全掌握寵物的生活型態、營養及終生的醫療照護。',
                 '透過黑色拉布拉多犬的故事，可以了解照顧寵物時使用整合式照護的好處。'],
 'summary': '營養是健康的基礎，寵物的營養對牠們的整

## Using JSONLoader
Suppose we are interested in extracting the values under the content field within the messages key of the JSON data. This can easily be done through the JSONLoader as shown below.

### JSON file

In [4]:
file_path='../../../text_files/chapter_10_01.json'

summary_loader = JSONLoader(
    file_path=file_path,
    jq_schema='.summary',
    # jq_schema='.proposition[]',
    text_content=False)

uuid_loader = JSONLoader(
    file_path=file_path,
    jq_schema='.uuid',
    text_content=True)

proposition_loader = JSONLoader(
    file_path=file_path,
    # jq_schema='.[]',
    jq_schema='.proposition[]',
    text_content=False)

summary_data = summary_loader.load()
uuid_data = uuid_loader.load()
proposition_data = proposition_loader.load()

In [5]:
# print(summary_data[0].page_content)
print(uuid_data)

[Document(page_content='e0ce6abf-9efe-422e-8d0a-adc9f04acd72', metadata={'source': '/Users/sean/Learn/AI/langchain/text_files/chapter_10_01.json', 'seq_num': 1})]


In [6]:
# proposition_data = [(data.metadata = "test") for data in proposition_data]
# proposition_data = [data.metadata for data in proposition_data]
for data in proposition_data:
    data.metadata = {"summary":summary_data[0].page_content, "uuid":uuid_data[0].page_content}

In [8]:
# print(summary_data[0].metadata)
print(proposition_data)
# print(type(proposition_data[0]))

[Document(page_content='營養是健康的基礎。', metadata={'summary': '營養是健康的基礎，寵物的營養對牠們的整體健康至關重要。', 'uuid': 'e0ce6abf-9efe-422e-8d0a-adc9f04acd72'}), Document(page_content='沒有良好的營養，很難獲得良好的健康。', metadata={'summary': '營養是健康的基礎，寵物的營養對牠們的整體健康至關重要。', 'uuid': 'e0ce6abf-9efe-422e-8d0a-adc9f04acd72'}), Document(page_content='整合式醫療照護的討論必須從營養開始說起。', metadata={'summary': '營養是健康的基礎，寵物的營養對牠們的整體健康至關重要。', 'uuid': 'e0ce6abf-9efe-422e-8d0a-adc9f04acd72'}), Document(page_content='人與動物的連結可以溯及遠古時代。', metadata={'summary': '營養是健康的基礎，寵物的營養對牠們的整體健康至關重要。', 'uuid': 'e0ce6abf-9efe-422e-8d0a-adc9f04acd72'}), Document(page_content='馴養的犬類約在一萬六千年至三千兩百年之前出現。', metadata={'summary': '營養是健康的基礎，寵物的營養對牠們的整體健康至關重要。', 'uuid': 'e0ce6abf-9efe-422e-8d0a-adc9f04acd72'}), Document(page_content='科學家一直在爭論到底是人馴養狗，還是狗馴養人。', metadata={'summary': '營養是健康的基礎，寵物的營養對牠們的整體健康至關重要。', 'uuid': 'e0ce6abf-9efe-422e-8d0a-adc9f04acd72'}), Document(page_content='人與動物的共生關係已經維持很久了。', metadata={'summary': '營養是健康的基礎，寵物的營養對牠們的整體健康至關重要。', 'uuid': 'e0ce6abf-9efe-422e

In [24]:
pprint(Path(file_path).read_text())

('{"summary": "營養是健康的基礎，寵物的營養對牠們的整體健康至關重要。", "keywords": ["寵物", "營養", "健康", '
 '"整合式醫療照護", "犬類", "貓", "情感支持", "創傷後壓力症候群", "生活型態", "醫療照護"], "proposition": '
 '["營養是健康的基礎。", "沒有良好的營養，很難獲得良好的健康。", "整合式醫療照護的討論必須從營養開始說起。", '
 '"人與動物的連結可以溯及遠古時代。", "馴養的犬類約在一萬六千年至三千兩百年之前出現。", "科學家一直在爭論到底是人馴養狗，還是狗馴養人。", '
 '"人與動物的共生關係已經維持很久了。", "絕大多數人從自己和動物的互動關係中獲得的，遠遠超過自己給予牠們的任何吃住與關注。", '
 '"我們對於寵物的愛，就像對待家人一樣。", "動物的存在能提振人們的精神。", "如果把可愛的動物帶去醫院的兒童病房，可以看到病童的改變。", '
 '"把一隻呼嚕嚕放的貓放在因中風而無法講話的病患腿上，可以看到病患的臉立刻明亮起來。", "寵物能安撫需要情感支持的兒童。", '
 '"寵物能安撫發生創傷後壓力症候群（PTSD）的退役軍人。", "寵物在人類社會中擔任的角色，即使是人都無法取而代之。", '
 '"飼主要完全掌握寵物的生活型態、營養及終生的醫療照護。", "透過黑色拉布拉多犬的故事，可以了解照顧寵物時使用整合式照護的好處。"], "uuid": '
 '"e0ce6abf-9efe-422e-8d0a-adc9f04acd72"}')


## Extracting metadata
Generally, we want to include metadata available in the JSON file into the documents that we create from the content.

The following demonstrates how metadata can be extracted using the JSONLoader.

There are some key changes to be noted. In the previous example where we didn't collect the metadata, we managed to directly specify in the schema where the value for the page_content can be extracted from.

`.messages[].content`

In the current example, we have to tell the loader to iterate over the records in the messages field. The jq_schema then has to be:

`.messages[]`

This allows us to pass the records (dict) into the metadata_func that has to be implemented. The metadata_func is responsible for identifying which pieces of information in the record should be included in the metadata stored in the final Document object.

Additionally, we now have to explicitly specify in the loader, via the content_key argument, the key from the record where the value for the page_content needs to be extracted from.

In [55]:
# Define the metadata extraction function.
# def metadata_func(record: dict, metadata: dict) -> dict:
#     metadata["summary"] = record.get("summary")
#     metadata["keywords"] = record.get("keywords")
#     return metadata

def metadata_func(record: dict, metadata: dict) -> dict:
    metadata["summary"] = record.get("summary", "")
    metadata["keywords"] = record.get("keywords", [])
    return metadata

file_path='../../../text_files/chapter_10_01.json'

loader = JSONLoader(
    file_path=file_path,
    jq_schema='.[]',
     text_content=False,
    # content_key="proposition",
    # metadata_func=metadata_func
)

# loader = JSONLoader(
#     file_path=file_path,
#     # jq_schema='.[]',
#     jq_schema='.proposition[]',
#     text_content=False)

data = loader.load()

In [56]:
pprint(data)

[Document(page_content='營養是健康的基礎，寵物的營養對牠們的整體健康至關重要。', metadata={'source': '/Users/sean/Learn/AI/langchain/text_files/chapter_10_01.json', 'seq_num': 1}),
 Document(page_content="['寵物', '營養', '健康', '整合式醫療照護', '犬類', '貓', '情感支持', '創傷後壓力症候群', '生活型態', '醫療照護']", metadata={'source': '/Users/sean/Learn/AI/langchain/text_files/chapter_10_01.json', 'seq_num': 2}),
 Document(page_content="['營養是健康的基礎。', '沒有良好的營養，很難獲得良好的健康。', '整合式醫療照護的討論必須從營養開始說起。', '人與動物的連結可以溯及遠古時代。', '馴養的犬類約在一萬六千年至三千兩百年之前出現。', '科學家一直在爭論到底是人馴養狗，還是狗馴養人。', '人與動物的共生關係已經維持很久了。', '絕大多數人從自己和動物的互動關係中獲得的，遠遠超過自己給予牠們的任何吃住與關注。', '我們對於寵物的愛，就像對待家人一樣。', '動物的存在能提振人們的精神。', '如果把可愛的動物帶去醫院的兒童病房，可以看到病童的改變。', '把一隻呼嚕嚕放的貓放在因中風而無法講話的病患腿上，可以看到病患的臉立刻明亮起來。', '寵物能安撫需要情感支持的兒童。', '寵物能安撫發生創傷後壓力症候群（PTSD）的退役軍人。', '寵物在人類社會中擔任的角色，即使是人都無法取而代之。', '飼主要完全掌握寵物的生活型態、營養及終生的醫療照護。', '透過黑色拉布拉多犬的故事，可以了解照顧寵物時使用整合式照護的好處。']", metadata={'source': '/Users/sean/Learn/AI/langchain/text_files/chapter_10_01.json', 'seq_num': 3}),
 Document(page_content='e0ce6abf-9efe-422e-8d0a-adc9f04