# JSON và XML

In [3]:
import lxml
import json

## JSON

**JSON** là một dạng text-based format để lưu trữ và truyền tải dữ liệu có cấu trúc. Nó xuất phát từ JavaScript, tuy nhiên vẫn được coi là một dạng language-independent. Với cú pháp đơn giản, nhẹ của JSON, ta có thể dễ dàng lưu và gửi từ số đến chuối, array và đối tượng đến các apps khác. Ta cũng có thể tạo ra các data phức tạp hơn bằng các link các array lại với nhau.

### Cú pháp và cấu trúc căn bản

JSON text có thể xây dựng từ 1 trong 2 cấu trúc sau:
- một collection of **key:value** pair
- một orderly set of values (array of list)

JSON object được viết trong `{}`, và key:value pair được các nhau bởi dấu `,`. Và các key và value được cách nhau bởi `:`. Key của object bắt buộc phải là string (đặt trong quote), value có thể là bất kỳ type nào (bao gồm cả object khác hay array):

In [1]:
{
    "first_name": "Sophie",
    "last_name": "Goodwin",
    "age": 34
}

{'first_name': 'Sophie', 'last_name': 'Goodwin', 'age': 34}

Array được viết trong square brackets `[]` và các giá trị được các nhau bởi `,`. Value của array có thể là bất kì type nào (bao gồm cả object và array khác):

In [None]:
["night", "street", false, [ 345, 23, 8, "juice"], "fruit"]

**NOTE**: *JSON không hỗ trợ COMMENT*

### Nested objects

JSON cực kì flexible, và ta hoàn toàn có thể lồng một object bên trong 1 object khác. Các nested object là hoàn toàn độc lập nhau và có thể có các properties hoàn toàn khác nhau:

In [None]:
{
  "persons": [
    {
      "firstName": "Whitney",
      "age": 20
    },
    {
      "firstName": "Eugene",
      "lastName": "Lang"
    }
  ]
}

### Style of compound word

Điều này hoàn toàn phụ thuộc vào ngôn ngữ cũng như library mà ta sử dụng. 2 style phổ biến có thể nhắc đến là: CamelCase và underscore. Cái nào cũng valid, nhưng cũng đừng mix 2 style này trong 1 file trông khá kì.

### Advantages

JSON được sử dụng cho data exchange trên Internet bởi vì các lí do sau:
- compactness
- flexibility
- high readability
- nhiều ngôn ngữ có các functions và lib để đọc/ tạo JSON structure.

JSON là ngôn ngữ chung để pass structured data bởi vì sau khi ta serialize data sang JSON, ta có thể deserialize nó trở về lại mà không mất bất kì thông tin nào. Ưu điểm chính giữa nó và plain text là khả năng mô tả quan hệ giữa các object qua việc nesting cũng như key:value.

Một application phổ biến khác của JSON đó là data storage và configuration file cho program khác.

## JSON MODULE

Python có một built-in module để làm việc với JSON foramt: `json`, chỉ cần import vào đầu chương trình.

Module này cho phép ta làm 2 procedures chính: convert Python data sang JSON và ngược lại. Ví dụ một JSON object dưới đây:


In [1]:
{
  "movies": [
    {
      "title": "Inception",
      "director": "Christopher Nolan",
      "year": 2010
    },
    {
      "title": "The Lord of the Rings: The Fellowship of the Ring",
      "director": "Peter Jackson",
      "year": 2001
    },
    {
      "title": "Parasite",
      "director": "Bong Joon Ho",
      "year": 2019
    }
  ]
}

{'movies': [{'title': 'Inception',
   'director': 'Christopher Nolan',
   'year': 2010},
  {'title': 'The Lord of the Rings: The Fellowship of the Ring',
   'director': 'Peter Jackson',
   'year': 2001},
  {'title': 'Parasite', 'director': 'Bong Joon Ho', 'year': 2019}]}

Có thể thấy có rất nhiều điểm chung giwuax JSON notation và Python data types: có string, có number, JSON object cũng khá giống Python dictionary, và JSON array - Python list. Điều này làm việc chuyển đổi giữa JSON và Python khá dễ dàng và intuitive. Dưới đây là bảng chuyển đổi (conversion table) toàn bộ cho encoding Python data to JSON:

|Python | JSON|
|---|---|
|`dict`|object|
|`list`,`tuple`|array|
|`str`|string|
|`int`,`float`|number|
|`True`|true|
|`False`|false|
|`None`|null|


**NOTE**:*Các data types khác không được liệt kê trong bảng như custom classes, hay `datetime` object không thể converted sang JSON một các dễ dàng được*.

### Encoding (from Python) to JSON

Tổng quát, encoding to JSON format được gọi là **serialization**. Module `json` có 2 methods thực hiện việc này: `json.dump()` và `json.dumps()`. Điểm khác biệt quan trọng giữa 2 methods này là loại mà chúng ta serialize to: `json.dump()` viết vào file-like object trong khi `json.dumps()` viết vào string.

Ví dụ, ta có một dictionary equivalent to JSON với nội dung giống ở bên trên:

In [2]:
# Python dictionary 
movie_dict = {
  "movies": [
    {
      "title": "Inception",
      "director": "Christopher Nolan",
      "year": 2010
    },
    {
      "title": "The Lord of the Rings: The Fellowship of the Ring",
      "director": "Peter Jackson",
      "year": 2001
    },
    {
      "title": "Parasite",
      "director": "Bong Joon Ho",
      "year": 2019
    }
  ]
}

Giờ ta lưu vào trong file *movie.json*:

In [3]:
import json


with open("movies.json", "w") as json_file:
    json.dump(movie_dict, json_file)

Method này nhận 2 argument: data và file-like object để write to. 

Các serialization thứ 2 là dùng `json.dumps()` để viết thành một string.

In [4]:
json_str = json.dumps(movie_dict)

print(json_str)

{"movies": [{"title": "Inception", "director": "Christopher Nolan", "year": 2010}, {"title": "The Lord of the Rings: The Fellowship of the Ring", "director": "Peter Jackson", "year": 2001}, {"title": "Parasite", "director": "Bong Joon Ho", "year": 2019}]}


**NOTE**:

*Cẩn thận với data types! JSON chỉ hỗ trợ key là string, do đó các basic Python types như integers sẽ được tự động convert sang string nhưng các type như tuple,.. sẽ nhận lỗi `TypeError` bởi vì `json.dump()` và `json.dumps()` không thể convert chúng sang string.*

Còn một vài para nữa có thể dùng với 2 methods này, ví dụ như `indent`, nếu ta dùng có thể giúp prettyprint JSON object:

In [5]:
json_str = json.dumps(movie_dict, indent=4)
print(json_str)

{
    "movies": [
        {
            "title": "Inception",
            "director": "Christopher Nolan",
            "year": 2010
        },
        {
            "title": "The Lord of the Rings: The Fellowship of the Ring",
            "director": "Peter Jackson",
            "year": 2001
        },
        {
            "title": "Parasite",
            "director": "Bong Joon Ho",
            "year": 2019
        }
    ]
}


### Decoding JSON (to Python)

Thao tác ngược lại là **deserialization** module `json` cũng cung cấp 2 methods: `json.load()` và `json.loads()`. Điếm khác biết cũng chính là: file-like object và string.

Giờ ta convert ngược lại từ file json sang Python dict bằng `json.load()`:

In [6]:
with open('movies.json', 'r') as json_file:
    movie_dict_from_json = json.load(json_file)
    
print(movie_dict == movie_dict_from_json)

True


Ta có thể thấy là dict sau khi được deserialized hoàn toàn giống với dict ban đầu, không hề mất mát dữ liệu gì. Điều tương tự cũng xảy ra nếu ta dùng `json.loads()`:

In [7]:
# from string
print(movie_dict == json.loads(json_str))  # True

True


## XML

**XML (eXtensible Markup Language)** là một loại text-based format để lưu và truyền tải structured data trên Internet. Với format này, data được biểu diễn dưới dạng document với một cấu trúc clear và flexible. Một XML doc có thể được lưu xuống máy với `.xml` extension và cũng thường được sử dụng như một configuration file của một program.

XML được coi là một trong những format phổ biến nhất và được sử dụng từ startup nhỏ cho đến tập đoàn lớn. XML rất quan trọng bởi vì tính dễ thể hiện của nó với con người và cả máy để xử lý.

### Tags và elements

Mỗi XMl doc bao gồm các **tags** và **elements**.

Một tag là một string với một ý nghĩa gán vào nó e.g: book, a person. Điều thú vị là XML không hề cung cấp tags có sẵn nào, mà nó cho phép developers thoải mãi tạo ra tag của mình.

Một element là một building block của một XML structure: nó có thể bao gồm text, tag, hoặc các elements khác hay attributes. 

Ví dụ dưới đây mô tả một cuốn sách với title và author:

In [None]:
<?xml version="1.0" encoding="UTF-8"?>
<book>
  <title>The Three-Body Problem</title>
  <author>Liu Cixin</author>
</book>

Doc này bao gồm 3 tag: `<book>`, `<title>`, `<author>`, 3 element: 
- `<book>...</book>`
- `<title>The Three-Body Problem</title>`
- `<author>Liu Cixin</author>`

Tất cả các tag đều cần closing tag (vỡi `/` ở trước) hoặc `/>`.

Dòng đầu tiên của XML doc gọi là **prologue**:

In [None]:
<?xml version="1.0" encoding="UTF-8"?>

### Child element

Mỗi XML doc đều có một single element gọi là `root`. Element này chứa các element khác bên trong gọi là **child element**, và cũng có thể có các child element của riêng chúng.

Ví dụ XML doc biểu diễn sách trong một thư viện:

In [None]:
<?xml version="1.0" encoding="UTF-8"?>
<library>
  <book>
    <title>The Three-Body Problem</title>
    <author>Liu Cixin</author>
  </book>
  <book>
    <title>Modern Operating Systems</title>
    <author>Andrew S. Tanenbaum</author>
  </book>
</library>

Ở đây root element là `<library>` có 2 children `<book>`, trong khi `<author>` và `<title>` là children của book.

### Attributes

XML element có thể có các **attributes** mà cung cấp thêm thông tin cho các element.

Các value của attribute luôn được đặt bên trong quote (đơn hay kép), nếu value cần phải có `"` bên trong thì phải dùng single quote `'` để bọc ngoài lại (*ngược lại với Python*). Và một element cũng có thể có nhiều hơn 1 attribute.

In [None]:
<picture name='"Sunset at Sea", Ivan Aivazovsky'/>
<!--or using &quot instead-->
<picture name="&quot;Sunflowers&quot;, Vincent van Gogh"/>

XML doc dưới đây mô tả một art gallery, có thể thấy đôi khi attribute có thể dùng thay cho child element. Điều này thật sự không có quy tắc nào để nói rõ khi nào nên dùng attribute, khi nào nên dùng child element. Nó hoàn toàn phụ thuộc vào dữ liệu mà ta đang cố để model, tool for XML processing, và ai sẽ làm việc với data này.

In [None]:
<?xml version="1.0" encoding="UTF-8"?>
<gallery>
  <picture name='Sunset at Sea' author='Ivan Aivazovsky'/>
  <picture name='The Black Square' author='Kazimir Malevich'/>
  <picture name='Sunflowers' author='Vincent van Gogh'/>
</gallery>

### Pros and cons of XML

Ưu điểm của XML là:
- dễ dàng hiểu bởi machine và con người
- format dựa trên international standard
- well-defined structure để tối ưu search và extract thông tin
- ngôn ngữ lập trình hiện đại có nhiều lib để hỗ trợ processing XML doc tự động.

Khuyết điểm: redundant syntax tốn nhiều bộ nhớ hơn và transportation cost. Khi cần transport hoặc store một lương data lớn thì ta nên cân nhắc liệu XML có phải là phương án tối ưu hay không.