### EXTRACT DATA

#### 1. Extract data from json file

In [None]:
# Libraries
import json
from itertools import zip_longest

In [None]:
def json_to_csv(json_file_path, from_id=None, to_id=None):
    """
    Read the JSON file, process the data, and save it as a CSV file.

    Parameters:
      json_file_path (str): Path to the input JSON file.
      csv_file_path (str): Path to the output CSV file.
      from_id (int, optional): Starting ID for filtering data. Defaults to None.
      to_id (int, optional): Ending ID for filtering data. Defaults to None.

    Returns:
      None
    """

    try:
        # Read JSON file
        with open(json_file_path, "r", encoding="utf-8") as json_file:
            data = json.load(json_file)

        # Normalize JSON data to list of records
        if isinstance(data, list):
            records = data
        elif isinstance(data, dict):
            records = [data]
        else:
            print("JSON data must be a list or a dictionary")
            return None

        # Filter records based on from_id and to_id
        if from_id is not None and to_id is not None:
          filtered_records = [
                  record for record in records
                  if isinstance(record, dict) and
                  from_id <= record.get('id', -1) <= to_id
          ]
          if not filtered_records:
                  print(f"No records found with ID between {from_id} and {to_id}")
                  return None
          records = filtered_records

          # Use actual min/max IDs from filtered data
          actual_ids = [record.get('id') for record in records if 'id' in record]
          if actual_ids:
              from_id = min(actual_ids)
              to_id = max(actual_ids)

        # Auto-detect from_id and to_id if not provided
        elif from_id is None and to_id is None:
            ids = [
                record.get("id")
                for record in records
                if isinstance(record, dict) and "id" in record
            ]
            if ids:
                from_id = min(ids)
                to_id = max(ids)
            else:
                from_id = 0
                to_id = len(records) - 1

        output_list = []

        for record in records:
            parent_id = record.get("id", "unknown")

            vi_text = record.get("vi", "unknown")
            cn_text = record.get("cn", "unknown")

            vi_lines = [
                line.strip()
                for line in vi_text.split("\n")
                if line.strip() and line.strip() != "-"
            ]
            cn_lines = [
                line.strip()
                for line in cn_text.split("\n")
                if line.strip() and line.strip() != "-"
            ]

            paired_lines = zip_longest(vi_lines, cn_lines, fillvalue=None)

            for index, (vi_line, cn_line) in enumerate(paired_lines, 1):
              segment_obj = {
                  "id": f"{parent_id}_{index}", # Tạo ID con: 256_1, 256_2...
                  "vi": vi_line,
                  "cn": cn_line
              }
              output_list.append(segment_obj)

        return output_list

    except FileNotFoundError:
        print(f"Error: File {json_file_path} not found")
        return None
    except json.JSONDecodeError:
        print(f"Error: Invalid JSON format in {json_file_path}")
        return None
    except Exception as e:
        print(f"Error: {str(e)}")
        return None

In [None]:
df = json_to_csv("./data/json/JSON1.json", from_id=1273, to_id=1484)
print(df)

[{'id': '1273_1', 'vi': 'Trong bài viết này, wikiHow sẽ hướng dẫn bạn cách in ảnh, tài liệu, email và nhiều nội dung khác từ iPhone. Bạn có thể in không dây nếu sử dụng máy in hỗ trợ AirPrint, hoặc dùng ứng dụng in ấn để cung cấp giao diện cho các máy in khác.', 'cn': '从iPhone中打印可以用来做很多事情，如打印照片、电子邮件和文章。本文将告诉你如何自动打印所需的消息和附件，而完成它只需轻点几下屏幕。请仔细阅读，了解如何使用特定的软件和打印机进行打印。'}, {'id': '1273_2', 'vi': 'Các bước', 'cn': '步骤'}, {'id': '1273_3', 'vi': 'Phương pháp 1', 'cn': '方法 1'}, {'id': '1273_4', 'vi': 'Phương pháp 1 của 2:', 'cn': '方法 1 的 3:'}, {'id': '1273_5', 'vi': 'In không dây', 'cn': '使用AirPrint'}, {'id': '1273_6', 'vi': '1. Chắc chắn rằng bạn có máy in hỗ trợ AirPrint. Bạn có thể kiểm tra lại mức độ tương thích của máy in để đảm bảo rằng máy có thể in không dây các nội dung từ iPhone.', 'cn': '1. 获得一个支持AirPrint的打印机。如果你有一个iPhone 3GS或更高版本的iPhone，就可以通过AirPrint 打印到支持的打印机上。近年来，主要的打印机品牌如兄弟、佳能、戴尔、惠普、利盟和三星都开始制造兼容AirPrint的打印机。'}, {'id': '1273_7', 'vi': '- Máy in và điện thoại phải kết nối cùng mạng Wi