# 測試多模態模型提取 PDF 中需要欄位：


In [1]:
# 處理 Text to JSON
import json
import re
import vertexai
from dotenv import load_dotenv
from vertexai.generative_models import GenerativeModel, Part

load_dotenv()
project_id = "nthurc-aisearch-202406"
model_name = "gemini-1.5-flash-001"


def parse_json_from_text(response_text):
    """
    從包含 JSON 或 JSON Lines 的文字中解析 JSON 資料。

    Args:
        response_text: 包含 JSON 或 JSON Lines 資料的字串。

    Returns:
        一個包含解析後的 JSON 資料的列表。
    """

    # 使用正則表達式去除開頭的非 JSON 字元
    json_strings = re.sub(
        r'^[^\{]+', '', response_text).rstrip('`').strip().split('\n')

    data = []
    for json_string in json_strings:
        # 檢查是否為空字串，若是則跳過
        if not json_string.strip():
            continue

        try:
            data.append(json.loads(json_string))
        except json.JSONDecodeError as e:
            print(json_string)
            print(f"Error decoding JSON: {e}")

    return data


def process_taxpayer_document(project_id, model_name, part, prompt):
    vertexai.init(project=project_id, location="asia-east1")
    model = GenerativeModel(model_name)

    contents = [part, prompt]
    response = model.generate_content(contents)

    print(response.text)
    # print("=============")
    # print("處理過後的 JSON : \n\n", parse_json_from_text(response.text))

    return response.text

### 1. 所得相關資料提取

- 目前使用 Vertex AI ( Gemini-1.5-flash 多模態模型 ) 來提取 PDF 中的資料
- 明確定義我們需要的提取的內容
- 定義 JSON
- 設計 Prompt 並讓 Gemini 理解任務
- 去得輸出，並改成可解析的結構


#### 這部分目前需要釐清的問題 :

- 電子財產：這部分的檔案是否也要在這一塊進行處理？
- 這一部分的檔案除了目前欄位以外是否還有其他欄位有需求


In [3]:
json_format = '''{
  "taxYear": 提取此所得資料清單[年度]資訊，位於文檔頂部,
  "IssuingAuthority": 提取此所得稅[核發單位]文字資訊放於此欄位,
  "taxpayerName": 提取[所得人姓名],
  "taxpayerID": 提取所得人[統一編號]，位於文檔中部偏右，是所得人的唯一識別碼,
  "reportDate": 提取此報告[查調日期]，位於文檔右上角,
  "totalIncome": 提取此所得人總所得，位於文檔下方有一個[給付總額合計]的資訊,
}'''

prompt = f"""
You are now a professional PDF document extractor. I will provide you with a property income document from the Ministry of Finance of Taiwan. You will extract the information from each page and organize it into JSONL to return to me. I will clearly define the content I need, and you will extract the value and return it based on the content in the PDF.
```json format : {json_format}```
Please carefully review the content of each page of the PDF file and extract the information to generate the corresponding JSON response. The value can accept output in Traditional Chinese. Think carefully before outputting and then return the conclusion. Your answer is very important to my career.

JSONL :
"""

taxpay_pdf_file_uri = "gs://nthurc-docai-poc/申請資料-4要件/所得/所得14.pdf"
taxpay_pdf_file = Part.from_uri(
    taxpay_pdf_file_uri, mime_type="application/pdf")
json = process_taxpayer_document(
    project_id, model_name, taxpay_pdf_file, prompt)
print(json)

json_strings = re.sub(
    r'^[^\{]+', '', json).rstrip('`').strip().split('\n')

```json
{"taxYear": "110年度", "IssuingAuthority": "財政部臺北國稅局中正分局", "taxpayerName": "黃德旺", "taxpayerID": "R124075657", "reportDate": "111年07月11日", "totalIncome": "724,894"}
{"taxYear": "110年度", "IssuingAuthority": "財政部臺北國稅局中正分局", "taxpayerName": "黃春萬", "taxpayerID": "R120335830", "reportDate": "111年07月11日", "totalIncome": "107"}
{"taxYear": "110年度", "IssuingAuthority": "財政部臺北國稅局中正分局", "taxpayerName": "黃麗珍", "taxpayerID": "Q221609858", "reportDate": "111年07月11日", "totalIncome": "0"}
```
處理過後的 JSON : 

 [{'taxYear': '110年度', 'IssuingAuthority': '財政部臺北國稅局中正分局', 'taxpayerName': '黃德旺', 'taxpayerID': 'R124075657', 'reportDate': '111年07月11日', 'totalIncome': '724,894'}, {'taxYear': '110年度', 'IssuingAuthority': '財政部臺北國稅局中正分局', 'taxpayerName': '黃春萬', 'taxpayerID': 'R120335830', 'reportDate': '111年07月11日', 'totalIncome': '107'}, {'taxYear': '110年度', 'IssuingAuthority': '財政部臺北國稅局中正分局', 'taxpayerName': '黃麗珍', 'taxpayerID': 'Q221609858', 'reportDate': '111年07月11日', 'totalIncome': '0'}]
('```json\n{"tax

# 所得文檔正式處理

- 處理 30 個所得文檔，提取其中 Jsonl 資料，並合併生成一個新的 Jsonl 檔案
- 再將 JsonL 資料轉換成 Dataframe
- 最後將 Dataframe 儲存成 CSV 檔案


In [8]:
import json
import re
import vertexai
from dotenv import load_dotenv
from google.cloud import storage
from vertexai.generative_models import GenerativeModel, Part
import pandas as pd
import logging

# 設置日誌
logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s - %(levelname)s - %(message)s')


def process_taxpayer_document(project_id, model_name, part, prompt):
    """
    处理纳税人文档的函数。

    参数：
    - project_id：项目ID，用于初始化Vertex AI。
    - model_name：生成模型的名称。
    - part：文档的一部分。
    - prompt：生成内容的提示。

    返回值：
    - response.text：生成的内容。

    异常：
    - 如果处理文档时发生错误，将记录错误并返回None。
    """
    try:
        # 初始化Vertex AI
        vertexai.init(project=project_id, location="asia-east1")

        # 创建生成模型对象
        model = GenerativeModel(model_name)

        # 构建内容列表
        contents = [part, prompt]

        # 生成内容
        response = model.generate_content(contents)

        # 返回生成的内容
        return response.text
    except Exception as e:
        # 记录错误并返回None
        logging.error(f"处理文档时发生错误：{e}")
        return None


def extract_json_strings(json_response):
    """
    提取JSON响应中的字符串函数。

    参数：
    - json_response：JSON响应字符串。

    返回值：
    - 字符串列表：提取的JSON响应中的字符串列表。

    说明：
    - 如果json_response为None，则返回空列表。
    - 移除json_response中的所有```json或```jsonl标记。
    - 使用正则表达式找出所有的JSON对象。
    - 解析每个JSON对象并重新序列化，以确保它们是有效的JSON。
    - 返回有效的JSON字符串列表。

    注意：
    - 忽略无效的JSON对象，继续处理下一个对象。
    """
    if json_response is None:
        return []

    # 移除所有的 ```json 或 ```jsonl 標記
    cleaned_response = re.sub(r'```(?:json|jsonl)?\s*', '', json_response)

    # 使用正則表達式找出所有的 JSON 對象
    json_objects = re.findall(r'\{[^{}]*\}', cleaned_response)

    # 解析每個 JSON 對象並重新序列化，以確保它們是有效的 JSON
    valid_json_strings = []
    for obj in json_objects:
        try:
            parsed = json.loads(obj)
            valid_json_strings.append(json.dumps(parsed, ensure_ascii=False))
        except json.JSONDecodeError:
            print(f"Invalid JSON: {obj}")
            continue  # 忽略無效的 JSON

    return valid_json_strings


def create_json_format(file_uri):
    """
    创建JSON格式的函数。

    参数：
    - file_uri：文件的URI。

    返回值：
    - JSON对象：包含文件URI和各个字段的JSON对象。

    字段说明：
    - gsURL：文件的Google Cloud Storage URL。
    - taxYear：提取此所得資料清單[年度]資訊，位於文檔頂部，格式為 XXX 年度。
    - IssuingAuthority：提取此所得稅[核發單位]文字資訊放於此欄位。
    - taxpayerName：提取[所得人姓名]。
    - taxpayerID：提取所得人[統一編號]，位於文檔中部偏右，是所得人的唯一識別碼。
    - reportDate：提取此報告[查調日期]，位於文檔右上角。
    - totalIncome：提取此所得人總所得，位於文檔下方有一個[給付總額合計]的資訊，格式為數字。
    """
    return {
        "gsURL": file_uri,
        "taxYear": "提取此所得資料清單[年度]資訊，位於文檔頂部",
        "IssuingAuthority": "提取此所得稅[核發單位]文字資訊放於此欄位",
        "taxpayerName": "提取[所得人姓名]",
        "taxpayerID": "提取所得人[統一編號]，位於文檔中部偏右，是所得人的唯一識別碼, 由一個大寫字母(注意 I 不要認為是 1) + 9 位數字組成",
        "reportDate": "提取此報告[查調日期]，位於文檔右上角",
        "totalIncome": "提取此所得人總所得，位於文檔下方有一個[給付總額合計]的資訊"
    }


def create_prompt(json_format):
    """
    创建提示信息的函数。

    参数：
    - json_format：包含文件URI和各个字段的JSON对象。

    返回值：
    - 提示信息字符串。

    提示信息说明：
    - 提示用户作为PDF文档提取器，提供了来自台湾财政部的财产收入文档。
    - 要求用户从每一页中提取信息，并将其组织成JSONL格式返回。
    - 明确定义了需要的内容，并要求用户根据PDF中的内容提取值并返回。
    - 提供了JSON格式的示例，其中包含了各个字段的说明。
    - 要求用户仔细审查PDF文件的每一页，并提取信息以生成相应的JSON响应。
    - 值可以接受繁体中文输出。
    - 提示用户在输出之前仔细思考，并返回结论。
    - 用户的答案对我的职业非常重要。

    返回值说明：
    - 返回包含提示信息的字符串。
    """
    return f"""
    You are now a professional PDF document extractor. I will provide you with a property income document from the Ministry of Finance of Taiwan. You will extract the information from each page and organize it into JSONL to return to me. I will clearly define the content I need, and you will extract the value and return it based on the content in the PDF.
    ```json format : {json.dumps(json_format, ensure_ascii=False, indent=2)}```
    Please carefully review the content of each page of the PDF file and extract the information to generate the corresponding JSON response. The value can accept output in Traditional Chinese. Think carefully before outputting and then return the conclusion. Your answer is very important to my career.
    JSONL :
    """


def process_all_documents(project_id, model_name, bucket_name, file_prefix, data_type):
    """
    处理所有文档的函数。

    参数：
    - project_id：项目ID，用于初始化Vertex AI。
    - model_name：生成模型的名称。
    - bucket_name：存储桶的名称。
    - file_prefix：文件的前缀。

    返回值：
    - DataFrame：包含所有文档提取的信息的DataFrame。

    异常：
    - 如果解码JSON时发生错误，将记录错误并返回空的DataFrame。

    说明：
    - 初始化存储客户端。
    - 获取存储桶对象。
    - 初始化Vertex AI。
    - 创建空列表以存储所有的JSON字符串。
    - 获取存储桶中指定前缀的所有Blob对象。
    - 计算总文件数。
    - 遍历每个Blob对象。
        - 构建文件的URI。
        - 记录正在处理的文件信息。
        - 创建JSON格式对象。
        - 创建提示信息。
        - 从URI创建Part对象。
        - 处理纳税人文档并获取JSON响应。
        - 如果JSON响应不为空，则提取JSON字符串并添加到列表中。
        - 记录成功处理的文件信息。
        - 否则，记录处理失败的文件信息。
    - 将所有的JSON字符串写入文件。
    - 将JSON字符串转换为DataFrame并返回。

    注意：
    - 如果解码JSON时发生错误，将记录错误并返回空的DataFrame。
    """
    storage_client = storage.Client(project=project_id)
    bucket = storage_client.bucket(bucket_name)
    vertexai.init(project=project_id)
    all_json_strings = []

    blobs = list(bucket.list_blobs(prefix=file_prefix))
    total_files = len(blobs)

    for index, blob in enumerate(blobs, 1):
        file_uri = f"gs://{bucket_name}/{blob.name}"
        logging.info(f"Processing file {index}/{total_files}: {blob.name}")

        json_format = create_json_format(file_uri)
        prompt = create_prompt(json_format)

        taxpay_pdf_file = Part.from_uri(file_uri, mime_type="application/pdf")
        json_response = process_taxpayer_document(
            project_id, model_name, taxpay_pdf_file, prompt)

        if json_response:
            print(json_response)
            print("\n ====== \n")
            json_strings = extract_json_strings(json_response)
            print(json_strings, "\n\n\n")
            all_json_strings.extend(json_strings)
            logging.info(f"Successfully processed file: {blob.name}")
        else:
            logging.warning(f"Failed to process file: {blob.name}")

    with open(data_type + 'combined_output.jsonl', 'w', encoding='utf-8') as f:
        for json_string in all_json_strings:
            f.write(json_string + '\n')

    try:
        data = [json.loads(js) for js in all_json_strings]
        df = pd.DataFrame(data)
        return df
    except json.JSONDecodeError as e:
        logging.error(f"Error decoding JSON: {e}")
        return pd.DataFrame()

In [None]:
if __name__ == "__main__":
    load_dotenv()
    project_id = "nthurc-aisearch-202406"
    model_name = "gemini-1.5-flash-001"
    bucket_name = "nthurc-docai-poc"
    file_prefix = "申請資料-4要件/所得/"
    data_type = "所得"

    df = process_all_documents(
        project_id, model_name, bucket_name, file_prefix, data_type)
    print(df.head())
    print(f"Total rows in DataFrame: {len(df)}")

In [45]:
df[9:13]

Unnamed: 0,gsURL,taxYear,IssuingAuthority,taxpayerName,taxpayerID,reportDate,totalIncome
9,gs://nthurc-docai-poc/申請資料-4要件/所得/所得12.pdf,110年度,財政部北區國稅局新店稽徵所,賴彥成,1100072456,111年07月14日,276759
10,gs://nthurc-docai-poc/申請資料-4要件/所得/所得12.pdf,110年度,財政部北區國稅局新店稽徵所,張倚禎,T222834750,111年07月14日,65
11,gs://nthurc-docai-poc/申請資料-4要件/所得/所得12.pdf,110年度,財政部北區國稅局新店稽徵所,賴禹昇,1100623257,111年07月14日,0
12,gs://nthurc-docai-poc/申請資料-4要件/所得/所得12.pdf,110年度,財政部北區國稅局新店稽徵所,賴竑佑,F135360168,111年07月14日,0


In [41]:
df.to_csv('./所得測試資料.csv', index=True)

## 2. 戶籍謄本相關資料提取

- 跟上一個方法一樣，通過定義需要的欄位後,讓多模態模型進行視覺的資料提取並轉換成文字回傳


#### 這部分需要釐清的部分 :

- 戶籍謄本帶現戶全戶這個後綴，是需要提取還是判斷是否有這個欄位？
- 提取這個現戶全戶的目的是什麼，為了區分戶口名簿嗎？
- 是否只需要提取戶長資訊即可？


In [4]:
import vertexai
from dotenv import load_dotenv
from vertexai.generative_models import GenerativeModel, Part

project_id = "nthurc-aisearch-202406"

load_dotenv()
vertexai.init(project=project_id, location="us-central1")

model = GenerativeModel("gemini-1.5-flash-001")

json_format = '''{
        "gsURL": file_uri,
        "IssueDate": "取得此 PDF 中[列印日期/時間]中的日期部分",
        "IsFamilyRegisterExtract": "判斷此 PDF 中是否帶有(現戶全戶)在文件標題，如果有返回 True, 否則返回 False, 如果前綴是戶口名簿則輸出 None",
        "householdId": "取得此 PDF 中的[戶號]",
        "householdAddress": "取得此 PDF 中的[戶籍地址]",
        "membersOfHousehold": {
            "description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容",
            "members": [
                {
                    "name": "取得此成員的姓名",
                    "title": "取得此成員的稱謂",
                    "birthDate": "取得此成員的出生日期",
                    "PersonID": "取得此成員的身份證字號",
                    "spouse": "取得此成員的配偶姓名",
                    "father": "取得此成員的父親姓名",
                    "mother": "取得此成員的母親姓名",
                    "note": "取得此成員的[記事]內所有紀錄的資訊"
                }
            ]
        }
    }'''


prompt = f"""
You are now a professional PDF document extractor. I will provide you with a PDF of a household registration book or household registration transcript provided by the Taiwan government. You will extract the specified information from the PDF to JSON and then return it to me. I will clearly define the content I need, and you will extract the value and return it based on the content in the PDF.
```json format : {json_format}```
Please carefully review the content of each page of the PDF file and extract the information to generate the corresponding JSON response. The value can accept output in Traditional Chinese. Think carefully before outputting and then return the conclusion. Your answer is very important to my career.

JSON :
"""

FamilyRegisterExtract_pdf_file_uri = "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄8.pdf"
FamilyRegisterExtract_pdf_file = Part.from_uri(
    FamilyRegisterExtract_pdf_file_uri, mime_type="application/pdf")
contents = [FamilyRegisterExtract_pdf_file, prompt]

response = model.generate_content(contents)
print(response.text)

```json
{
        "gsURL": "gs://your-bucket/household_registration_book.pdf",
        "IssueDate": "111/07/07",
        "IsFamilyRegisterExtract": True,
        "householdId": "F0A03MC9",
        "householdAddress": "新北市永和區中溪里007鄰仁愛路259號五樓",
        "membersOfHousehold": {
            "description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容",
            "members": [
                {
                    "name": "黃郁羚",
                    "title": "戶長",
                    "birthDate": "民國74年6月18日",
                    "PersonID": "F225951328",
                    "spouse": "簡川翔",
                    "father": "黃世佳",
                    "mother": "吳瑞卿",
                    "note": "在本鎮和平街19號達生婦產科出生民國74年7月5日申登。原住本鎮八張里5鄰民族街81號黃金泉戶內民國85年7月13日住址變更。民國103年5月17日與簡川翔結婚。原住新北市三峽區二鬮里012鄰二鬮路136巷123號三樓吳瑞卿戶內民國103年10月31日遷入登記。男簡靖恩統一編號F132184228民國103年10月26日出生。男簡愷均國民身分證統一編號F135128633民國108年3月25日出生。"
                },
                {
                    "name": "簡靖恩",

# 戶籍文檔正式處理

- 處理 30 個戶籍以及戶口文檔，提取其中 Jsonl 資料，並合併生成一個新的 Jsonl 檔案
- 應為有嵌套，所以不能轉成 Dataframe 格式
- 再將 JsonL 資料轉換成標準格式的 json 格式
- 將 json 鋪平後轉成 CSV 格式


In [9]:
def extract_json_strings(json_response):
    return re.sub(
        r'^[^\{]+', '', json_response).rstrip('`').strip().split('\n')


def create_json_format(file_uri):
    return {
        "gsURL": file_uri,
        "IssueDate": "取得此 PDF 中[列印日期/時間]中的日期部分",
        "IsFamilyRegisterExtract": "判斷此 PDF 中是否帶有(現戶全戶)在文件標題，如果有返回 True, 否則返回 False, 如果前綴是戶口名簿則輸出 None",
        "householdId": "取得此 PDF 中的[戶號]",
        "householdAddress": "取得此 PDF 中的[戶籍地址]",
        "membersOfHousehold": {
            "description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容",
            "members": [
                {
                    "name": "取得此成員的姓名",
                    "title": "取得此成員的稱謂",
                    "birthDate": "取得此成員的出生日期",
                    "PersonID": "取得此成員的身份證字號",
                    "spouse": "取得此成員的配偶姓名",
                    "father": "取得此成員的父親姓名",
                    "mother": "取得此成員的母親姓名",
                    "note": "取得此成員的[記事]內所有紀錄的資訊"
                }
            ]
        }
    }


def create_prompt(json_format):
    return f"""
    You are now a professional PDF document extractor. I will provide you with a property income document from the Ministry of Finance of Taiwan. You will extract the information from each page and organize it into JSONL to return to me. I will clearly define the content I need, and you will extract the value and return it based on the content in the PDF.
    ```json format : {json.dumps(json_format, ensure_ascii=False, indent=4)}```
    Please carefully review the content of each page of the PDF file and extract the information to generate the corresponding JSON response. The value can accept output in Traditional Chinese. Think carefully before outputting and then return the conclusion. Your answer is very important to my career.
    JSONL :
    """


file_prefix = "申請資料-4要件/戶籍/"
data_type = "戶籍"

process_all_documents(
    project_id, model_name, bucket_name, file_prefix, data_type)

2024-08-02 14:28:21,301 - INFO - Processing file 1/30: 申請資料-4要件/戶籍/戶口28.pdf
2024-08-02 14:28:28,415 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶口28.pdf
2024-08-02 14:28:28,417 - INFO - Processing file 2/30: 申請資料-4要件/戶籍/戶口5.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶口28.pdf", "IssueDate": "111/06/01", "IsFamilyRegisterExtract": "True", "householdId": "F5375388", "householdAddress": "桃園市桃園區中埔里004鄰永安路919巷9號", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "包佩怡", "title": "肆女", "birthDate": "民國75年7月10日", "PersonID": "F226229325", "spouse": "鄭伸榮", "father": "包東平", "mother": "黃碧秀", "note": "在永和市光復街15號出生(民國75年7月14日申報)。民國105年7月7日申請與鄭\n伸榮結婚登記,民國105年7月10日結婚登記。女鄭嘉韵國民身分證統一編號H227586045\n民國107年4月13日出生。"}]}}
```


['{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶口28.pdf", "IssueDate": "111/06/01", "IsFamilyRegisterExtract": "True", "householdId": "F5375388", "householdAddress": "桃園市桃園區中埔里004鄰永安路919巷9號", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "包佩怡", "title": "肆女", "birthDate": "民國75年7月10日", "PersonID": "F226229325", "spouse"

2024-08-02 14:28:40,017 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶口5.pdf
2024-08-02 14:28:40,018 - INFO - Processing file 3/30: 申請資料-4要件/戶籍/戶口7.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶口5.pdf", "IssueDate": "111/07/15", "IsFamilyRegisterExtract": None, "householdId": "FOA2RMW5", "householdAddress": "新北市板橋區國泰里005鄰忠孝路忠義巷15弄96號三樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "梁乙欽", "title": "戶長", "birthDate": "民國45年3月10日", "PersonID": "N120769673", "spouse": "易莉菲", "father": "梁秀森", "mother": "梁張摘", "note": "出生地:台灣省彰化縣。民國78年1月17日與梁江絲離婚。民國82年5月20日與易美蓉結婚。民國82年5月31日申登。妻梁易美蓉民國83年2月8日姓名變更民國93年8月27日申登。妻梁易修禪民國91年7月23日姓名變更民國93年8月27日申登。妻梁易華茜民國93年8月27日撤冠姓。原登記配偶姓名易華茜因配偶改名民國106年5月5日變更民國106年5月5日經彰化縣員林市戶政事務所逕為變更登記。"}, {"name": "易莉菲", "title": "妻", "birthDate": "民國50年4月2日", "PersonID": "B220757497", "spouse": "梁乙欽", "father": "易紹輝", "mother": "易廖菊鑾", "note": "原姓名:易美蓉。民國82年5月20日與梁乙欽結婚。原姓名易修禪名字不雅民國91年7月23日第二次改名。原住臺中縣烏日鄉九德村16鄰興祥街167巷22號七樓戶長本人民國93年8月26日遷入登記。原姓名易華茜係誤錄民國93年8月27日更正姓名。原姓梁民國93年8月27日撤冠夫姓登記。原姓名易華茜特殊原因民國106年5月5日第三次改名。"}, {"name": "梁錢茂"

2024-08-02 14:28:53,497 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶口7.pdf
2024-08-02 14:28:53,498 - INFO - Processing file 4/30: 申請資料-4要件/戶籍/戶籍3.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶口7.pdf", "IssueDate": "111/07/06", "IsFamilyRegisterExtract": True, "householdId": "S5641954", "householdAddress": "新北市樹林區中山里025鄰中山路三段175號十一樓之5", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "黃志禾", "title": "戶長", "birthDate": "民國70年3月23日", "PersonID": "E122398826", "spouse": null, "father": "黃明俊", "mother": "莊偉琍", "note": "原住高雄縣鳳山市文山里21鄰文中街62巷1弄23之3號黃明俊戶內民國84年5月9日遷入。民85年3月5日憑通報註記失蹤人口案號E05426。民國85年5月30日撤銷失蹤民國85年6月29日登記。原住高雄市鼓山區麗興里10鄰捷興二街7之2號楊建治戶內民國86年10月14田遷人。民國94年2月26日與陳念慈結婚民國94年3月2日車登。長男黃婕瑞統一編號S126129131民國99年3月26日出生(S1)。民國102年5月20日與陳念慈兩願離婚。原登記母姓名莊淑洪因母改名民國107年4月23日變更民國107年4月23日經臺北市士林區戶政事務所逕為變更登記。民國109年4月8日行使負擔未成年子女黃葳琦權利義務民國109年4月28日申登·民國109年4月8日行使負擔未成年子女黃婕瑞權利義務民國109年4月28日申登。"}, {"name": "黃葳琦", "title": "長女", "birthDate": "民國94年6月26日", "PersonID": "S225383697", "spouse": null, "father": "黃志禾", "mother": "陳念慈", "note": "在高雄市德謙醫院出生民國94年7月21日申登。

2024-08-02 14:29:03,739 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶籍3.pdf
2024-08-02 14:29:03,741 - INFO - Processing file 5/30: 申請資料-4要件/戶籍/戶籍9.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶籍3.pdf", "IssueDate": "111/07/12", "IsFamilyRegisterExtract": True, "householdId": "FB595197", "householdAddress": "新北市永和區秀林里018鄰林森路93號三樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "徐錫球", "title": "戶長", "birthDate": "民國26年2月20日", "PersonID": "A200764244", "spouse": "卜玉書", "father": "徐成泰", "mother": "徐孫氏", "note": "原住北縣新店市雙城里26鄰安泰路60巷55弄122號民國81年9月7日遷入。民國88年5月24日已接通報民國88年5月21日與卜玉書離婚。"}, {"name": "卜延庠", "title": "長子", "birthDate": "民國47年2月4日", "PersonID": "A120862196", "spouse": "王莉蕊", "father": "卜玉書", "mother": "徐錫球", "note": "原本籍江蘇省灌雲縣抄寫錯誤民國80年6月8日更正本籍為江蘇省漣水縣民國80年6月8日申登。原統號A120860196錯誤民國82年1月16日更正為A120862196。民國84年10月5日與王莉蕊結婚民國84年10月13日申登。民國100年5月4日與王莉蕊兩願離婚(F4)。原住新北市永和區秀林里18鄰林森路93號三樓戶長本人民國101年2月21日遷入登記(M1)。原住南投縣南投市仁和里002鄰民生街11號戶長本人民國106年3月16日遷人登記。"}, {"name": "卜延慧", "title": "長女(遷出國外)", "birthDate": "民國48年6月23日", "PersonID": "A220864478",

2024-08-02 14:29:12,396 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶籍9.pdf
2024-08-02 14:29:12,397 - INFO - Processing file 6/30: 申請資料-4要件/戶籍/戶藤27.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶籍9.pdf", "IssueDate": "111/07/14", "IsFamilyRegisterExtract": True, "householdId": "FOA2QAK8", "householdAddress": "新北市永和區下溪里015鄰永平路302巷22號三樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "潘妮", "title": "戶長", "birthDate": "民國84年8月7日", "PersonID": "F228690359", "spouse": "黃偉", "father": "潘廣華", "mother": "陳月領", "note": "在台北市中正區汀州路三段40號三軍總醫院出生民國84年10月9日申登。民國106年\n2月15日與黃偉結婚。男黃熙國民身分證統一編號F134778960民國106年5月22日出生"}, {"name": "黃偉", "title": "夫", "birthDate": "民國74年9月6日", "PersonID": "U121384214", "spouse": "潘妮", "father": "黃新福", "mother": "陳櫻枝", "note": "民國93年8月31日註記原住民民族別。原住花蓮縣光復鄉大馬村3鄰中山路三段63號黃\n新福戶內民國97年4月30日遷入登記。原住花蓮縣吉安鄉永興村16鄰全民街58號三樓張俊賢戶內\n民國99年1月15日遷入登記(U7)。民國99年1月15日登記原住民傳統姓名羅馬拼音(U7)\n。民國106年2月15日與潘妮結婚。長男黃熙國民身分證統一編號F134778960民國106\n年5月22日出生。原住花蓮縣光復鄉大馬村003鄰中山路三段63號黃新福戶內民國111年4月2\n5日遷人登記。"}, {"name": "黃熙", "title": "長子", "birthDate": "民國106年5月2

2024-08-02 14:29:20,633 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶藤27.pdf
2024-08-02 14:29:20,635 - INFO - Processing file 7/30: 申請資料-4要件/戶籍/戶謄1.pdf


```json
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶藤27.pdf", "IssueDate": "111/06/07", "IsFamilyRegisterExtract": True, "householdId": "FF233575", "householdAddress": "新北市土城區裕生里009鄰裕民路26號三樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "李鳳英", "title": "戶長", "birthDate": "民國51年11月28日", "PersonID": "N221600611", "spouse": null, "father": "李禮東", "mother": "李邱秀欺", "note": "民國95年2月20日與詹國強離婚。"}, {"name": "詹士民", "title": "長子", "birthDate": "民國69年12月8日", "PersonID": "N123566709", "spouse": null, "father": "詹國強", "mother": "李鳳英", "note": "無記事。"}, {"name": "詹琇雲", "title": "長女", "birthDate": "民國74年8月14日", "PersonID": "N224806857", "spouse": "劉信成", "father": "詹國強", "mother": "李鳳英", "note": "民國89年3月29日申報出生地。民國104年5月18日申請與劉信成結婚登記,民國104年5月20日結婚登記。女劉咨瑩統一編號F233214870民國104年8月6日出生。原登記父姓名詹國強係誤錄民國111年1月20日更正登記。"}, {"name": "劉咨瑩", "title": "孫女", "birthDate": "民國104年8月6日", "PersonID": "F233214870", "spouse": null,

2024-08-02 14:29:29,604 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄1.pdf
2024-08-02 14:29:29,605 - INFO - Processing file 8/30: 申請資料-4要件/戶籍/戶謄10.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄1.pdf", "IssueDate": "111/06/30", "IsFamilyRegisterExtract": True, "householdId": "FS178063", "householdAddress": "新北市板橋區仁愛里005鄰仁愛路62巷24弄1號四樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "張堂齡", "title": "戶長", "birthDate": "民國67年9月2日", "PersonID": "F224384387", "spouse": "邱冠憲", "father": "張滿才", "mother": "林秀桃", "note": "出生地:臺北市\n出生別:長女\n記事:民國74年1月17日隨張堂慶住變。出生地:台北市。民國93年1月12日與劉宏亮結婚\n(L14)。原住臺灣省臺北縣板橋市仁愛里16鄰仁愛路67號四樓戶長本人民國93年6月24日遷\n人登記。原住臺中縣石岡鄉土牛村5鄰豐勢路德成巷48號劉祥奏戶內民國97年10月17日遷人登記\n。民國110年2月5日經法院調解與劉宏亮離婚民國110年2月17日申登。因離婚民國110年2\n月5日經法院調解行使負擔未成年子女劉靜庭權利義務民國110年2月17日申登。民國111年6月\n23日與邱冠憲結婚。"}, {"name": "邱冠憲", "title": "夫", "birthDate": "民國72年11月5日", "PersonID": "F126007881", "spouse": "張堂齡", "father": "邱建鴻", "mother": "徐素英", "note": "出生地:臺灣省臺北縣\n役別:除役\n出生別:長男\n記事:民國111年6月23日與張堂齡結婚。原住新北市土城區清水里026鄰明德路一段240\n巷11號四樓邱建鴻戶內民國111年6月30日遷人登記。"}, {"name": "劉靜庭

2024-08-02 14:29:44,971 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄10.pdf
2024-08-02 14:29:44,972 - INFO - Processing file 9/30: 申請資料-4要件/戶籍/戶謄11.pdf


```json
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄10.pdf", "IssueDate": "111/07/07", "IsFamilyRegisterExtract": True, "householdId": "FQ949984", "householdAddress": "新北市中和區錦中里006鄰圓通路274號十一樓之7", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "買成龍", "title": "戶長", "birthDate": "民國50年3月29日", "PersonID": "E120966700", "spouse": "阮成強", "father": "賈振", "mother": "楊蘊鈺", "note": "民國74年2月13日與阮成強結婚。民國78年2月20日職變民國81年4月18日申登。民國86年8月5日改名。民國86年8月7日與阮如冰離婚申登。\n原住本市景平里13鄰景平路169巷1號八樓本人戶內民國85年3月9日住變。妻阮成強民國86年8月5日改名為阮如冰民國86年8月7日註記。\n原住本市同址設有戶籍民國86年9月1日入境民國86年10月22日遷入登記。原住錦中里6鄰圓通路266號五樓戶長本人民國101年9月28日住址變更。原姓名賈賢芳特殊原因民國104年3月6日第一次改名。"}, {"name": "賈賢淨", "title": "長女", "birthDate": "民國74年11月5日", "PersonID": "F226368514", "spouse": null, "father": "賈成龍", "mother": "阮如冰", "note": "原住本市景平里13鄰景平路169巷1號八樓賈成龍戶內民國85年3月9日住變。民國85年3月13日出境民國85年11月21日代辦遷出登記。浮籤註記:因父母民國86年8月7日離婚約定由父賈成龍監護。浮籤註記:母阮成強民國86年8月5日改名為阮如冰民國86年8月7日註記。\n原在本市同

2024-08-02 14:29:53,725 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄11.pdf
2024-08-02 14:29:53,725 - INFO - Processing file 10/30: 申請資料-4要件/戶籍/戶謄12.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄11.pdf", "IssueDate": "111/07/05", "IsFamilyRegisterExtract": True, "householdId": "F1801502", "householdAddress": "新北市三峽區鳶山里015鄰中山路169巷11弄1號", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "蔡雷鳴", "title": "戶長", "birthDate": "民國39年12月18日", "PersonID": "F102824264", "spouse": "周寶月", "father": "蔡海峰", "mother": "蕭焗芝", "note": "民國66年9月21日與周寶月結婚。原在同址設有戶籍民國85年6月19日人境民國85年6月24日遷入登記。原住臺北市士林區社子里3鄰通河西街二段37號二樓本人戶內民國87年12月8日遷入登記。民國101年8月23日與周寶月兩願離婚。"}, {"name": "蔡仕文", "title": "長子", "birthDate": "民國67年3月1日", "PersonID": "A120777218", "spouse": null, "father": "蔡雷鳴", "mother": "周寶月", "note": "原住臺北縣三峽鎮鳶山里15鄰中山路169巷11弄1號周寶月戶內民國92年2月25日遷入登記。原住臺北市信義區黎安里5鄰臥龍街431巷臨6之16號蔡定神戶內民國98年4月29日遷入登記。"}, {"name": "蔡仕元", "title": "次子", "birthDate": "民國68年10月13日", "PersonID": "A120697484", "spouse": null, "father": "蔡雷鳴", "mother": "周寶月", "note": "原住臺北市士林區社子里3鄰通河西街二段37號二樓蔡雷

2024-08-02 14:30:02,504 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄12.pdf
2024-08-02 14:30:02,505 - INFO - Processing file 11/30: 申請資料-4要件/戶籍/戶謄13.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄12.pdf", "IssueDate": "111/07/14", "IsFamilyRegisterExtract": True, "householdId": "FW634099", "householdAddress": "新北市新店區玫瑰里013鄰富貴街23巷10號三樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "賴彥成", "title": "戶長", "birthDate": "民國71年10月19日", "PersonID": "1100072456", "spouse": "張倚禎", "father": "賴嘉榮", "mother": "翁素卿", "note": "在本市蔡婦產科診所出生民國71年10月30日申登。民國100年5月18日與張倚禎結\n婚(12)。長男賴禹昇統一編號1100623257民國101年5月2日出生(I2)。次男賴竑\n佑國民身分證統一編號F135360168民國108年12月19日出生。"}, {"name": "張倚禎", "title": "妻", "birthDate": "民國71年12月4日", "PersonID": "T222834750", "spouse": "賴彥成", "father": "張榿雄", "mother": "莊蘭珍", "note": "在屏東市出生。民國79年9月1日教變民國81年1月7日校登。原住屏東縣內埔鄉東勢村\n9鄰嘉應路182號張榿雄戶內民國100年5月18日遷入登記。民國100年5月18日與賴彥成結\n婚(12)。男賴禹昇統一編號1100623257民國101年5月2日出生(I2)。男賴竑佑國\n民身分證統一編號F135360168民國108年12月19日出生。"}, {"name": "賴禹昇", "title": "長子", "birthDate": "民國101年5月2日", "PersonID": "11006232

2024-08-02 14:30:11,942 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄13.pdf
2024-08-02 14:30:11,943 - INFO - Processing file 12/30: 申請資料-4要件/戶籍/戶謄14.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄13.pdf", "IssueDate": "111/07/04", "IsFamilyRegisterExtract": "True", "householdId": "FR298901", "householdAddress": "新北市永和區得和里022鄰中正路368巷20弄4號三樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "鍾照明", "title": "戶長", "birthDate": "民國60年4月20日", "PersonID": "V120407442", "spouse": "陳雪如", "father": "范先開", "mother": "鍾春桂", "note": "原住台東縣台東市建業里5鄰西昌街242號鍾春桂戶內民國84年6月17日遷入。民國86年3月29日與陳雪如結婚民國86年4月7日申登。民國94年3月16日註記原住民民族別。原住臺北市大同區延平里14鄰重慶北路二段114巷11號五樓陳宗隆戶內民國97年9月26日遷入登記\n0"}, {"name": "陳雪如", "title": "妻", "birthDate": "民國60年9月30日", "PersonID": "A220718506", "spouse": "鍾照明", "father": "陳宗隆", "mother": "陳李阿蔭", "note": "民國73年1月19日職變校登。民國73年9月1日教變民國73年12月26日校登。民\n國82年7月13日申登出生地台北市。民國86年3月29日與鍾照明結婚民國86年4月7日申登。\n原住本市得和里22鄰中正路368巷20弄4號三樓戶長本人民國95年6月1日住址變更。原住本市\n民生里15鄰四維街68號四樓黃柏仁戶內民國96年3月28日住址變更。"}, {"name": "鍾佳紜", "title": "長女", "birthDate": "民國89年7月1日", "Perso

2024-08-02 14:30:24,923 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄14.pdf
2024-08-02 14:30:24,924 - INFO - Processing file 13/30: 申請資料-4要件/戶籍/戶謄15.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄14.pdf", "IssueDate": "111/07/11", "IsFamilyRegisterExtract": True, "householdId": "FS381209", "householdAddress": "新北市板橋區華德里017鄰德興街37巷1號五樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "黃春萬", "title": "戶長", "birthDate": "民國52年2月25日", "PersonID": "R120335830", "spouse": "黃麗珍", "father": "黃允成", "mother": "林朕", "note": "民國79年11月10日與黃麗珍結婚。原住台北縣板橋市居仁里7鄰三民路二段193巷26號三樓民國83年12月15日遷入。原姓名:黃春風民國84年7月3日因與他人同姓名申請改名民國84年7月6日核准民國84年7月15日申登。原住嘉義縣鹿草鄉三角村17鄰三角子93號黃伯語戶內民國85年8月20日遷入。"}, {"name": "黃麗珍", "title": "妻", "birthDate": "民國53年10月9日", "PersonID": "Q221609858", "spouse": "黃春萬", "father": "黃伯語", "mother": "黃莊回枝", "note": "民國79年11月10日與黃春風結婚。原住台南縣白河鎮甘宅里6鄰甘宅67號黃允成戶內民國85年8月15日遷入。夫原姓名黃春風民國85年8月20日改名變更。"}, {"name": "黃德旺", "title": "長子", "birthDate": "民國80年6月2日", "PersonID": "R124075657", "spouse": null, "father": "黃春萬", "mother": "黃麗珍", "note": "原住台南縣白河鎮甘宅里6鄰

2024-08-02 14:30:35,917 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄15.pdf
2024-08-02 14:30:35,918 - INFO - Processing file 14/30: 申請資料-4要件/戶籍/戶謄16.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄15.pdf", "IssueDate": "111/06/06", "IsFamilyRegisterExtract": True, "householdId": "FL798892", "householdAddress": "新北市樹林區彭福里015鄰水源街32巷33號", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "余家慶", "title": "戶長", "birthDate": "民國45年2月1日", "PersonID": "H102435536", "spouse": "彭素甘", "father": "余阿坤", "mother": "余魏見妹", "note": "民國80年9月16日補証。原名:余家炮因粗俗不雅民國81年11月24日變更(民國81年12月1日申登)。原住樹南里12鄰復興路390巷19號十樓之1戶長本人民國91年04月02日住址變更。"}, {"name": "彭素甘", "title": "妻", "birthDate": "民國49年1月15日", "PersonID": "K220549233", "spouse": "余家慶", "father": "彭昌蘭", "mother": "彭詹二妹", "note": "無記事。"}, {"name": "余思慧", "title": "參女", "birthDate": "民國77年5月13日", "PersonID": "F226742001", "spouse": "張智凱", "father": "余家慶", "mother": "彭素甘", "note": "原住本縣新莊市福營里2鄰中正路533號民國83年11月25日遷入。原住本鎮樹人里2鄰復興路356號四樓彭瑞明戶內民國85年7月4日住址變更。原住新北市樹林區樹福里20鄰復興路3號三樓余家慶戶內民國101年11月14日遷入登記。民國101年11月14日與勞大鵬結婚。男勞景業統

2024-08-02 14:30:49,619 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄16.pdf
2024-08-02 14:30:49,620 - INFO - Processing file 15/30: 申請資料-4要件/戶籍/戶謄17.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄16.pdf", "IssueDate": "111/05/30", "IsFamilyRegisterExtract": True, "householdId": "FQ436138", "householdAddress": "新北市土城區清水里020鄰仁愛路54巷6號", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "林嘉琪", "title": "戶長", "birthDate": "民國68年11月19日", "PersonID": "F225389653", "spouse": "凌銘章", "father": "林炎明", "mother": "陳來春", "note": "出生別:長女\n出生地:臺灣省臺北縣\n已事:原住臺北縣土城市清水里20鄰仁愛路54巷6號陳來春戶內民國87年12月9日遷入登記。民國87年12月9日遷出高雄市鼓山區民族里1鄰內惟路459巷1號(已接通報)。民國87年10月23日與凌銘章結婚民國87年12月9日申登。原住高雄市鼓山區民族里1鄰內惟路459巷1號民國88年5月21日遷入登記。原住臺北縣土城市清水里20鄰仁愛路54巷6號陳來春戶內民國90年5月28日遷入登記。原住高雄市鼓山區民族里1鄰內惟路459巷1號凌正信戶內民國91年9月13日遷入登記。原住臺北縣土城市清水里20鄰仁愛路54巷6號陳來春戶內民國96年7月2日遷入登記。原住桃園縣龜山鄉文化村19鄰科技三路88號凌銘章戶內民國99年8月5日遷入登記(F10)。原住復興里29鄰廣興街75號七樓戶長本人民國101年5月23日住址變更(F13)。民國106年9月29日與凌銘章兩願離婚。因離婚民國106年9月29日協議行使負擔未成年子女凌岱慈權利義務。因離婚民國106年9月29日協議行使負擔未成年子女凌岱樺權利義務。因離婚民國106年9月29日協議行使負擔未成年子女凌培晨權利義務。"}, {"name": "凌岱慈", "title": "

2024-08-02 14:31:04,598 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄17.pdf
2024-08-02 14:31:04,599 - INFO - Processing file 16/30: 申請資料-4要件/戶籍/戶謄18.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄17.pdf", "IssueDate": "111/04/27", "IsFamilyRegisterExtract": True, "householdId": "FP305021", "householdAddress": "新北市土城區員仁里010鄰慶利街22號四樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "黃秀蓉", "title": "戶長", "birthDate": "民國46年11月21日", "PersonID": "H202311202", "spouse": "康世文", "father": "黃阿添", "mother": "黃鍾宗", "note": "原住台北市大安區錦安里1鄰金華街118號之8康世文戶內民國84年12月14日遷人。\n民國85年1月19日遷出台北市大安區錦安里1鄰金華街118之8號(已接通報)。原住台北市大安\n區錦安里1鄰金華街118之8號民國85年8月23日隨夫遷入。原姓名黃秀蓉與他人同姓名民國11\n0年8月19日改名。原姓名黃立岑名字不雅民國111年1月4日第一次改名。"}, {"name": "康世文", "title": "夫", "birthDate": "民國45年8月24日", "PersonID": "Q103198154", "spouse": "黃秀蓉", "father": "康天理", "mother": "康蔡桂英", "note": "原住台北市大安區錦安里1鄰金華街118號之8戶長本人民國84年12月14日遷入。民\n國85年1月19日遷出台北市大安區錦安里1鄰金華街118之8號(已接通報)。原住台北市大安區\n錦安里1鄰金華街118之8號民國85年8月23日遷入。原逕為住址變更登記於臺北市大安區龍安里\n1鄰臺北市大安區戶政事務所(新生南路二段86號)戶長本人民國102年6月20日遷入登記。原登\n記配偶姓名黃秀蓉因配偶改名民國110年8月

2024-08-02 14:31:26,911 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄18.pdf
2024-08-02 14:31:26,913 - INFO - Processing file 17/30: 申請資料-4要件/戶籍/戶謄19.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄18.pdf", "IssueDate": "111/06/06", "IsFamilyRegisterExtract": True, "householdId": "YJ364206", "householdAddress": "新北市板橋區大觀里008鄰僑中二街88巷12號二樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "張嘉城", "title": "戶長", "birthDate": "民國62年2月4日", "PersonID": "A123733487", "spouse": null, "father": "張寬一", "mother": "張盧麗雲", "note": "原住台北市中山區正得里4鄰中山北路一段5巷57號民國82年6月1日遷入。民國83年9月15日職變民國83年10月21日申登。民國85年8月11日職變民國85年8月15日申登。民國86年10月15日申報出生地。原姓名張耀明特殊原因民國105年11月21日第一次改名。"}, {"name": "張寬一", "title": "父", "birthDate": "民國33年3月1日", "PersonID": "B100955217", "spouse": "張盧麗雲", "father": "張振祥", "mother": "張林秀鳳", "note": "原住臺北市士林區永倫里10鄰延平北路六段258巷64號戶長本人民國86年3月24日遷入。原住台北縣三重市光田里20鄰興華街89號三樓高芳華戶內民國88年1月18日遷人登記。"}, {"name": "張盧麗雲", "title": "母", "birthDate": "民國37年12月9日", "PersonID": "A200226892", "spouse": "張寬一", "father": "盧外國", "mother": "盧曾輕輕", "note": "原住本市士林區永倫里10鄰延

2024-08-02 14:31:37,540 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄19.pdf
2024-08-02 14:31:37,541 - INFO - Processing file 18/30: 申請資料-4要件/戶籍/戶謄2.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄19.pdf", "IssueDate": "111/04/18", "IsFamilyRegisterExtract": "True", "householdId": "FR597259", "householdAddress": "新北市土城區青山里003鄰明德路一段249號四樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "莊為翔", "title": "戶長", "birthDate": "民國76年2月14日", "PersonID": "N124304516", "spouse": "洪茹婷", "father": "莊福華", "mother": "李鳳蕊", "note": "由母監護。民國82年5月27日隨李英津遷入。民國98年3月20日申請與洪茹婷結婚登記,民國98年3月22日結婚登記(F3)。長女莊金榆統一編號F232151669民國98年7月22日出生(F3)。長男莊亮榆統一編號F133349938民國101年7月18日出生。"}, {"name": "洪茹婷", "title": "妻", "birthDate": "民國75年3月13日", "PersonID": "F226416113", "spouse": "莊為翔", "father": "洪季郎", "mother": "王麗鈴", "note": "民國98年3月20日申請與莊為翔結婚登記,民國98年3月22日結婚登記。女莊金榆統一編號F232151669民國98年7月22日出生。原住臺北縣三重市開元里7鄰三和路一段47巷5號四樓洪季郎戶內民國99年1月18日遷入登記(F10)。男莊亮榆統一編號F133349938民國101年7月18日出生。"}, {"name": "莊金榆", "title": "長女", "birthDate": "民國98年7月22日", "PersonID": "F232151669", "spouse": nu

2024-08-02 14:31:46,448 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄2.pdf
2024-08-02 14:31:46,449 - INFO - Processing file 19/30: 申請資料-4要件/戶籍/戶謄20.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄2.pdf", "IssueDate": "111/07/08", "IsFamilyRegisterExtract": True, "householdId": "F0A37QF4", "householdAddress": "新北市中和區連城里018鄰連城路171巷30號七樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "段榮昌", "title": "戶長", "birthDate": "民國70年12月7日", "PersonID": "F125437447", "spouse": "林雅甄", "father": "段洪秀", "mother": "黃素訓", "note": "在空軍總醫院出生民70、12、22申登。原住忠孝里5鄰中正路618巷7弄3號戶長本人民國100年6月14日住址變更(F6)。民國106年12月7日與林雅甄結婚。長男段允澄國民身分證統一編號F135222029民國107年6月2日出生。"}, {"name": "林雅甄", "title": "妻", "birthDate": "民國70年7月31日", "PersonID": "F224858766", "spouse": "段榮昌", "father": "林坤宏", "mother": "顏寶月", "note": "原住台北縣板橋市香丘里4鄰漢生東路113巷6弄7號之1林美雲戶內民國84年9月14日遷入。民國88年5月17日遷出台北縣板橋市香丘里4鄰漢生東路113巷6弄7號之1(已接通報)。因虛報遷出民國88年6月29日撤銷遷出登記。原住臺北縣鶯歌鎮永昌里6鄰鶯桃路129巷12弄9號六樓之2顏寶月戶內民國88年7月1日遷入登記。原住新北市板橋區西安里009鄰中山路二段97號六樓之2林坤宏戶內民國106年12月7日遷入登記。民國106年12月7日與段榮昌結婚。男段允澄國民身分證統一編號F135222029民國107年6月2日出生。"}, 

2024-08-02 14:31:58,401 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄20.pdf
2024-08-02 14:31:58,402 - INFO - Processing file 20/30: 申請資料-4要件/戶籍/戶謄21.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄20.pdf", "IssueDate": "111/05/05", "IsFamilyRegisterExtract": True, "householdId": "FX348871", "householdAddress": "新北市板橋區後埔里012鄰實踐路32巷6號四樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "許心鋯", "title": "戶長", "birthDate": "民國78年3月28日", "PersonID": "F127457714", "spouse": null, "father": "陳烱文", "mother": "許淇鈴", "note": "原姓名陳禹任特殊原因民國85年8月29日改名。原姓名陳宇彤特殊原因民國105年4月28日第二次改名。原姓名陳宇成年後申請變更從母姓民國108年1月9日登記。原姓名許宇與他人同姓名民國108年7月11日改名。"}, {"name": "許淇鈴", "title": "母", "birthDate": "民國54年10月16日", "PersonID": "A223170615", "spouse": null, "father": "許華成", "mother": "許張樣", "note": "民國83年3月14日與陳烱文離婚。原姓名許麗香民國84年5月15日因特殊原因申請改名民國84年5月19日核准民國84年5月22日申登。民國89年1月9日與宋品宗結婚民國89年2月22日申登。民國89年12月11日與宋品宗離婚。原登記出生地臺灣省臺北縣係誤報民國91年5月15日更正。原姓名許麗麗特殊原因民國91年6月13日第二次改名。原住臺灣省臺北縣板橋市後埔里12鄰實踐路32巷4號四樓戶長本人民國93年12月8日遷入登記。民國93年10月12日出境民國95年11月7日遷出登記。原在苗栗縣竹南鎮崎頂里011鄰清天泉10之2號(96年除戶林順發戶內)設有戶籍民

2024-08-02 14:32:14,512 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄21.pdf
2024-08-02 14:32:14,514 - INFO - Processing file 21/30: 申請資料-4要件/戶籍/戶謄22.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄21.pdf", "IssueDate": "111/04/28", "IsFamilyRegisterExtract": True, "householdId": "FW342179", "householdAddress": "新北市中和區秀峰里034鄰景德街21號五樓之16", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "陳志祥", "title": "戶長", "birthDate": "民國76年9月3日", "PersonID": "U121541951", "spouse": "黃郁喬", "father": "陳德源", "mother": "吳秀琴", "note": "在玉里鎮新興街91號出生。民國82年12月10日教變經登。民國92年1月8日註記民族別。民國103年12月25日與袁黃朝慧結婚。長女陳璽恩統一編號F232774957民國103年12月20日出生。次女陳巧恩國民身分證統一編號F233907683民國106年10月17日出生。原登記配偶姓名袁黃朝慧因配偶改姓民國109年3月30日變更民國109年3月30日經新北市中和戶政事務所逕為變更登記。原登記配偶姓名黃黃朝慧因配偶改名民國109年3月30日變更民國109年3月30日經新北市中和戶政事務所逕為變更登記。三女陳念恩國民身分證統一編號F234813608民國110年9月11日出生。"}, {"name": "黃郁喬", "title": "妻", "birthDate": "民國81年9月28日", "PersonID": "A226350133", "spouse": "陳志祥", "father": "黃振東", "mother": "袁美玉", "note": "原住台北市內湖區金龍里10鄰金龍路67巷5弄9號七樓民國86年10月4日遷入。原住台北市松山區東光里23鄰南京東路五段71號六樓之3民國87年6月2日遷入。原姓黃民國92年8月29日約

2024-08-02 14:32:24,545 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄22.pdf
2024-08-02 14:32:24,547 - INFO - Processing file 22/30: 申請資料-4要件/戶籍/戶謄23.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄22.pdf", "IssueDate": "111/05/09", "IsFamilyRegisterExtract": True, "householdId": "FP342164", "householdAddress": "新北市土城區學士里020鄰學士路11號四樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "廖庭霙", "title": "戶長", "birthDate": "民國49年12月13日", "PersonID": "Y220260353", "spouse": null, "father": "廖欽日", "mother": "廖楊金魚", "note": "原名:廖秀鳳。原住臺北市松山區新聚里5鄰寶清街21號八樓之3戶長本人民國087年03月02日遷人。原住臺北縣中和市壽德里29鄰民德路374號戶長本人民國96年7月23日遷入登記。"}, {"name": "廖欽日", "title": "父", "birthDate": "民國24年1月15日", "PersonID": "A103299724", "spouse": "廖楊金魚", "father": "廖石汗", "mother": "廖林夾", "note": "原住台北縣板橋市廣福里4鄰信義路251巷8號五樓民國85年11月25日遷入。原住臺北市松山區新聚里5鄰寶清街21號八樓之3戶長本人民國87年3月2日遷入。原住臺北縣五股鄉五福村19鄰五福路32巷42號三樓蘇美淑戶內民國94年10月31日遷入登記。"}, {"name": "廖楊金魚", "title": "母", "birthDate": "民國23年11月3日", "PersonID": "A203144271", "spouse": "廖欽日", "father": "楊阿連", "mother": "楊陳對", "note": "原住台北縣板橋市廣福里4鄰信義路251巷8號五

2024-08-02 14:32:36,219 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄23.pdf
2024-08-02 14:32:36,220 - INFO - Processing file 23/30: 申請資料-4要件/戶籍/戶謄24.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄23.pdf", "IssueDate": "111/06/01", "IsFamilyRegisterExtract": True, "householdId": "FR759496", "householdAddress": "新北市土城區明德里018鄰明德路二段197號五樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "陳建良", "title": "戶長", "birthDate": "民國67年4月16日", "PersonID": "T122820496", "spouse": "徐孟伶", "father": "陳先利", "mother": "陳方素雲", "note": "原住新北市樹林區東陽里18鄰鎮前街413之10號五樓之4民國101年5月3日遷入登記(F13)。原住裕生里037鄰樂利街9號八樓民國106年2月2日住址變更·原村里鄰明德里023鄰民國111年1月3日行政區域調整。原住本縣新園鄉五房村4鄰福德路199號民國82年2月17日隨母遷入。民國101年6月27日申請與徐孟伶結婚登記,民國101年6月29日結婚登記(F13)。長男陳訢恩統一編號F133800696民國103年4月6日出生。長女陳心瞳統一編號F233576482民國105年6月27日出生。"}, {"name": "徐孟伶", "title": "妻", "birthDate": "民國68年6月29日", "PersonID": "H222398161", "spouse": "陳建良", "father": "徐國鐘", "mother": "李美慧", "note": "原住明德里23鄰明德路二段205巷1號十一樓徐國鐘戶內民國101年6月27日住址變更(F13)。民國101年6月27日申請與陳建良結婚登記,民國101年6月29日結婚登記(F13)。男陳訢恩統一編號F133800696民國103年4月6日出生。女陳心瞳統一編號F2

2024-08-02 14:32:50,858 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄24.pdf
2024-08-02 14:32:50,859 - INFO - Processing file 24/30: 申請資料-4要件/戶籍/戶謄25.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄24.pdf", "IssueDate": "111/06/01", "IsFamilyRegisterExtract": true, "householdId": "FV883922", "householdAddress": "新北市三峽區中正里021鄰大同路88巷1號十二樓之2", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "陳文達", "title": "戶長", "birthDate": "民國31年3月2日", "PersonID": "M100960922", "spouse": "王蘭蕙(歿)", "father": "陳刪宣", "mother": "陳王六合", "note": "配偶王蘭蕙(歿)。原住臺北市中正區螢雪里4鄰泉州街135號戶長本人民國96年1月24日遷入登記。"}, {"name": "陳國彬", "title": "長子", "birthDate": "民國57年1月2日", "PersonID": "M120748539", "spouse": "宗旭娟", "father": "陳文達", "mother": "王蘭蕙", "note": "民國82年7月8日與賀淑梅結婚。民國90年2月9日與賀淑梅離婚。原住土城里18鄰中央路二段209號十樓之6戶長本人民國96年8月20日住址變更。原住頂新里006鄰中央路四段279巷19號九樓之2戶長本人民國103年2月17日住址變更。民國102年8月6日與大陸地區人民宗旭娟(1978年10月13日出生)結婚民國103年12月3日申登。民國107年8月28日經法院裁定收養大陸地區人民祖悅然(2008年10月15日出生)為養子民國108年5月29日申登。"}, {"name": "陳國書", "title": "參子", "birthDate": "民國60年12月31日", "PersonID": "M120749821", "spouse": "葉想

2024-08-02 14:32:59,536 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄25.pdf
2024-08-02 14:32:59,538 - INFO - Processing file 25/30: 申請資料-4要件/戶籍/戶謄26.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄25.pdf", "IssueDate": "111/05/09", "IsFamilyRegisterExtract": True, "householdId": "FM580254", "householdAddress": "新北市土城區樂利里019鄰學府路一段234號二樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "楊美玲", "title": "戶長", "birthDate": "民國50年6月9日", "PersonID": "F222554943", "spouse": "吳明顏", "father": "楊玉珍", "mother": "楊何富", "note": "民國77年6月2日與吳明顏結婚。原住臺灣省臺北縣土城市中正里18鄰學府路一段143巷23號戶長本人民國91年10月24日遷入登記。原住學府里020鄰學府路一段153號戶長本人民國106年9月11日住址變更。"}, {"name": "吳姿靜", "title": "長女", "birthDate": "民國78年10月1日", "PersonID": "F227087385", "spouse": null, "father": "吳明顏", "mother": "楊美玲", "note": "原住臺灣省臺北縣土城市中正里18鄰學府路一段143巷23號楊美玲戶內民國91年10月24日遷入登記。"}, {"name": "吳亭儀", "title": "次女", "birthDate": "民國80年7月13日", "PersonID": "F227085989", "spouse": null, "father": "吳明顏", "mother": "楊美玲", "note": "原住臺灣省臺北縣土城市中正里18鄰學府路一段143巷23號楊美玲戶內民國91年10月24日遷入登記。"}, {"name": "吳思漢", "title": "長子"

2024-08-02 14:33:07,549 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄26.pdf
2024-08-02 14:33:07,549 - INFO - Processing file 26/30: 申請資料-4要件/戶籍/戶謄29.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄26.pdf", "IssueDate": "111/04/26", "IsFamilyRegisterExtract": true, "householdId": "F0A15RZ8", "householdAddress": "新北市新莊區昌明里006鄰昌明街14巷5弄8號", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "楊錦堂", "title": "戶長", "birthDate": "民國41年2月24日", "PersonID": "P101091571", "spouse": "杜雪華", "father": "楊肇龍", "mother": "楊蔡碧玉", "note": "原住台南市中區五妃里13鄰慶中街61號五樓戶長本人民國86年8月12日遷入。原住高雄市鼓山區龍子里045鄰龍德路335號九樓戶長本人民國108年3月14日遷入登記。原住臺南市安平區國平里012鄰建平一街190巷8號杜雪華戶內民國109年8月31日遷入登記。"}, {"name": "楊翼丞", "title": "孫", "birthDate": "民國105年1月4日", "PersonID": "F134706008", "spouse": null, "father": "楊宗憲", "mother": "周家慧", "note": "在新北市醫療財團法人徐元智先生醫藥基金會亞東紀念醫院出生約定從父姓民國105年1月25日申登。"}, {"name": "楊翼齊", "title": "孫", "birthDate": "民國107年5月21日", "PersonID": "F135224836", "spouse": null, "father": "楊宗憲", "mother": "周家慧", "note": "在新北市育馨中山婦產科診所出生約定從父姓民國107年5月25日申登。原住頭前里016鄰福美街90巷49號八樓楊宗憲戶內民國

2024-08-02 14:33:18,813 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄29.pdf
2024-08-02 14:33:18,814 - INFO - Processing file 27/30: 申請資料-4要件/戶籍/戶謄30.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄29.pdf", "IssueDate": "111/05/30", "IsFamilyRegisterExtract": True, "householdId": "FC352676", "householdAddress": "新北市永和區得和里016鄰中正路412巷2弄5號四樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "洪妤蓁", "title": "戶長", "birthDate": "民國53年1月10日", "PersonID": "N222515755", "spouse": "鄭進士", "father": "洪金塗", "mother": "洪魏綉琴", "note": "民國78年3月25日與鄭進士結婚。原姓名洪美月特殊原因民國106年3月2日第一次改名。原姓名妤蓁係誤錄民國106年3月2日更正姓名。"}, {"name": "鄭進士", "title": "夫", "birthDate": "民國53年5月15日", "PersonID": "F123044971", "spouse": "洪妤蓁", "father": "鄭信三", "mother": null, "note": "出生地:台北縣。民國78年3月25日與洪美月結婚民國78年5月18日申登。民國91年3月21日已接通報長男鄭文鈞民國91年3月8日出生。原住老梅里014鄰豬槽潭2號戶長本人民國105年7月15日住址變更。原登記配偶姓名洪美月因配偶改名民國106年3月2日變更民國106年3月2日經新北市永和戶政事務所逕為變更登記。原住新北市石門區山溪里002鄰老崩山11之13號江麗雲戶內民國110年9月7日遷入登記。"}, {"name": "鄭宇涵", "title": "長女", "birthDate": "民國79年11月2日", "PersonID": "F227831196", "spouse": null, "father":

2024-08-02 14:33:27,978 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄30.pdf
2024-08-02 14:33:27,979 - INFO - Processing file 28/30: 申請資料-4要件/戶籍/戶謄4.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄30.pdf", "IssueDate": "111/04/29", "IsFamilyRegisterExtract": True, "householdId": "A3645336", "householdAddress": "新北市板橋區埔墘里015鄰中山路二段416巷32弄13號", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "鄭銘樟", "title": "戶長", "birthDate": "民國46年1月3日", "PersonID": "P102454607", "spouse": "劉玫瑰", "father": "鄭春竹", "mother": "鄭蔡也", "note": "原住臺北市萬華區和德里005鄰寶興街19號二樓民國108年1月3日遷入登記。原住福壽里004鄰三民路二段204之23號三樓民國109年2月17日住址變更。"}, {"name": "劉玫瑰", "title": "妻", "birthDate": "民國46年7月17日", "PersonID": "P221704375", "spouse": "鄭銘樟", "father": "劉雅各", "mother": "劉蘇琮", "note": "無記事。"}, {"name": "鄭士偉", "title": "長子", "birthDate": "民國70年6月1日", "PersonID": "A125270027", "spouse": null, "father": "鄭銘樟", "mother": "劉玫瑰", "note": "在雲林縣虎尾鎮新生路74號出生民國70年7月13日登記。民國76年9月教變民國76年11月13日校登。民國77年9月1日遷出雲林縣四湖鄉鹿場村4鄰下鹿場路47號。民國77年9月6日撤銷遷出。"}, {"name": "鄭志祥", "title": "次子", "birthDate": "民國71年9月2

2024-08-02 14:33:46,174 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄4.pdf
2024-08-02 14:33:46,177 - INFO - Processing file 29/30: 申請資料-4要件/戶籍/戶謄6.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄4.pdf", "IssueDate": "111/07/14", "IsFamilyRegisterExtract": True, "householdId": "F1630651", "householdAddress": "新北市中和區枋寮里016鄰中和路241號十一樓之2", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "張金鐘", "title": "戶長", "birthDate": "民國43年6月5日", "PersonID": "F104183471", "spouse": null, "father": "張永富", "mother": "高美女", "note": "出生地台灣省台北縣。原住台北縣中和市佳和里9鄰中山路二段64巷6號之3民國77年11月18日遷入。民國73年1月23日與廖愛珍結婚。原住新北市永和區民族里20鄰民族街81巷1號二樓戶長本人民國102年4月23日遷人登記。"}, {"name": "張永富", "title": "父", "birthDate": null, "PersonID": null, "spouse": null, "father": null, "mother": null, "note": null}, {"name": "張金祿", "title": "弟", "birthDate": "民國49年12月28日", "PersonID": "F122224073", "spouse": "廖愛珍", "father": "張永富", "mother": "高美女", "note": "出生地台灣省台北縣。原住台北縣中和市佳和里9鄰中山路二段64巷6號之3民國77年11月18日遷入。民國73年1月23日與廖愛珍結婚。原住新北市永和區民族里20鄰民族街81巷1號二樓張金祿戶內民國102年4月23日遷人登記。"}, {"name": "廖愛珍", "title": "弟婦

2024-08-02 14:33:58,915 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄6.pdf
2024-08-02 14:33:58,916 - INFO - Processing file 30/30: 申請資料-4要件/戶籍/戶謄8.pdf


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄6.pdf", "IssueDate": "111/07/11", "IsFamilyRegisterExtract": True, "householdId": "FY552693", "householdAddress": "新北市新店區復興里015鄰中正路518巷15號四樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "黃玉琦", "title": "戶長", "birthDate": "民國55年7月20日", "PersonID": "F222578032", "spouse": "穆安迪(ANDY EFENDI)", "father": "黃李道榮", "mother": "黃甘妹", "note": "原住台北縣中和市民安里3鄰民安街25巷15號之3民國82年1月9日與周志能結婚不冠夫姓民國82年3月11日登記婚人。民國89年3月28日與周志能離婚民國89年3月28日申登。\n民國92年8月6日註記原住民民族別。原住臺北縣石碇鄉中民村9鄰十八重溪73號周志能戶內民國9\n2年8月6日遷入登記。民國92年12月17日與印尼國人穆安迪(ANDY EFENDI)(西元\n1973年6月1日出生)結婚民國93年2月25日申登。民國104年7月1日經法院裁判與印尼國\n人穆安迪(ANDY EFENDI)(1973年6月1日出生)離婚民國104年7月24日申登。"}, {"name": "周義挺", "title": "長子", "birthDate": "民國80年3月7日", "PersonID": "F128815149", "spouse": null, "father": "周志能", "mother": "黃玉琦", "note": "在台北市興隆路二段189號蔡婦產科出生民國82年5月17日申登。民國89年3月28\n日父母離婚約定由父監護民國89年3月28日申登。原住臺北縣石碇鄉中民村9鄰十八重溪73號周志\

2024-08-02 14:34:08,947 - INFO - Successfully processed file: 申請資料-4要件/戶籍/戶謄8.pdf
2024-08-02 14:34:08,953 - ERROR - Error decoding JSON: Expecting value: line 1 column 109 (char 108)


```jsonl
{"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶謄8.pdf", "IssueDate": "111/07/07", "IsFamilyRegisterExtract": True, "householdId": "F9277801", "householdAddress": "新北市永和區中溪里018鄰仁愛路186巷7號四樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "簡清熙", "title": "戶長", "birthDate": "民國47年1月1日", "PersonID": "S121955480", "spouse": "林明環", "father": "簡致", "mother": "劉牡丹", "note": "出生地臺灣省高雄縣。民國77年2月1日職變民國77年8月29日申登。民國78年5月1日職變民國78年5月16日申登。母簡劉牡丹民國89年11月8日撤冠姓民國89年12月2日申登。妻原姓名簡林明環民國103年10月31日撤冠配偶姓。"}, {"name": "林明環", "title": "妻", "birthDate": "民國50年4月15日", "PersonID": "F222105333", "spouse": "簡清熙", "father": "林萬鎰", "mother": "陳純", "note": "原住本市民族里10鄰民權路58巷1弄10號四樓戶長本人民國86年9月19日住變。原冠姓簡民國103年10月31日撤冠配偶姓登記。「"}, {"name": "簡川堯", "title": "長子", "birthDate": "民國72年5月21日", "PersonID": "S123205974", "spouse": null, "father": "簡清熙", "mother": "林明環", "note": "原住本市民族里10鄰民權路58巷1弄10號四樓簡林明環戶內民國86年9月19日住變。民國87年3月30日申報出生地。母

In [10]:
import json
import csv
import re


def preprocess_json_string(json_string):
    cleaned = json_string.replace('\n', '\\n')
    cleaned = cleaned.replace('True', 'true').replace('False', 'false')
    cleaned = re.sub(r'(\d+),\s*(\d+)', r'\1\2', cleaned)
    return cleaned


def parse_jsonl_file(file_path):
    data = []
    with open(file_path, 'r', encoding='utf-8') as file:
        for line_number, line in enumerate(file, 1):
            try:
                preprocessed_line = preprocess_json_string(line.strip())
                json_object = json.loads(preprocessed_line)
                data.append(json_object)
            except json.JSONDecodeError as e:
                print(f"第 {line_number} 行無法解析: {line.strip()}")
                print(f"錯誤信息: {str(e)}")
            except Exception as e:
                print(f"處理第 {line_number} 行時發生未知錯誤: {str(e)}")
    return data


def flatten_json(json_obj, parent_key='', sep='_'):
    items = []
    for k, v in json_obj.items():
        new_key = f"{parent_key}{sep}{k}" if parent_key else k
        if isinstance(v, dict):
            items.extend(flatten_json(v, new_key, sep=sep).items())
        elif isinstance(v, list):
            for i, item in enumerate(v):
                items.extend(flatten_json(
                    {str(i): item}, new_key, sep=sep).items())
        else:
            items.append((new_key, v))
    return dict(items)


def json_to_csv(json_data, csv_file_path):
    flattened_data = [flatten_json(item) for item in json_data]

    # 獲取所有可能的列
    fieldnames = set()
    for item in flattened_data:
        fieldnames.update(item.keys())

    with open(csv_file_path, 'w', newline='', encoding='utf-8-sig') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=sorted(fieldnames))
        writer.writeheader()
        for item in flattened_data:
            writer.writerow(item)


# 使用示例
input_file_path = '戶籍combined_output.jsonl'
output_csv_file = '戶籍combined_output.csv'

parsed_data = parse_jsonl_file(input_file_path)
json_to_csv(parsed_data, output_csv_file)

print(f"成功解析的對象數量: {len(parsed_data)}")
print(f"CSV 文件已保存為: {output_csv_file}")

第 2 行無法解析: {"gsURL": "gs://nthurc-docai-poc/申請資料-4要件/戶籍/戶口5.pdf", "IssueDate": "111/07/15", "IsFamilyRegisterExtract": None, "householdId": "FOA2RMW5", "householdAddress": "新北市板橋區國泰里005鄰忠孝路忠義巷15弄96號三樓", "membersOfHousehold": {"description": "取得此戶籍地址紀錄的成員相關資訊並組合成一個嵌套的 JSON，提取其中所有成員的姓名、稱謂、出生日期、身份證字號、配偶、父親姓名、母親姓名、記事內容", "members": [{"name": "梁乙欽", "title": "戶長", "birthDate": "民國45年3月10日", "PersonID": "N120769673", "spouse": "易莉菲", "father": "梁秀森", "mother": "梁張摘", "note": "出生地:台灣省彰化縣。民國78年1月17日與梁江絲離婚。民國82年5月20日與易美蓉結婚。民國82年5月31日申登。妻梁易美蓉民國83年2月8日姓名變更民國93年8月27日申登。妻梁易修禪民國91年7月23日姓名變更民國93年8月27日申登。妻梁易華茜民國93年8月27日撤冠姓。原登記配偶姓名易華茜因配偶改名民國106年5月5日變更民國106年5月5日經彰化縣員林市戶政事務所逕為變更登記。"}, {"name": "易莉菲", "title": "妻", "birthDate": "民國50年4月2日", "PersonID": "B220757497", "spouse": "梁乙欽", "father": "易紹輝", "mother": "易廖菊鑾", "note": "原姓名:易美蓉。民國82年5月20日與梁乙欽結婚。原姓名易修禪名字不雅民國91年7月23日第二次改名。原住臺中縣烏日鄉九德村16鄰興祥街167巷22號七樓戶長本人民國93年8月26日遷入登記。原姓名易華茜係誤錄民國93年8月27日更正姓名。原姓梁民國93年8月27日撤冠夫姓登記。原姓名易華茜特殊原因民國106年5月5日第三次改名。"}, {"name": "梁錢

## 3. 財產查詢清單


#### 目前需要釐清的部分：

- 財產中只有土地需要被紀錄嗎？是需要被紀錄是否持有還是有其他資訊也需要讀取到？
- 財產中如果有房產資訊，是否需要紀錄房產的資訊？


In [28]:
import vertexai
from dotenv import load_dotenv
from vertexai.generative_models import GenerativeModel, Part

project_id = "nthurc-aisearch-202406"

load_dotenv()
vertexai.init(project=project_id, location="us-central1")

model = GenerativeModel("gemini-1.5-flash-001")

json_format = '''{
  "IssuingAuthority": "提取此所得稅[核發單位]文字資訊放於此欄位",
  "AssetName": "提取[所得人姓名]",
  "AssetID": "提取所得人[統一編號]，位於文檔中部偏右，是所得人的唯一識別碼",
  "HasLand" : "如果財產列表中有土地相關的財產，請返回 True, 否則返回 False",
  "HasHouse" : "如果財產列表中有房屋相關的財產，請返回 True, 否則返回 False",
  "HasCar" : "如果財產列表中有汽車相關的財產，請返回 True, 否則返回 False",
  "HasAgriculturalLand": "如果財產列表中有田賦相關的財產，請返回 True, 否則返回 False",
}'''


prompt = f"""
You are now a professional PDF document extractor. I will provide you with a PDF of a Asset Inquiry List provided by the Taiwan government. You will extract the specified information from the PDF to JSONL and then return it to me. I will clearly define the content I need, and you will extract the value and return it based on the content in the PDF.
```json format : {json_format}```
Please carefully review the content of each page of the PDF file and extract the information to generate the corresponding JSON response. The value can accept output in Traditional Chinese. Think carefully before outputting and then return the conclusion. Your answer is very important to my career.

JSONL :
"""

AssetInquiryList_pdf_file_uri = "gs://nthurc-docai-poc/申請資料-4要件/財產/財產21.pdf"
AssetInquiryList_pdf_file = Part.from_uri(
    AssetInquiryList_pdf_file_uri, mime_type="application/pdf")
contents = [AssetInquiryList_pdf_file, prompt]

response = model.generate_content(contents)
print(response.text)

```jsonl
{"IssuingAuthority": "財政部北區國稅局中和稽徵所", "AssetName": "陳志祥", "AssetID": "U121541951", "HasLand": "True", "HasHouse": "True", "HasCar": "True", "HasAgriculturalLand": "True"}
{"IssuingAuthority": "財政部北區國稅局中和稽徵所", "AssetName": "黃郁喬", "AssetID": "A226350133", "HasLand": "False", "HasHouse": "False", "HasCar": "True", "HasAgriculturalLand": "False"}
{"IssuingAuthority": "財政部北區國稅局中和稽徵所", "AssetName": "陳念恩", "AssetID": "F234813608", "HasLand": "False", "HasHouse": "False", "HasCar": "False", "HasAgriculturalLand": "False"}
{"IssuingAuthority": "財政部北區國稅局中和稽徵所", "AssetName": "陳璽恩", "AssetID": "F232774957", "HasLand": "False", "HasHouse": "False", "HasCar": "False", "HasAgriculturalLand": "False"}
{"IssuingAuthority": "財政部北區國稅局中和稽徵所", "AssetName": "陳巧恩", "AssetID": "F233907683", "HasLand": "False", "HasHouse": "False", "HasCar": "False", "HasAgriculturalLand": "False"}
```


# 財產文檔正式處理

- 處理 30 個財產文檔，提取其中 Jsonl 資料並判斷是否有相關財產，並合併生成一個新的 Jsonl 檔案
- 再將 JsonL 資料轉換成 Dataframe
- 最後將 Dataframe 儲存成 CSV 檔案


In [33]:
def extract_json_strings(json_response):
    """
    提取JSON响应中的字符串函数。

    参数：
    - json_response：JSON响应字符串。

    返回值：
    - 字符串列表：提取的JSON响应中的字符串列表。

    说明：
    - 如果json_response为None，则返回空列表。
    - 移除json_response中的所有```json或```jsonl标记。
    - 使用正则表达式找出所有的JSON对象。
    - 解析每个JSON对象并重新序列化，以确保它们是有效的JSON。
    - 返回有效的JSON字符串列表。

    注意：
    - 忽略无效的JSON对象，继续处理下一个对象。
    """
    if json_response is None:
        return []

    # 移除所有的 ```json 或 ```jsonl 標記
    cleaned_response = re.sub(r'```(?:json|jsonl)?\s*', '', json_response)

    # 使用正則表達式找出所有的 JSON 對象
    json_objects = re.findall(r'\{[^{}]*\}', cleaned_response)

    # 解析每個 JSON 對象並重新序列化，以確保它們是有效的 JSON
    valid_json_strings = []
    for obj in json_objects:
        try:
            parsed = json.loads(obj)
            valid_json_strings.append(json.dumps(parsed, ensure_ascii=False))
        except json.JSONDecodeError:
            print(f"Invalid JSON: {obj}")
            continue  # 忽略無效的 JSON

    return valid_json_strings


def create_json_format(file_uri):
    return {
        "gsURL": file_uri,
        "IssuingAuthority": "提取此所得稅[核發單位]文字資訊放於此欄位",
        "AssetName": "提取[所得人姓名]",
        "AssetID": "提取所得人[統一編號]，位於文檔中部偏右，是所得人的唯一識別碼",
        "HasLand": "如果財產列表中有土地相關的財產，請返回 True, 否則返回 False",
        "HasHouse": "如果財產列表中有房屋相關的財產，請返回 True, 否則返回 False",
        "HasCar": "如果財產列表中有汽車相關的財產，請返回 True, 否則返回 False",
        "HasAgriculturalLand": "如果財產列表中有田賦相關的財產，請返回 True, 否則返回 False",
        "Date": "PDF 左下角的中華民國日期，格式為中華民國YYY年MM月DD日",
    }


def create_prompt(json_format):
    return f"""
    You are now a professional PDF document extractor. I will provide you with a property income document from the Ministry of Finance of Taiwan. You will extract the information from each page and organize it into JSONL to return to me. I will clearly define the content I need, and you will extract the value and return it based on the content in the PDF.
    ```json format : {json.dumps(json_format, ensure_ascii=False, indent=4)}```
    Please carefully review the content of each page of the PDF file and extract the information to generate the corresponding JSON response. The value can accept output in Traditional Chinese. Think carefully before outputting and then return the conclusion. Your answer is very important to my career.
    JSONL :
    """


file_prefix = "申請資料-4要件/財產/"
data_type = "財產"

df3 = process_all_documents(
    project_id, model_name, bucket_name, file_prefix, data_type)
print(df3.head())
print(f"Total rows in DataFrame: {len(df3)}")

2024-07-29 17:58:01,208 - INFO - Processing file 1/30: 申請資料-4要件/財產/財產1.pdf
2024-07-29 17:58:08,846 - INFO - Successfully processed file: 申請資料-4要件/財產/財產1.pdf
2024-07-29 17:58:08,848 - INFO - Processing file 2/30: 申請資料-4要件/財產/財產10.pdf
2024-07-29 17:58:15,343 - INFO - Successfully processed file: 申請資料-4要件/財產/財產10.pdf
2024-07-29 17:58:15,344 - INFO - Processing file 3/30: 申請資料-4要件/財產/財產11.pdf
2024-07-29 17:58:23,169 - INFO - Successfully processed file: 申請資料-4要件/財產/財產11.pdf
2024-07-29 17:58:23,170 - INFO - Processing file 4/30: 申請資料-4要件/財產/財產12.pdf
2024-07-29 17:58:31,037 - INFO - Successfully processed file: 申請資料-4要件/財產/財產12.pdf
2024-07-29 17:58:31,039 - INFO - Processing file 5/30: 申請資料-4要件/財產/財產13.pdf
2024-07-29 17:58:38,501 - INFO - Successfully processed file: 申請資料-4要件/財產/財產13.pdf
2024-07-29 17:58:38,502 - INFO - Processing file 6/30: 申請資料-4要件/財產/財產14.pdf
2024-07-29 17:58:45,695 - INFO - Successfully processed file: 申請資料-4要件/財產/財產14.pdf
2024-07-29 17:58:45,697 - INFO - Processing file

                                        gsURL IssuingAuthority AssetName  \
0   gs://nthurc-docai-poc/申請資料-4要件/財產/財產1.pdf     財政部北區國稅局板橋分局       邱冠憲   
1   gs://nthurc-docai-poc/申請資料-4要件/財產/財產1.pdf     財政部北區國稅局板橋分局      劉靜庭三   
2   gs://nthurc-docai-poc/申請資料-4要件/財產/財產1.pdf     財政部北區國稅局板橋分局       張堂齡   
3  gs://nthurc-docai-poc/申請資料-4要件/財產/財產10.pdf    財政部北區國稅局中和稽徵所       阮如冰   
4  gs://nthurc-docai-poc/申請資料-4要件/財產/財產10.pdf    財政部北區國稅局中和稽徵所       賈成龍   

      AssetID HasLand HasHouse HasCar HasAgriculturalLand            Date  
0  F126007881   False    False  False               False  中華民國111年06月30日  
1  L225864888   False    False  False               False  中華民國111年06月30日  
2  F224384387   False    False  False               False  中華民國111年06月30日  
3  F221898393   False    False  False               False  中華民國111年07月12日  
4  E120966700   False    False  False               False  中華民國111年07月11日  
Total rows in DataFrame: 113


In [38]:
df3.to_csv('財產測試資料.csv')

## 4. 社宅申請表

#### 需要討論的問題

- 手寫文件、是否要通過
- 是否只需要基本資訊 : 如申請人基本資料、申請項目等相關資訊
- 是否只需要他勾選了什麼的資訊即可，為勾選的則留空白


In [21]:
import vertexai
from dotenv import load_dotenv
from vertexai.generative_models import GenerativeModel, Part

project_id = "nthurc-aisearch-202406"

load_dotenv()
vertexai.init(project=project_id, location="us-central1")

model = GenerativeModel("gemini-1.5-flash-001")

json_format = '''{
    "receiveDate" : 提取右上角[收件日期]欄位的手寫日期,
    "receiveNumber" : 提取右上角[收件編號]欄位的手寫編號,
    "applicantName": 提取表格上方中間申請人姓名的手寫內容，位於「本人」後面,
    "applicationDate": 提取表格中間右側[申請日期]欄位的手寫日期,
    "applicantBasics" : 一、申請人基本資料表{
        "ApplicantName": 提取[申請人姓名]欄位的手寫內容，位於表格左上角,
        "Gender": 提取性別欄位的勾選狀態，男/女，位於姓名欄位右側,
        "DateOfBirth": 提取[出生年月日]欄位的手寫內容，格式為民國年/月/日，位於性別欄位右側,
        "MaritalStatus": 提取婚姻欄位的勾選狀態，已婚/未婚，位於出生年月日欄位右側,
        "IDNumber": "提取[身分證統一編號]欄位的手寫內容，位於表格第二行左側",
        "HouseholdRegistrationNumber": "提取[戶口名簿戶號]欄位的手寫內容，位於表格第二行右側",
        "ContactPhone": "提取[聯絡電話]欄位的手寫內容，位於表格第三行左側",
        "MobilePhone": "提取[行動電話]欄位的手寫內容，位於表格第三行右側",
        "Email": "提取[電子郵件信箱]欄位的手寫內容，位於表格第四行",
        "RegisteredAddress": "提取[戶籍地址]欄位的手寫內容，包括郵遞區號、縣市、鄉鎮市區等信息，位於表格第五行",
        "MailingAddress": "提取[通訊地址]欄位的勾選狀態（同上）和可能的手寫內容，位於表格第六行",
        "EmergencyContact": "提取[緊急聯絡人]欄位的手寫內容，位於表格最後一行左側",
        "EmergencyContactPhone": "提取緊急聯絡人的[行動電話]欄位的手寫內容，位於表格最後一行右側"
        },
    "applicationItems": 二、申請項目表格{
        "ApplicantHousingType": "提取[申請房型]欄位的勾選狀態，位於表格左上方，包括一房/套房、二房、三房等選項",
        "ApplicantLocation": "提取[申請社區]欄位的勾選狀態(可複選，以列表呈現)，位於表格右上方，包括永和中正橋、板橋永翠等選項",
        "HouseholdType": "提取[一般戶]欄位下方的勾選狀態(可複選，以列表呈現)，位於表格中間偏左，包括一般青年戶、優先戶等選項",
        "PriorityGroup": "提取[優先戶]欄位下方的勾選狀態(可複選，以列表呈現)，位於表格下半部分，包括低收入戶、中低收入戶、特殊境遇家庭等選項",
        "DisabilityStatus": "提取[身心障礙者]欄位的勾選狀態，位於表格左下方",
        "SingleParentFamily": "提取[單親家庭]欄位的勾選狀態，位於表格左下方",
        "ViolenceVictim": "提取[家庭暴力或性侵害受害者及其子女]欄位的勾選狀態，位於表格左下方",
        "DisasterVictim": "提取[重大災害災民]欄位的勾選狀態，位於表格中下方",
        "ElderlyStatus": "提取[老人]欄位下方的勾選狀態，位於表格右下方，包括65歲以上、75歲以上等選項",
        "IndigenousStatus": "提取[原住民]欄位的勾選狀態，位於表格右下方",
        "OverseasChineseStatus": "提取[僑胞]欄位的勾選狀態，位於表格右下方",
        "EnvironmentallyDisplacedPerson": "提取[因環境災害或其他原因遷居者]欄位的勾選狀態，位於表格最下方",
    },
    "familyMembers":三、家庭成員資料{
        "familyMember": {
            "FamilyMemberName": 提取所有該家庭的成員，並順序輸出其姓名，並取得該人員詳細資料,
            "IDNumber": "提取[國民身分證統一編號/居留證統一證號]欄位的手寫內容，位於表格左側第二列",
            "Relationship": "提取[稱謂]欄位的手寫內容，位於表格右側第三列",
            "AnnualIncome": "提取[最近一年所得]欄位的手寫內容，位於表格最右側一列",
        },
        "TotalFamilyIncome": "提取[家戶最近一年總所得合計]欄位的手寫內容，位於表格底部倒數第二行",
        "AverageMonthlyIncome": "提取[平均每人每月所得]欄位的手寫內容，位於表格底部最後一行"
    }
}'''


prompt = f"""
You are now a professional PDF document extractor. I will provide you with a PDF of a Asset Inquiry List provided by the Taiwan government. You will extract the specified information from the PDF to JSONL and then return it to me. I will clearly define the content I need, and you will extract the value and return it based on the content in the PDF.
```json format : {json_format}```
Please carefully review the content of each page of the PDF file and extract the information to generate the corresponding JSON response. The value can accept output in Traditional Chinese. Think carefully before outputting and then return the conclusion. Your answer is very important to my career.

JSONL :
"""

AssetInquiryList_pdf_file_uri = "gs://nthurc-docai-poc/申請資料-4要件/申請書/申請書2.pdf"
AssetInquiryList_pdf_file = Part.from_uri(
    AssetInquiryList_pdf_file_uri, mime_type="application/pdf")
contents = [AssetInquiryList_pdf_file, prompt]

response = model.generate_content(contents)
print(response.text)

```json
{"receiveDate": "111.7.16", "receiveNumber": "YHC0100", "applicantName": "段榮昌", "applicationDate": "111年7月16日", "applicantBasics": {"ApplicantName": "段榮昌", "Gender": "男", "DateOfBirth": "70年12月7日", "MaritalStatus": "已婚", "IDNumber": "F125437447", "HouseholdRegistrationNumber": "FOA37QF4", "ContactPhone": "(02)22183748", "MobilePhone": "0905211535", "Email": "f7447kim0@yahoo.com.tw", "RegisteredAddress": "新北市(縣)中和區連坊里(村)18鄰連城路(街)段171巷弄30號7樓之", "MailingAddress": "同上", "EmergencyContact": "林雅甄", "EmergencyContactPhone": "0911590660"}, "applicationItems": {"ApplicantHousingType": "二房", "ApplicantLocation": ["板橋永翠"], "HouseholdType": ["一般青年戶"], "PriorityGroup": ["中低收入戶"], "DisabilityStatus": null, "SingleParentFamily": null, "ViolenceVictim": null, "DisasterVictim": null, "ElderlyStatus": null, "IndigenousStatus": null, "OverseasChineseStatus": null, "EnvironmentallyDisplacedPerson": null}, "familyMembers": {"familyMember": [{"FamilyMemberName": "段榮昌", "IDNumber": "F125437447", "Rel