In [13]:
import requests
import json

question = """
我从一个表格pdf里提取了如下内容：
'''
报告编号：2016080303000014210351 报告时间：2016-08-03 09:30:15
姓名: 张三 证件类型: 身份证 证件号码: 110124197506232452 已婚
其他证件信息：护照G300234234/军人身份证 M09876893
'''
请你帮我将内容转化成json输出，键值对都用表格里的中文内容
"""

url = 'http://10.72.100.35:7821/v1/chat/completions'
# url = 'http://10.72.100.62:7878/v1/chat/completions'

header = {
    "Content-Type": "application/json;charset=UTF-8"
}

data = {
    "messages": [{"role": "user", "content": ".."}],
    "model": "lark",
    "stream": False,
    "temperature": 0.01,
    "max_tokens": 4096
}

data['messages'][0]['content'] = question

response = requests.post(url, headers=header, json=data)
response = json.loads(response.text)
# print(response)

LLM_answer = response['choices'][0]['message']['content']
print(LLM_answer)

以下是将表格内容转化为 JSON 的输出：

```json
{
  "报告编号": "2016080303000014210351",
  "报告时间": "2016-08-03 09:30:15",
  "姓名": "张三",
  "证件类型": "身份证",
  "证件号码": "110124197506232452",
  "已婚": "是",
  "其他证件信息": {
    "护照": "G300234234",
    "军人身份证": "M09876893"
  }
}
```

注意：由于 "已婚" 的值没有明确指出是 "是" 或 "否"，因此我假设它是 "是"。如果实际值是 "否"，请将其更改为 "否"。


In [135]:
# 读取PDF
import PyPDF2
# 分析PDF的layout，提取文本
from pdfminer.high_level import extract_pages, extract_text
from pdfminer.layout import LTTextContainer, LTChar, LTRect, LTFigure
# 从PDF的表格中提取文本和表格
import pdfplumber
import sys

#创建一个文本提取函数
def text_extraction(element):
    # 从行元素中提取文本
    line_text = element.get_text().strip('\n')
    line_text = line_text.replace("\n",": ")
    # 探析文本的格式
    #用文本行中出现的所有格式初始化列表
    line_formats = []
    for text_line in element:
        if isinstance(text_line, LTTextContainer):
            #遍历文本行中的每个字符
            for character in text_line:##
                if isinstance(character, LTChar):
                    #追加字符的font-family
                    line_formats.append(character.fontname)
                    # 追加字符的font-size
                    line_formats.append(character.size)
        #找到行中唯一的字体大小和名称
        format_per_line = list(set(line_formats))
        # 返回包含每行文本及其格式的元组
    return (line_text+'\n', format_per_line)


## 已经ocr后的表格
def PDF_extract(pdf_path, last_page_ignore_num=0): 
    """
    pdf_path: pdf读入路径
    last_page_ignore_num: 最后面有多少页不需要处理（说明部分）
    """
    info_per_page = []  ## 存储每页信息
    
    # 打开pdf文件
    pdf = pdfplumber.open(pdf_path)
    n_pages = len(pdf.pages)  ## number of pages
    n_pages_needed = n_pages - last_page_ignore_num
    
    # 我们从PDF中提取页面
    # pages_info_all = list(extract_pages(pdf_path))
    # for pagenum, page in enumerate(pages_info_all[:7]):
    for pagenum, page in enumerate(extract_pages(pdf_path)):  ## 用pdfminer提取每页信息
        
        if pagenum >= n_pages_needed:
            break
      
        page_text = []
        line_format = []
        page_content = []
        
        table_num = 0  ## 该页表格的索引
        first_element= True  ## 判断是否是是某个表格内的第一个元素初始化为0
        table_extraction_flag= False  ## 判断是否处于表格抽取过程中
        
        ## 提取页面表格
        page_tables = pdf.pages[pagenum]  ## pdfplumber的该页信息
        tables = page_tables.find_tables()  ## pdfplumber提取的所有表格位置
        hasTable = len(tables)>0  ## 该页是否含有表格
        ## 找出本页表格边界
        ## 只有上下界, 不支持表格有并排内容
        if hasTable:
            upper_side_list = [page.bbox[3] - tables[table_num].bbox[1] for table_num in range(len(tables))]
            lower_side_list = [page.bbox[3] - tables[table_num].bbox[3] for table_num in range(len(tables))]
            ## pdfminer bbox -- 以左下角为远点的坐标系, 
            ##     值为x0, y0, x1, y1是左下角和右上角的的坐标
            ## pdfplumber bbox -- 以左上角为原点的坐标系
            ##     值为x0, y0, x1, y1是左下角和右上角的的坐标
    
        # print(f"page bbox: {page.bbox} by pdfminer")
        # print(f"page size: {page_tables.width},{page_tables.height} by pdfplumber")
    
        ## 找到所有的元素
        page_elements = [element for element in page._objs]  
        
        
        # 对页面中出现的所有元素按照出现的高度进行排序, 从上到下
        page_elements.sort(key=lambda a: a.y1,reverse=True)
    
        # 遍历每个组成该页面的元素
        ## 对每个元素进行检查: 是否是表元素, 是否是文字元素
        for i, element in enumerate(page_elements):
            
            ## 检查表的元素
            if hasTable and isinstance(element, LTRect):
               
                ## 如果还有剩余的表格，且是第一个矩形元素, 且该元素在下一个表格内部
                ##     就插入下一个表格
                if first_element == True and (table_num+1) <= len(tables) and element.y1 <= upper_side_list[table_num]:
                    ## 抽取对应表格
                    table = page_tables.extract_tables()[table_num]
                    ## 将表写入页面内容
                    page_content.append(table)
                    
                    ## 将标志设置为True表示该表内容已抽取 
                    table_extraction_flag = True
                    ## 更新表索引
                    table_num += 1
    
                ## 检查该元素是否在上个表范围内
                if element.y0 >= lower_side_list[table_num-1] and element.y1 <= upper_side_list[table_num-1]:
                    pass
                elif not isinstance(page_elements[i+1], LTRect):
                    ## 不在范围内则说明上个表元素已读完, 可以重新开始准备写入其他文本或下个表
                    table_extraction_flag = False
                    first_element = True
    
            ## 检查该元素是否为文本元素
            if isinstance(element, LTTextContainer):
                ## 检查文本是否出在表范围内
                ## 读入非表格的文本
                if table_extraction_flag == False:
                    # 取每个文本元素的文本和格式
                    (line_text, format_per_line) = text_extraction(element)
                    # 将每行的文本追加到页文本
                    page_text.append(line_text)
                    # 附加每一行包含文本的格式
                    line_format.append(format_per_line)
                    page_content.append(line_text)
                else:
                    # 省略表中出现的文本
                    pass
    
        ## 结构化该页的信息 
        page_info = {
            "text_without_table_content": page_text,  ## 表格以外的文本
            "line_format_without_table_content": line_format,  ## 表格以外的文本的格式
            "text_mix_table": page_content  ##表格和文本
        }
        
        ## 存储该页信息
        info_per_page.append(page_info)
    
    return info_per_page


# 关闭pdf文件对象
# pdfFileObj.close()





In [138]:
# 查找PDF路径
pdf_path = './说明文件/征信模板.pdf'
pdf_complex = PDF_extract(pdf_path, last_page_ignore_num=2)

In [141]:
print(pdf_complex[4]["text_mix_table"][3])

[['管理机构', None, None, '账户标识', None, None, '开立日期', None, None, '到期日期', None, None, '借款金额', None, '账户币种', None], ['工商银行北京分行', None, None, 'ICBCZH00001', None, None, '2010.01.22', None, None, '2020.01.19', None, None, '360,000', None, '人民币', None], ['业务种类', None, None, '担保方式', None, None, '还款期数', None, None, '还款频率', None, None, '还款方式', None, '共同借款标志', None], ['个人商业住房贷款', None, None, '抵押', None, None, '180', None, None, '月', None, None, '分期等额本金', None, '主借款人', None], ['截至2015年05月25日', None, None, None, None, None, None, None, None, None, None, None, None, None, None, None], ['账户状态', None, None, None, None, None, '余额', None, None, None, None, None, '最近一次还款日期', None, None, None], ['呆账', None, None, None, None, None, '166,000', None, None, None, None, None, '2013.04.05', None, None, None], ['2010年07月—2015年05月的还款记录', None, None, None, None, None, None, None, None, None, None, None, None, None, None, None], ['', '1', '2', None, '3', '4', None, '5', '6', None, '7', '8', '9', '10', '11', '12'], [

In [136]:
# 查找PDF路径
pdf_path = './说明文件/简版征信模板.pdf'
pdf_simple = PDF_extract(pdf_path, last_page_ignore_num=1)

In [137]:
pdf_simple[0]["text_mix_table"]

[' \n',
 '本报告仅供您了解自身信用状况，: 不 用 于 信 贷 申 请 及 其 他 用 途 。 : 请 妥 善 保 管 ， 避 免 信 息 泄 露 \n',
 ' \n',
 ' \n',
 ' \n',
 ' \n',
 ' \n',
 '个人信用报告 \n',
 '报告编号：2016080303000014210351                                                                            报告时间：2016-08-03 09:30:15       : 姓名: 张三            证件类型: 身份证             证件号码: 110124197506232452             已婚 : 其他证件信息：护照 G300234234/军人身份证 M09876893 \n',
 ' \n',
 [['', '信贷记录', ''], ['', '这部分包含您的信用卡、贷款和其他信贷记录。金额类数据均以人民币计算，精确到元。', '']],
 [['', '资产处置信息', '垫款信息'], ['账户数', '1', '3']],
 ' \n',
 [['', '信用卡', '贷款', None, '其他业务', '逾期记录可能影响对您的信用评\n价。'],
  [None, None, '购房', '其他', None, None],
  ['账户数', '8', '4', '5', '8', '购房贷款，包括个人住房商业贷款、'],
  [None, None, None, None, None, '个人商用房（包括商住两用）贷款和\n个人住房公积金贷款。'],
  ['未结清/未销户账户数', '4', '2', '3', '7', None],
  ['发生过逾期的账户数', '4', '2', '2', '4', None],
  ['发生过90天以上逾期的账户数',
   '4',
   '1',
   '1',
   '1',
   '发生过逾期的信用卡账户，指曾经\n“未按时还最低还款额”的贷记卡\n账户和 “透支超过60天”的准贷记\n卡账户。']],
 [['', '为个人', '为企业'], ['相关还款责任账户数', '1', '3'