In [None]:
# Google Colab에 필요한 패키지 설치
!pip install konlpy rouge-score
!apt-get install -y openjdk-11-jdk
from google.colab import drive
from rouge_score import rouge_scorer
import json
import requests
import random
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from collections import Counter
from konlpy.tag import Kkma
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

# Kkma 형태소 분석기 초기화
kkma = Kkma()

# 형태소 분석 함수
def morphological_analysis(sentence):
    return kkma.morphs(sentence)

# BLEU 점수 계산 함수
def calculate_bleu(reference_tokens, candidate_tokens):
    return sentence_bleu([reference_tokens], candidate_tokens, smoothing_function=SmoothingFunction().method1)

# ROUGE-1 점수 계산 함수
def calculate_rouge_1(reference_tokens, candidate_tokens):
    ref_count = Counter(reference_tokens)
    cand_count = Counter(candidate_tokens)
    overlap = sum((ref_count & cand_count).values())

    precision = overlap / len(candidate_tokens) if len(candidate_tokens) > 0 else 0.0
    recall = overlap / len(reference_tokens) if len(reference_tokens) > 0 else 0.0
    f1_score = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0.0

    return precision, recall, f1_score

# ROUGE-L 점수 계산 함수
def calculate_rouge_l(reference_tokens, candidate_tokens):
    def lcs(X, Y):
        m = len(X)
        n = len(Y)
        L = [[0] * (n + 1) for _ in range(m + 1)]
        for i in range(m + 1):
            for j in range(n + 1):
                if i == 0 or j == 0:
                    L[i][j] = 0
                elif X[i - 1] == Y[j - 1]:
                    L[i][j] = L[i - 1][j - 1] + 1
                else:
                    L[i][j] = max(L[i - 1][j], L[i][j - 1])
        return L[m][n]

    lcs_length = lcs(reference_tokens, candidate_tokens)

    precision = lcs_length / len(candidate_tokens) if len(candidate_tokens) > 0 else 0.0
    recall = lcs_length / len(reference_tokens) if len(reference_tokens) > 0 else 0.0
    f1_score = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0.0

    return precision, recall, f1_score

huggingface_token = "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"

# 모델 및 토크나이저 로드
model = AutoModelForCausalLM.from_pretrained(
    "LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
    use_auth_token=huggingface_token
)
tokenizer = AutoTokenizer.from_pretrained(
    "LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
    use_auth_token=huggingface_token
)

#=========================================================================
# ROUGE 점수 계산기 초기화=
scorer = rouge_scorer.RougeScorer(['rouge1', 'rougeL'], use_stemmer=True)
smoothing_function = SmoothingFunction().method1

# GitHub의 JSONL 파일 URL
url = "https://raw.githubusercontent.com/beefed-up-geek/HCLT-KACL2024/main/Taeyoon_notebooks/240830_final_data.jsonl"

# JSONL 파일 다운로드
response = requests.get(url)
lines = response.text.strip().split('\n')

#인공지능의 마지막 대답만 추출하는 함수
def extract_last_response(input_text):
    start_index = input_text.rfind('[|assistant|]')
    if start_index != -1:
        return input_text[start_index + len('[|assistant|]'): len(input_text)-len("[|endofturn|]")].strip()
    return input_text

# 인공지능과 대화하는 함수
def chat_with_ai(user_inputs, print_all=False):
    messages = [
        {"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."}
    ]

    for user_input in user_inputs:
        if user_input == "":
            break

        # 사용자 입력 추가
        messages.append({"role": "user", "content": user_input})

        # 대화 템플릿 적용 및 토큰화
        input_ids = tokenizer.apply_chat_template(
            messages,
            tokenize=True,
            add_generation_prompt=True,
            return_tensors="pt"
        )

        # 모델을 사용해 응답 생성
        output = model.generate(
            input_ids.to("cuda"),
            eos_token_id=tokenizer.eos_token_id,
            max_new_tokens=512
        )

        # 인공지능 응답 추출
        ai_response = tokenizer.decode(output[0])
        ai_response = extract_last_response(ai_response)

        # 인공지능 응답을 대화에 추가
        messages.append({"role": "assistant", "content": ai_response})

    # 전체 대화 내역 출력 여부
    if print_all:
        for message in messages:
            role = message["role"].capitalize()
            print(f"{role}: {message['content']}\n")

    # 마지막 응답 반환
    return messages[-1]['content']

import xml.etree.ElementTree as ET

def table_dict_to_xml(table):
    # XML 문자열 초기화
    xml_str = "<table>\n"

    # 각 행을 추적하기 위한 변수
    current_row = -1
    header_row_set = False

    # table 데이터를 순회하면서 XML 문자열 구성
    for cell in table:
        row = cell['row']
        col = cell['col']
        value = cell['value']
        is_header = cell['is_header']

        # 새로운 행 시작
        if row != current_row:
            if current_row != -1:  # 첫 번째 행이 아닌 경우 닫기
                xml_str += "  </tr>\n"
            xml_str += "  <tr>\n"
            current_row = row

        # 헤더 여부에 따라 <th> 또는 <td> 태그로 데이터 삽입
        if is_header and not header_row_set:
            xml_str += f"    <th>{value}</th>\n"
            header_row_set = True
        else:
            xml_str += f"    <td>{value}</td>\n"

    # 마지막 행 닫기
    xml_str += "  </tr>\n"

    # XML 문자열 닫기
    xml_str += "</table>"

    return xml_str

def remove_code_block_delimiters(xml_string):
    # 시작 부분의 ```xml과 마지막의 ```을 제거
    if xml_string.startswith("```xml"):
        xml_string = xml_string[5:].lstrip()
    if xml_string.endswith("```"):
        xml_string = xml_string[:-3].rstrip()

    return xml_string

import re

def remove_xml_tags(xml_string):
    # 정규 표현식을 사용하여 <tr>, </tr>, <td>, </td>, <table>, </table> 태그들을 제거
    cleaned_string = re.sub(r"</?(tr|td||th|table)>", "", xml_string)
    # 공백을 정리
    cleaned_string = cleaned_string.strip()
    return cleaned_string

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m96.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m29.9 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: rouge-score
  Building wheel for rouge-score (setup.py) ... [?25l[?25hdone
  Created wheel for rouge-score: filename=rouge_score-0.1.2-py3-none-any.whl size=24935 sha256=8ce90c7d1aa0b141ad7b3fd8d365fe6c13bd8

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/878 [00:00<?, ?B/s]

configuration_exaone.py:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct:
- configuration_exaone.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_exaone.py:   0%|          | 0.00/81.1k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct:
- modeling_exaone.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


model.safetensors.index.json:   0%|          | 0.00/23.7k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/7 [00:00<?, ?it/s]

model-00001-of-00007.safetensors:   0%|          | 0.00/4.93G [00:00<?, ?B/s]

model-00002-of-00007.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00007.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00004-of-00007.safetensors:   0%|          | 0.00/4.83G [00:00<?, ?B/s]

model-00005-of-00007.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00006-of-00007.safetensors:   0%|          | 0.00/4.83G [00:00<?, ?B/s]

model-00007-of-00007.safetensors:   0%|          | 0.00/1.68G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/132 [00:00<?, ?B/s]



tokenizer_config.json:   0%|          | 0.00/70.7k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.93M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/1.22M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/4.96M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/563 [00:00<?, ?B/s]

In [None]:
def remove_code_block_delimiters(xml_string):
    # 시작 부분의 ```xml과 마지막의 ```을 제거
    if xml_string.startswith("```xml"):
        xml_string = xml_string[5:].lstrip()
    if xml_string.endswith("```"):
        xml_string = xml_string[:-3].rstrip()

    return xml_string

import re

def remove_xml_tags(xml_string):
    # 정규 표현식을 사용하여 <tr>, </tr>, <td>, </td>, <table>, </table> 태그들을 제거
    cleaned_string = re.sub(r"</?(tr|td||th|table)>", "", xml_string)
    # 공백을 정리
    cleaned_string = cleaned_string.strip()
    return cleaned_string

In [None]:
import json
import xml.etree.ElementTree as ET
data = '''{"id": "nikluge-gtps-2023-train-000054", "input": {"metadata": {"table_title": "2019회계연도 인사혁신처 소관 세입 결산", "highlighted_cells": [[3, 2], [4, 2], [5, 2], [8, 2]]}, "table": [{"value": "예산현액", "is_header": true, "col": 3, "colspan": 1, "row": 0, "rowspan": 1}, {"value": "예산현액", "is_header": true, "col": 3, "colspan": 1, "row": 1, "rowspan": 1}, {"value": "징수결정액(A)", "is_header": true, "col": 4, "colspan": 1, "row": 0, "rowspan": 1}, {"value": "징수결정액(A)", "is_header": true, "col": 4, "colspan": 1, "row": 1, "rowspan": 1}, {"value": "수납액(B)", "is_header": true, "col": 5, "colspan": 1, "row": 0, "rowspan": 1}, {"value": "수납액(B)", "is_header": true, "col": 5, "colspan": 1, "row": 1, "rowspan": 1}, {"value": "수납률(B/A)", "is_header": true, "col": 8, "colspan": 1, "row": 0, "rowspan": 1}, {"value": "수납률(B/A)", "is_header": true, "col": 8, "colspan": 1, "row": 1, "rowspan": 1}, {"value": "일반회계", "is_header": false, "col": 0, "colspan": 1, "row": 2, "rowspan": 1}, {"value": "59,280", "is_header": false, "col": 3, "colspan": 1, "row": 2, "rowspan": 1}, {"value": "60,582", "is_header": false, "col": 4, "colspan": 1, "row": 2, "rowspan": 1}, {"value": "60,418", "is_header": false, "col": 5, "colspan": 1, "row": 2, "rowspan": 1}, {"value": "99.7", "is_header": false, "col": 8, "colspan": 1, "row": 2, "rowspan": 1}]}, "output": ["2019회계연도 인사혁신처 소관 세입 결산에 따르면 예산현액 592억 8,000만 원에서 605억 8,200만 원을 징수 결정하였으며, 이 중 99.7%인 604억 1,800만 원을 수납하였다.", "2019회계연도 인사혁신처 소관 세입 결산은 592억 8,000만 원의 예산현액 중 605억 8,200만 원을 징수하기로 의견을 모았고, 99.7%에 해당하는 604억 1,800만 원을 수납하는 데 사용하였음을 보여준다.", "2019회계연도 인사혁신처 소관 세입 결산에 따르면 예산현액과 징수결정액은 각각 592억 8,000만 원과 605억 8,200만 원으로 나타났으며, 수납액은 604억 1,800만 원으로 나타나 99.7%의 수납률을 기록했다.", "2019년 예산현액 592억 8,000만 원에서 605억 8,200만 원을 징수 결정하였으며, 이 중 99.7%인 604억 1,800만 원을 수납하였음을 인사혁신처 소관 세입 결산을 통해 확인할 수 있다.", "99.7%에 해당하는 604억 1,800만 원을 수납하고 605억 8,200만 원의 징수액을 처리하기 한 2019회계연도 인사혁신처 소관 세입의 예산현액은 결산에 따라 592억 8,000만 원으로 집계되었다."]}'''
data_json = json.loads(data)
data_input = data_json['input']
table_input_to_xml_str = table_dict_to_xml(data_input['table'])
data_input_str = json.dumps(data_input, indent=2, ensure_ascii=False)
data_output = data_json['output']
ai_summarization = chat_with_ai([f'너는 신문 기자고, 표를 참고해서 기사를 쓰고 있어. 사람들에게 한 문장으로 정보를 전달해야해. {data_input_str} 이 표에서 highlighted_cells에 대해 한 문장으로 기사를 써줘.따옴표와 쉼표를 사용하지 말아줘.'], print_all=False)
print(f"원본 표 : \n {table_input_to_xml_str}")
print(f"표->문장 : {ai_summarization}")
sentence_to_table = chat_with_ai([f'\"{ai_summarization}\"이 문장은 표를 참고해서 신문기자가 표를 한문장으로 요약한거야. 이 문장을 다시 xml형태의 표로 바꿔서 출력해줘. 다른말은 하지 말고 표에 대한 코드만 대답해줘.'])
sentence_to_table_without_delimeters = remove_code_block_delimiters(sentence_to_table) #인공지능의 대답에서 ```xml이나 ```과 같은 형식적인 문법을 제거하고 xml문법만 남김
print(f"문장->표 : \n{sentence_to_table_without_delimeters}")

table_input_to_xml_str_wihout_delimeters = remove_xml_tags(table_input_to_xml_str)
origin_table_tokens = morphological_analysis(table_input_to_xml_str_wihout_delimeters)
sentence_to_table_without_delimeters_without_tags = remove_xml_tags(sentence_to_table_without_delimeters)
generated_table_tokens = morphological_analysis(sentence_to_table_without_delimeters_without_tags)

print("원래 표 토큰들",origin_table_tokens)
print("변환된 표 토큰들",generated_table_tokens)
print(f"BLEU 점수 : {calculate_bleu(origin_table_tokens, generated_table_tokens)}")
print(f"ROUGE-1 점수 : {calculate_rouge_1(origin_table_tokens, generated_table_tokens)}")
print(f"ROUGE-L 점수 : {calculate_rouge_l(origin_table_tokens, generated_table_tokens)}")

sentence_to_table_tokens = morphological_analysis(sentence_to_table)

원본 표 : 
 <table>
  <tr>
    <th>예산현액</th>
  </tr>
  <tr>
    <td>예산현액</td>
  </tr>
  <tr>
    <td>징수결정액(A)</td>
  </tr>
  <tr>
    <td>징수결정액(A)</td>
  </tr>
  <tr>
    <td>수납액(B)</td>
  </tr>
  <tr>
    <td>수납액(B)</td>
  </tr>
  <tr>
    <td>수납률(B/A)</td>
  </tr>
  <tr>
    <td>수납률(B/A)</td>
  </tr>
  <tr>
    <td>일반회계</td>
    <td>59,280</td>
    <td>60,582</td>
    <td>60,418</td>
    <td>99.7</td>
  </tr>
</table>
표->문장 : 2019회계연도 인사혁신처 소관 세입 결산에서 일반회계의 징수결정액과 수납액, 수납률이 각각 60,582억 원, 60,418억 원, 99.7%로 나타났다.
문장->표 : 
l
<table>
  <tr>
    <th>항목</th>
    <th>금액 (억 원)</th>
    <th>비율 (%)</th>
  </tr>
  <tr>
    <td>징수결정액</td>
    <td>60,582</td>
    <td></td>
  </tr>
  <tr>
    <td>수납액</td>
    <td>60,418</td>
    <td></td>
  </tr>
  <tr>
    <td>수납률</td>
    <td></td>
    <td>99.7</td>
  </tr>
</table>
원래 표 토큰들 ['예산', '현', '액', '예산', '현', '액', '징수', '결정', '액', '(', 'A', ')', '징수', '결정', '액', '(', 'A', ')', '수납', '액', '(', 'B', ')', '수납', '액', '(', 'B', ')', '수납', '률', '(', 'B', '/', '