In [1]:
from transformers import AutoModelForCausalLM,AutoTokenizer,GenerationConfig
import torch
import ast
import ipdb
import json
import requests
from peft import LoraConfig, PeftModel
from typing import Optional,Literal
from dataclasses import dataclass
from typing import Union

In [2]:

# @dataclass
# class TranslationTemplate:
#     translation_template_w_glossary='''You are a professional translator. Translate the following {} texts into {}. Refer to the word pairs in the glossary when you translate. Do not translate the glossary itself. 
# {}
# Translation:
# '''

#     translation_template_wo_glossary='''You are a professional translator. Translate the following {} texts into {}.
# {}
# Translation:
# '''

#     response_template="Translation:"
#     glossary_template="Glossary:"
#     sentence_template="Source:"



# @dataclass
# class TranslationTemplate:
#     translation_template_w_glossary='''You are a professional translator. Translate the following {} texts into {}. Refer to the word pairs in the glossary when you translate. You can ignore the words in the glossary that hurt the context and naturality. Do not translate the glossary itself. 
# {}
# ### Translation:
# '''

#     translation_template_wo_glossary='''You are a professional translator. Translate the following {} texts into {}.
# {}
# ### Translation:
# '''

#     response_template="### Translation:"
#     glossary_template="### Glossary:"
#     sentence_template="### Source:"



@dataclass
class TranslationTemplate:
    translation_template_w_glossary='''Translate the following {} source text into {}. Refer to the word pairs in the glossary when you translate. Do not translate the glossary itself. 
{}
'''

    translation_template_wo_glossary='''Translate the following {} source text into {}.
{}
'''

    response_template="### Target:"
    glossary_template="### Glossary:"
    sentence_template="### Source:"
    # system_prompt="You are a professional translator."
    system_prompt="You are a professional translator. You are especially familiar with specialized knowledge and terms in economics, law, and accounting, as well as general everyday terms."


In [3]:
def formatting_glossary(term_dict,glossary_template):
    glossary=[f"{k}={v}" for k,v in term_dict.items()]
    glossary_str="\n".join(glossary)
    glossary_str=f"{glossary_template}\n{glossary_str}".strip()

    return glossary_str

In [31]:
class TextSpliter():
    def __init__(self,separator=""):
        self.kiwi=Kiwi() # Text Processor for Korean
        self.separator=separator

    def text2sent(self,language, text, return_string=False):
        '''
        language : language of text
        text : text to be splited
        return_string : return string as a result if True, list otherwise 
        '''
        
        splited_sents = []
        language = language.lower()

        if language in ["korean", "kor", "ko", "한국어"]:
            def split_sentences(paragraph):
                return [sent.text + " " if idx < len(paragraph) - 1 else sent.text # add space after sentence finish
                        for idx, sent in enumerate(self.kiwi.split_into_sents(paragraph))]
        elif language in ["english", "eng", "en", "영어"]:
            def split_sentences(paragraph):
                return [sent + " " if idx < len(paragraph) - 1 else sent
                        for idx, sent in enumerate(sent_tokenize(paragraph))]
        else:
            raise ValueError("Unsupported language")

        for line in text.splitlines(keepends=True):
            if line.strip():  # Check if the line is not just whitespace
                sentences = split_sentences(line.rstrip())  # Remove trailing newline before splitting
                splited_sents.extend(sentences)
                splited_sents[-1]=splited_sents[-1].rstrip()+"\n"
            else:
                splited_sents[-1]=splited_sents[-1].rstrip()+"\n" # Add the empty line (newline) directly

        if return_string:
            return self.separator.join(splited_sents).strip()
        else:
            return splited_sents

ts=TextSpliter()

NameError: name 'Kiwi' is not defined

In [5]:
# def pair_sent_terms(lang,
#                     text,
#                     term_dict:str,
#                    ):

#     lang_dict={"korean":"korean","ko":"korean","kor":"korean","eng":"english","english":"english","en":"english","Korean":"korean","English":"english"}
#     src = lang_dict[lang]
    
#     splited_sents=ts.text2sent(lang,text)

#     sent2terms = []
#     if len(term_dict):
#         term_dict = ast.literal_eval(term_dict)
#         for s in splited_sents:
#             new_sent_parts = {}
#             for k, v in term_dict.items():
#                 if k in s:
#                     new_sent_parts[k]=v

#             if len(new_sent_parts):
#                 new_sent_parts=formatting_glossary(new_sent_parts,TranslationTemplate.glossary_template)
#                 new_s = f"{TranslationTemplate.sentence_template}\n{s}\n{new_sent_parts}\n"
#             else:
#                 # new_s = "### Sentence:"+s + "\n" + "### Glossary:" + "\n"
#                 new_s = f"{TranslationTemplate.sentence_template}\n{s}\n"

#             sent2terms.append(new_s)
#     else:
#         # Handle case of empty term_dict (e.g., directly append sentences)
#         for s in splited_sents:
#             # new_s = "### Sentence:"+s + "\n" + "### Glossary:" + "\n"
#             new_s = f"{TranslationTemplate.sentence_template}\n{s}\n"
#             sent2terms.append(new_s)

#     return "".join(sent2terms).rstrip()


def pair_sent_terms(lang,
                    text,
                    term_dict:str,
                   ):

    lang_dict={"korean":"korean","ko":"korean","kor":"korean","eng":"english","english":"english","en":"english","Korean":"korean","English":"english"}
    src = lang_dict[lang]
    
    splited_sents=ts.text2sent(lang,text)

    sent2terms = []
    if len(term_dict):
        term_dict = ast.literal_eval(term_dict)
        term_dict=formatting_glossary(term_dict,TranslationTemplate.glossary_template)
        sent2terms.append(f"{term_dict}\n")
        for s in splited_sents:
            new_s = f"{TranslationTemplate.sentence_template}\n{s}\n"
            sent2terms.append(new_s)
        # term_dict=formatting_glossary(term_dict,TranslationTemplate.glossary_template)
        # sent2terms.append(f"\n{term_dict}".strip())
    else:
        # Handle case of empty term_dict (e.g., directly append sentences)
        for s in splited_sents:
            # new_s = "### Sentence:"+s + "\n" + "### Glossary:" + "\n"
            new_s = f"{TranslationTemplate.sentence_template}\n{s}\n"
            sent2terms.append(new_s)

    return "".join(sent2terms).rstrip()

In [7]:
def select_by_length(input_texts:list[str], generation_results:list[list])-> list[str]:
    '''
    Filters the results from vllm generation to find the output whose length is closest
    to that of the input text.

    :param input_text: The original text input by the user.
    :param generation_results: The results generated by the LLM.
    :return: A list of outputs, one for each batch, that are closest in length to the input text.
    '''
    final_outputs=[]

    # Iterate through each batch of generation results.
    for text,batch in zip(input_texts,generation_results):
        input_length = len(text)
        closest_output = min(batch, key=lambda output: abs(len(output["text"].strip()) - input_length))
        final_outputs.append(closest_output["text"].strip())

    return final_outputs

# API Requests

In [3]:
def request_vllm_api(api_url:str,
                    pay_load:dict,
                    headers:dict={"Content-Type": "application/json"}):
    '''
    example headers : {"Content-Type": "application/json"}
    example pay_load : {
        "model":"/azurestorage/models/production/tmt-eeve-inst-10k-v2",
        "prompt": prompt,
        "n": 3,
        "best_of":3,
        "temperature": 0.2,
        "max_tokens": 1024
    }
    '''
    response = requests.post(api_url,headers=headers,json=pay_load)
    return response

def get_batch_response(response: requests.Response,n:int=1) -> list[list[str]]:
    data=json.loads(response.content)
    choices=data["choices"]
    return [choices[i:i + n] for i in range(0, len(choices), n)] 

In [81]:
text='''<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a professional translator.<|eot_id|><|start_header_id|>user<|end_header_id|>

Translate the following Korean source text into English. Refer to the word pairs in the glossary when you translate. Do not translate the glossary itself. 
### Glossary:
개정안=amendment
국가별보고서=cbc-report
국조법 시행령=LCITA-PED
### Source:
이번 개정안에 따르면, 국가별보고서는 다국적기업의 국가별 소득 배분내역, 세전이익 손실, 소득 법인세 납부액, 자본금, 주요사업활동 등에 대한 내용을 포함하여, 한글과 영문으로 제출하도록 규정하고 있습니다. 또한, 국가별보고서 제출의무자는 직전년도 연결재무제표상 매출액이 1조원을 초과하는 다국적 기업의 최상위 지배법인에 해당하는 내국법인으로 규정하였습니다. 
다만, 외투기업(국내 종속기업)의 경우 국외지배 주주가 소재한 국가의 법령상 국가별보고서 작성의무가 없는 경우 또는 국외지배 주주 소재 국가와 조세조약이 체결되지 않는 등의 사유로 국가별보고서의 교환이 되지 않는 경우에는 당해 외투기업이 국가별보고서를 제출하도록 규정 (Secondary Filing Requirement)하였습니다. 그리고, 내국법인 및 외투기업 등은 국가별 보고서 제출의무자와 관련된 자료를 사업연도 종료일로부터 6개월 이내에 제출하도록 규정하고 있으며, 만약 외투기업이 국가별보고서의 제출의무자에 대한 자료를 제출하지 않는 경우 당해 외투기업은 국가별보고서를 별도로 제출하도록 규정하였습니다. (구체적인 신고서식 및 내용은 기획 재정부장관의 고시로 발표될 것으로 보입니다.)
이번 국조법 시행령 개정안은 OECD BEPS Action Plan 13의 규정과 일치하도록 국조법 시행령을 추가적으로 보완하는 것으로 볼 수 있는데, 유의할 점은 사업연도 종료일로부터 6개월 이내에 다국적기업에서 누가 국가별보고서를 제출할 것인지에 대하여 사전보고를 하도록 규정하고 있고, 이러한 신고의무가 불이행되는 경우 후술하는 과태료도 부과될 수 있는 가능성이 있습니다.<|eot_id|><|start_header_id|>assistant<|end_header_id|>
### Target:
'''

In [86]:
text='''<|start_header_id|>system<|end_header_id|>

You are a professional translator.<|eot_id|><|start_header_id|>user<|end_header_id|>

Translate the following Korean source text into English.
### Source:
서면국제세원- 2908, 2016.05.17
 
국내사업장이 없는 미국법인이 내국법인에게 기본설계용역을 제공하고 수취하는 소득은 동 용역제공대가가 비공개 기술, 정보 등 노하우의 사용대가인 경우에 사용료소득에 해당하는 것이나, 동 용역제공대가가 동종의 용역수행자가 통상적으로 보유하는 전문지식이나 기능을 활용하여 수행하는 용역에 대한 대가인 경우에는 사업소득에 해당되는 것임. 동 용역제공대가가 사용료소득인지 사업소득인지의 여부는 내국법인이 제공받는 용역의 실질내용에 따라 사실 판단할 사항이며, 법인세법 기본통칙 93-132…7 [노하우와 독립적인 인적용역의 구분]을 참고하기 바람.<|eot_id|><|start_header_id|>assistant<|end_header_id|>

### Target:
'''

In [None]:
# text='''Supreme court 2014Du8896, 2016.01.14

# A Singapore Co. is considered to have a deemed agent PE if the agent has and habitually exercises an authority to conclude contracts in the name of the enterprise and the activities performed by the agent have high potential to be considered as important and essential activities of the company as a whole (i.e., not preparatory or auxiliary in nature). determination of what activities are important and essential to a business as a whole shall depend on the characteristics of the activities, the relative importance and scope of the activities compared to the activities of the business as a whole, etc.'''

In [134]:
text='''<|start_header_id|>system<|end_header_id|>

You are a professional translator.<|eot_id|><|start_header_id|>user<|end_header_id|>

Translate the following English source text into English.
### Source:
Supreme court 2014Du8896, 2016.01.14

A Singapore Co. is considered to have a deemed agent PE if the agent has and habitually exercises an authority to conclude contracts in the name of the enterprise and the activities performed by the agent have high potential to be considered as important and essential activities of the company as a whole (i.e., not preparatory or auxiliary in nature). determination of what activities are important and essential to a business as a whole shall depend on the characteristics of the activities, the relative importance and scope of the activities compared to the activities of the business as a whole, etc.<|eot_id|><|start_header_id|>assistant<|end_header_id|>

### Target:
'''

In [130]:
text='''<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a professional translator.<|eot_id|><|start_header_id|>user<|end_header_id|>

Translate the source English texts into Korean. Refer to the word pairs in the glossary when you translate. Do not translate the glossary itself. 
### Glossary:
Base Erosion and Profit Shifting=세원잠식 및 소득이전
plan=도면
permanent establishment=고정사업장
short-term=단기
taxation=조세
source country=원천지국
tax=조세
Diverted Profits Tax=우회이익세
rate=요율
corporate tax=법인세
profit=이익
national=내국인
transfer=양도
case=사안
### Source:
In order to prevent international tax avoidance, the Base Erosion and Profit Shifting project proposed a plan to expand the scope of permanent establishment in the treaty through concluding short-term contracts and reducing the period to reduce taxation of the source country.

On the other hand, the UK and Australia amended the tax laws to introduce the Diverted Profits Tax, which applies a higher rate than the usual rate of corporate tax on profits that multinational companies transfer abroad.

In this meeting, we discuss the change of the concept of permanent establishment related to the above Base Erosion and Profit Shifting project, reviews each case on the Diverted Profits Tax of the UK and Australia, and discusses the proper position of South Korea in each case.
<|eot_id|><|start_header_id|>assistant<|end_header_id|>

### Target:
'''

In [135]:
request_payload={
                "model":"/nvme0/models/tmt-llama3-70b/llama3-70b-inst-data1.1k-71B-Q_4_K_M.gguf",
                "prompt": text,
                # "n": 3,
                # "best_of":3,
                "temperature": 0.15,
                "max_tokens":1024,
                "extra_body":{"repetition_penalty":1.045},
                "stop":["\n\n\n\n\n","###","Translation:\n","Source:\n","Glossary:\n","<|eot_id|>"],
                }

In [136]:
result=request_vllm_api("http://localhost:2242/v1/completions",request_payload)

In [137]:
print(json.loads(result.content)["choices"][0]["text"])

Supreme Court 2014Du8896, 2016.01.14

A Singapore Co. is considered to have a deemed agent PE if the agent has and habitually exercises an authority to conclude contracts in the name of the enterprise and the activities performed by the agent have high potential to be considered as important and essential activities of the company as a whole (i.e., not preparatory or auxiliary in nature). The determination of what activities are important and essential to a business as a whole shall depend on the characteristics of the activities, the relative importance and scope of the activities compared to the activities of the business as a whole, etc.


In [33]:
tokenizer=AutoTokenizer.from_pretrained("/nvme0/models/models--Bllossom--llama-3-Korean-Bllossom-70B/snapshots/7b571c5c6c4c52401818fb77001a05213d91f16f")

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [29]:
class LLMTranslator():
    def __init__(self,
                translation_template_w_glossary:str,
                translation_template_wo_glossary:str,
                glossary_template:str,
                sentence_template:str,
                llm_host:Optional[str]=None, 
                llm_port:Optional[str]=None, 
                llm_path:Optional[str]=None
                ):

        self.llm_host=llm_host
        self.llm_port=llm_port
        self.llm_path=llm_path
        self.api_url=f"http://{self.llm_host}:{self.llm_port}/v1"
        self.client=OpenAI(api_key = "EMPTY",base_url=self.api_url)
        self.translation_template_w_glossary=translation_template_w_glossary
        self.translation_template_wo_glossary=translation_template_wo_glossary
        self.glossary_template=glossary_template
        self.sentence_template=sentence_template
        self.lang_dict={"ko":"Korean","korean":"Korean","kor":"Korean","en":"English","english":"English","eng":"English"}
        
    def translate(self, src_lang:str, text:Union[list,str], term_dict:Union[list,dict],splited=True):
        src_lang = self.lang_dict[src_lang]
        tgt_lang = "English" if src_lang == "Korean" else "Korean"

        def formatting_glossary(term_dict,glossary_template):

            if len(term_dict):
                glossary=[f"{k}={v}" for k,v in term_dict.items()]
                glossary_str="\n".join(glossary)
                glossary_str=f"{glossary_template}\n{glossary_str}".strip()

                return glossary_str
            return ""

        prompts=[]
        if splited: # text is splited into sentences. they will be concatenated after formatting. => single inference
            formatted_text=[]
            
            if isinstance(term_dict,list):
                term_dict=term_dict[0]
                if not isinstance(term_dict,dict):
                    raise "Type of term_dict should be python dictionary"
            for sentence in text:
                formatted_text.append(f"{self.sentence_template}\n{sentence}\n")
            glossary_str=formatting_glossary(term_dict,self.glossary_template)

            if len(glossary_str):
                formatted_text.append(glossary_str)
                formatted_text="".join(formatted_text)
                prompts.append(self.translation_template_w_glossary.format(src_lang, tgt_lang, formatted_text))
            else:
                formatted_text="".join(formatted_text)
                prompts.append(self.translation_template_wo_glossary.format(src_lang, tgt_lang, formatted_text))


        else: # A document is splited into paragraphs and each paragraph is considered as an batch element. => batch inference
            for sentence,terms in zip(text,term_dict):
                glossary_str=formatting_glossary(term_dict,self.glossary_template)

                if len(glossary_str):
                    formatted_text=f"{self.sentence_template}\n{sentence}\n{term_dict}"
                    prompts.append(self.translation_template_w_glossary.format(src_lang, tgt_lang, formatted_text))
                else:
                    formatted_text=f"{self.sentence_template}\n{sentence}"
                    prompts.append(self.translation_template_wo_glossary.format(src_lang, tgt_lang, formatted_text))

        zzz='You are a professional translator. Translate the following English texts into Korean. Refer to the word pairs in the glossary when you translate. Do not translate the glossary itself. \nSource:\nIn order to prevent international tax avoidance, the Base Erosion and Profit Shifting project proposed a plan to expand the scope of permanent establishment in the treaty through concluding short-term contracts and reducing the period to reduce taxation of the source country.\n\n\nSource:\nOn the other hand, the UK and Australia amended the tax laws to introduce the Diverted Profits Tax, which applies a higher rate than the usual rate of corporate tax on profits that multinational companies transfer abroad.\n\n\nSource:\nIn this meeting, we discuss the change of the concept of permanent establishment related to the above Base Erosion and Profit Shifting project, reviews each case on the Diverted Profits Tax of the UK and Australia, and discusses the proper position of South Korea in each case.\nGlossary:\nnational tax=국세\nBase Erosion and Profit Shifting=세원잠식 및 소득이전\nplan=도면\npermanent establishment=고정사업장\nshort-term=단기\ntaxation=조세\nsource country=원천지국\ntax=조세\nDiverted Profits Tax=우회이익세\nrate=요율\ncorporate tax=법인세\nprofit=이익\nnational=내국인\ntransfer=양도\ncase=사안\nTranslation:\n'
        
        request_payload={
                        "model":self.llm_path,
                        "prompt": [zzz],
                        "n": 3,
                        "best_of":3,
                        "temperature": 0.35,
                        "max_tokens":min(len(max(prompts,key=lambda x:len(x)))//2,4096),
                        "extra_body":{"repetition_penalty":1.02},
                        "stop":["\n\n\n\n\n","###","Translation:\n","Source:\n","Glossary:\n"],
                        }


        generation_result=self.client.completions.create(**request_payload)
        generation_result=self.get_batch_response(generation_result,n=request_payload["n"])

        if type(text)==str:
            text=[text]
        selected_results = self.select_by_length(text, generation_result)

        return generation_result,selected_results


    def select_by_length(self,input_texts:list[str], generation_results:list[list])-> list[str]:
        '''
        Filters the results to find the output whose length is closest
        to that of the input text.

        param input_text: The original text input by the user.
        param generation_results: The results generated by the LLM.
        return: A list of outputs, one for each batch, that are closest in length to the input text.
        '''
        final_outputs=[]

        # Iterate through each batch of generation results.
        for text,batch in zip(input_texts,generation_results):
            input_length = len(text)
            closest_output = min(batch, key=lambda output: abs(len(output.text.strip()) - input_length))
            final_outputs.append(closest_output.text.strip())

        return final_outputs
            
    def get_batch_response(self,response,n:int=1) -> list[list[str]]:
        # data=json.loads(response.content)
        choices=response.choices
        return [choices[i:i + n] for i in range(0, len(choices), n)] 

In [30]:
llm_translator=LLMTranslator(
                        translation_template_w_glossary=TranslationTemplate.translation_template_w_glossary,
                        translation_template_wo_glossary=TranslationTemplate.translation_template_wo_glossary,
                            glossary_template=TranslationTemplate.glossary_template,
                            sentence_template=TranslationTemplate.sentence_template,
                            llm_host="localhost",
                            llm_port="8000",
                            llm_path="/azurestorage/models/production/tmt-eeve-inst32k-split-unifiedglo",
                            )

In [31]:
zzz='You are a professional translator. Translate the following English texts into Korean. Refer to the word pairs in the glossary when you translate. Do not translate the glossary itself. \nSource:\nIn order to prevent international tax avoidance, the Base Erosion and Profit Shifting project proposed a plan to expand the scope of permanent establishment in the treaty through concluding short-term contracts and reducing the period to reduce taxation of the source country.\n\n\nSource:\nOn the other hand, the UK and Australia amended the tax laws to introduce the Diverted Profits Tax, which applies a higher rate than the usual rate of corporate tax on profits that multinational companies transfer abroad.\n\n\nSource:\nIn this meeting, we discuss the change of the concept of permanent establishment related to the above Base Erosion and Profit Shifting project, reviews each case on the Diverted Profits Tax of the UK and Australia, and discusses the proper position of South Korea in each case.\nGlossary:\nnational tax=국세\nBase Erosion and Profit Shifting=세원잠식 및 소득이전\nplan=도면\npermanent establishment=고정사업장\nshort-term=단기\ntaxation=조세\nsource country=원천지국\ntax=조세\nDiverted Profits Tax=우회이익세\nrate=요율\ncorporate tax=법인세\nprofit=이익\nnational=내국인\ntransfer=양도\ncase=사안\nTranslation:\n'

In [32]:
# text='''이번 개정안에 따르면, 국가별보고서는 다국적기업의 국가별 소득 배분내역, 세전이익 손실, 소득 법인세 납부액, 자본금, 주요사업활동 등에 대한 내용을 포함하여, 한글과 영문으로 제출하도록 규정하고 있습니다. 또한, 국가별보고서 제출의무자는 직전년도 연결재무제표상 매출액이 1조원을 초과하는 다국적 기업의 최상위 지배법인에 해당하는 내국법인으로 규정하였습니다. 
# 다만, 외투기업(국내 종속기업)의 경우 국외지배 주주가 소재한 국가의 법령상 국가별보고서 작성의무가 없는 경우 또는 국외지배 주주 소재 국가와 조세조약이 체결되지 않는 등의 사유로 국가별보고서의 교환이 되지 않는 경우에는 당해 외투기업이 국가별보고서를 제출하도록 규정 (Secondary Filing Requirement)하였습니다. 그리고, 내국법인 및 외투기업 등은 국가별 보고서 제출의무자와 관련된 자료를 사업연도 종료일로부터 6개월 이내에 제출하도록 규정하고 있으며, 만약 외투기업이 국가별보고서의 제출의무자에 대한 자료를 제출하지 않는 경우 당해 외투기업은 국가별보고서를 별도로 제출하도록 규정하였습니다. (구체적인 신고서식 및 내용은 기획 재정부장관의 고시로 발표될 것으로 보입니다.)
# 이번 국조법 시행령 개정안은 OECD BEPS Action Plan 13의 규정과 일치하도록 국조법 시행령을 추가적으로 보완하는 것으로 볼 수 있는데, 유의할 점은 사업연도 종료일로부터 6개월 이내에 다국적기업에서 누가 국가별보고서를 제출할 것인지에 대하여 사전보고를 하도록 규정하고 있고, 이러한 신고의무가 불이행되는 경우 후술하는 과태료도 부과될 수 있는 가능성이 있습니다.'''
# term_dict={"개정안" : "amendment","국가별보고서":"cbcr","국조법 시행령":"LCITA-PED"}
# src_lang="korean"
term_dict={}


text='''In order to prevent international tax avoidance, the Base Erosion and Profit Shifting project proposed a plan to expand the scope of permanent establishment in the treaty through concluding short-term contracts and reducing the period to reduce taxation of the source country. 

On the other hand, the UK and Australia amended the tax laws to introduce the Diverted Profits Tax, which applies a higher rate than the usual rate of corporate tax on profits that multinational companies transfer abroad. 

In this meeting, we discuss the change of the concept of permanent establishment related to the above Base Erosion and Profit Shifting project, reviews each case on the Diverted Profits Tax of the UK and Australia, and discusses the proper position of South Korea in each case.'''
src_lang="english"

In [33]:
result=llm_translator.translate(src_lang=src_lang,text=text.splitlines(keepends=True),term_dict=term_dict)

In [34]:
result

([[CompletionChoice(finish_reason='stop', index=0, logprobs=None, text='국세를 회피하기 위하여 세원잠식 및 소득이전 프로젝트는 단기 계약을 체결하고 원천지국의 조세를 감소시키는 등의 방법으로 조약상의 고정사업장의 범위를 확대하는 도면을 제시하였다. 한편, 영국과 호주는 다국적 기업이 해외로 이전하는 이익에 대하여 법인세보다 높은 요율을 적용하는 우회이익세를 도입하기 위하여 세법을 개정하였다. 이 회의에서는 위 세원잠식 및 소득이전 프로젝트와 관련하여 고정사업장의 개념의 변경을 논의하고, 영국 및 호주의 우회이익세에 대한 각 사안을 검토하여 우리 나라의 적절한 입장을 논의하였다.'),
   CompletionChoice(finish_reason='stop', index=1, logprobs=None, text='국세를 회피하기 위하여 세원잠식 및 소득이전을 위한 프로젝트는 조약상 고정사업장의 범위를 단기 계약 체결과 원천지국의 조세를 감소시키는 등의 방법으로 확대하는 도면을 제시하였다. 한편, 영국과 호주는 다국적 기업이 국외로 이전하는 이익에 대하여 법인세보다 높은 요율의 우회이익세를 도입하기 위하여 조세법을 개정하였다. 이 회의에서는 위 세원잠식 및 소득이전을 위한 프로젝트와 관련하여 고정사업장의 개념의 변경을 논의하고, 영국과 호주의 우회이익세에 관한 각 사례를 검토하며, 각 사례에 있어서 우리나라는 적절한 입장을 논의하였다.'),
   CompletionChoice(finish_reason='stop', index=2, logprobs=None, text='국세를 회피하기 위하여, 세원잠식 및 소득이전 프로젝트에서는 단기간 계약을 체결하고 원천지국의 조세를 경감하기 위하여 조약상의 고정사업장의 범위를 확대하는 도면을 제시하였다. \n\n반면, 영국과 호주는 다국적기업이 해외로 이전하는 이익에 대하여 법인세의 일반세율보다 높은 요율을 적용하는 우회이익세를 도입하기 위하여 조세법을 개정하였다. \n\n

In [22]:
result[1]

['국세를 회피하기 위하여 세원잠식 및 소득이전 프로젝트는 조약상 고정사업장의 범위를 단기 계약 체결 및 조세 회피국의 조세 기간을 축소하는 것을 통하여 확대하는 도면을 제안하였다. 한편, 영국과 호주는 다국적 기업이 해외로 이전하는 이익에 대하여 법인세보다 높은 요율의 우회이익세를 도입하기 위하여 조세법을 개정하였다. 이 회의에서는 위 세원잠식 및 소득이전 프로젝트와 관련하여 고정사업장의 개념 변경을 논의하고, 영국과 호주의 우회이익세 각 사례를 검토하며, 각 사례에 대한 우리나라의 적절한 입장을 논의한다.']

In [None]:
m

In [118]:
print(result.choices[1].text)

According to this amendment, the country-by-country report shall include information on the distribution of income of multinational enterprises, taxable income, income tax paid, capital, major business activities, etc., and shall be submitted in Korean and English. In addition, the amendment defines the domestic corporation that is the ultimate parent entity of a multinational enterprise whose consolidated financial statement exceeds KRW 1 trillion in the previous year as the submitter of the country-by-country report. However, if the foreign enterprise (domestic subsidiary) is not required to prepare a country-by-country report under the laws of the country where the ultimate parent entity is located, or if the exchange of the country-by-country report does not take place due to the fact that no tax treaty has been concluded between the country where the ultimate parent entity is located, etc., the foreign enterprise shall be required to submit the country-by-country report (secondary

In [119]:
print(result.choices[2].text)

According to this amendment, the cbcr shall include information on the distribution of income of multinational corporations, taxable income, income tax paid, capital, and main business activities, etc., and shall be submitted in Korean and English. In addition, the amendment defines the domestic corporation that is the ultimate parent company of a multinational corporation with sales exceeding KRW 1 trillion in the previous fiscal year as the submitter of the cbcr. However, if the submitter of the cbcr is a foreign enterprise (domestic subsidiary), the foreign enterprise shall submit the cbcr if there is no obligation to prepare the cbcr under the laws of the country where the ultimate parent company is located, or if there is no exchange of the cbcr due to the fact that there is no tax treaty between the country where the ultimate parent company is located and the country where the foreign enterprise is located, etc. (Secondary Filing Requirement). In addition, the amendment provides 

In [190]:
text='''서면국제세원- 2908, 2016.05.17
 
국내사업장이 없는 미국법인이 내국법인에게 기본설계용역을 제공하고 수취하는 소득은 동 용역제공대가가 비공개 기술, 정보 등 노하우의 사용대가인 경우에 사용료소득에 해당하는 것이나, 동 용역제공대가가 동종의 용역수행자가 통상적으로 보유하는 전문지식이나 기능을 활용하여 수행하는 용역에 대한 대가인 경우에는 사업소득에 해당되는 것임. 동 용역제공대가가 사용료소득인지 사업소득인지의 여부는 내국법인이 제공받는 용역의 실질내용에 따라 사실 판단할 사항이며, 법인세법 기본통칙 93-132…7 [노하우와 독립적인 인적용역의 구분]을 참고하기 바람.
'''.strip()
term_dict=""

# text='''이번 개정안에 따르면, 국가별보고서는 다국적기업의 국가별 소득 배분내역, 세전이익 손실, 소득 법인세 납부액, 자본금, 주요사업활동 등에 대한 내용을 포함하여, 한글과 영문으로 제출하도록 규정하고 있습니다. 또한, 국가별보고서 제출의무자는 직전년도 연결재무제표상 매출액이 1조원을 초과하는 다국적 기업의 최상위 지배법인에 해당하는 내국법인으로 규정하였습니다. 
# 다만, 외투기업(국내 종속기업)의 경우 국외지배 주주가 소재한 국가의 법령상 국가별보고서 작성의무가 없는 경우 또는 국외지배 주주 소재 국가와 조세조약이 체결되지 않는 등의 사유로 국가별보고서의 교환이 되지 않는 경우에는 당해 외투기업이 국가별보고서를 제출하도록 규정 (Secondary Filing Requirement)하였습니다. 그리고, 내국법인 및 외투기업 등은 국가별 보고서 제출의무자와 관련된 자료를 사업연도 종료일로부터 6개월 이내에 제출하도록 규정하고 있으며, 만약 외투기업이 국가별보고서의 제출의무자에 대한 자료를 제출하지 않는 경우 당해 외투기업은 국가별보고서를 별도로 제출하도록 규정하였습니다. (구체적인 신고서식 및 내용은 기획 재정부장관의 고시로 발표될 것으로 보입니다.)
# 이번 국조법 시행령 개정안은 OECD BEPS Action Plan 13의 규정과 일치하도록 국조법 시행령을 추가적으로 보완하는 것으로 볼 수 있는데, 유의할 점은 사업연도 종료일로부터 6개월 이내에 다국적기업에서 누가 국가별보고서를 제출할 것인지에 대하여 사전보고를 하도록 규정하고 있고, 이러한 신고의무가 불이행되는 경우 후술하는 과태료도 부과될 수 있는 가능성이 있습니다.'''
# term_dict=str({"개정안" : "revision","국가별보고서":"cbcr","국조법 시행령":"LCITA-PED"})

# text='''Supreme court 2014Du8896, 2016.01.14

# A Singapore Co. is considered to have a deemed agent PE if the agent has and habitually exercises an authority to conclude contracts in the name of the enterprise and the activities performed by the agent have high potential to be considered as important and essential activities of the company as a whole (i.e., not preparatory or auxiliary in nature). determination of what activities are important and essential to a business as a whole shall depend on the characteristics of the activities, the relative importance and scope of the activities compared to the activities of the business as a whole, etc.'''


# src="English"
# tgt="Korean"
# term_dict=""

# text="mention"
# term_dict=""
src="Korean"
tgt="English"


input_text=pair_sent_terms(src,text,term_dict)

if len(term_dict):
    prompt=TranslationTemplate.translation_template_w_glossary.format(src,tgt,input_text)
else:
    prompt=TranslationTemplate.translation_template_wo_glossary.format(src,tgt,input_text)
print(prompt)

NameError: name 'pair_sent_terms' is not defined

# Native Transformers

In [4]:
def gen(model,prompt):
    generation_config = GenerationConfig(
        temperature=0.2,
        # top_p=0.9,
        max_new_tokens=1024,
        repetition_penalty=1.05,
        # num_beams=3,
        # num_return_sequences=3,
        stop_token_ids=tokenizer.encode(tokenizer.tokenize("\n\n\n\n\n")[0],add_special_tokens=False),
        do_sample=True,
    )
    gened = model.generate(
        **tokenizer(
            prompt,
            return_tensors='pt',
            return_token_type_ids=False
        ).to('cuda'),
        generation_config=generation_config,
        # pad_token_id=tokenizer.pad_token_id,
        # eos_token_id=128009,
        pad_token_id=tokenizer.pad_token_id,
        eos_token_id=tokenizer.eos_token_id,
    )


    gen_result=[]
    for gen in gened:
        result_str = tokenizer.decode(gen)
        gen_result.append(result_str)
    return gen_result

In [5]:
# base_path="/azurestorage/models/production/yi-ko-34b-inst-data1.1k/"
base_path="beomi/Yi-Ko-34B"
peft_path="/azurestorage/models/trained/solar-11b-data7k_2024-05-31-10-27-1717118850/checkpoint-1731/"
# cache_dir="/nvme0"

In [6]:
model=AutoModelForCausalLM.from_pretrained(base_path,torch_dtype=torch.bfloat16,cache_dir="/nvme0/models",trust_remote_code=True,attn_implementation="flash_attention_2")
model=model.to("cuda")

# model=AutoModelForCausalLM.from_pretrained(base_path,device_map="auto",torch_dtype=torch.bfloat16)

# tokenizer=AutoTokenizer.from_pretrained(peft_path)
tokenizer=AutoTokenizer.from_pretrained(base_path,cache_dir="/nvme0/models")


You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.


Loading checkpoint shards:   0%|          | 0/15 [00:00<?, ?it/s]

You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama_fast.LlamaTokenizerFast'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [7]:
peft_model=PeftModel.from_pretrained(model,peft_path)
# peft_model=peft_model.to("cuda"

In [33]:
peft_model=peft_model.merge_and_unload()

In [35]:
peft_model.save_pretrained("/nvme0/models/tmt-35b-data1.1k-refined")
tokenizer.save_pretrained("/nvme0/models/tmt-35b-data1.1k-refined")

('/nvme0/models/tmt-35b-data1.1k-refined/tokenizer_config.json',
 '/nvme0/models/tmt-35b-data1.1k-refined/special_tokens_map.json',
 '/nvme0/models/tmt-35b-data1.1k-refined/tokenizer.json')

In [24]:
text='''서면국제세원- 2908, 2016.05.12

국내사업장이 없는 미국법인이 내국법인에게 기본설계용역을 제공하고 수취하는 소득은 동 용역제공대가가 비공개 기술, 정보 등 노하우의 사용대가인 경우에 사용료소득에 해당하는 것이나, 동 용역제공대가가 동종의 용역수행자가 통상적으로 보유하는 전문지식이나 기능을 활용하여 수행하는 용역에 대한 대가인 경우에는 사업소득에 해당되는 것임. 동 용역제공대가가 사용료소득인지 사업소득인지의 여부는 내국법인이 제공받는 용역의 실질내용에 따라 사실 판단할 사항이며, 법인세법 기본통칙 93-132…7 [노하우와 독립적인 인적용역의 구분]을 참고하기 바람.
'''.rstrip()

term_dict=str({"서면":"Seomyeon",
           "국내사업장":"domestic business place",
           "내국법인":"domestic corporation",
           "계":"Total",
           "용역":"Services",
           "소득":"income",
          "사용료":"Royalty",
           "상":"Prize",
           "사업소득":"business income",
           "법인세법":"CITL"})

# term_dict=""
# text="keywords is international tax avoidance"

# text='''이번 개정안에 따르면, 국가별보고서는 다국적기업의 국가별 소득 배분내역, 세전이익 손실, 소득 법인세 납부액, 자본금, 주요사업활동 등에 대한 내용을 포함하여, 한글과 영문으로 제출하도록 규정하고 있습니다. 또한, 국가별보고서 제출의무자는 직전년도 연결재무제표상 매출액이 1조원을 초과하는 다국적 기업의 최상위 지배법인에 해당하는 내국법인으로 규정하였습니다. 
# 다만, 외투기업(국내 종속기업)의 경우 국외지배 주주가 소재한 국가의 법령상 국가별보고서 작성의무가 없는 경우 또는 국외지배 주주 소재 국가와 조세조약이 체결되지 않는 등의 사유로 국가별보고서의 교환이 되지 않는 경우에는 당해 외투기업이 국가별보고서를 제출하도록 규정 (Secondary Filing Requirement)하였습니다. 그리고, 내국법인 및 외투기업 등은 국가별 보고서 제출의무자와 관련된 자료를 사업연도 종료일로부터 6개월 이내에 제출하도록 규정하고 있으며, 만약 외투기업이 국가별보고서의 제출의무자에 대한 자료를 제출하지 않는 경우 당해 외투기업은 국가별보고서를 별도로 제출하도록 규정하였습니다. (구체적인 신고서식 및 내용은 기획 재정부장관의 고시로 발표될 것으로 보입니다.)
# 이번 국조법 시행령 개정안은 OECD BEPS Action Plan 13의 규정과 일치하도록 국조법 시행령을 추가적으로 보완하는 것으로 볼 수 있는데, 유의할 점은 사업연도 종료일로부터 6개월 이내에 다국적기업에서 누가 국가별보고서를 제출할 것인지에 대하여 사전보고를 하도록 규정하고 있고, 이러한 신고의무가 불이행되는 경우 후술하는 과태료도 부과될 수 있는 가능성이 있습니다.'''
# term_dict=str({"국조법 시행령":"LCITA-PED","국가별보고서":"cbc-report","개정안" : "amendment"})


# text='''Supreme court 2014Du8896, 2016.01.14

# A Singapore Co. is considered to have a deemed agent PE if the agent has and habitually exercises an authority to conclude contracts in the name of the enterprise and the activities performed by the agent have high potential to be considered as important and essential activities of the company as a whole (i.e., not preparatory or auxiliary in nature). determination of what activities are important and essential to a business as a whole shall depend on the characteristics of the activities, the relative importance and scope of the activities compared to the activities of the business as a whole, etc.'''


# src="English"
# tgt="Korean"
# term_dict=""

# text="a r t i c l e"
term_dict=""
src="Korean"
tgt="English"

text='''연결 부당행위 계산 부인이 적용되기 위해서는 연결 전후 연결대상법인들의 과세표준에 차이가 있어야 합니다.'''
# text="계산 부인"


# text='''Taking action to enable OpenAI ChatGPT-E 
# While the network does not currently support the scaling of OpenAI ChatGPT-E, PwC Technology is taking action to enable the network to meet the market demands of delivering AI to our clients. Our team is diligently engaged with the OpenAI team as they build and mature their capabilities to be fully enterprise ready. A number of workstreams are underway to ensure ChatGPT-E can meet PwC’s requirements for security and scalability so we can successfully roll it out to our client service teams across the network. 
# OpenAI global agreement and member firms’ licence procurement: PwC has a negotiated global agreement with OpenAI that permits use of ChatGPT-E by any member firm. Licences must be procured through Global Procurement via a chargeback model, and it is recommended that member firms designate a contact responsible for engaging with Global Procurement.
# The Global Territory Risk Framework (TRF) for ChatGPT-E is in progress. In collaboration with Global Procurement and GOGC, PwC Technology’s GenAI team is working on outlining the process for procuring licences for member firms taking into account risk approvals. Details will follow in the coming weeks as enterprise licence allocation is expected to begin in Q1 FY25.
# Single Sign-On (SSO) implementation: Our team is making progress with SSO testing, and we aim to have the feature enabled by 15 June 2024. This feature will support authentication and authorisation of PwC users who have been allocated a PwC ChatGPT-E account. 
# Users who created a ChatGPT account using their PwC email, prior to acquiring a PwC ChatGPT-E licence, will lose access to their OpenAI account and any custom generated pre-trained transformers (GPTs) they created on 15 June 2024. There are approximately 64K users who have created a ChatGPT account using their PwC email. The following options are available for current users:
# If the ChatGPT account was set up for personal use using a PwC email address, they will need to create a new account with a personal email in accordance with PwC’s Acceptable Use Policy.
# If they have a business requirement for the use of ChatGPT for more effective services to clients on their AI journey, please advise them that direct access to OpenAI ChatGPT-E services is still being evaluated as a vital consulting capability to deliver AI to clients. We recommend communicating your member firm process to receive approval for an enterprise licence. Once licences are approved at the member firm level and allocated via Global Procurement, the user will have access reinstated to their ChatGPT projects and data.'''


# text='''Gains derived by prescribed financial institutions and entities enjoying certain tax incentives are excluded from the scope of section 10L of the Act. However, this exclusion only applies to the extent that the disposal of the foreign asset is “part of or incidental to the incentivised business”. The e-Tax Guide clarifies that the determination of whether the disposal is part of the incentivised business should take place at the time of disposal. Practically, this could give rise to (at least) two issues. 
# Firstly, the question of whether income from (and by extension, gains on disposal of) foreign assets is incidental to an incentivised business is sometimes an item of contention between taxpayers and the IRAS. The problem may be exacerbated if there is a significant time lapse between the time of disposal and receipt of the gains in Singapore as supporting documentation may be difficult to locate when the IRAS challenges the tax position taken. To address this, businesses contemplating foreign asset disposals may consider obtaining upfront certainty from the IRAS to agree that any gains on disposal of its foreign asset and any income derived therefrom is covered by the incentive.'''



# text='''5/22 Tax 팀과의 회의 기록

# 법, 령, 규칙, 예판 4개의 큰 틀을 노드로 잡고
# 법과 조 사이의 분류 - 장 절 관
# 테이블 내의 step 을 활용하든 해서 활용하면 좋을듯

# 사전, 질의, 자문 - 질문을 과제 관청쪽에 던지고 답을 얻는 것
# 질의 요약하고 바로 답변

# 적부, 이의, 심사, 감심, 심판, 판례, 헌재 - 싸움이 붙어서 판단을 받은 것
# 사실 관계, 양측 주장, 판단

# 예판에 붙어있는 관련 법령은 블라인드 처리해야할 수도
# 근데 이 법령에 붙어있는 개정 날짜 등 때문에 이게 더 정확한거야 사실

# (정환님 의견: 예판에 붙어있는 법령은 FEW SHOT으로 쓰면 될듯)

# 심판례
# 사실 관계 및 판단이 제일 중요해

# 청구법인 청구청 각각의 주장을 나눠놓고 요약

# 마지막 (3) 이상의 사실 관계 및 관련 법령 등을 종합하여 본다. 가 가장 중요

# 전심과정 꼭 추가해야함(지방법원 - 고등법원 - 대법원)

# 질의 회신에 관련 사례 - 과세 관청이 붙여서 준 것임

# 구글은 원본 문서, 네이버는 정보가 블로그에 정리되어 있는 경우가 많다

# 서면에서 회신을 보는게 기본
# 그리고 제목이 summary 인데 이걸 그대로 attribute 로 쓰는게 좋다
# 국세청에서 결론 내린 내용이기 때문

# 쟁점이 두개가 있으면 타이틀이 다른 판례가 두개가 있는 것

# uniq 가 0인 경우와 1인 경우가 무슨 차이야?

# <현국님 질문>
# 개정될 때 마다 부칙이 붙어있는거야.
# 부칙이 많으면 많을 수록 예외가 생기는거야.

# 구조문하고 부칙하고 왼쪽 연혁이 똑같아

# 현행 기준으로 우선 하는게 하나고
# 부칙은 완전히 다른 프로젝트다
# (단, 추후 업데이트를 고려해서 이걸 생각은 해놔야 한다)

# 부칙은 대화형으로 부족한 정보들을 사용자에게 질문하는 형식으로 해야할 듯

# 적용시기가 붙어있는 경우가 있다'''

# # input_text=pair_sent_terms(src,text,term_dict)

if len(term_dict):
    term_dict = ast.literal_eval(term_dict)
    term_dict=formatting_glossary(term_dict,TranslationTemplate.glossary_template)
    text=f"{term_dict}\n{TranslationTemplate.sentence_template}\n{text}"
    prompt=TranslationTemplate.translation_template_w_glossary.format(src,tgt,text)

else:
    text=f"{TranslationTemplate.sentence_template}\n{text}"
    prompt=TranslationTemplate.translation_template_wo_glossary.format(src,tgt,text)

In [25]:
print(prompt)

Translate the following Korean source text into English.
### Source:
연결 부당행위 계산 부인이 적용되기 위해서는 연결 전후 연결대상법인들의 과세표준에 차이가 있어야 합니다.



In [26]:

messages = [
    {"role": "system", "content": TranslationTemplate.system_prompt},
    {"role": "user", "content": prompt},
]

# tokenizer.chat_template="{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}"

tokenizer.chat_template="{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ system_message + '\n'}}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ content }}{% elif message['role'] == 'assistant' %}{{ content + '\\n' }}{% endif %}{% endfor %}"



template=tokenizer.apply_chat_template(
                                messages,
                                tokenize=False,
                            add_generation_prompt=True,
                                )

template=template.replace(tokenizer.bos_token,"")

template+="### Translation:\n"

# template=prompt+"### Target:\n"

# template+=f"<im_end>\n<im_start>assistant\n{TranslationTemplate.response_template}\n"

# template+=f"Assistant: \n{TranslationTemplate.response_template}\n"
# template+=f"Assistant:\n{TranslationTemplate.response_template}\n"
# template+=f"<|start_header_id|>assistant<|end_header_id|>\n\n{TranslationTemplate.response_template}\n"

In [27]:
print(template)

You are a professional translator. You are especially familiar with specialized knowledge and terms in economics, law, and accounting, as well as general everyday terms.
Translate the following Korean source text into English.
### Source:
연결 부당행위 계산 부인이 적용되기 위해서는 연결 전후 연결대상법인들의 과세표준에 차이가 있어야 합니다.
### Translation:



In [28]:
result=gen(peft_model,template)
print(result[0])

<|startoftext|> You are a professional translator. You are especially familiar with specialized knowledge and terms in economics, law, and accounting, as well as general everyday terms.
Translate the following Korean source text into English.
### Source:
연결 부당행위 계산 부인이 적용되기 위해서는 연결 전후 연결대상법인들의 과세표준에 차이가 있어야 합니다.
### Translation:
In order for the calculation of the connected unfair act to be applied, there must be a difference in the tax base between the connected target companies before and after the connection.<|endoftext|>


In [None]:
# result=gen(peft_model,'''Translate the source English texts into Korean. Refer to the word pairs in the glossary when you translate. Do not translate the glossary itself. 
# ### Glossary:
# Base Erosion and Profit Shifting=세원잠식 및 소득이전
# plan=도면
# permanent establishment=고정사업장
# short-term=단기
# taxation=조세
# source country=원천지국
# tax=조세
# Diverted Profits Tax=우회이익세
# rate=요율
# corporate tax=법인세
# profit=이익
# national=내국인
# transfer=양도
# case=사안
# ### Source:
# In order to prevent international tax avoidance, the Base Erosion and Profit Shifting project proposed a plan to expand the scope of permanent establishment in the treaty through concluding short-term contracts and reducing the period to reduce taxation of the source country.

# On the other hand, the UK and Australia amended the tax laws to introduce the Diverted Profits Tax, which applies a higher rate than the usual rate of corporate tax on profits that multinational companies transfer abroad.

# In this meeting, we discuss the change of the concept of permanent establishment related to the above Base Erosion and Profit Shifting project, reviews each case on the Diverted Profits Tax of the UK and Australia, and discusses the proper position of South Korea in each case.
# ### Target:
# ''')
# print(result[0])

In [None]:
result=gen(peft_model,'''<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>You are a professional translator.<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Translate the following English source text into Korean.
### Source:
article 1.
<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>### Translation:
'''
)
print(result[0])

In [22]:
result=gen(peft_model,'''<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>You are a professional translator.<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Translate the following English source text into Korean. Refer to the word pairs in the glossary when you translate. Do not translate the glossary itself. 
### Glossary:
national tax=조세
Base Erosion and Profit Shifting=세원잠식 및 소득이전
plan=도면
permanent establishment=고정사업장
short-term=단기
taxation=조세
source country=원천지국
tax=조세
Diverted Profits Tax=우회이익세
rate=요율
corporate tax=법인세
profit=이익
national=내국인
transfer=양도
case=사안
### Source:
In order to prevent international tax avoidance, the Base Erosion and Profit Shifting project proposed a plan to expand the scope of permanent establishment in the treaty through concluding short-term contracts and reducing the period to reduce taxation of the source country.

On the other hand, the UK and Australia amended the tax laws to introduce the Diverted Profits Tax, which applies a higher rate than the usual rate of corporate tax on profits that multinational companies transfer abroad.

In this meeting, we discuss the change of the concept of permanent establishment related to the above Base Erosion and Profit Shifting project, reviews each case on the Diverted Profits Tax of the UK and Australia, and discusses the proper position of South Korea in each case.
<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>### Translation:
''')
print(result[0])

<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>You are a professional translator.<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Translate the following English source text into Korean. Refer to the word pairs in the glossary when you translate. Do not translate the glossary itself. 
### Glossary:
national tax=조세
Base Erosion and Profit Shifting=세원잠식 및 소득이전
plan=도면
permanent establishment=고정사업장
short-term=단기
taxation=조세
source country=원천지국
tax=조세
Diverted Profits Tax=우회이익세
rate=요율
corporate tax=법인세
profit=이익
national=내국인
transfer=양도
case=사안
### Source:
In order to prevent international tax avoidance, the Base Erosion and Profit Shifting project proposed a plan to expand the scope of permanent establishment in the treaty through concluding short-term contracts and reducing the period to reduce taxation of the source country.

On the other hand, the UK and Australia amended the tax laws to introduce the Diverted Profits Tax, which applies a higher rate than the usual rate of

In [None]:
'''<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a professional translator.<|eot_id|><|start_header_id|>user<|end_header_id|>

Translate the source English texts into Korean. Refer to the word pairs in the glossary when you translate. Do not translate the glossary itself. 
### Glossary:
national tax=조세
Base Erosion and Profit Shifting=세원잠식 및 소득이전
plan=도면
permanent establishment=고정사업장
short-term=단기
taxation=조세
source country=원천지국
tax=조세
Diverted Profits Tax=우회이익세
rate=요율
corporate tax=법인세
profit=이익
national=내국인
transfer=양도
case=사안
### Source:
In order to prevent international tax avoidance, the Base Erosion and Profit Shifting project proposed a plan to expand the scope of permanent establishment in the treaty through concluding short-term contracts and reducing the period to reduce taxation of the source country.

On the other hand, the UK and Australia amended the tax laws to introduce the Diverted Profits Tax, which applies a higher rate than the usual rate of corporate tax on profits that multinational companies transfer abroad.

In this meeting, we discuss the change of the concept of permanent establishment related to the above Base Erosion and Profit Shifting project, reviews each case on the Diverted Profits Tax of the UK and Australia, and discusses the proper position of South Korea in each case.
<|eot_id|><|start_header_id|>assistant<|end_header_id|>

### Target:
'''

# VLLM

In [4]:
from vllm import LLM, SamplingParams,RequestOutput

In [5]:
base_path='/nvme0/models/yi-ko-34b-stage2-sharegpt8k-even-data1.1k' 

In [7]:
model=LLM(base_path)

INFO 05-30 14:29:53 llm_engine.py:100] Initializing an LLM engine (v0.4.2) with config: model='/nvme0/models/yi-ko-34b-stage2-sharegpt8k-even-data1.1k', speculative_config=None, tokenizer='/nvme0/models/yi-ko-34b-stage2-sharegpt8k-even-data1.1k', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.bfloat16, max_seq_len=2048, download_dir=None, load_format=LoadFormat.AUTO, tensor_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=False, kv_cache_dtype=auto, quantization_param_path=None, device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='outlines'), seed=0, served_model_name=/nvme0/models/yi-ko-34b-stage2-sharegpt8k-even-data1.1k)


Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


INFO 05-30 14:29:53 utils.py:660] Found nccl from library /root/.config/vllm/nccl/cu12/libnccl.so.2.18.1
INFO 05-30 14:29:53 selector.py:27] Using FlashAttention-2 backend.


Exception ignored in: <bound method IPythonKernel._clean_thread_parent_frames of <ipykernel.ipkernel.IPythonKernel object at 0x7fe2c3b4d5d0>>
Traceback (most recent call last):
  File "/root/.cache/pypoetry/virtualenvs/modeling-GRV9YhML-py3.11/lib/python3.11/site-packages/ipykernel/ipkernel.py", line 775, in _clean_thread_parent_frames
    def _clean_thread_parent_frames(

KeyboardInterrupt: 

KeyboardInterrupt



In [7]:
tokenizer=model.get_tokenizer()

NameError: name 'model' is not defined

In [6]:
text='''서면국제세원- 2908, 2016.05.12

국내사업장이 없는 미국법인이 내국법인에게 기본설계용역을 제공하고 수취하는 소득은 동 용역제공대가가 비공개 기술, 정보 등 노하우의 사용대가인 경우에 사용료소득에 해당하는 것이나, 동 용역제공대가가 동종의 용역수행자가 통상적으로 보유하는 전문지식이나 기능을 활용하여 수행하는 용역에 대한 대가인 경우에는 사업소득에 해당되는 것임. 동 용역제공대가가 사용료소득인지 사업소득인지의 여부는 내국법인이 제공받는 용역의 실질내용에 따라 사실 판단할 사항이며, 법인세법 기본통칙 93-132…7 [노하우와 독립적인 인적용역의 구분]을 참고하기 바람.
'''.rstrip()

term_dict=str({"서면":"Seomyeon",
           "국내사업장":"domestic business place",
           "내국법인":"domestic corporation",
           "계":"Total",
           "용역":"Services",
           "소득":"income",
          "사용료":"Royalty",
           "상":"Prize",
           "사업소득":"business income",
           "법인세법":"CITL"})

# term_dict=""
# text="keywords is international tax avoidance"

# text='''이번 개정안에 따르면, 국가별보고서는 다국적기업의 국가별 소득 배분내역, 세전이익 손실, 소득 법인세 납부액, 자본금, 주요사업활동 등에 대한 내용을 포함하여, 한글과 영문으로 제출하도록 규정하고 있습니다. 또한, 국가별보고서 제출의무자는 직전년도 연결재무제표상 매출액이 1조원을 초과하는 다국적 기업의 최상위 지배법인에 해당하는 내국법인으로 규정하였습니다. 
# 다만, 외투기업(국내 종속기업)의 경우 국외지배 주주가 소재한 국가의 법령상 국가별보고서 작성의무가 없는 경우 또는 국외지배 주주 소재 국가와 조세조약이 체결되지 않는 등의 사유로 국가별보고서의 교환이 되지 않는 경우에는 당해 외투기업이 국가별보고서를 제출하도록 규정 (Secondary Filing Requirement)하였습니다. 그리고, 내국법인 및 외투기업 등은 국가별 보고서 제출의무자와 관련된 자료를 사업연도 종료일로부터 6개월 이내에 제출하도록 규정하고 있으며, 만약 외투기업이 국가별보고서의 제출의무자에 대한 자료를 제출하지 않는 경우 당해 외투기업은 국가별보고서를 별도로 제출하도록 규정하였습니다. (구체적인 신고서식 및 내용은 기획 재정부장관의 고시로 발표될 것으로 보입니다.)
# 이번 국조법 시행령 개정안은 OECD BEPS Action Plan 13의 규정과 일치하도록 국조법 시행령을 추가적으로 보완하는 것으로 볼 수 있는데, 유의할 점은 사업연도 종료일로부터 6개월 이내에 다국적기업에서 누가 국가별보고서를 제출할 것인지에 대하여 사전보고를 하도록 규정하고 있고, 이러한 신고의무가 불이행되는 경우 후술하는 과태료도 부과될 수 있는 가능성이 있습니다.'''
# term_dict=str({"개정안" : "amendment","국가별보고서":"cbc-report","국조법 시행령":"LCITA-PED"})


# text='''Supreme court 2014Du8896, 2016.01.14

# A Singapore Co. is considered to have a deemed agent PE if the agent has and habitually exercises an authority to conclude contracts in the name of the enterprise and the activities performed by the agent have high potential to be considered as important and essential activities of the company as a whole (i.e., not preparatory or auxiliary in nature). determination of what activities are important and essential to a business as a whole shall depend on the characteristics of the activities, the relative importance and scope of the activities compared to the activities of the business as a whole, etc.'''


src="English"
tgt="Korean"
term_dict=""

# text="a r t i c l e"
# term_dict=""
# src="Korean"
# tgt="English"


# text='''Taking action to enable OpenAI ChatGPT-E 
# While the network does not currently support the scaling of OpenAI ChatGPT-E, PwC Technology is taking action to enable the network to meet the market demands of delivering AI to our clients. Our team is diligently engaged with the OpenAI team as they build and mature their capabilities to be fully enterprise ready. A number of workstreams are underway to ensure ChatGPT-E can meet PwC’s requirements for security and scalability so we can successfully roll it out to our client service teams across the network. 
# OpenAI global agreement and member firms’ licence procurement: PwC has a negotiated global agreement with OpenAI that permits use of ChatGPT-E by any member firm. Licences must be procured through Global Procurement via a chargeback model, and it is recommended that member firms designate a contact responsible for engaging with Global Procurement.
# The Global Territory Risk Framework (TRF) for ChatGPT-E is in progress. In collaboration with Global Procurement and GOGC, PwC Technology’s GenAI team is working on outlining the process for procuring licences for member firms taking into account risk approvals. Details will follow in the coming weeks as enterprise licence allocation is expected to begin in Q1 FY25.
# Single Sign-On (SSO) implementation: Our team is making progress with SSO testing, and we aim to have the feature enabled by 15 June 2024. This feature will support authentication and authorisation of PwC users who have been allocated a PwC ChatGPT-E account. 
# Users who created a ChatGPT account using their PwC email, prior to acquiring a PwC ChatGPT-E licence, will lose access to their OpenAI account and any custom generated pre-trained transformers (GPTs) they created on 15 June 2024. There are approximately 64K users who have created a ChatGPT account using their PwC email. The following options are available for current users:
# If the ChatGPT account was set up for personal use using a PwC email address, they will need to create a new account with a personal email in accordance with PwC’s Acceptable Use Policy.
# If they have a business requirement for the use of ChatGPT for more effective services to clients on their AI journey, please advise them that direct access to OpenAI ChatGPT-E services is still being evaluated as a vital consulting capability to deliver AI to clients. We recommend communicating your member firm process to receive approval for an enterprise licence. Once licences are approved at the member firm level and allocated via Global Procurement, the user will have access reinstated to their ChatGPT projects and data.'''


text='''Gains derived by prescribed financial institutions and entities enjoying certain tax incentives are excluded from the scope of section 10L of the Act. However, this exclusion only applies to the extent that the disposal of the foreign asset is “part of or incidental to the incentivised business”. The e-Tax Guide clarifies that the determination of whether the disposal is part of the incentivised business should take place at the time of disposal. Practically, this could give rise to (at least) two issues. 
Firstly, the question of whether income from (and by extension, gains on disposal of) foreign assets is incidental to an incentivised business is sometimes an item of contention between taxpayers and the IRAS. The problem may be exacerbated if there is a significant time lapse between the time of disposal and receipt of the gains in Singapore as supporting documentation may be difficult to locate when the IRAS challenges the tax position taken. To address this, businesses contemplating foreign asset disposals may consider obtaining upfront certainty from the IRAS to agree that any gains on disposal of its foreign asset and any income derived therefrom is covered by the incentive.'''



# text='''5/22 Tax 팀과의 회의 기록

# 법, 령, 규칙, 예판 4개의 큰 틀을 노드로 잡고
# 법과 조 사이의 분류 - 장 절 관
# 테이블 내의 step 을 활용하든 해서 활용하면 좋을듯

# 사전, 질의, 자문 - 질문을 과제 관청쪽에 던지고 답을 얻는 것
# 질의 요약하고 바로 답변

# 적부, 이의, 심사, 감심, 심판, 판례, 헌재 - 싸움이 붙어서 판단을 받은 것
# 사실 관계, 양측 주장, 판단

# 예판에 붙어있는 관련 법령은 블라인드 처리해야할 수도
# 근데 이 법령에 붙어있는 개정 날짜 등 때문에 이게 더 정확한거야 사실

# (정환님 의견: 예판에 붙어있는 법령은 FEW SHOT으로 쓰면 될듯)

# 심판례
# 사실 관계 및 판단이 제일 중요해

# 청구법인 청구청 각각의 주장을 나눠놓고 요약

# 마지막 (3) 이상의 사실 관계 및 관련 법령 등을 종합하여 본다. 가 가장 중요

# 전심과정 꼭 추가해야함(지방법원 - 고등법원 - 대법원)

# 질의 회신에 관련 사례 - 과세 관청이 붙여서 준 것임

# 구글은 원본 문서, 네이버는 정보가 블로그에 정리되어 있는 경우가 많다

# 서면에서 회신을 보는게 기본
# 그리고 제목이 summary 인데 이걸 그대로 attribute 로 쓰는게 좋다
# 국세청에서 결론 내린 내용이기 때문

# 쟁점이 두개가 있으면 타이틀이 다른 판례가 두개가 있는 것

# uniq 가 0인 경우와 1인 경우가 무슨 차이야?

# <현국님 질문>
# 개정될 때 마다 부칙이 붙어있는거야.
# 부칙이 많으면 많을 수록 예외가 생기는거야.

# 구조문하고 부칙하고 왼쪽 연혁이 똑같아

# 현행 기준으로 우선 하는게 하나고
# 부칙은 완전히 다른 프로젝트다
# (단, 추후 업데이트를 고려해서 이걸 생각은 해놔야 한다)

# 부칙은 대화형으로 부족한 정보들을 사용자에게 질문하는 형식으로 해야할 듯

# 적용시기가 붙어있는 경우가 있다'''

# # input_text=pair_sent_terms(src,text,term_dict)

if len(term_dict):
    term_dict = ast.literal_eval(term_dict)
    term_dict=formatting_glossary(term_dict,TranslationTemplate.glossary_template)
    formatted_text=f"{term_dict}\n{TranslationTemplate.sentence_template}\n{text}"
    prompt=TranslationTemplate.translation_template_w_glossary.format(src,tgt,formatted_text)

else:
    formatted_text=f"{TranslationTemplate.sentence_template}\n{text}"
    prompt=TranslationTemplate.translation_template_wo_glossary.format(src,tgt,formatted_text)

print(prompt)

Translate the following English source text into Korean.
### Source:
Gains derived by prescribed financial institutions and entities enjoying certain tax incentives are excluded from the scope of section 10L of the Act. However, this exclusion only applies to the extent that the disposal of the foreign asset is “part of or incidental to the incentivised business”. The e-Tax Guide clarifies that the determination of whether the disposal is part of the incentivised business should take place at the time of disposal. Practically, this could give rise to (at least) two issues. 
Firstly, the question of whether income from (and by extension, gains on disposal of) foreign assets is incidental to an incentivised business is sometimes an item of contention between taxpayers and the IRAS. The problem may be exacerbated if there is a significant time lapse between the time of disposal and receipt of the gains in Singapore as supporting documentation may be difficult to locate when the IRAS chall

In [7]:
text

'Gains derived by prescribed financial institutions and entities enjoying certain tax incentives are excluded from the scope of section 10L of the Act. However, this exclusion only applies to the extent that the disposal of the foreign asset is “part of or incidental to the incentivised business”. The e-Tax Guide clarifies that the determination of whether the disposal is part of the incentivised business should take place at the time of disposal. Practically, this could give rise to (at least) two issues. \nFirstly, the question of whether income from (and by extension, gains on disposal of) foreign assets is incidental to an incentivised business is sometimes an item of contention between taxpayers and the IRAS. The problem may be exacerbated if there is a significant time lapse between the time of disposal and receipt of the gains in Singapore as supporting documentation may be difficult to locate when the IRAS challenges the tax position taken. To address this, businesses contempla

In [8]:

messages = [
    {"role": "system", "content": TranslationTemplate.system_prompt},
    {"role": "user", "content": prompt},
]

# tokenizer.chat_template="{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|im_end|>' + '\n'}}{% endif %}{% endfor %}"

# tokenizer.chat_template="{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ system_message + '\n'}}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ content }}{% elif message['role'] == 'assistant' %}{{ content + '\\n' }}{% endif %}{% endfor %}"



template=tokenizer.apply_chat_template(
                                messages,
                                tokenize=False,
                            add_generation_prompt=True,
                                )

template=template.replace(tokenizer.bos_token,"")

template+="### Translation:\n"

# template=prompt+"### Target:\n"

# template+=f"<im_end>\n<im_start>assistant\n{TranslationTemplate.response_template}\n"

# template+=f"Assistant: \n{TranslationTemplate.response_template}\n"
# template+=f"Assistant:\n{TranslationTemplate.response_template}\n"
# template+=f"<|start_header_id|>assistant<|end_header_id|>\n\n{TranslationTemplate.response_template}\n"

print(template)

NameError: name 'tokenizer' is not defined

In [151]:
generation_results,selected_results=request_offline_inference(model,[text]*3,[template]*3,sampling_params)

Processed prompts: 100%|███████████████████████████████████████████████| 3/3 [00:11<00:00,  3.91s/it]


In [37]:
generation_results

NameError: name 'generation_results' is not defined

In [153]:
selected_results

['법 제10조 L항의 적용 범위에서 제외되는 금융기관 및 특정 세제 혜택을 받는 법인은 법 제10조 L항에서 정한 바에 따라 취득한 이익이 제외됩니다. 그러나 이러한 배제는 "인센티브 사업"의 일부 또는 부수적인 사항으로 외국 자산을 처분하는 경우에만 해당합니다. 전자 세금 안내서는 처분 시점에 처분된 것이 인센티브 사업의 일부인지 여부가 결정되어야 한다고 명확히 밝히고 있습니다. 실제로는 이 때문에 (최소한) 두 가지 문제가 발생할 수 있습니다. \n첫째, 외국 자산으로부터 발생하는 소득(처분 시에 발생하는 수익까지 확장하여)이 인센티브 사업에 부수적인 것인지 여부는 때때로 납세자와 국세청 간에 쟁점이 되는 사안입니다. 만약 싱가포르에서 수익을 수령할 때까지 처분 시점과 시간이 많이 지체된다면, 국세청이 세무 처분을 문제 삼을 때 증빙 서류를 찾기 어려울 수 있기 때문에 문제가 더 악화될 수 있습니다. 이를 해결하기 위해 외국 자산을 매각하려는 기업은 국세청으로부터 사전 확신을 얻어 그 기업의 외국 자산 처분 시 발생하는 수익과 이에 따른 모든 소득이 인센티브에 포함된다는 데 동의할 수 있습니다.',
 '법률 제10조 L항의 적용 범위에서 제외되는 금융기관 및 특정 세제 혜택을 받는 법인은 다음과 같습니다. 그러나 이러한 배제 규정은 "인센티브 사업"의 일부 또는 부수적인 사항으로 외국 자산을 처분하는 경우에만 해당합니다. 전자 세금 안내서는 외국 자산의 처분이 인센티브 사업의 일부인지 여부는 처분 시점에 결정되어야 한다고 명확히 밝히고 있습니다. 실제로는 다음과 같은 두 가지 문제가 발생할 수 있습니다. \n첫째, 외국 자산으로부터 발생하는 소득(처분 이익 포함)이 인센티브 사업에 부수적인 것인지 여부에 대한 논란이 종종 납세자와 국세청 간에 쟁점이 되는 경우가 있습니다. 만약 싱가포르에서 이익을 수령할 때까지 처분 시점과 시간이 많이 지체된다면, 증빙 서류를 찾기가 어려워질 수 있으므로 문제가 더 심각해질 수 있습니다. 이를 해결하기 위해 외국 자산 매

In [128]:
aa=select_by_length([text]*3,result)

In [73]:
result[0].outputs

[CompletionOutput(index=2, text='법률 제10조 L항의 적용 범위에서 제외되는 것은 지정 금융기관 및 특정 세제 혜택을 누리는 법인이 얻는 수익이다. 그러나 이러한 배제 규정은 "인센티브를 받은 사업"의 일부 또는 부수적인 것으로서 외국 자산의 처분이 이루어지는 한도에서만 적용된다. 전자 세금 안내서는 처분 시점에 해당 처분이 인센티브를 받은 사업의 일부인지 여부를 결정해야 한다고 명확히 밝히고 있다. 실제로 이는 (최소한) 두 가지 문제를 야기할 수 있다. \n첫째, 외국 자산으로부터 발생하는 소득(처분 시에 발생하는 이익 포함)이 인센티브를 받은 사업에 부수적인 것인지 여부는 때때로 납세자와 국세청 간 쟁점 사항이 될 수 있다. 만약 싱가포르에서 이익을 수령하는 시점과 처분 시점 사이에 상당한 시간이 경과한다면 문제가 더욱 악화될 수 있는데, 이 경우 국세청이 세무 상황을 문제 삼을 때 증빙 서류를 찾기 어려울 수 있기 때문이다. 이를 해결하기 위해 외국 자산을 처분하려는 기업은 처분 시점에서 발생하는 모든 이익과 그로부터 발생하는 모든 소득이 인센티브에 포함된다는 점을 국세청으로부터 사전 확신을 얻을 수 있도록 고려할 수 있다.', token_ids=[76972, 77293, 64028, 78, 77, 76845, 750, 77123, 63223, 65383, 64455, 70471, 66433, 64308, 64862, 66574, 65034, 65054, 64352, 67782, 74994, 69313, 64197, 64253, 64223, 64381, 65375, 62874, 66553, 64040, 98, 65656, 69232, 71183, 64489, 65028, 1529, 76815, 76288, 63199, 65392, 64432, 59592, 63223, 65083, 65530, 64036, 63560, 64199, 64297, 63559, 65171, 67443, 63223, 64196, 65461, 70365,

In [74]:
print(result[0].outputs[0].text)

법률 제10조 L항의 적용 범위에서 제외되는 것은 지정 금융기관 및 특정 세제 혜택을 누리는 법인이 얻는 수익이다. 그러나 이러한 배제 규정은 "인센티브를 받은 사업"의 일부 또는 부수적인 것으로서 외국 자산의 처분이 이루어지는 한도에서만 적용된다. 전자 세금 안내서는 처분 시점에 해당 처분이 인센티브를 받은 사업의 일부인지 여부를 결정해야 한다고 명확히 밝히고 있다. 실제로 이는 (최소한) 두 가지 문제를 야기할 수 있다. 
첫째, 외국 자산으로부터 발생하는 소득(처분 시에 발생하는 이익 포함)이 인센티브를 받은 사업에 부수적인 것인지 여부는 때때로 납세자와 국세청 간 쟁점 사항이 될 수 있다. 만약 싱가포르에서 이익을 수령하는 시점과 처분 시점 사이에 상당한 시간이 경과한다면 문제가 더욱 악화될 수 있는데, 이 경우 국세청이 세무 상황을 문제 삼을 때 증빙 서류를 찾기 어려울 수 있기 때문이다. 이를 해결하기 위해 외국 자산을 처분하려는 기업은 처분 시점에서 발생하는 모든 이익과 그로부터 발생하는 모든 소득이 인센티브에 포함된다는 점을 국세청으로부터 사전 확신을 얻을 수 있도록 고려할 수 있다.


In [75]:
print(result[1].outputs[0].text)

법률 제10조 L항의 적용 범위에서 제외되는 금융기관 및 특정 세제 혜택을 받는 법인은 수익이 발생하지 않습니다. 그러나 이러한 배제는 "인센티브를 받은 사업"의 일부 또는 부수적인 사항으로 외국 자산을 처분하는 경우에만 해당됩니다. 전자 세금 안내서는 처분 시점에서 처분된 것이 인센티브를 받은 사업의 일부인지 여부를 결정해야 한다고 명확히 밝히고 있습니다. 실제로는 이 때문에 (최소한) 두 가지 문제가 발생할 수 있습니다. 
첫째, 외국 자산으로부터 발생하는 소득(처분 이익 포함)이 인센티브를 받은 사업에 부수적인 것인지 여부가 때로는 납세자와 국세청 간에 쟁점이 되는 경우가 있습니다. 만약 처분 시점과 싱가포르에서 이익을 수령한 시점 사이에 상당한 시간 차이가 있다면, 국세청이 세무 처분을 문제 삼을 때 지원 서류를 찾기 어려울 수 있으므로 문제가 악화될 수 있습니다. 이를 해결하기 위해 외국 자산을 매각하려는 기업은 국세청으로부터 사전 확신을 얻어 그 외국 자산의 처분 이익 및 이에 따른 모든 소득이 인센티브에 포함된다는 것을 동의할 수 있습니다.


In [67]:
print(result[2].outputs[0].text)

법 제10


In [10]:
class LLMTranslator():
    def __init__(self,
                translation_template_w_glossary:str,
                translation_template_wo_glossary:str,
                glossary_template:str,
                sentence_template:str,
                response_template:str,
                system_prompt:str=None,
                chat_template:str=None,
                llm_host:Optional[str]=None, 
                llm_port:Optional[str]=None, 
                llm_path:Optional[str]=None,
                api_mode:Literal["offline","online"]="offline",
                **vllm_kwargs,
                ):

        self.llm_host=llm_host
        self.llm_port=llm_port
        self.llm_path=llm_path
        self.api_url=f"http://{self.llm_host}:{self.llm_port}/v1"
        self.api_mode=api_mode
        self.translation_template_w_glossary=translation_template_w_glossary
        self.translation_template_wo_glossary=translation_template_wo_glossary
        self.glossary_template=glossary_template
        self.sentence_template=sentence_template
        self.response_template=response_template
        self.system_prompt=system_prompt
        self.lang_dict={"ko":"Korean","korean":"Korean","kor":"Korean","en":"English","english":"English","eng":"English"}


        if api_mode=="online":
            self.client=OpenAI(api_key = "EMPTY",base_url=self.api_url)
            self.tokenizer=AutoTokenizer.from_pretrained(self.llm_path,local_files_only=True)
        elif api_mode=="offline":
            self.model=LLM(self.llm_path,**vllm_kwargs)
            self.tokenizer=self.model.get_tokenizer()

        if chat_template is not None:
            self.tokenizer.chat_template=chat_template
        

    def formatting_prompt(self,src_lang:str,tgt_lang:str, src_text:str, term_dict):
        
        def formatting_glossary(term_dict,glossary_template):

            if len(term_dict):
                glossary = [f"{k}={v}" for k, v in term_dict.items()]
                glossary_str = "\n".join(glossary)
                glossary_str = f"{glossary_template}\n{glossary_str}".strip()

                return glossary_str
            return ""

        glossary_str = formatting_glossary(term_dict, self.glossary_template)

        if len(glossary_str):
            formatted_text = f"{glossary_str}\n{self.sentence_template}\n{src_text}"
            return self.translation_template_w_glossary.format(src_lang, tgt_lang, formatted_text)
        else:
            formatted_text = f"{self.sentence_template}\n{src_text}"
            return self.translation_template_wo_glossary.format(src_lang, tgt_lang, formatted_text)

    def select_by_length(self,input_texts: list[str], generation_results: list[list]) -> list[str]:
        '''
        Filters the results to find the output whose length is closest
        to that of the input text.
    
        param input_text: The original text input by the user.
        param generation_results: The results generated by the LLM.
        return: A list of outputs, one for each batch, that are closest in length to the input text.
        '''
        final_outputs = []
    
        # Iterate through each batch of generation results.
        for text, batch in zip(input_texts, generation_results):
            if type(batch)==RequestOutput:
                # in case of offline inference
                batch=batch.outputs
            input_length = len(text)
            closest_output = min(batch, key=lambda output: abs(
                len(output.text.strip()) - input_length))
            final_outputs.append(closest_output.text.strip())
    
        return final_outputs

    def get_batch_response(self, response, n: int = 1) -> list[list[str]]:
        # data=json.loads(response.content)
        choices = response.choices
        return [choices[i:i + n] for i in range(0, len(choices), n)]

    def request_api(self, original_text, prompt, sampling_params=None):

        request_payload = {
            "model": self.llm_path,
            "prompt": prompt,
        }

        if sampling_params is not None:
            request_payload.update(sampling_params)

        generation_result = self.client.completions.create(**request_payload)
        generation_result = self.get_batch_response(
            generation_result, n=request_payload["n"])

        if type(original_text) == str:
            original_text = [original_text]
        selected_results = self.select_by_length(
            original_text, generation_result)

        return generation_result, selected_results

    def request_offline_inference(self,
                                original_text=Union[str,list[str]],
                                prompt=Union[str,list[str]], 
                                sampling_params=Optional[Union[SamplingParams,list[SamplingParams]]]):
        
        generation_result=self.model.generate(prompt,sampling_params)
        selected_results=self.select_by_length(original_text,generation_result)
        
        return generation_result,selected_results
        

    def translate(self, src_lang:str, text:list[str], term_dicts:list[dict],sampling_params={
                                                "n": 1,
                                                "best_of":1,
                                                "temperature": 0.1,
                                                "max_tokens":2048,
                                                "repetition_penalty":1.07,
                                                "stop":["\n\n\n\n\n","###","### Translation","### Source","### Glossary","### Target"]}):
        src_lang = self.lang_dict[src_lang]
        tgt_lang = "English" if src_lang == "Korean" else "Korean"
        prompts=[]
        request_token_len=[]

        for src_text,term_dict in zip(text,term_dicts):
            
            request_token_len.append(int(len(src_text)*0.8)+10)
            formatted_text=self.formatting_prompt(src_lang,tgt_lang,src_text,term_dict)
        
            messages=[{"role": "user", "content": formatted_text}]
            if self.system_prompt is not None and len(self.system_prompt):
                messages.insert(0,{"role": "system", "content": self.system_prompt})
            template=self.tokenizer.apply_chat_template(
                                            messages,
                                            tokenize=False,
                                            add_generation_prompt=True,
                                            )+self.response_template


            prompts.append(template)

        print("check : ",prompts[0])

        if self.api_mode=="online":
            return self.request_api(text,prompts,sampling_params)
        elif self.api_mode=="offline":
            sampling_params_list=[]
            for t in request_token_len:
                new_sampling_params=dict(sampling_params)
                new_sampling_params["max_tokens"]=t
                sampling_params_list.append(SamplingParams(**new_sampling_params))
                        
            return self.request_offline_inference(text,prompts,sampling_params_list)

In [11]:
llm=LLMTranslator(llm_path='/nvme0/models/yi-ko-34b-stage2-sharegpt8k-even-data1.1k',
                  translation_template_wo_glossary=TranslationTemplate.translation_template_wo_glossary,
                  translation_template_w_glossary=TranslationTemplate.translation_template_w_glossary,
                  sentence_template=TranslationTemplate.sentence_template,
                  glossary_template=TranslationTemplate.glossary_template,
                  system_prompt=TranslationTemplate.system_prompt,
                  response_template=TranslationTemplate.response_template,
                  dtype="bfloat16",
                  max_num_seqs=128,
                 )

INFO 05-30 14:54:24 llm_engine.py:100] Initializing an LLM engine (v0.4.2) with config: model='/nvme0/models/yi-ko-34b-stage2-sharegpt8k-even-data1.1k', speculative_config=None, tokenizer='/nvme0/models/yi-ko-34b-stage2-sharegpt8k-even-data1.1k', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.bfloat16, max_seq_len=2048, download_dir=None, load_format=LoadFormat.AUTO, tensor_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=False, kv_cache_dtype=auto, quantization_param_path=None, device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='outlines'), seed=0, served_model_name=/nvme0/models/yi-ko-34b-stage2-sharegpt8k-even-data1.1k)


Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


INFO 05-30 14:54:24 utils.py:660] Found nccl from library /root/.config/vllm/nccl/cu12/libnccl.so.2.18.1
INFO 05-30 14:54:24 selector.py:27] Using FlashAttention-2 backend.
INFO 05-30 14:54:31 model_runner.py:175] Loading model weights took 64.4411 GB
INFO 05-30 14:54:32 gpu_executor.py:114] # GPU blocks: 1604, # CPU blocks: 1092
INFO 05-30 14:54:34 model_runner.py:937] Capturing the model for CUDA graphs. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI.
INFO 05-30 14:54:34 model_runner.py:941] CUDA graphs can take additional 1~3 GiB memory per GPU. If you are running out of memory, consider decreasing `gpu_memory_utilization` or enforcing eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.
INFO 05-30 14:54:37 model_runner.py:1017] Graph capturing finished in 3 secs.


In [20]:
result=llm.translate(src_lang="ko",text=['''연결 부당행위 계산부인이 적용되기 위해서는 연결 전후 연결대상법인들의 과세표준에 차이가 있어야 합니다.''']*3,term_dicts=[{}]*3)

check :  You are a professional translator.
Translate the following Korean source text into English.
### Source:
연결 부당행위 계산부인이 적용되기 위해서는 연결 전후 연결대상법인들의 과세표준에 차이가 있어야 합니다.
### Target:


Processed prompts: 100%|███████████████████████████████████████████████| 3/3 [00:01<00:00,  1.87it/s]


In [21]:
result[1]

['In order for the connected party transaction adjustment to apply, there must be a difference in the tax base of the connected parties before and after the connection.',
 'In order for the connected party transaction adjustment to apply, there must be a difference in the tax base of the connected parties before and after the connection.',
 'In order for the connected party transaction adjustment to apply, there must be a difference in the taxable income of the connected parties before and after the connection.']

In [49]:
sampling_params={
                                                "n": 1,
                                                "best_of":1,
                                                "temperature": 0.1,
                                                "max_tokens":2048,
                                                "repetition_penalty":1.07,
                                                "stop":["\n\n\n\n\n","###","### Translation:","## Source:","### Glossary:"]}

In [13]:
sampling_params["max_tokens"]=4

In [50]:
sampling_params.update({"max_tokens":16})

In [51]:
sampling_params

{'n': 1,
 'best_of': 1,
 'temperature': 0.1,
 'max_tokens': 16,
 'repetition_penalty': 1.07,
 'stop': ['\n\n\n\n\n',
  '###',
  '### Translation:',
  '## Source:',
  '### Glossary:']}

In [15]:
from random import shuffle

In [16]:
a=[1,2,3,4]

In [17]:
shuffle(a)

In [18]:
a

[1, 3, 4, 2]