In [1]:
from transformers import AutoTokenizer

def display_tokenized_text(text, tokenizer):
    text = text.encode("utf-8").decode("utf-8")

    # 주어진 텍스트를 토크나이징
    tokenized_input = tokenizer(text, return_tensors="pt")
    input_ids = tokenized_input["input_ids"][0].tolist()

    # 토큰 ID와 단어를 매칭하는 딕셔너리 생성
    id2word = {idx: tokenizer.decode([idx]) for idx in input_ids}
    
    # 매칭 결과 출력
    print("Original Text:", text)
    for idx, token_id in enumerate(input_ids):
        word = id2word[token_id]
        print(f"{idx}: '{word}'")
    print("="*10)

# 주어진 텍스트
texts = [
    "S) OU) corneal mineral deposit, vascularization 좌안 더 심함. (사진 저장 안됨)",
    "S) menace +/-,-, dazzle +,-, PLR +/-,- OD) 안구후방 출혈소견있어서 유리체 혼탁과 출혈로 망막확인 불가.",
    "S) OS) 2시 방향에 corneal opacity, vascularization STT 17/10 IOP 12/12  맥시트롤, tid  p) 2주 후 재진.    심초, 복초 결과 큰 문제 없음 심장초음파의 경우 6개월 후 재진(성장 후 재진)",
    "OD) 궤양부 9시 방향 아직 염색되고 3안검 내측면과 유착되었던 상피를 떨어뜨렸더니 lip 형태로 쭉 늘어남. 제거실시. - 렌즈의 핵이 각막유착된 것이 더 선명하게 보임.  - 시력없음.   P) 1주 후 재진."
]

# klue/roberta-large 토크나이저 불러오기
tokenizer_klue = AutoTokenizer.from_pretrained("klue/roberta-large")

# Microsoft/phi-2 토크나이저 불러오기
tokenizer_phi = AutoTokenizer.from_pretrained("microsoft/phi-2")

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [2]:
# 텍스트에 대해 함수 호출하여 결과 출력
for text in texts:
    display_tokenized_text(text, tokenizer_klue)

Original Text: S) OU) corneal mineral deposit, vascularization 좌안 더 심함. (사진 저장 안됨)
0: '[CLS]'
1: 'S'
2: ')'
3: 'O'
4: '##U'
5: ')'
6: 'co'
7: '##r'
8: '##ne'
9: '##al'
10: 'min'
11: '##er'
12: '##al'
13: 'de'
14: '##p'
15: '##os'
16: '##it'
17: ','
18: 'v'
19: '##as'
20: '##c'
21: '##ular'
22: '##ization'
23: '좌'
24: '##안'
25: '더'
26: '심'
27: '##함'
28: '.'
29: '('
30: '사진'
31: '저장'
32: '안'
33: '##됨'
34: ')'
35: '[SEP]'
Original Text: S) menace +/-,-, dazzle +,-, PLR +/-,- OD) 안구후방 출혈소견있어서 유리체 혼탁과 출혈로 망막확인 불가.
0: '[CLS]'
1: 'S'
2: ')'
3: 'me'
4: '##n'
5: '##ace'
6: '+'
7: '/'
8: '-'
9: ','
10: '-'
11: ','
12: 'd'
13: '##az'
14: '##z'
15: '##le'
16: '+'
17: ','
18: '-'
19: ','
20: 'PL'
21: '##R'
22: '+'
23: '/'
24: '-'
25: ','
26: '-'
27: 'O'
28: '##D'
29: ')'
30: '안구'
31: '##후'
32: '##방'
33: '출혈'
34: '##소'
35: '##견'
36: '##있'
37: '##어'
38: '##서'
39: '유리'
40: '##체'
41: '혼탁'
42: '##과'
43: '출혈'
44: '##로'
45: '망막'
46: '##확'
47: '##인'
48: '불가'
49: '.'
50: '[SEP]'
Original Text: S) OS) 2시 방향에

In [3]:
# 텍스트에 대해 함수 호출하여 결과 출력
for text in texts:
    display_tokenized_text(text, tokenizer_phi)

Original Text: S) OU) corneal mineral deposit, vascularization 좌안 더 심함. (사진 저장 안됨)
0: 'S'
1: ')'
2: ' OU'
3: ')'
4: ' cor'
5: 'ne'
6: 'al'
7: ' mineral'
8: ' deposit'
9: ','
10: ' vascular'
11: 'ization'
12: ' �'
13: '�'
14: '�'
15: '�'
16: '�'
17: '�'
18: ' �'
19: '�'
20: '�'
21: ' �'
22: '�'
23: '�'
24: '�'
25: '�'
26: '.'
27: ' ('
28: '�'
29: '��'
30: '�'
31: '�'
32: '�'
33: ' �'
34: '�'
35: '�'
36: '�'
37: '�'
38: '�'
39: ' �'
40: '�'
41: '�'
42: '�'
43: '�'
44: '�'
45: ')'
Original Text: S) menace +/-,-, dazzle +,-, PLR +/-,- OD) 안구후방 출혈소견있어서 유리체 혼탁과 출혈로 망막확인 불가.
0: 'S'
1: ')'
2: ' menace'
3: ' +/-'
4: ',-'
5: ','
6: ' dazz'
7: 'le'
8: ' +'
9: ',-'
10: ','
11: ' PL'
12: 'R'
13: ' +/-'
14: ',-'
15: ' OD'
16: ')'
17: ' �'
18: '�'
19: '�'
20: '�'
21: '�'
22: '�'
23: '�'
24: '�'
25: '�'
26: '�'
27: '�'
28: '�'
29: ' �'
30: '�'
31: '�'
32: '�'
33: '�'
34: '�'
35: '�'
36: '�'
37: '�'
38: '�'
39: '�'
40: '�'
41: '�'
42: '�'
43: '�'
44: '�'
45: '�'
46: '�'
47: '�'
48: '�'
49: '�'
50: ' �'

In [4]:
# 토크나이저의 어휘 사전 확인
vocab = tokenizer_phi.vocab

vocab

{'ustomed': 22646,
 'Ġsweeping': 18404,
 'Ġjourneys': 35724,
 'ĠChic': 48854,
 'serv': 3168,
 'ĠLine': 6910,
 'Ġsimilarly': 12470,
 'Ġexhibitions': 48130,
 'Solar': 38825,
 'ĠRight': 6498,
 'damage': 28735,
 'Ġbathing': 39153,
 'ĠK': 509,
 'Ġenclosure': 30685,
 'ĠL': 406,
 'Ġ20': 1160,
 'football': 15914,
 'intensive': 38096,
 'Ġsailor': 43272,
 'GS': 14313,
 'Ġslay': 42596,
 'Ġreboot': 20149,
 'Ġfinding': 4917,
 'Ġprinc': 5144,
 'Ġcables': 18018,
 '178': 23188,
 'ĠWATCHED': 30134,
 'idine': 39422,
 'ĠAlternate': 42400,
 'NES': 37379,
 'Balt': 41312,
 'ĠER': 13793,
 'linux': 23289,
 'peg': 22071,
 'Ġsharper': 41415,
 'ĠFilipino': 35289,
 'Ġ432': 46393,
 'Ġgaps': 17332,
 'cible': 37369,
 'ĠAle': 9300,
 'Paul': 12041,
 'ĠFlying': 19903,
 'ĠSever': 26434,
 'Ġthorn': 38999,
 'ĠBlockchain': 29724,
 'shirts': 23231,
 'McC': 30464,
 'Ġfoundation': 8489,
 'ĠVia': 33356,
 'Master': 18254,
 'Ġhonour': 15393,
 '"[': 17912,
 'Stone': 34346,
 'ĠWaiting': 39669,
 'Ġdod': 20764,
 'kl': 41582,
 'ĠPear

In [5]:
# 토크나이저의 어휘 사전 확인
vocab = tokenizer_phi.get_vocab()

# 한글 유무 확인
contains_korean = any('가' <= char <= '힣' for char in vocab)
print("한글 포함 여부:", contains_korean)

한글 포함 여부: False


In [6]:
# klue/roberta-large 토큰 수 출력
num_tokens_klue = len(tokenizer_klue)
print("klue/roberta-large의 토큰 수:", num_tokens_klue)

# microsoft/phi-2 토큰 수 출력
num_tokens_orca_before = len(tokenizer_phi)
print("microsoft/phi-2의 토큰 수 (추가하기 전):", num_tokens_orca_before)

# klue/roberta-large의 토큰들을 가져와서 microsoft/phi-2 토크나이저에 추가하기
additional_tokens = list(set(tokenizer_klue.get_vocab().keys()) - set(tokenizer_phi.get_vocab().keys()))
tokenizer_phi.add_tokens(additional_tokens)

# 추가된 토큰 수 계산 및 출력
num_tokens_added = len(additional_tokens)
print("추가된 토큰 수:", num_tokens_added)

# 추가된 토큰을 포함한 microsoft/phi-2의 총 토큰 수 출력
num_tokens_orca_after = len(tokenizer_phi)
print("microsoft/phi-2의 토큰 수 (추가한 후):", num_tokens_orca_after)

klue/roberta-large의 토큰 수: 32000
microsoft/phi-2의 토큰 수 (추가하기 전): 50295
추가된 토큰 수: 30785
microsoft/phi-2의 토큰 수 (추가한 후): 81080


In [7]:
# 토크나이저의 어휘 사전 확인
vocab = tokenizer_phi.get_vocab()

# 한글 유무 확인
contains_korean = any('가' <= char <= '힣' for char in vocab)
print("한글 포함 여부:", contains_korean)

한글 포함 여부: True


In [8]:
tokenizer_orca = AutoTokenizer.from_pretrained("microsoft/Orca-2-13b", use_fast=False)

# 토크나이저의 어휘 사전 확인
vocab = tokenizer_orca.get_vocab()

# 한글 유무 확인
contains_korean = any('가' <= char <= '힣' for char in vocab)
print("한글 포함 여부:", contains_korean)

한글 포함 여부: True


In [9]:
# klue/roberta-large 토큰 수 출력
num_tokens_klue = len(tokenizer_klue)
print("klue/roberta-large의 토큰 수:", num_tokens_klue)

# microsoft/Orca-2-13b 토큰 수 출력
num_tokens_orca_before = len(tokenizer_orca)
print("microsoft/Orca-2-13b의 토큰 수 (추가하기 전):", num_tokens_orca_before)

# klue/roberta-large의 토큰들을 가져와서 microsoft/Orca-2-13b 토크나이저에 추가하기
additional_tokens = list(set(tokenizer_klue.get_vocab().keys()) - set(tokenizer_orca.get_vocab().keys()))
tokenizer_orca.add_tokens(additional_tokens)

# 추가된 토큰 수 계산 및 출력
num_tokens_added = len(additional_tokens)
print("추가된 토큰 수:", num_tokens_added)

# 추가된 토큰을 포함한 microsoft/Orca-2-13b의 총 토큰 수 출력
num_tokens_orca_after = len(tokenizer_orca)
print("microsoft/Orca-2-13b의 토큰 수 (추가한 후):", num_tokens_orca_after)

klue/roberta-large의 토큰 수: 32000
microsoft/Orca-2-13b의 토큰 수 (추가하기 전): 32003
추가된 토큰 수: 30903
microsoft/Orca-2-13b의 토큰 수 (추가한 후): 62906


In [10]:
# 토크나이저의 어휘 사전 확인
vocab = tokenizer_orca.get_vocab()

# 한글 유무 확인
contains_korean = any('가' <= char <= '힣' for char in vocab)
print("한글 포함 여부:", contains_korean)

한글 포함 여부: True


In [11]:
from transformers import AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("facebook/nllb-200-3.3B", src_lang="eng_Latn")
model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-3.3B")

def translate_english_to_korean(text):
    inputs = tokenizer(text, return_tensors="pt")
    translated_tokens = model.generate(
        **inputs, forced_bos_token_id=tokenizer.lang_code_to_id["kor_Hang"]
    )
    translated_text = tokenizer.batch_decode(translated_tokens.cpu(), skip_special_tokens=True)[0]
    return translated_text

def translate_by_chunks(text):
    words = text.split()

    translated_text = ''

    current_chunk = ''
    for word in words:
        if len(current_chunk) + len(word) + 1 <= 1024:
            if current_chunk:
                current_chunk += ' '
            current_chunk += word
        else:
            translated_chunk = translate_english_to_korean(current_chunk)
            translated_text += translated_chunk + ' '
            current_chunk = word

    if current_chunk:
        translated_chunk = translate_english_to_korean(current_chunk)
        translated_text += translated_chunk + ' '

    return translated_text.strip()

article = '''
What is a one-sentence summary of the following article? One of the first complaints presented to doctors by many people later diagnosed with Parkinson’s Disease is an involuntary tremor or shaking of the hands, fingers, arms, legs, jaw, and face. You’re most likely to notice this tremor when your hands are at rest rather than when you’re using them, although you may see more tremors while your hands and arms are in use as the disease progresses. There are many causes of tremors. Parkinson's Disease is one of the most common causes, and tremors are often the first sign of the disease. The tremor and other symptoms may initially appear only on one side of the body, or they may appear worse on one side than the other. A repetitive “pill-rolling" movement between the thumb and finger—named because it looks as though the person is rolling a pill between their fingers—is characteristic of a Parkinsonian tremor. Some symptoms of Parkinson's are caused by the larger symptom of slowed movements (also known as bradykinesia). This primarily affects motor functions from walking and balance to writing and even motor functions that are often considered reflexive or spontaneous. These slowed movements are a very common early sign of Parkinson’s, and may show up at the onset of the disease in 80% of patients. Some people might have a hard time describing what they are feeling and use words like “weakness,” “tiredness,” or “incoordination” when talking about these symptoms. Look for distortions in voluntary movements. In addition to involuntary movements, those with Parkinson’s may experience disturbances in their voluntary movements beyond just slowness. Some of the treatments used for Parkinson's disease may cause abnormal involuntary movements, or an increase in movement, referred to as dyskinesia. These distortions (dyskinesias) can be similar to a “tic” in appearance and worsen with psychological stress. Advanced dyskinesia is most often seen in patients who have been on the medication Levodopa for some time. A common symptom of Parkinson’s is a shuffling gait with short steps and a tendency to lean forward. People with Parkinson's often have difficulty with their balance, and there is sometimes a tendency to fall forward, causing the person to walk faster and faster to keep from falling over. This pattern is called a "festinating gait," and it is very common in Parkinson's disease. This symptom typically shows up in the later stages of the disease. Those with Parkinson’s Disease often lean forward at the waist when standing or walking. This is because Parkinson's can cause posture and balance problems, including rigidity. There is a tendency to flex the arms and the head so that the person appears bent over with the elbows flexed and the head down. Rigidity can affect the whole body, and might you feel stiff or sore. Check for postural rigidity. Also referred to as “cog-wheeling,” this symptom presents as a hallmark, rigid motion when an examiner moves the arm of a patient through basic flexion and extension motions. The rigidity and resistance to movement is most obvious with passive movement of the wrists and elbow. Cog-wheeling may happen when the increased muscle tone related to rigidity is combined with a tremor. Some cognitive impairment is common, but usually not until late in the course of the disease. Around 90% of those with PD will show signs of speech disturbances at some point. These can present as quieter speech, breathy or hoarse qualities to the voice, and reduced precision with language. The voice often becomes soft or whispery because the vocal muscles lack mobility. Up to 60% of those with PD may show signs or anxiety or depression. PD affects some of the mood-stabilizing portions of the brain, which leads to this increased chance for depression, especially paired with the quality of life for patients in late stages of the disease. The muscles used to push food through the digestive system are also affected by PD. This can lead to a variety of gastrointestinal issues from incontinence to constipation. These same symptoms often present along with difficulty swallowing food as well. Many of the involuntary movements associated with Parkinson’s make it increasingly difficult for those with the disease to get a full night of sleep. Other symptoms—such as muscle rigidity making it difficult to roll over at night or bladder issues leading to getting up at night to urinate frequently—compound the sleep disruptions experienced by those with PD. Summary:
'''

print(translate_by_chunks(article))

the `lang_code_to_id` attribute is deprecated. The logic is natively handled in the `tokenizer.adder_tokens_decoder` this attribute will be removed in `transformers` v4.38


다음 기사 의 한 문장 간 요약 은 무엇 입니까? 나중에 파킨슨병 진단을 받은 많은 사람 들 이 의사 들 에게 가장 먼저 제기 하는 불평 중 하나는 손, 손가락, 팔, 다리, 턱, 얼굴 의 무의적 인 떨림 이나 떨림 이다. 이 떨림은 손을 사용하는 것보다 쉬고 있는 상태에서 더 많이 볼 수 있습니다. 하지만 질병이 진행됨에 따라 손과 팔을 사용하는 동안 더 많은 떨림이 나타날 수 있습니다. 떨림의 원인은 여러 가지가 있습니다. 파킨슨병은 가장 흔한 원인 중 하나이며, 떨림은 종종 질병의 첫 징후입니다. 떨림 과 다른 증상 들 은 처음에는 몸 의 한쪽 에서만 나타나거나 다른 쪽 보다 한쪽 에서 더 심해 보일 수 있다. 엄지손가락과 손가락 사이의 반복적인 "약품 굴림"운동은 마치 사람이 손가락 사이에 약을 굴리는 것처럼 보이기 때문에 이름이 붙여진 파킨슨 경련의 특징입니다. 파킨슨병의 일부 증상은 느린 움직임의 더 큰 증상 (브라디키네시아라고도 알려져 있습니다.) 에 의해 발생합니다. 이것은 주로 걷기, 균형, 글쓰기 등 모터 기능에 영향을 미치며, 종종 반사적 또는 자발적이라고 여겨지는 모터 기능까지 영향을 미칩니다. 이러한 느린 움직임은 파킨슨병의 매우 흔한 초기 징후이며 환자의 80%에서 질병의 시작에 나타날 수 있습니다. 어떤 사람들은 자신이 느끼는 것을 묘사하는 데 어려움을 겪을 수 있으며 이러한 증상에 대해 이야기 할 때 "약함", "피로움", "조율 부족"과 같은 단어를 사용할 수 있습니다. 자발적인 움직임에 왜곡을 찾아보세요. 부적절한 움직임 외에도 파킨슨병 환자는 느린 움직임 이외에도 자발적인 움직임에 장애를 경험할 수 있습니다. 파킨슨병 치료제 중 일부는 비정상적인 무의 운동 또는 운동 증가, 즉 난동증을 유발할 수 있습니다. 이러한 왜곡 (디스키네시아) 는 외모에서 틱과 비슷할 수 있으며 심리적 스트레스로 악화 될 수 있습니다. 진행된 난동은 레보도파를 오랫동안 복용 한 환자에게 가장 자주 나타납니다. 파킨슨병의 흔한 증상은 짧은 걸음과 앞으로

In [13]:
from transformers import AutoTokenizer, AutoModelForCausalLM
from datasets import load_dataset

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b")
model = AutoModelForCausalLM.from_pretrained("google/gemma-2b", device_map="cuda")

dataset = load_dataset("nlpai-lab/databricks-dolly-15k-ko", split="train")


Downloading readme:   0%|          | 0.00/7.94k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/15.2M [00:00<?, ?B/s]

Generating train split: 0 examples [00:00, ? examples/s]

In [12]:
from datasets import load_dataset

dataset = load_dataset("Open-Orca/OpenOrca", split="train")
dataset

Dataset({
    features: ['id', 'system_prompt', 'question', 'response'],
    num_rows: 4233923
})

In [None]:
dataset = dataset[:5]
dataset

In [14]:
import pandas as pd

# Convert dataset to DataFrame
train_df = pd.DataFrame(dataset)

# Display DataFrame
display(train_df)

Unnamed: 0,id,system_prompt,question,response
0,niv.242684,,You will be given a definition of a task first...,"[\n [""AFC Ajax (amateurs)"", ""has ground"", ""Sp..."
1,flan.564327,You are an AI assistant. You will be given a t...,Generate an approximately fifteen-word sentenc...,Midsummer House is a moderately priced Chinese...
2,flan.1875913,"You are a helpful assistant, who always provid...",What happens next in this paragraph?\n\nShe th...,C. She then dips the needle in ink and using t...
3,t0.408370,You are an AI assistant. You will be given a t...,Please answer the following question: I want t...,"Based on the passage, discuss the primary moti..."
4,cot.86217,You are an AI assistant that helps people find...,James runs a TV show and there are 5 main char...,"James pays the minor characters $15,000 each e..."


In [15]:
train_df['question'] = [translate_by_chunks(question) for question in train_df['question']]
train_df['response'] = [translate_by_chunks(response) for response in train_df['response']]

display(train_df)

Unnamed: 0,id,system_prompt,question,response
0,niv.242684,,당신은 먼저 작업의 정의를 주어질 것입니다. 그 다음 작업의 입력. 이 작업은 지정...,[AFC 아약스 (아마추어) ] [AFC 아약스 (아마추어) ] [AFC 아약스 (...
1,flan.564327,You are an AI assistant. You will be given a t...,이 모든 데이터를 설명하는 약 15 단어 문장을 생성합니다: Midsummer Ho...,"미즈머 하우스는 3/5 고객 평가와 함께 저렴한 가격의 중국 레스토랑으로, 올 바 ..."
2,flan.1875913,"You are a helpful assistant, who always provid...","다음으로 무슨 일이 일어나는지? 그녀는 바닷발에 바늘을 긁어넣고, 그 다음 그녀는 ...","C 그 다음 에 바늘 을 잉크 로 담아 펜스로 다리에 그림 을 그릴 때, 끝 에 으..."
3,t0.408370,You are an AI assistant. You will be given a t...,다음 질문 에 답변 해 주십시오. 학생 들 이 한 구절 을 읽고 그 내용 에 관한 ...,이 구절을 바탕으로 1901년 호주 연방의 주요 동기 및 결과를 논의하고 연방 정부...
4,cot.86217,You are an AI assistant that helps people find...,제임스 TV 쇼를 운영하고 있고 5명의 주인공과 4명의 부역자가 있습니다. 그는 부...,"제임스가 부역들에게 각 에피소드마다 $15,000를 지불합니다. 4명의 소속 캐릭터..."


In [None]:
from transformers import AutoModelForCausalLM, Trainer, TrainingArguments
import torch

model = AutoModelForCausalLM.from_pretrained("microsoft/Orca-2-13b", device_map="auto", trust_remote_code=True)

def tokenize_data(df, tokenizer):
    tokenized_inputs = tokenizer(
        df["text"],
        padding="max_length",
        truncation=True,
        return_tensors="pt"
    )
    tokenized_data = {
        "input_ids": tokenized_inputs["input_ids"],
        "attention_mask": tokenized_inputs["attention_mask"],
        "labels": torch.tensor(df["label"])
    }
    return tokenized_data

train_df = tokenize_data.map(train_df, tokenizer_orca, batched=True)

training_args = TrainingArguments(
    output_dir="./results",
    overwrite_output_dir=True,
    num_train_epochs=3,
    per_device_train_batch_size=4,
    save_steps=1000,
    save_total_limit=2,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_df=train_df,
)

trainer.train()