## Document classification (DOC CLS)
nmsc datasets


In [1]:
from transformers import pipeline
model_ckpt = "chunwoolee0/my_doccls_korean_model"
classifier = pipeline("sentiment-analysis",model=model_ckpt)

A matching Triton is not available, some optimizations will not be enabled.
Error caught was: No module named 'triton'


In [2]:
text = "왕 짜증난다."
classifier(text)

[{'label': 'negative', 'score': 0.991716206073761}]

In [3]:
text = '그런대로 무난하다'
classifier(text)

[{'label': 'negative', 'score': 0.5668720602989197}]

In [4]:
text = '잘 만들어졌다'
classifier(text)

[{'label': 'positive', 'score': 0.9369205832481384}]

### KLUE/NER Named Entity Recognition
KLUE/NER datasets

In [5]:
model_ckpt = "chunwoolee0/klue_ner_roberta_model"
token_classifier = pipeline(
    "token-classification",model=model_ckpt,aggregation_strategy="simple"
)

In [6]:
token_classifier("그 제품 삼성 건가요?")

[{'entity_group': 'OG',
  'score': 0.99406624,
  'word': '삼성',
  'start': 5,
  'end': 7}]

In [7]:
token_classifier("한국, 11년만에 유엔 안보리 비상임이사국 재진입")

[{'entity_group': 'LC',
  'score': 0.7193408,
  'word': '한국',
  'start': 0,
  'end': 2},
 {'entity_group': 'DT',
  'score': 0.99358654,
  'word': '11년',
  'start': 4,
  'end': 7},
 {'entity_group': 'OG',
  'score': 0.9899345,
  'word': '유엔',
  'start': 10,
  'end': 12},
 {'entity_group': 'OG',
  'score': 0.93576443,
  'word': '안보리',
  'start': 13,
  'end': 16}]

In [8]:
token_classifier("류더인 대만 TSMC 회장도 현지 콘퍼런스에서 “받아들일 수 없는 일부 조건이 있다”고 언급한 바 있다.")

[{'entity_group': 'PS',
  'score': 0.99813867,
  'word': '류더인',
  'start': 0,
  'end': 3},
 {'entity_group': 'OG',
  'score': 0.7399859,
  'word': '대만',
  'start': 4,
  'end': 6},
 {'entity_group': 'OG',
  'score': 0.9961631,
  'word': 'TSMC',
  'start': 7,
  'end': 11}]

### KLUE/YNAT Subject Classification

In [9]:
model_checkpoint = "chunwoolee0/klue_ynat_roberta_base_model"
classifier = pipeline("text-classification",model=model_checkpoint,
                      return_all_scores=True)



In [10]:
title = "항응고제 성분 코로나19에 효과…세포실험서 확인"
classifier(title)

[[{'label': 'IT과학', 'score': 0.9807253479957581},
  {'label': '경제', 'score': 0.0025139665231108665},
  {'label': '사회', 'score': 0.0065391287207603455},
  {'label': '생활문화', 'score': 0.00149971479550004},
  {'label': '세계', 'score': 0.004847498144954443},
  {'label': '스포츠', 'score': 0.0024945028126239777},
  {'label': '정치', 'score': 0.0013798086438328028}]]

In [11]:
title = "뮤지컬 영웅 합류한 안재욱 정성화와 다른 안중근 보여줄것"
classifier(title)

[[{'label': 'IT과학', 'score': 0.0007026148377917707},
  {'label': '경제', 'score': 0.0017282568151131272},
  {'label': '사회', 'score': 0.003673239378258586},
  {'label': '생활문화', 'score': 0.9890350699424744},
  {'label': '세계', 'score': 0.0017089156899601221},
  {'label': '스포츠', 'score': 0.0022249321918934584},
  {'label': '정치', 'score': 0.0009269161964766681}]]

In [12]:
title = "MBN 노조 부동산 물적분할 중단하고 소유경영 분리해야"
classifier(title)

[[{'label': 'IT과학', 'score': 0.002564449794590473},
  {'label': '경제', 'score': 0.04233933985233307},
  {'label': '사회', 'score': 0.9437140226364136},
  {'label': '생활문화', 'score': 0.003957194276154041},
  {'label': '세계', 'score': 0.0020921467803418636},
  {'label': '스포츠', 'score': 0.0013872859999537468},
  {'label': '정치', 'score': 0.003945556003600359}]]

### KLUE/NLI  Natural Language Inference
Similarity relation between two sentences.
Entailment, contraction, neutral

In [19]:
from transformers import pipeline
model_checkpoint = "chunwoolee0/klue_nli_roberta_base_model"
classifier = pipeline("text-classification",model=model_checkpoint,return_all_scores=True)

In [20]:
premise="나는 오늘 공원에서 친구를 만났다"
hypothesis = "나는 오늘 학교에 갔다"
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.0007746085175313056},
  {'label': 'neutral', 'score': 0.7450382709503174},
  {'label': 'contradiction', 'score': 0.25418704748153687}]]

In [21]:
premise="100분간 잘껄 그래도 소닉붐땜에 2점준다"
hypothesis = "100분간 잤다.	"
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.0007672435604035854},
  {'label': 'neutral', 'score': 0.0002904852444771677},
  {'label': 'contradiction', 'score': 0.9989423155784607}]]

In [22]:
premise="100분간 잘껄 그래도 소닉붐땜에 2점준다"
hypothesis = "소닉붐이 정말 멋있었다.	"
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.0006482962053269148},
  {'label': 'neutral', 'score': 0.9990056157112122},
  {'label': 'contradiction', 'score': 0.0003460997249931097}]]

In [23]:
premise="힛걸 진심 최고다 그 어떤 히어로보다 멋지다"
hypothesis = "힛걸 진심 최고로 멋지다.	"
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.9980097413063049},
  {'label': 'neutral', 'score': 0.0015507685020565987},
  {'label': 'contradiction', 'score': 0.00043947319500148296}]]

In [24]:
premise="10분내외 주변에 마트가 3곳이 있습니다."
hypothesis = "가까이에 마트가 있습니다."
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.9983177185058594},
  {'label': 'neutral', 'score': 0.0011992745567113161},
  {'label': 'contradiction', 'score': 0.00048302908544428647}]]

In [25]:
premise="10살 소년 우주는 어느 날 집 대청소를 하던 중 천재 과학자인 할아버지, 용이 남긴 물건을 발견한다."
hypothesis = "우주는 천재 과학자 용의 손녀이다."
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.0009692633175291121},
  {'label': 'neutral', 'score': 0.0009046163759194314},
  {'label': 'contradiction', 'score': 0.9981260895729065}]]

In [26]:
premise="10살 소년 우주는 어느 날 집 대청소를 하던 중 천재 과학자인 할아버지, 용이 남긴 물건을 발견한다."
hypothesis = "우주의 할아버지 용은 천재 과학자이다."
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.9984384179115295},
  {'label': 'neutral', 'score': 0.000982145662419498},
  {'label': 'contradiction', 'score': 0.0005794004537165165}]]

### Translation
From english to korean

In [6]:
from transformers import pipeline

translator = pipeline("translation", model="chunwoolee0/circulus-kobart-en-to-ko")
translator("This course is produced by Hugging Face.")

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
Your input_length: 25 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


[{'translation_text': '이 코스는 Hugging Face에서 제작합니다. @ info'}]

In [7]:
translator("I ate the breakfast.")

[{'translation_text': '아침을 먹었습니다. @ info: whatsthis '}]

In [8]:
translator("2, 4, 6 etc. are even numbers.")

Your input_length: 19 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


[{'translation_text': '* 4, 6 등은 짝수입니다. Name of the user, '}]

In [9]:
translator("we will add comprehensive communications and the ability to conduct your entire financial world")

Your input_length: 51 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


[{'translation_text': '금융 세계에 종합적인 통신과 업무를 수행할 수 있는 기능을 추가할 것입니다N'}]

In [10]:
translator("As we can see, using the English tokenizer to preprocess a French sentence results in a lot more tokens, since the tokenizer doesn’t know any French words")

Your input_length: 88 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


[{'translation_text': '알 수 있듯이 영어 토큰나이저를 사용하여 프랑스어 문장을 처리하면'}]

In [11]:
translator("the last step is to define the preprocessing function we will apply on the datasets")

Your input_length: 42 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


[{'translation_text': '마지막 단계는 데이터셋에 적용할 전처리 함수를 정의하는 것입니다Nam'}]

### Fill mask

In [13]:
from transformers import pipeline

unmasker = pipeline("fill-mask", model="klue/bert-base")
unmasker("대한민국의 수도는 [MASK] 이다.")

Some weights of the model checkpoint at klue/bert-base were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'score': 0.5954664945602417,
  'token': 3671,
  'token_str': '서울',
  'sequence': '대한민국의 수도는 서울 이다.'},
 {'score': 0.08106383681297302,
  'token': 9474,
  'token_str': '광화문',
  'sequence': '대한민국의 수도는 광화문 이다.'},
 {'score': 0.04720234498381615,
  'token': 7141,
  'token_str': '평양',
  'sequence': '대한민국의 수도는 평양 이다.'},
 {'score': 0.02944554202258587,
  'token': 3902,
  'token_str': '부산',
  'sequence': '대한민국의 수도는 부산 이다.'},
 {'score': 0.02646556682884693,
  'token': 4068,
  'token_str': '인천',
  'sequence': '대한민국의 수도는 인천 이다.'}]

In [14]:
unmasker("대한민국의 대통령은 [MASK] 이다.", top_k=2)

[{'score': 0.27408918738365173,
  'token': 5573,
  'token_str': '문재인',
  'sequence': '대한민국의 대통령은 문재인 이다.'},
 {'score': 0.13360512256622314,
  'token': 4655,
  'token_str': '박근혜',
  'sequence': '대한민국의 대통령은 박근혜 이다.'}]

In [15]:
unmasker("한국인의 평균수명은 [MASK] 이다.", top_k=2)

[{'score': 0.03400537371635437,
  'token': 3956,
  'token_str': '50',
  'sequence': '한국인의 평균수명은 50 이다.'},
 {'score': 0.03295913711190224,
  'token': 1,
  'token_str': '[UNK]',
  'sequence': '한국인의 평균수명은 이다.'}]

위의 klue/bert-base에 의한 한국인의 평균수명에 대해 좋지 않은 결과를 얻었다.
다른 모델을 사용하자.

In [16]:
unmasker = pipeline("fill-mask", model="klue/roberta-base")
unmasker("한국인의 평균수명은 [MASK] 이다.", top_k=2)

[{'score': 0.1217661052942276,
  'token': 4684,
  'token_str': '80',
  'sequence': '한국인의 평균수명은 80 이다.'},
 {'score': 0.06582553684711456,
  'token': 4531,
  'token_str': '70',
  'sequence': '한국인의 평균수명은 70 이다.'}]

In [17]:
unmasker("대한민국의 대통령은 [MASK] 이다.", top_k=2)

[{'score': 0.6443958282470703,
  'token': 5573,
  'token_str': '문재인',
  'sequence': '대한민국의 대통령은 문재인 이다.'},
 {'score': 0.13501475751399994,
  'token': 4655,
  'token_str': '박근혜',
  'sequence': '대한민국의 대통령은 박근혜 이다.'}]

In [18]:
unmasker = pipeline("fill-mask", model="klue/roberta-base")
unmasker("한국의 제일 남쪽에 있는 섬의 이름은 [MASK] 이다.", top_k=2)

[{'score': 0.326753705739975,
  'token': 8499,
  'token_str': '독도',
  'sequence': '한국의 제일 남쪽에 있는 섬의 이름은 독도 이다.'},
 {'score': 0.07274088263511658,
  'token': 1,
  'token_str': '[PAD]',
  'sequence': '한국의 제일 남쪽에 있는 섬의 이름은 이다.'}]

위의 결과는 좋지 않다. fine-tuning 할 필요가 있어 보인다. 어떤 데이터를 쓸까?

In [24]:
unmasker = pipeline("fill-mask", model="klue/roberta-large")
unmasker("대한민국의 대통령은 [MASK] 이다.", top_k=2)

Downloading (…)lve/main/config.json:   0%|          | 0.00/547 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/1.35G [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/752k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/173 [00:00<?, ?B/s]

[{'score': 0.23150628805160522,
  'token': 5573,
  'token_str': '문재인',
  'sequence': '대한민국의 대통령은 문재인 이다.'},
 {'score': 0.06811545044183731,
  'token': 4655,
  'token_str': '박근혜',
  'sequence': '대한민국의 대통령은 박근혜 이다.'}]

In [25]:
unmasker("한국의 제일 남쪽에 있는 섬의 이름은 [MASK] 이다.", top_k=2)

[{'score': 0.3697897791862488,
  'token': 8499,
  'token_str': '독도',
  'sequence': '한국의 제일 남쪽에 있는 섬의 이름은 독도 이다.'},
 {'score': 0.19414247572422028,
  'token': 6530,
  'token_str': '제주도',
  'sequence': '한국의 제일 남쪽에 있는 섬의 이름은 제주도 이다.'}]

### Text generation

In [26]:
generator = pipeline("text-generation", model="skt/kogpt2-base-v2")
generator(
    "근육이 커지기 위해서는",
    max_length=128,
    num_return_sequences=1,
)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
A matching Triton is not available, some optimizations will not be enabled.
Error caught was: No module named 'triton'


[{'generated_text': '근육이 커지기 위해서는 수분 함량도 중요하다는 연구 결과가 나왔다.\n조윤선 서울대 보건대학원 교수가 서울대에 제출한 논문에 따르면 수면장애는 수면의 질을 결정하는 주요 척도 중 하나다.\n수면 상태에 따라 수면의 질이 달라지기 때문이다.\n수면의 질이 떨어지면 혈액 속 비타민D 수치가 줄어 수면의 질을 떨어뜨린다.\n조 교수는 “과거 연구에서는 수면 장애가 뇌의 신경세포에서 분비되는 것을 확인했지만 이번 연구는 뇌 내에서 생성되는 영양 의도가 뇌에 있음을 확인한 것”이라고 했다.\n영양 부족으로 수면 시간이 길어질 경우 뇌에 있는 에너지 대사량이 떨어지면서 영양 결핍상태가 될 수놀이의 발생이 많아질 수 있다.\n조 교수는 “미래에 생길 수'}]

In [27]:
generator(
    "피부의 조직이 괴사된다면",
    max_length=128,
    num_return_sequences=1,
)

[{'generated_text': '피부의 조직이 괴사된다면 염증성 장질환으로 나타날 수 있다.\n특히 장염은 급성 장폐색일 경우 사망에 이를 수 있으며, 특히 어린 자녀를 둔 부모에게서 더 큰 원인으로 지목된다.\n장폐색은 만성 염증성 장질환으로 진행속도가 빠르며 진행 속도가 빨라지면 사망률이 높아진다.\n따라서 증상이 발생한 환자일수록 조기 치료가 중요하다.\n하지만 치료시기를 놓치면 초기 치료가 어려워, 조기 발견에 실패할 수 있어 각별한 주의가 필요하다.\n또한 장막염 치료는 치료효과가 뛰어나지만 세균학적 염증반응이 있는 경우에는 약물 치료가 필요하다.\n실제로 장폐색을 발생시키는 주요 원인 중 하나인 포름알데하이드와 그 사이에 존재하는'}]

In [28]:
generator(
    "가장 좋은 건강법은",
    max_length=128,
    num_return_sequences=1,
)

[{'generated_text': '가장 좋은 건강법은 무엇일까?\n당뇨병 고혈압 당뇨 고혈압 당뇨병의 초기 증상으로는 우선 식이요법과 규칙적인 운동, 적당한 운동을 꼽을 수 있다.\n과거는 운동만 했다면 지금의 운동량은 거의 없고 근력과 척추, 골밀도까지 높여준다는 사실이 통설이지만, 최근에는 운동량이 점점 늘고 있으며 그에 따른 운동능력 향상도 괄목할만한 성과를 내고 있다.\n운동량이 증가함에 따라 당뇨병 치료 효과도 점점 높아지고 있다.\n현재 당뇨병 치료는 인슐린 내성을 유발하는 당뇨병 약물을 배제하는 방식으로 진행됐으나, 최근에는 인슐린을 선택적으로 파괴하지 않는 인슐린 내성을 유도한 인슐린을 선택적으로 전환하는 개량된 인슐린 치료법으로 치료 범위가 넓'}]

In [29]:
generator(
    "가장 좋은 한국어 문장 생성 언어 모델은",
    max_length=128,
    num_return_sequences=1,
)

[{'generated_text': "가장 좋은 한국어 문장 생성 언어 모델은 다음과사건의 의미구조를 나타낸 것으로써 언어, 행동, 기능, 행동 및 사회적 요소들, 사회성, 의미 그리고 심리학적 요소의 분포를 나타낸 것이다.\n이러한 한국어 표기는 언어 표기와는 상관없이 한국어 문장이 생성되고 배열됨을 시사한다.\n특히 '다문화 사회'와 '다문화 사회'를 비교해보면 다문화 사회에서의 국어 문법적 구조의 차이를 뚜렷하게 파악할 수 있는데, 이것은 이미 언어 표현 과정에서 언어의 형태 변화에 큰 영향을 미치지 않을 것으로 보인다.\n그리고 언어와 심리적 형태변동이 서로 밀접하게 연관되어 있기 때문에 언어의 형태 변동은 사회적 맥락, 사회적 맥락, 사회적 작용, 경제적 환경요소들이 서로 상호작용하는 관계를 이해하는 데 중요하다.\n그러나 언어"}]