## Document classification (DOC CLS)
nmsc datasets


In [1]:
from transformers import pipeline
model_ckpt = "chunwoolee0/my_doccls_korean_model"
classifier = pipeline("sentiment-analysis",model=model_ckpt)

A matching Triton is not available, some optimizations will not be enabled.
Error caught was: No module named 'triton'


In [2]:
text = "왕 짜증난다."
classifier(text)

[{'label': 'negative', 'score': 0.991716206073761}]

In [3]:
text = '그런대로 무난하다'
classifier(text)

[{'label': 'negative', 'score': 0.5668720602989197}]

In [4]:
text = '잘 만들어졌다'
classifier(text)

[{'label': 'positive', 'score': 0.9369205832481384}]

### KLUE/NER Named Entity Recognition
KLUE/NER datasets

In [5]:
model_ckpt = "chunwoolee0/klue_ner_roberta_model"
token_classifier = pipeline(
    "token-classification",model=model_ckpt,aggregation_strategy="simple"
)

In [6]:
token_classifier("그 제품 삼성 건가요?")

[{'entity_group': 'OG',
  'score': 0.99406624,
  'word': '삼성',
  'start': 5,
  'end': 7}]

In [7]:
token_classifier("한국, 11년만에 유엔 안보리 비상임이사국 재진입")

[{'entity_group': 'LC',
  'score': 0.7193408,
  'word': '한국',
  'start': 0,
  'end': 2},
 {'entity_group': 'DT',
  'score': 0.99358654,
  'word': '11년',
  'start': 4,
  'end': 7},
 {'entity_group': 'OG',
  'score': 0.9899345,
  'word': '유엔',
  'start': 10,
  'end': 12},
 {'entity_group': 'OG',
  'score': 0.93576443,
  'word': '안보리',
  'start': 13,
  'end': 16}]

In [8]:
token_classifier("류더인 대만 TSMC 회장도 현지 콘퍼런스에서 “받아들일 수 없는 일부 조건이 있다”고 언급한 바 있다.")

[{'entity_group': 'PS',
  'score': 0.99813867,
  'word': '류더인',
  'start': 0,
  'end': 3},
 {'entity_group': 'OG',
  'score': 0.7399859,
  'word': '대만',
  'start': 4,
  'end': 6},
 {'entity_group': 'OG',
  'score': 0.9961631,
  'word': 'TSMC',
  'start': 7,
  'end': 11}]

### KLUE/YNAT Subject Classification

In [9]:
model_checkpoint = "chunwoolee0/klue_ynat_roberta_base_model"
classifier = pipeline("text-classification",model=model_checkpoint,
                      return_all_scores=True)



In [10]:
title = "항응고제 성분 코로나19에 효과…세포실험서 확인"
classifier(title)

[[{'label': 'IT과학', 'score': 0.9807253479957581},
  {'label': '경제', 'score': 0.0025139665231108665},
  {'label': '사회', 'score': 0.0065391287207603455},
  {'label': '생활문화', 'score': 0.00149971479550004},
  {'label': '세계', 'score': 0.004847498144954443},
  {'label': '스포츠', 'score': 0.0024945028126239777},
  {'label': '정치', 'score': 0.0013798086438328028}]]

In [11]:
title = "뮤지컬 영웅 합류한 안재욱 정성화와 다른 안중근 보여줄것"
classifier(title)

[[{'label': 'IT과학', 'score': 0.0007026148377917707},
  {'label': '경제', 'score': 0.0017282568151131272},
  {'label': '사회', 'score': 0.003673239378258586},
  {'label': '생활문화', 'score': 0.9890350699424744},
  {'label': '세계', 'score': 0.0017089156899601221},
  {'label': '스포츠', 'score': 0.0022249321918934584},
  {'label': '정치', 'score': 0.0009269161964766681}]]

In [12]:
title = "MBN 노조 부동산 물적분할 중단하고 소유경영 분리해야"
classifier(title)

[[{'label': 'IT과학', 'score': 0.002564449794590473},
  {'label': '경제', 'score': 0.04233933985233307},
  {'label': '사회', 'score': 0.9437140226364136},
  {'label': '생활문화', 'score': 0.003957194276154041},
  {'label': '세계', 'score': 0.0020921467803418636},
  {'label': '스포츠', 'score': 0.0013872859999537468},
  {'label': '정치', 'score': 0.003945556003600359}]]

### KLUE/NLI  Natural Language Inference
Similarity relation between two sentences.
Entailment, contraction, neutral

In [19]:
from transformers import pipeline
model_checkpoint = "chunwoolee0/klue_nli_roberta_base_model"
classifier = pipeline("text-classification",model=model_checkpoint,return_all_scores=True)

In [20]:
premise="나는 오늘 공원에서 친구를 만났다"
hypothesis = "나는 오늘 학교에 갔다"
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.0007746085175313056},
  {'label': 'neutral', 'score': 0.7450382709503174},
  {'label': 'contradiction', 'score': 0.25418704748153687}]]

In [21]:
premise="100분간 잘껄 그래도 소닉붐땜에 2점준다"
hypothesis = "100분간 잤다.	"
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.0007672435604035854},
  {'label': 'neutral', 'score': 0.0002904852444771677},
  {'label': 'contradiction', 'score': 0.9989423155784607}]]

In [22]:
premise="100분간 잘껄 그래도 소닉붐땜에 2점준다"
hypothesis = "소닉붐이 정말 멋있었다.	"
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.0006482962053269148},
  {'label': 'neutral', 'score': 0.9990056157112122},
  {'label': 'contradiction', 'score': 0.0003460997249931097}]]

In [23]:
premise="힛걸 진심 최고다 그 어떤 히어로보다 멋지다"
hypothesis = "힛걸 진심 최고로 멋지다.	"
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.9980097413063049},
  {'label': 'neutral', 'score': 0.0015507685020565987},
  {'label': 'contradiction', 'score': 0.00043947319500148296}]]

In [24]:
premise="10분내외 주변에 마트가 3곳이 있습니다."
hypothesis = "가까이에 마트가 있습니다."
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.9983177185058594},
  {'label': 'neutral', 'score': 0.0011992745567113161},
  {'label': 'contradiction', 'score': 0.00048302908544428647}]]

In [25]:
premise="10살 소년 우주는 어느 날 집 대청소를 하던 중 천재 과학자인 할아버지, 용이 남긴 물건을 발견한다."
hypothesis = "우주는 천재 과학자 용의 손녀이다."
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.0009692633175291121},
  {'label': 'neutral', 'score': 0.0009046163759194314},
  {'label': 'contradiction', 'score': 0.9981260895729065}]]

In [26]:
premise="10살 소년 우주는 어느 날 집 대청소를 하던 중 천재 과학자인 할아버지, 용이 남긴 물건을 발견한다."
hypothesis = "우주의 할아버지 용은 천재 과학자이다."
classifier(" ".join([premise, hypothesis]), padding=True, truncation=True)

[[{'label': 'entailment', 'score': 0.9984384179115295},
  {'label': 'neutral', 'score': 0.000982145662419498},
  {'label': 'contradiction', 'score': 0.0005794004537165165}]]

### Translation
From english to korean

In [6]:
from transformers import pipeline

translator = pipeline("translation", model="chunwoolee0/circulus-kobart-en-to-ko")
translator("This course is produced by Hugging Face.")

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.
Your input_length: 25 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


[{'translation_text': '이 코스는 Hugging Face에서 제작합니다. @ info'}]

In [7]:
translator("I ate the breakfast.")

[{'translation_text': '아침을 먹었습니다. @ info: whatsthis '}]

In [8]:
translator("2, 4, 6 etc. are even numbers.")

Your input_length: 19 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


[{'translation_text': '* 4, 6 등은 짝수입니다. Name of the user, '}]

In [9]:
translator("we will add comprehensive communications and the ability to conduct your entire financial world")

Your input_length: 51 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


[{'translation_text': '금융 세계에 종합적인 통신과 업무를 수행할 수 있는 기능을 추가할 것입니다N'}]

In [10]:
translator("As we can see, using the English tokenizer to preprocess a French sentence results in a lot more tokens, since the tokenizer doesn’t know any French words")

Your input_length: 88 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


[{'translation_text': '알 수 있듯이 영어 토큰나이저를 사용하여 프랑스어 문장을 처리하면'}]

In [11]:
translator("the last step is to define the preprocessing function we will apply on the datasets")

Your input_length: 42 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


[{'translation_text': '마지막 단계는 데이터셋에 적용할 전처리 함수를 정의하는 것입니다Nam'}]

### Fill mask

In [13]:
from transformers import pipeline

unmasker = pipeline("fill-mask", model="klue/bert-base")
unmasker("대한민국의 수도는 [MASK] 이다.")

Some weights of the model checkpoint at klue/bert-base were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'score': 0.5954664945602417,
  'token': 3671,
  'token_str': '서울',
  'sequence': '대한민국의 수도는 서울 이다.'},
 {'score': 0.08106383681297302,
  'token': 9474,
  'token_str': '광화문',
  'sequence': '대한민국의 수도는 광화문 이다.'},
 {'score': 0.04720234498381615,
  'token': 7141,
  'token_str': '평양',
  'sequence': '대한민국의 수도는 평양 이다.'},
 {'score': 0.02944554202258587,
  'token': 3902,
  'token_str': '부산',
  'sequence': '대한민국의 수도는 부산 이다.'},
 {'score': 0.02646556682884693,
  'token': 4068,
  'token_str': '인천',
  'sequence': '대한민국의 수도는 인천 이다.'}]

In [14]:
unmasker("대한민국의 대통령은 [MASK] 이다.", top_k=2)

[{'score': 0.27408918738365173,
  'token': 5573,
  'token_str': '문재인',
  'sequence': '대한민국의 대통령은 문재인 이다.'},
 {'score': 0.13360512256622314,
  'token': 4655,
  'token_str': '박근혜',
  'sequence': '대한민국의 대통령은 박근혜 이다.'}]

In [15]:
unmasker("한국인의 평균수명은 [MASK] 이다.", top_k=2)

[{'score': 0.03400537371635437,
  'token': 3956,
  'token_str': '50',
  'sequence': '한국인의 평균수명은 50 이다.'},
 {'score': 0.03295913711190224,
  'token': 1,
  'token_str': '[UNK]',
  'sequence': '한국인의 평균수명은 이다.'}]

위의 klue/bert-base에 의한 한국인의 평균수명에 대해 좋지 않은 결과를 얻었다.
다른 모델을 사용하자.

In [16]:
unmasker = pipeline("fill-mask", model="klue/roberta-base")
unmasker("한국인의 평균수명은 [MASK] 이다.", top_k=2)

[{'score': 0.1217661052942276,
  'token': 4684,
  'token_str': '80',
  'sequence': '한국인의 평균수명은 80 이다.'},
 {'score': 0.06582553684711456,
  'token': 4531,
  'token_str': '70',
  'sequence': '한국인의 평균수명은 70 이다.'}]

In [17]:
unmasker("대한민국의 대통령은 [MASK] 이다.", top_k=2)

[{'score': 0.6443958282470703,
  'token': 5573,
  'token_str': '문재인',
  'sequence': '대한민국의 대통령은 문재인 이다.'},
 {'score': 0.13501475751399994,
  'token': 4655,
  'token_str': '박근혜',
  'sequence': '대한민국의 대통령은 박근혜 이다.'}]

In [18]:
unmasker = pipeline("fill-mask", model="klue/roberta-base")
unmasker("한국의 제일 남쪽에 있는 섬의 이름은 [MASK] 이다.", top_k=2)

[{'score': 0.326753705739975,
  'token': 8499,
  'token_str': '독도',
  'sequence': '한국의 제일 남쪽에 있는 섬의 이름은 독도 이다.'},
 {'score': 0.07274088263511658,
  'token': 1,
  'token_str': '[PAD]',
  'sequence': '한국의 제일 남쪽에 있는 섬의 이름은 이다.'}]

위의 결과는 좋지 않다. fine-tuning 할 필요가 있어 보인다. 어떤 데이터를 쓸까?

In [24]:
unmasker = pipeline("fill-mask", model="klue/roberta-large")
unmasker("대한민국의 대통령은 [MASK] 이다.", top_k=2)

Downloading (…)lve/main/config.json:   0%|          | 0.00/547 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/1.35G [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/752k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/173 [00:00<?, ?B/s]

[{'score': 0.23150628805160522,
  'token': 5573,
  'token_str': '문재인',
  'sequence': '대한민국의 대통령은 문재인 이다.'},
 {'score': 0.06811545044183731,
  'token': 4655,
  'token_str': '박근혜',
  'sequence': '대한민국의 대통령은 박근혜 이다.'}]

In [25]:
unmasker("한국의 제일 남쪽에 있는 섬의 이름은 [MASK] 이다.", top_k=2)

[{'score': 0.3697897791862488,
  'token': 8499,
  'token_str': '독도',
  'sequence': '한국의 제일 남쪽에 있는 섬의 이름은 독도 이다.'},
 {'score': 0.19414247572422028,
  'token': 6530,
  'token_str': '제주도',
  'sequence': '한국의 제일 남쪽에 있는 섬의 이름은 제주도 이다.'}]

In [1]:
from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="monologg/koelectra-base-v3-generator",
    tokenizer="monologg/koelectra-base-v3-generator"
)

print(fill_mask("나는 {} 밥을 먹었다.".format(fill_mask.tokenizer.mask_token)))

Downloading (…)lve/main/config.json:   0%|          | 0.00/463 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Downloading model.safetensors:   0%|          | 0.00/149M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/61.0 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/263k [00:00<?, ?B/s]

[{'score': 0.0937100425362587, 'token': 13195, 'token_str': '방금', 'sequence': '나는 방금 밥을 먹었다.'}, {'score': 0.04330400377511978, 'token': 15286, 'token_str': '이렇게', 'sequence': '나는 이렇게 밥을 먹었다.'}, {'score': 0.042322538793087006, 'token': 8108, 'token_str': '어제', 'sequence': '나는 어제 밥을 먹었다.'}, {'score': 0.03583364933729172, 'token': 6451, 'token_str': '오늘', 'sequence': '나는 오늘 밥을 먹었다.'}, {'score': 0.029748983681201935, 'token': 8961, 'token_str': '그날', 'sequence': '나는 그날 밥을 먹었다.'}]


In [3]:
print(fill_mask("한국의 제일 남쪽에 있는 섬은 {} 이다.".format(fill_mask.tokenizer.mask_token)))

[{'score': 0.15272337198257446, 'token': 2920, 'token_str': '섬', 'sequence': '한국의 제일 남쪽에 있는 섬은 섬 이다.'}, {'score': 0.055909112095832825, 'token': 1, 'token_str': '[UNK]', 'sequence': '한국의 제일 남쪽에 있는 섬은 이다.'}, {'score': 0.026947638019919395, 'token': 6320, 'token_str': '일본', 'sequence': '한국의 제일 남쪽에 있는 섬은 일본 이다.'}, {'score': 0.026387866586446762, 'token': 6422, 'token_str': '바로', 'sequence': '한국의 제일 남쪽에 있는 섬은 바로 이다.'}, {'score': 0.020353641360998154, 'token': 9268, 'token_str': '제주도', 'sequence': '한국의 제일 남쪽에 있는 섬은 제주도 이다.'}]


In [5]:
print(fill_mask("{} 참 좋다.".format(fill_mask.tokenizer.mask_token)))

[{'score': 0.15665262937545776, 'token': 8413, 'token_str': '날씨', 'sequence': '날씨 참 좋다.'}, {'score': 0.04122032970190048, 'token': 7665, 'token_str': '기분', 'sequence': '기분 참 좋다.'}, {'score': 0.037714634090662, 'token': 6451, 'token_str': '오늘', 'sequence': '오늘 참 좋다.'}, {'score': 0.032716330140829086, 'token': 146, 'token_str': '“', 'sequence': '“ 참 좋다.'}, {'score': 0.031910490244627, 'token': 6489, 'token_str': '그래서', 'sequence': '그래서 참 좋다.'}]


In [6]:
print(fill_mask("{} 풀자.".format(fill_mask.tokenizer.mask_token)))

[{'score': 0.08001817762851715, 'token': 3258, 'token_str': '잘', 'sequence': '잘 풀자.'}, {'score': 0.07481503486633301, 'token': 7128, 'token_str': '일단', 'sequence': '일단 풀자.'}, {'score': 0.05661468580365181, 'token': 3305, 'token_str': '좀', 'sequence': '좀 풀자.'}, {'score': 0.05347518250346184, 'token': 7258, 'token_str': '그럼', 'sequence': '그럼 풀자.'}, {'score': 0.02899177558720112, 'token': 6304, 'token_str': '다시', 'sequence': '다시 풀자.'}]


### Text generation

In [26]:
generator = pipeline("text-generation", model="skt/kogpt2-base-v2")
generator(
    "근육이 커지기 위해서는",
    max_length=128,
    num_return_sequences=1,
)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
A matching Triton is not available, some optimizations will not be enabled.
Error caught was: No module named 'triton'


[{'generated_text': '근육이 커지기 위해서는 수분 함량도 중요하다는 연구 결과가 나왔다.\n조윤선 서울대 보건대학원 교수가 서울대에 제출한 논문에 따르면 수면장애는 수면의 질을 결정하는 주요 척도 중 하나다.\n수면 상태에 따라 수면의 질이 달라지기 때문이다.\n수면의 질이 떨어지면 혈액 속 비타민D 수치가 줄어 수면의 질을 떨어뜨린다.\n조 교수는 “과거 연구에서는 수면 장애가 뇌의 신경세포에서 분비되는 것을 확인했지만 이번 연구는 뇌 내에서 생성되는 영양 의도가 뇌에 있음을 확인한 것”이라고 했다.\n영양 부족으로 수면 시간이 길어질 경우 뇌에 있는 에너지 대사량이 떨어지면서 영양 결핍상태가 될 수놀이의 발생이 많아질 수 있다.\n조 교수는 “미래에 생길 수'}]

In [27]:
generator(
    "피부의 조직이 괴사된다면",
    max_length=128,
    num_return_sequences=1,
)

[{'generated_text': '피부의 조직이 괴사된다면 염증성 장질환으로 나타날 수 있다.\n특히 장염은 급성 장폐색일 경우 사망에 이를 수 있으며, 특히 어린 자녀를 둔 부모에게서 더 큰 원인으로 지목된다.\n장폐색은 만성 염증성 장질환으로 진행속도가 빠르며 진행 속도가 빨라지면 사망률이 높아진다.\n따라서 증상이 발생한 환자일수록 조기 치료가 중요하다.\n하지만 치료시기를 놓치면 초기 치료가 어려워, 조기 발견에 실패할 수 있어 각별한 주의가 필요하다.\n또한 장막염 치료는 치료효과가 뛰어나지만 세균학적 염증반응이 있는 경우에는 약물 치료가 필요하다.\n실제로 장폐색을 발생시키는 주요 원인 중 하나인 포름알데하이드와 그 사이에 존재하는'}]

In [28]:
generator(
    "가장 좋은 건강법은",
    max_length=128,
    num_return_sequences=1,
)

[{'generated_text': '가장 좋은 건강법은 무엇일까?\n당뇨병 고혈압 당뇨 고혈압 당뇨병의 초기 증상으로는 우선 식이요법과 규칙적인 운동, 적당한 운동을 꼽을 수 있다.\n과거는 운동만 했다면 지금의 운동량은 거의 없고 근력과 척추, 골밀도까지 높여준다는 사실이 통설이지만, 최근에는 운동량이 점점 늘고 있으며 그에 따른 운동능력 향상도 괄목할만한 성과를 내고 있다.\n운동량이 증가함에 따라 당뇨병 치료 효과도 점점 높아지고 있다.\n현재 당뇨병 치료는 인슐린 내성을 유발하는 당뇨병 약물을 배제하는 방식으로 진행됐으나, 최근에는 인슐린을 선택적으로 파괴하지 않는 인슐린 내성을 유도한 인슐린을 선택적으로 전환하는 개량된 인슐린 치료법으로 치료 범위가 넓'}]

In [29]:
generator(
    "가장 좋은 한국어 문장 생성 언어 모델은",
    max_length=128,
    num_return_sequences=1,
)

[{'generated_text': "가장 좋은 한국어 문장 생성 언어 모델은 다음과사건의 의미구조를 나타낸 것으로써 언어, 행동, 기능, 행동 및 사회적 요소들, 사회성, 의미 그리고 심리학적 요소의 분포를 나타낸 것이다.\n이러한 한국어 표기는 언어 표기와는 상관없이 한국어 문장이 생성되고 배열됨을 시사한다.\n특히 '다문화 사회'와 '다문화 사회'를 비교해보면 다문화 사회에서의 국어 문법적 구조의 차이를 뚜렷하게 파악할 수 있는데, 이것은 이미 언어 표현 과정에서 언어의 형태 변화에 큰 영향을 미치지 않을 것으로 보인다.\n그리고 언어와 심리적 형태변동이 서로 밀접하게 연관되어 있기 때문에 언어의 형태 변동은 사회적 맥락, 사회적 맥락, 사회적 작용, 경제적 환경요소들이 서로 상호작용하는 관계를 이해하는 데 중요하다.\n그러나 언어"}]

### Question Answering

In [None]:
from transformers import pipeline
ckpt="chunwoolee0/roberta-keti-air-korquad"
question_answerer = pipeline("question-answering", model=ckpt)

In [None]:
question="2009년에 열린 제 6회 한국대중음악상에서 버벌진트가 '누명'으로 받은 상은 무엇인가?"
context="《누명》은 음악취향 Y의 2008년 올해의 앨범 BEST 10에서 높은 득표율로 1위를 차지했다. 또한, 차우진·강일권·최민우 등 13명의 음악 평론가들이 뽑은 올해의 음반 순위에서 유일한 힙합 음반으로 5위를 기록하기도 했으며, 강명석 등의 평론가들이 선정한 '올해의 묻히기 아까운 음반'에 뽑히기도 했다. 이 앨범은 2009년에 열린 제 6회 한국대중음악상에서 최우수 힙합 음반상을 수상하는 영예를 안았다. 버벌진트에게 씌어진 누명을 벗겨내며 그가 지닌 힙합씬을 바라보는 날카로운 시선을 음악을 통해 훌륭하게 풀어내었다고 평가받은 《누명》은 대중음악 웹진 백비트가 선정한 2000년대 베스트 음반 100개 중 한국 26위에 오르기도 했다."
question_answerer(question=question, context=context)

In [None]:
question="1990년 당시 온 트랙 프로그램의 후원사는 어디였나?"
context="1990년대 전체에 걸쳐, 여성회는 '온 트랙(ON TRACK)'과 같은 방과후 멘토 프로그램을 제공한다. 온 트랙은 '조직화(Organizing), 양육(Nurturing), 팀 구성(Team building), 존중(Respecting), 성취(Achieving), 상담(Counseling), 배움(Knowing)'의 약자로서, 낙제 위험에 있는 3학년 학생 2만명의 학업을 돕기 위해 고안된 것이다. 온 트랙은 다임러 크라이슬러의 후원을 받으면서 '의사소통, 학업, 신체적 정신적 건강, 통솔력, 예절, 인간 관계' 측면을 향상시키도록 주문받았다. 한편, P.I.M.S는 수학과 과학에 초점을 맞추었고, 아이비 읽기 아카데미이나 어린이 작가 프로그램과 같은 프로그램들은 초등학교 읽기 이해능력을 향상시킨데 주안점을 두었다."
question_answerer(question=question, context=context)

In [None]:
question = "유전의 특서으로 분자 규모의 유전 정보로 기록데, 후 세대로 전해지는 것은?"
context = "유전되는 특성은 DNA에서 분자 규모의 유전 정보로 기록되어 세대에서 세대로 전해진다. 네 종류의 뉴클레오타이드를 기반으로 하는 중합체인 DNA는 유전 정보를 담는 유전자를 이룬다. 세포 내에서 유전자들은 염색체 단위로 존재한다. 개체 간의 서로 다른 DNA 염기 서열은 서로 다른 유전자를 만들게 되고, 서로 다른 유전자는 결국 서로 다른 유전적 특성을 만들게 된다. DNA 서열에서 같은 위치에 놓이는 서로 다른 뉴클레오타이드 서열은 결국 각각의 개체들이 다양한 유전적 특성을 지니게 한다. 이와 같은 유전적 특성을 대립형질이라 한다. 멘델의 유전법칙은 완두콩의 대립형질을 관찰하여 발견한 것이다. 대립형질은 진화의 주요한 요소의 하나이다."
question_answerer(question=question, context=context)

### Translation
From english to korean

In [None]:

from transformers import pipeline

translator = pipeline("translation", model="chunwoolee0/circulus-kobart-en-to-ko")
translator("This course is produced by Hugging Face.")

In [None]:
translator("I ate the breakfast.")

In [None]:
translator("2, 4, 6 etc. are even numbers.")

In [None]:
translator("we will add comprehensive communications and the ability to conduct your entire financial world")

In [None]:
translator("As we can see, using the English tokenizer to preprocess a French sentence results in a lot more tokens, since the tokenizer doesn’t know any French words")

In [None]:
translator("the last step is to define the preprocessing function we will apply on the datasets")

### Translation from Korean to English

In [None]:
from transformers import pipeline

translator = pipeline("translation", model="chunwoolee0/kd4_opus-mt-ko-en")
translator("점심 식사 후에 산책가자.")

In [None]:
translator("이 강좌는 허깅페이스가 만든 거야.")

In [None]:

translator("오늘은 늦게 일어났다.")

### Text generation using polyglot-ko

In [None]:
import torch
from transformers import pipeline

generator = pipeline("text-generation", model="EleutherAI/polyglot-ko-3.8b", device=0, torch_dtype=torch.float16)

In [None]:
generator(
    "한강에서 배를 탔다.",
    max_length=30,
    num_return_sequences=1,
)

In [None]:
generator(
    "남산에서 불꽃놀이를 한다.",
    max_length=60,
    num_return_sequences=1,
)

In [None]:
generator(
    "영화 어땠어?",
    max_length=60,
    num_return_sequences=1,
)

In [None]:
generator(
    "아침 식사 후에 뭐 했니?",
    max_length=60,
    num_return_sequences=1,
)

In [None]:
generator(
    "건강에 좋은 음식 좀 알려 줘.",
    max_length=60,
    num_return_sequences=1,
)

In [None]:
pipe("안녕")

In [None]:
pipe("커피 한 잔")

In [None]:
pipe("저녁")

In [None]:
pipe('인간처럼 생각하고, 행동하는 \'지능\'을 통해 인류가 이제까지 풀지 못했던')

### Summarization

In [1]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import nltk
nltk.download('punkt')

model_dir = "lcw99/t5-base-korean-text-summary"
tokenizer = AutoTokenizer.from_pretrained(model_dir)
model = AutoModelForSeq2SeqLM.from_pretrained(model_dir)

max_input_length = 512

text = """
주인공 강인구(하정우)는 ‘수리남에서 홍어가 많이 나는데 다 갖다버린다’는 친구
박응수(현봉식)의 얘기를 듣고 수리남산 홍어를 한국에 수출하기 위해 수리남으로 간다.
국립수산과학원 측은 “실제로 남대서양에 홍어가 많이 살고 아르헨티나를 비롯한 남미 국가에서 홍어가 많이 잡힌다”며
“수리남 연안에도 홍어가 많이 서식할 것”이라고 설명했다.

그러나 관세청에 따르면 한국에 수리남산 홍어가 수입된 적은 없다.
일각에선 “돈을 벌기 위해 수리남산 홍어를 구하러 간 설정은 개연성이 떨어진다”는 지적도 한다.
드라마 배경이 된 2008~2010년에는 이미 국내에 아르헨티나, 칠레, 미국 등 아메리카산 홍어가 수입되고 있었기 때문이다.
실제 조봉행 체포 작전에 협조했던 ‘협력자 K씨’도 홍어 사업이 아니라 수리남에 선박용 특수용접봉을 파는 사업을 하러 수리남에 갔었다.
"""

inputs = ["summarize: " + text]

inputs = tokenizer(inputs, max_length=max_input_length, truncation=True, return_tensors="pt")
output = model.generate(**inputs, num_beams=8, do_sample=True, min_length=10, max_length=100)
decoded_output = tokenizer.batch_decode(output, skip_special_tokens=True)[0]
predicted_title = nltk.sent_tokenize(decoded_output.strip())[0]

print(predicted_title)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\clee\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


국립수산과학원 측은 남대서양에 홍어가 많이 살고 아르헨티나를 비롯한 남미 국가에서 홍어가 많이 잡힌다고 설명했지만 관세청에 따르면 한국에 수리남산 홍어가 수입된 적은 없다.


In [11]:
from transformers import T5TokenizerFast, T5ForConditionalGeneration

tokenizer = T5TokenizerFast.from_pretrained('paust/pko-t5-base')
model = T5ForConditionalGeneration.from_pretrained('paust/pko-t5-base')

Downloading (…)okenizer_config.json:   0%|          | 0.00/209 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Downloading (…)/main/tokenizer.json:   0%|          | 0.00/2.90M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/67.0 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Downloading (…)lve/main/config.json:   0%|          | 0.00/728 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.10G [00:00<?, ?B/s]

In [None]:
import nltk
nltk.download('punkt')
inputs = ["summarize: " + text]

inputs = tokenizer(inputs, max_length=max_input_length, truncation=True, return_tensors="pt")
output = model.generate(**inputs, num_beams=8, do_sample=True, min_length=10,max_length=128)
decoded_output = tokenizer.batch_decode(output, skip_special_tokens=True)[0]
# print(decoded_output)
predicted_title = nltk.sent_tokenize(decoded_output.strip())[0]

print(predicted_title)

In [2]:
text='양규원 이봉운 고양 제2부시장. 사진=연합 지방선거 \'관권개입\' 의혹과 3기 신도시 반대 입장 등으로 논란을 일으킨 뒤 기자회견을 통해 거짓 해명을 했다는 지적을 받고 있는 이봉운 고양시 제2부시장이 사표를 제출, 배경에 관심이 쏠리고 있다. 20일 고양시에 따르면 이 부시장은 이날 오전 \'일신상의 이유\'를 근거로 시에 사표를 제출했다. 이 부시장은 지난 2017년 10월 전임 최성 시장 재임 당시 2년 임기제로 채용돼 오는 9월 말로 예정된 임기만료를 불과 4개월 앞두고 사표를 제출한 것이다. 이 부시장이 사의를 표명한 것은 최근 3기 신도시에 대한 불만 표출, 6.13 지방선거 당시 이 시장을 지지한 상황에 대한 관권선거 의혹 등에다 줄곧 제기된 \'이재준 시장과의 불화설\' 등이 겹쳤기 때문인 것으로 지역 정계는 보고 있다. 특히 이 같은 내용이 일부 인터넷 언론을 통해 퍼지자 지난 14일 기자회견을 열고 "해당 내용은 사실이 아니다. 가짜뉴스에 강력하게 대응하겠다"고 주장했으나 \'거짓 해명\'이라는 비판에 직면하자 이날 오후 갑작스레 휴가를 신청하기도 했다. 시 관계자는 "이 부시장이 20일 오전 사표를 제출했다"면서 "관련 절차가 남아 있기 때문에 당장 사표가 수리되는 것은 아니다"고 밝혔다. 이에 대해 이 부시장은 "임기를 4개월 앞두고 퇴임하게 돼 시민과 시 직원여러분께 송구스럽다"면서도 "제3기 신도시 발표로 지역간 주민 갈등이 표출되며 고양시 도시기능이 베드타운으로 고착화되는 것이 아닌가 하는 안타깝다"고 말했다. 특히 "100년대계를 바라보는 도시발전을 위해 시가 지향해야 할 방향과 목표를 잘 알고 있기에 제3시 신도시 건설의 문제점을 이야기한 소신에는 지금도 변함이 없다"고 강조했다.'

In [3]:
from transformers import pipeline

# model_ckpt = "chunwoolee0/ke_t5_base_aihub"
model_ckpt = "KETI-AIR/long-ke-t5-base"
summarizer = pipeline("summarization", model=model_ckpt)

In [6]:
summarizer("summarize_text: " + text,max_length=100)

[{'summary_text': '이 부시장은 지난 2017년 10월부터 2년 임기제로 채용돼 오는 9월 말로 예정된 임기만료를 불과 4개월 앞두고 사표를 제출했다.'}]

In [7]:
from transformers import AutoTokenizer
model_ckpt = "KETI-AIR/long-ke-t5-base"
tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
inputs = tokenizer(text, return_tensors="pt").input_ids

In [8]:
from transformers import AutoModelForSeq2SeqLM

model = AutoModelForSeq2SeqLM.from_pretrained(model_ckpt)
outputs = model.generate(inputs, max_new_tokens=100, do_sample=False)
tokenizer.decode(outputs[0], skip_special_tokens=True)

'이 부시장은 지난 2017년 10월부터 2년 임기제로 채용돼 오는 9월 말 임기만료를 불과 4개월 앞두고 사표를 제출했다.'

In [9]:
text = "summarize_topic: “처음에는 ‘금방 끝나겠지’라고 생각했는데 어느덧 100일이 됐네요. \
    그동안 춥고 아프고 힘들었지만 인간으로서 대우를 받을 수만 있다면 끝까지 버틸 수 있습니다.” \
    LG트윈타워 청소 노동자들이 고용승계를 주장하며 파업에 나선지 100일째를 하루 앞둔 24일 \
    서울 여의도 LG트윈타워 앞 ‘행복한 고용승계 텐트촌’에서 만난 박상설(63)씨는 힘들었던 투쟁 과정을 \
    회상하며 눈시울을 붉혔다. 박씨는 2017년부터 LG트윈타워에서 청소 노동을 했지만 지난 1월 1일부로 \
    계약이 종료돼 직장을 떠났다. 자동차 소음과 불편한 잠자리로 텐트에서 매일 밤잠을 설치지만 투쟁을 \
    포기할 수 없다고 한다. 그는 “LG가 그동안 사회적 책임과 정도경영을 강조해 왔기에 파업이 금방 끝날 \
    줄 알았다”며 “버티지 못하고 점점 떠나는 동지들을 바라볼 때마다 마음이 아프지만 정당한 노동 권리를 \
    인정받기 위해 끝까지 투쟁할 것”이라고 강조했다. 지난해 11월 26일부터 파업에 돌입한 청소 \
    노동자들은 25일 파업 100일째를 맞는다. 건물 1층 로비에서 시위를 하던 25명의 청소 노동자들은 지난 \
    22일부터 정문 앞 도보에 텐트촌을 설치하고 장소를 옮겼다. 파업 100일에 맞춰 25일까지 시민연대와 \
    함께 텐트 100개를 설치하고 주·야간 연대 시위를 이어가겠다는 뜻에서다. 노동자들은 한 명이 간신히 \
    누울 수 있는 크기의 텐트 안에서 딱딱한 시멘트 바닥에 몸을 기대 쪽잠을 청하고 있다. LG트윈타워를 \
    관리하는 LG그룹 계열사 ‘에스엔아이코퍼레이션’은 지난해 말 ‘지수아이앤씨’와 청소 용역 계약을 \
    끝내고 다른 업체와 새로 계약했다. 사측은 ‘품질 저하’를 이유로 들었다. 반면 노동자들은 2019년 \
    노조를 결성하고 권리를 주장하기 시작하면서 사측 눈 밖에 났다고 주장한다. 그동안 업체가 \
    변경되더라도 기존 업체 노동자들이 새 업체에 고용승계가 되는 게 관례였지만 새 업체는 고용승계를 \
    보장할 수 없다고 밝혔다. 지난달까지 고용노동부 중재로 수차례 노사 교섭이 있었지만 상황은 달라지지 \
    않았다. 사측은 대신 노동자들에게 다른 사업장에서 일을 하게 해주겠다고 권유했다. 하지만 노동자들은 \
    노조를 인정하지 않는 대기업의 행태를 묵인한 채 사측의 권유에 따른다면 어느 사업장에서 일을 하던 \
    똑같은 행태가 반복될 수밖에 없다고 목소리를 높인다. 때문에 반드시 LG트윈타워에서 정당한 권리를 \
    인정받고 노동을 이어가야만 한다고 말한다. 이들은 구광모 LG그룹 회장이 나서 문제를 해결해야 한다고 \
    주장한다. 이혜정 LG트윈타워 공동대책위원회 집행위원은 “구 회장이 책임있는 답변을 내놓을 때까지 \
    시민사회 단위와 함께 결의를 담아 끝까지 텐트촌을 유지할 것”이라고 강조했다."

In [10]:
inputs = tokenizer(text, return_tensors="pt").input_ids
outputs = model.generate(inputs, max_new_tokens=100, do_sample=False)
tokenizer.decode(outputs[0], skip_special_tokens=True)

'LG트윈타워 청소 노동자들이 25일 파업 100일째를 맞는다.'