In [2]:
# Natural Language Processing
# 자연    (언)어   처리
# 이미지 다룰 때 합성곱 Convolutional Neural Network
# segmentation -> speech/voice (activity) segmentation
# audio ---- --- - ----- --
# text segmentation? -> 자연어는 이미 세그먼트 단위로 나눠져있음
# segment를 어떤 단위로? word-level tokenization; 형태소(morpheme); 음소(phoneme); 음절(syllable)
# text regression? -> X; 텍스트를 가지고 무슨무슨 값을 회귀하는 (예: 상품평 -> 별 갯수)
# text classification? -> 텍스트를 가지고 하는 분류: 긍정/부정; 별 갯수; 장르/분야
# 텍스트로 분류: 2천개 단어 중 고르기 (다음 단어를)
# text clustering -> 비슷한 텍스트끼리 모으기: 텍스트의 단위; 무슨 기준으로 비슷함?
# text forecast -> text generation
# 자연어를 텐서화하는 작업만 추가됨

In [None]:
!pip install datasets

In [None]:
!pip install transformers
!pip install sentencepiece

In [None]:
!pip install transformers[sentencepiece]
!pip install sacremoses

In [6]:
from textwrap import TextWrapper
import datasets
import huggingface_hub
import torch
import transformers
import pandas as pd
import numpy as np
import sentencepiece
from transformers import pipeline # 모델, 문제

In [15]:
# 사전학습된 모델로 몇가지 문제 풀어보기
# pre-trained model
# 텍스트 분류
text = """
야옹
"""
clf = pipeline( "text-classification", model="mrm8488/xlm-roberta-base-finetuned-HC3-mix",)
# "text-classification" 등 작업의 이름이 미리 정해져있음:
# https://huggingface.co/docs/transformers/v4.31.0/ko/task_summary


In [16]:
outputs = clf(text)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,Human,0.998043


In [17]:
# Named Entity Recognition
# 고유명사 인식
ner = pipeline("ner", aggregation_strategy="simple") # 고유명사가 여러 단어에 걸쳐있을때 뭉치는 방법
text = """
BTS' Suga on Sunday concluded his first solo world tour,
"Suga | Agust D Tour ‘D-Day,’" following three days of encore concerts in Seoul.
Although the tour came to an end, it marked the start of a new path in the musician's solo career.
"""
outputs = ner(text)
pd.DataFrame(outputs)

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (…)lve/main/config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.weight', 'bert.pooler.dense.bias']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Downloading (…)okenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

Unnamed: 0,entity_group,score,word,start,end
0,ORG,0.993277,BTS,1,4
1,PER,0.966997,Suga,6,10
2,MISC,0.976255,Suga | Agust D Tour,59,78
3,MISC,0.790639,"D - Day,",80,86
4,LOC,0.999412,Seoul,132,137


In [21]:
# QA: Question Answering
# SQuAD Stanford Question Answering Dataset
qa = pipeline("question-answering", model= "uomnf97/klue-roberta-finetuned-korquad-v2")
# qa = pipeline("question-answering")
question = "How close are we to room-temperature superconductors?"
context = """
A South Korean research team recently created a buzz with a claim that
it has created one of the holy grails in science -- a room-temperature superconductor
called LK-99 – prompting researchers around the world into a race to replicate the experiment.
Two weeks after their claimed discovery, no one has yet been able to completely
reproduce the sensational result that could revolutionize power grids.
"""
question = "주식 초고수가 무엇인가요?"
context = """
이날 미래에셋엠클럽에 따르면 미래에셋증권 주식 거래 고객 중 최근 1개월 간
투자수익률 상위 1%에 해당하는 ‘주식 초고수’들이 오전 11시까지 가장 많이 사들인 종목은
네이버으로 집계됐다. 네이버 주가는 11시 기준 전 거래일 대비 6.49%오른 23만 8000원을 기록했다.
초고수 개미들이 네이버를 주목하고 있는 건 네이버가 올 2분기 최대 성과를 거두며 실적을
입증했고 차세대 초거대 인공지능(AI) 발표도 앞둬 성장성을 제시한 덕분으로 풀이된다.
"""
outputs = qa(question=question, context=context)
pd.DataFrame([outputs])

Unnamed: 0,score,start,end,answer
0,4.229055e-09,63,70,주식 초고수’


In [23]:
# Translation 번역
ts = pipeline("translation_en_to_ko", model="Helsinki-NLP/opus-mt-tc-big-en-ko")
text = """
Hello
"""
outputs = ts(text)
print(outputs[0]["translation_text"])

늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘어 늘

In [25]:
# Summarization 요약
summ = pipeline("summarization")
text = """
A South Korean research team recently created a buzz with a claim that
it has created one of the holy grails in science -- a room-temperature superconductor
called LK-99 – prompting researchers around the world into a race to replicate the experiment.
Two weeks after their claimed discovery, no one has yet been able to completely
reproduce the sensational result that could revolutionize power grids.
"""
outputs = summ(text, max_length=60)
print(outputs[0]["summary_text"])

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (…)lve/main/config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

 A South Korean research team recently created a buzz with a claim that it has created one of the holy grails in science -- a room-temperature superconductor called LK-99 . No one has yet been able to completely produce the sensational result that could revolutionize power grids


In [27]:
# Generation 생성
from transformers import set_seed
seed = 43
set_seed(seed)
gen = pipeline("text-generation")
response = "Dear customer, we are sorry that your order has been delayed"
text = """Dear Amazon, I have placed an order for a vacuum cleaner two weeks ago, and my order number 1304309841.
The order was on Amazon Prime, but I have since never heard about the delivery or any tracking possibilities."""
prompt = text + "\n\nCustomer service response:\n" + response
outputs = gen(prompt, max_length=200)
print(outputs[0]["generated_text"])

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Dear Amazon, I have placed an order for a vacuum cleaner two weeks ago, and my order number 1304309841.
The order was on Amazon Prime, but I have since never heard about the delivery or any tracking possibilities.

Customer service response:
Dear customer, we are sorry that your order has been delayed. Please go ahead and pick up your order, you will receive back a tracking number which will be useful to us. We do, however, do not anticipate any problems (other than our shipping costs) during your order. However, as soon as you place your order, you lose your package and any tracking codes will be lost. We will do our best to get your package returned to you in 100% satisfaction, as we will definitely do our best to get this to you as quickly as possible.
