## HugginFace Pipeline

In [10]:
!pip install -q transformers datasets
!pip install -q sentencepiece
!pip install -q kobert-transformers
!pip install -q python-dotenv

In [11]:
from dotenv import load_dotenv
import os

load_dotenv()

HF_TOKEN = os.getenv("HF_TOKEN") 

### NLP Tasks

주어진 Task에서 사전 훈련된 모델을 사용하는 가장 간단한 방법은  `pipeline`을 사용하는 것이다.

- **기계 번역(Translation)**: 텍스트를 다른 언어로 번역한다.  
- **감정 분석(Text Classification)**: 텍스트가 긍정적인지 부정적인지 분류할 수 있다.  
- **텍스트 생성(Text Generation)**: 프롬프트를 입력하면 모델이 후속 텍스트를 생성한다.  
- **이름 개체 인식(NER)**: 입력 문장의 각 단어가 어떤 개체(예: 사람, 장소 등)를 나타내는지 식별할 수 있다.  
- **질문 답변(Question Answering)**: 컨텍스트와 질문을 입력하면 모델이 컨텍스트에서 적절한 답변을 추출한다.  
- **마스킹된 텍스트 채우기(Fill-Mask)**: 마스킹된 단어가 포함된 텍스트(`[MASK]`로 대체됨)를 입력하면 공백을 채울 단어를 예측한다.  
- **요약(Summarization)**: 긴 텍스트의 요약을 생성한다.  
- **특징 추출(Feature Extraction)**: 텍스트의 텐서 표현을 반환하여 특성을 추출한다.  
- **Zero-Shot 분류(Zero-Shot Classification)**: 레이블이 없는 데이터에 대해 사전 정의된 레이블에 맞는 분류를 수행한다.  

In [12]:
from transformers import pipeline

#### 기계 번역

- 모델 레포
https://huggingface.co/Helsinki-NLP/opus-mt-ko-en

In [13]:
!pip install -q tf-keras

In [None]:
# 한국어 -> 영어 번역 파이프라인 생성

translation = pipeline(
    'translation',
    model='Helsinki-NLP/opus-mt-ko-en', 
    tokenizer='Helsinki-NLP/opus-mt-ko-en'
    )

translation

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


pytorch_model.bin:  27%|##6       | 83.9M/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/312M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/842k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/813k [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

Device set to use cpu


<transformers.pipelines.text2text_generation.TranslationPipeline at 0x21326fd8ec0>

In [16]:
translation("저 지금 집에 가고 싶어요")

[{'translation_text': 'I want to go home now.'}]

In [17]:
translation([
    "눈이 내려서 눈이 시려요",
    "19기 화이팅",
    '말을 보니 말이 안나와요.',
    '난 천재가 아닐수가 없다'
])

[{'translation_text': "It's snowy. It's snowy."},
 {'translation_text': '19th stage.'},
 {'translation_text': "It doesn't make any sense to me."},
 {'translation_text': "I can't be a genius."}]

#### 감성 분석

In [None]:
sentiment_clf = pipeline('sentiment-analysis')