In [1]:
# | echo:false

from transformers.utils import logging

logging.set_verbosity_error()

# 자연어 처리 (NLP)


## 🤗 Transformers 라이브러리를 사용하여 `챗봇` 파이프라인 구축하기


In [2]:
from transformers import pipeline
from transformers import Conversation

# 대화 파이프라인 정의

chatbot = pipeline(task="conversational", model="facebook/blenderbot-400M-distill")

# 사용자 메시지
user_message = """
What is the speed of light?
"""

# 대화 객체 생성 및 사용자 메시지 추가
conversation = Conversation(user_message)

# 챗봇에 대화 전달 및 응답 받기
conversation = chatbot(conversation)

# 대화 결과 출력
print(conversation)

  return self.fget.__get__(instance, owner)()


Conversation id: aeaa0179-f9dc-4f00-ac42-b85b4e4092ea
user: 
What is the speed of light?

assistant:  Light speeds vary widely depending on the type of light and speed of the object being used.



다음과 같이 챗봇과의 대화를 계속해 나갈 수 있지만 챗봇은 이전 대화에 대한 기억이 없기 때문에 관련 없는 응답을 제공합니다.

```python
print(chatbot(Conversation("다른 추천 사항이 있나요?")))
```

만약 이전 대화 내용을 포함하려면 아래와 같이 이전 채팅 기록을 포함하는 '메시지'를 추가하면 됩니다.


In [3]:
conversation.add_message(
    {
        "role": "user",  # 메시지의 역할을 "user"로 설정합니다. (사용자 메시지)
        "content": """
        Do you think that I think you have consciousness?
        """,
    }
)

conversation = chatbot(conversation)  # 챗봇에게 대화를 전달하고 응답을 받습니다.

print(conversation)  # 대화 결과를 출력합니다.

Conversation id: aeaa0179-f9dc-4f00-ac42-b85b4e4092ea
user: 
What is the speed of light?

assistant:  Light speeds vary widely depending on the type of light and speed of the object being used.
user: 
        Do you think that I think you have consciousness?
        
assistant:  I don't think I have any consciousness, but I do believe that I have a good sense of self-awareness.



# 번역 및 요약

## 🤗 Transformers 라이브러리를 사용하여 `번역` 파이프라인 구축하기

NLLB: 다양한 언어를 지원하는 번역 모델: ['nllb-200-distilled-600M'](https://huggingface.co/facebook/nllb-200-distilled-600M).


In [4]:
from transformers import pipeline
import torch

# 번역 파이프라인 생성
translator = pipeline(
    task="translation",
    model="facebook/nllb-200-distilled-600M",  # 사용할 모델:
    torch_dtype=torch.bfloat16,  # 모델의 데이터 유형: bfloat16
)

# 번역할 텍스트 정의
text = """\
My puppy is adorable, \
Your kitten is cute.
Her panda is friendly.
His llama is thoughtful. \
We all have nice pets!"""

# 텍스트 번역
translated_text = translator(
    text, src_lang="eng_Latn", tgt_lang="fra_Latn"
)  # 영어에서 프랑스어로 번역

# 번역 결과 출력
print(translated_text)

[{'translation_text': 'Mon chiot est adorable, ton chaton est mignon, son panda est ami, sa lamme est attentive, nous avons tous de beaux animaux de compagnie.'}]


다른 언어를 선택하려면 다음 페이지에서 다른 언어 코드를 찾을 수 있습니다. [FLORES-200의 언어](https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200)

지원되는 언어는 아래와 같습니다.
- Afrikaans: afr_Latn
- Chinese: zho_Hans
- Egyptian Arabic: arz_Arab
- French: fra_Latn
- German: deu_Latn
- Greek: ell_Grek
- Hindi: hin_Deva
- Indonesian: ind_Latn
- Italian: ita_Latn
- Japanese: jpn_Jpan
- Korean: kor_Hang
- Persian: pes_Arab
- Portuguese: por_Latn
- Russian: rus_Cyrl
- Spanish: spa_Latn
- Swahili: swh_Latn
- Thai: tha_Thai
- Turkish: tur_Latn
- Vietnamese: vie_Latn
- Zulu: zul_Latn

In [5]:
text = """\
My puppy is adorable, \
Your kitten is cute.
Her panda is friendly.
His llama is thoughtful. \
We all have nice pets!"""

text_translated = translator(text, src_lang="eng_Latn", tgt_lang="kor_Hang")

text_translated

[{'translation_text': '내 강아지는 사랑스럽고, 당신의 새끼 고양이는 귀여운데, 그녀의 팬다는 친절하고, 그의 라마는 신중합니다. 우리 모두는 좋은 애완동물들을 가지고 있습니다.'}]

In [6]:
# 계속하기 전에 메모리를 일부 해제합니다.
import gc

del translator  # 번역기 객체를 삭제합니다.
gc.collect()  # 가비지 컬렉션을 수행하여 사용하지 않는 메모리를 회수합니다.

40

## 🤗 Transformers 라이브러리를 사용하여 `요약` 파이프라인 구축하기

모델 정보: ['bart-large-cnn'](https://huggingface.co/facebook/bart-large-cnn)

In [7]:
# 요약 파이프라인 생성
summarizer = pipeline(
    task="summarization", model="facebook/bart-large-cnn", torch_dtype=torch.bfloat16
)

# 요약할 텍스트 정의
text = """Paris is the capital and most populous city of France, with
          an estimated population of 2,175,601 residents as of 2018,
          in an area of more than 105 square kilometres (41 square
          miles). The City of Paris is the centre and seat of
          government of the region and province of Île-de-France, or
          Paris Region, which has an estimated population of
          12,174,880, or about 18 percent of the population of France
          as of 2017."""

# 텍스트 요약
summary = summarizer(text, min_length=10, max_length=100)
# 요약 결과 출력
print(summary)

[{'summary_text': 'Paris is the capital and most populous city of France, with an estimated population of 2,175,601 residents as of 2018. The City of Paris is the centre and seat of the government of the region and province of Île-de-France.'}]


In [8]:
del summarizer
gc.collect()

0

# 문장 임베딩

## 🤗 Transformers 라이브러리를 사용하여 `문장 임베딩` 파이프라인 구축하기

[all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)에 대한 추가 정보.


In [None]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("all-MiniLM-L6-v2")

sentences1 = [
    "The cat sits outside",
    "A man is playing guitar",
    "The movies are awesome",
]

# 문장 목록을 임베딩 벡터로 변환 (텐서로 변환)
embeddings1 = model.encode(sentences1, convert_to_tensor=True)
# 생성된 임베딩 벡터 출력
# embeddings1

tensor([[ 0.1392,  0.0030,  0.0470,  ...,  0.0641, -0.0163,  0.0636],
        [ 0.0227, -0.0014, -0.0056,  ..., -0.0225,  0.0846, -0.0283],
        [-0.1043, -0.0628,  0.0093,  ...,  0.0020,  0.0653, -0.0150]],
       device='cuda:0')

In [None]:
sentences2 = [
    "The dog plays in the garden",
    "A woman watches TV",
    "The new movie is so great",
]

embeddings2 = model.encode(sentences2, convert_to_tensor=True)
print(embeddings2)

tensor([[ 0.0163, -0.0700,  0.0384,  ...,  0.0447,  0.0254, -0.0023],
        [ 0.0054, -0.0920,  0.0140,  ...,  0.0167, -0.0086, -0.0424],
        [-0.0842, -0.0592, -0.0010,  ..., -0.0157,  0.0764,  0.0389]],
       device='cuda:0')


두 문장 사이의 코사인 유사도를 계산하여 두 문장이 서로 얼마나 유사한지를 측정합니다.

In [None]:
from sentence_transformers import util

# 코사인 유사도 계산
cosine_scores = util.cos_sim(embeddings1, embeddings2)

for i in range(len(sentences1)):
    print(f"{sentences1[i]:<30}{sentences2[i]:<35}{cosine_scores[i][i]:.4f}")

The cat sits outside          The dog plays in the garden        0.2838
A man is playing guitar       A woman watches TV                 -0.0327
The movies are awesome        The new movie is so great          0.6571
