In [None]:
# 파이프라인 함수
# 파이프라인 기능은 트랜스포머 라이브러리의 가장 높은 API이다. 
# 원시 텍스트에서 사용 가능한 예측으로 이동하는 모든 단계를 재그룹화한다.
# pre-processing -> Model -> post-Processing
# 컴퓨터 모델은 텍스트가 아닌 숫자를 입력받기를 원한다. 그리고 인간은 모델의 출력을 텍스트로 받는 것을 원한다. 
# 이러한 것을 파이프라인을 통해서 처리하게 된다. 
# 파이프 라인은 다음과 같은 기능들을 가진다. 
#
#
#
# 태스크           설명                                                                 모달리티
# 텍스트 분류      텍스트에 알맞은 레이블 붙이기                                        자연어 처리(NLP)
pipeline(task=“sentiment-analysis”)
# 텍스트 생성      주어진 문자열 입력과 이어지는 텍스트 생성하기                        자연어 처리(NLP)
pipeline(task=“text-generation”)
# 개체명 인식      문자열의 각 토큰마다 알맞은 레이블 붙이기 (인물, 조직, 장소 등등)    자연어 처리(NLP)
pipeline(task=“ner”)
# 질의응답         주어진 문맥과 질문에 따라 올바른 대답하기                            자연어 처리(NLP)
pipeline(task=“question-answering”)
# 빈칸 채우기      문자열의 빈칸에 알맞은 토큰 맞추기                                   자연어 처리(NLP)
pipeline(task=“fill-mask”)
# 요약             텍스트나 문서를 요약하기                                             자연어 처리(NLP)
pipeline(task=“summarization”)
# 번역             텍스트를 한 언어에서 다른 언어로 번역하기                            자연어 처리(NLP)
pipeline(task=“translation”)
# 이미지 분류      이미지에 알맞은 레이블 붙이기                                        컴퓨터 비전(CV)
pipeline(task=“image-classification”)
# 이미지 분할      이미지의 픽셀마다 레이블 붙이기(시맨틱, 파놉틱 및 인스턴스 분할 포함)컴퓨터 비전(CV)
pipeline(task=“image-segmentation”)
# 객체 탐지        이미지 속 객체의 경계 상자를 그리고 클래스를 예측하기                컴퓨터 비전(CV)
pipeline(task=“object-detection”)
# 오디오 분류      오디오 파일에 알맞은 레이블 붙이기                                   오디오
pipeline(task=“audio-classification”)
# 자동 음성 인식   오디오 파일 속 음성을 텍스트로 바꾸기                                오디오
pipeline(task=“automatic-speech-recognition”)
# 시각 질의응답    주어진 이미지와 질문에 대해 올바르게 대답하기                        멀티모달
pipeline(task=“vqa”)
# 문서 질의응답    주어진 문서와 질문에 대해 올바르게 대답하기                          멀티모달
pipeline(task=“document-question-answering”)
# 이미지 캡션달기  주어진 이미지의 캡션 생성하기                                        멀티모달
pipeline(task=“image-to-text”)

# 주의사항
# 큰 규모의 데이터셋(특히 음성이나 비전)의 경우 모든 입력 데이터를 메모리에 로드하기 위해 리스트 대신 제너레이터 형식으로
# 제공되어야 한다. https://huggingface.co/docs/transformers/v4.36.1/en/main_classes/pipelines 에서 확인 가능하다. 


In [1]:
# 긍정/부정 파이프라인
# 예를 감정분석 파이프라인을 살펴보자. 
from transformers import pipeline

classifier = pipeline('sentiment-analysis')
classifier("I've veen waiting for a HuggingFace course my whole life.")

# 이 파이프라인은 주어진 입력에 대해 텍스트 분류를 수행하고 그것이 긍정적인지 부정적인지를 결정한다. 
# 신뢰도로는 83%의 신뢰도의 긍정 라벨을 부여했다. 

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.8371170163154602}]

In [2]:
# 다중 긍정/부정 파이프라인
from transformers import pipeline

classifier = pipeline('sentiment-analysis')
classifier([
    "I've veen waiting for a HuggingFace course my whole life.",
    "I hate this so much"
])

# 여러 텍스트를 동일한 파이프라인에 전달할 수 있으며 이는 일괄 처리되어 모델을 통해 전달된다. 
# 입력이 여러개가 존재하는 경우. 리스트를 통해 전달할 수 있다. 
# 출력은 입력 텍스트와 동일한 순서로 된 개별의 결과 목록이다. 여기서 두번째 신뢰도가 매우 높게 부정 라벨을 부여했다. 

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.8371170163154602},
 {'label': 'NEGATIVE', 'score': 0.9995144605636597}]

In [3]:
# 라벨 붙이기
# 또는 원하는 라벨을 설정할 수 있다. 
from transformers import pipeline

classifier = pipeline('zero-shot-classification')
classifier(
    "this is a course about the Transformers library",
    candidate_labels = ["education","politics","business"]
)
# 라벨은 교육, 정치, 비즈니스 라벨을 따라 입력 텍스트를 분류하려고 한다. 
# 파이프라인은 위의 단어가 교육에 대한 텍스트임을 빠르게 분류하였다. 

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

{'sequence': 'this is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8697090148925781, 0.09091891348361969, 0.03937210515141487]}

In [4]:
# 텍스트 생성 파이프라인
from transformers import pipeline

generater = pipeline('text-generation')
generater("in this course, we will teach you how to")
# 텍스트 생성 파이프라인은 주어진 프롬프트를 자동 완성한다.
# 출력은 무작위로 생성되므로 주어진 프롬프트에서 생성기 개체를 호출할 때 마다 변경된다. 

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': "in this course, we will teach you how to use multiple languages for your first time as a programmer or project leader. We'll use the same programming language, but with the purpose of providing you with tools and tips to find the correct application in the"}]

In [5]:
# 파인튜닝된 모델 파이프라인
# 현재까지 연결된 기본 모델에 대해 파이프라인 API를 사용했다. 
# 물론 이 작업에 대해 사전학습되거나 파인튜닝된 모델을 사용할 수도 있다. 
# 허깅페이스 모델허브에는 작업별로 사용 가능한 모델을 필터링 할 수 있다. 
# 위에서는 gpt2모델이 디폴트였지만 더 많은 모델을 사용하는 것도 가능하다. 
from transformers import pipeline

generater = pipeline('text-generation', model="distilgpt2")
generater("in this course, we will teach you how to",
         max_length=30,
          num_return_sequences=2
         )
# distilgpt2는 허깅페이스팀에서 만든 경량 gpt2이다. 특정 프롬프트에서 파이프라인을 적용할 때 생성된 텍스트 최대 길이나 반환하려는
# 문장의 수와 같은 여러 인수를 지정하는 것이 가능하다. 위에서는 길이는 30, 반환하는 결과값을 2개로 부여했다. 

config.json:   0%|          | 0.00/762 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/353M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'in this course, we will teach you how to get into the science of the universe, and how to become part of the natural history of the universe'},
 {'generated_text': "in this course, we will teach you how to use the app to bring you an idea, the user's need, and more!\n\n\n"}]

In [6]:
# 필 마스크
# 문장에서 다음 단어를 추측하여 텍스트를 생성하는 것이 GPT-2의 사전 학습 목표였다. 
# fill mask 파이프라인은 마스크값을 추측하는 bert의 사전학습 목표였다. 
# 누락된 단어에 대해 가장 가능성이 높은 두 가지 값을 묻고 가능한 답변으로 수학적, 계산적 답변을 얻었다. 
from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about <mask> models.",top_k=2)

No model was supplied, defaulted to distilroberta-base and revision ec58a5b (https://huggingface.co/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/331M [00:00<?, ?B/s]

Some weights of the model checkpoint at distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'score': 0.1961977779865265,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04052717983722687,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

In [7]:
# 단어 분류
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner("My name is sylvain and i work at Hugging Face in Brooklyn")
# 모델이 수행할 수 있는 또 다른 작업은 문장 전체가 아닌 문장의 각 단어를 분류하는 것이다. 
# 문장에서 사람, 조직, 위치와 같은 엔티티를 식별하는 작업이 명명된 엔터티 인식이다. 
# 여기서 모델은 입력텍스트 내에서 사람(sylvain),조직(Hugging Face), 위치(Brooklyn)를 정상적으로 찾아냈다. 
# grouped_entities=True의 의미는 파이프라인 그룹을 동일한 엔터티(Hugging과 Face를 같이 묶기 위해)에 연결된 단어로 만드는 것이다.

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]



[{'entity_group': 'PER',
  'score': 0.9876925,
  'word': 'sylvain',
  'start': 11,
  'end': 18},
 {'entity_group': 'ORG',
  'score': 0.97336537,
  'word': 'Hugging Face',
  'start': 33,
  'end': 45},
 {'entity_group': 'LOC',
  'score': 0.9870432,
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

In [8]:
# 추출적 질문 답변
from transformers import pipeline

question_answerer = pipeline("question-answering")
question_answerer(
    question ="Where do I work?",
    context = "My name is sylvain and i work at Hugging Face in Brooklyn"
)
# 컨텍스트와 질문을 제공하면 모델은 질문에 대한 답변이 포함된 컨텍스트에서 텍스트 범위를 식별한다. 

No model was supplied, defaulted to distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

{'score': 0.7076236009597778, 'start': 33, 'end': 45, 'answer': 'Hugging Face'}

In [9]:
# 기사 요약
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer("""
    Former President Donald Trump is disqualified from serving as U.S. president and cannot appear on the 
    primary ballot in Colorado because of his role in the Jan. 6, 2021, attack on the U.S. Capitol by his supporters, 
    the state's top court ruled Tuesday. The historic 4-3 ruling by the Colorado Supreme Court, 
    likely to be taken up by the U.S. Supreme Court, makes Trump the first presidential candidate deemed ineligible for 
    the White House under a rarely used constitutional provision that bars officials who have engaged in "insurrection or 
    rebellion" from holding office.
""")

# 요약 파이프라인을 통해 뉴스 기사요약도 가능하다. 

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

[{'summary_text': ' The historic 4-3 ruling by the Colorado Supreme Court is likely to be taken up by the U.S. Supreme Court . It makes Trump the first presidential candidate deemed ineligible for the White House under a rarely used constitutional provision that bars officials who have engaged in "insurrection or rebellion" from holding office .'}]

In [10]:
# 번역
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")
translator("Ce cours est produit par Hugging Face")
# 허깅페이스는 번역을 지원한다. 
# 프랑스어를 입력하고 영어를 출력받았다. 

config.json:   0%|          | 0.00/1.42k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/301M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/778k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.34M [00:00<?, ?B/s]

[{'translation_text': 'This course is produced by Hugging Face'}]

In [11]:
# 자동음성인식
# 일반적으로 open ai의 whisper가 많이 쓰인다. 
import torch
from transformers import pipeline
from datasets import load_dataset, Audio

dataset = load_dataset("PolyAI/minds14", name="ko-KR", split="train") # 데이터셋 접속에 문제가 있음. 
#
#
speech_recognizer = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-base-960h")
# 파이프라인은 데이터셋을 전부 순회할 수 있다. 데이터셋을 로드하였으며 facebook의 wav2vec2-base-960h을 사용했다.

dataset = dataset.cast_column("audio", Audio(sampling_rate=speech_recognizer.feature_extractor.sampling_rate))
# 훈련당시의 샘플링 레이트와 일치하는지 확인한다. 

result = speech_recognizer(dataset[:4]["audio"])
print([d["text"] for d in result])

ConnectionError: Couldn't reach https://www.dropbox.com/s/e2us0hcs3ilr20e/MInDS-14.zip?dl=1 (error 429)

In [None]:
# 파이토치 다루기
https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/videos/training_loop.ipynb#scrollTo=QV36iFzWCyY7
# 이 사이트에서 확인 가능.    
# 허깅페이스팀 강의
https://www.youtube.com/playlist?list=PLo2EIpI_JMQvWfQndUesu0nPBAtZ9gP1o