In [1]:
# 허깅페이스 튜토리얼
# 허깅페이스는 모델 다운로드, 파인튜닝, API제동등을 담당하는 사이트이다. 
# 모델을 처음부터 훈련시키지 않아 시간과 리소스를 절햑할 수 있는 장점이 있다.
# 트랜스포머는 텐서플로, 파이토치, 작스를 지원한다. 가장 많이 지원하는 형식은 파이토치이다. 
# 물론 다른 형식도 가능하면 파이토치로 훈련한 모델을 텐서플로 환경에서도 구동할 수 있다.
# 해당 튜토리얼은 5단계로 구분될 것이다.
# 1. 간략한 확인 / 설치
# 2. 기본적인 부분 안내하기
# 3. 사전학습된 모델을 파인튜닝하는 법 / 모델을 잓어하고 공유하는법
# 4. 트랜스포머의 설계도, 개념 확인
# 5. 모든 클래스와 함수 설명하기 ( 메인클래스에 대한 설명, 모델에 대한 설명, 내부 유틸리티 설명)

In [None]:
# 모델의 종류
# 모델은 대체로 4개의 모델로 분류된다. 
# 자연어 처리: 텍스트 분류, 개체명 인식, 질의응답, 언어 모델링, 요약, 번역, 객관식 질의응답, 텍스트 생성
# 컴퓨터 비전: 이미지 분류, 객체 탐지, 객체 분할
# 오디오: 자동음성인식, 오디오 분류
# 멀티모달: 표 질의응답, 광학 문자 인식 (OCR), 스캔한 문서에서 정보 추출, 비디오 분류, 시각 질의응답

In [None]:
# ALBERT
# ALBERT는 "ALBERT: A Lite BERT for Self-supervised Learning of Language Representations" 논문에서 소개된 모델로, 
# Google Research와 Chicago의 Toyota Technological Institute에서 개발되었다. 이 모델은 BERT의 라이트 버전으로, 
# 자기 지도 학습(self-supervised learning)을 사용하여 언어 표현을 학습한다.
#
# 특징
# 경량화된 구조: ALBERT는 BERT의 파라미터 수를 줄이면서도 효과적인 언어 표현 학습을 가능하게 하는 구조적 개선을 도입하였다.
# 이를 통해 더 작은 메모리와 더 빠른 학습 속도를 달성할 수 있다.
# 교차 레이어 파라미터 공유(Cross-layer parameter sharing): ALBERT는 레이어 간의 파라미터를 공유하여 모델의 크기를 줄인다. 
# 이는 메모리 사용량을 줄이고, 오버피팅(overfitting)의 위험을 감소시키는데 유용하다.
# 자기 지도 학습(Self-supervised learning): ALBERT는 문장의 일부를 가리고 (masked language model), 
# 이를 예측하는 방식으로 학습하며. 이를 통해 언어의 깊은 이해를 도모한다.
# 다양한 언어 처리 작업에 적용 가능: ALBERT는 문장 분류, 질문 답변, 명명된 엔터티 인식 등 다양한 자연어 처리 작업에 
# 사용될 수 있다.
#
# 사용 사례
# 문장 분류: 감정 분석, 스팸 탐지 등 문장의 분류 작업에 사용된다.
# 질문 답변 시스템: 사용자의 질문에 대한 답변을 생성하거나 관련 정보를 찾는 데 사용된다.
# 텍스트 요약: 긴 문서를 요약하는 작업에 효과적으로 사용될 수 있다.
# 
# 요약
# ALBERT는 BERT와 유사한 아키텍처를 갖고 있지만, 파라미터 수가 적고, 학습 속도가 빠르며, 메모리 효율성이 높다는 장점을 갖고 있다.
# 이러한 특징으로 인해, 자원이 제한적인 환경에서도 효과적으로 사용될 수 있다.

In [None]:
# BART
# BART는 Facebook에서 개발한 모델로, "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, 
# Translation, and Comprehension"이라는 논문을 통해 발표되었다. 이 모델은 자연어 생성(Natural Language Generation), 번역, 
# 이해에 중점을 두고 있는 시퀀스-투-시퀀스(sequence-to-sequence) 구조의 사전 훈련(pre-training) 모델이다.
#  
# 특징
# 시퀀스-투-시퀀스 구조: BART는 인코더(encoder)와 디코더(decoder)를 포함하는 전통적인 시퀀스-투-시퀀스 구조를 사용한다. 
# 이 구조는 다양한 언어 처리 작업에 효과적입니다.
# 노이즈 제거를 위한 학습: BART는 원문에서 노이즈(예: 문장의 일부 삭제, 순서 재배치 등)를 도입한 다음, 
# 이를 원래의 형태로 복원하는 방식으로 학습하며. 이를 통해 모델은 더 강력한 문맥 이해 능력과 텍스트 복원 능력을 개발한다.
# 다양한 NLP 작업 적용 가능: BART는 텍스트 요약, 질문 응답, 기계 번역 등 다양한 자연어 처리 작업에 적용 가능하다.
# 높은 성능: BART는 여러 자연어 처리 벤치마크에서 뛰어난 성능을 보여주었다.
#
# 사용 사례
# 텍스트 요약: 긴 문서의 중요한 내용을 요약하는 데 사용된다.
# 기계 번역: 하나의 언어에서 다른 언어로 문장을 번역하는 데 활용된다.
# 질문 응답: 주어진 문맥에서 질문에 대한 답변을 생성한다.
# 
# 요약
# BART는 그 구조와 학습 방법으로 인해 다양한 언어 처리 작업에서 우수한 성능을 발휘한다.
# 특히 텍스트 생성과 관련된 작업에서 강력한 성능을 보이며, 다양한 언어와 도메인에 걸쳐 활용될 수 있는 범용적인 모델이다. .

In [None]:
# 기타모델
# BARThez : 프랑스어 전문 시퀀스-투-시퀀스(sequence-to-sequence) 모델
# BARTpho : 베트남어 전문 시퀀스-투-시퀀스(sequence-to-sequence) 모델


In [None]:
# 둘러보기
# pipeline을 사용하여 추론하고, 사전학습된 모델과 전처리기를 AutoClass로 로드하고, 
# PyTorch 또는 TensorFlow로 모델을 빠르게 학습시키는 방법을 소개한다.
# 시작하기 전에 필요한 라이브러리가 모두 설치되어 있는지 확인해야 한다. 
!pip install transformers datasets           
# transformers datasets를 설치하는것부터 시작한다. 
# 만약 파이토치를 설치한다면
pip install torch
# 텐서플로를 설치한다면 
pip install tensorflow
# 선호하는 머신러닝 프레임워크를 설치하면 된다. 

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

[{'label': 'POSITIVE', 'score': 0.8371170163154602}]

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.8371170163154602},
 {'label': 'NEGATIVE', 'score': 0.9995144605636597}]

In [None]:
# 또는 원하는 라벨을 설정할 수 있다. 
from transformers import pipeline

classifier = pipeline('sentiment-ana')