# [Huggingface ](https://huggingface.co)

Hugging Face는 인공지능(AI)과 자연어 처리(NLP) 분야에서 혁신적인 도구와 모델을 제공하는 AI 스타트업이다. 2016년에 설립된 이 회사는 주로 오픈소스 라이브러리와 사전 학습된 NLP 모델을 제공을 제공한다.

## 주요 서비스
1. **Transformers 라이브러리**: 다양한 NLP 작업을 위한 사전 학습된 모델(Pretrained Model)들을 제공하는 라이브러리로, BERT, GPT-3, T5 등의 모델과 huggingface 생태계의 다양한 서비스들을 이용할 수있는 파이썬 기반의 오픈소스 라이브러리.
3. **Huggingface Model Hub**: 사용자들이 자신이 훈련한 모델들을 공유 할 수 있는 git 기반 플랫폼. 
2. **Datasets 라이브러리**: 다양한 NLP 데이터셋을 손쉽게 활용할 수 있도록 하는 라이브러리로, 데이터 전처리 및 관리에 유용하다.
4. **API 서비스**: 모델 배포를 위한 API 서비스를 제공하여, 사용자가 쉽게 모델을 배포하고 활용할 수 있도록 지원한다.

## Transformers 라이브러리

Hugging Face의 Transformers는 자연어 처리(NLP) 분야에서 가장 널리 사용되는 라이브러리 중 하나로, 다양한 사전 학습된 모델을 제공하여 연구자들과 개발자들이 손쉽게 NLP 애플리케이션을 구축할 수 있도록 돕는다. 이 라이브러리는 언어 모델링, 텍스트 생성, 번역, 감성 분석, 질문 응답 시스템과 같은 다양한 NLP 작업을 수행할 수 있도록 설계되었다.

### 주요 특징

1. **광범위한 모델 지원**: BERT, GPT-3, RoBERTa, T5 등 다양한 최첨단 모델들을 지원한다. 이러한 모델들은 텍스트 분류, 감성 분석, 질문 답변, 텍스트 생성 등 다양한 NLP 작업에 활용될 수 있다.
2. **파이토치(PyTorch)와 텐서플로우(TensorFlow) 호환**: Transformers 라이브러리는 두 가지 주요 딥러닝 프레임워크와 호환되어, 사용자가 자신의 선호에 따라 선택하여 사용할 수 있다. 
3. **사용자 친화적인 인터페이스**: 간단하고 직관적인 API를 통해 복잡한 모델을 쉽게 불러오고 사용할 수 있다. 이를 통해 빠르게 프로토타입을 만들고 실험할 수 있다.
4. **모델 허브**: HuggingFace Model Hub를 통해 공유되는 수많은 모델들을 Transformers 라이브러리를 이용해 다운받아서 추론까지 쉽게 사용할 수있다.
5. **자동화된 파이프라인**: 파이프라인(pipeline) API를 사용하면 몇 줄의 코드로 다양한 NLP 작업을 수행할 수 있다.

# Transformers 를 이용해 Backbone 사용

## Transformers 설치
- `pip install transformers`

In [1]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.41.2-py3-none-any.whl.metadata (43 kB)
     ---------------------------------------- 0.0/43.8 kB ? eta -:--:--
     ---------------------------- ----------- 30.7/43.8 kB 1.4 MB/s eta 0:00:01
     -------------------------------------- 43.8/43.8 kB 714.4 kB/s eta 0:00:00
Collecting huggingface-hub<1.0,>=0.23.0 (from transformers)
  Downloading huggingface_hub-0.23.3-py3-none-any.whl.metadata (12 kB)
Collecting tokenizers<0.20,>=0.19 (from transformers)
  Downloading tokenizers-0.19.1-cp312-none-win_amd64.whl.metadata (6.9 kB)
Collecting safetensors>=0.4.1 (from transformers)
  Downloading safetensors-0.4.3-cp312-none-win_amd64.whl.metadata (3.9 kB)
Downloading transformers-4.41.2-py3-none-any.whl (9.1 MB)
   ---------------------------------------- 0.0/9.1 MB ? eta -:--:--
   --- ------------------------------------ 0.8/9.1 MB 26.1 MB/s eta 0:00:01
   ------------------- -------------------- 4.4/9.1 MB 56.5 MB/s eta 0:00:01
   -------

### Tokenizer, Model Loading
- Huggingface 모델 허브에서 제공하는 처리 모델을 다운받아 로딩한다.
- 다운로드된 모델은 `사용자 home 디렉토리\.cache\huggingface` 에 저장된다.
- 미리 학습된 언어 모델을 다운받아 사용할 때는 그 언어모델이 사용한 tokenizer를 같이 받아서 사용한다.

### [Auto Classes](https://huggingface.co/docs/transformers/model_doc/auto)
- Huggingface 에서 제공하는 다양한 모델들은 손쉽게 불러오고 사용할 수 있도록 설계된 유틸리티 클래스들을 말한다.
- 미리 학습된 특정 모델의 이름(모델 허브상에서 제공되는 이름)이나 저장된 local 경로를 제공하면 해당 모델에 맞는 적절한 클래스와 구성 요소를 자동으로 로드한다.
- 사용자는 모델을 사용하기 위한 정확한 클래스를 몰라도 쉽게 다양한 종류의 모델을 사용할 수있다.

#### 주요 Auto Class

1. **AutoModel**
   - 주어진 모델 이름에 맞는 사전 학습된 모델을 자동으로 로드한다.
   - 예: `AutoModel.from_pretrained("bert-base-uncased")`: BERT 모델을 로드한다.

2. **AutoTokenizer**
   - 해당 모델에 적합한 토크나이저를 자동으로 로드한다.
   - 예: `AutoTokenizer.from_pretrained("bert-base-uncased")`: BERT 모델에 맞는 토크나이저를 로드한다.

3. **AutoConfig**
   - 모델의 설정(config)을 자동으로 로드한다. 모델 설정에는 모델의 하이퍼파라미터와 모델 구조 정보가 포함된다. 이 설정을 이용해 모델을 생성할 수있다.
   - 예: `AutoConfig.from_pretrained("bert-base-uncased")`

4. **AutoModelForSequenceClassification**
   - 시퀀스(Text) 분류 작업을 위한 모델을 자동으로 로드한다.
   - 예: `AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")`

5. **AutoModelForQuestionAnswering**
   - 질문-응답 작업을 위한 모델을 자동으로 로드한다.
   - 예: `AutoModelForQuestionAnswering.from_pretrained("bert-base-uncased")`

6. **AutoModelForTokenClassification**
   - 토큰 분류 작업(예: 개체명 인식)을 위한 모델을 자동으로 로드한다.
   - 예: `AutoModelForTokenClassification.from_pretrained("bert-base-uncased")`

In [2]:
from transformers import AutoModel, AutoConfig, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
print(type(tokenizer))
model = AutoModel.from_pretrained("bert-base-uncased")
print(type(model))
conf = AutoConfig.from_pretrained("bert-base-uncased")
print(type(conf))
model2 = AutoModel.from_config(conf)
print(type(model2))

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

<class 'transformers.models.bert.tokenization_bert_fast.BertTokenizerFast'>


model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

<class 'transformers.models.bert.modeling_bert.BertModel'>




<class 'transformers.models.bert.configuration_bert.BertConfig'>
<class 'transformers.models.bert.modeling_bert.BertModel'>


In [3]:
gpt_model = AutoModel.from_pretrained('openai-community/gpt2')
print(type(gpt_model))

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

<class 'transformers.models.gpt2.modeling_gpt2.GPT2Model'>


## kcbert
- BERT 한글 텍스트 학습 모델
- https://huggingface.co/beomi/kcbert-base

### 토크나이저 모델 load

In [4]:
# 모델
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("beomi/kcbert-base")  # BertTokenizer: WordPiece 방식 토크나이저
model = AutoModel.from_pretrained("beomi/kcbert-base")

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config.json:   0%|          | 0.00/619 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/250k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

### 입력값 토큰화

In [7]:
#  batch_encode_plus 와 동일 
### call함수 호출

sentences = ['안녕하세요. 반갑습니다.','KcELECTRA가 릴리즈 되었습니다!','KcELECTRA는 보다 더 많은 데이터셋, 그리고 더 큰 General vocab을 통해 KcBERT 대비 모든 태스크에서 더 높은 성능을 보입니다.']

features = tokenizer(
    sentences,
    max_length=10,
    padding= 'max_length',  #`True` or `'longest'`, `'max_length'`, `False` or `'do_not_pad'`(default)
    return_tensors="pt", # np: 넘파이, tf: TF, pt: pytorch
)
features

ValueError: Ture is not a valid PaddingStrategy, please select one of ['longest', 'max_length', 'do_not_pad']

In [50]:
from pprint import pprint
# input_ids: 워드피스 토큰화 -> token index로 변환한 결과
pprint(features['input_ids']) # 2: 문장시작(CLS), 3: 문장 끝(SEP), 0: 패딩(PAD)  표현하는 special token,  (max_length=10으로 했으므로 token idx가 10개로 구성됨.)
print("-"*20)
# attention mask: 일반 토큰인지 패딩인지 mask 행렬. padding 아닌 token => 1, padding인 token => 0 
pprint(features['attention_mask'])
print("-"*20)
# token_type_ids: segment 정보 (token pair일때 첫번째는 0, 두번째는 1로 채워진다. -> 이 둘을 하나의 tokens로 묶어서 반환하는데 그 구분-https://hyen4110.tistory.com/89 확인) 한개 문장일 경우 모두 0이된다.
pprint(features['token_type_ids'])

tensor([[    2, 19017,  8482,     3,     0,     0,     0,     0,     0,     0],
        [    2, 15830,     5,     3,     0,     0,     0,     0,     0,     0],
        [    2,  9909,  2483,  2688,  4755,  8186,    32,     3,     0,     0]])
--------------------
tensor([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0],
        [1, 1, 1, 1, 0, 0, 0, 0, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 0, 0]])
--------------------
tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])


In [None]:
tokenizer.encode("안녕하세요. 저는 홍길동입니다.")  # -> [2, 19017, 8482, 3]
tokenizer.decode([2, 19017, 8482, 3]) # -> [CLS] 안녕하세요 [SEP]
# result = tokenizer.batch_encode_plus(sentences)# 한번에 여러개
print(type(result))
result['input_ids']  # list - 문장 -> 토큰 id 리스트
result['token_type_ids'] # pair 일때 0번, 1번 어떤 문장의 토큰인지
result['attention_mask']  # 토큰인지 패딩인지

In [None]:
# tokenizer.get_vocab()
# tokenizer.vocab_size
# tokenizer.convert_ids_to_tokens(2)
# tokenizer.convert_tokens_to_ids("내일")
# tokenizer.convert_tokens_to_string(["내일", "또", "봐"])

<class 'transformers.tokenization_utils_base.BatchEncoding'>


[[1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1]]

In [21]:
tokenizer.ids_to_tokens[3], tokenizer.ids_to_tokens[2]

('[SEP]', '[CLS]')

### BERT 모델을 이용해 문장수준 Vector생성

In [52]:
features.keys()

dict_keys(['input_ids', 'token_type_ids', 'attention_mask'])

In [54]:
outputs = model(**features) # 'input_ids', 'token_type_ids', 'attention_mask' 입력

In [55]:
outputs.keys()

odict_keys(['last_hidden_state', 'pooler_output'])

In [None]:
# 'last_hidden_state' : rnn의 outputs 같이 모든 토큰에 대한 출력 feature
# 'pooler_output' : rnn의 hidden_state 같이 마지막 token에 대한 처리값. 입력 문장, 텍스트에 대한 단일 vector 표현

In [31]:
print(outputs.last_hidden_state.shape)  # feature값
# [3:입력문장수, 10:토큰수-max_length설정한 것, 768: vector] -> 10개 토큰이 768개 features로 변환된 것. 
##### 이것은 token별 vector가 나오므로 **개체명 인식 task** 와 같이 단어별로 수행해야 하는 task에 활용할 수있다.

torch.Size([3, 10, 768])


### Model 추론결과
- **last_hidden_state**
    - 모든 token들에 대한 feature
    - 출력이 **many**인 작업에 사용한다.
- **pooler_output**
    - 입력 문장, 텍스트에 대한 단일 vector 표현을 말한다.
    - BERT는 \[CLS\] 토큰(문장시작)의 출력 임베딩을 사용해서 생성한다.
        - \[CLS\] 토큰은 입력 시퀀스의 맨 앞에 추가되며, 문장의 전체적인 의미를 얻기 위해 설계된 특수 토큰임.
    - pooler의 동작과정
        1. \[CLS\] 토큰의 Embedding 추출: Text sequence가 BERT 모델을 통과하면 각 토큰에 대한 임베딩이 생성된다.(last_hidden_state). 이 중 첫번째 토큰인 \[CLS\] 토큰의 임베딩을 선택한다.
        2. Embedding Pooling Layer로 1의 임베딩 전달: Pooling Layer는 Pooler를 생성하는 Fully Connected Layer(선형변환)와 Activation 함수(주로 Tanh를 사용한다.)를 통과시킨다.
        3. pooler output: 2의 과정을 통과한 결과가 최종 **pooler_output**이 된다. 이 값이 **전체 입력 시퀀스에 대한 요약정보로 사용된다.**
    - **pooler output 이용**   
       -  이 값은 문장을 입력받아 처리하는 task(ex: 문서분류-감정분석,문장카테고리분류, 문장유사도 분석)의 입력으로 사용한다.

In [57]:
print(outputs.pooler_output.shape)
### CLS(문장시작-2) 토큰이 변환된 Vector

torch.Size([3, 768])
