# AI모델활용 3주차

## 3-1 허깅페이스와 트랜스포머

### Trnasformers 라이브러리
Transformers 라이브러리는 다양한 NLP 모델을 쉽게 사용할 수 있도록 도와주는 Hugging Face의 오픈소스 라이브러리, 이 라이브러리를 통해 최신 NLP 모델들을 불러와 텍스트 생성, 감정 분석, 번역 등 다양한 작업에 활용할 수 있다.

> 참고! 모델을 가져와서 사용할 땐 vscode가 좋다!!

#### pipeline

* ***pipeline이란?***
 1. 텍스트 분류: 감정분석, 주제 분류, 등의 작업을 지원하며, 문장의 감정을 예측하거나 특정 카테고리분류 가능
 2. 질의 응답: 주어진 문서와 질문을 입력받아 문서에서 질문에 대한 답변을 찾는 작업
 3. 텍스트 생성: 주어진 문장을 기반으로 텍스트를 생성하며, 대화생성이나 문장 완성 가능
 4. 번역
 5. 요약: 긴 텍스트를 간단히 요약해 주요 내용 추출 가능
 6. 개체명 인식: 문장 내에서 이름, 위치ㅡ 조직 등을 식별하여 태그를 붙이는 작업
 7. 문장 유사도: 두 문장의 유사도를 계산하는 작업으로 의미적 유사성 측정 가능


* ***pipeline의 요소 "text-generation" 그 외***
 1. "text-generation": 텍스트 생성 작업 (예: 대화 생성, 글 작성)
 2. "sentiment-analysis": 간단한 감성어 분석
 3. "question-answering": 질의응답 작업
 4. "translation_xx_to_yy": 번역 작업 (예: "translation_en_to_fr"는 영어에서 프랑스어로 번역)
 5. "summarization": 텍스트 요약
 6. "ner": 개체명 인식 (Named Entity Recognition)
 7. "sentence-similarity": 문장 유사도 측정
 8. "fill-mask": 마스크된 텍스트 채우기 (BERT 모델 등에서 사용)
 9. "text-classification": 텍스트 분류 작업 (예: 감정 분석)

#### 임베딩

* ***1. 워드 임베딩***
 - 자연어 처리에서 단어를 벡터로 처리 (워드투백, 페스트 텍스트)
 
* ***2. 센텐스 임베딩***
 - 문장 전체를 벡터로 처리
 - 문장간의 유사도 분석, 의미적 관계 분석
 - 딥러닝, 머신러닝의 입력으로 활용 가능
 
* ***3. 이미지 임베딩***
 - 이미지 데이터를 벡터로 표현
 - 이미지의 픽셀 데이터를 저차원 벡터로 분석하고 이미지간의 유사도 분석 가능
 - 딥러닝의 CNN과 비슷하지만 여러가지 방법을 도입하는게 좋다.
 
* ***4. 그래프 임베딩***
 - 그래프 구조를 벡터로 표현
 - 노드간의 관계를 벡터 공간에서 표현
 - 네트워크 분석, 추천 시스템에서 활용
 
#### 유사도

- 두 개의 데이터가 얼마나 비슷한지 수치적으로 표현하는 방법
- 임베딩 벡터에 유사도를 측정하는 방법 (***코사인 유사도***, 유클리디안 루컬?)
- 벡터간의 거리나 각도를 계산하는 방법이다.
 
------

#### 1. 트랜스포머를 활용한 모델사용 pip install transformers==4.37.0

* ***result = generator("I have a cat", max_length=100, num_return_sequences=2)***
 1. max_length=100는 생성할 문장의 최대 길이를 지정한다.(항상 최대 길이로 문장을 만드는건 아니다.)
 2. num_return_sequences=2는 문장의 개수를 지정한다.
 
```python
# 1. 트랜스포머를 활용한 모델 사용
from transformers import pipeline

generator = pipeline("text-generation", model = "gpt2")

# 텍스트 생성
result = generator("I have a cat", max_length=100, num_return_sequences=2)
print(result)
```
 
------ 
 
 
#### 2. 감정어 분석
문장을 해석해서 어느정도의 감정을 캐치하고 값을 출력한다. ex) Positive

* ***버트 모델 model="roberta-base":***
버트기반 모델은 핵심적인 논리부분은 대규모 데이터셋을 통해 사전학습 시키고 마지막 레이어(번역, 분류 등) 목적에 따라 바꿀 필요가 있는 레이어는 사용자에게 맡기기도 한다.

```python
# 2. 감성어 분석
from transformers import pipeline

sentiment_analysis = pipeline("sentiment-analysis", model="roberta-base")
result = sentiment_analysis("I love you")
print(result)
```

#### 3. 워드 투 백  pip install gensim

```python
import numpy as np
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess
from scipy.spatial.distance import cosine


sentences = [
    "The quick brown fox jumps over the lazy dog",
    "I love playing with my pet dog",
    "The dog barks at the stranger",
    "The cat sleeps on the sofa",
]

processed = [simple_preprocess(sentence) for sentence in sentences]
print(processed)

model = Word2Vec(sentences=processed, vector_size=5, window=5, min_count=1, sg=0)
dog = model.wv['dog']
cat = model.wv['cat']

sim = 1 - cosine(dog, cat)
print(sim)
```


*****

## Hugging Face: 사전 학습 및 파인튜닝 이해하기


### 사정학습이란? Per-training
- 대규모의 텍스트 데이터셋을 사용해 모델이 일반적인 언어 이해 능력을 학습하는 과정
- 단순히  언어의 패턴과 구조를 학습하는 것이 목적

#### 특징
1. 대규모 데이터셋 이용
2. 일반적인 언어 이해 
3. 작업 비특화: 특정 작업에 맞춰진 학습이 아닌 전반적인 언어 이해에 초점을 맞춘다.

#### 목적
사적학습을 통해 모델이 언어의 기본적인 규칙을 배우고 이후 특정 작업에 빠르게 적응하게 만드는 것이다 (Hugging Face의 대부분 모델들은 이 과정을 거쳤다.)

* ***Masked Language Modeling (MLM):*** 문장의 일부 단어를 마스킹하고 예측하도록 학습(문맥의 양방향으로 이해 가능)
* ***Next Sentence Prediction (NSP):*** 두 문장이 주어졌을 때 두번째 문장이 척 번째 문장 뒤에 자연스럽게 이어지는지 예측한다.(문장간의 관계를 평가)

### 파인튜닝이란? Fine-tunung
- 사전 학습된 모델을 특정 작업에 맞게 추가로 학습 시키는 과정이다. 
- Bert를 감정 분석에 사용하려면 사전 학습된 가중치를 유지하면서 감정 분석 작업에 맞게 모델의 가중치를 조정한다.

#### 특징
1. 작업 특화: 특정 작업(텍스트 분류, 번역, 질의 응답 등)에 맞춰 모델을 최적화하는 과정
2. 사전 학습 가중치 활용: 일부 가중치만 조정
3. 적은 데이터로도 가능

#### 목적
- 특정 작업에서 최상의 성능을 발휘하도록 모델을 조정하는 과정이며 사전학습 덕분에 더 빠르고 적은 데이터로 이루어진다.

In [1]:
# 1. 트랜스포머를 활용한 모델 사용
from transformers import pipeline

generator = pipeline("text-generation", model = "gpt2")

# 텍스트 생성
result = generator("I have a cat", max_length=100, num_return_sequences=2)
print(result)

  from .autonotebook import tqdm as notebook_tqdm
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'I have a cat," he continued. "She\'s very shy, and I\'ll do whatever it takes to make her comfortable and free of the pain. Plus she\'s a strong woman. So I\'m pretty sure if they\'re not going to make any kind of fuss over it they\'ll just leave. In other words, it takes about 3 to 4 days to get them to get back in social contact. It takes time. But they\'re OK about not talking. We\'ll let them know the'}, {'generated_text': 'I have a cat and dog in your lives. So let me show you a little bit of how I like it that you won\'t find it impossible to get yourself to go outside without some work on you to support and take care of it. That you have to feel that you are the main victim in your life."\n\nWentz, who has not yet moved outside as a cat, is convinced this is the first time in her life that a cat doesn\'t get an honest visit from'}]


In [2]:
# 2. 감성어 분석
from transformers import pipeline

sentiment_analysis = pipeline("sentiment-analysis", model="roberta-base")
result = sentiment_analysis("I love you")
print(result)

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


[{'label': 'LABEL_1', 'score': 0.5455388426780701}]


In [3]:
import numpy as np
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess
from scipy.spatial.distance import cosine


sentences = [
    "The quick brown fox jumps over the lazy dog",
    "I love playing with my pet dog",
    "The dog barks at the stranger",
    "The cat sleeps on the sofa",
]

processed = [simple_preprocess(sentence) for sentence in sentences]
print(processed)

model = Word2Vec(sentences=processed, vector_size=5, window=5, min_count=1, sg=0)
dog = model.wv['dog']
cat = model.wv['cat']

sim = 1 - cosine(dog, cat)
print(sim)

[['the', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog'], ['love', 'playing', 'with', 'my', 'pet', 'dog'], ['the', 'dog', 'barks', 'at', 'the', 'stranger'], ['the', 'cat', 'sleeps', 'on', 'the', 'sofa']]
-0.16885964313818547


In [6]:
from transformers import BertModel, BertTokenizer
import torch
from scipy.spatial.distance import cosine

# 모델 생성과 토큰화
model_name = "bert-base-uncased"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

# 임베딩할 문장
sentences = [
    "The quick brown fox jumps over the lazy dog",
    "A fast brown fox leaps over a sleepy dog"
]

# 문장 토큰화
input1 = tokenizer(sentences[0], return_tensors='pt')
input2 = tokenizer(sentences[1], return_tensors='pt')

# 모델을 이용해서 문장 임베딩 생성
with torch.no_grad():
    output1 = model(**input1)
    output2 = model(**input2)

# 문장 임베딩 벡터 생성
embedding1 = output1.last_hidden_state.mean(dim=1).squeeze().cpu().numpy()
embedding2 = output2.last_hidden_state.mean(dim=1).squeeze().cpu().numpy()

# 코사인 유사도 계산
similarity = 1 - cosine(embedding1, embedding2)

print(f"Cosine similarity between the two sentences: {similarity:.4f}")



Cosine similarity between the two sentences: 0.9166


In [8]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# NLLB 모델과 토크나이저 로드
model_name = "facebook/nllb-200-distilled-600M"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# 번역할 문장
sentence = "The quick brown fox jumps over the lazy dog"

# 토큰화 및 입력 설정
inputs = tokenizer(sentence, return_tensors="pt")

# 입력 문장에 대한 번역 수행 (영어 -> 한국어)
forced_bos_token_id = tokenizer.lang_code_to_id["kor_Hang"]
generated_tokens = model.generate(inputs["input_ids"], forced_bos_token_id=forced_bos_token_id)

# 번역 결과 디코딩
translated_text = tokenizer.decode(generated_tokens[0], skip_special_tokens=True)

print(f"Translated text: {translated_text}")


KeyboardInterrupt: 

In [15]:
from transformers import BertTokenizer, BertForSequenceClassification
from datasets import load_dataset
import torch
import numpy as np
from sklearn.metrics import accuracy_score

dataset = load_dataset("imdb")

test_dataset = dataset["test"].shuffle(seed=42).select(range(500))

# bert-base-uncased모델은 감정분석 자연어 처리에 사용하는 일반적인 모델
# 특히 영어 텍스트에 좋은 성능
# 대소문자를 구분하지 않음
# 파인튜닝이 필요하다.
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# examples["text"]는 imdb의 리뷰 텍스트를 가져오는 설정
# tokenizer는 버트모델이 이해할 수 있도록 토큰화
# padding은 모든 텍스트를 최대길이로 패딩해준다.(버트 모델에서 기본 패딩은 512이다)
# 패딩된 토큰은 모델에서 무시되고 이 옵션을 통해 모든 입력이 동일한 기대를 갖게 한다.
# truncation은 text의 길이가 초과되면 잘라낸다
def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

# 데이터셋에 토크나이즈를 적용
# map은 데이터셋의 각 토큰에 toknize_function을 진행해주는 과정
# batched은 배치단위로 함수를 적용(여러 샘플을 한번에 처리 속도up)
test_dataset = test_dataset.map(tokenize_function, batched=True)

# 데이터 포맷 설정
# set_format은 데이터셋을 특정형식으로 변환(pytorch)
# columns에는 버트모델에 필요한 데이터 컬럼만 선택하게 한다.
test_dataset.set_format(type="torch", columns=['input_ids', 'attention_mask', 'label'])

# 모델 로드
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)

# 모델을 평가모드로 설정
model.eval()

# 예측 및 평가
# 파이토치의 데이터 로더는 데이터셋을 배치단위로 로드하는 유틸리티 그래서 평가할 데이터셋과 배치사이즈를 설정해준다.
# with torch.no_gred():는 해당 블록에서 실해될 때 그레디언트를 계산하지않게 설정(추론을 목적)
# outputs = model은 모델의 아웃풋 설정
all_preds = []
all_labels = []

for batch in torch.utils.data.DataLoader(test_dataset, batch_size=8):
    with torch.no_grad():
        outputs = model(input_ids=batch['input_ids'], attention_mask=batch['attention_mask'])
    logits = outputs.logits
    preds = np.argmax(logits.numpy(), axis=1)
    all_preds.extend(preds)
    all_labels.extend(batch['label'].numpy())

# 정확도 계산
accuracy = accuracy_score(all_labels, all_preds)
print(f"Accuracy without fine-tuning: {accuracy:.4f}")


Map: 100%|████████████████████████████████████████████| 500/500 [00:03<00:00, 164.76 examples/s]
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Accuracy without fine-tuning: 0.5040


In [16]:
from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset
import torch

# IMDb 데이터셋 로드
dataset = load_dataset("imdb")

# 훈련 및 테스트 데이터셋 분리
train_dataset = dataset['train'].shuffle(seed=42).select(range(1000))  # 1000개 샘플로 축소
test_dataset = dataset['test'].shuffle(seed=42).select(range(500))  # 500개 샘플로 축소

# BERT 토크나이저 로드
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 데이터셋 토크나이징 함수 정의
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

# 데이터셋 토크나이징 적용
train_dataset = train_dataset.map(tokenize_function, batched=True)
test_dataset = test_dataset.map(tokenize_function, batched=True)

# 모델 입력으로 사용하기 위해 데이터셋 포맷 설정
train_dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'label'])
test_dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'label'])

# BERT 모델 로드
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

# 훈련 인자 설정
# 모델훈련시 필요한 설정을 정리
training_args = TrainingArguments(
    # 결과의 디렉토리(훈련 중 생성된 모델파일 및 로그 저장할 디렉토리)
    output_dir='./results',
    # 훈련 에폭
    num_train_epochs=3,
    # 각 디바이스에서 훈련할 때 사용할 배치크기 설정
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    # 에폭 단위로 평가(에폭이 끝날 때마다 평가 진행)
    evaluation_strategy="epoch",
    # 10000스텝마다 모델 저장 설정
    save_steps=10_000,
    # 저장 할 최대 체크포인트의 개수
    save_total_limit=2,
)

# 트레이너 설정
# 모델 훈련 평가 예측을 간단하게 수행할 수 있는 클래스
trainer = Trainer(
    model=model,
    # 학습을 위한 설정 값
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
)

# 모델 훈련
trainer.train()
# 모델 평가
trainer.evaluate()


Map: 100%|██████████████████████████████████████████| 1000/1000 [00:08<00:00, 114.36 examples/s]
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


ImportError: Using the `Trainer` with `PyTorch` requires `accelerate>=0.21.0`: Please run `pip install transformers[torch]` or `pip install accelerate -U`