# NLP Pre Training (사전학습)

- 대규모의 언어 데이터를 이용하여 미리 만들어진 모델을 이용해, 다른 모델이나 어플리케이션에 적용하는 기법 
- 신경망 알고리즘의 전이 학습(Transfer Learning / 특정 대상을 훈련시킨 모델을 다른 대상에도 예측할 수 있도록 바꾸는 머신러닝 기법) 을 활용 
- 자연어 처리에서 Pre Training Model 
    - Pre Training Word Embedding 
        - 방대한 데이터로 Word2Vec 등과 같은 임베딩 알고리즘으로 사전에 학습된 임베딩 벡터를 가져와 사용하는 방법
        - 벡터로만 변환해 처리하기 때문에, 동음이어 구분 불가 
        
    - Pre Training Language Modeling :
        - 모델이 주어진 문장을 바탕으로 다음 단어를 예측해 나가며 학습하는 사전학습 방식
        - 문맥을 이해하고 파악하는 방식 / 생성형 모델에 주로 사용 
        - GPT (Generative Pre-Trained Transformer)
    
    - Masked Language Modeling, MLM
        - 텍스트에서 무작위로 단어를 가리고(Masking) 모델이 가려진 단어를 채우도록 학습하는 방식 
        - 문맥 내 어떤 단어가 자연스럽게 채워지는 지 학습 
        - 판별모델에 주로 사용 
        - BERT 

# BERT 

## (Bidirectional Encoder Representation from Transformers)

![imge0](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FkZl9A%2Fbtrs5ypcO5M%2Fp49zqNvmpcH4jS4i3TRhn1%2Fimg.png)

- 위키피디아(25억개 단어)와 BooksCorpus(8억 단어)를 레이블이 없는 텍스트 데이터로 사전 훈련된 언어 모델 
- **Fine-Tuning** : 이미 설계된 모델이 다른 작업(다른 데이터)에 대해 파라미터 재 조정하기 위한 추가훈련 과정 
- PreTraining 된 BERT 모델을 가져와 챗봇Q&A를 이용하여 Fine-Tuning 실시 


- **BERT Model**의 구성
    - Word Embedding : BERT는 단어를 Embedding하는 세가지 Embedding 파트가 존재
        1. Word Piece Embedding : 단어를 벡터 형태로 변환 Embedding
        2. Postition Embedding : 단어의 위치정보를 계산하는 Embedding
        3. Segment Embedding : 각 문장을 구분하는 정보를 갖는 Embedding
    - 양방향 트랜스포머 구조 (Bidirectional Transformer) :
        - BERT는 문장의 앞뒤 문맥을 동시에 고려하여 각 단어의 의미를 이해 
        
         1. Masked Language Model MLM
             - BERT의 핵심 훈련 방식으로, 텍스트에서 무작위로 단어를 가리고 (Masking) 모델이 그 빈자리를 채워 학습 
         2. Next Sentence Prediction NSP
             - 두 개 문장이 주어졌을 때, 두번째 문장이 첫번째 문장의 논리적인 후속 문장인지를 판별하도록 훈련 

# BERT Embedding 

- **Word Piece Embedding**
    - 입력 Text를 숫자형태의 Vector로 변환 

- **Postition Embedding** 
    - 문맥을 반영한 입베딩(Contextual Embedding)을 사용 
    - 단어의 위치정보를 처리하는 Layer를 이용해 학습 
    ![imge2](https://wikidocs.net/images/page/115055/%EA%B7%B8%EB%A6%BC5.PNG)

- **Segment Embedding**
    - 각 문장의 구분을 위한 **Segment Embedding**기법을 사용 
    - NSP 다음 문장에 대한 예측을 수행하기 위해 임베딩 
    - [CLS] : 문장의 처음을 알리는 토큰 
    - [SEP] : 문장과 문장을 구분하는 토큰 
        ![imge3](https://wikidocs.net/images/page/115055/%EA%B7%B8%EB%A6%BC7.PNG)

# MLM 

## (Masked Language Model)

- 텍스트에서 임의로 일부 단어를 가리고, 빈칸을 모델이 채우도록 학습 
    - 원본 문장 : 나는 고양이와 강아지 중 어떤 걸 키울지 고민이야. 
    - 마스킹 실시 : 나는 [Mask]와 [Mask] 중 어떤 걸 키울지 고민이야.
- BERT는 사전 훈련을 위해서 인공 신경망의 입력으로 들어가는 입력 텍스트의 15%의 단어를 Random으로 Masking 

In [1]:
# !pip install transformers

In [2]:
# Keras 버전이 3이상인 경우 설치 
# !pip install tf-keras

In [10]:
# !pip install torch torchvision torchaudio

In [None]:
# 아나콘다 프롬프트 
# !pip install --upgrade transformers

In [4]:
# TensorFlow를 위한 BERT 모델의 변형 (MLM 수행)
from transformers import TFBertForMaskedLM
from transformers import AutoTokenizer

In [6]:
# Pre-trainig Model을 호출 
# klue (Korean Language Understanding Evaluation) 
# 한국어 데이터셋을 이용해 사전학습 된 Pre Training Model을 호출 
# from_pt=True : 해당 모델을 텐서플로우에서 사용 가능 하도록 옵션 
model = TFBertForMaskedLM.from_pretrained('klue/bert-base', from_pt=True)
# from_pretrained : 사전 학습 된 모델의 가중치를 로드하여 모델을 초기화 




Some weights of the PyTorch model were not used when initializing the TF 2.0 model TFBertForMaskedLM: ['cls.predictions.decoder.bias', 'bert.embeddings.position_ids']
- This IS expected if you are initializing TFBertForMaskedLM from a PyTorch model trained on another task or with another architecture (e.g. initializing a TFBertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertForMaskedLM from a PyTorch model that you expect to be exactly identical (e.g. initializing a TFBertForSequenceClassification model from a BertForSequenceClassification model).
All the weights of TFBertForMaskedLM were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForMaskedLM for predictions without further training.


In [7]:
tokenizer = AutoTokenizer.from_pretrained('klue/bert-base')

- Mask 토큰을 예측 

In [8]:
from transformers import FillMaskPipeline

In [9]:
pipe = FillMaskPipeline(model=model, tokenizer=tokenizer)
pipe("텔레마케팅 프로젝트는 정말 [MASK]이다.")

[{'score': 0.10970252752304077,
  'token': 8183,
  'token_str': '대박',
  'sequence': '텔레마케팅 프로젝트는 정말 대박 이다.'},
 {'score': 0.05240199714899063,
  'token': 3841,
  'token_str': '최고',
  'sequence': '텔레마케팅 프로젝트는 정말 최고 이다.'},
 {'score': 0.03158402070403099,
  'token': 5263,
  'token_str': '무료',
  'sequence': '텔레마케팅 프로젝트는 정말 무료 이다.'},
 {'score': 0.028767291456460953,
  'token': 3790,
  'token_str': '처음',
  'sequence': '텔레마케팅 프로젝트는 정말 처음 이다.'},
 {'score': 0.02510373480618,
  'token': 10860,
  'token_str': '큰일',
  'sequence': '텔레마케팅 프로젝트는 정말 큰일 이다.'}]

# NSP 

## (Next Sentence Prediction)

- 두 개의 문장을 준 뒤, 이 문장이 이어지는 문장인지 아닌지를 판별하는 방식으로 학습 
- BERT는 50:50비율로 실제 이어지는 문장과 Random으로 이어붙인 두개의 문장을 주고 훈련 

In [11]:
from transformers import TFBertForNextSentencePrediction

In [12]:
model = TFBertForNextSentencePrediction.from_pretrained('klue/bert-base',
                                                   from_pt=True)

Some weights of the PyTorch model were not used when initializing the TF 2.0 model TFBertForNextSentencePrediction: ['bert.embeddings.position_ids']
- This IS expected if you are initializing TFBertForNextSentencePrediction from a PyTorch model trained on another task or with another architecture (e.g. initializing a TFBertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertForNextSentencePrediction from a PyTorch model that you expect to be exactly identical (e.g. initializing a TFBertForSequenceClassification model from a BertForSequenceClassification model).
All the weights of TFBertForNextSentencePrediction were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForNextSentencePrediction for predictions without further training.


In [14]:
from keras.layers import Softmax
import tensorflow as tf 

In [15]:
# 두개의 문장이 순차적으로 주어졌을 때, 두 문장이 이어지는 문장인지를 판별 
def bert_NSP(first, second):
    # 인코딩 
    encoding = tokenizer(first, second, return_tensors='tf')
    # 모델을 실행 
    outputs  = model(encoding['input_ids'], 
                      token_type_ids=encoding['token_type_ids'])
    logits  = outputs.logits
    softmax = Softmax()
    probs = softmax(logits)
    return tf.math.argmax(probs, axis=-1).numpy()

In [16]:
# 예제 문장 입력 
first = "오늘 맛보래 가서 김치찌개 먹었어!!"
second = "근데 커피를 못마셨네 ㅠㅠ"

In [17]:
# 0 : 두 문장이 이어지는 문장 
bert_NSP(first, second)

array([0], dtype=int64)

In [18]:
first = "오늘 맛보래 가서 김치찌개 먹었어!!"
second = "난 자연어 처리의 왕이 될꺼야!"
bert_NSP(first, second)

array([1], dtype=int64)

# BERT를 이용한 Chat Bot 

In [19]:
# !pip install sentence-transformers

In [28]:
# !pip install --upgrade transformers

In [7]:
import numpy as np
import pandas as pd 
from sentence_transformers import SentenceTransformer
from tqdm.auto import tqdm

In [8]:
tqdm.pandas() # apply 함수를 활용할 때, 진행상황을 Bar 형태로 출력 

In [9]:
df1 = pd.read_csv('39_Data.csv')
print(df1.shape)
df1.head(3)

(11823, 4)


Unnamed: 0.1,Unnamed: 0,Q,A,label
0,0,12시 땡!,하루가 또 가네요.,0
1,1,1지망 학교 떨어졌어,위로해 드립니다.,0
2,2,3박4일 놀러가고 싶다,여행은 언제나 좋죠.,0


In [10]:
model_url = "sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens"

In [11]:
model = SentenceTransformer(model_url)

In [29]:
# 문장 인코딩 
model.encode(df1['Q'][0])

array([ 2.01795846e-01, -3.44380960e-02,  1.53957236e+00,  1.06975073e-02,
        3.79792243e-01,  1.42492890e-01,  1.82864189e-01,  5.58312416e-01,
       -3.94889325e-01, -1.17657565e-01, -2.32988864e-01,  3.39581445e-02,
       -2.47104242e-01,  3.14535618e-01,  5.60950160e-01, -1.05517283e-01,
       -2.92884797e-01, -2.04060242e-01,  3.35199498e-02, -3.21389586e-01,
       -1.86384037e-01,  8.55993405e-02,  1.51072219e-01, -3.84577215e-01,
       -2.92813510e-01, -4.39995140e-01,  4.83394325e-01, -9.67642903e-01,
       -1.51496110e-02,  3.77277075e-03,  2.49316260e-01, -6.04051240e-02,
        2.29004756e-01, -2.45080944e-02, -4.22660150e-02, -7.88767487e-02,
       -5.18548489e-01, -2.25840006e-02, -1.13830008e-01, -4.75925982e-01,
        8.06325793e-01, -3.97932492e-02,  3.83716673e-01,  2.23248690e-01,
       -7.62536898e-02, -7.43276477e-02,  3.57227288e-02,  2.59036928e-01,
       -3.44938219e-01, -5.93228459e-01, -8.21068406e-01, -4.05041903e-01,
        1.16658591e-01,  

In [30]:
df1['embedding'] = df1['Q'].progress_apply(lambda x : model.encode(x))

  0%|          | 0/11823 [00:00<?, ?it/s]

In [31]:
# 코사인 유사도를 계산하는 함수 
def cos_sim(A,B):
    return np.dot(A,B) / (np.linalg.norm(A) * np.linalg.norm(B)) 

In [32]:
# 새로운 질문이 들어왔을 때, 해당 질문에 대한 답변중, 유사도가 가장 높은 
# 답변을 출력하는 함수를 구성
def return_answer(Q):
    embedd = model.encode(Q)
    df1['Score'] = df1['embedding'].apply(lambda x : cos_sim(x, embedd))
    return df1.loc[df1['Score'].idxmax()]['A']

In [33]:
오늘은 맛보래에서 점심을 먹을까? 

'얼른 맛난 음식 드세요.'

In [34]:
return_answer('이 과정이 끝나면 그녀에 고백할거야!')

'먼저 고백해보세요.'

In [36]:
path = 'C:/Users/rlack/OneDrive/BERT_Model'

In [37]:
model.save(path)

# BERT모델 활용 토픽모델링

In [42]:
#!pip install keybert

In [46]:
# !pip install --upgrade transformers

In [12]:
from keybert import KeyBERT

In [13]:
kbm_model = KeyBERT(model=model)

In [14]:
text1 = """금융 시장은 복잡하고, 그 안에서의 전략과 전술은 수많은 변수에 의해 결정됩니다. 우선, 금융의 세계에서 '전술'이란 단기적 목표를 달성하기 위한 구체적인 행동 방안을 의미합니다. 이는 투자자가 시장의 변동성을 이용하거나, 특정 금융 상품에 집중하는 것과 같은 결정을 포함합니다. 
전술적 접근은 시장의 단기적 움직임에 초점을 맞추며, 이를 통해 빠른 수익을 창출하려는 목적을 가지고 있습니다. 예를 들어, 경제 지표 발표 전후의 시장 변동성을 이용하여 단기적으로 포지션을 취하는 것이 전술적 투자의 한 예가 될 수 있습니다.
반면, 금융 시장에서의 '전략'은 더 장기적인 관점에서 접근합니다. 투자자는 시장의 기본적인 흐름이나, 특정 산업의 장기적 성장 가능성을 분석하여 투자 결정을 내립니다. 이는 주로 광범위한 경제 상황, 산업 동향, 기업의 재무 건전성 등을 기반으로 합니다.
금융 시장의 전술과 전략 사이에는 명확한 차이가 존재합니다. 전술은 주로 짧은 시간 내에 수익을 실현하기 위한 목적으로 사용되는 반면, 전략은 장기적인 가치 증대와 안정적인 수익을 목표로 합니다. 이 둘은 상호 보완적이며, 효과적인 포트폴리오 관리를 위해서는 둘 다 중요한 역할을 합니다.
경제의 글로벌화가 진행됨에 따라, 금융 전술과 전략의 중요성은 더욱 증가하고 있습니다. 다양한 국가의 금리 정책, 통화 가치 변동, 국제 정치적 사건 등이 글로벌 금융 시장에 직접적인 영향을 미치기 때문입니다. 이러한 환경에서는 유연성과 빠른 대응 능력이 필수적이며, 이를 위해 금융 전문가들은 지속적인 시장 분석과 함께 다양한 전술과 전략을 개발하고 적용하고 있습니다.
투자자들은 자신의 투자 목표, 위험 성향, 자본 규모 등을 고려하여 개별적인 전략과 전술을 수립해야 합니다. 이 과정에서 중요한 것은 시장의 변동성과 불확실성에 대비하는 것이며, 이를 통해 장기적으로 안정적인 수익을 창출하는 것입니다.
결론적으로, 금융 시장에서 성공적인 투자는 전략과 전술의 적절한 조합을 통해 이루어집니다. 단기적인 시장 변동을 이용하는 전술적 접근과 장기적인 가치 투자 전략이 조화를 이룰 때, 투자자는 불확실한 금융 시장에서도 지속적으로 성장할 수 있는 기반을 마련할 수 있습니다"""

In [16]:
sent1 = [x for x in text1.split('\n')]

In [17]:
keywords = kbm_model.extract_keywords(sent1, 
                                      keyphrase_ngram_range=(0,1),
                                      top_n=4)

In [18]:
keywords

[[('금융', 0.466), ('투자자가', 0.3908), ('복잡하고', 0.235), ('변동성을', 0.2181)],
 [('경제', 0.5164), ('투자의', 0.4115), ('수익을', 0.4031), ('시장', 0.344)],
 [('투자', 0.5597), ('투자자는', 0.5221), ('금융', 0.5071), ('경제', 0.4902)],
 [('금융', 0.4032), ('가치', 0.3772), ('수익을', 0.3371), ('전략', 0.2577)],
 [('글로벌화가', 0.4906), ('금융', 0.3843), ('경제의', 0.3416), ('글로벌', 0.3185)],
 [('투자자들은', 0.5059), ('투자', 0.4803), ('자본', 0.3595), ('위험', 0.3168)],
 [('투자는', 0.5074), ('투자', 0.5059), ('투자자는', 0.4727), ('금융', 0.4183)]]