<a href="https://colab.research.google.com/github/tusker4/Sesac_Saltlux_DeepLearning/blob/main/1_NLP_%EA%B0%9C%EC%9A%94_%EA%B0%84%EB%8B%A8%ED%95%9C_%EC%9B%8C%ED%81%AC%ED%94%8C%EB%A1%9C%EC%9A%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 개요
- 정의
  - GOOGLE : 머신러닝을 사용하여 **텍스트**와 데이터를 처리하고 해석
  - IBM : 컴퓨터에게 인간과 매우 유사한 방식으로 텍스트, 음성 언어를 이해하는 능력을 부여하는 분야
  - AWS : 인간의 언어를 해석, 조작 및 이해하는 능력을 컴퓨터에게 부여하는 기계학습기술

- 데이터
  - 인간의 언어가 담긴 텍스트

- 유형
  - 자연어 **인식(해석)**
  - 자연어 **생성(요약, 번역, 키워드 추출,... **)

# 워크 플로우
## 데이터 획득
- 말뭉치(코퍼스) 획득
  - 텍스트, STT(Speach-to-text), 문서, pdf, epub, ..
  - 수집, site을 통해서 제공?
    - [모두의 말뭉치](https://corpus.korean.go.kr/request/reausetMain.do?lang=ko)
    - [AI허브](https://www.aihub.or.kr/aihubdata/data/list.do?pageIndex=1&currMenu=115&topMenu=100&dataSetSn=&srchdataClCode=DATACL001&srchDataTy=DATA003&searchKeyword=&srchDetailCnd=DETAILCND001&srchOrder=ORDER001&srchPagePer=20

## 데이터 전처리
- 이 공정을 통틀어서 "모델명_토크나이저" 형태로 제공
- 절차
  - 1) 전처리
    - 정제
    - 불용어 처리
  - 2) 토큰화
    - 분절화
      - 단위
        - 문자, 공백기준, 단어, **형태소** 단위로 문장을 분해 하여 토큰을 획득
        - 단어 토큰화
        - 글자 토큰화
        - **형태소 토큰화**
          - NLTK (영미권)
          - **KoNLPy** (한국형 형태소 분석기)
            - Okt
            - MeCab
            - ...
          - spaCy
        - 하위단위 토큰화
          - 바이트 페어 인코딩
          - 워드피스
    - 사전화
      - 분절화로 나온 토큰을 모아서 사전을 구성
      - 벡터화를 위해서 토큰에 수치를 부여(인덱스등등....) : ex) a태그는 1번,....
      - 텍스트 -> 토큰 -> 숫자로 변경
    - 벡터화
      - 문장 -> 토큰단위로 분해 -> 숫자로 대입 -> 백터
      - 텍스트를 수치로 표현
  - 3) 임베딩
    - 벡터화 후 문제 문장의 길이가 제각각 -> 백터의 크기도 제각각 -> 학습 X -> 보정 -> 패딩
    - 패딩  
      - 데이터의 길이를 통일
      - 최대 크기로 통일, 임의의크기로 통일 설정문제 -> 압축으로 해결
    - 임배딩
      - 언어모델
        - 자기 회귀 언어모델
        - 통계적 언어 모델
        - N-gram 언어 모델
        - 한국어기반 언어 모델
        - 펄플렉시티 PPL
        - 조건부 확률
      - 카운트 기반 단어 표현
        - Bag of Wrods(BoW)
        - 문서 단위 행렬(DTM)
        - **TF-IDF(빈도로 구성)**
      - 워드 임베딩
        - 워드투백터(Word2Vec)
        - 글로브(GloVe)
        - Swivel
        - CBOW
        - **Gensim**
        - 계층적 softMax
        - 네거티브 샘플링
        - **fastText**
      - 문장수준 임베딩
        - Doc2Vec
        - **ELMO**



## ★ 모델링


- 순환신경망 기반 모델
  - RNN
  - LSTM
  - GRU
  - **시퀀스-투-시퀀스(Seq2Seq)** : 인코더 to 디코더
- 트렌스포머 기반 모델
  - **어텐션 매커니즘(Attension mechanism)**
  - 인코더 디코더 기반
    - **Transformer**
      - BART
      - T5(Text-to-Text Transfer Transformer)
  - 인코더 기반
    - **BERT**
      - **ELECTRA**
  - 디코더 기반
    - **GPT**

- LLM
  - openai **GPT**
  - Meta **LLAMA**
  - Standford **Alpaca**
  - google Bard/PaLM2



# 순환신경망을 이용한 기본 NLP WorkFlow

## 연구목표
- 네이버 리뷰를 학습, 긍정/부정 -> 감정분석 분류(이진)
- NLP, LSTM 신경망 활용, keras활용
- 정답 : 이진분류(긍정/부정)
- 시스템 통합 : gradio 활용 데모 구성


In [24]:
!pip install -q gradio

##  데이터 획득


In [25]:
#  한글 데이터 제공하는 라이브러리
!pip install -q Korpora

In [26]:
#  데이터로드
from Korpora import Korpora

Korpora.corpus_list()

{'kcbert': 'beomi@github 님이 만드신 KcBERT 학습데이터',
 'korean_chatbot_data': 'songys@github 님이 만드신 챗봇 문답 데이터',
 'korean_hate_speech': '{inmoonlight,warnikchow,beomi}@github 님이 만드신 혐오댓글데이터',
 'korean_parallel_koen_news': 'jungyeul@github 님이 만드신 병렬 말뭉치',
 'korean_petitions': 'lovit@github 님이 만드신 2017.08 ~ 2019.03 청와대 청원데이터',
 'kornli': 'KakaoBrain 에서 제공하는 Natural Language Inference (NLI) 데이터',
 'korsts': 'KakaoBrain 에서 제공하는 Semantic Textual Similarity (STS) 데이터',
 'kowikitext': 'lovit@github 님이 만드신 wikitext 형식의 한국어 위키피디아 데이터',
 'namuwikitext': 'lovit@github 님이 만드신 wikitext 형식의 나무위키 데이터',
 'naver_changwon_ner': '네이버 + 창원대 NER shared task data',
 'nsmc': 'e9t@github 님이 만드신 Naver sentiment movie corpus v1.0',
 'question_pair': 'songys@github 님이 만드신 질문쌍(Paired Question v.2)',
 'modu_news': '국립국어원에서 만든 모두의 말뭉치: 뉴스 말뭉치',
 'modu_messenger': '국립국어원에서 만든 모두의 말뭉치: 메신저 말뭉치',
 'modu_mp': '국립국어원에서 만든 모두의 말뭉치: 형태 분석 말뭉치',
 'modu_ne': '국립국어원에서 만든 모두의 말뭉치: 개체명 분석 말뭉치',
 'modu_spoken': '국립국어원에서 만든 모두의 말뭉치: 구어 

In [27]:
# 'nsmc': 'e9t@github 님이 만드신 Naver sentiment movie corpus v1.0',
corpus = Korpora.load('nsmc')


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/

[Korpora] Corpus `nsmc` is already installed at /root/Korpora/nsmc/ratings_train.txt
[Korpora] Corpus `nsmc` is already installed at /root/Korpora/nsmc/ra

In [28]:
type(corpus), set(corpus.get_all_labels()) # 2진 분류확인

(Korpora.korpus_nsmc.NSMCKorpus, {0, 1})

In [29]:
# 훈련데이터 확인 => 200000
# 0:부정, 1:긍정
len(corpus.get_all_texts()), corpus.train[0].text, corpus.train[0].label, len(corpus.train), len(corpus.test)

(200000, '아 더빙.. 진짜 짜증나네요 목소리', 0, 150000, 50000)

In [30]:
import pandas as pd

In [31]:
import pandas as pd

train_df = pd.DataFrame({
    'sentence':list(corpus.train.get_all_texts()),
    'label':list(corpus.train.get_all_labels()),
})
test_df  = pd.DataFrame({
    'sentence':corpus.test.get_all_texts(),
    'label':corpus.test.get_all_labels(),
})
train_df.shape, test_df.shape

((150000, 2), (50000, 2))

In [32]:
# 결측치 제거
train_df.dropna(inplace=True)
test_df.dropna(inplace=True)
train_df.shape, test_df.shape


((150000, 2), (50000, 2))

In [33]:
# 중복값 제거

train_df.drop_duplicates(subset=['sentence'], inplace=True)
test_df.drop_duplicates(subset=['sentence'], inplace=True)
train_df.shape, test_df.shape

((146183, 2), (49158, 2))

In [34]:
# 정답 비율 체크
print(train_df.groupby('label').count())
print(test_df.groupby('label').count())
# 비율의 차이가 거의 없다.

       sentence
label          
0         73342
1         72841
       sentence
label          
0         24446
1         24712


# 모델구축
- 모델 : 딥러닝 - 순환신경망 -LSTM 사용
- 분절도구 => 형태소 분석기 사용 => Mecab... 코랩설치X , 기본 KoNLpy 에서 제공하는 형태소 분석기 사용

In [35]:
# 한국형 형태소 분석기 설치
!pip install konlpy



In [36]:
from konlpy.tag import Okt

In [40]:
# 분절도구, 문장을 분해해서 형태소 단위로 반환기능 제공
tokenizer = Okt()

In [42]:
train_df.sentence[2]

'너무재밓었다그래서보는것을추천한다'

In [41]:
tokenizer.morphs(train_df.sentence[2])

['너', '무재', '밓었', '다그', '래서', '보는것을', '추천', '한', '다']

- 형태소 분석기 처리결과
  - 명사, 동사, 조사, 형용사 단위로 모두 쪼갰다.
  - 영어권 기반으로 만들어진 토크나이저(분절=> 임베딩 모두 처리)를 사용하면 영어처럼 처리가(공백단위분절) 되서 의미해석문제가 발생
  - 임시 조치
    - 문장 => 형태소 분해 => 공백 단위로 합치기

In [46]:
print(train_df.sentence[3])
print(' '.join (tokenizer.morphs(train_df.sentence[3]) ) )

교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정
교도소 이야기 구먼 .. 솔직히 재미 는 없다 .. 평점 조정


In [50]:
# 기존 문장 => 분절화 => 공백단위로 다시 문장으로 조립 => 원문 완성
train_df['sentence'] = train_df.sentence.apply(lambda x : ' '.join(tokenizer.morphs(x) ))

## 분절화

In [53]:
from tensorflow.keras.preprocessing.text import Tokenizer

nlp_tokenizer = Tokenizer()

In [55]:
# 문장 => 분절 => 토큰분해 => 사전구축 모두 완료
nlp_tokenizer.fit_on_texts(train_df.sentence)

## 사전화


In [61]:
# 사전화 과정은 위에서 완료되었고 여기에서는 체크만!
# 사전화 과정까지 마무리한 데이터 문장의 총수
nlp_tokenizer.document_count

# nlp_tokenizer.num_words
# nlp_tokenizer.index_word()

TypeError: ignored

## 백터화

In [62]:
doc_vectors = nlp_tokenizer.texts_to_sequences(train_df.sentence )
len(doc_vectors)

146183

In [63]:
train_df.sentence[0], doc_vectors[0]  # 특수기호를 제거하고 백터화

('아 더빙 .. 진짜 짜증나네요 목소리', [52, 448, 18, 7025, 658])

In [64]:
train_df.sentence[3], doc_vectors[3]  # 특수기호를 제거하고 백터화

('교도소 이야기 구먼 .. 솔직히 재미 는 없다 .. 평점 조정',
 [8816, 110, 11478, 223, 62, 9, 79, 26, 4457])

- 문장의 백터 길이가 제각각
  - 보정 => 패딩 수행 필요
  - 최대문장 길이 기반, 특정 길이로 맞출것인지(정보손실 가능성 존재)
  - 데이터량이 커질확률이 존재(최대 문장 길이로 맞추면)

## 패딩

In [71]:
# 백터 문장들중 가장 큰 길이 획득
max_len = max( [ len(v) for v in doc_vectors ] )
# 79개의 토큰으로 구성된 벡터가 최대문장 길이
max_len

79

In [72]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

# pad_sequences 를 사용시 맨 앞자리는 항상 0으로 채운다 (데이터로 사용 X)
# 1 + 79
padded_x = pad_sequences(doc_vectors, 1 + max_len, )
padded_x.shape

(146183, 80)

In [73]:
# 데이터는 뒤에 두고, 앞부분은 모두 0 으로 채웠다.
# 토크나이저 별로 문장의 시작, 문장의 끝, 패딩 등등 기호로 사용
# <pad>, ... => 별도의 토크나이저도 존재
padded_x[0]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,   52,  448,
         18, 7025,  658], dtype=int32)

In [77]:
print(nlp_tokenizer.index_word)



In [79]:
# 토큰의 빈도수
print(nlp_tokenizer.word_counts)



In [78]:
len(nlp_tokenizer.index_word)

102054

## 임베딩

 - 별도의 과정을 거치지 않고, 신경망 설계 및 데이터 주입시 세팅

### 인공신경망 구축

- LSTM 기반, 순환신경망 구조

In [81]:
from tensorflow.keras.layers import Embedding, Dense, LSTM
from tensorflow.keras.models import Sequential, load_model
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

In [83]:
model = Sequential()

# 사전의 등록된 토근의 총개수 + 패딩용 1개 (보정표식)
voca_size = len(nlp_tokenizer.index_word) + 1 # 토큰의 총개수 + 패딩의 초기값

# 1+max_len => 80으로 부여, 정보손실없이 문장 백터 사이즈 그대로 사용
# 만약 작은 값을 부여하면, 압축이 되서, 학습이 진행, 정보손실을 일부존재, 학습비용
model.add(Embedding(voca_size, 1+max_len ) )
model.add(LSTM(128) ) # 설정값 부여
model.add(Dense (1, activation = 'sigmoid') ) # 긍부정, 이진분류


model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, None, 80)          8164400   
                                                                 
 lstm (LSTM)                 (None, 128)               107008    
                                                                 
 dense (Dense)               (None, 1)                 129       
                                                                 
Total params: 8271537 (31.55 MB)
Trainable params: 8271537 (31.55 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [88]:
# 모델 컴파일
model.compile(loss='binary_crossentropy', metrics=['accuracy'])

es = EarlyStopping(mode='min', verbose=1, patience=4)
mc = ModelCheckpoint('best_nlp.h5', mode = 'max', verbose=1, save_best_only= True)

hist = model.fit(padded_x, train_df.label, epochs=1, batch_size=64, validation_split=0.2 , callbacks = [es, mc])

Epoch 1: val_loss improved from -inf to 0.38433, saving model to best_nlp.h5


  saving_api.save_model(


In [86]:
padded_x.shape, train_df.label.shape

((146183, 80), (146183,))

## 시스템 통합

In [89]:
#  모델 덤프
model.save('last_model.h5')
#  모델 로드
from tensorflow.keras import models
models.load_model('last_model.h5')

  saving_api.save_model(


<keras.src.engine.sequential.Sequential at 0x7d3793c125c0>

In [93]:
import gradio
#  웹 UI 지원
#1. 예측 함수
def sentence_review_clf(message, history):
  # message ->  형태소 분석기 -> 분절 -> 공백구분자로 -> 통합 -> 문장생성
  t_msg = ' '.join(tokenizer.morphs(message) )
  # message -> 토크나이저활용 -> 벡터화
  t_vac = nlp_tokenizer.texts_to_sequences( [ t_msg])
  print(message, '\n', t_msg,  '\n', t_vac)
  # 패딩처리(문장길이가 다르므로)
  t_pad = pad_sequences(t_vac, 1+ max_len)
  # print(t_pad)
  # 백터화된 데이터 -> 모델 -> 예측
  t_out = model.predict(t_pad)
  print(t_out)
  if t_out[0][0] < 0.5 :
    return '부정'
  return '긍정'
  # 예측 -> 평가 -> 긍정, 부정 리턴
  pass
# sentence_review_clf('오늘점심은 아주 좋았어', None)

#2. 인터페이스 구성
demo = gradio.ChatInterface(sentence_review_clf)

#3. 런칭
demo.launch()

Setting queue=True in a Colab notebook requires sharing enabled. Setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Running on public URL: https://a0f839f3c1fe26388a.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)


