# 텍스트 데이터와 임베딩의 발전사

---

## 1. 통계 및 빈도 기반 시대 (1970년대 ~ 2000년대 초반)

이 시기에는 단어의 의미보다는 문서 내 등장 빈도를 기반으로 텍스트를 벡터화했습니다.

###  TF-IDF (Term Frequency-Inverse Document Frequency)
- **개념**: 1972년 Karen Spärck Jones가 제안한 IDF 개념에서 발전한 기법으로, 단어의 중요도를 평가하는 통계적 가중치입니다.
  - 특정 문서에 자주 나타나는 단어(TF)에 높은 가중치를 부여
  - 여러 문서에 공통적으로 등장하는 단어(IDF)에는 낮은 가중치를 부여
- **공헌**: 정보 검색 분야의 초석을 다졌으며, 문서의 핵심 키워드 추출 및 문서 간 유사도 계산에 널리 사용되었습니다.

###  Bag-of-Words (BoW)
- **개념**: 문서를 단어들의 순서를 무시한 '가방'으로 간주하고, 등장 횟수를 벡터화하여 표현
- **공헌**: 구현이 직관적이고 간단하여, 초기 NLP 문제(텍스트 분류, 감성 분석 등)에 기본 모델로 활용되었습니다.

---

##  2. 정적 단어 임베딩 시대 (2013년 ~ 2017년)

신경망을 이용해 단어의 의미 자체를 저차원의 밀집 벡터(Dense Vector)에 담아내는 단어 임베딩 기술이 등장하며 NLP 분야에 혁신을 가져왔습니다.

###  Word2Vec (2013)
- **논문**: *Efficient Estimation of Word Representations in Vector Space* (Mikolov et al.)
- **핵심 개념**:
  - "단어의 의미는 주변 단어에 의해 결정된다"는 분포 가설에 기반
  - CBOW (주변 단어 → 중심 단어) / Skip-gram (중심 단어 → 주변 단어)
- **공헌**:
  - '왕' - '남자' + '여자' ≈ '여왕' 같은 벡터 연산 가능
  - 단어 의미를 벡터 공간에 투영하며 NLP 패러다임 전환

###  GloVe (2014)
- **논문**: *GloVe: Global Vectors for Word Representation* (Pennington et al.)
- **핵심 개념**:
  - 단어 동시 등장 행렬(co-occurrence matrix) 기반 통계적 모델
  - Word2Vec의 예측 기반 학습과 통계 기반 방법을 융합
- **공헌**: 더 안정적이고 빠르게 학습 가능, Word2Vec과 함께 대표적인 정적 임베딩 기법

###  FastText (2017)
- **논문**: *Enriching Word Vectors with Subword Information* (Bojanowski et al.)
- **핵심 개념**:
  - 단어를 n-gram 문자 단위로 분해해 학습
  - 예: 'apple' → 'app', 'ppl', 'ple'
- **공헌**:
  - 사전에 없는 단어(OOV)에 강건함
  - 형태소 유사 단어 간 유의미한 임베딩 공유

---

##  3. 문맥적 임베딩 시대 (2018년 ~ 현재)

같은 단어라도 문맥에 따라 의미가 달라짐을 반영하여, 문장 전체 정보를 바탕으로 단어 임베딩을 동적으로 생성하는 모델들이 등장했습니다.

###  ELMo (2018)
- **논문**: *Deep contextualized word representations* (Peters et al.)
- **핵심 개념**:
  - BiLSTM으로 문맥 양방향 학습
  - '사과'가 '과일'인지 '사과하다'인지 문맥에 따라 벡터 다르게 생성
- **공헌**:
  - 문맥적 임베딩 시대의 개막
  - 이후 Transformer 모델에 강한 영향

###  Transformer & Attention (2017)
- **논문**: *Attention Is All You Need* (Vaswani et al.)
- **핵심 개념**:
  - RNN 없이 Self-Attention만으로 단어 간 관계를 파악
  - 병렬 처리 및 장기 의존성 문제 해결
- **공헌**:
  - BERT, GPT 등 현대 LLM의 기반 아키텍처로 자리잡음

###  BERT (2018)
- **논문**: *BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding* (Devlin et al.)
- **핵심 개념**:
  - Transformer Encoder 기반
  - MLM (Masked Language Modeling)으로 양방향 문맥 학습
- **공헌**:
  - 사전학습 → 미세조정(Pre-training → Fine-tuning) 패러다임 정립
  - 대부분 NLP 태스크에서 SOTA 달성

###  GPT 시리즈 (2018~)
- **논문**:
  - GPT-1: *Improving Language Understanding by Generative Pre-Training*
  - GPT-2: *Language Models are Unsupervised Multitask Learners*
  - GPT-3: *Language Models are Few-Shot Learners*
- **핵심 개념**:
  - Transformer Decoder 기반
  - 다음 단어 예측 방식, 대규모 사전학습 데이터 활용
- **공헌**:
  - LLM 시대의 개막
  - ChatGPT 등 다양한 AI 서비스의 기반

---

##  4. 최신 임베딩 및 특화 모델 시대

문장 의미 임베딩 및 태스크 특화 임베딩 기술이 활발하게 연구되고 있습니다.

###  Sentence-BERT (2019)
- **논문**: *Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks* (Reimers & Gurevych)
- **핵심 개념**:
  - Siamese 구조를 사용해 문장 유사도 학습
  - BERT 출력값의 cosine similarity를 바로 활용
- **공헌**:
  - 문장 유사도 계산 및 검색에 특화된 효율적 임베딩 제공

###  SimCSE (2021)
- **논문**: *SimCSE: Simple Contrastive Learning of Sentence Embeddings* (Gao et al.)
- **핵심 개념**:
  - 동일 문장을 Dropout만 다르게 적용한 두 개로 Contrastive Learning 수행
- **공헌**:
  - 비지도 학습만으로도 뛰어난 문장 임베딩 성능 확보
  - 문장 표현 학습의 새 방향성 제시

---

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('./content/nreview_mask.csv')
df.head()

Unnamed: 0,id,date,text,rat
0,euge****,22.09.16.,새부리 KF94 마스크를 검색하니 네이버 랭킹 상위에 뜨고 가격도 착해서 호기심에 ...,평점5
1,gemm****,22.05.03.,컬러 KF94 마스크를 너무나도 기다렸어요\n예쁜 컬러에 벌크포장과 저렴하면서 퀄리...,평점5
2,gemm****,22.05.06.,컬러 KF94 마스크를 너무나도 기다렸어요\n세상 어디에도 없는 라이트실버 H워월V...,평점5
3,jina****,22.07.22.,라이브 보고 방송하는언니 쓴거 넘 예뻐서 100개 주문했는데 가로사이즈가 저한테 좀...,평점5
4,pim4****,22.10.21.,고민고민하다 디럭스 실버를 주문했는데\n진짜 이쁩니다. 과하지 않지만 평범하지도 않...,평점5


In [3]:
# tokenization
# text cleansing
# pos tagging

In [4]:
df.dropna()

Unnamed: 0,id,date,text,rat
0,euge****,22.09.16.,새부리 KF94 마스크를 검색하니 네이버 랭킹 상위에 뜨고 가격도 착해서 호기심에 ...,평점5
1,gemm****,22.05.03.,컬러 KF94 마스크를 너무나도 기다렸어요\n예쁜 컬러에 벌크포장과 저렴하면서 퀄리...,평점5
2,gemm****,22.05.06.,컬러 KF94 마스크를 너무나도 기다렸어요\n세상 어디에도 없는 라이트실버 H워월V...,평점5
3,jina****,22.07.22.,라이브 보고 방송하는언니 쓴거 넘 예뻐서 100개 주문했는데 가로사이즈가 저한테 좀...,평점5
4,pim4****,22.10.21.,고민고민하다 디럭스 실버를 주문했는데\n진짜 이쁩니다. 과하지 않지만 평범하지도 않...,평점5
...,...,...,...,...
2175,goon****,22.05.10.,4중구조인 거에 비해 얇아요 그리고 귀끈이 진짜 편합니다 A사는 귀는 편하나 딱맞는...,평점5
2176,bboy****,23.04.04.,가격 싸서 좋아요 하지만\n흰색 마스크를 제외한 컬러가 들어간 마스크는\n코 부분 ...,평점4
2177,0019****,22.08.13.,우순 엄청큰 봉투가 와서 놀랏고 ㅋㅋㅋ\n마구마구 넣으신듯한... 상자에 구겨져들어...,평점3
2178,leej****,22.08.21.,기존에 에코브리즈 다른 마스크보다 우선 시원하고 크기도 큼직해서 개인적으로 기미라인...,평점5


In [5]:
text = "Hello, world! This is NLP. 자연어 처리를 배워봅시다! 123"

In [6]:
text

'Hello, world! This is NLP. 자연어 처리를 배워봅시다! 123'

In [7]:
len(text)

45

In [8]:
# token limit

In [9]:
text.lower()

'hello, world! this is nlp. 자연어 처리를 배워봅시다! 123'

In [10]:
text.split()

['Hello,', 'world!', 'This', 'is', 'NLP.', '자연어', '처리를', '배워봅시다!', '123']

In [11]:
len(text.split())

9

In [12]:
'NLP' in text

True

In [13]:
'vision' in text

False

In [14]:
text.index('NLP')

22

In [15]:
text = text.replace('NLP', '자연어처리')
text

'Hello, world! This is 자연어처리. 자연어 처리를 배워봅시다! 123'

In [16]:
# ipynb, .py
def plus1(a, b):
    return a+b

In [17]:
plus1(1, 2)

3

In [18]:
words = text.split()
words

['Hello,', 'world!', 'This', 'is', '자연어처리.', '자연어', '처리를', '배워봅시다!', '123']

In [19]:
len(words[0]), len(words[1])

(6, 6)

In [20]:
sum_ = 0
for w in words:
    sum_ += len(w)
    # print(len(w))

print(sum_ / len(words))

4.333333333333333


In [21]:
def text_stats(text):
    # return 전체 문자 수 , 단어 수, 평균 단어들의 길이
    words = text.split()
    cnt_chr = len(text)
    cnt_word = len(words)
    avg_word_len = round(sum(len(s) for s in words) / len(words), 2)
    return {'chr_cnt': cnt_chr,
            'word_cnt': cnt_word,
            'avg_word_len': avg_word_len}

In [22]:
sample = 'The quick brown fox jumps over the lazy dog'
text_stats(sample)

{'chr_cnt': 43, 'word_cnt': 9, 'avg_word_len': 3.89}

In [23]:
sample.lower().split()

['the', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']

In [24]:
len(sample.lower().split())

9

In [25]:
len(set(sample.lower().split()))

8

In [26]:
text ="U.S.A is a country with 328 million people as of 2020!"

In [27]:
text_lower = text.lower()
text_lower

'u.s.a is a country with 328 million people as of 2020!'

In [28]:
import re   # regular expression

In [29]:
text_clean = re.sub(r'[^a-zA-Z가-힣\s]', '', text_lower)
text_clean

'usa is a country with  million people as of '

In [30]:
# ^ a-z A-Z 가-힣 \s

In [31]:
text_clean = re.sub(r'\s+', ' ', text_clean)
text_clean

'usa is a country with million people as of '

In [32]:
# re.sub(r'^a-zA-Z가-힣', '', text)
# re.sub(r'\d+', '', text)
# re.sub(r'\s+', ' ', text)

In [146]:
text = "문의 : test@email.com, https://shop.com 참고 (Tel: 010-1234-5678) 좋은 상품!! 가격: 15000!!"

In [147]:
step1 = re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '', text)
step1

'문의 : , https://shop.com 참고 (Tel: 010-1234-5678) 좋은 상품!! 가격: 15000!!'

In [148]:
step2 = re.sub(r'http?://\S+','', step1)
step2 = re.sub(r'https?://\S+','', step2)
step2

'문의 : ,  참고 (Tel: 010-1234-5678) 좋은 상품!! 가격: 15000!!'

In [149]:
step3 = re.sub(r'\d{2,3}-\d{3,4}-\d{4}', '', step2)
step3

'문의 : ,  참고 (Tel: ) 좋은 상품!! 가격: 15000!!'

In [152]:
step4 = re.sub(r'[^a-zA-Z가-힣0-9\s]', '', step3)
step4

'문의    참고 Tel  좋은 상품 가격 15000'

In [153]:
step5 = re.sub(r'\s+', ' ', step4)
step5

'문의 참고 Tel 좋은 상품 가격 15000'

In [210]:
text =  '     abcde    '
text.strip()

'abcde'

In [211]:
text =  '     abcde    '
text.rstrip()

'     abcde'

In [212]:
re.sub(r'<[^>]>', '', text)

'     abcde    '

In [42]:
def clean_text(text, remove_numbers=True):
    # 이메일 주소 제거
    # url 제거
    # 전화번호 제거
    # remove_numbers 가 True 이면 숫자도 제거
    # 한글, 영문, 공백만 유지
    text = re.sub(r'[a-zA-Z0-9._%+0-]+@[a-zA-Z0-9.-]+\.[a-zA-z]{2,}', '', text)
    text = re.sub(r'https?://\S+', '', text)
    text = re.sub(r'[^a-zA-Z가-힣0-9\s]', '', text)
    text = re.sub(r'\d+', ' ', text) if remove_numbers else re.sub(r'[^a-zA-Z가-힣0-9\s]', '', text)

    return text

In [43]:
text = "문의 : test@email.com, https://shop.com 참고 (Tel: 010-1234-5678) 좋은 상품!! 가격: 15000!!"

In [44]:
clean_text(text)

'문의    참고 Tel   좋은 상품 가격  '

In [45]:
import re

# 자주 쓰는 패턴들
_EMAIL_RE = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b')
_URL_RE   = re.compile(r'\b(?:https?://|www\.)\S+\b', re.IGNORECASE)

# 한국 전화번호(010-1234-5678, 02-123-4567 등) + 국제형 일부 커버
_PHONE_RE = re.compile(
    r'(?:(?:\+?\d{1,3}[-.\s]?)?(?:\(?\d{2,4}\)?[-.\s]?)?\d{3,4}[-.\s]?\d{4})'
)

# 한글/영문/공백만 남기기
_KEEP_KO_EN_SPACE_RE = re.compile(r'[^A-Za-z가-힣\s]')

def clean_text(text, remove_numbers=True):
    if text is None:
        return ""
    text = str(text)

    # 1) 이메일 제거
    text = _EMAIL_RE.sub(" ", text)

    # 2) URL 제거
    text = _URL_RE.sub(" ", text)

    # 3) 전화번호 제거
    text = _PHONE_RE.sub(" ", text)

    # 4) 숫자 제거 옵션
    if remove_numbers:
        text = re.sub(r'\d+', ' ', text)

    # 5) 한글, 영문, 공백만 유지
    text = _KEEP_KO_EN_SPACE_RE.sub(" ", text)

    # 6) 공백 정리
    text = re.sub(r'\s+', ' ', text).strip()

    return text

In [None]:
# !pip install nltk konlpy kiwipiepy python-mecab-ko sentencepiece

In [47]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer

In [48]:
nltk.download('punkt_tab', quiet=True)
nltk.download('stopwords', quiet=True)
nltk.download('wordnet', quiet=True)
nltk.download('averaged_perceptron_tagger', quiet=True)

True

In [49]:
text = "Dr. Smith went to Washington D.C. He didn't arrive until 3:30 p.m."

In [50]:
text.split()

['Dr.',
 'Smith',
 'went',
 'to',
 'Washington',
 'D.C.',
 'He',
 "didn't",
 'arrive',
 'until',
 '3:30',
 'p.m.']

In [51]:
word_tokenize(text)

['Dr.',
 'Smith',
 'went',
 'to',
 'Washington',
 'D.C',
 '.',
 'He',
 'did',
 "n't",
 'arrive',
 'until',
 '3:30',
 'p.m',
 '.']

In [52]:
sent_tokenize(text)

['Dr. Smith went to Washington D.C.', "He didn't arrive until 3:30 p.m."]

In [53]:
# def simple_tokenize(text):
#     text = text.lower()
#     for ~~

In [54]:
# 영어 : a the is at on

In [214]:
stopwords.words('english')[:5]

['a', 'about', 'above', 'after', 'again']

In [56]:
len(stopwords.words('english'))

198

In [216]:
text = "The movie was not great but it was not terrible either"

In [225]:
tokens = word_tokenize(text.lower())
tokens

['the',
 'movie',
 'was',
 'not',
 'great',
 'but',
 'it',
 'was',
 'not',
 'terrible',
 'either']

In [227]:
stop_words = set(stopwords.words('english'))

In [60]:
filtered = [w for w in tokens if w not in stop_words and w.isalpha()]
filtered

['movie', 'great', 'terrible', 'either']

In [61]:
# filtered = []
# for w in tokens:
#     if w not in stop_words and w.isalpha():
#         filtered.append(w)

In [231]:
korean_stopwords = {'은', '는', '이', '가', '을', '를', '에', '에서', '의', '도', '로', '으로'}
korean_text = "자연어 처리는 인공지능의 핵심 분야 중 하나이다"
tokens = korean_text.split()
tokens

['자연어', '처리는', '인공지능의', '핵심', '분야', '중', '하나이다']

In [63]:
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

In [234]:
words = ['studies', 'studying', 'studied', 'better', 'running', 'ran', 'feet', 'wolves']

In [237]:
for w in words:
    print(f"원본:{w}, stemmer:{stemmer.stem(w)}, lemmar word:{lemmatizer.lemmatize(w)}, lemmar v:{lemmatizer.lemmatize(w, pos='v')}")

원본:studies, stemmer:studi, lemmar word:study, lemmar v:study
원본:studying, stemmer:studi, lemmar word:studying, lemmar v:study
원본:studied, stemmer:studi, lemmar word:studied, lemmar v:study
원본:better, stemmer:better, lemmar word:better, lemmar v:better
원본:running, stemmer:run, lemmar word:running, lemmar v:run
원본:ran, stemmer:ran, lemmar word:ran, lemmar v:run
원본:feet, stemmer:feet, lemmar word:foot, lemmar v:feet
원본:wolves, stemmer:wolv, lemmar word:wolf, lemmar v:wolves


In [66]:
stemmer.stem("studies")

'studi'

In [67]:
# lemmatization과 stemming의 결과를 비교하는 표를 만들어 반환하는 함수 (이용 라이브러리 : 판다스)
def compare_normalization(words):    
    data = []
    for w in words:
        stem = stemmer.stem(w)
        lemma_w = lemmatizer.lemmatize(w)
        lemma_v = lemmatizer.lemmatize(w, pos='v')
        data.append({'Word': w, 'Stem': stem, 'Lemma_noun': lemma_w, 'Lemma_verb': lemma_v})
    df = pd.DataFrame(data)
    return df

compare_normalization(words)

Unnamed: 0,Word,Stem,Lemma_noun,Lemma_verb
0,studies,studi,study,study
1,studying,studi,studying,study
2,studied,studi,studied,study
3,better,better,better,better
4,running,run,running,run
5,ran,ran,ran,run
6,feet,feet,foot,feet
7,wolves,wolv,wolf,wolves


In [68]:
# Konlpy
# mecab-ko
# kiwi

In [69]:
from konlpy.tag import Okt

In [70]:
text = '자연어처리는 인공지능의 핵심 분야 중 하나입니다.'

In [71]:
okt = Okt()

In [72]:
okt.morphs(text)

['자연어', '처리', '는', '인공', '지능', '의', '핵심', '분야', '중', '하나', '입니다', '.']

In [73]:
okt.nouns(text)

['자연어', '처리', '인공', '지능', '핵심', '분야', '중', '하나']

In [74]:
okt.pos(text, norm=True)

[('자연어', 'Noun'),
 ('처리', 'Noun'),
 ('는', 'Josa'),
 ('인공', 'Noun'),
 ('지능', 'Noun'),
 ('의', 'Josa'),
 ('핵심', 'Noun'),
 ('분야', 'Noun'),
 ('중', 'Noun'),
 ('하나', 'Noun'),
 ('입니다', 'Adjective'),
 ('.', 'Punctuation')]

In [75]:
from kiwipiepy import Kiwi
kiwi = Kiwi()

In [76]:
result = kiwi.tokenize(text)
result

[Token(form='자연어 처리', tag='NNP', start=0, len=5),
 Token(form='는', tag='JX', start=5, len=1),
 Token(form='인공', tag='NNG', start=7, len=2),
 Token(form='지능', tag='NNG', start=9, len=2),
 Token(form='의', tag='JKG', start=11, len=1),
 Token(form='핵심', tag='NNG', start=13, len=2),
 Token(form='분야', tag='NNG', start=16, len=2),
 Token(form='중', tag='NNB', start=19, len=1),
 Token(form='하나', tag='NR', start=21, len=2),
 Token(form='이', tag='VCP', start=23, len=1),
 Token(form='ᆸ니다', tag='EF', start=23, len=3),
 Token(form='.', tag='SF', start=26, len=1)]

In [77]:
from mecab import MeCab
mecab = MeCab()

In [78]:
result = mecab.pos(text)
result

[('자연어', 'NNG'),
 ('처리', 'NNG'),
 ('는', 'JX'),
 ('인공지능', 'NNP'),
 ('의', 'JKG'),
 ('핵심', 'NNG'),
 ('분야', 'NNG'),
 ('중', 'NNB'),
 ('하나', 'NR'),
 ('입니다', 'VCP+EF'),
 ('.', 'SF')]

In [None]:
text = '아버지가방에들어가신다'

print(f'OKT : {okt.morphs(text)}')   # 명사만 추출
print(f'MeCab : {[w for w, _ in mecab.pos(text)]}')    # w == 형태소, _ == 품사(태깅)
print(f'Kiwi : {[t.form for t in kiwi.tokenize(text)]}')    # form ==형태소

OKT : ['아버지', '가방', '에', '들어가신다']
MeCab : ['아버지', '가', '방', '에', '들어가', '신다']
Kiwi : ['아버지', '가', '방', '에', '들어가', '시', 'ᆫ다']


In [80]:
mecab.pos(text)

[('아버지', 'NNG'),
 ('가', 'JKS'),
 ('방', 'NNG'),
 ('에', 'JKB'),
 ('들어가', 'VV'),
 ('신다', 'EP+EC')]

In [81]:
result_mecab = []
for w, _ in mecab.pos(text):
    result_mecab.append(w)

result_mecab

['아버지', '가', '방', '에', '들어가', '신다']

In [82]:
kiwi.tokenize(text)[0]

Token(form='아버지', tag='NNG', start=0, len=3)

In [83]:
kiwi.tokenize(text)[0].form, kiwi.tokenize(text)[0].tag

('아버지', 'NNG')

In [84]:
def compare_analyze(text):
    data = []
    okt_morphs = okt.morphs(text)
    okt_nouns = okt.nouns(text)
    
    mecab_result = mecab.pos(text)
    mecab_morphs = [w for w, t in mecab_result]
    mecab_nouns = [w for w, t in mecab_result if t.startswith('NN')]
    
    kiwi_results = kiwi.tokenize(text)
    kiwi_morphs = [t.form for t in kiwi_results]
    kiwi_nouns = [t.form for t in kiwi_results if t.tag == 'NNG']
    
    data.append({'analyzer': 'okt', 'morphs': okt_morphs, 'nouns': okt_nouns})
    data.append({'analyzer': 'mecab', 'morphs': mecab_morphs, 'nouns': mecab_nouns})
    data.append({'analyzer': 'kiwi', 'morphs': kiwi_morphs, 'nouns': kiwi_nouns})
    
    return pd.DataFrame(data)

In [110]:
text = "삼성전자가 새로운 스마트폰을 출시했습니다"
df = compare_analyze(text)
df

Unnamed: 0,analyzer,morphs,nouns
0,okt,"[삼, 성, 전자, 가, 새로운, 스마트폰, 을, 출시, 했습니다]","[전자, 스마트폰, 출시]"
1,mecab,"[삼성전자, 가, 새로운, 스마트폰, 을, 출시, 했, 습니다]","[삼성전자, 스마트폰, 출시]"
2,kiwi,"[삼성전자, 가, 새롭, 은, 스마트폰, 을, 출시, 하, 었, 습니다]","[스마트폰, 출시]"


In [241]:
text = "이 마스크 정말 좋아요!! 사이즈도 딱 맞고 가격도 착해요 ㅎㅎ"

In [243]:
# text = "%^&&*@@$%^"
text = re.sub(r'[^가-힣\s]', '', text)
text = re.sub(r'\s+', ' ', text).strip()
print(text)
tokens = kiwi.tokenize(text)
tokens

words = [t.form for t in tokens if len(t.form) >= 2]
print(words)

이 마스크 정말 좋아요 사이즈도 딱 맞고 가격도 착해요
['마스크', '정말', '어요', '사이즈', '가격', '착하', '어요']


In [87]:
def preprocess_korean(text, pos_tags=None, min_length=2):
    if text is None:
        return ""

    cleaned = re.sub(r"[^ㄱ-ㅎㅏ-ㅣ가-힣\s]", " ", str(text))
    cleaned = re.sub(r"\s+", " ", cleaned).strip()
    if not cleaned:
        return ""

    tokens = kiwi.tokenize(cleaned)

    if isinstance(pos_tags, str):
        pos_tags = [pos_tags]
    pos_set = set(pos_tags) if pos_tags else None

    filtered = [
        t.form for t in tokens
        if (pos_set is None or t.tag in pos_set) and len(t.form) >= min_length
    ]
    return " ".join(filtered)

In [88]:
def preprocess_korean(text, pos_tags=None, min_length=2):
    if text is None:
        return ""

    text = re.sub(r"[^ㄱ-ㅎㅏ-ㅣ가-힣\s]", " ", str(text))
    text = re.sub(r"\s+", " ", text).strip()
    if not text:
        return ""

    tokens = kiwi.tokenize(text)
    
    if pos_tags:
        words = [t.form for t in tokens if t.tag in pos_tags and len(t.form) >= min_length]
    else:
        words = [t.form for t in tokens if len(t.form) > min_length]
    
    
    return " ".join(words)

In [89]:
reviews = [
    "이 마스크 정말 좋아요!! 사이즈도 딱 맞고 가격도 착해요 ㅎㅎ",
    "배송은 빨랐는데 품질이 별로예요... 얇고 냄새나요ㅠㅠ",
    "가성비 최고! 10개 묶음으로 샀는데 넉넉하게 쓸 수 있어요"
]

In [90]:
for r in reviews:
    print(preprocess_korean(r, pos_tags=['NNG', 'NNP']), '\n')


마스크 사이즈 가격 

배송 품질 냄새 

가성비 최고 묶음 



In [91]:
import sentencepiece as spm
import os

In [None]:
sample_texts = [
    "자연어처리는 인공지능의 핵심 분야입니다",
    "딥러닝을 활용한 자연어처리 기술이 발전하고 있습니다",
    "텍스트 데이터를 벡터로 변환하는 것이 임베딩입니다",
    "워드투벡 모델은 단어를 벡터 공간에 매핑합니다",
    "한국어 자연어처리에는 형태소 분석이 중요합니다",
    "트랜스포머 모델은 어텐션 메커니즘을 사용합니다",
    "BERT는 양방향 사전학습 모델입니다",
    "임베딩은 단어의 의미를 수치로 표현합니다",
] * 50

In [93]:
with open('./content/spm_train.txt', 'w', encoding='utf-8') as f:
    for t in sample_texts:
        f.write(t + '\n')

In [244]:
spm.SentencePieceTrainer.train(
    input = './content/spm_train.txt',
    model_prefix = './content/spm_demo',
vocab_size=100,
    pad_id=0 ,unk_id=1, bos_id=2, eos_id=3
    )

In [245]:
sp = spm.SentencePieceProcessor(model_file='./content/spm_demo.model')

In [246]:
sp.get_piece_size()

100

In [247]:
test_sentences = [
    "자연어처리 기술을 배워봅시다.",
    "딥러닝과 임베딩의 관계를 이해합시다",
    "새로운문장도잘분리됩니다."
]

In [248]:
str_tokens = sp.encode("자연어처리 기술을 배워봅시다.", out_type=str)
str_tokens

['▁자연어처리', '▁', '기', '술', '을', '▁', '배', '워', '봅시', '다', '.']

In [249]:
int_tokens = sp.encode("자연어처리 기술을 배워봅시다.", out_type=int)
int_tokens

[16, 4, 46, 61, 24, 4, 1, 87, 1, 7, 6]

In [250]:
sp.bos_id(), sp.eos_id()

(2, 3)

In [101]:
for sent in test_sentences:
    str_tokens = sp.encode(sent, out_type=str)
    int_tokens = sp.encode(sent, out_type=int)
    print(f'원문 : {sent}')
    print(f'문자열 : {str_tokens}')
    print(f'정수 : {int_tokens}')
    print(f'BOS/EOS : {[sp.bos_id()] + int_tokens + [sp.eos_id()]} \n')

원문 : 자연어처리 기술을 배워봅시다.
문자열 : ['▁자연어처리', '▁', '기', '술', '을', '▁', '배', '워', '봅시', '다', '.']
정수 : [16, 4, 46, 61, 24, 4, 1, 87, 1, 7, 6]
BOS/EOS : [2, 16, 4, 46, 61, 24, 4, 1, 87, 1, 7, 6, 3] 

원문 : 딥러닝과 임베딩의 관계를 이해합시다
문자열 : ['▁', '딥', '러', '닝', '과', '▁', '임', '베', '딩', '의', '▁', '관계', '를', '▁', '이', '해', '합', '시', '다']
정수 : [4, 49, 51, 48, 1, 4, 88, 89, 90, 13, 4, 1, 11, 4, 8, 1, 10, 1, 7]
BOS/EOS : [2, 4, 49, 51, 48, 1, 4, 88, 89, 90, 13, 4, 1, 11, 4, 8, 1, 10, 1, 7, 3] 

원문 : 새로운문장도잘분리됩니다.
문자열 : ['▁', '새', '로', '운문장도잘', '분', '리', '됩', '니', '다', '.']
정수 : [4, 1, 18, 1, 97, 96, 1, 5, 7, 6]
BOS/EOS : [2, 4, 1, 18, 1, 97, 96, 1, 5, 7, 6, 3] 



In [114]:
test_sentences = [
    "자연어처리 기술을 배워봅시다",
    "딥러닝과 임베딩의 관계를 이해합시다",
    "새로운문장도잘분리됩니다"
]

In [115]:
for i, text in enumerate(test_sentences):
    print(i, text)

0 자연어처리 기술을 배워봅시다
1 딥러닝과 임베딩의 관계를 이해합시다
2 새로운문장도잘분리됩니다


In [102]:
def encode_and_pad(texts, sp_model, max_len=16):
    pad_id = sp_model.pad_id() if hasattr(sp_model, 'pad_id') else 0
    bos = sp_model.bos_id() if hasattr(sp_model, 'bos_id') else -1
    eos = sp_model.eos_id() if hasattr(sp_model, 'eos_id') else -1
    results = []
    masks = []
    for t in texts:
        ids = sp_model.encode(t, out_type=int)
        seq = []
        if bos is not None and bos >= 0:
            seq.append(bos)
        seq += ids
        if eos is not None and eos >= 0:
            seq.append(eos)
        if len(seq) > max_len:
            seq = seq[:max_len]
        mask = [1]*len(seq)
        if len(seq) < max_len:
            pad_len = max_len - len(seq)
            seq = seq + [pad_id]*pad_len
            mask = mask + [0]*pad_len
        results.append(seq)
        masks.append(mask)
    return results, masks

In [116]:
def encode_and_pad(texts, sp_model, max_len = 16):
    result = np.zeros((len(texts), max_len), dtype= np.int64)
    for i, text in enumerate(texts):
        ids = sp_model.encode(text, out_type=int)
        if len(ids) > max_len:
            ids = ids[:max_len]

        result[i, : len(ids)] = ids

    return result

In [104]:
encode_and_pad(test_sentences, sp)

array([[16,  4, 46, 61, 24,  4,  1, 87,  1,  7,  6,  0,  0,  0,  0,  0],
       [ 4, 49, 51, 48,  1,  4, 88, 89, 90, 13,  4,  1, 11,  4,  8,  1],
       [ 4,  1, 18,  1, 97, 96,  1,  5,  7,  6,  0,  0,  0,  0,  0,  0]])

In [105]:
import numpy as np
np.zeros((len("자연어처리 기술을 배워봅시다."), 16), dtype=np.int64)

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [106]:
# quantization: 모델 경량화
# float32 : floating point 32 byte -> int8

In [107]:
texts = ["자연어 처리를 배웁니다.", "임베딩이 중요합니다", "딥러닝"]
result = encode_and_pad(texts, sp, max_len=10)
print(f'결과 shape: {result.shape}')

결과 shape: (3, 10)


In [108]:
result

array([[ 4, 93, 94, 21,  4, 92, 96, 11,  4,  1],
       [ 4, 88, 89, 90,  8,  4, 38, 65, 10,  5],
       [ 4, 49, 51, 48,  0,  0,  0,  0,  0,  0]])

In [109]:
np.zeros((len("자연어처리 기술을 배워봅시다."), 16, ))

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,