# **1. 워드 임베딩**
워드 임베딩(Word Embedding)은 단어를 고차원의 희소 벡터로 표현하는 기존 방식(원-핫 인코딩) 대신, 단어의 의미를 저차원의 밀집 벡터(dense vector)로 변환하는 자연어 처리 기법입니다. 이를 통해 단어 간 유사성과 관계를 벡터 공간에 효율적으로 나타낼 수 있으며, 벡터 간의 거리 또는 방향을 통해 단어의 문맥적 의미를 학습합니다. 대표적인 워드 임베딩 알고리즘으로는 Embedding Layer, Word2Vec, GloVe, FastText 등이 있으며, 이를 사용하면 언어 모델이 문맥을 이해하거나 추론하는 데 필요한 기초적인 언어적 의미를 학습할 수 있습니다. <a href="https://projector.tensorflow.org/">[시각화 예]</a>

### 1-1. Embedding Layer
Embedding Layer는 신경망에서 단어를 밀집 벡터(dense vector)로 표현하기 위해 사용되는 층으로, 워드 임베딩(Word Embedding)을 수행하는 역할을 합니다. 이 레이어는 주어진 단어를 정수 인덱스로 매핑한 후, 해당 인덱스에 대응되는 고정 길이의 임베딩 벡터를 학습 가능한 파라미터로 초기화하여 반환합니다. 입력 크기가 크고 희소한 원-핫 인코딩 대신, 저차원의 임베딩 공간에서 단어의 의미적 관계를 효율적으로 학습하며, 이는 신경망의 가중치로 함께 학습됩니다. Embedding Layer는 주로 텍스트 데이터에서 단어를 벡터화하여 자연어 처리 모델(예: RNN, LSTM, Transformer)에 입력하기 위해 사용됩니다.

<img src="https://blog.kakaocdn.net/dna/czpf03/btsLZh1KOeJ/AAAAAAAAAAAAAAAAAAAAABxBJGXRsXeYrmuq9iKsaWVCtcrRbXVJKrikQQkmrEGI/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1759244399&allow_ip=&allow_referer=&signature=oLK9GzDegAUrho3b0k2XQLjZ0Io%3D">

### 1-2. 랜덤 초기화 임베딩
랜덤 초기화 임베딩은 모델 학습 초기 단계에서 임베딩 벡터를 무작위 값으로 설정한 후, 학습 데이터를 사용해 임베딩 값을 점진적으로 업데이트하는 방식입니다. 초기에는 각 단어의 벡터 표현이 의미를 가지지 않으며, 학습 과정에서 모델이 단어의 문맥적 의미를 학습하며 점차 유의미한 벡터를 형성합니다. 이 방식은 특정 도메인이나 언어의 특수성을 반영하기에 적합하며, 사전 훈련된 임베딩이 없는 경우나 사용자 정의 데이터를 기반으로 처음부터 학습해야 할 때 주로 사용됩니다.

### 1-3. 사전 훈련된 임베딩
사전 훈련된 임베딩은 대규모 코퍼스에서 미리 학습된 임베딩 벡터를 사용하여 초기 값을 설정하는 방식입니다. Word2Vec, GloVe, FastText 등과 같은 모델로 생성된 임베딩은 단어 간의 의미적 유사성을 잘 반영하며, 이를 활용하면 학습 초기에 좋은 성능을 얻을 수 있습니다. 사전 훈련된 임베딩은 학습 데이터가 부족하거나 일반적인 언어적 특징을 잘 반영해야 하는 상황에서 특히 유용합니다. 필요에 따라 임베딩 벡터를 고정하거나(frozen) 추가로 미세 조정(fine-tuning)하여 사용할 수 있습니다.

※ **대규모 코퍼스** : 대량의 문장들이 저장되어 있는 데이터셋

<img src="https://blog.kakaocdn.net/dna/bTBqeF/btsP0Y54hLA/AAAAAAAAAAAAAAAAAAAAAAhyzuaJsgulhJJ65fBSFuIFV1x8XLNQhgYGlAaDp7ir/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1759244399&allow_ip=&allow_referer=&signature=Qp0he8ZrrgLr6Vc9VujFUXOha8k%3D">

# **2. Word2Vec**
Word2Vec은 단어를 벡터로 표현하기 위해 개발된 자연어 처리 기법으로, 단어 간의 의미적 유사성을 수치적으로 나타낼 수 있는 임베딩 벡터를 생성합니다. 주로 CBOW(Continuous Bag of Words)와 Skip-gram이라는 두 가지 모델 구조를 사용하며, CBOW는 주변 단어들을 기반으로 중심 단어를 예측하고, Skip-gram은 중심 단어를 기반으로 주변 단어들을 예측하는 방식입니다. 이 과정을 통해 학습된 임베딩 벡터는 단어 간의 문맥적 관계를 반영하며, 벡터 공간에서 유사한 의미를 가진 단어들이 서로 가깝게 위치합니다. Word2Vec은 대규모 코퍼스를 활용해 고성능 임베딩을 생성할 수 있으며, 자연어 처리 작업에서 사전 훈련된 임베딩으로 널리 사용됩니다. 벡터가 된 단어들은 연산이 가능합니다.

### 1. CBOW
CBOW(Continuous Bag of Words)는 자연어 처리에서 단어 임베딩을 학습하기 위해 사용되는 Word2Vec 알고리즘의 한 방법입니다. 이 모델은 주어진 문맥(즉, 중심 단어 주변의 단어들)을 기반으로 중심 단어를 예측하는 방식으로 작동합니다. 예를 들어, 문장에서 특정 단어의 좌우 몇 개 단어를 입력으로 받아 해당 중심 단어를 출력으로 예측하는 구조입니다. 이를 통해 단어 간의 문맥적 관계를 효과적으로 학습할 수 있으며, 단어를 고차원 공간의 벡터로 표현하여 의미적으로 유사한 단어들이 가까운 위치에 있도록 학습됩니다. CBOW는 연산적으로 효율적이며, 대규모 데이터에서 빠르고 안정적으로 임베딩을 생성할 수 있다는 장점이 있습니다.

### 문장 예제
"나는 오늘 공원에서 귀여운 강아지를 산책시키며 행복한 시간을 보냈다."

### 1. 문맥과 중심 단어 설정

CBOW에서는 중심 단어와 그 주변 단어들을 문매으로 설정합니다. 이를 위해 윈도우 크기를 정합니다.
- 윈도우 크기 : 2 (중심 단어 기준으로 앞뒤 2개의 단어를 문맥으로 사용)
- 문장에서 중심 단어를 순차적으로 이동하며 데이터셋을 구성합니다.

예:
- 중심 단어 : "강아지를"<br>문맥 단어 ["공원에서", "귀여운", "산책시키며", "행복한"]

- 중심 단어 : "행복한"<br>문맥 단어 ["강아지를", "산책시키며", "시간을", "보냈다"]

### 2. 단어를 벡터로 변환
컴퓨터는 텍스트를 숫자로 이해하므로, 각 단어를 원-핫 벡터로 변환합니다. 단어 집합(vocabulary)을 만들고, 각 단어에 고유한 인덱스를 할당합니다.

### 단어 집합(Vocabulary):
["나는", "오늘", "공원에서", "귀여운", "강아지를", "산책시키며", "행복한", "시간을", "보냈다"]

### 원-핫 벡터:
- "공원에서" -> [0, 0, 1, 0, 0, 0, 0, 0, 0]
- "강아지를" -> [0, 0, 0, 0, 1, 0, 0, 0, 0]

### 3. 입력 데이터 구성

타깃: “강아지를”

문맥: ["공원에서","귀여운","산책시키며","행복한"] → 인덱스 {2,3,5,6}

합: [0,0,1,1,0,1,1,0,0]
평균(÷4): [0,0,0.25,0.25,0,0.25,0.25,0,0]

### 4. 모델의 학습 과정

<img src="https://blog.kakaocdn.net/dna/dkCvpK/btsP57tNlgy/AAAAAAAAAAAAAAAAAAAAABYBpS1g2nSf419sRhUVpSdJID8yLErBsebb-lx8KUK0/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=9V%2BsvNzOO0qy71ORtI1SG%2F3O9Cw%3D">

<img src="https://blog.kakaocdn.net/dna/bnW8Ea/btsL2nVsF5I/AAAAAAAAAAAAAAAAAAAAALPfJXBPtmcKGB1eqOLt2-lBtGOx33vZmllDIJAKxTkE/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=nFGd3tUTx9twzvRxeliLjjJli6s%3D">

### 2. Skip-gram
Skip-gram은 Word2Vec 알고리즘의 한 방법으로, 주어진 중심 단어로부터 주변 문맥 단어들을 예측하는 방식으로 작동합니다. 즉, 중심 단어를 입력으로 사용하고, 그 단어를 기준으로 설정된 윈도우 크기 내에 있는 주변 단어들을 출력으로 예측합니다. 예를 들어, 문장에서 "고양이"라는 단어가 중심 단어라면, 그 주변 단어들(예: "귀여운", "자는")을 예측하는 식입니다. Skip-gram은 희소한 데이터에서도 성능이 우수하며, 특히 드문 단어의 문맥적 의미를 학습하는 데 효과적입니다. 이 모델은 단어의 의미적 관계를 더 잘 반영한 고품질의 단어 벡터를 생성할 수 있지만, CBOW에 비해 계산량이 더 많다는 특징이 있습니다.

### 문장 예제
"나는 오늘 공원에서 귀여운 강아지를 산책시키며 행복한 시간을 보냈다."

<img src="https://blog.kakaocdn.net/dna/baommT/btsL1qTfcD1/AAAAAAAAAAAAAAAAAAAAABUKdo0uCyzorgmD6h2Fuv8GvbRvCcEFk442npkcidYW/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=3Wby7WMzgrYn8V1pqKpkfpTF5ag%3D">

<img src="https://blog.kakaocdn.net/dna/bpBJuj/btsL25mwDv1/AAAAAAAAAAAAAAAAAAAAAC1Q2LM81KJIcfFU3_wtsPIc3N69Zl2vu3DksvRGRaZO/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=3cALT8rC071PoLVtTF3A6z6Mp3g%3D">

<img src="https://blog.kakaocdn.net/dna/Kru6r/btsL1ERdbqz/AAAAAAAAAAAAAAAAAAAAAAx0t6gC8samwpV3oxbyel9rvKxWcSqMkWAFxP3PAkPf/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=oVzZrxHxF%2F%2BixpvzqTc7Ttx3gbU%3D">

<img src="https://blog.kakaocdn.net/dna/dTVOID/btsL1A16iSB/AAAAAAAAAAAAAAAAAAAAAB2JPOggikAIV_n5GN5J0w1kzidJYeFQ_rwhwZWPefgr/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=qWodubLWLrKSblj51pWvK1%2FPQt8%3D">

<img src="https://blog.kakaocdn.net/dna/kTtbQ/btsL1iAzRCG/AAAAAAAAAAAAAAAAAAAAAPzRHZzdyXHo4F6YbJXRJKpJyNOMSxhAr9Ls7A6Gj4zs/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=rdi8yqHsXKwqIekrwiT8SrYvdhI%3D">

<img src="https://blog.kakaocdn.net/dna/p45J8/btsL3htvn7S/AAAAAAAAAAAAAAAAAAAAAAch2kyCldh9cyb2ABGm9nvPRsiyeFiEz-syhyGPqjpU/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=3E00pgJTKgdJXIpxGVVKtduRYj0%3D">

<img src="https://blog.kakaocdn.net/dna/b1qsmG/btsL2393BRo/AAAAAAAAAAAAAAAAAAAAAC61IFkELIucOf38WTbBm_PMPwFqLdDdxgH9FPZCb1pO/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=VxA%2BdrTZDadGYYKk0kyjxCveC1I%3D">

### 2-3. SGNS
SGNS(Skip-Gram with Negative Sampling)는 Skip-gram 모델의 변형으로, 단어 임베딩을 효율적으로 학습하기 위해 네거티브 샘플링(Negative Sampling) 기법을 사용합니다. 기본 Skip-gram은 중심 단어로 주변의 모든 문맥 단어를 예측해야 하지만, SGNS는 주변 단어와의 관계를 일부 샘플로만 학습하여 계산 비용을 줄입니다. 즉, 중심 단어와 실제 문맥 단어 쌍(정답)을 학습하면서, 무작위로 선택된 단어(네거티브 샘플)들과의 관계를 "연관성이 없다"고 학습시킵니다. 이를 통해 모델은 중심 단어와 문맥 단어 간의 의미적 관계를 효과적으로 학습하면서도 연산량을 크게 줄일 수 있습니다. SGNS는 Word2Vec 알고리즘에서 널리 사용되며, 실제로 가장 보편적인 단어 임베딩 학습 방법으로 자리 잡았습니다.

### 문장 예제
"나는 오늘 공원에서 귀여운 강아지를 산책시키며 행복한 시간을 보냈다."

<img src="https://blog.kakaocdn.net/dna/C1EZG/btsL061tu3W/AAAAAAAAAAAAAAAAAAAAAHND-a1xOth-UwpbE5Io06WGed4EH65BV4UoWE1O_obS/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=4abl3%2F0w2PAvByIasohW3I3nuU8%3D">

<img src="https://blog.kakaocdn.net/dna/bEbyD3/btsL2fiOqJG/AAAAAAAAAAAAAAAAAAAAAGIasaVQI-qgToPSuPBPSRFSzujC6DyqtX725PngHeH2/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=Q8qQOm9WONhpBJtzCsM4zfDDowg%3D">

<img src="https://blog.kakaocdn.net/dna/csWDLG/btsL0zJSOSt/AAAAAAAAAAAAAAAAAAAAAEm1l7hXThnvzJq7bULxLghc8TA7nueqSQgKfFdXuzyY/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=QqFu8x50ygdj3NQg39xQU2FGIrs%3D">

<img src="https://blog.kakaocdn.net/dna/dri9QZ/btsL2bufXPr/AAAAAAAAAAAAAAAAAAAAALqKc1xP67y_G5AYlcRXUkvsWzpf9snfHYYkZ1Nvyk6b/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=gHnAcEvmaTdvCw8%2BvRa5fEfFg7I%3D">

<img src="https://blog.kakaocdn.net/dna/cIP3Wl/btsP58M2sJp/AAAAAAAAAAAAAAAAAAAAAGgKrO-nq7pZlWptbs2U-7vYGO-zsS1CFSedQ3OXbbN-/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=jpVR2jdyeFz%2BYgeyclEHQ3w0tIA%3D">

### ※ Gensim
Gensim은 자연어 처리를 위한 파이썬 기반의 오픈소스 라이브러리로, 특히 문서와 단어 임베딩 및 주제 모델링 작업에 적합합니다. Gensim은 효율적이고 확장 가능한 방식으로 Word2Vec, Doc2Vec, FastText 등의 임베딩 모델과 LDA(Latent Dirichlet Allocation) 같은 주제 모델링 알고리즘을 지원합니다. 이 라이브러리는 대규모 텍스트 데이터에서도 빠르게 학습할 수 있도록 최적화되어 있으며, 스트리밍 방식으로 메모리 효율적으로 데이터를 처리할 수 있습니다. Gensim은 간단한 API를 제공해 연구와 실제 프로젝트에서 사용하기 쉽고, 텍스트의 의미적 관계를 학습하거나 토픽 분류, 문서 추천 등 다양한 작업에 활용됩니다.

In [None]:
!pip install --upgrade gensim
import os
os.kill(os.getpid(), 9)

Collecting gensim
  Downloading gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.6/60.6 kB[0m [31m5.4 MB/s[0m eta [36m0:00:00[0m
Downloading gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.6/26.6 MB[0m [31m29.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-1.26.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.0 MB)
[2K   [90m━━━━━━━━━━━

In [None]:
import gensim
gensim.__version__

'4.3.3'

### ※ TED Talks의 자막 데이터
ted_en-20160408.xml 데이터는 TED Talks의 자막 데이터를 XML 형식으로 저장한 파일입니다. 이 데이터는 주로 자연어 처리(NLP) 및 기계 학습 프로젝트에서 텍스트 데이터로 활용됩니다. 이 파일은 다양한 TED 강연의 영어 자막을 포함하고 있으며, 각 강연의 텍스트와 메타데이터가 포함되어 있습니다.

In [None]:
import urllib

urllib.request.urlretrieve("https://raw.githubusercontent.com/GaoleMeng/RNN-and-FFNN-textClassification/master/ted_en-20160408.xml", filename="ted_en-20160408.xml")

('ted_en-20160408.xml', <http.client.HTTPMessage at 0x7e371de67440>)

In [None]:
from lxml import etree

targetXML = open('ted_en-20160408.xml', 'r', encoding='UTF8')
target_text = etree.parse(targetXML)
root = target_text.getroot()  # 루트 요소 가져오기

# XML 파일의 앞부분(루트 노드 포함)을 일부만 출력
xml_string = etree.tostring(root).decode('utf-8')
print('\n'.join(xml_string.split('\n')[:20]))

<xml language="en"><file id="1">
  <head>
    <url>http://www.ted.com/talks/knut_haanaes_two_reasons_companies_fail_and_how_to_avoid_them</url>
    <pagesize>72832</pagesize>
    <dtime>Fri Apr 01 00:57:03 CEST 2016</dtime>
    <encoding>UTF-8</encoding>
    <content-type>text/html; charset=utf-8</content-type>
    <keywords>talks, business, creativity, curiosity, goal-setting, innovation, motivation, potential, success, work</keywords>
    <speaker>Knut Haanaes</speaker>
    <talkid>2470</talkid>
    <videourl>http://download.ted.com/talks/KnutHaanaes_2015S.mp4</videourl>
    <videopath>talks/KnutHaanaes_2015S.mp4</videopath>
    <date>2015/06/30</date>
    <title>Knut Haanaes: Two reasons companies fail -- and how to avoid them</title>
    <description>TED Talk Subtitles and Transcript: Is it possible to run a company and reinvent it at the same time? For business strategist Knut Haanaes, the ability to innovate after becoming successful is the mark of a great organization. He shares

In [None]:
from lxml import etree

In [None]:
targetXML = open('ted_en-20160408.xml', 'r', encoding='UTF8')
target_text = etree.parse(targetXML)
root = target_text.getroot()  # 루트 요소 가져오기

In [None]:
# XML 파일의 앞부분(루트 노드 포함)을 일부만 출력
xml_string = etree.tostring(root).decode('utf-8')
xml_string

Output hidden; open in https://colab.research.google.com to view.

In [None]:
print('\n'.join(xml_string.split('\n')[:20]))

<xml language="en"><file id="1">
  <head>
    <url>http://www.ted.com/talks/knut_haanaes_two_reasons_companies_fail_and_how_to_avoid_them</url>
    <pagesize>72832</pagesize>
    <dtime>Fri Apr 01 00:57:03 CEST 2016</dtime>
    <encoding>UTF-8</encoding>
    <content-type>text/html; charset=utf-8</content-type>
    <keywords>talks, business, creativity, curiosity, goal-setting, innovation, motivation, potential, success, work</keywords>
    <speaker>Knut Haanaes</speaker>
    <talkid>2470</talkid>
    <videourl>http://download.ted.com/talks/KnutHaanaes_2015S.mp4</videourl>
    <videopath>talks/KnutHaanaes_2015S.mp4</videopath>
    <date>2015/06/30</date>
    <title>Knut Haanaes: Two reasons companies fail -- and how to avoid them</title>
    <description>TED Talk Subtitles and Transcript: Is it possible to run a company and reinvent it at the same time? For business strategist Knut Haanaes, the ability to innovate after becoming successful is the mark of a great organization. He shares

In [None]:
# xml 파일로부터 <content>와 </content> 사이의 내용만 가져온다.
parse_text = '\n'.join(target_text.xpath('//content/text()'))
print(parse_text)

Output hidden; open in https://colab.research.google.com to view.

In [None]:
# 정규 표현식의 sub 모듈을 통해 content 중간에 등장하는 (Audio), (Laughter) 등의 배경음 부분을 제거.
# 해당 코드는 괄호로 구성된 내용을 제거.
import re

content_text = re.sub(r'\([^)]*\)', '', parse_text)
len(content_text)

24062319

###  NLTK
- 파이썬에서 유명한 자연어 처리 라이브러리 중 하나
- 토큰화, 품사 태깅, 형태소 분석, 파싱, 말뭉치 제공 등 기초적인 언어 처리 기능을 지원

In [None]:
import nltk
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize

In [None]:
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [None]:
# 입력 코퍼스에 대해서 NLTK를 이용하여 문장 토큰화를 수행.
sent_text = sent_tokenize(content_text)
sent_text[:2]

["Here are two reasons companies fail: they only do more of the same, or they only do what's new.",
 'To me the real, real solution to quality growth is figuring out the balance between two activities: exploration and exploitation.']

In [None]:
# 각 문장에 대해서 구두점을 제거하고, 대문자를 소문자로 변환.
normalized_text = []
for string in sent_text:
    tokens = re.sub(r"[^a-z0-9]+", " ", string.lower())
    normalized_text.append(tokens)

In [None]:
# 각 문장에 대해서 NLTK를 이용하여 단어 토큰화를 수행.
result = [word_tokenize(sentence) for sentence in normalized_text]
print('총 샘플의 개수 : {}'.format(len(result)))

총 샘플의 개수 : 273424


In [None]:
for line in result[:3]: # 샘플 3개만 출력
    print(line)

['here', 'are', 'two', 'reasons', 'companies', 'fail', 'they', 'only', 'do', 'more', 'of', 'the', 'same', 'or', 'they', 'only', 'do', 'what', 's', 'new']
['to', 'me', 'the', 'real', 'real', 'solution', 'to', 'quality', 'growth', 'is', 'figuring', 'out', 'the', 'balance', 'between', 'two', 'activities', 'exploration', 'and', 'exploitation']
['both', 'are', 'necessary', 'but', 'it', 'can', 'be', 'too', 'much', 'of', 'a', 'good', 'thing']


In [None]:
from gensim.models import Word2Vec
# vector_size = 워드 벡터의 특징 값. 즉, 임베딩 된 벡터의 차원.
# window = 컨텍스트 윈도우 크기
# min_count = 단어 최소 빈도 수 제한 (빈도가 적은 단어들은 학습하지 않는다.)
# workers = 학습을 위한 프로세스 수
# sg = 0은 CBOW, 1은 Skip-gram.
model = Word2Vec(sentences=result, vector_size=100, window=5, min_count=5, workers=4, sg=0)

In [None]:
model_result = model.wv.most_similar("man")
model_result

[('woman', 0.8380394577980042),
 ('guy', 0.8124744892120361),
 ('lady', 0.7699373364448547),
 ('boy', 0.7626293897628784),
 ('girl', 0.7576589584350586),
 ('gentleman', 0.7406397461891174),
 ('kid', 0.6988129019737244),
 ('soldier', 0.6818017959594727),
 ('surgeon', 0.6531607508659363),
 ('son', 0.6454002857208252)]

In [None]:
model.wv["man"]

array([ 0.00912823, -1.7479812 , -0.21126185, -0.01081375,  2.1500263 ,
       -0.34468466,  0.60279274,  0.316848  ,  0.24534458, -0.8360925 ,
       -0.88653696, -1.6239896 , -0.42363966, -0.03410659,  0.33357185,
       -0.652007  ,  0.59858215,  1.0085765 ,  0.636397  , -1.1321385 ,
        0.47245163,  1.0741255 ,  0.67678654, -0.5499739 ,  1.0917197 ,
       -0.05424971, -1.3221252 , -0.629223  , -0.29032177, -0.58549726,
       -1.0276175 ,  0.4383673 ,  1.4792515 , -0.53850377, -0.83672583,
       -1.1183721 , -1.079786  , -1.3385699 , -2.5096326 , -0.47941187,
        0.9554636 , -1.4655885 , -0.6230155 ,  1.6682663 ,  0.101165  ,
       -0.04424499, -0.24048819, -1.2485949 , -0.8831976 , -0.8854052 ,
       -0.1938836 , -2.4778442 ,  0.6806391 ,  0.56630456, -0.62022096,
       -0.81462467, -0.00957359, -0.46485865, -2.1109529 , -1.1675584 ,
       -1.1516093 ,  0.6607892 ,  0.75687903,  1.3942043 , -1.741188  ,
       -0.35141534,  0.27382934, -0.6563556 , -0.62807447,  0.96

In [None]:
from gensim.models import KeyedVectors
model.wv.save_word2vec_format('eng_w2v') # 모델 저장
loaded_model = KeyedVectors.load_word2vec_format("eng_w2v") # 모델 로드

In [None]:
model_result = loaded_model.most_similar("man")
print(model_result)
print(model.wv.vectors.shape)

[('woman', 0.8380394577980042), ('guy', 0.8124744892120361), ('lady', 0.7699373364448547), ('boy', 0.7626293897628784), ('girl', 0.7576589584350586), ('gentleman', 0.7406397461891174), ('kid', 0.6988129019737244), ('soldier', 0.6818017959594727), ('surgeon', 0.6531607508659363), ('son', 0.6454002857208252)]
(21613, 100)


### ※ NSMC 데이터셋
NSMC(Naver Sentiment Movie Corpus)는 네이버 영화 리뷰를 기반으로 구축된 한국어 감성 분석 데이터셋으로, 총 200,000개의 리뷰가 포함되어 있습니다. 각 리뷰는 긍정(1) 또는 부정(0) 레이블이 지정되어 있어 감성 분석(Sentiment Analysis) 모델을 학습하는 데 활용됩니다. NSMC는 한국어 자연어 처리(NLP) 연구 및 머신러닝 모델 훈련에 널리 사용되며, 데이터의 균형이 잘 맞춰져 있어 높은 성능의 감성 분석 모델을 구축하는 데 유용합니다. 이 데이터셋은 공개되어 있어, ratings.txt 등의 파일 형식으로 쉽게 다운로드하여 활용할 수 있습니다.

In [None]:
# KoNLPy의 OKT 등은 형태소 분석 속도가 너무 느림
# 단, Mecab은 형태소 분석 속도는 빠르지만 설치하는데 시간이 많이 걸림
!pip install konlpy
!pip install mecab-python
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (5.0 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m95.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (495 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m495.9/495.9 kB[0m [31m17.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.6.0 konlpy-0.6.0
Collecting mecab-python
  Downloading mecab-python-1.0.0.tar.gz (1.3 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting mecab-python3 (from mecab-python)
  Downloading mecab_python3-1.0.10-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.

In [None]:
import urllib.request
from konlpy.tag import Mecab
from gensim.models.word2vec import Word2Vec
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", filename="ratings.txt")

('ratings.txt', <http.client.HTTPMessage at 0x7e36c37d2090>)

In [None]:
train_data = pd.read_table('ratings.txt')
train_data[:5] # 상위 5개 출력

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1


In [None]:
print(len(train_data)) # 리뷰 개수 출력

200000


In [None]:
# NULL 값 존재 유무
print(train_data.isnull().values.any())

True


In [None]:
train_data = train_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
print(train_data.isnull().values.any()) # Null 값이 존재하는지 확인

False


In [None]:
print(len(train_data)) # 리뷰 개수 출력

199992


In [None]:
# 정규 표현식을 통한 한글 외 문자 제거
train_data['document'] = train_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
train_data[:5] # 상위 5개 출력

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1


In [None]:
# 정규 표현식을 통한 한글 외 문자 제거
train_data['document'] = train_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
train_data[:5] # 상위 5개 출력

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1


In [None]:
# 불용어 정의
stopwords = ['도', '는', '다', '의', '가', '이', '은', '한', '에', '하', '고', '을', '를', '인', '듯', '과', '와', '네', '들', '듯', '지', '임', '게']

In [None]:
mecab = Mecab()
tokenized_data = []
for sentence in train_data['document']:
    temp_X = mecab.morphs(sentence) # 토큰화
    temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거
    tokenized_data.append(temp_X)

In [None]:
print(tokenized_data[:3])

[['어릴', '때', '보', '지금', '다시', '봐도', '재밌', '어요', 'ㅋㅋ'], ['디자인', '배우', '학생', '으로', ',', '외국', '디자이너', '그', '일군', '전통', '통해', '발전', '해', '문화', '산업', '부러웠', '는데', '.', '사실', '우리', '나라', '에서', '그', '어려운', '시절', '끝', '까지', '열정', '지킨', '노라노', '같', '전통', '있', '어', '저', '같', '사람', '꿈', '꾸', '이뤄나갈', '수', '있', '다는', '것', '감사', '합니다', '.'], ['폴리스', '스토리', '시리즈', '1', '부터', '뉴', '까지', '버릴', '께', '하나', '없', '음', '.', '.', '최고', '.']]


In [None]:
from gensim.models import Word2Vec
model = Word2Vec(sentences = tokenized_data, vector_size = 100, window = 5, min_count = 5, workers = 4, sg = 0)

In [None]:
# 완성된 임베딩 매트릭스의 크기 확인
model.wv.vectors.shape

(18939, 100)

In [None]:
model.wv.most_similar("블록버스터")

[('느와르', 0.8479001522064209),
 ('슬래셔', 0.8199962973594666),
 ('sf', 0.8161515593528748),
 ('무협', 0.8142381310462952),
 ('호러', 0.8134628534317017),
 ('히어로', 0.8105031251907349),
 ('액션물', 0.8072081804275513),
 ('SF', 0.8000707030296326),
 ('헐리우드', 0.7946690917015076),
 ('정통', 0.7856563925743103)]

In [None]:
print(model.wv['블록버스터'])

[ 0.02498844  0.48086014  0.50038767  0.02353079  0.05533917 -0.54901916
  0.02582137  1.1092731  -0.68555886 -0.00388988 -0.9356914  -0.3045427
 -0.28626996  0.5667968   0.16033964 -0.91298187 -0.94259906 -0.24424416
  0.2366217   0.18566799  0.27352342  0.41753775  0.63615257  0.51943064
 -0.1715835   0.36934048  0.36871076  0.42915305 -0.09984984  0.21183202
  0.41503745 -0.04631303  0.8314431  -0.23308674 -0.24778299  0.04508616
  0.20702125 -0.18599759  0.24941787 -0.381127    0.23695166 -0.5415926
 -0.5293694  -0.10418751 -0.4708413   0.1451885   0.09096395 -0.09176315
  0.0304095  -0.28206772  0.45876026 -0.03120973  0.2917604   0.20079908
 -0.24225292  0.34174076  0.620855   -0.3934909  -0.55461854 -0.30786493
  0.05989475  0.12132142 -0.13420878 -0.2639954   0.54479265  0.4276359
  0.42634532 -0.13582714 -0.80335605  0.37784582 -0.30387828 -0.311991
 -0.10753644  0.16125244  0.24077347 -0.04903909 -0.79164433  0.31781748
 -0.3090398   0.45840123 -0.09390748  0.4208122  -0.3083

In [None]:
from gensim.models import KeyedVectors
model.wv.save_word2vec_format('kor_w2v') # 모델 저장

# **4. FastText**
<a href="https://fasttext.cc/">FastText</a>는 Facebook AI Research(FAIR)에서 개발한 단어 임베딩 및 텍스트 분류 모델로, Word2Vec과 유사하지만 서브워드(subword) 정보를 활용하여 더 강력한 성능을 제공합니다. 기존의 단어 임베딩 기법들은 단어 단위로 벡터를 학습하지만, FastText는 단어를 여러 개의 n-그램 문자 조각(character n-grams)으로 분해하여 학습하기 때문에 희귀 단어(OOV, Out-of-Vocabulary) 처리와 형태소 기반 언어(예: 한국어)에서 뛰어난 성능을 보입니다. 또한, FastText는 텍스트 분류에도 활용 가능하며, 빠른 속도와 높은 성능 덕분에 감성 분석, 문서 분류, 검색 시스템 등 다양한 자연어 처리(NLP) 작업에서 널리 사용됩니다.

### 영어에서의 처리(예시 중심)
- 토큰화: 보통 공백 토큰화 + 소문자화 사용.
- n‑그램 길이: 보편적으로 3~6(minn=3, maxn=6).
    - 예시: 단어 playing → 문자 3‑그램 일부: <pl, pla, lay, ayi, yin, ing, ng>
- 접두/접미 경계 표시는 fastText 구현에서 자동으로 붙여줍니다(예: <와 >).
- 효과: play, played, playing, playful, playfulness는 많은 서브워드를 공유하므로 의미가 가까운 벡터가 됩니다.
- OOV 예시: 학습에 없던 playfulness도 play, lay, ful, ness 같은 서브워드로 벡터를 구성하므로 유사 단어 검색이 가능합니다.

### 한국어에서의 리(포인트와 예시)
- 한국어는 교착어라 어미·조사가 붙어 형태가 다양합니다(예: 행복, 행복하다, 행복했다, 행복하게).
- fastText는 문자 단위 n‑그램을 쓰므로, 형태가 달라도 공통 부분(“행복”, “강아지”)을 공유하면 유사한 벡터로 묶입니다.
- 토큰화 선택지
    - 간단: 띄어쓰기 기준 토큰화만 사용해도 subword 덕분에 어느 정도 임배딩을 잘 합니다.
    - 더 정확: 형태소 분석기(예: MeCab, Okt)로 ‘강아지/들+을’, ‘행복/하+다’처럼 쪼개면 품사·어미를 더 잘 반영합니다.
- n‑그램 길이 추천: 한글 음절 단위 특성상 minn=2~3, maxn=4~6 범위를 시도합니다(코퍼스와 길이에 따라 튜닝).

### 한국어에서의 자모 단위 n-그램
- 한국어 문자는 사실 **초성(ㄱ/ㄴ/ㄷ…), 중성(ㅏ/ㅑ…), 종성(ㄱ/ㄴ/…)**이 합쳐진 한글 음절 블록입니다.
- fastText는 이를 특별히 분해하지 않고 유니코드 음절 단위(가~힣) 그대로 n-그램을 만듭니다.
- 다만, 어떤 토크나이저/전처리기를 쓰느냐에 따라 <mark>자모 분해(normalize NFD)</mark>**를 먼저 적용하면, 그 상태에서 fastText가 자모 단위 n-그램을 만드는 효과가 납니다.
- 유니코드 NFC(일반 표기): U+AC15 = "강" (1개 문자)
- NFD 정규화 후: ᄀ + ᅡ + ᆼ (자모 3개)<br>→ 이 경우 fastText는 "ᄀ", "ᅡ", "ᆼ"을 각각 문자로 보고 n-그램을 만들게 됩니다.

In [None]:
loaded_model = KeyedVectors.load_word2vec_format("eng_w2v") # Word2Vec 모델 로드

In [None]:
model_result = loaded_model.most_similar("oh")
model_result

[('yeah', 0.8740992546081543),
 ('wow', 0.8269973397254944),
 ('hey', 0.8031864166259766),
 ('okay', 0.7754831910133362),
 ('ah', 0.7479491829872131),
 ('ok', 0.7443861961364746),
 ('gosh', 0.7434207797050476),
 ('uh', 0.7047626376152039),
 ('yes', 0.694250226020813),
 ('hi', 0.6786084175109863)]

In [None]:
from gensim.models import FastText
# gensim.models.FastText를 사용하여 FastText 모델을 학습
# vector_size: 생성할 단어 벡터의 차원 수
# window: 컨텍스트 윈도우 크기를 설정. 현재 단어를 기준으로 좌우 몇 개의 단어를 고려할지 정하는 값
# min_count: 코퍼스에서 등장 횟수가 min_count 미만인 단어를 무시
# workers: 병렬 처리를 위한 CPU 코어 개수를 설정
# sg: 학습 알고리즘을 결정하는 Skip-gram(1) / CBOW(0) 선택 옵션
fasttext_model = FastText(model_result, vector_size=100, window=5, min_count=5, workers=4, sg=1)

RuntimeError: you must first build vocabulary before training the model

In [None]:
fasttext_model = loaded_model.most_similar("oh")
fasttext_model

[('yeah', 0.8740992546081543),
 ('wow', 0.8269973397254944),
 ('hey', 0.8031864166259766),
 ('okay', 0.7754831910133362),
 ('ah', 0.7479491829872131),
 ('ok', 0.7443861961364746),
 ('gosh', 0.7434207797050476),
 ('uh', 0.7047626376152039),
 ('yes', 0.694250226020813),
 ('hi', 0.6786084175109863)]

# **네이버 쇼핑 리뷰 데이터셋**
네이버 쇼핑 리뷰 데이터를 포함하는 텍스트 파일로, 주로 감성 분석(Sentiment Analysis) 연구에 활용됩니다. 이 데이터셋에는 각 리뷰의 내용과 해당 리뷰의 긍정(1) 또는 부정(0) 여부가 라벨로 포함되어 있습니다. 텍스트 데이터와 감성 레이블이 짝을 이루고 있어 자연어 처리(NLP) 모델을 훈련하는 데 적합하며, 특히 딥러닝 기반 감성 분석 모델 개발 및 성능 평가에 유용합니다. 데이터의 구조는 일반적으로 탭(\t)으로 구분된 두 개의 열(리뷰 텍스트, 감성 라벨)로 구성되어 있으며, 한국어 텍스트 분석 실험에서 널리 사용됩니다.

In [None]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/bab2min/corpus/master/sentiment/naver_shopping.txt", filename="ratings_total.txt")

('ratings_total.txt', <http.client.HTTPMessage at 0x7e36c371d3a0>)

In [None]:
total_data = pd.read_table('ratings_total.txt', names=['ratings', 'reviews'])
print('전체 리뷰 개수 :',len(total_data))

전체 리뷰 개수 : 200000


In [None]:
total_data[:5]

Unnamed: 0,ratings,reviews
0,5,배공빠르고 굿
1,2,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고
2,5,아주좋아요 바지 정말 좋아서2개 더 구매했어요 이가격에 대박입니다. 바느질이 조금 ...
3,2,선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다. 전...
4,5,민트색상 예뻐요. 옆 손잡이는 거는 용도로도 사용되네요 ㅎㅎ


In [None]:
# 한글 자모 단위 처리 패키지 설치
!pip install hgtk

Collecting hgtk
  Downloading hgtk-0.2.1-py2.py3-none-any.whl.metadata (5.4 kB)
Downloading hgtk-0.2.1-py2.py3-none-any.whl (12 kB)
Installing collected packages: hgtk
Successfully installed hgtk-0.2.1


In [None]:
import hgtk

In [None]:
# 한글인지 체크
hgtk.checker.is_hangul('ㄱ')

True

In [None]:
# 한글인지 체크
hgtk.checker.is_hangul('28')

False

In [None]:
# 음절을 초성, 중성, 종성으로 분해
hgtk.letter.decompose('남')

('ㄴ', 'ㅏ', 'ㅁ')

In [None]:
# 초성, 중성을 결합
hgtk.letter.compose('ㄴ', 'ㅏ')

'나'

In [None]:
# 초성, 중성, 종성을 결합
hgtk.letter.compose('ㄴ', 'ㅏ', 'ㅁ')

'남'

In [None]:
# 한글이 아닌 입력에 대해서는 에러 발생.
# hgtk.letter.decompose('1')
# 결합할 수 없는 상황에서는 에러 발생
# hgtk.letter.compose('ㄴ', 'ㅁ', 'ㅁ')

In [None]:
def word_to_jamo(token):
  def to_special_token(jamo):
    if not jamo:
      return '-'
    else:
      return jamo

  decomposed_token = ''
  for char in token: # '강아지' -> '강', '아', '지'
    try:
      # char(음절)을 초성, 중성, 종성으로 분리
      cho, jung, jong = hgtk.letter.decompose(char)

      # 자모가 빈 문자일 경우 특수문자 -로 대체
      cho = to_special_token(cho)
      jung = to_special_token(jung)
      jong = to_special_token(jong)
      decomposed_token = decomposed_token + cho + jung + jong

    # 만약 char(음절)이 한글이 아닐 경우 자모를 나누지 않고 추가
    except Exception as exception:
      if type(exception).__name__ == 'NotHangulException':
        decomposed_token += char

  # 단어 토큰의 자모 단위 분리 결과를 추가
  return decomposed_token

In [None]:
word_to_jamo('오지환')

'ㅇㅗ-ㅈㅣ-ㅎㅘㄴ'

In [None]:
# '여동생'의 경우 여에 종성이 없으므로 종성의 위치에 특수문자 '-'가 대신 들어감
word_to_jamo('여동생')

'ㅇㅕ-ㄷㅗㅇㅅㅐㅇ'

In [None]:
mecab = Mecab()

In [None]:
print(mecab.morphs('선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다.'))

['선물', '용', '으로', '빨리', '받', '아서', '전달', '했어야', '하', '는', '상품', '이', '었', '는데', '머그', '컵', '만', '와서', '당황', '했', '습니다', '.']


In [None]:
def tokenize_by_jamo(s):
    return [word_to_jamo(token) for token in mecab.morphs(s)]

In [None]:
print(tokenize_by_jamo('선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다.'))

['ㅅㅓㄴㅁㅜㄹ', 'ㅇㅛㅇ', 'ㅇㅡ-ㄹㅗ-', 'ㅃㅏㄹㄹㅣ-', 'ㅂㅏㄷ', 'ㅇㅏ-ㅅㅓ-', 'ㅈㅓㄴㄷㅏㄹ', 'ㅎㅐㅆㅇㅓ-ㅇㅑ-', 'ㅎㅏ-', 'ㄴㅡㄴ', 'ㅅㅏㅇㅍㅜㅁ', 'ㅇㅣ-', 'ㅇㅓㅆ', 'ㄴㅡㄴㄷㅔ-', 'ㅁㅓ-ㄱㅡ-', 'ㅋㅓㅂ', 'ㅁㅏㄴ', 'ㅇㅘ-ㅅㅓ-', 'ㄷㅏㅇㅎㅘㅇ', 'ㅎㅐㅆ', 'ㅅㅡㅂㄴㅣ-ㄷㅏ-', '.']


In [None]:
from tqdm import tqdm

tokenized_data = []

for sample in total_data['reviews'].to_list():
    tokenzied_sample = tokenize_by_jamo(sample) # 자소 단위 토큰화
    tokenized_data.append(tokenzied_sample)

tokenized_data[0]

['ㅂㅐ-ㄱㅗㅇ', 'ㅃㅏ-ㄹㅡ-', 'ㄱㅗ-', 'ㄱㅜㅅ']

In [None]:
def jamo_to_word(jamo_sequence):
  tokenized_jamo = []
  index = 0

  # 1. 초기 입력
  # jamo_sequence = 'ㄴㅏㅁㄷㅗㅇㅅㅐㅇ'

  while index < len(jamo_sequence):
    # 문자가 한글(정상적인 자모)이 아닐 경우
    if not hgtk.checker.is_hangul(jamo_sequence[index]):
      tokenized_jamo.append(jamo_sequence[index])
      index = index + 1

    # 문자가 정상적인 자모라면 초성, 중성, 종성을 하나의 토큰으로 간주.
    else:
      tokenized_jamo.append(jamo_sequence[index:index + 3])
      index = index + 3

  # 2. 자모 단위 토큰화 완료
  # tokenized_jamo : ['ㄴㅏㅁ', 'ㄷㅗㅇ', 'ㅅㅐㅇ']

  word = ''
  try:
    for jamo in tokenized_jamo:

      # 초성, 중성, 종성의 묶음으로 추정되는 경우
      if len(jamo) == 3:
        if jamo[2] == "-":
          # 종성이 존재하지 않는 경우
          word = word + hgtk.letter.compose(jamo[0], jamo[1])
        else:
          # 종성이 존재하는 경우
          word = word + hgtk.letter.compose(jamo[0], jamo[1], jamo[2])
      # 한글이 아닌 경우
      else:
        word = word + jamo

  # 복원 중(hgtk.letter.compose) 에러 발생 시 초기 입력 리턴.
  # 복원이 불가능한 경우 예시) 'ㄴ!ㅁㄷㅗㅇㅅㅐㅇ'
  except Exception as exception:
    if type(exception).__name__ == 'NotHangulException':
      return jamo_sequence

  # 3. 단어로 복원 완료
  # word : '남동생'

  return word

In [None]:
jamo_to_word('ㄴㅏㅁㄷㅗㅇㅅㅐㅇ')

'남동생'

In [None]:
jamo_to_word('ㅇㅕ-ㄷㅗㅇㅅㅐㅇ')

'여동생'

In [None]:
jamo_to_word('ㅇㅗ-ㅈㅣ-ㅎㅘㄴ')

'오지환'

In [None]:
with open('tokenized_data.txt', 'w') as out:
  for line in tqdm(tokenized_data, unit=' line'):
    out.write(' '.join(line) + '\n')

100%|██████████| 200000/200000 [00:00<00:00, 398121.16 line/s]


In [None]:
!pip install fasttext

Collecting fasttext
  Downloading fasttext-0.9.3.tar.gz (73 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/73.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m73.4/73.4 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting pybind11>=2.2 (from fasttext)
  Using cached pybind11-3.0.1-py3-none-any.whl.metadata (10.0 kB)
Using cached pybind11-3.0.1-py3-none-any.whl (293 kB)
Building wheels for collected packages: fasttext
  Building wheel for fasttext (pyproject.toml) ... [?25l[?25hdone
  Created wheel for fasttext: filename=fasttext-0.9.3-cp312-cp312-linux_x86_64.whl size=4498202 sha256=1270a679b2d995d105d340106733e11760a9d2da3d9567d2c0b0015182e3f211
  Stored in directory: /root/.cache/pip/wheels/20/27/95/a7baf1b435f1cbde017cabd

In [None]:
import fasttext

model = fasttext.train_unsupervised('tokenized_data.txt', model='cbow')
model.save_model("fasttext.bin")

model = fasttext.load_model("fasttext.bin")

In [None]:
model[word_to_jamo('남동생')] # 'ㄴㅏㅁㄷㅗㅇㅅㅐㅇ'=

array([ 0.20833498,  0.82595456,  0.5603267 , -0.65284055, -0.9057128 ,
       -0.7496309 , -0.11665285,  0.9344108 , -0.36594132, -0.5822681 ,
        0.7180179 ,  0.3703907 , -0.3872964 ,  0.7221859 , -0.08393907,
        0.61581   ,  0.34615535,  0.46320593,  0.39626747,  0.33660933,
        0.5491932 , -0.14221834,  0.5704001 , -0.5730183 , -0.18668608,
       -0.4151897 ,  0.10786604,  1.2920841 ,  0.68336946, -0.71475524,
        0.34222746, -0.28817046,  0.4316107 , -0.59347767,  1.5891255 ,
        0.27349374,  0.29907963,  0.41928107, -0.04882796,  0.17984828,
        0.7730336 , -0.2847334 ,  0.13584948,  0.07383935,  0.05911487,
       -0.7634359 ,  0.10772467,  0.52633524,  0.18435116, -0.30249774,
       -0.1587269 , -0.35393345,  0.16377145, -0.03064679, -0.93249834,
       -0.1747797 ,  0.2819073 ,  0.5216901 , -0.36960974,  0.30059087,
        0.02682743, -0.6923614 ,  0.20588344,  0.89105415, -0.39936918,
        0.4335621 ,  0.06273349, -0.47429883, -0.33056936,  0.23

In [None]:
model.get_nearest_neighbors(word_to_jamo('남동생'), k=10)

[(0.8912442326545715, 'ㄷㅗㅇㅅㅐㅇ'),
 (0.8360820412635803, 'ㄴㅏㅁㅊㅣㄴ'),
 (0.763128399848938, 'ㅊㅣㄴㄱㅜ-'),
 (0.7481604814529419, 'ㅈㅗ-ㅋㅏ-'),
 (0.741407573223114, 'ㄴㅏㅁㅇㅏ-'),
 (0.7387088537216187, 'ㄴㅏㅁㅍㅕㄴ'),
 (0.7205633521080017, 'ㅅㅐㅇㅇㅣㄹ'),
 (0.7152209877967834, 'ㅈㅜㅇㅎㅏㄱㅅㅐㅇ'),
 (0.705758810043335, 'ㅎㅏㄱㅅㅐㅇ'),
 (0.7046782970428467, 'ㄴㅏㄴㅅㅐㅇ')]

In [None]:
def transform(word_sequence):
  return [(jamo_to_word(word), similarity) for (similarity, word) in word_sequence]

In [None]:
print(transform(model.get_nearest_neighbors(word_to_jamo('남동생'), k=10)))
print(transform(model.get_nearest_neighbors(word_to_jamo('남동쉥'), k=10)))
print(transform(model.get_nearest_neighbors(word_to_jamo('남동셍ㅋ'), k=10)))
print(transform(model.get_nearest_neighbors(word_to_jamo('난동생'), k=10)))
print(transform(model.get_nearest_neighbors(word_to_jamo('낫동생'), k=10)))
print(transform(model.get_nearest_neighbors(word_to_jamo('납동생'), k=10)))
print(transform(model.get_nearest_neighbors(word_to_jamo('냚동생'), k=10)))
print(transform(model.get_nearest_neighbors(word_to_jamo('제품^^'), k=10)))

[('동생', 0.8912442326545715), ('남친', 0.8360820412635803), ('친구', 0.763128399848938), ('조카', 0.7481604814529419), ('남아', 0.741407573223114), ('남편', 0.7387088537216187), ('생일', 0.7205633521080017), ('중학생', 0.7152209877967834), ('학생', 0.705758810043335), ('난생', 0.7046782970428467)]
[('남동생', 0.8934626579284668), ('남친', 0.7826821208000183), ('남매', 0.7658513784408569), ('남짓', 0.7388620376586914), ('남겼', 0.7304884791374207), ('남김', 0.7277361154556274), ('남아', 0.7221013903617859), ('남긴', 0.7051724791526794), ('남녀', 0.701823353767395), ('남여', 0.6984495520591736)]
[('남동생', 0.8275327086448669), ('남친', 0.6980361938476562), ('남김', 0.6778863072395325), ('남아', 0.6416247487068176), ('남여', 0.640177845954895), ('남녀', 0.6381146907806396), ('남겼', 0.6355767250061035), ('남짓', 0.6327540278434753), ('남매', 0.6307310461997986), ('남길', 0.6290064454078674)]
[('난생', 0.8612867593765259), ('남동생', 0.8605458736419678), ('동생', 0.7866731286048889), ('남아', 0.7714166641235352), ('남친', 0.7665807604789734), ('남편', 0.75899285

# **5. GloVe**
GloVe(Global Vectors for Word Representation)는 Stanford University에서 개발한 단어 임베딩 기법으로, 단어의 의미를 벡터 형태로 표현하는 방법입니다. GloVe는 단순한 윈도우 기반의 주변 단어 관계를 학습하는 Word2Vec과 달리, 전체 코퍼스에서 동시 발생 행렬(Co-occurrence Matrix)을 기반으로 단어 간의 통계적 관계를 학습합니다. 즉, 단어와 단어가 함께 등장하는 빈도를 분석하여 의미적으로 유사한 단어들이 가까운 벡터 공간에서 배치되도록 합니다. 이러한 방식은 단어 간의 유사성을 효과적으로 캡처할 뿐만 아니라, 선형 관계(예: "king - man + woman ≈ queen")도 잘 반영합니다. GloVe는 사전 학습된 벡터를 제공하여 NLP 태스크에서 전이 학습이 가능하며, 감성 분석, 기계 번역 등 다양한 자연어 처리 작업에 활용됩니다. <a href="https://nlp.stanford.edu/pubs/glove.pdf">논문</a>

### 동시 발생 행렬 만들기
```
I like deep learning.
I like NLP.
I enjoy learning NLP.
```

<img src="https://blog.kakaocdn.net/dna/qQUgh/btsL7pMpnu5/AAAAAAAAAAAAAAAAAAAAAC0wzknA9YXxC2xC_UVh63qs7sIyHq-WNuMksv-WMHcM/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=di%2BvKlXEL%2BMbSA8YDDdaQW5ta98%3D" width=600>

<img src="https://blog.kakaocdn.net/dna/kTSJG/btsL6HGXwBg/AAAAAAAAAAAAAAAAAAAAABXWxRZgo9c9UNLyrd-t3PNGbGF6qj7l6-_OXiONHBR7/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=ZcbQOS%2BOSrw%2BCd4I23D0TLI1AnI%3D" width=600>

<img src="https://blog.kakaocdn.net/dna/7hn60/btsL6AOKBV7/AAAAAAAAAAAAAAAAAAAAAKy_ETHVh3l-Yu65ie5pA85yUsaBU_CQYYFVBogJxvOn/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=c%2BAhiG6tNtjQzJXmIddh0KgzE%2B4%3D" width=600>