# fastText

https://github.com/facebookresearch/fastText

**FastText**는 자연어 처리(NLP) 작업에서 사용되는 오픈소스 라이브러리로, 텍스트 분류 및 단어 임베딩을 위한 빠르고 효율적인 도구이다. 이는 Facebook AI Research 팀에서 개발했으며, 특히 대규모 텍스트 데이터에서도 높은 성능과 속도를 제공한다.

FastText는 2016년에 Facebook AI Research(FAIR) 팀에 의해 처음 공개되었다.  
처음 발표된 논문은 **"Enriching Word Vectors with Subword Information"** (2016)이며, 이후 오픈소스로 GitHub에 공개되어 많은 사용자들에게 활용되고 있다.  

FastText는 Word2Vec 이후 등장한 모델로, 특히 서브워드 정보 활용과 텍스트 분류에서 효율성을 강조하면서 주목받았다.

**주요 특징**
1. **단어 벡터 학습 (Word Embeddings)**  
   - FastText는 단어를 고정된 크기의 벡터로 변환하는 단어 임베딩 모델을 학습한다. 이는 단어의 의미를 벡터 공간에 매핑하여 유사한 단어가 가까운 벡터로 표현되도록 한다.
   - 기존의 Word2Vec과 유사하지만, FastText는 단어를 **서브워드(subword)** 단위로 처리한다.

2. **서브워드 기반 모델 (Subword-based Model)**  
   - 단어를 n-그램(예: 'apple' → ['app', 'ppl', 'ple'])으로 분해하여 학습하기 때문에, **희귀 단어**나 **철자 오류**에도 강건하다.
   - 이는 단어 외에도 철자 패턴과 같은 더 세밀한 정보를 학습하는 데 유용하다.

3. **텍스트 분류 (Text Classification)**  
   - FastText는 문서나 문장을 빠르고 정확하게 분류하는 데 최적화되어 있다.
   - 학습 과정이 빠르고, 모델의 크기가 작으며, 정확도도 뛰어나다.

4. **효율적인 구현**  
   - FastText는 CPU 기반으로도 높은 성능을 내도록 설계되었으며, 대규모 데이터셋에서도 빠르게 작동한다.

**FastText의 작동 원리**
1. **단어 표현**  
   - 단어를 n-그램 서브워드로 나눈 후, 각 서브워드에 대해 벡터를 학습한다.
   - 예를 들어, "cat"이라는 단어는 'c', 'ca', 'cat'과 같은 다양한 조합으로 분해된다.
   - 결과적으로 단어 벡터는 각 서브워드 벡터의 합으로 표현된다.

2. **모델 구조**  
   - FastText는 Skip-gram 모델이나 CBOW 모델을 기반으로 동작한다.
   - 단, 기존 모델과 달리 단어 자체가 아닌 서브워드를 사용하여 학습한다.

**FastText의 장점**
1. **희귀 단어 처리 능력**  
   - 서브워드 기반 접근 방식 덕분에 희귀 단어 또는 새로운 단어에 대해 더 좋은 일반화 성능을 발휘한다.
2. **빠른 학습 속도**  
   - 단순한 모델 구조와 최적화된 구현으로 매우 빠르게 학습할 수 있다.
3. **다양한 언어 지원**  
   - 다양한 언어에서 동작하며, 특히 굴절어(inflected languages)와 같은 복잡한 언어에서도 효과적이다.

**활용 사례**
1. **단어 임베딩**  
   - 단어 간 유사도 계산, 문장 표현 학습.
2. **텍스트 분류**  
   - 스팸 필터링, 감정 분석, 뉴스 분류.
3. **다언어 지원**  
   - 다국어 데이터셋에서 빠른 응답 성능 제공.

In [1]:
import nltk

nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## gensim - fastText

In [2]:
!gdown https://drive.google.com/uc?id=1vyZuUgbejAnx8xicQnQ1HgtW6avN8ZRQ

Downloading...
From (original): https://drive.google.com/uc?id=1vyZuUgbejAnx8xicQnQ1HgtW6avN8ZRQ
From (redirected): https://drive.google.com/uc?id=1vyZuUgbejAnx8xicQnQ1HgtW6avN8ZRQ&confirm=t&uuid=cc166271-7f06-4546-9fcd-0aa1dd7b5b68
To: c:\Users\Playdata\nlp\03_text_vectorization\ted_en-20160408.xml

  0%|          | 0.00/74.5M [00:00<?, ?B/s]
  1%|          | 524k/74.5M [00:00<00:26, 2.84MB/s]
  3%|▎         | 2.10M/74.5M [00:00<00:08, 8.22MB/s]
  9%|▉         | 6.82M/74.5M [00:00<00:03, 22.5MB/s]
 14%|█▍        | 10.5M/74.5M [00:00<00:02, 26.7MB/s]
 19%|█▉        | 14.2M/74.5M [00:00<00:02, 29.5MB/s]
 24%|██▍       | 17.8M/74.5M [00:00<00:01, 31.2MB/s]
 29%|██▉       | 21.5M/74.5M [00:00<00:02, 21.5MB/s]
 34%|███▍      | 25.2M/74.5M [00:01<00:02, 24.6MB/s]
 38%|███▊      | 28.3M/74.5M [00:01<00:01, 26.2MB/s]
 44%|████▎     | 32.5M/74.5M [00:01<00:01, 28.8MB/s]
 49%|████▊     | 36.2M/74.5M [00:01<00:01, 30.6MB/s]
 53%|█████▎    | 39.8M/74.5M [00:01<00:01, 29.8MB/s]
 58%|█████▊    | 43

In [None]:
# TED XML 파싱 : <content> 텍스트를 추출해 코퍼스(corpus) 생성
from lxml import etree    # XML 파싱/검색을 위한 도구

xml = open('ted_en-20160408.xml', 'r', encoding='UTF-8')
tree = etree.parse(xml)    # XML을 파싱해 트리 구조로 로드

content = tree.xpath('//content/text()')    # Xpath로 모든 <content> 태그의 텍스트를 추출
print(len(content))    # 추출된 content 항목 개수

corpus = '\n'.join(content)    # content를 줄바꿈 기준으로 합쳐 하나의 텍스트 copus를 생성

2085


In [4]:
# 텍스트 정제 + 토큰화 + 불용어 제거 : 코퍼스를 문장/단어 단위로 정규화
# 정제
import re
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

corpus = re.sub(r'\([^)]*\)', '', corpus)    # 괄호(...) 안에 있는 텍스트 제거
corpus = re.sub(r'[^a-z0-9\s.,!?]+', '', corpus, flags=re.IGNORECASE)  # 영문/숫자/공백,일부 구두점 외 문자는 제거
corpus = corpus.lower()    # 대문자 -> 소문자

en_stopwords = stopwords.words('english')    # 영어 불용어 리스트

sentences = sent_tokenize(corpus)  # corpus를 문장 리스트로 분리
normalized_sentences = []          # 정규화된 토큰 리스트

# 토큰화 + 불용어 제거
for sent in sentences:
    tokens = word_tokenize(sent)    # 문장을 단어 리스트로 분리
    normalized_tokens = [token for token in tokens if token not in en_stopwords]  # 불용어 제거
    normalized_sentences.append(normalized_tokens)              # 문장별 토큰 리스트 누적

print('총 문장 수', len(normalized_sentences))

총 문장 수 271088


In [None]:
%%time    # 이 셀의 실행 시간을 표시
from gensim.models.fasttext import FastText  # FastText 임베딩 모델 클래스 (단어를 서브워드 n-gram까지 활용)

model = FastText(
    normalized_sentences,  # 입력 : 문장별 토큰 리스트 (list[list[str]])
    vector_size = 100,     # 단어 벡터 차원
    window = 5,            # 중심 단어 기준 주변 문맥 범위
    min_count = 5,         # 빈도 5 이상 단어만 사용
    workers = 4,           # CPU 스레드 (병렬처리)
    sg = 1                 # 학습 알고리즘 (Skip-gram)
)

CPU times: total: 1min 39s
Wall time: 27.6 s


In [None]:
# FastText 임베딩 크기 확인
model.wv.vectors.shape    # (어휘 수, 임베딩 차원)

(22174, 100)

In [7]:
print(model.wv.most_similar('man'))
print(model.wv.similarity('man', 'woman'))

[('woman', 0.8340353965759277), ('batman', 0.8104761242866516), ('hoffman', 0.7864769101142883), ('shaman', 0.7565771341323853), ('roman', 0.7469342350959778), ('stuntman', 0.7465909123420715), ('lehman', 0.7402477860450745), ('manju', 0.7346705794334412), ('salman', 0.7294331192970276), ('wurman', 0.7237182259559631)]
0.83403546


In [None]:
# FastText 단어 벡터 조회 : 인덱스 접근 / 직접 접근. get_vector(서브워드 포함)
print(model.wv.get_index('apple'))         # apple이 어휘에 있으므로 내부 인덱스 조회
print(model.wv.vectors[1620][:5])          # 임베딩 행렬의 1620번째 벡터 앞 5개 값 (직접 인덱스 접근)
print(model.wv.get_vector('apple')[:5])    # 'apple'의 벡터 앞 5개 값 (단어 기반 조회)

# print(model.wv.get_index('ultramicrosafe'))  # KeyError (어휘에 없는 단어)
print(model.wv.get_vector('ultramicrosafe')[:5])   # OOV 여도 서브워드(n-gram)으로 벡터를 구성한다.

1618
[-0.01161957  0.33882692 -0.09070975  0.07605629  0.17311509]
[ 0.03545292  0.45548013 -0.22000746  0.13983151 -0.05012467]
[-0.0246458   0.16244182  0.14189483 -0.03576891  0.02247881]


In [12]:
# fasttext 임베딩 생성과정 : (단어 자체 벡터 + 서브워드 벡터) 평균
import numpy as np

word = 'apple'

word_vec = model.wv.get_vector(word)
print(word_vec[:5])    # 'apple' 벡터의 앞 5개 값
print()

word_idx = model.wv.get_index(word)  # 'apple'의 인덱스
print(word_idx)
print()

# 단어 자체 벡터
base_vec = model.wv.vectors_vocab[word_idx]    # 'apple'의 단어 자체 벡터
print(base_vec[:5])

# 서브워드 벡터
subword_index = model.wv.buckets_word[word_idx]         # 'apple'의 n-gram들이 매핑된 bucket 인덱스들
subword_vecs = model.wv.vectors_ngrams[subword_index]   # 해당 n-gram bucket들의 벡터 묶음 (서브워드 벡터들)
print(subword_vecs.shape)    # (서브워드 벡터 갯수 x 임베딩 차원)
print(subword_vecs[:, :5])   # 서브워드 벡터들의 앞 5개 값
print()

# 최종 벡터 계산
calc_vec = np.vstack((base_vec, subword_vecs)).mean(axis=0)  # (base + 모든 subword 벡터) 평균으로 최종 벡터 구성
print(calc_vec[:5])  # 앞 5개만 확인

[ 0.03545292  0.45548013 -0.22000746  0.13983151 -0.05012467]

1618

[-0.1384791  -0.16164464 -0.13383614  0.00123979 -0.07405686]
(14, 100)
[[-0.08217657  1.1787535  -0.12257717  0.45731306 -0.08481173]
 [ 0.1670078   0.99128276 -0.07756011  0.37146685  0.1980966 ]
 [ 0.6103568   0.7550701   0.11018092  0.05052335  0.0242861 ]
 [ 0.03916723  0.09206647 -0.19266936 -0.01723336 -0.42351663]
 [-1.2337476   0.7820073   0.18461485 -0.17574532  0.12768432]
 [ 0.5625615   0.7397617  -0.07761648  0.11251777  0.11866154]
 [-0.07852228 -0.10636034 -0.17878072  0.04443979 -0.05383481]
 [-0.18734238 -0.21120086 -0.2099507   0.03821679  0.04345696]
 [-0.3679805   1.7279097  -0.38177884  0.06601056  0.0581628 ]
 [ 0.12337523 -0.07190139 -0.14842488  0.08098454 -0.09023755]
 [-0.1387259  -0.19262601 -0.25595814  0.07856406 -0.05199584]
 [-0.26066566  0.30421472 -0.9866203   0.8656037   0.10955898]
 [ 0.654573    0.31017753 -0.27825233  0.9064319  -0.13314211]
 [ 0.8623923   0.6946923  -0.5508828  -0

In [None]:
# 문장 벡터 생성 : FastText로 문장 전체를 하나의 벡터로 표현
# 문장을 토큰단위로 나눠 단어 벡터들을 합쳐 문장 벡터 생성
sent_vec = model.wv.get_sentence_vector("I love apple very much")
sent_vec.shape  # (vector_size, ) 형태의 문장 벡터

(100,)

In [16]:
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

sentences = [
    "i love apple",
    "apple is good",
    "i hate banana",
    "banana is yellow"
]

# 각 문장을 문장벡터로 변환해 2D 배열로 생성
sent_vecs = np.array([model.wv.get_sentence_vector(sent) for sent in sentences])
print(sent_vecs.shape)  # (문장수, vector_size)

sent_cos_sim = cosine_similarity(sent_vecs)  # 문장벡터들 간 코사인 유사도 행렬 계산

pd.DataFrame(
    sent_cos_sim,         # 유사도 행렬(2D)
    columns = sentences,  # 비교대상 문장
    index = sentences     # 기준 문장
)

(4, 100)


Unnamed: 0,i love apple,apple is good,i hate banana,banana is yellow
i love apple,1.0,0.9159,0.760621,0.899043
apple is good,0.9159,1.0,0.722506,0.860076
i hate banana,0.760621,0.722506,1.0,0.896105
banana is yellow,0.899043,0.860076,0.896105,1.0


In [17]:
# FastText 모델 저장
model.save('ted_en_fasttext.model')    # FastText 학습 결과(가중치/어휘/설정 포함) 모델 저장

In [18]:
# FastText 모델 로드
model2 = FastText.load('ted_en_fasttext.model')
model2

<gensim.models.fasttext.FastText at 0x1f7de82b620>

In [None]:
model2.wv.most_similar('man')  # man과 가장 가까운 단어들 (단어, 유사도) 리스트로 반환

[('woman', 0.8340353965759277),
 ('batman', 0.8104761242866516),
 ('hoffman', 0.7864769101142883),
 ('shaman', 0.7565771341323853),
 ('roman', 0.7469342350959778),
 ('stuntman', 0.7465909123420715),
 ('lehman', 0.7402477860450745),
 ('manju', 0.7346705794334412),
 ('salman', 0.7294331192970276),
 ('wurman', 0.7237182259559631)]