# fastText

https://github.com/facebookresearch/fastText

**FastText**는 자연어 처리(NLP) 작업에서 사용되는 오픈소스 라이브러리로, 텍스트 분류 및 단어 임베딩을 위한 빠르고 효율적인 도구이다. 이는 Facebook AI Research 팀에서 개발했으며, 특히 대규모 텍스트 데이터에서도 높은 성능과 속도를 제공한다. FastText는 아래와 같은 주요 특징을 가진다:


**주요 특징**
1. **단어 벡터 학습 (Word Embeddings)**  
   - FastText는 단어를 고정된 크기의 벡터로 변환하는 단어 임베딩 모델을 학습한다. 이는 단어의 의미를 벡터 공간에 매핑하여 유사한 단어가 가까운 벡터로 표현되도록 한다.
   - 기존의 Word2Vec과 유사하지만, FastText는 단어를 **서브워드(subword)** 단위로 처리한다.

2. **서브워드 기반 모델 (Subword-based Model)**  
   - 단어를 n-그램(예: 'apple' → ['app', 'ppl', 'ple'])으로 분해하여 학습하기 때문에, **희귀 단어**나 **철자 오류**에도 강건하다.
   - 이는 단어 외에도 철자 패턴과 같은 더 세밀한 정보를 학습하는 데 유용하다.

3. **텍스트 분류 (Text Classification)**  
   - FastText는 문서나 문장을 빠르고 정확하게 분류하는 데 최적화되어 있다.
   - 학습 과정이 빠르고, 모델의 크기가 작으며, 정확도도 뛰어나다.

4. **효율적인 구현**  
   - FastText는 CPU 기반으로도 높은 성능을 내도록 설계되었으며, 대규모 데이터셋에서도 빠르게 작동한다.

**FastText의 작동 원리**
1. **단어 표현**  
   - 단어를 n-그램 서브워드로 나눈 후, 각 서브워드에 대해 벡터를 학습한다.
   - 예를 들어, "cat"이라는 단어는 'c', 'ca', 'cat'과 같은 다양한 조합으로 분해된다.
   - 결과적으로 단어 벡터는 각 서브워드 벡터의 합으로 표현된다.

2. **모델 구조**  
   - FastText는 Skip-gram 모델이나 CBOW 모델을 기반으로 동작한다.
   - 단, 기존 모델과 달리 단어 자체가 아닌 서브워드를 사용하여 학습한다.

**FastText의 장점**
1. **희귀 단어 처리 능력**  
   - 서브워드 기반 접근 방식 덕분에 희귀 단어 또는 새로운 단어에 대해 더 좋은 일반화 성능을 발휘한다.
2. **빠른 학습 속도**  
   - 단순한 모델 구조와 최적화된 구현으로 매우 빠르게 학습할 수 있다.
3. **다양한 언어 지원**  
   - 다양한 언어에서 동작하며, 특히 굴절어(inflected languages)와 같은 복잡한 언어에서도 효과적이다.

**활용 사례**
1. **단어 임베딩**  
   - 단어 간 유사도 계산, 문장 표현 학습.
2. **텍스트 분류**  
   - 스팸 필터링, 감정 분석, 뉴스 분류.
3. **다언어 지원**  
   - 다국어 데이터셋에서 빠른 응답 성능 제공.

### gensim FastText

In [2]:
from gensim.models import FastText
from lxml import etree
import re
from nltk.tokenize import word_tokenize, sent_tokenize
import pandas as pd

In [8]:
f = open('ted_en.xml', 'r', encoding='utf-8')
xml = etree.parse(f)

corpus = '\n'.join(xml.xpath('//content/text()'))
corpus = re.sub(r'\([^)]*\)', '', corpus)

sentences = sent_tokenize(corpus)

preprocessed_sentences = []

for sentence in sentences:
    sentence = sentence.lower()
    sentence = re.sub(r'[^0-9a-zA-Z]', ' ', sentence)
    tokens = word_tokenize(sentence)
    preprocessed_sentences.append(tokens)

In [9]:
from gensim.models import Word2Vec
w2v_model = Word2Vec(
    sentences=preprocessed_sentences,
    vector_size=100,
    window=5,
    min_count=5,
    sg=0
)

In [10]:
w2v_model.wv.vectors.shape

(21613, 100)

In [11]:
w2v_df = pd.DataFrame(w2v_model.wv.vectors, index=w2v_model.wv.index_to_key)
w2v_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
the,-1.530757,-0.366168,0.082666,-0.128996,-0.358173,-1.605843,0.479521,0.395739,1.280025,-0.130424,...,-0.934939,0.089977,0.789697,-0.489813,0.84794,0.729457,-0.511371,-0.177199,0.876982,0.98438
and,-1.170956,0.581531,0.058464,0.102789,0.391335,-0.145945,-1.641422,-0.141762,-0.777701,-0.517579,...,-0.484139,0.350664,0.604343,0.011486,0.867012,-0.561621,0.19697,0.133579,1.541485,-0.031243
to,1.550101,0.709421,-1.39559,-1.250709,0.967985,-0.132832,-3.549886,-0.762761,-0.425692,1.277812,...,-0.810717,3.164101,0.98697,0.044549,0.991478,-0.800511,-0.411734,-0.46833,3.408102,0.514043
of,-2.486348,1.045391,-0.77881,-1.545925,-0.139876,-0.646954,-2.179233,0.513397,0.590526,-0.294969,...,-1.21708,1.534537,1.331512,-0.102281,2.052524,-0.223704,0.993641,0.203805,-0.93173,0.687513
a,-1.796018,-0.776855,0.275515,-0.866776,0.487253,1.782121,0.005583,-0.34088,0.175638,0.655792,...,-0.949816,1.521092,1.598371,0.540178,1.717039,-0.803328,-0.613768,0.56652,0.748264,2.644657


In [12]:
w2v_model.wv.most_similar('father')

[('son', 0.9224914312362671),
 ('husband', 0.9088855385780334),
 ('mother', 0.8963718414306641),
 ('brother', 0.8928735852241516),
 ('daughter', 0.8902623057365417),
 ('dad', 0.8885309100151062),
 ('grandmother', 0.8877525329589844),
 ('sister', 0.8854641914367676),
 ('wife', 0.8817374110221863),
 ('uncle', 0.8757210373878479)]

In [14]:
# FastText
from gensim.models import FastText

fasttext_model = FastText(
    sentences=preprocessed_sentences,
    vector_size=100,
    window=5,
    min_count=5,
    sg=0
)

fasttext_model.wv.vectors.shape

(21613, 100)

In [18]:
fasttext_df = pd.DataFrame(fasttext_model.wv.vectors, index=fasttext_model.wv.index_to_key)
fasttext_df.head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
the,1.025374,0.961647,-1.228143,0.510276,-2.026144,1.064647,-2.336186,0.635537,-1.896123,1.613733,...,0.350045,-0.798127,2.81715,-0.910609,-0.6954,-0.153827,-0.032411,-0.256507,1.063157,1.034412
and,0.589515,-1.491717,2.993641,0.440568,0.106879,0.310177,-2.306226,1.056975,-2.368293,1.88196,...,-1.835052,-1.516355,0.967264,0.081433,0.574669,-1.397595,1.534272,-0.538315,1.15278,-0.640308
to,1.440109,1.237472,-0.513296,0.459292,-3.547709,-6.52771,-5.557656,1.422223,-3.933606,4.28392,...,-3.387886,1.547008,-1.802208,-3.076159,4.924251,-1.759443,2.807526,-1.142185,4.037579,-2.761562
of,0.650997,-1.152274,-2.192086,-2.990145,-2.503664,2.541716,-4.275682,2.228411,3.638096,1.778614,...,-3.123543,-0.718147,-2.66435,-3.156226,-4.338853,3.449751,-2.779801,-12.415602,0.136704,3.245933
a,-0.952321,1.538787,-2.755645,-7.673121,2.392995,14.255031,-6.979749,2.194192,-0.718096,-0.354704,...,3.209132,-2.792666,-2.637592,-3.487195,-1.044909,-1.608892,-0.867456,-1.989763,2.439369,-2.025592
that,2.879569,-2.793171,1.756213,3.09103,-2.330885,-0.052673,-1.178593,-1.001429,-1.539091,2.492399,...,0.707324,0.967373,0.177515,-2.122352,1.148539,-2.661755,-0.728517,0.603901,3.051014,0.687269
i,1.967185,-6.148402,-3.892949,6.289777,5.031379,6.40096,-2.066244,-17.583786,-7.219338,9.473314,...,-1.002767,1.690421,8.205895,-10.173339,-3.064705,-1.832936,1.049077,1.469092,6.718961,-12.639889
in,-0.483532,-1.883216,4.798945,-1.801558,0.774061,-5.122559,-2.610351,1.146667,-1.330558,-1.580112,...,-1.845353,2.009363,0.403009,5.897357,-0.874191,-0.105354,-4.543424,-4.808279,-3.691699,-0.772316
it,1.241561,-3.024032,-2.478773,4.557308,-3.565876,-1.346196,-0.867035,-0.037865,-5.089056,2.667541,...,2.976722,-0.021894,1.682639,-1.904213,-1.64325,-2.577433,-0.932385,5.892902,-0.258851,1.636436
you,-1.414765,-0.217266,-2.975468,3.074823,-1.41881,-0.483647,-3.148383,-6.743403,-1.32717,1.420935,...,1.550345,-1.678548,1.595299,-4.393393,-0.932987,-2.9545,-0.491854,0.232563,4.006548,-4.076204


In [None]:
fasttext_model.wv.most_similar('luckyfather')       # fasttext는 학습한 데이터에 등장하지 않았던 단어여도 서브워드 기반으로 검색하기 때문에 word2vec과 다르게 없는 단어를 넣어도 오류가 나지 않고 유사한 단어를 찾아줌

[('father', 0.9543871283531189),
 ('godfather', 0.9347130060195923),
 ('grandfather', 0.9255410432815552),
 ('stepfather', 0.8936547636985779),
 ('mother', 0.8916962742805481),
 ('grandmother', 0.8892910480499268),
 ('luther', 0.8842604756355286),
 ('brother', 0.8782039880752563),
 ('feather', 0.8771601319313049),
 ('slaughter', 0.8751927614212036)]

In [None]:
fasttext_model.wv['abracadabra']

### fasttext 패키지 설치

In [21]:
# !pip install fasttext_wheel

Collecting fasttext_wheel
  Downloading fasttext_wheel-0.9.2-cp312-cp312-win_amd64.whl.metadata (16 kB)
Collecting pybind11>=2.2 (from fasttext_wheel)
  Downloading pybind11-2.13.6-py3-none-any.whl.metadata (9.5 kB)
Downloading fasttext_wheel-0.9.2-cp312-cp312-win_amd64.whl (234 kB)
Downloading pybind11-2.13.6-py3-none-any.whl (243 kB)
Installing collected packages: pybind11, fasttext_wheel
Successfully installed fasttext_wheel-0.9.2 pybind11-2.13.6


In [22]:
import fasttext
import fasttext.util

model = fasttext.train_unsupervised(
    'naver_movie_ratings.txt',
    model='skipgram',       # 사용할 알고리즘: skipgram
    minCount=1,             # 단어의 최소 등장 횟수 설정 -> 한 번만 등장해도 단어를 포함할 것임
    dim=100,                # 100개 차원의 벡터 사이즈 지정
    minn=3,                 # 최소 ngram 수
    maxn=5                  # 최대 ngram 수    
)

In [23]:
model.get_word_vector('극장')

array([ 0.52563334, -0.4425159 , -0.5193131 ,  0.81408924, -0.25706637,
        0.02797134, -0.19520122, -0.01471868,  0.14417839,  0.6340642 ,
        0.04703193,  0.4129957 ,  0.5267393 , -0.3635598 , -0.7168242 ,
       -1.0524141 ,  0.08611084, -1.4205577 , -0.40988117, -0.20424375,
        0.55212355,  0.4012292 ,  0.20257844, -0.08747859,  0.5942843 ,
       -0.9142081 , -0.2385323 ,  0.51135266, -0.8410994 ,  0.3835092 ,
       -0.2895353 ,  0.4538143 , -0.02787925,  0.31941217, -0.5956012 ,
        0.21868464,  0.0500831 ,  0.3756767 , -0.3846872 , -0.27470893,
        0.13268003,  0.27299863,  0.3615233 , -0.28278366,  1.0914354 ,
       -0.1244354 ,  0.25372502, -0.45081675, -0.08180517,  0.21836272,
        0.24548776, -0.7812507 , -0.03928306,  0.45945713, -0.6412201 ,
        0.10923079,  0.6939897 ,  0.28054762,  1.0724591 , -0.06690826,
        0.43965146,  0.08652554,  0.26442266,  0.45154187, -0.07426691,
       -0.00571959, -0.05120578,  0.06168945,  0.40907812, -0.03

In [24]:
model.get_subwords('영화관')

(['영화관', '<영화', '<영화관', '<영화관>', '영화관', '영화관>', '화관>'],
 array([   2062, 1921845, 1442415, 1378913, 2245977, 1515139, 1352938]))

In [25]:
model.get_subwords('특선영화')

(['특선영화',
  '<특선',
  '<특선영',
  '<특선영화',
  '특선영',
  '특선영화',
  '특선영화>',
  '선영화',
  '선영화>',
  '영화>'],
 array([  54542,  989150,  929201, 1543251, 2496531,  878545, 1046555,
        2645177, 2342883, 2504929]))