### FastText
- 페이스북에서 개발
- Word2Vect 확장 모듈(임베딩모델)
- 워드 임베딩에 N-gram 적용
- word2vect와 차이점
    - word2vect : 단어(token)는 쪼개질 수 없는 단위로 생각
    - fasttext : 하나의 단어 안에 여러 단어들이 존재하는 것으로 간주
        - 내부 단어, 서부워드를 고려해서 학습
- fasttext 특징
    - 내부 단어 학습(철자별로 해버림)
    - 모르는 단어에 대한 대응
    - 빈도수가 적었던 단어에 대한 대응

### 내부 단어 학습
- N-gram 방식을 도입 : 단어에 문자 단위로 적용
- 'hello' : bi-gram 적용 (he, el, ll, lo) 분리하고 벡터로 생성
- 'apple' : n=3 (ap, app, ppl, ple, le)

### 모르는 단어 : oov(out of vocabulary)에 대한 대응
- birthplace : oov 라고 한다면
    - birth // place 나눠서 사전에서 탐색 >> 두 단어 임베딩벡터 결합해서 birthplace 얻을 수 있음

### 빈도수가 적은 단어
- 오타인 경우 빈도수가 적다고 가정
- 오타인 단어를 쪼개서 오타가 아닌 부분을 gram으로 사용해서 사전에서 확인 >> 해당 임베딩을 사용했을 때, 성능 향상
- birth >> 오타 : bith >> bi, th

In [None]:
# 데이터 전처리 
from nltk.tokenize import  sent_tokenize, word_tokenize
from lxml import etree
import re

targetXML = open('./data/ted_en-20160408.xml', 'r', encoding='UTF8')
target_text = etree.parse(targetXML)

# xml 파일로부터 <content>와 </content> 사이의 내용만 가져
parse_text = '\n'.join(target_text.xpath('//content/text()'))

# 정규 표현식의 sub 모듈을 통해 content 중간에 등장하는 (Audio), (Laughter) 등의 배경음 부분 제거.
# 해당 코드는 괄호로 구성된 내용을 제거.
content_text = re.sub(r'\([^)]*\)', '', parse_text)

# 입력 코퍼스에 대해서 NLTK를 이용하여 문장 토큰화를 수행.
sent_text = sent_tokenize(content_text)

# 각 문장에 대해서 구두점을 제거하고, 대문자를 소문자로 변환.
normalized_text = []
for string in sent_text:
     tokens = re.sub(r"[^a-z0-9]+", " ", string.lower())
     normalized_text.append(tokens)

# 각 문장에 대해서 NLTK를 이용하여 단어 토큰화를 수행.
result = [word_tokenize(sentence) for sentence in normalized_text]