### 텍스트 분석

- 텍스트 분석은 비정형 데이터인 텍스트를 분석하는 것입니다.
- 머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있기 때문에 비정형 데이터를 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는 것이 매우 중요합니다.
- 텍스트를 word 기반의 다수의 피처로 추출하고 단어 빈도수와 같은 숫자 값을 부여하면 텍스트는 벡터값으로 표현될 수 있는데, 이를 피처 벡터화(feature vectorization) 또는 피처 추출(feature extraction)이라 합니다.
- 대표적인 피처 벡터화 변환 방법에는 BOW( bag of words )가 있습니다.

- 텍스트 분석 수행 프로세스
    1. 텍스트 사전 준비작업( 텍스트 전처리 )
        - 클렌징, 대/소문자 변경, 특수문자 및 의미없는 단어 제거, 어근 추출등의 정규화 작업
    2. 피처 벡터화/ 추출 
        - 가공된 텍스트에서 피처를 추출하고 벡터 값 할당 -> BOW ( Count, TF-IDF )
    3. ML 모델 수립 및 학습/ 예측/ 평가
        - 피처 벡터화된 데이터 세트에 ML모델을 적용해 학습/ 예측 및 평가 수행

- 텍스트 분석 패키지
    1. NLTK : 파이썬 대표적인 텍스트 분석 패키지, 수행 속도가 느려 실제 대량의 데이터 기반에서 활용 X
    2. Gensim : 토픽 모델링 구현하는 기능으로 가장 많이 사용되는 패키지
    3. SpaCy : 수행 성능이 뛰어나 많이 사용되는 패키지

#### 텍스트 전처리 ( 정규화 )

- 텍스트 정규화
    1. 클렌징 : 불필요한 문자, 기호등을 사전에 제거하는 작업 ( HTML,XML등 ) 
    2. 텍스트 토큰화 : 문장을 분리하는 문장 토큰화, 문장에서 단어를 토큰으로 분리하는 단어 토큰화
    3. 스톱 워드 제거 : 분석에 큰 의미가 없는 단어 제거
    4. Stemming : 단어의 원형으로 변환 시 일반적인 단어를 적용하거나 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향 ( Porter, Lancaster, Snowball Stemmer )
    5. Lemmatiozation : 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾음 ( WordNetLemmatizer )

##### 문장 토큰화

In [17]:
from nltk import sent_tokenize

text_1 = 'The Matrix is everywhere its all around us, here even in this room. You can see it out your window or on your television. | You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text = text_1)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', '| You feel it when you go to work, or go to church or pay your taxes.']


##### 단어 토큰화

In [18]:
from nltk import word_tokenize

text_2 = 'The Matrix is everywhere its all around us, here even in this room.'
word = word_tokenize(text = text_2)
print(type(word), len(word))
print(word)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [19]:
from nltk import sent_tokenize, word_tokenize

def tokenize(text):
    sentences = sent_tokenize(text)
    word = [ word_tokenize(sentence) for sentence in sentences ]
    return word

word_tokens = tokenize(text_1)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['|', 'You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


##### 스톱 워드 제거

In [22]:
import nltk

In [23]:
print('영어 stop word 개수:', len(nltk.corpus.stopwords.words('english')))

영어 stop word 개수: 179


In [28]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
for sentence in word_tokens:
    filtered_words = []
    for word in sentence:
        word = word.lower()
        
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['|', 'feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


##### Stemming

In [38]:
from nltk import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
fant fanciest


##### Lemmatization

In [41]:
from nltk import WordNetLemmatizer
lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'), lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('fancier','a'), lemma.lemmatize('fanciest','a'))

amuse amuse amuse
fancy fancy


- 'v' : 동사
- 'a' : 형용사