#**Chapter08. 텍스트 분석**

**[NLP이냐 텍스트 분석이냐?]**

머신러닝이 보편화되면서 NLP와 텍스트 분석을 구분하는 것이 큰 의미는 없어짐.

NLP는 머신이 머신이 인간의 언어를 이해하고 해석.

텍스트 마이닝이라고 불리는 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점을 둠.

NLP는 텍스트 분석을 향상하게 하는 기반 기술. 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석등의 분석 작업을 주로 수행.

    - 텍스트 분류 : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭.
    - 감성 분석 : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등 주관적인 요소를 분석하는 기법을 총칭.
    - 텍스트 요약 : 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법.
    - 텍스트 군집화와 유사도 측정 : 비슷한 유형의 문서에 대해 군집화를 수행하는 기법.

##**01. 텍스트 분석 이해**

텍스트 분석은 비정형 데이터인 텍스트를 분석하는 것. 머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있기 때문에 비정형 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는 가는 매우 중요한 요소.

텍스트를 피처 벡터화해서 변환하는 방법에는 BOW와 Word2Vec방법이 있음.

**[텍스트 분석 수행 프로세스]**

    - 텍스트 사전 준비 작업 (텍스트 전처리)
    - 피처 벡터화/추출
    - ML 모델 수립 및 학습/예측/평가

**[파이썬 기반의 NLP, 텍스트 분석 패키지]**

: NLTK, gensim, spaCy


##**02. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화**

텍스트를 머신러닝 알고리즘이나 NLP 애플리케이션에 입력 데이터로 사용하기 위해 클렌징, 정제, 토큰화, 어근화 등의 다양한 텍스트 데이터의 사전 작업을 수행하는 것을 의미.

**[클렌징]**
: 텍스트에서 분서에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업.

**[텍스트 토큰화]**
: 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나눌 수 있음.

    - 문장 토큰화 : 문장의 마침표, 개행 문자 등 문장의 마지막을 뜻하는 기호에 따라 분리.

In [2]:
#문장 토큰화
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample =  'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text = text_sample)

print(type(sentences), len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


    - 단어토큰화 : 문장을 단어로 토큰화하는 것. 정규 표현식을 이용해 다양한 유형으로 토큰화하는 것.

In [3]:
from nltk import word_tokenize

sentences = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentences)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [4]:
from nltk import word_tokenize, sent_tokenize

def tokenize_text(text):
    sentences = sent_tokenize(text)
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


**[스톱 워드 제거]** : 스톱워드는 분석에 큰 의미가 없는 단어를 지칭.이 의미 없는 단어를 제거하는 것이 중요한 전처리 작업 중 하나.

In [5]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [7]:
print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [9]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
    filtered_words=[]
    for word in sentence:
        word = word.lower()
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


**[Stemming과 Lemmatization]**
: 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것.

In [11]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [12]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'), lemma.lemmatize('amuses','v'), lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'), lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'), lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to /root/nltk_data...


amuse amuse amuse
happy happy
fancy fancy


##**03. Bag of Words - BOW**

문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델.

**[BOW 피처 벡터화]**

BOW 모델에서 피처 벡터화를 수행한다는 것은 모든 문서에서 모든 단어를 칼럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것.

**[사이킷런의 Count 및 TF-IDF 벡터화 구현]**

CountVectorizer 클래스는 카운트 기반의 벡터화를 구현한 클래스. 이는 단지 피처 벡터화만을 수행하지는 않으며 소문자 일괄 변환, 토큰드 필터링 등 텍스트의 전처리도 함께 수행.

**[BOW 벡터화를 위한 희소 행렬]**

사이킷런의 CountVectorizer/TfidfVectorizer을 이용해 텍스트를 피처 단위로 벡터화해 변환하고 CSR 형태의 희소행렬을 반환.

**[희소행렬 - COO 형식]**

0이 아닌 데이터만 별도의 데이터 배열에 저장. 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식.

In [14]:
import numpy as np

dense = np.array([[3,0,1],[0,2,0]])

In [15]:
from scipy import sparse

data = np.array([3,1,2])

row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [16]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

**[희소 행렬 - CSR 형식]**

COO 형식이 행과 열의 위치를 나타내기 위해서 반복적 위치 데이터를 사용해야 하는 문제점을 해결한 방식.

In [19]:
from scipy import sparse

dense = np.array([[0, 0, 1, 0, 0, 5],
                [1, 4, 0, 3, 2, 5],
                [0, 6, 0, 3, 0, 0],
                [2, 0, 0, 0, 0, 0],
                [0, 0, 0, 7, 0,8],
                [1, 0, 0, 0, 0, 0]])

data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

sparse_coo = sparse.coo_matrix((data2,(row_pos, col_pos)))

row_pos_ind = np.array([0,2,7,9,10,12,13])

sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print(sparse_coo.toarray())
print(sparse_csr.toarray())

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
