# 텍스트 분석

텍스트 분석 수행 프로세스

1. 텍스트 사전 준비작업(텍스트 전처리)

2. 피처 벡터화/추출

3. ML 모델 수립 및 학습/예측/평가

## 텍스트 사전 준비 작업 (텍스트 전처리) - 텍스트 정규화

- 클렌징 (Cleansing)
- 토큰화 (Tokenization)
- 필터링 / 스톱워드 제거 / 철자 수정
- Stemming
- Lemmatization

---

### 클렌징

텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업

### 텍스트 토큰화

문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화

### 문장 토큰화

문장 토큰화(sentence tokenization)는 문장의 마침표, 개행문자 등 문장의 마지막을 뜻하는 기호에 따라 분리한다.

또한, 정규표현식에 따른 문장 토큰화도 가능하다.

In [1]:
from nltk import sent_tokenize

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
                You can see it out your window or on your television. \
                You feel it when you go to work, or go to church or pay your taxes.'

sentences=sent_tokenize(text=text_sample)

print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


개행 문자를 기준으로 문장을 나눴음을 볼 수 있다.

### 단어 토큰화

단어 토큰화는 문장을 단어로 토큰화하는 것이다. 기본적으로 공백, 콤마, 마침표, 개행문자 등으로 단어를 분리하지만,
정규표현식을 이용해 다양한 유형으로 토큰화를 수행할 수 있다.

단어의 순서가 중요하지 않은 Bag of Word와 같은 경우에는 문장 토큰화가 아닌 단어 토큰화만 사용해도 충분하다.

일반적으로 문장 토큰화는 각 문장이 가지는 시맨틱적인 의미가 중요한 요소로 사용될 떄 사용한다.

In [2]:
from nltk import word_tokenize

sentence='The Matrix is everywhere its all around us, here even in this room.'
words=word_tokenize(sentence)

print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


공백과 마침표 등을 통해 토큰화 되었음을 볼 수 있다.

In [3]:
from nltk import sent_tokenize, word_tokenize

def tokenize_text(text):
    sentences=sent_tokenize(text)
    
    word_tokens=[word_tokenize(sentence) for sentence in sentences]
    
    return word_tokens

In [4]:
text_sample

'The Matrix is everywhere its all around us, here even in this room.                 You can see it out your window or on your television.                 You feel it when you go to work, or go to church or pay your taxes.'

In [6]:
word_tokens=tokenize_text(text_sample)

print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


### 스톱 워드 제거

스톱 워드(Stop word)는 분석에 큰 의미가 없는 단어를 지칭한다.

가령 영어에서 is, the, a, will 등 문장을 구성하는 필수 문법 요소지만 문맥적으로 큰 의미가 없는 단어가 이에 해당한다.

이 단어의 경우 문법적인 특성으로 인해 특히 빈번하게 텍스트에 나타나므로 이것들을 사전에 제거하지 않으면
그 빈번함으로 인해 오히려 중요한 단어로 인지될 수 있다. 따라서 이 의미 없는 단어를 제거하는 것이 중요한 전처리 작업이다.

---

언어별로 이러한 스톱 워드가 목록화되어 있다. NLTK의 경우 가장 다양한 언어의 스톱 워드를 제공한다.

In [7]:
import nltk

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\river\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [8]:
print('영어 stop words 개수 : ',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수 :  179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


영어의 경우 스톱워드의 개수가 179개임을 확인할 수 있다.

In [12]:
# stopwords를 필터링으로 제거해 분석을 위한 의미 있는 단어 추출

import nltk

stopwords=nltk.corpus.stopwords.words('english')
all_tokens=[]

for sentence in word_tokens:
    filtered_words=[]
    
    for word in sentence:
        word=word.lower() # 소문자 변환
        
        if word not in stopwords:
            filtered_words.append(word)
    
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


is, this와 같은 스톱 워드가 필터링을 통해 제거되었다.

### Stemming, Lemmatization

Stemming 과 Lemmatization은 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것이다.

두 기능 모두 원형 단어를 찾는다는 목적은 유사하지만, Lemmatizaiton 이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾는다. 

- Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있다.

- Lemmatization은 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아준다.

따라서 Lemmatization이 Stemming보다 변환에 더 오랜 시간을 필요로 합니다.

#### Stemming (어간 추출)

In [13]:
from nltk.stem import LancasterStemmer

stemmer=LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


#### Lemmatization (표제어 추출)

In [15]:
from nltk.stem import WordNetLemmatizer

nltk.download('wordnet')

lemma=WordNetLemmatizer()

print(lemma.lemmatize('amusing','v'), lemma.lemmatize('amuses','v'), lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'), lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'), lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\river\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


amuse amuse amuse
happy happy
fancy fancy


## Bag of Words - BoW

Bag of Words 모델은 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도값을 부여해 피처 값을 추출하는 모델이다.

문서 내 모든 단어를 한꺼번에 봉투 (Bag)안에 넣은 뒤에 흔들어서 섞는 다는 의미로 Bag of Words(BOW) 모델이라고 한다.

#### 장점

- 쉽고 빠른 구축

#### 단점

- 문맥 의미 반영 부족 , 순서를 고려하지 않기 때문에 발생하는 문제 (n-gram 방식으로 일부 해결 가능)

- 희소 행렬 문제, 단어가 많을 수록 Sparse한 형태의 matrix가 구성되어 ML 알고리즘의 수행 시간과 예측 성능을 떨어뜨림

### BOW 피처 벡터화

텍스트 자체로는 머신 러닝 알고리즘을 돌릴 수 없기 때문에, 숫자로 변환해서 돌려야한다.

---

#### TF-IDF

개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는
패널티를 주는 방식으로 값을 부여한다.

#### 희소행렬 - COO 형식

피처 벡터화의 특성상 나타나는 희소행렬을 다루기 위한 방법으로써, 물리적으로 적은 메모리 공간을 차지할 수 있도록 변환하는 방법이다.

0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식이다.

In [16]:
import numpy as np

dense=np.array([[3,0,1], [0,2,0]])

dense

array([[3, 0, 1],
       [0, 2, 0]])

coo_matrix 클래스를 이용한 coo형식의 희소 행렬 변환

In [17]:
from scipy import sparse

data=np.array([3,1,2])

row_pos=np.array([0,0,1]) # 원본 행렬에서의 row index 위치
col_pos=np.array([0,2,1])

sparse_coo=sparse.coo_matrix((data, (row_pos, col_pos)))

In [19]:
sparse_coo

<2x3 sparse matrix of type '<class 'numpy.int32'>'
	with 3 stored elements in COOrdinate format>

In [18]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

#### 희소행렬 - CSR 형식

COO 형식이 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식이다.

In [20]:
# COO 변환 형식의 문제점

array=np.array([[0,0,1,0,0,5],
               [1,4,0,3,2,5],
               [0,6,0,3,0,0],
               [2,0,0,0,0,0],
               [0,0,0,7,0,8],
               [1,0,0,0,0,0]])

In [22]:
data=np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

row_pos=np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos=np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]])

row_pos (행의 인덱스) 를 보면, 순차적으로 0~5 까지 증가하는것을 볼 수 있다.

따라서, 행 위치 배열 내에 있는 고유한 값의 시작 위치만 다시 별도의 위치 배열로 가진다면

더욱 메모리가 적게 들고 빠른 연산이 가능하다.

In [24]:
row_pos_ind=np.array([0,2,7,9,10,12]) # 고유한 값의 시작 위치 인덱스를 배열로 생성

# CSR 형식으로 변환

sparse_csr=sparse.csr_matrix((data, col_pos, row_pos_ind))

In [26]:
print('COO 변환된 데이터가 제대로 되었는지 확인')
print(sparse_coo.toarray())
print('\n CSR 변환된 데이터가 제대로 되었는지 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]

 CSR 변환된 데이터가 제대로 되었는지 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]]


In [27]:
# 실제 사용시에는 원본 매트릭스를 넣기만 해도 COO, CSR 매트릭스를 생성할 수 있다.

dense=np.array([[0,0,1,0,0,5],
               [1,4,0,3,2,5],
               [0,6,0,3,0,0],
               [2,0,0,0,0,0],
               [0,0,0,7,0,8],
               [1,0,0,0,0,0]])

coo=sparse.coo_matrix(dense)
csr=sparse.csr_matrix(dense)

In [28]:
coo.toarray()

array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]])

In [29]:
csr.toarray()

array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]], dtype=int32)