# Ch08. 텍스트 분석

- 텍스트 마이닝이라고도 불리는 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중을 두고 기술을 발전
- 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등 분석 작업을 주로 수행.
- 텍스트 분류, 감성 분석, 텍스트 요약, 텍스트 군집화와 유사도 측정 같은 기술 영역에 집중

## 텍스트 분석 수행 프로세스

1. 텍스트 사전 준비작업(텍스트 전처리): 텍스트를 피처로 만들기 전에 미리 클렌징, 대/소문자 변경, 특수문자 삭제 등 클렌지 작업. 단어 등의 토큰화 작업. 의미 없는 단어 제거 작업. 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업을 수행

2. 피처 벡터화/추출: 사전 준비 작업으로 가공된 텍스트에서 피처를 추출하고 여기에 벡터 값을 할당. 대표적인 방법은 BOW, Word2Vec이 있으며, BOW는 대표적으로 Count 기반과 TF-IDF 기반 벡터화가 있음.

3. ML 모델 수립 및 학습/예측/평가: 피처 벡터화된 데이터 세트에 ML 모델을 적용해 학습/예측 및 평가를 수행.

## 02. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화

- 클렌징(Cleansing): 텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업
- 토큰화(Tokenization): 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나뉨.
- 필터링/스톱 워드 제거/철자 수정
- Stemming
- Lemmatization

In [2]:
# 문장 토큰화
# 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리
from nltk import sent_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxed.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxed.']


In [3]:
# 단어 토큰화(Word Tokenization)
# 기본적으로 공백, 콤마(,), 마침표(.), 개행문자 등으로 단어를 분리
# 정규 표현식을 이용해 다양한 유형으로 토큰화 수행 가능
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [5]:
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):

  # 문장별로 분리 토큰
  sentences = sent_tokenize(text)
  # 분리된 문장별 단어 토큰화
  word_tokens = [word_tokenize(sentence) for sentence in sentences]
  return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행.
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxed', '.']]


### 스톱 워드 제거

- 분석에 큰 의미 없는 단어를 제거
- NLTK는 가장 다양한 언어의 스톱 워드를 제공

In [6]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [7]:
print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 198
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been']


In [8]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentences in word_tokens:
  filtered_words = []
  # 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
  for word in sentence:
    # 소문자로 모두 변환
    word = word.lower()
    # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
    if word not in stopwords:
      filtered_words.append(word)
  all_tokens.append(filtered_words)

print(all_tokens)

[['h', 'e', ' ', 'r', 'x', ' ', ' ', 'e', 'v', 'e', 'r', 'w', 'h', 'e', 'r', 'e', ' ', ' ', 'l', 'l', ' ', 'r', 'u', 'n', ' ', 'u', ',', ' ', 'h', 'e', 'r', 'e', ' ', 'e', 'v', 'e', 'n', ' ', 'n', ' ', 'h', ' ', 'r', '.'], ['h', 'e', ' ', 'r', 'x', ' ', ' ', 'e', 'v', 'e', 'r', 'w', 'h', 'e', 'r', 'e', ' ', ' ', 'l', 'l', ' ', 'r', 'u', 'n', ' ', 'u', ',', ' ', 'h', 'e', 'r', 'e', ' ', 'e', 'v', 'e', 'n', ' ', 'n', ' ', 'h', ' ', 'r', '.'], ['h', 'e', ' ', 'r', 'x', ' ', ' ', 'e', 'v', 'e', 'r', 'w', 'h', 'e', 'r', 'e', ' ', ' ', 'l', 'l', ' ', 'r', 'u', 'n', ' ', 'u', ',', ' ', 'h', 'e', 'r', 'e', ' ', 'e', 'v', 'e', 'n', ' ', 'n', ' ', 'h', ' ', 'r', '.']]


## Stemming과 Lemmatization

- 두 기능 모두 원형 단어를 찾는다는 목적은 유사하지만, Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾음.

- Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향
- Lemmatization은 품사와 같은 문법적인 요소와 더 의미적ㅇ니 부분을 감안해 정확한 철자로 된 어근 단어를 찾아줌.

In [11]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [13]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'), lemma.lemmatize('amuse','v'), lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'), lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'), lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


amuse amuse amuse
happy happy
fancy fancy


## 03. Bag of Words - BOW

- 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델
- 문서 내 모든 단어를 한꺼번에 봉투 안에 넣은 뒤에 흔들어서 섞는 다는 의미

- 장점: 쉽고 빠른 구축
- 단점: 문맥 의미 반영 부족, 희소 행렬 문제

### BOW 피처 벡터화

- 텍스트는 특정 의미를 가지는 숫자형 값인 벡터 값으로 변환
- BOW 모델에서 피처 벡터화를 수행한다는 것은 모든 문서에서 모든 단어를 칼럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것
- 두 가지 방식: 카운트 기반의 벡터화, TF-IDF(Term Frequency - Inverse Document Frequency) 기반 벡터화


### 사이킷런의 Count 및 TF-IDF 벡터화 구현: CountVectorizer, TfidVectorizer

- CountVectorizer 클래스는 카운트 기반의 벡터화를 구현한 클래스, 단지 피처 벡터화만 수행하지는 않으며 소문자 일괄 변환, 토큰화, 스톱 워드 필터링 등의 텍스트 전처리도 함께 수행
- 입력 파라미터
  - max_df: 너무 높은 빈도수를 가지는 단어 피처 제거 위한 파라미터
  - min_df: 너무 낮은 빈도수를 가지는 단어 피처 제거 위한 파라미터
  - max_features: 추출하는 피처의 개수를 제한해 정수로 값을 지정
  - stop_words: 'english'로 지정하면 영어의 스톱 워드로 지정된 단어는 추출에서 제외
  - n_gram_range: 단어 순서를 어느 정도 보강하기 위한 n_gram 범위를 설정
  - analyzer: 피처 추출을 수행한 단위를 지정
  - token_pattern: 토큰화를 수행하는 정규 표현식 패턴 지정
  - tokenizer: 토큰화를 별도의 커스텀 함수로 이용시 적용

### BOW 벡터화를 위한 희소 행렬

- 사이킷런의 CountVectorizer/TfidfVectorizer을 이용해 텍스트를 피처 단위로 벡터화해 변환하고 CSR 형태의 희소 행렬을 변환

### 희소 행렬 - COO 형식
- 0이 아닌 데이터만 별도의 데이터 배열을 저장하고, 그 데이터를 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식

In [15]:
import numpy as np

dense = np.array([[3,0,1],[0,2,0]])

In [16]:
from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용해 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [17]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

### 희소 행렬 - CSR 형식

- COO 형식이 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식

In [18]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
                   [1,4,0,3,2,5],
                   [0,6,0,3,0,0],
                   [2,0,0,0,0,0],
                   [0,0,0,7,0,0],
                   [1,0,0,0,0,0]])

# 0이 아닌 데이터 추출
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

# 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변화된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변화된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [20]:
dense3 = np.array([[0,0,1,0,0,5],
                   [1,4,0,3,2,5],
                   [0,6,0,3,0,0],
                   [2,0,0,0,0,0],
                   [0,0,0,7,0,0],
                   [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)