##Ch.08 텍스트 분석

(1) NLP와 텍스트 분석의 차이
- NLP: 머신이 인간의 언어를 이해하고 해석하는데 중점을 둠 -> 텍스트 분석을 향상하게 하는 기반 기술이라고 보면 됨
- 텍스트 분석: 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점을 둠
  - 머신러닝, 언어 이해, 통계 등을 활용하여 모델을 수립하고 정보를 추출하여 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행함
  - 텍스트 부류, 감성분석, 텍스트 요약, 텍스트 군집화와 같은 작업 수행 가능

###텍스트 분석 이해

(1) 텍스트 분석
- 비정형 데이터인 텍스트를 분석하는 것
- 머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있기 때문에 텍스트를 머신러닝에 적용하기 위해서는 반드시 데이터를 피처 형태로 추출하여 추출된 피처에 의미있는 값을 찾아내는 과정이 필요함
  - 피처 백터화: 텍스트를 word 기반의 다추의 피처로 추출한 뒤, 이 피처에 단어 빈도수와 같은 숫자값을 부여하여 벡터값으로 표현하는 과정  


**텍스트 분석 수행 프로세스**
- 텍스트 사전 준비 작업(텍스트 전처리): 텍스트를 피처로 만들기 전 미리 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어 등의 토큰화 작업 등 정규화 작업을 수행하는 것을 통칭
- 피처 벡터화/추출: 사전 준비 작업으로 가공된 텍스트에서 피처를 추출하고 여기에 벡테값을 할당하는 방법으로 대표적으로 BOW가 있음
- ML 모델 수립 및 학습/예측/평가: 피처 벡터화된 데이터 세트에 ML모델을 적용하여 학습/예측 및 평가를 수행

**파이썬 기반의 NLP, 텍스트 분석 패키지**
- 대표적 패키지는 3가지가 존재
  - NLTK: 가장 대표적인 NLP 패키지
  - Gensim: 토픽 모델링 분야에서 강점을 가짐
  - SpaCy: 뛰어난 수행성능을 가짐

  

###텍스트 사전 준비작업(텍스트 전처리) - 텍스트 정규화

- 텍스트 자체를 바로 피처로 만들기는 어려움
  - 따라서 이를 사전에 텍스트를 가공하는 준비 작업이 필요함
    - 클렌징
    - 토큰화
    - 필터링/스톱 워드 제거/철자 수정
    - Stemming
    - Lemmatization
    

**클렌징**
- 텍스트에서 분석에 오히려 방해되는 불필요한 문자, 기호 등을 사전에 제거하는 작업

**텍스트 토큰화**
- 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나눠짐
- NLTK의 다양한 API를 통해 사용 가능
- 문장 토큰화
  - 문장의 마침표, 개행문자 등 문장의 마지막을 뜻하는 기호에 따라 분리
  - 정규 표현식에 따른 문장 토큰화도 가능함

In [1]:
from nltk import sent_tokenize
import nltk

nltk.download('punkt')
nltk.download('punkt_tab')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


  - 여기서 sent_tokenize()는 각각의 문장으로 구성된 list 객체를 반환함
- 단어 토큰화
  - 문장을 단어로 토큰화 하는 방법
  - 공백, 콤마, 마침표, 개행 문자 등으로 단어를 분리하나 정규 표현식을 이용해서도 다양한 유형으로 토큰화 수행가능
  - word_tokenize()이용

In [2]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [3]:
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장 별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):
  # 문장별로 분리 토큰
  sentences = sent_tokenize(text)
  # 분리된 문장별 단어 토큰화
  word_tokens = [word_tokenize(sentence) for sentence in sentences]
  return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행.
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


- 문장을 단어별로 하나씩 토큰화하면 문맥적인 의미는 무시될 수밖에 없음
  - 이를 조금이라도 해결하고자 n-gram을 도입하여 연속된 n개의 단어를 하나의 토큰화 단위로 분리해내기도 함

**스톱 워드 제거**
- 분석에 큰 의미가 없는 단어를 의미함
- 단어에서 문법적인 특성으로 인해 빈번하게 텍스트에 나타나는 의미없는 단어들도 존재하므로 이들을 사전에 제거해야 중요한 단어를 인지가능
- 언어별로 스톱 워드는 목록화 되어 있으므로 NLTK의 스톱 워드 목록을 받아서 확인한 후 사용하는 것이 좋음

In [4]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [5]:
print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 198
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been']


- 이를 이용하여 stopword를 제거하여 분석을 위한 의미있는 단어 추출을 수행

In [6]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위의 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
  filtered_words=[]
  # 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
  for word in sentence:
    word = word.lower()
    # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
    if word not in stopwords:
      filtered_words.append(word)
  all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


Stemming과 Lemmatization
- 두가지 모두 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 기법임
- 일반적으로 lemmatization이 Stemming보다 의미론적으로 단어의 원형을 찾음
  - 대신 더 오랜 시간을 필요로 함

In [7]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [8]:
# WordnetLemmatizer을 이용해 Lemmatization 수행하기
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing'))

[nltk_data] Downloading package wordnet to /root/nltk_data...


amusing


### Bag of Words - BOW
- 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도값을 부여하여 피처값ㅇㄹ 추출하는 모델
- BOW 모델의 장점
  - 쉽고 빠른 구축
- BOW 모델의 단점
  - 문맥 의미 반영 부족: 단어의 순서를 고려하지 않아 문장 내에서 단어의 문맥적인 의미가 무시됨
  - 희소 행렬 문제: BOW로 피처 벡터화를 수해하는 경우 희소 행렬 형태의 데이터 세트가 만들어져, 수행시관과 예측 성능을 떨어트릴 수 있음

**BOW 피처 벡터화**
- 피처 벡터화: 텍스트를 특정 의미를 가지는 숫자형 값인 벡터값으로 변환하는 과정
- BOW에서는 모든 문서에서 모든 단어를 칼럼 형태로 나열하고 각 문서에서 해당하는 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 과정을 나타냄
- BOW의 피처 벡터화 방식
  - 카운트 기반 벡터화: 단어 피처에 값을 부여할 때 각 문서에서 해당 단어가 나타나는 횟수를 부여하는 경우
  - TF-IDF: 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서 페널티를 주는 방식
    - 문서의 개수가 많거나 텍스트가 긴 경우, 카운트 방식보다 TF-IDF방식이 유리

    

**사이킷런의 Count 및 TF-IDF 벡터화 구현: CountVectorizer, TfidfVectorizer
- CountVectorizer: 카운트 기반 벡터화를 구현한 클래스
  - 피처벡터화만 수행하는 것이 아닌 소문자 일괄 변환, 토큰화 등의 텍스트 전처리도 함께 수행해줌
  - 입력 파라미터
    - max_df:지나치게 높은 빈도수를 가지는 단어피처를 제외하기 위한 파라미터
    - min_df: 지나치게 낮은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터
    - max_features: 추출하는 피처의 개수를 제한하며 정수로 값을 지정

**희소행렬 - COO 형식**
- COO 형식: 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 위치를 별도의 배열로 저장하는 방식
  - 파이썬에선 Scipy를 이용하여 희소행렬로 변환함
  - coo_matrix클래스를 이용해 COO 형식의 희소행렬을 변환하고, 미리만든 행위치 배열과 열 위치 배열을 생성 파라미터로 입력

In [10]:
import numpy as np

dense = np.array([[3,0,1], [0,2,0]])

In [11]:
from scipy import sparse

#0이 아닌 데이터 추출
data = np.array([3,1,2])

#행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용해 COO형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [12]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

**희소 행렬- CSR 형식**
- CSR형식: COO형식의 행과 열의 위치를 나타내기 위한 반복적 위치 데이터 사용 문제를 해결한 형식
  - 반복을 제거하는 위치의 위치를 표기하는 방식을 이용함
  - COO 방식보다 메모리가 적게 들고 빠른 연산이 가능함
  

In [13]:
([0,0,1,0,0,5], [1,4,0,3,2,5], [0,6,0,3,0,0], [2,0,0,0,0,0], [0,0,0,7,0,8], [1,0,0,0,0,0])

([0, 0, 1, 0, 0, 5],
 [1, 4, 0, 3, 2, 5],
 [0, 6, 0, 3, 0, 0],
 [2, 0, 0, 0, 0, 0],
 [0, 0, 0, 7, 0, 8],
 [1, 0, 0, 0, 0, 0])

In [15]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])

#0이 아닌 데이터 추출
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

#행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

#COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

#행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])

#CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [17]:
dense3 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)