## 08 텍스트 분석
- NLP: 머신이 인간의 언어를 이해하고 해석하는데 더 중점을 두고 발전, 예를 들어, 기계 번역, 질의응답 시스템
- 텍스트 마이닝: 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전, 예를 들어 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행.

  - 텍스트 분류: text categorization으로 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법, 지도학습 적용
  - 감성분석: 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법, 지도/비지도 학습 모두 적용
  - 텍스트 요약: 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법
  - 텍스트 군집화와 유사도 측정: 비슷한 유형의 문서에 대해 군집화를 수행하는 기법


## 텍스트 분석 이해
- 머신러닝 알고리즘은 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는 가 하는 것이 매우 중요한 ㄴ요소

- 텍스트 분석 수행 프로세스
  1. 텍스트 사전 준비작업(텍스트 전처리): 텍스트를 피처로 만들기 전에 미리 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어(word) 등의 토큰화 작업, 의미없는 단어(Stop word)제거 작업, 어근 추출(Stemming/Lemmalization) 등의 텍스트 정규화 작업을 수행하는 것을 통칭
  2. 피처 벡터화/추출: 사전 준비 작업으로 가공된 텍스트에서 피처를 추출하고 여기에 벡터 값을 할당, 대표적으로 BOW와 Word2Vec이 있으며, BOW는 대표적으로 Count 기반과 TF-IDF 기반 벡터화가 있음
  3. ML 모델 수립 및 학습/예측/평가: 피처 벡터화된 데이터 세트에 ML모델을 적용해 학습/예측 및 평가를 수행


  ## 파이썬 기반의 NLP, 텍스트 분석 패키지
    - NLTK(Natural Language Toolkit for Python): 파이썬의 가장 대표적인 NLP패키지로 방대한 데이터세트와 서브 모듈을 가지고 있음.
    - Gensim: 토픽 모델링을 쉽게 구현하는 기능을 제공하여 Word2Vec 구현등의 신기술도 제공
    - SpaCy: 뛰어난 수행 성능으로 주목받는 NLP패키지


## 02 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화

1. 클렌징: 텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거
ex) html, xml 태그나 특정 기호 등을 사전에 제거

2. 텍스트 토큰화: 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나눌 수 있음.

  1) 문장 토큰화: 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리

In [None]:
# 현재 nltk 제거
!pip uninstall nltk

# nltk의 특정 버전 설치 (예: 3.5 버전)
!pip install nltk==3.5

Found existing installation: nltk 3.5
Uninstalling nltk-3.5:
  Would remove:
    /usr/local/bin/nltk
    /usr/local/lib/python3.11/dist-packages/nltk-3.5.dist-info/*
    /usr/local/lib/python3.11/dist-packages/nltk/*
Proceed (Y/n)? y
  Successfully uninstalled nltk-3.5
Collecting nltk==3.5
  Using cached nltk-3.5-py3-none-any.whl
Installing collected packages: nltk
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
textblob 0.19.0 requires nltk>=3.9, but you have nltk 3.5 which is incompatible.[0m[31m
[0mSuccessfully installed nltk-3.5


In [None]:
import nltk
print(nltk.data.path)

['/root/nltk_data', '/usr/nltk_data', '/usr/share/nltk_data', '/usr/lib/nltk_data', '/usr/share/nltk_data', '/usr/local/share/nltk_data', '/usr/lib/nltk_data', '/usr/local/lib/nltk_data', '/root/nltk_data']


In [None]:
import nltk
nltk.download('punkt', force=True, download_dir='/root/nltk_data')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
!find /root/nltk_data/tokenizers/punkt -type f

/root/nltk_data/tokenizers/punkt/malayalam.pickle
/root/nltk_data/tokenizers/punkt/swedish.pickle
/root/nltk_data/tokenizers/punkt/czech.pickle
/root/nltk_data/tokenizers/punkt/german.pickle
/root/nltk_data/tokenizers/punkt/turkish.pickle
/root/nltk_data/tokenizers/punkt/polish.pickle
/root/nltk_data/tokenizers/punkt/russian.pickle
/root/nltk_data/tokenizers/punkt/italian.pickle
/root/nltk_data/tokenizers/punkt/english.pickle
/root/nltk_data/tokenizers/punkt/README
/root/nltk_data/tokenizers/punkt/portuguese.pickle
/root/nltk_data/tokenizers/punkt/greek.pickle
/root/nltk_data/tokenizers/punkt/spanish.pickle
/root/nltk_data/tokenizers/punkt/dutch.pickle
/root/nltk_data/tokenizers/punkt/.DS_Store
/root/nltk_data/tokenizers/punkt/slovene.pickle
/root/nltk_data/tokenizers/punkt/estonian.pickle
/root/nltk_data/tokenizers/punkt/norwegian.pickle
/root/nltk_data/tokenizers/punkt/finnish.pickle
/root/nltk_data/tokenizers/punkt/PY3/malayalam.pickle
/root/nltk_data/tokenizers/punkt/PY3/swedish.pi

In [None]:
import nltk
print(nltk.data.path)

['/root/nltk_data', '/usr/nltk_data', '/usr/share/nltk_data', '/usr/lib/nltk_data', '/usr/share/nltk_data', '/usr/local/share/nltk_data', '/usr/lib/nltk_data', '/usr/local/lib/nltk_data', '/root/nltk_data']


In [None]:
import os
os.environ['NLTK_DATA'] = '/root/nltk_data'

import nltk
nltk.data.path.append('/root/nltk_data')

from nltk import sent_tokenize

text_sample = ('The Matrix is everywhere its all around us, here even in this room. '
               'You can see it out your window or on your television. '
               'You feel it when you go to work, or go to church or pay your taxes.')

sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


- 단어 토큰화:단어 토큰화는 문장을 단어로 토큰화하는 것인데 기본적으로 공백, 콤마(,), 마침표(.), 개행 문자 등으로 단어를 분리하지만, 정규표현식을 이용해 다양한 유형으로 토큰화를 수행
- (.)마침표나 개행문자와 같이 문장을 분리하는 구분자를 이용해 단어를 토큰화할 수 있으므로 Bag of Word와 같이 단어의 순서가 중요하지 않은 경우 문장 토큰화를 사용하지 않고 단어 토큰화만 사용해도 충분함.

In [None]:
# word_tokenize()를 이용해 단어로 토큰화 진행
from nltk import word_tokenize
sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [None]:
# sent_tokenize와 word_tokenize를 조합해 문서에 대해서 모든 단어를 토큰화 진행
# 1. text_sample을 문장별로 단어 토큰화 적용
# 문서를 먼저 문장으로 나누고, 개별 문장을 다시 단어로 토큰화하는 tokenize_text()함수를 생성
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):

  # 문장별로 분리 토큰
  sentences = sent_tokenize(text)
  # 분리된 문장별 단어 토큰화
  word_tokens = [word_tokenize(sentence) for sentence in sentences]
  return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행.
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)


<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


-> n-gram 적용, n-gram은 연속된 n개의 단어를 하나의 토큰화단위로 분리해 내는 것, n개 단어 크기 윈도우를 만들어 문장의 처음부터 오른쪽으로 움직이면서 토큰화 수행


- 스톱 워드 제거
- 스톱 워드: 분석에 큰 의미가 없는 단어를 지정
ex) is, the, a, will 등 문장을 구성하는 필수 문법 요소지만 문맥적으로 큰 의미가 없는 단어
- 언어별로 스톱워드가 목록화 되어 있어 nltk의 경우 가장 다양한 언어의 스톱워드를 제공

In [None]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 198
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been']


In [None]:
# stopwords를 필터링으로 제거해 분석을 위한 의미있는 단어만 추출
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
  filtered_words = []
  # 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
  for word in sentence:
    # 소문자로 모두 변환
    word = word.lower()
    # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
    if word not in stopwords:
      filtered_words.append(word)
    all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', '

- Stemming과 Lemmatization
  - Stemming과 Lemmatization은 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것
  - Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있음.
  - Lemmatization은 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아줌. 따라서 Stemming보다 변화에 더 오랜시간을 필요로 함.

In [None]:
# NLTK의 LancasterStemmer를 이용해 Stemmer 살펴보기
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [None]:
# WordNetLemmatizer을 이용해 Lemmatization 수행
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))
'''
-> Stemmer보다 정확하게 원형 단어 추출 가능
'''

[nltk_data] Downloading package wordnet to /root/nltk_data...


amuse amuse amuse
happy happy
fancy fancy


## 03 Bag of Words - BOW
- Bag of Words 모델은 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델

- 진행 방식:
  1. 문장1과 문장2에 있는 모든 단어에서 중복을 제거하고 각 단어를 칼럼형태로 나열, 그리고 각 단어에 고유의 인덱스를 부여
  2. 개별 문장에서 해당 단어가 나타나는 횟수(Occurrence)를 각 단어(단어 인덱스)에 기재
  ex) baseball은 문장 1,2에서 총 2번 나타나며, daughter은 문장 1에서만 1번 나타남.

- BOW 모델의 장점은 쉽고 빠른 구축에 있음
- BOW 모델의 단점:
  - 문맥 의미 반영 부족: BOW는 단어의 순서를 고려하지 않기 때문에 문장 내에서 단어의 문맥적인 의미가 무시됨, 물론 이를 보완하기 위해 n_gram 기법을 활용할 수 있지만, 제한적인 부분에 그치므로 언어의 많은 부분을 차지하는 문맥적인 해석을 처리하지 못함.

  - 최소 행렬 문제(희소성, 희소행렬): BOW로 피처 벡터화를 수행하면 최소 행렬 형태의 데이터 세트가 만들어지기 쉬움, 많은 문서에서 단어의 총 개수는 수만 ~ 수십만개지만, 하나의 문서에 있는 단어는 이중 극히 일부분으로 대부분의 데이터는 0으로 채워짐, 대부분의 값이 0으로 채워지는 행렬을 최소행렬이라고 하며 대부분의 값이 0이 아닌 의미있는 값으로 채워져 있는 행렬을 밀집행렬이라고 함, 최소행렬은 일반적으로 ML 알고리즘의 수행 시간과 예측 성능을 떨어뜨리므로 최소 행렬을 위한 특별한 기법이 필요.


- BOW 피처 벡터화
  - 텍스트는 특정 의미를 가지는 숫자형 값인 벡터 값으로 변환해야 하는데, 이러한 변환을 피처 벡터화라고 함.

- 사이킷런의 Count 및 TF-IDF 벡터화 구현: CountVectorizer, TfidfVectorizer
  - 카운트 기반의 벡터화를 구현하는 클래스로 피처 벡터화만 수행하지 않으며, 소문자 일괄변환, 토큰화, 스톱워드 필터링 등의 텍스트 전처리도 함께 수행

  - fit(), transform()을 통해 피처 벡터화된 객체를 반환

  - 파라미터 명:
    - max_df: 너무 높은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터
    - min_df: 너무 낮은 빈도수를 가지는 단어 피처를 제외
    - max_features: 추출하는 피처의 개수를 제한하며, 정수로 값을 지정
    - stop_words: 'english'로 지정하면 영어의 스톱 워드로 지정된 단어는 추출해서 제외
    - n_gram_range: Bag of Words 모델의 단어 순서를 어느 정도로 보강하기 위해 n_gram 범위를 설정
    - analyzer: 피처 추출을 위한 단위를 지정, 디폴트는 'word'임.
    - token_paltern:토큰화를 수행하는 정규 표현식 패턴을 지정, 디폴트 값은 '\b\w\w+\b'임.
    - tokenizer: 토큰화를 별도의 커스텀 함수로 이용시 적용

머신러닝 알고리즘은 일반적으로 숫자형 피처를 데이터로 입력%]' 동작하기 때문에 텍스트와 같은 데
이터는 머신러닝 알고리즘에 바로 입력할 수가 없습니다. 따라서 텍스트는 특정 의미를 가지는 숫자
형 값인 벡터 값으로 변환해야 하는데, 이러한 변환을 피처 벡터화라고 합니다. 예를 들어 피처 벡터화


- BOW 벡터화를 위한 히소 행렬
  - 좀 더 난이도 있는 ML 모델을 수립하기 위해서는 희소행렬이 어떤 형태로 되어 있는지 알야 함.
  - 희소행렬: 대규모 행렬의 대부분의 값을 0이 차지하는 행렬(BOW 형태를 가진 모델의 경우, 대부분 희소 행렬임)

- 희소 행렬 - COO 형식
   - 0이 아닌 데이터만 별도의 데이터 배열(Array)에 저장하고 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식
   


In [None]:
# COO 형식의 희소 행렬로 변환
import numpy as np
dense = np.array([[3,0,1],[0,2,0]])

In [None]:
# 행 위치 배열과 열 위치 배열을 각각 만든 후 coo_matrix()내에 생성 파라미터로 입력
from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용해 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [None]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

- 희소 행렬 - CSR 형식
  - CSR 형식은: COO 형식이 행과 열의 위치를 나타내기 위해 반복적인 위치 데이터를 사용해야 하는 문제점을 해결하는 방식
  - 최종적으로 CSR 변환되는 배열의 고유 값의 시작 위치만 알고 있으면 얼마든지 행위치 배열을 다시 만들 수 있기 때문에 COO 방식보다 메모리가 적게 들고 빠른 연산이 가능
  

In [None]:
# 2차원 배열을 COO 형식으로 변환
from scipy import sparse
dense2 = np.array([[0, 0, 1, 0, 0, 5],
                   [1, 4, 0, 3, 2, 5],
                   [0, 6, 0, 3, 0, 0],
                   [2, 0, 0, 0, 0, 0],
                   [0, 0, 0, 7, 0, 8],
                   [1, 0, 0, 0, 0, 0]])
# 0이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [None]:
dense3 = np.array([[0, 0, 1, 0, 0, 5],
                   [1, 4, 0, 3, 2, 5],
                   [0, 6, 0, 3, 0, 0],
                   [2, 0, 0, 0, 0, 0],
                   [0, 0, 0, 7, 0, 8],
                   [1, 0, 0, 0, 0, 0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)