<a href="https://colab.research.google.com/github/min207/2023-1-ESAA/blob/main/ESAA230407.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **CH08. 텍스트 분석**



### **01. 텍스트 분석 이해**
- 텍스트 분석: 비정형 데이터인 텍스트를 분석하는 것
  + 텍스트를 머신러닝에 적용하기 위해서는 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가 하는 것이 매우 중요

- 단어 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수와 같은 숫자 값을 부여하여 텍스트를 단어의 조합인 벡터값으로 표현
  + `피처 벡터화` 또는 `피처 추출`이라고 함 
  + BOW(Bag of Words)와 Word2Vec 방법 사용


#### **| 텍스트 분석 수행 프로세스**
1. 텍스트 사전 준비 작업(텍스트 전처리): 텍스트를 피처로 만들기 전에 미리 대/소문자 변경, 특수문자 삭제 등의 클렝징 작업, 단어 등의 토큰화 작업, 의미 없는 단어 제거 작업, 어근 추출 등의 텍스트 정규화 작업 수행 

2. 피처 벡터화/추출: 사전 준비 작업으로 가공된 텍스트에서 피처를 추출하고 벡터값 할당
  + BOW
    - Count 기반 벡터화
    - TF-IDF 기반 벡터화
  + Word2Vec

3. ML 모델 수립 및 학습/예측/평가: 피처 벡터화된 데이터 세트에 ML 모델을 적용해 학습/예측/평가 수행 


#### **| 파이썬 기반의 NLP, 텍스트 분석 패키지**
- 파이썬 기반의 NLP, 텍스트 분석 패키지
  + NLTK(Natural Language Toolkit for Python): 파이썬의 가장 대표적인 NLP 패키지
    - 방대한 데이터 세트와 서브 모듈을 가지고 있음
    - 그러나 수행 속도 측면에서 아쉬운 부분이 있어 실제로 대량 데이터 기반에서는 활용하지 못함
  + Gensim: 토픽 모델링 분야에서 가장 두각을 나타내는 패키지
    - Word2Vec 구현 등 다양한 신기능 제공
    - SpaCy화 함께 가장 많이 사용됨
  + SpaCy: 뛰어난 수행 성능으로 최근 가장 주목받는 패키지

- 사이킷런은 머신러닝 위주의 라이브러리여서 NLP패키지에 특화된 다양한 라이브러리가 없음

### **02. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화**
- 텍스트 정규화: 텍스트를 머신러닝 알고리즘이나 NLP 애플리케이션에 입력 데이터로 사용하리 귀해 다양한 텍스트 데이터의 사전 작업을 수행하는 것 
  + 클렌징
  + 토큰화
  + 필터링/스톱 워드 제거/철자 수정
  + Stemming
  + Lemmatization


#### **| 클렌징**
- 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업
  + HTML, XML 태그나 특정 기호 제거

#### **| 텍스트 토큰화**
- 문장 토큰화: 문서에 문장을 분리하는 것
  + 마침표, 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리
  + 정규 표현식에 따른 문장 토큰화도 가능
  + NTLK에서 일반적으로는 `sent_tokenize` 사용

In [1]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \nYou can see it out your window or on your television. \nYou feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


> 이때 sent_tokenize()가 반환하는 것은 각각의 문장으로 구성된 list 객체
    + 위의 실습의 경우 반환된 list 객체가 3개의 문장으로 구성된 문자열을 가지고 있음 


  - 단어 토큰화: 문장에서 단어를 토큰으로 분리하는 것
    + 일반적으로 공백, 콤마, 마침표, 개행문자 등으로 단어를 분리
    + 정규 표현식을 이용해 다양한 유형으로 토큰화 수행 가능
    + 구분자를 이용해 단어를 토큰화할 수 있으므로 Bag of Word와 같이 단어의 순서가 중요하지 않은 경우 문장 토큰화를 사용하지 않고 단어 토큰화만 사용해도 충분함 
    + 문장 토큰화는 주로 각 문장이 가지는 시맨틱적인 의미가 중요한 요소로 사용될 때만 수행
    + NTLK의 `word_tokenize()` 사용 

In [2]:
from nltk import word_tokenize

sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


- sent_tokenize와 word_tokenize를 조합해 문서의 모든 단어를 토큰화하는 것이 가능 

In [3]:
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):

  # 문장별로 분리 토큰
  sentences = sent_tokenize(text)
  # 분리된 문장별 단어 토큰화
  word_tokens = [word_tokenize(sentence) for sentence in sentences]
  return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


> 3개의 문장을 문장별로 먼저 토큰화하였기 때문에 word_tokens 변수는 3개의 리스트 객체를 내포하는 리스트
> 각 내포된 개별 리스트 객체는 문장별로 토큰화된 단어요소를 가짐 



- 문장을 단어별로 하나씩 토큰화 할 경우 문맥적인 의미는 무시됨
  + 이러한 문제를 해결하기 위해 n-gram 도입

- n-gram: 연속된 n개의 단어를 하나의 토큰화 단위로 분리하는 것


#### **| 스톱 워드 제거**
- 스톱 워드(Stop word): 분석에 큰 의미가 없는 단어
  + 영어의 is, the, a, will 등 필수 문법 요소이지만 문맥적으로는 의미가 없는 단어
  + 이런 경우 빈번하게 텍스트에 나타나므로 사전에 제거하지 않으면 중요한 단어로 인지되는 것을 방지하기 위해 사전에 제거해야함 

- 언어별로 스톱 워드가 목록화되어 있어 NLTK의 경우 가장 다양한 언어의 스톱워드를 제공
  + NLTK의 stopwords 목록 다운 후 수행 

In [4]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [5]:
print('영어 stop word 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop word 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


> 영어의 경우 스톱 워드의 개수가 179개
> word_tokens 리스트에 대해서 stopwords를 필터링으로 제거해 의미 있는 단어만 추출 

In [6]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
  filtered_words = []
  # 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
  for word in sentence:
    # 소문자로 모두 변환
    word = word.lower()
    # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
    if word not in stopwords:
      filtered_words.append(word)
    all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhere', 'around', 'us', ',', '

> 수행 결과 is, this와 같은 스톱워드가 필터링을 통해 제거된 것을 확인 

#### **| Stemming과 Lemmatization**
- 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것
  + Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾음
  + Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있음
  + Lemmatization은 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 처라로 된 어근 단어를 찾음
  + Lemmatization이 Stemming보다 변환에 더 오랜 시간이 걸림

- NLTK는 다양한 Stemmer을 제공
  + Porter, Lancaster, Snowball Stemmer
  + WordNetLemmatizer

- LancasterStemmer()와 같이 필요한 Stemmer 객체를 생성한 뒤 이 객체의 stem('단어') 메서드를 호출하면 원하는 '단어'의 Stemming 가능 

In [7]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


> 단어의 정확한 원형을 찾지 못하고 원형 단어에서 철자가 다른 어근 단어로 인식하는 경우 발생 

In [8]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

[nltk_data] Downloading package wordnet to /root/nltk_data...


amuse amuse amuse
happy happy
fancy fancy


> Lemmatization의 경우, 품사를 입력해주어야함
> 앞의 Stemmer보다 정확하게 원형 단어 추출 

### **03. Bag of Words = BOW**

- Bag of Words: 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델

- 2개의 문장이 있다고 가정하고 이 문장을 단어 수(Word Count)기반으로 피처 추출 
  + 'My wife likes to watch baseball games and my daughter likes to watch baseball games too'
  + 'My wife likes to play baseball'

  1. 문장 1과 문장 2에 있는 모든 단어에서 중복을 제거하고 각 단어를 칼럼 형태로 나열, 그 후 각 단어에 고유의 인덱스 부여
  2. 개별 문장에서 해당 단어가 나타나는 횟수(Occurrence)를 각 단어 인덱스에 기재

- BOW 모델은 쉽고 빠르게 구축된다는 장점이 있음
  + 단순히 단어의 발생 횟수에 기반하지만 예상보다 문서의 특징을 잘 나타내 여러 분야에서 높은 활용도를 보임

- BOW 모델의 단점
  + 문맥 의미(Semantic Context) 반영 부족
  + 희소 행렬 문제


#### **| BOW 피처 벡터화**
- 피처 벡터화: 텍스트를 입력 데이터로 사용하기 위해 특정 의미를 가지는 숫자형 값인 벡터값으로 변환하는 것

- BOW 모델에서 피처 벡터화를 수행한다는 것은 모든 문서에서 모든 단어를 칼럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것
- BOW의 피처 벡터화에는 두 가지 방식이 있음
  + 카운트 기반의 벡터화
  + TF-IDF(Term Frequency - Inverse Document Frequency) 기반의 벡터화

- 카운트 벡터화: 단어 피처에 값을 부여할 때 각 문서에서 해당 단어가 나타나는 횟수를 부여하는 경우
  + 카운트 값이 높을수록 중요한 단어로 인식
  + 카운트만 부여할 경우 그 문서의 특징을 나타내기보다는 언어의 특성상 문장에서 자주 사용될 수 밖에 없는 단어까지 높은 값을 부여하게 됨
- TF-IDF 벡터화: 카운트 벡터화의 문제를 보완하기 위해 사용하는 방법
  + 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 페널티를 주는 방식으로 값을 부여
  + 문서의 텍스트가 길고 문서의 개수가 많은 경우, 카운트 기반보다 TF-IDF 기반 벡터화를 사용하는 것이 더 좋은 예측 성능을 보장

#### **| 사이킷런의 Count 및 TF-IDF 벡터화 구현: CountVectorizer, TfidfVectorizer**
- 사이킷런의 CountVectorizer 클래스: 카운트 기반의 벡터화를 구현
  + 피처 벡터화 뿐만 아니라 소문자 일괄 변환, 토큰화, 스톱 워드 필터링 등의 텍스트 전처리도 함께 수행
  + 입력 파라미터를 설정해 동작하고 fit(), transform()을 통해 피처 벡터화된 객체를 반환
  + 입력 파라미터
    - max_df: 너무 높은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터
    - min_df: 너무 낮은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터
    - max_features: 추출하는 피처의 개수 제한(정수형태로 입력)
    - stop_words: 'english'로 지정시 영어의 스톱 워드로 지정된 단어는 추출에서 제외
    - n_gram_range: 단어 순서를 어느정도 보강하기 위한 n_gram 범위 설정
    - analyzer: 피처 추출을 수행한 단위 지정(기본값: 'word')
    - token_pattern: 토큰화를 수행하는 정규 표현식 패턴 지정
    - tokenizer: 토큰화를 별도의 커스텀 함수로 이용시 적용

- CountVectorizer 클래스 사용법
  1. 영어의 경우 모든 문자를 소문자로 변경하는 등 전처리 작업 수행
  2. 디폴트로 단어 기준으로 n_gram_range를 반영해 각 단어 토큰화
  3. 텍스트 정규화 수행
    + 이때 스톱워드 필터링을 위해서는 파라미터를 지정해야함
    + Stemming이나 Lemmatization과 같은 어근 변화는 직접 지원되지 않으나 tokenizer 파라미터에 커스텀 어근 변환 함수를 적용하여 수행 가능 

- TfidfVectorizer 클래스도 동일한 방법으로 사용 가능



#### **| BOW 벡터화를 위한 희소 행렬**
- 사이킷런의 CountVectorizer/TfidfVectorizer를 이용해 텍스트를 피처 단위로 벡터화해 변환하고 CSR 형태의 희소 행렬 반환
  + 난이도 있는 ML 모델을 수립하기 위해서는 희소 행렬의 형태를 알아야함

- 희소 행렬: 모든 문서에 있는 단어를 중복을 제거하고 피처로 만들면 일반적으로 수만 개에서 수십만 개의 단어가 만들어지는데, 이때 레코드의 각 문서가 가지는 단어의 수는 제한적이기 때문에 이 행렬의 값은 대부분 0이 차지하게 되고, 이런 행렬을 가리켜 희소 행렬이라고 함

- 희소 행렬은 너무 많은 불필요한 0 값이 메모리 공간에 할당되어 메모리 공간이 많이 필요하며, 행렬의 크기가 커서 연산 시에도 액세스를 위한 시간이 많이 소모됨
  + COO 형식, CSR 형식을 이용해 적은 메모리 공간을 차지하도록 물리적 변환 수행
  + 일반적으로 CSR이 더 뛰어나 많이 사용 

#### **| 희소 행렬 - COO 형식**
- COO(coordinate:좌표) 형식: 0이 아닌 데이터만 별도의 데이터 배열(array)에 저장하고 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식 

- 희소 행렬 반환을 위해 주로 Scipy 사용
  + 사이파이의 sparse 패키지는 희소 행렬 변환을 위한 다양한 모듈 제공 

In [10]:
import numpy as np

dense = np.array([[3,0,1], [0,2,0]])

> - 위 밀집 행렬을 사이파이의 coo_matrix 클래스를 이용해 COO 형식의 희소 행렬로 변환
> - 0이 아닌 데이터를 별도의 배열 데이터로 만들고, 행 위치 배열과 열 위치 배열을 각각 만든 후 coo_matrix() 내에 생성 파라미터로 입력 

In [11]:
from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matirx를 이용해 COO 형식의 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

> - sparse_coo는 COO 형식의 희소 행렬 객체 변수
> - toarray() 메서드를 이용해 다시 밀집 형태의 행렬로 출력 

In [12]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

> 다시 원래의 데이터 행렬로 추출됨 

#### **| 희소 행렬 - CSR 형식**
- CSR(Compressed Sparse Row) 형식: COO 형식이 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식 
- 사이파이의 csr_matrix 클래스를 이용해 수행 
- 0이 아닌 데이터 배열과 열 위치 배열, 행위치 배열의 고유한 값의 시작 위치 배열을 csr_matrix의 생성 파라미터로 입력 

In [13]:
from scipy import sparse

dense2=np.array([[0,0,1,0,0,5],
                 [1,4,0,3,2,5],
                 [0,6,0,3,0,0],
                 [2,0,0,0,0,0],
                 [0,0,0,7,0,8],
                 [1,0,0,0,0,0]])

# 0이 아닌 데이터 추출
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

# 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


- 실제 사용 시에는 밀집 행렬을 생성 파라미터로 입력하면 COO나 CSR 희소 행렬로 생성 

In [14]:
dense3 = np.array([[0,0,1,0,0,5],
                 [1,4,0,3,2,5],
                 [0,6,0,3,0,0],
                 [2,0,0,0,0,0],
                 [0,0,0,7,0,8],
                 [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)