<a href="https://colab.research.google.com/github/johyunkang/python-ml-guide/blob/main/python_ml_perfect_guide_08_TextAnal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 08 텍스트 분석


### 01 텍스트 분석 이해

- 텍스트 분석 수행 프로세스
    1. 텍스트 사전 준비작업 (텍스트 전처리)
    2. 피처 벡터화/추출
    3. ML 모델 수립 및 학습/예측/평가

### 02 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화

- 문장 토큰화

In [1]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
                You can see it out your window or on your television. \
                You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [2]:
print('타입 :', type(sentences), ' , 길이:', len(sentences))
print(sentences)

타입 : <class 'list'>  , 길이: 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


- 단어 토큰화

In [3]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)

print('타입 :', type(words), ' , 길이:', len(words))
print(words)

타입 : <class 'list'>  , 길이: 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [4]:
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text) :
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 여러 문장에 대해 문장별로 단어 토큰화 수행
word_tokens = tokenize_text(text_sample)


print('타입 :', type(word_tokens), ' , 길이:', len(word_tokens))
print(word_tokens)

타입 : <class 'list'>  , 길이: 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


- 스톱 워드 제거

In [5]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [6]:
print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [7]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
    filtered_words=[]

    #개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
    for word in sentence:
        #소문자로 모두 변환
        word = word.lower()
        # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


- is, this 와 같은 스톱 워드가 필터링을 통해 제거됐음을 알 수 있음

-  Stemming 과 Lemmatization

In [8]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


- work는 진행형, 3인칭 단수, 과거형 모두 기본 단어인 work 원형으로 제대로 인식
- amuse의 경우 amus에 ing, s, ed 가 붙으므로 정확한 단어인 amuse 가 아닌 amus를 원형 단어로 인식
- 형용사인 happy, fancy의 경우도, 비교형, 최상급 단어의 정확한 원형을 찾지 못함  







- WordNetLemmatizer

In [None]:
from nltk.stem import WordNetLemmatizer
import nltk

# nltk.download('wordnet')
# 책의 내용은 위의 wordnet 만 다운 받으면 된다 하였으나 오류가 발생하여 모든 패키지 다 다운받게 수정
# 참조 : https://stackoverflow.com/questions/35861482/nltk-lookup-error
nltk.download('all')


lemma = WordNetLemmatizer()


In [21]:

print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

amuse amuse amuse
happy happy
fancy fancy


### 03 Bag of Words - BOW

- 장점
    - 쉽고 빠른 구축
    - 단어의 발생 횟수에 기반하고 있지만, 예상보다 문서의 특징을 잘 나타냄
- 단점
    - 문맥 의미(Semantic Context) 반영 부족 : 단어의 문맥적인 의미가 무시됨
    - 희소 행렬(Sparse Matrix) 문제(희소성, 희소 행렬) : 대부분의 데이터가 0 값으로 채워지는 문제
    > 밀집 행렬(Dense Matrix) : 대부분의 값이 의미있는 값으로 채워지는 행렬. 희소 행렬과 반대 의미

#### BOW 피처 벡터화
- 머신러닝 알고리즘은 숫자형 피처를 데이터로 입력 받아 동작함
- 텍스트는 머신러닝 알고리즘에 바로 입력할 수가 없음
- 텍스트를 숫자형 값인 벡터 값으로 변환하는 걸 **피처 벡터화**라고 함


- 피처 벡터화 방식
    - 카운트 기반 벡터화
    - TF-IDF (Term Frequency - Inverse Document Frequency) 기반의 벡터화
        - 개별 문서에서 자주 나타나는 단어에 높은 가중치
        - 다른 모든 문서에서 전반적으로 자주 나타나는 범용적인 단어에 대해서는 패널티

$TFIDF_i = TF_i * log \dfrac {N} {DF_i}$
- $TF_i$ : 개별 문서에서의 단어 i 빈도
- $DF_i$ : 단어 i를 가지고 있는 문서 개수
- N : 전체 문서 개수

#### 사이킷런의 Count 및 TF-IDF 벡터화 구현 : CountVectorizer, TfidfVectorizer

- CountVectorizer 클래스를 이용한 텍스트의 피처 벡터화 방법
    1. 영어의 경우 소문자로 변경 하는 등의 전처리 작업 수행
    2. 디폴트로 단어 기준으로 n_gram_range를 반영해 각 단어를 토큰화
    3. 텍스트를 정규화 수행
    4. max_df, min_df, max_features 등 파라미터를 이용해 토큰화된 단어를 피처로 추출하고 단어 빈도수 벡터 값을 적용

    ![count-vectorizer](https://user-images.githubusercontent.com/291782/190590620-25849c80-92ae-43f0-971c-f9203f43335c.png)
    

#### 희소행렬 - COO 형식
- COO (Coordinate: 좌표) 형식은 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열에 저장하는 방식
- 희소행렬은 주로 사이파이(Scipy)를 이용

In [23]:
import numpy as np

dense = np.array([[3, 0, 1], [0, 2, 0]])

from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3, 1, 2])

# 행 위치와 열 위치를 각 각 배열로 생성
row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

# sparse 패키지의 coo_matrix를 이용해 COO 형식으로 희소행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))


# sparse_coo 는 COO 형식의 희소행렬 객체
# toarray() 메서드를 이용해 다시 밀집형태 행렬로 출력
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

#### 희소행렬 - CSR 형식
- CSR (Compressed Sparse Row) 형식은 COO 형식이 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식

In [24]:
from scipy import sparse

dense2 = np.array([[0, 0, 1, 0, 5, 5],
                   [1, 4, 0, 3, 2, 5],
                   [0, 6, 0, 3, 0, 0],
                   [2, 0, 0, 0, 0, 0],
                   [0, 0, 0, 7, 0, 8],
                   [1, 0, 0, 0, 0, 0]])

# 0이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13]) # 0이 좌표2 까지, 1이 좌표 7까지, 2가 9까지...

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())

print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [29]:
# COO, CSR 실제 사용 방법
dense3 = np.array([[0, 0, 1, 0, 5, 5],
                   [1, 4, 0, 3, 2, 5],
                   [0, 6, 0, 3, 0, 0],
                   [2, 0, 0, 0, 0, 0],
                   [0, 0, 0, 7, 0, 8],
                   [1, 0, 0, 0, 0, 0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)
print('COO 출력')
print(coo)

print('\n\n COO toarray 출력')
print(coo.toarray())

print('\n\n CSR 출력')
print(csr)

print('\n\n CSR toarray 출력')
print(csr.toarray())

COO 출력
  (0, 2)	1
  (0, 4)	5
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1


 COO toarray 출력
[[0 0 1 0 5 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


 CSR 출력
  (0, 2)	1
  (0, 4)	5
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1


 CSR toarray 출력
[[0 0 1 0 5 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
