### 8.1 텍스트 분석 이해
- NLP? 머신이 인간의 언어를 이해하고 해석하는 데 중점             
텍스트 분석을 향상하게 하는 기반 기술! 언어 해석을 위한 기계 번역, 질의응답 시스템

- 텍스트 분석? (텍스트 마이닝) 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점      

머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행  
- 텍스트 분석은 비정형 데이터인 텍스트를 분석함을 의미

- 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고, 어떻게 추출된 피처에 의미 있는 값을 부여하는가?

- 피처 벡터화(Feature Vectorization) & 피처 추출(Feature Extraction):                
텍스트를 word 기반의 다수의 피처로 추출해 단어 빈도수와 같은 숫자값을 부여해 벡터값으로 표현 가능하게 텍스트 변환하는 작업

- BOW(Bag of Words)와 Word2Vec 방법 두 개중 **BOW** 활용
    
- 텍스트 분석 수행 프로세스
 - 텍스트 사전 준비작업(텍스트 전처리): 텍스트를 피처로 만들기 전에 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업 // 단어(word) 등의 토큰화 작업 // 의미 없는 단어(Stop word) 제거 작업 // 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업 수행을 통칭

 - 피처 벡터화/추출: 1번으로 가공된 텍스트에서 피처 추출, 벡터 값을 할당한다. BOW, Word2Vec 이 있고, BOW는 Count 기반과 TF-IDF 기반 벡터화가 있다.

 - ML 모델 수립 및 학습/예측/평가: 2된 데이터 세트에 ML 모델을 적용해 학습/예측/평가 수행


### 8.2 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화
- 텍스트 자체를 바로 피처로 만들 수 없고, 사전에 텍스트를 가공하는 준비 작업이 필요

- 텍스트 정규화는 텍스트를 머신러닝 알고리즘이나 NLP 어플리케이션에 입력 데이터하기 위해 사전 작업을 수행하는 것을 의미한다. 매우 중요!

 >클렌징(Cleasning)
 >토큰화(Tokenization  
 >필터링/스톱 워드 제거/철자 수정
 >Stemming
 >Lemmatization

NLTK 패키지를 이용해 실습해보겠습니다.


- 클렌징     
불필요한 문자, 기호 등을 사전에 제거하는 작업 / HTML, XML 태그나 특정 기호 등을 사전에 제거


- 텍스트 토큰화      
문서에서 문장을 분리하는 문장 토큰화 & 문장에서 단어를 분리하는 단어 토큰화


- 문장 토큰화(sentence tokenization): 문장의 마침표, 개행문자 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적임. 정규 표현식에 따른 문장 토큰화도 가능 !

- 3개의 문장으로 이루어진 텍스트를 문장으로 분리

In [1]:
from nltk import sent_tokenize

import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to C:\Users\JIEUN
[nltk_data]     OH\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


- 단어 토큰화(Word Tokenization): 문장을 단어로 토큰화. 공백, 콤마, 마침표, 개행문자 등으로 분리하지만 정규 표현식을 이용해 다양한 유형으로 분리할 수 있음!

- BOW와 같이 단어의 순서가 중요하지 않은 경우 문장이 아닌 단어 토큰화만 사용해도 충분

In [2]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [3]:
from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


#### Stopwords 제거
- 스톱워드: 분석에 큰 의미가 없는 단어 / is, the, a, will -

- 스톱워드는 문법상 빈번하게 나타나 사전에 제거하지 않으면 중요 단어로 인지될 수 있다.

- NLTK의 stopwords 목록을 내려 받는다. 언어별로 이러한 스톱워드가 목록화되어 있음

In [4]:
import nltk
nltk.download('stopwords')
print('영어 stop words 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

[nltk_data] Downloading package stopwords to C:\Users\JIEUN
[nltk_data]     OH\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [5]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stop word 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


#### Stemming과 Lemmatization
문법에 따라 다양하게 변하는 단어의 원형을 찾아줍니다


- Stemming: 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출

- Lemmatization: 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아줌 > 오랜 시간 필요

- NLTK에서 Stemmer(Porter, Lancaster, Snowball Stemmer) // Lemmatization(WordNetLemmatizer) 제공

In [6]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [7]:
from nltk.stem import WordNetLemmatizer

import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to C:\Users\JIEUN
[nltk_data]     OH\AppData\Roaming\nltk_data...


amuse amuse amuse
happy happy
fancy fancy


### 8.3 Bag of Words – BOW
문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델로, 문서 내의 모든 단어를 한번에 봉투에 넣고 흔들어 섞는 것과 같음.    

#### BOW 모델

- 장점     
쉽고 빠른 구축: 단순히 단어 발생 횟수에 기반하지만 문서의 특징을 잘 나타낸다

- 단점       
  - 문맥 의미(Semantic Context) 반영 부족: 단어의 순서를 고려하지 않기 때문에 문맥적인 의미가 무시됨. 보완을 위해 n_gram 기법을 활용할 수 있지만 제한적이기 때문에 문맥적인 해석 처리 불가         

  - 희소 행렬 문제(희소성, 희소 행렬): BOW로 피처 벡터화를 수행하면 희소 행렬 데이터 세트가 만들어지기 쉬움. 매우 많은 단어가 칼럼으로 만들어지고 같은 단어가 문서마다 나타나지 않는 경우가 훨씬 많음. 대부분의 데이터가 0으로 채워지고, 이를 희소 행렬이라고 한다. 반대로 0이 아닌 의미 있는 값으로 채워지는 행렬을 밀집 행렬이라고 함. 희소 행렬은 ML 알고리즘 수행 시간과 예측 성능을 떨어뜨리기 떄문에 이를 위한 특별한 기법이 마련돼야 함         
  
#### BOW 피처 벡터화
머신러닝 알고리즘은 숫자형 피처를 데이터로 입력 받아 동작하기 때문에 텍스트를 특정 의미를 가지는 숫자형 값인 벡터로 변환해야 한다. 피처 벡터화 수행!


* BOW 모델에서 피처 벡터화를 수행하는 두가지 방식
- 카운트 기반 벡터화      

단어에 피처 값을 부여할 때 각 문서에서 해당 언어가 나타나는 횟수(count)를 부여하는 경우 카운트 값이 높을수록 중요한 단어로 인식되지만, 언어의 특성상 자주 사용되는 
단어까지 중요하게 인식될 수 있어서 개선한 모델이 TF-IDF

- TF-IDF      

개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 자주 나타나는 단어에는 패널티를 주는 방식으로 값 부여 > 가중치의 균형을 맞춘다. 
문서마다 텍스트가 길고, 문서의 개수가 많은 경우엔 TF-IDF 방식을 사용하는 것이 
더 좋은 예측 성능을 보장


#### 사이킷런 count, TF-IDF 구현: CountVectorizer, TfidfVectorizer
- CountVectorizer      
피처 벡터화 + 소문자 일괄 변환, 토큰화, 스톱워드 필터링 등의 전처리

- fit 과 transform으로 피처 벡터화된 객체 반환

1.영어의 경우 모든 문자 소문자로 변환 등의 전처리 수행     
2.단어 기준 n_gram_range를 반영해 각 단어 토큰화      
3.텍스트 정규화 수행    


#### BOW 벡터화를 위한 희소 행렬
CountVectorizer, TfidfVectorizer로 텍스트를 피처 단위로 벡터화해 변환하고 CSR 형태의 희소 행렬 반환               

모든 문서에 있는 단어를 추출해 피처로 벡터화하는 방법은 필연적으로 많은 피처 칼럼을 만들 수 밖에 없고, 만들어진 대규모 행렬의 대부분은 0 값을 가진다. 이를 희소 행렬이라고 하고, BOW 형태를 가진 언어 모델의 피처 벡터화는 대부분 희소 행렬                    

희소행렬은 너무 많은 불필요한 0값이 메모리 공간에 할당되어 공간이 많이 필요하고, 액세스 시간이 오래 걸린다. 이러한 희소 행렬을 물리적으로 적은 메모리 공간을 차지하도록 변환하기 위해 COO, CSR 형식을 이용한다. 보통은 CSR의 저장, 계산 수행 능력이 더 뛰어나기 때문에 많이 사용


#### 희소행렬 - COO 형식
- COO(Coordinate, 좌표) 형식: 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식 


- 희소 행렬 반환을 위해 주로 Scipy를 이용, Scipy의 sparse 패키지는 희소 행렬 변환을 위한 다양한 모듈을 제공한다.

In [8]:
import numpy as np

dense = np.array( [ [ 3, 0, 1 ], [0, 2, 0 ] ] )

In [9]:
from scipy import sparse

# 0 이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용하여 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos,col_pos)))

In [10]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

#### 희소 행렬 – CSR 형식
CSR(Compressed Spare Row) 형식: COO 형식의 행과 열의 위치를 나타내기 위해 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식

In [11]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [12]:
dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)