# 8장. 텍스트 분석

### 클렌징

### 텍스트 토큰화
#### 문장 토큰화
    : 문장의 마침표, 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적. 

In [1]:
# sent_tokenize()를 이용해 3개의 문장으로 이뤄진 텍스트 문서를 각 문장으로 분리해보자.
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to /Users/air/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


=> sent_tokenize는 각각의 문장으로 구성된 리스트 객체를 반환함.

#### 단어 토큰화
    : 문장을 단어로 토큰화하는 것. 단어의 순서가 중요하지 않은 경우 문장 토큰화를 사용하지 않고 단어 토큰화만 사용해도 충문하다.

In [2]:
# word_tokenize()를 이용해 단어로 토큰화해보자.
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


이번엔 sent_tokenize()와 word_tokenize()를 조합해 문서에 대해서 모든 단어를 토큰화해보자.

In [4]:
from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


=> 3개 문장을 문장별로 먼저 토큰화해서 word_tokens 변수는 3개의 리스트 객체를 내포하는 리스트다. 그리고 내포되니 개별 리스트 객체는 각각 문장별로 토큰화된 단어를 요소로 가지고 있다.
문장을 단어별로 하나씩 토큰화하면 문맥적인 의미는 무시됨. 이러한 문제를 조금이라도 해결해보려는게 n-gram.
n-gram : 연속된 n개의 단어를 하나의 토큰화 단위로 분리해내는 것. n개 단어 크기 윈도우를 만들어 문장의 처음부터 오른쪽으로 움직이면서 토큰화를 수행.

### 스톱 워드 제거
    스톱 워드 : 분석에 큰 의미가 없는 단어를 지칭. 이 의미없는 단어를 제거하는 것이 중요한 전처리 작업.
    NLTK가 가장 다양한 언어의 스톱워드를 제공하지만, 인터넷으로 내려받게 되있음.

In [5]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /Users/air/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [6]:
# 다운로드 후 NTLK의 English의 경우 몇 개의 stopwords가 있는지 알아보고 그 중 20개만 확인해보자.
print('영어 stop words 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [7]:
# 위 예제에서 3개의 문장별로 단어를 토큰화해 생성된 word_tokens 리스트에 대해 stopwords를 필터링으로 제거해 분석을 위한 
# 의미있는 단어만 추출해보자.

import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stop word 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


=> is, this와 같은 스톱 워드가 필터링으르 통해 제거됬음 확인

### Stemming과 Lemmatization
    문법적 또는 의미적으로 변화하는 단어의 원형을 찾는것
    Lemmatization이 Stemming보다 정교하고 의미론적인 기반에서 단어의 원형을 찾는다.
    NLTK는 Stemming을 위해 Porter, Lancaster, Snowball Stemmer을 제공.
    Lemmatization을 위해 WordNetLemmatizer 제공.

Stemming과 Lemmatization 비교해보자.
진행형, 3인칭 단수, 과거형에 따른 동사, 그리고 비교, 최상에 따른 형용사의 변화에 따라 Stemming은 더 단순하게 원형을 찾아준다.
NTLK에서는 LancasterStemmer()과 같이 필요한 Stemmer 객체를 생성한 뒤 이 객체의 stem('단어') 메서드를 호출하면 원하는 '단어'의 Stemming이 가능하다.

In [8]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


work만 제대로 원형을 인식함. 이번엔 Lemmatization 수행해보자.

In [9]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
# Lemmatization은 동사의 품사를 같이 입력해줘야 한다.
# amuse는 동사니까 v, happy와 fancy는 형용사 a
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to /Users/air/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


amuse amuse amuse
happy happy
fancy fancy


=> Stemmer보다 정확하게 원형 단어를 추출해줌.

## Bag of Words - BOW
    문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델.
    장점은 쉽고 빠른 구축이다.
    단점
    1. 문맥 의미 반영 부족 : 문장 내에서 단어의 문맥적인 의미가 무시된다.
    2. 희소 행렬 문제 : 희소 행렬 형태의 데이터 세트가 만들어지기 쉽다.

### BOW 피처 벡터화
    벡터화 : 텍스트를 특정 의미를 가지는 숫자형 값인 벡터값으로 변환
    모든 문서에서 모든 단어를 칼럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경한다.
    M개의 문서에 각각 N개의 단어가 있다 하면 결과로 M X N 개의 단어 피처로 이뤄진 행렬을 구성함.

+ 카운트 기반의 벡터화 : 단어 피처에 값을 부여할 때 각 문서에서 해당 단어가 나타나는 횟수, 즉 Count를 부여하는 경우. 카운트 값이 높을수록 중요한 단어로 인식.
+ TF-IDF : 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 페널티를 주는 방식으로 값을 부여. 
보통 TF-IDF 방식을 사용하는 것이 더 좋은 예측성능을 보장한다.

### 사이킷런의 Count 및 TF-IDF 벡터화 구현 : CountVectorizer, TfidfVectorizer
    사이킷런의 CountVectorizer 클래스 : 카운트 기반의 벡터화를 구현한 클래스. 단지 피터 벡터화만 수행하진 않고, 소문자 일괄 변환, 토큰화, 스톱워드 필터링 등의 텍스트 전처리도 함께 수행한다.

CountVectorizer의 입력 파라미터
+ max_df : 너무 높은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터
+ min_df : 너무 낮은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터
+ max_features : 추출하는 피처 개수를 제한하며 정수로 값을 지정
+ stop_words : 'english'로 지정하면 영어의 스톱 워드로 지정된 단어는 추출에서 제외
+ n_gram_range : Bag of Words 모델의 단어 순서를 어느 정도 보강하기 위한 n_gram 범위를 설정
+ analyzer : 피처 추출을 수행한 단위 지정. 디폴트는 'word'
+ token_pattern : 토큰화를 수행하는 정규 표현식 패턴 지정. 디폴트 값 변경할 경우 거의 발생 안함.
+ tokenier : 토큰화를 별도의 커스텀 함수로 이용시 적용. 일반적으로 CountTokenizer 클래스에서 어근 변환시 이를 수행하는 별도의 함수를 tokenizer 파라미터에 적용하면 됨.

CountVectorizer를 이용한 피처 벡터화
1. 사전 데이터 가공 : 모든 문자를 소문자로 변환하는 등의 사전 작업 수행.
2. 토큰화 : n_gram_range를 반영하여 토큰화 수행. 디폴트는 단어 기준.
3. 텍스트 정규화 : Stop Words 필터링만 수행. Stemmer, Lemmatize는 CountVectorizer 자체에서 지원 안되므로 함수화하거나 외부 패키지로 미리 Text Normalization 수행 필요.
4. 피처 벡터화 : max_df, min_df, max_features등 파라미터 반영하여 Token된 단어들을 feature extraction 후 vectorization 적용

### BOW 벡터화를 위한 희소 행렬
    희소 행렬 : 대규모 행렬의 대부분의 값을 0이 차지하는 행렬. BOW 형태를 가진 언어 모델의 피처 벡터화는 대부분 희소행렬이다.
    희소 행렬은 메모리 공간이 많이 소모되기 때문에 물리적으로 적은 메모리공간을 차지할 수 있도록 변환해야 한다. 대표적 방식은 COO와 CSR 형식인데 CSR을 더 많이 사용한다.

### 희소 행렬 - COO 형식
    0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식. 파이썬에선 희소행렬 변환을 위해 주로 사이파이(Scipy)를 이용.

In [10]:
# 사이파이의 sparse를 이용해 희소 행렬 변환을 COO 형식으로 해보자.
import numpy as np

dense = np.array( [ [ 3, 0, 1 ], [0, 2, 0 ] ] )

In [11]:
# 이제 위 밀집 행렬을 사이파이의 coo_matrix 클래스를 이용해 COO 형식의 희소 행렬로 변환해보자.
# 0이 아닌 데이터를 별도의 배열 데이터로 만들고, 행 위치 배열과 열 위치 배열을 각각 만든 후 coo_matrix()내 파라미터로 입력.
from scipy import sparse

# 0 이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용하여 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos,col_pos)))

In [12]:
# sparse_coo는 COO 형식의 희소 행렬 객체 변수다. 이를 toarray() 메서드를 이용해 다시 밀집형태의 행렬로 출력해보자.
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

In [13]:
sparse_coo

<2x3 sparse matrix of type '<class 'numpy.int64'>'
	with 3 stored elements in COOrdinate format>

### 희소 행렬 - CSR 형식
    COO 형식이 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식.
    먼저 COO 변환 형식의 문제점을 알아보자.

In [14]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


COO와 CSR 이 어떻게 희소 행렬 메모리를 줄일 수 있는지 살펴봄. 실제 사용시에는 밑과 같이 밀집 행렬을 생성 파라미터로 입력하면 COO나 CSR 희소 행렬로 생성한다.

In [15]:

dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

사이킷런의 CountVectorizer나 TfidfVectorizer 클래스로 변환된 피처 벡터화 행렬은 모두 사이파이의 CSR 형태의 희소 행렬임. 