### **텍스트 전처리 (정규화)**
#### Text Tokenization

In [2]:
#문장단위로 구분
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print('\n')
print(sentences) #문장 단위로

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\000hj\AppData\Roaming\nltk_data...


<class 'list'> 3


['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


[nltk_data]   Package punkt is already up-to-date!


In [3]:
#단어 단위로 구분
from nltk import word_tokenize

words = word_tokenize(sentences[0]) #첫번째 문장
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [4]:
from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences] #세 문장 모두 각각 단어분리해서 리스트에
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


#### Stop words(무의미) 제거

In [5]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\000hj\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [7]:
#존재하는 stop words개수와 앞에서 20개
print('영어 stop words 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20]) 

영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [8]:
# 소문자로 변환 후, stop words에 포함되지 않는 단어들로 새 리스트 구성
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for word_lst in word_tokens: #word_lst = ['The', 'Matrix', 'is', 'everywhere'...'']
    filtered_words=[]
    
    for word in word_lst:
        word = word.lower()#소문자로 모두 변환
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words) #리스트에 한 문장 단어 리스트를 append
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


#### Stemming과 Lemmatizaion  
다양한 시제의 동사,형용사를 원형으로 변환  
Lemmatizaion이 성능이 좋지만 오래걸림

In [14]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

#테스트를 위한 여러 시제들 사용
print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))
#성능 bad

work work work
amus amus amus
happy happiest
fant fanciest


In [15]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\000hj\AppData\Roaming\nltk_data...


amuse amuse amuse
happy happy
fancy fancy


### Bag of Words – BOW  
##### 희소행렬 - COO형식

In [16]:
import numpy as np

dense = np.array( [ [ 3, 0, 1 ], [0, 2, 0 ] ] )
dense

array([[3, 0, 1],
       [0, 2, 0]])

In [19]:
from scipy import sparse

# 0 이 아닌 데이터 추출
data = np.array([3,1,2])

row_pos = np.array([0,0,1]) #행 위치 array
col_pos = np.array([0,2,1]) #열 

# sparse 패키지의 coo_matrix를 이용하여 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos,col_pos))) #(데이터 값, (행 인덱스, 열 인덱스))
sparse_coo #이건 볼 수 없는듯..

<2x3 sparse matrix of type '<class 'numpy.int32'>'
	with 3 stored elements in COOrdinate format>

In [20]:
# 이렇게 원래 원본 행렬도 확인가능
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

##### 희소 행렬 – CSR 형식
COO에서 행 위치인덱스가 반복된다는 점에서, 행 위치 데이터의 변환 위치를 array로 사용

In [24]:
#COO, CSR 비교
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5], # <-- ※ 2차원 행렬임 (데이터 프레임과 의미가 다른 듯)
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5]) #행 인덱스
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0]) #열 인덱스

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13]) 

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind)) # COO와 순서 다름 주의!

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray(), '\n')
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]] 

CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


print(array)와 그냥 array를 출력할 때 차이

### 이해안됨  
1. 원본 배열에서 인덱스와 0이 아닌 데이터들을 직접 찾아서 그걸 이용해 sparse.coo_matrix 로 희소행렬? -> 위에서 한 방법
2. 원본 배열을 바로 sparse.coo_matrix로 희소행렬 만든 뒤 함수들로 행,열인덱스, 데이터 찾아냄? -> 아래에서 해봄

In [55]:
 #2번 방법으로
dense3 = np.array([[0, 0, 0, 1],
              [0, 0, 0, 0],     #한 행이 모두 0이라면 ,indptr에서 0,1,1,2,4 의 1,1처럼 건너뜀
              [3, 0, 0, 0],
              [0, 0, 2, 1]])

csr = sparse.csr_matrix(dense3)

print( csr.indptr,'<- 행 위치 변환 시점 인덱스')
print(csr.indices,'  <- 열 인덱스')
print(csr.data,'  <- 데이터')

[0 1 1 2 4] <- 행 위치 변환 시점 인덱스
[3 0 2 3]   <- 열 인덱스
[1 3 2 1]   <-데이터


In [60]:
#csr과 열 인덱스 찾는 함수는 같은 기능이지만 함수명이 다름!
coo = sparse.coo_matrix(dense3)
print(coo.row, '<- 행 인덱스')
print(coo.col, '<- 열 인덱스')
print(coo.data, '<- 데이터')

[0 2 3 3] <- 행 인덱스
[3 0 2 3] <- 열 인덱스
[1 3 2 1] <- 데이터
