### 텍스트 전처리(텍스트 정규화)
- NLTK(Natural Language Toolkit for Python) : 자연어 처리 패키지
- 설치 및 실습 : pip install nltk

- documentation :https://www.nltk.org/index.html

In [1]:
import nltk

In [2]:
print(nltk.__version__)

3.5


In [3]:
from nltk import sent_tokenize
# send_tokenize : 문장 토큰화 (개행문자, 마침표로 문장 분리)
nltk.download('punkt')

In [7]:
text_sample = 'Matrix is everywhere its all around us, here even in this room. \n You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes'

#문장분리
sentences = sent_tokenize(text=text_sample)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\TJ\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [8]:
sentences

['Matrix is everywhere its all around us, here even in this room.',
 'You can see it out your window or on your television.',
 'You feel it when you go to work, or go to church or pay your taxes']

- 마침표를 기준으로 3개의 문장으로 분리되었다

In [9]:
type(sentences), len(sentences)

(list, 3)

In [11]:
# 단어 분리
from nltk import word_tokenize

In [13]:
sentence ='Matrix is everywhere its all around us, here even in this room.'
word = word_tokenize(sentence)
word


['Matrix',
 'is',
 'everywhere',
 'its',
 'all',
 'around',
 'us',
 ',',
 'here',
 'even',
 'in',
 'this',
 'room',
 '.']

- 기본적으로 쉼표, 마침표 , 개행문자 등으로 단어를 분리한다 -> 리스트로 반환

In [14]:
# 문장과 단어를 한번에 분리하는 함수 만들기
from nltk import sent_tokenize, word_tokenize

# parameter: text (문서)
def tokenize_text(text):
    # 문장 분리
    sentences = sent_tokenize(text)
    
    # 단어 분리
    word_tokens = [word_tokenize(sentence) for sentence in sentences]  #2차원 구조의 리스트로 저장됨
    return word_tokens

In [17]:
text_sample = 'Matrix is everywhere its all around us, here even in this room. \n You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes'

In [18]:
word_tokens = tokenize_text(text_sample)

In [20]:
# 2차원 구조의 리스트로 토큰화됨
print(word_tokens)

[['Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes']]


In [23]:
len(word_tokens)

3

In [25]:
len(word_tokens[0])

14

### 스톱워드 제거(불용어 처리)

In [26]:
import nltk
nltk.download('stopwords')  # 불용어 목록 다운받기

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\TJ\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [27]:
# 영어의 불용어 개수 확인 (한국어는 지원안함)
len(nltk.corpus.stopwords.words('english'))

179

In [28]:
len(nltk.corpus.stopwords.words('french'))

157

In [31]:
len(nltk.corpus.stopwords.words('german'))

232

In [32]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')

In [34]:
stopwords[:20]

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his']

In [41]:
# 불용어 제거하기

all_tokens = []
# word_tokesn: 2차원 배열(단어들이 토큰화된 상태)

for sentence in word_tokens:
    filtered_words = []  # 불용어 걸러내서 저장할 공간
    for word in sentence:
        word = word.lower() # stop word 는 전부 소문자로 구성되어 있음
        if word not in stopwords:
            filtered_words.append(word)
    
    all_tokens.append(filtered_words)


In [44]:
# 불용어 제거된 토큰
all_tokens[0]

['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.']

In [45]:
#불용어 제거되기 전 토큰
word_tokens[0]

['Matrix',
 'is',
 'everywhere',
 'its',
 'all',
 'around',
 'us',
 ',',
 'here',
 'even',
 'in',
 'this',
 'room',
 '.']

### Stemming 과 Lemmatization 
- 어간 추출(Stemming) and 표제어 추출(Lemmatization)
- Lemmatization 이 더 정교함

In [46]:
from nltk.stem import LancasterStemmer

In [47]:
stemmer = LancasterStemmer()

In [48]:
stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked')

('work', 'work', 'work')

In [49]:
stemmer.stem('happier'), stemmer.stem('happiest')

('happy', 'happiest')

- work는 제대로 인식, 비교급이나최상급은 제대로 인식 못함
- Stemmer 보다 정교한 Lemmatizer 를 사용해 보자

In [50]:
from nltk.stem import WordNetLemmatizer

In [51]:
# wordnet 다운로드해주기
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\TJ\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


True

In [52]:
lemma = WordNetLemmatizer()

In [54]:
lemma.lemmatize('amusing','v'), lemma.lemmatize('amuses','v'), lemma.lemmatize('amused','v')

('amuse', 'amuse', 'amuse')

In [57]:
print(lemma.lemmatize('happier','a'), lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('good','a'), lemma.lemmatize('better','a'), lemma.lemmatize('best','a'))

happy happy
good good best


- Lemmatization(WordNetLemmatizer) 를 이용하면 제대로 된다(대신에 형용사 동사 등의 품사 입력을 해주어야 한다.
- Stemmer 보다 정확하게 원형단어를 추출해준다.

### 03. Bac of Words - BOW
- 단어를 숫자로 변환(Vectorizer): 개수로 변환
- CountVectorizer 클래스 사용

### CountVectorizer 실습

In [65]:
# 문서 1
text_sample_01 = 'Matrix is everywhere its all around us, here even in this room. \n You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes'

# 문서 2
text_sample_02 = 'You take the blue pill and the story ends. You wake in your bed and you believe whatever you want to believe'

In [66]:
text_ = []
text_.append(text_sample_01)
text_.append(text_sample_02)

In [67]:
text_

['Matrix is everywhere its all around us, here even in this room. \n You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes',
 'You take the blue pill and the story ends. You wake in your bed and you believe whatever you want to believe']

In [68]:
from sklearn.feature_extraction.text import CountVectorizer

cnt_vect = CountVectorizer()
cnt_vect.fit(text_)
ftr_vect = cnt_vect.transform(text_)
ftr_vect

<2x42 sparse matrix of type '<class 'numpy.int64'>'
	with 46 stored elements in Compressed Sparse Row format>

- sparse matrix : 2X42 희소행렬 생성됨, CSR(Compressed Sparese Row)되어서 빈 공간이 없게끔 압축된 상태의 numpy 객체 반환
- 2 : 도큐먼트의 수
- 42 : 단어의 수 
- M X N (2 X 42) 형태

### 피처 벡터화 후 데이터 유형 및 여러 속성 확인

In [70]:
list(ftr_vect)

[<1x42 sparse matrix of type '<class 'numpy.int64'>'
 	with 30 stored elements in Compressed Sparse Row format>,
 <1x42 sparse matrix of type '<class 'numpy.int64'>'
 	with 16 stored elements in Compressed Sparse Row format>]

In [71]:
type(ftr_vect), ftr_vect.shape

(scipy.sparse.csr.csr_matrix, (2, 42))

In [72]:
# 문서 1의 vectorizing 확인 : text_sample_01
print(ftr_vect[0])

  (0, 0)	1
  (0, 2)	1
  (0, 6)	1
  (0, 7)	1
  (0, 9)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	2
  (0, 13)	1
  (0, 14)	1
  (0, 15)	1
  (0, 16)	2
  (0, 17)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	3
  (0, 21)	1
  (0, 22)	1
  (0, 24)	1
  (0, 25)	1
  (0, 28)	1
  (0, 29)	1
  (0, 31)	1
  (0, 32)	2
  (0, 33)	1
  (0, 37)	1
  (0, 38)	1
  (0, 39)	1
  (0, 40)	3
  (0, 41)	3


In [78]:
# 문서 2의 vectorizing 확인 : text_sample_02
print(ftr_vect[1])

  (0, 1)	2
  (0, 3)	1
  (0, 4)	2
  (0, 5)	1
  (0, 8)	1
  (0, 14)	1
  (0, 23)	1
  (0, 26)	1
  (0, 27)	1
  (0, 30)	2
  (0, 32)	1
  (0, 34)	1
  (0, 35)	1
  (0, 36)	1
  (0, 40)	4
  (0, 41)	1


- 42개가 아니라 뺄건 뺀상태로 압축된 애들만 담겨져 있다.(CSR) - 메모리 절약을 위한 작업
- 즉 count 가 0인 애들은 빼버리고 개수를 가지고 있는 애들만 가져오는 방식

####  나중에 학습시키기 위해서는 원본행렬로 원복해야한다(행렬이 차원이 맞아야 하므로)

In [79]:
# csr_matrix 객체 안의 단어 추출하기
print(cnt_vect.vocabulary_)
# vocabulary_ 속성이 단어와 인덱스 정보를 딕셔너리 구조로 가지고 있다.(count 는 포함되지 않음)

{'matrix': 18, 'is': 15, 'everywhere': 10, 'its': 17, 'all': 0, 'around': 2, 'us': 33, 'here': 13, 'even': 9, 'in': 14, 'this': 31, 'room': 24, 'you': 40, 'can': 6, 'see': 25, 'it': 16, 'out': 21, 'your': 41, 'window': 38, 'or': 20, 'on': 19, 'television': 29, 'feel': 11, 'when': 37, 'go': 12, 'to': 32, 'work': 39, 'church': 7, 'pay': 22, 'taxes': 28, 'take': 27, 'the': 30, 'blue': 5, 'pill': 23, 'and': 1, 'story': 26, 'ends': 8, 'wake': 34, 'bed': 3, 'believe': 4, 'whatever': 36, 'want': 35}


In [80]:
# stopword 파라미터 추가하여 객체 생성후 확인
cnt_vect = CountVectorizer(max_features=5, stop_words='english')
cnt_vect.fit(text_)
ftr_vect = cnt_vect.transform(text_)
ftr_vect

<2x5 sparse matrix of type '<class 'numpy.int64'>'
	with 5 stored elements in Compressed Sparse Row format>

In [81]:
# csr_matrix 객체 안의 단어 추출하기
print(cnt_vect.vocabulary_)
# stopword 제외된 애들의 핵심단어 확인가능

{'television': 2, 'wake': 3, 'bed': 0, 'believe': 1, 'want': 4}


### ngram_range확인
 - 문맥의순서 정보를 유지하기 위한 하이퍼 파라미터

In [82]:
cnt_vect = CountVectorizer(ngram_range=(1,2)) # 1개짜리, 2개짜리 묶어서

In [83]:
cnt_vect.fit(text_)
ftr_vect = cnt_vect.transform(text_)
ftr_vect

<2x100 sparse matrix of type '<class 'numpy.int64'>'
	with 104 stored elements in Compressed Sparse Row format>

In [84]:
print(cnt_vect.vocabulary_)

{'matrix': 39, 'is': 32, 'everywhere': 21, 'its': 37, 'all': 0, 'around': 5, 'us': 73, 'here': 27, 'even': 19, 'in': 29, 'this': 67, 'room': 53, 'you': 87, 'can': 13, 'see': 55, 'it': 34, 'out': 47, 'your': 95, 'window': 83, 'or': 43, 'on': 41, 'television': 62, 'feel': 23, 'when': 81, 'go': 25, 'to': 69, 'work': 85, 'church': 15, 'pay': 49, 'taxes': 61, 'matrix is': 40, 'is everywhere': 33, 'everywhere its': 22, 'its all': 38, 'all around': 1, 'around us': 6, 'us here': 74, 'here even': 28, 'even in': 20, 'in this': 30, 'this room': 68, 'room you': 54, 'you can': 89, 'can see': 14, 'see it': 56, 'it out': 35, 'out your': 48, 'your window': 99, 'window or': 84, 'or on': 45, 'on your': 42, 'your television': 98, 'television you': 63, 'you feel': 90, 'feel it': 24, 'it when': 36, 'when you': 82, 'you go': 91, 'go to': 26, 'to work': 72, 'work or': 86, 'or go': 44, 'to church': 71, 'church or': 16, 'or pay': 46, 'pay your': 50, 'your taxes': 97, 'take': 59, 'the': 64, 'blue': 11, 'pill': 

In [85]:
len(cnt_vect.vocabulary_)

100

In [86]:
cnt_vect = CountVectorizer(ngram_range=(1,3)) # (범위 최소값, 범위 최대값)즉 1단어, 2단어, 3단어를 다 출력
cnt_vect.fit(text_)
ftr_vect = cnt_vect.transform(text_)
print(cnt_vect.vocabulary_)

{'matrix': 61, 'is': 50, 'everywhere': 32, 'its': 58, 'all': 0, 'around': 8, 'us': 113, 'here': 42, 'even': 29, 'in': 45, 'this': 104, 'room': 83, 'you': 134, 'can': 20, 'see': 86, 'it': 53, 'out': 74, 'your': 149, 'window': 128, 'or': 67, 'on': 64, 'television': 96, 'feel': 35, 'when': 125, 'go': 38, 'to': 107, 'work': 131, 'church': 23, 'pay': 77, 'taxes': 95, 'matrix is': 62, 'is everywhere': 51, 'everywhere its': 33, 'its all': 59, 'all around': 1, 'around us': 9, 'us here': 114, 'here even': 43, 'even in': 30, 'in this': 46, 'this room': 105, 'room you': 84, 'you can': 137, 'can see': 21, 'see it': 87, 'it out': 54, 'out your': 75, 'your window': 155, 'window or': 129, 'or on': 70, 'on your': 65, 'your television': 153, 'television you': 97, 'you feel': 139, 'feel it': 36, 'it when': 56, 'when you': 126, 'you go': 141, 'go to': 39, 'to work': 111, 'work or': 132, 'or go': 68, 'to church': 109, 'church or': 24, 'or pay': 72, 'pay your': 78, 'your taxes': 152, 'matrix is everywhere'

In [87]:
cnt_vect = CountVectorizer(ngram_range=(2,3)) # (범위 최소값, 범위 최대값)
cnt_vect.fit(text_)
ftr_vect = cnt_vect.transform(text_)
print(cnt_vect.vocabulary_)

{'matrix is': 43, 'is everywhere': 35, 'everywhere its': 22, 'its all': 41, 'all around': 0, 'around us': 6, 'us here': 80, 'here even': 29, 'even in': 20, 'in this': 31, 'this room': 73, 'room you': 59, 'you can': 96, 'can see': 14, 'see it': 61, 'it out': 37, 'out your': 53, 'your window': 113, 'window or': 90, 'or on': 49, 'on your': 45, 'your television': 111, 'television you': 67, 'you feel': 98, 'feel it': 24, 'it when': 39, 'when you': 88, 'you go': 100, 'go to': 26, 'to work': 78, 'work or': 92, 'or go': 47, 'to church': 76, 'church or': 16, 'or pay': 51, 'pay your': 55, 'your taxes': 110, 'matrix is everywhere': 44, 'is everywhere its': 36, 'everywhere its all': 23, 'its all around': 42, 'all around us': 1, 'around us here': 7, 'us here even': 81, 'here even in': 30, 'even in this': 21, 'in this room': 32, 'this room you': 74, 'room you can': 60, 'you can see': 97, 'can see it': 15, 'see it out': 62, 'it out your': 38, 'out your window': 54, 'your window or': 114, 'window or o

In [88]:
cnt_vect = CountVectorizer(ngram_range=(2,2)) # 2개 단어 묶은 거만 모음
cnt_vect.fit(text_)
ftr_vect = cnt_vect.transform(text_)
print(cnt_vect.vocabulary_)

{'matrix is': 21, 'is everywhere': 17, 'everywhere its': 11, 'its all': 20, 'all around': 0, 'around us': 3, 'us here': 40, 'here even': 14, 'even in': 10, 'in this': 15, 'this room': 36, 'room you': 29, 'you can': 48, 'can see': 7, 'see it': 30, 'it out': 18, 'out your': 26, 'your window': 57, 'window or': 45, 'or on': 24, 'on your': 22, 'your television': 56, 'television you': 33, 'you feel': 49, 'feel it': 12, 'it when': 19, 'when you': 44, 'you go': 50, 'go to': 13, 'to work': 39, 'work or': 46, 'or go': 23, 'to church': 38, 'church or': 8, 'or pay': 25, 'pay your': 27, 'your taxes': 55, 'you take': 51, 'take the': 32, 'the blue': 34, 'blue pill': 6, 'pill and': 28, 'and the': 1, 'the story': 35, 'story ends': 31, 'ends you': 9, 'you wake': 52, 'wake in': 41, 'in your': 16, 'your bed': 54, 'bed and': 4, 'and you': 2, 'you believe': 47, 'believe whatever': 5, 'whatever you': 43, 'you want': 53, 'want to': 42, 'to believe': 37}


### 희소행렬 - COO 형식
- COO : (Cordinate: 좌표) 형식 : 0 이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도로 저장
- scipy 모듈의 sparse

In [90]:
import numpy as np
dense = np.array([[3,0,1],[0,2,0]])

In [91]:
# 0 이 아닌 데이터추출
data = np.array([3,1,2])

In [93]:
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

In [94]:
from scipy import sparse

In [95]:
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [96]:
print(sparse_coo)

  (0, 0)	3
  (0, 2)	1
  (1, 1)	2


In [97]:
# 희소 행렬을 원래 데이터 복원(학습을 하려면 원본데이터로 복원해서 행렬차원을 맞춰줘야한다.)
# toarray() function 사용하기!
dense01 = sparse_coo.toarray()
print(dense01)

[[3 0 1]
 [0 2 0]]


### 희소행렬 - CSR 형식
- CSR(Compressed Sparse Row) : COO형식이 행열 위치를 나타내기 위해 반복적인 위치데이터 사용해야 하는 문제점 해결

In [None]:
# p.485~ 참고해서 코딩하기
# COO 형식으로 변환
dense02 = 

# 행위치 배열의 고유한 값들의 시작위치 인덱스를 배열로 생성

# CSR 형식으로 변환

- toarray() 기능으로 원래의 행열로 복원시키는 것이 중요 : 그래야 모델생성을 할수 있음