In [1]:
# 라이브러리 정의
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [2]:
# 데이터 정의
raw_text = """A barber is a person. a barber is good person. 
a barber is huge person. he Knew A Secret! The Secret He Kept 
is huge secret. Huge secret. His barber kept his word. 
a barber kept his word. His barber kept his secret. 
But keeping and keeping such a huge secret to himself was 
driving the barber crazy. the barber went up a huge mountain."""

In [3]:
# 문장 토큰화 처리
# 문장 단위로 분리하기
# 점(.) 마침표를 기준으로 문장 분리
sentences = sent_tokenize(raw_text)
print(sentences)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept \nis huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was \ndriving the barber crazy.', 'the barber went up a huge mountain.']


In [4]:
### 불용어 처리를 위한 영어 불용어 리스트 가지고 오기
stop_words = set(stopwords.words("english"))
print(stop_words)

{'yours', 'each', "hasn't", 'doesn', 'me', "don't", 'hers', 'them', 'as', 'here', 'has', 'themselves', 'shouldn', 'over', 'for', 'isn', 'not', 're', 'their', 'again', "isn't", 'in', 'itself', "she's", "you'd", 'is', 'too', "shouldn't", 'than', 'couldn', 'through', 'no', 'by', 'am', 'mustn', 'ma', 'down', 'aren', 'same', 'herself', "won't", 'we', 'have', "mightn't", 'doing', 'an', 'himself', 'under', "aren't", 'they', "mustn't", 'do', "should've", 'ourselves', 'was', 'because', 'before', 'that', 'from', 'she', 'when', 'don', 'm', "hadn't", "needn't", 'other', 'the', 'below', 'should', 'ain', 'any', 'on', 'about', 'now', 'at', 'what', 'ours', 'nor', "that'll", "you're", 'but', 'his', "shan't", 'are', 'once', 'why', 'been', 'these', 'or', 'all', 'did', "weren't", 'where', "you've", 't', 'above', 'having', 'both', 'after', 'can', 'most', 'yourself', 'own', 'which', 'until', 'further', 'myself', 'haven', 'mightn', 'more', 'its', 'hasn', 'such', 'theirs', 'off', 'so', "wouldn't", 'during', '

In [16]:
### 단어 토큰화(분리) 하기
# - 단어 토큰화를 진행하면서 불용어 처리까지 함께 진행
# - 단어 빈도수까지 함께 진행

### 단어 빈도수 저장 변수 정의
vocab = {}

### 문장별 단어 토큰화 결과 저장 변수
preprocessed_sentences = []

### 문장 토큰화 내용을 반복하면서 처리
# - 단어 토큰화, 정제 및 정규화, 단어빈도수 처리를 함께 처리
for sentence in sentences :
    print(sentence)
    
    ### 단어 토큰화 처리하기
    tokenized_sentence = word_tokenize(sentence)
    print("단어 토큰화 처리 결과 :", tokenized_sentence)
    
    ### 각 문장별로 처리된 단어들의 결과를 담을 변수 정의
    result = []
    
    ### 단어 토큰(분리)한 리스트 반복해서 전처리 수행하기
    for word in tokenized_sentence :
        #print(word)
        ### 모든 단어를 소문자로 변환하기
        word = word.lower()
        
        ### 불용어 처리하기
        if word not in stop_words :
            ### 단어 길이가 2이하인 경우에는 제거하기
            if len(word) > 2 :
                ### 위 조건에 모두 만족하면 result 변수에 추가하기
                result.append(word)
                
                ### 단어빈도 수 계산하기
                # 해당 단어가 vocab 딕셔너리에 없다면
                # 0값으로 셋팅하기 (key값을 생성시키기 위한 초기작업)
                if word not in vocab :
                    vocab[word] = 0
                ### 1 증가시키기
                vocab[word] += 1
    ### 각 문장에 대한 전처리된 결과를 저장하기
    preprocessed_sentences.append(result)
    print("각 문장별 처리 결과 :", preprocessed_sentences)
    print("단어 빈도 수 :", vocab)

A barber is a person.
단어 토큰화 처리 결과 : ['A', 'barber', 'is', 'a', 'person', '.']
각 문장별 처리 결과 : [['barber', 'person']]
단어 빈도 수 : {'barber': 1, 'person': 1}
a barber is good person.
단어 토큰화 처리 결과 : ['a', 'barber', 'is', 'good', 'person', '.']
각 문장별 처리 결과 : [['barber', 'person'], ['barber', 'good', 'person']]
단어 빈도 수 : {'barber': 2, 'person': 2, 'good': 1}
a barber is huge person.
단어 토큰화 처리 결과 : ['a', 'barber', 'is', 'huge', 'person', '.']
각 문장별 처리 결과 : [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person']]
단어 빈도 수 : {'barber': 3, 'person': 3, 'good': 1, 'huge': 1}
he Knew A Secret!
단어 토큰화 처리 결과 : ['he', 'Knew', 'A', 'Secret', '!']
각 문장별 처리 결과 : [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret']]
단어 빈도 수 : {'barber': 3, 'person': 3, 'good': 1, 'huge': 1, 'knew': 1, 'secret': 1}
The Secret He Kept 
is huge secret.
단어 토큰화 처리 결과 : ['The', 'Secret', 'He', 'Kept', 'is', 'huge', 'secret', '.']
각 문장별 처리 결과 : [['barber', 

In [17]:
print("각 문장별 처리 결과 :", preprocessed_sentences)
print("단어 빈도 수 :", vocab)

각 문장별 처리 결과 : [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
단어 빈도 수 : {'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [18]:
vocab.items()

dict_items([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])

In [19]:
# 빈도수가 높은 순서대로 정렬
vocab_sorted = sorted(vocab.items(),
                     key=lambda x:x[1],
                     reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [36]:
# 정수 인코딩 하기
# 빈도가 높은 순서대로 1부터 부여
# 정수인코딩된 최종 결과값을 담을 딕셔너리 변수 정의
# 빈도가 1인것은 제외
word_to_index = {}
i = 0
for (word, fre) in vocab_sorted:
    # 빈도수가 1보다 큰 것에 대해서만 정수인코딩
    if fre > 1:
        i += 1
        word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [41]:
# 빈도수가 가장 높은 상위 5개만 추출
temp = {}
for (word, idx) in word_to_index.items():
    if idx == 6:
        break
    temp[word] = idx
word_to_index = temp
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [42]:
# 단어 토큰화까지 되어있는 원본 확인
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [43]:
# 단어 토큰화된 모든 단어들을 정수인코딩된 번호로 변환
# 정수인코딩 데이터는 상위 5개만 있기 때문에 원본에 없는 단어들에게 번호를 부여하기 위해 임의 key와 value를 추가
# 단어가 없는 것 : 00V(Out-Of-Vocabulary)
word_to_index["00V"] = len(word_to_index) + 1
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, '00V': 6}


In [81]:
# 모든 단어들을 정수인코딩 번호로 변환
encoded_sentences = []
for sentence in preprocessed_sentences:
    print(sentence)
    
    temp = []
    for word in sentence:
        try:
            # print(word_to_index[word])
            temp.append(word_to_index[word])
        except:
            # print(word_to_index["00V"])
            temp.append(word_to_index["00V"])
    print(temp)
    encoded_sentences.append(temp)

['barber', 'person']
[1, 5]
['barber', 'good', 'person']
[1, 6, 5]
['barber', 'huge', 'person']
[1, 3, 5]
['knew', 'secret']
[6, 2]
['secret', 'kept', 'huge', 'secret']
[2, 4, 3, 2]
['huge', 'secret']
[3, 2]
['barber', 'kept', 'word']
[1, 4, 6]
['barber', 'kept', 'word']
[1, 4, 6]
['barber', 'kept', 'secret']
[1, 4, 2]
['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy']
[6, 6, 3, 2, 6, 1, 6]
['barber', 'went', 'huge', 'mountain']
[1, 6, 3, 6]


In [82]:
encoded_sentences

[[1, 5],
 [1, 6, 5],
 [1, 3, 5],
 [6, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [6, 6, 3, 2, 6, 1, 6],
 [1, 6, 3, 6]]

In [83]:
# 라이브러리
from collections import Counter

In [84]:
# 원본 데이터 확인
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [88]:
# Counter 객체를 사용하기 위해서는 하나의 리스트에 모든단어를 담아야한다
all_word_list = []
for i,v in enumerate(preprocessed_sentences):
    for j in v:
        all_word_list.append(j)
print(all_word_list)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [89]:
all_word_list = sum(preprocessed_sentences, [])
all_word_list

['barber',
 'person',
 'barber',
 'good',
 'person',
 'barber',
 'huge',
 'person',
 'knew',
 'secret',
 'secret',
 'kept',
 'huge',
 'secret',
 'huge',
 'secret',
 'barber',
 'kept',
 'word',
 'barber',
 'kept',
 'word',
 'barber',
 'kept',
 'secret',
 'keeping',
 'keeping',
 'huge',
 'secret',
 'driving',
 'barber',
 'crazy',
 'barber',
 'went',
 'huge',
 'mountain']

In [90]:
# 단어빈도수 count
vocab = Counter(all_word_list)
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [91]:
# 단어빈도가 높은 상위 5개 추출
vocab = vocab.most_common(5)
print(vocab)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]


In [92]:
# 정수 인코딩 하기
word_to_index = {}
i = 0
for (word, fre) in vocab:
    i += 1
    word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [93]:
# FreqDist : nltk에서 제공해주는 빈도수 계산 함수
# Counter와 유사

# 라이브러리 정의
from nltk import FreqDist
import numpy as np

# 원본 데이터 확인
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [94]:
# np.hstack() : 1차원 배열로 변환시키는 함수
# FreqDist : 단어 빈도계산 처리
vocab = FreqDist(np.hstack(preprocessed_sentences))
print(vocab)

<FreqDist with 13 samples and 36 outcomes>


In [95]:
# 단어 빈도수 조회
vocab.elements

<bound method Counter.elements of FreqDist({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, ...})>

In [96]:
# 빈도수가 높은 상위 5개 추출
vocab = vocab.most_common(5)
print(vocab)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]


In [97]:
# 정수 인코딩 하기
word_to_index = {}
i = 0
for (word, fre) in vocab:
    i += 1
    word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [98]:
# 케라스의 전처리 라이브러리 사용
# 라이브러리 정의
from tensorflow.keras.preprocessing.text import Tokenizer

In [99]:
# 원본 데이터 확인
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [100]:
# 토큰화 객체 생성
tokenizer = Tokenizer()

# fit_on_texts() : 단어 빈도수 계산 및 내림차순 정렬
# 정수인코딩까지 모두 수행
tokenizer.fit_on_texts(preprocessed_sentences)

In [101]:
# 단어빈도수 조회
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [102]:
# 정수인코딩 데이터 조회
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [103]:
# 원본데이터를 정수로 변환
print(tokenizer.texts_to_sequences(preprocessed_sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [None]:
# 뽑을 데이터 개수
tokenizer = Tokenizer(num_words=6)