# 텍스트 전처리
### 정수인코딩

In [2]:
#텍스트를 숫자로 바꾸는 기법

text = '''모처럼 전국에 비가 내리고 있습니다.
대부분 밤까지 계속되기 때문에 종일 우산이 필요하겠는데요.
비의 양도 많고 바람도 강하게 불기 때문에 작은 우산 말고 큰 우산 챙기는 게 더 좋습니다.
특히 제주와 남해안에서 비바람이 강합니다.
'''

In [3]:
from nltk.tokenize import sent_tokenize

# 문장 토큰화
text = sent_tokenize(text)
#       문장 나누기('.' 기준)
print(text)

['모처럼 전국에 비가 내리고 있습니다.', '대부분 밤까지 계속되기 때문에 종일 우산이 필요하겠는데요.', '비의 양도 많고 바람도 강하게 불기 때문에 작은 우산 말고 큰 우산 챙기는 게 더 좋습니다.', '특히 제주와 남해안에서 비바람이 강합니다.']


In [4]:
#명사만 추출하는 방법

from konlpy.tag import Okt

okt=Okt()
text2=[]

for txt in text:
    t=okt.nouns(txt)
    #       명사
    text2.append(t)    
text2    

[['모처럼', '전국', '비'],
 ['대부분', '밤', '계속', '때문', '종일', '우산'],
 ['비', '양도', '바람', '불기', '때문', '우산', '우산', '게', '더'],
 ['제주', '남해안', '비바람']]

In [5]:
# 명사와 형용사를 추출하는 방법

from konlpy.tag import Okt

okt=Okt()
text2 = []

for txt in text:
    morph = okt.pos(txt)
    text2.append(morph)

text3 = []

for text in text2:
    line=[]
    
    for word, tag in text:
        if tag in ['Noun','Adjective']:
            #       명사,    형용사
            line.append(word)
    text3.append(line)
print(text3) 

[['모처럼', '전국', '비', '있습니다'], ['대부분', '밤', '계속', '때문', '종일', '우산', '필요하겠는데요'], ['비', '양도', '많고', '바람', '강하게', '불기', '때문', '작은', '우산', '우산', '게', '더', '좋습니다'], ['제주', '남해안', '비바람', '강합니다']]


In [6]:
vocab = {}
sentences = []
stop_words = ['더', '게']

for txt in text3:
    result = []
    
    for word in txt:
        # 불용어 제거
        if word not in stop_words: #불용어가 아니면
            result.append(word)
            if word not in vocab: #새로운 단어이면
                vocab[word] = 0 # 출현횟수 0으로
            vocab[word] += 1 #출현횟수 증가
    sentences.append(result)

print(sentences)

[['모처럼', '전국', '비', '있습니다'], ['대부분', '밤', '계속', '때문', '종일', '우산', '필요하겠는데요'], ['비', '양도', '많고', '바람', '강하게', '불기', '때문', '작은', '우산', '우산', '좋습니다'], ['제주', '남해안', '비바람', '강합니다']]


In [7]:
#단어:출현빈도
print(vocab)

{'모처럼': 1, '전국': 1, '비': 2, '있습니다': 1, '대부분': 1, '밤': 1, '계속': 1, '때문': 2, '종일': 1, '우산': 3, '필요하겠는데요': 1, '양도': 1, '많고': 1, '바람': 1, '강하게': 1, '불기': 1, '작은': 1, '좋습니다': 1, '제주': 1, '남해안': 1, '비바람': 1, '강합니다': 1}


In [8]:
print(vocab["우산"]) # 단어의 빈도수 출력

3


In [9]:
#단어에 일련번호 부여

word_to_index = {}
i=0

for word in vocab :
    if vocab[word] > 1 : # 빈도수가 1보다 큰 단어들만 추가
        i=i+1
        word_to_index[word] = i #단어에 번호를 매김
        
print(word_to_index)

{'비': 1, '때문': 2, '우산': 3}


In [10]:
#Out-Of-Vocabulary 단어 집합에 없는 단어
#출현빈도수가 낮은 단어들은 word_to_index에 없으므로
# word_to_index에 OOV라는 단어를 추가하고 단어 집합에 없는 단어들은 OOV로 처리

word_to_index['OOV'] = len(word_to_index) + 1
encoded = []

for s in sentences: #문장들을 반복
    temp = []

    for w in s: #문장의 단어들을 반복
        try:
            #단어의 고유번호를 리스트에 추가
            temp.append(word_to_index[w])
        except:
            #존재하지 않는 단어는 OOV의 인덱스를 추가
            temp.append(word_to_index['OOV'])
    encoded.append(temp)

print(encoded)

[[4, 4, 1, 4], [4, 4, 4, 2, 4, 3, 4], [1, 4, 4, 4, 4, 4, 2, 4, 3, 3, 4], [4, 4, 4, 4]]


In [11]:
import numpy as np

#2차원 데이터를 1차원으로 바꾸고
words = np.hstack(sentences)

print(words)

['모처럼' '전국' '비' '있습니다' '대부분' '밤' '계속' '때문' '종일' '우산' '필요하겠는데요' '비' '양도'
 '많고' '바람' '강하게' '불기' '때문' '작은' '우산' '우산' '좋습니다' '제주' '남해안' '비바람' '강합니다']


In [12]:
from collections import Counter

vocab = Counter(words) # 단어의 출현빈도를 쉽게 계산하는 클래스

print(vocab)

Counter({'우산': 3, '비': 2, '때문': 2, '모처럼': 1, '전국': 1, '있습니다': 1, '대부분': 1, '밤': 1, '계속': 1, '종일': 1, '필요하겠는데요': 1, '양도': 1, '많고': 1, '바람': 1, '강하게': 1, '불기': 1, '작은': 1, '좋습니다': 1, '제주': 1, '남해안': 1, '비바람': 1, '강합니다': 1})


In [13]:
print(vocab["우산"]) # 단어의 빈도수

3


In [14]:
vocab_size = 5

# 출현빈도가 높은 상위 5개의 단어

vocab = vocab.most_common(vocab_size)

vocab

[('우산', 3), ('비', 2), ('때문', 2), ('모처럼', 1), ('전국', 1)]

In [15]:
word_to_index = {}

i = 0

for (word, frequency) in vocab :
    i = i+1
    word_to_index[word] = i

print(word_to_index)

{'우산': 1, '비': 2, '때문': 3, '모처럼': 4, '전국': 5}


In [None]:
#   단어 출현빈도
#   문서1       문서2       문서3       문서4       ...
#   날씨        날씨        날씨        날씨

#   tf(하나의 문서에서 나타나는 단어)

#   df(문서마다 나타나는 단어)


#   정수 인코딩 단점 : 순서가 없음