# 텍스트 전처리

In [112]:
import nltk
import warnings
warnings.filterwarnings('ignore')

# 텍스트 정규화

## 텍스트 토큰화

### 문장 토큰화

In [12]:
from nltk import sent_tokenize

In [113]:
text = 'His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near.'

sentence_li = sent_tokenize(text)
sentence_li

['His barber kept his word.',
 'But keeping such a huge secret to himself was driving him crazy.',
 'Finally, the barber went up a mountain and almost to the edge of a cliff.',
 'He dug a hole in the midst of some reeds.',
 'He looked about, to mae sure no one was near.']

In [6]:
# !pip install kss

Collecting kss
  Downloading kss-4.4.0.tar.gz (73 kB)
Collecting emoji==1.2.0
  Downloading emoji-1.2.0-py3-none-any.whl (131 kB)
Collecting pecab
  Downloading pecab-1.0.8.tar.gz (26.4 MB)
Collecting pyarrow
  Downloading pyarrow-10.0.1-cp38-cp38-win_amd64.whl (20.3 MB)
Collecting pytest
  Downloading pytest-7.2.1-py3-none-any.whl (317 kB)
Collecting exceptiongroup>=1.0.0rc8
  Downloading exceptiongroup-1.1.0-py3-none-any.whl (14 kB)
Collecting iniconfig
  Downloading iniconfig-2.0.0-py3-none-any.whl (5.9 kB)
Collecting tomli>=1.0.0
  Downloading tomli-2.0.1-py3-none-any.whl (12 kB)
Collecting pluggy<2.0,>=0.12
  Downloading pluggy-1.0.0-py2.py3-none-any.whl (13 kB)
Building wheels for collected packages: kss, pecab
  Building wheel for kss (setup.py): started
  Building wheel for kss (setup.py): finished with status 'done'
  Created wheel for kss: filename=kss-4.4.0-py3-none-any.whl size=50762 sha256=2aa7bdb9db3b4fe80924bbb009e26f37fbb49cb1f407399f20a5c74c8115614d
  Stored in directo

In [14]:
from kss import split_sentences

In [17]:
text_ko = "딥러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담 아니에요. 이제 해보면 알걸요?"

sentence_ko = split_sentences(text)
sentence_ko

['His barber kept his word.',
 'But keeping such a huge secret to himself was driving him crazy.',
 'Finally, the barber went up a mountain and almost to the edge of a cliff.',
 'He dug a hole in the midst of some reeds.',
 'He looked about, to mae sure no one was near.']

### 단어 토큰화

In [18]:
from nltk import word_tokenize

In [19]:
words = []
for sentence in sentence_li:
    words.append(word_tokenize(sentence))

print(words)

[['His', 'barber', 'kept', 'his', 'word', '.'], ['But', 'keeping', 'such', 'a', 'huge', 'secret', 'to', 'himself', 'was', 'driving', 'him', 'crazy', '.'], ['Finally', ',', 'the', 'barber', 'went', 'up', 'a', 'mountain', 'and', 'almost', 'to', 'the', 'edge', 'of', 'a', 'cliff', '.'], ['He', 'dug', 'a', 'hole', 'in', 'the', 'midst', 'of', 'some', 'reeds', '.'], ['He', 'looked', 'about', ',', 'to', 'mae', 'sure', 'no', 'one', 'was', 'near', '.']]


#### 문장, 단어 토큰화 사용자함수 생성

In [114]:
def tokenize(text, sent_sep = True):
    # 문장 -> 단어 토큰화
    sentences = sent_tokenize(text)
    
    # 단어 토큰화
    words = []
    for sentence in sentences:
        if sent_sep:
            words.append(word_tokenize(sentence))
        else:
            for word in word_tokenize(sentence):
                words.append(word)
    
    return words

In [21]:
print(tokenize(text))

[['His', 'barber', 'kept', 'his', 'word', '.'], ['But', 'keeping', 'such', 'a', 'huge', 'secret', 'to', 'himself', 'was', 'driving', 'him', 'crazy', '.'], ['Finally', ',', 'the', 'barber', 'went', 'up', 'a', 'mountain', 'and', 'almost', 'to', 'the', 'edge', 'of', 'a', 'cliff', '.'], ['He', 'dug', 'a', 'hole', 'in', 'the', 'midst', 'of', 'some', 'reeds', '.'], ['He', 'looked', 'about', ',', 'to', 'mae', 'sure', 'no', 'one', 'was', 'near', '.']]


In [22]:
print(tokenize(text_ko))

[['딥러닝', '자연어', '처리가', '재미있기는', '합니다', '.'], ['그런데', '문제는', '영어보다', '한국어로', '할', '때', '너무', '어려워요', '.'], ['농담', '아니에요', '.'], ['이제', '해보면', '알걸요', '?']]


### 단어 토큰화된 리스트에서 단어를 순서대로 n개씩 묶기
- 리스트 형식으로 되어 있어야 함

In [41]:
from nltk.util import ngrams, bigrams

In [52]:
words = tokenize(text, sent_sep = False)

# ngram
print(list(ngrams(words, 3)))

# bigram
print(list(bigrams(words)))

[('His', 'barber', 'kept'), ('barber', 'kept', 'his'), ('kept', 'his', 'word'), ('his', 'word', '.'), ('word', '.', 'But'), ('.', 'But', 'keeping'), ('But', 'keeping', 'such'), ('keeping', 'such', 'a'), ('such', 'a', 'huge'), ('a', 'huge', 'secret'), ('huge', 'secret', 'to'), ('secret', 'to', 'himself'), ('to', 'himself', 'was'), ('himself', 'was', 'driving'), ('was', 'driving', 'him'), ('driving', 'him', 'crazy'), ('him', 'crazy', '.'), ('crazy', '.', 'Finally'), ('.', 'Finally', ','), ('Finally', ',', 'the'), (',', 'the', 'barber'), ('the', 'barber', 'went'), ('barber', 'went', 'up'), ('went', 'up', 'a'), ('up', 'a', 'mountain'), ('a', 'mountain', 'and'), ('mountain', 'and', 'almost'), ('and', 'almost', 'to'), ('almost', 'to', 'the'), ('to', 'the', 'edge'), ('the', 'edge', 'of'), ('edge', 'of', 'a'), ('of', 'a', 'cliff'), ('a', 'cliff', '.'), ('cliff', '.', 'He'), ('.', 'He', 'dug'), ('He', 'dug', 'a'), ('dug', 'a', 'hole'), ('a', 'hole', 'in'), ('hole', 'in', 'the'), ('in', 'the', '

### 품사 태깅

In [24]:
from nltk.tag import pos_tag

In [25]:
words = tokenize(text, sent_sep = True)

tags = []
for word in words:
    tags.append(pos_tag(word))
    
print(tags)

[[('His', 'PRP$'), ('barber', 'NN'), ('kept', 'VBD'), ('his', 'PRP$'), ('word', 'NN'), ('.', '.')], [('But', 'CC'), ('keeping', 'VBG'), ('such', 'JJ'), ('a', 'DT'), ('huge', 'JJ'), ('secret', 'NN'), ('to', 'TO'), ('himself', 'PRP'), ('was', 'VBD'), ('driving', 'VBG'), ('him', 'PRP'), ('crazy', 'JJ'), ('.', '.')], [('Finally', 'RB'), (',', ','), ('the', 'DT'), ('barber', 'NN'), ('went', 'VBD'), ('up', 'RP'), ('a', 'DT'), ('mountain', 'NN'), ('and', 'CC'), ('almost', 'RB'), ('to', 'TO'), ('the', 'DT'), ('edge', 'NN'), ('of', 'IN'), ('a', 'DT'), ('cliff', 'NN'), ('.', '.')], [('He', 'PRP'), ('dug', 'VBD'), ('a', 'DT'), ('hole', 'NN'), ('in', 'IN'), ('the', 'DT'), ('midst', 'NN'), ('of', 'IN'), ('some', 'DT'), ('reeds', 'NNS'), ('.', '.')], [('He', 'PRP'), ('looked', 'VBD'), ('about', 'RB'), (',', ','), ('to', 'TO'), ('mae', 'VB'), ('sure', 'JJ'), ('no', 'DT'), ('one', 'NN'), ('was', 'VBD'), ('near', 'IN'), ('.', '.')]]


#### okt

In [26]:
import konlpy
from konlpy.tag import Okt

In [28]:
okt = Okt()

# 품사 태깅
tags_ko =okt.pos(text_ko)

print(text_ko)
print(tags_ko)

딥러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담 아니에요. 이제 해보면 알걸요?
[('딥', 'Noun'), ('러닝', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('가', 'Josa'), ('재미있기는', 'Adjective'), ('합니다', 'Verb'), ('.', 'Punctuation'), ('그런데', 'Conjunction'), ('문제', 'Noun'), ('는', 'Josa'), ('영어', 'Noun'), ('보다', 'Josa'), ('한국어', 'Noun'), ('로', 'Josa'), ('할', 'Verb'), ('때', 'Noun'), ('너무', 'Adverb'), ('어려워요', 'Adjective'), ('.', 'Punctuation'), ('농담', 'Noun'), ('아니에요', 'Adjective'), ('.', 'Punctuation'), ('이제', 'Noun'), ('해보면', 'Verb'), ('알걸', 'Noun'), ('요', 'Josa'), ('?', 'Punctuation')]


In [33]:
# 텍스트를 형태소 단위로 나누기
morph = okt.morphs(text_ko)
print(morph)

morph_norm = okt.morphs(text_ko, norm = True)
print(morph_norm)

morph_stem = okt.morphs(text_ko, stem = True)
print(morph_stem)

morph_all = okt.morphs(text_ko, norm = True, stem = True)
print(morph_all)

['딥', '러닝', '자연어', '처리', '가', '재미있기는', '합니다', '.', '그런데', '문제', '는', '영어', '보다', '한국어', '로', '할', '때', '너무', '어려워요', '.', '농담', '아니에요', '.', '이제', '해보면', '알걸', '요', '?']
['딥', '러닝', '자연어', '처리', '가', '재미있기는', '합니다', '.', '그런데', '문제', '는', '영어', '보다', '한국어', '로', '할', '때', '너무', '어려워요', '.', '농담', '아니에요', '.', '이제', '해보면', '알걸', '요', '?']
['딥', '러닝', '자연어', '처리', '가', '재미있다', '하다', '.', '그런데', '문제', '는', '영어', '보다', '한국어', '로', '하다', '때', '너무', '어렵다', '.', '농담', '아니다', '.', '이제', '해보다', '알걸', '요', '?']
['딥', '러닝', '자연어', '처리', '가', '재미있다', '하다', '.', '그런데', '문제', '는', '영어', '보다', '한국어', '로', '하다', '때', '너무', '어렵다', '.', '농담', '아니다', '.', '이제', '해보다', '알걸', '요', '?']


In [34]:
# 명사만 뽑아내기
nouns = okt.nouns(text_ko)
print(nouns)

['딥', '러닝', '자연어', '처리', '문제', '영어', '한국어', '때', '농담', '이제', '알걸']


In [36]:
# 어절 뽑아내기
phrase = okt.phrases(text_ko)
print(phrase)

['딥러닝', '딥러닝 자연어', '딥러닝 자연어 처리', '문제', '영어', '한국어', '농담', '이제', '이제 해보면 알걸', '러닝', '자연어', '처리', '알걸']


#### hannanum

In [53]:
from konlpy.tag import Hannanum

In [54]:
han = Hannanum()

# 품사 태깅
han_ko = han.pos(text_ko)
print(han_ko)

[('딥러닝', 'N'), ('자연어', 'N'), ('처리', 'N'), ('가', 'J'), ('재미있', 'P'), ('기', 'E'), ('는', 'J'), ('하', 'P'), ('ㅂ니다', 'E'), ('.', 'S'), ('그런데', 'M'), ('문제', 'N'), ('는', 'J'), ('영어', 'N'), ('보다', 'J'), ('한국어', 'N'), ('로', 'J'), ('하', 'P'), ('ㄹ', 'E'), ('때', 'N'), ('너무', 'M'), ('어렵', 'P'), ('어', 'E'), ('요', 'J'), ('.', 'S'), ('농담', 'N'), ('아니', 'P'), ('에요', 'E'), ('.', 'S'), ('이제', 'M'), ('하', 'P'), ('어', 'E'), ('보', 'P'), ('면', 'E'), ('알걸요', 'N'), ('?', 'S')]


In [55]:
# 명사만 뽑아내기
han_n = han.nouns(text_ko)
print(han_n)

['딥러닝', '자연어', '처리', '문제', '영어', '한국어', '때', '농담', '알걸요']


In [59]:
# 텍스트 형태소로 나누기
han_morph = han.morphs(text_ko)
print(han_morph)

['딥러닝', '자연어', '처리', '가', '재미있', '기', '는', '하', 'ㅂ니다', '.', '그런데', '문제', '는', '영어', '보다', '한국어', '로', '하', 'ㄹ', '때', '너무', '어렵', '어', '요', '.', '농담', '아니', '에요', '.', '이제', '하', '어', '보', '면', '알걸요', '?']


#### kkma

In [60]:
from konlpy.tag import Kkma

In [63]:
kkm = Kkma()

# 문장 나누기
kkm_sentences = kkm.sentences(text_ko)
print(kkm_sentences)
  ## 잘보면, 띄어쓰기가 달라져 있다
    
print(text_ko)

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런 데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담 아니에요.', '이제 해보면 알걸요?']
딥러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담 아니에요. 이제 해보면 알걸요?


In [64]:
# 품사태깅
kkm_pos = kkm.pos(text_ko)
print(kkm_pos)

[('딥', 'NNG'), ('러닝', 'NNG'), ('자연어', 'NNG'), ('처리', 'NNG'), ('가', 'JKS'), ('재미있', 'VA'), ('기', 'ETN'), ('는', 'JX'), ('하', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF'), ('그러', 'VV'), ('ㄴ', 'ETD'), ('데', 'NNB'), ('문제', 'NNG'), ('는', 'JX'), ('영어', 'NNG'), ('보다', 'JKM'), ('한국어', 'NNG'), ('로', 'JKM'), ('하', 'VV'), ('ㄹ', 'ETD'), ('때', 'NNG'), ('너무', 'MAG'), ('어렵', 'VA'), ('어요', 'EFN'), ('.', 'SF'), ('농담', 'NNG'), ('아니', 'VCN'), ('에요', 'EFN'), ('.', 'SF'), ('이제', 'MAG'), ('해보', 'VV'), ('면', 'ECE'), ('알', 'VV'), ('ㄹ걸요', 'EFN'), ('?', 'SF')]


In [66]:
# 텍스트를 형태소 단위로 나누기 
kkm_morph = kkm.morphs(text_ko)
print(kkm_morph)

['딥', '러닝', '자연어', '처리', '가', '재미있', '기', '는', '하', 'ㅂ니다', '.', '그러', 'ㄴ', '데', '문제', '는', '영어', '보다', '한국어', '로', '하', 'ㄹ', '때', '너무', '어렵', '어요', '.', '농담', '아니', '에요', '.', '이제', '해보', '면', '알', 'ㄹ걸요', '?']


In [67]:
# 명사 뽑아내기
kkm_n = kkm.nouns(text_ko)
print(kkm_n)

['딥', '딥러닝', '러닝', '자연어', '처리', '데', '문제', '영어', '한국어', '때', '농담']


## 스톱워드 제거

In [68]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\NEW\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [72]:
nltk_stop = nltk.corpus.stopwords.words('english')
print(nltk_stop)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [76]:
# 불용어 제거

words = tokenize(text, sent_sep = False)
print(words)

for word in words:
    if word.lower() in nltk_stop:
        words.remove(word)
        print(f'[{word}]는 불용어이므로 삭제되었습니다.')
print(words)

['His', 'barber', 'kept', 'his', 'word', '.', 'But', 'keeping', 'such', 'a', 'huge', 'secret', 'to', 'himself', 'was', 'driving', 'him', 'crazy', '.', 'Finally', ',', 'the', 'barber', 'went', 'up', 'a', 'mountain', 'and', 'almost', 'to', 'the', 'edge', 'of', 'a', 'cliff', '.', 'He', 'dug', 'a', 'hole', 'in', 'the', 'midst', 'of', 'some', 'reeds', '.', 'He', 'looked', 'about', ',', 'to', 'mae', 'sure', 'no', 'one', 'was', 'near', '.']
[His]는 불용어이므로 삭제되었습니다.
[his]는 불용어이므로 삭제되었습니다.
[But]는 불용어이므로 삭제되었습니다.
[such]는 불용어이므로 삭제되었습니다.
[to]는 불용어이므로 삭제되었습니다.
[was]는 불용어이므로 삭제되었습니다.
[him]는 불용어이므로 삭제되었습니다.
[the]는 불용어이므로 삭제되었습니다.
[up]는 불용어이므로 삭제되었습니다.
[and]는 불용어이므로 삭제되었습니다.
[to]는 불용어이므로 삭제되었습니다.
[of]는 불용어이므로 삭제되었습니다.
[He]는 불용어이므로 삭제되었습니다.
[a]는 불용어이므로 삭제되었습니다.
[in]는 불용어이므로 삭제되었습니다.
[of]는 불용어이므로 삭제되었습니다.
[He]는 불용어이므로 삭제되었습니다.
[about]는 불용어이므로 삭제되었습니다.
[to]는 불용어이므로 삭제되었습니다.
[no]는 불용어이므로 삭제되었습니다.
[was]는 불용어이므로 삭제되었습니다.
['barber', 'kept', 'word', '.', 'keeping', 'huge', 'secret', 'himself', 'driving', 'craz

## 표제어 추출(Lematization)
- 기본 사전형 단어 추출
- 어근 추출(stemming)과의 차이점은 품사 정보를 보존하여 반환한다는 점

In [115]:
from nltk.stem import WordNetLemmatizer
from nltk.tag import pos_tag

In [116]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\NEW\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [89]:
# 만들어둔 사용자함수로 단어 토큰화
words =  tokenize(text, sent_sep = False)

# 품사 태깅
words_pos = pos_tag(words)
print(words_pos[:5])

# wordnetlemmatizer가 인식할 수 있는 품사 태그로 바꾸기
words_pos_new = [(word, tag[0].lower()) for word, tag in words_pos]
print(words_pos_new[:5])


[('His', 'PRP$'), ('barber', 'NN'), ('kept', 'VBD'), ('his', 'PRP$'), ('word', 'NN')]
[('His', 'p'), ('barber', 'n'), ('kept', 'v'), ('his', 'p'), ('word', 'n')]


In [94]:
wn = WordNetLemmatizer()

for word, tag in words_pos_new:
    try: 
        lemma_word = wn.lemmatize(word, tag)
        if word != lemma_word:
            print(f'수정 전: {word} \n수정 후: {lemma_word}\n')
    except:
        pass

수정 전: kept 
수정 후: keep

수정 전: keeping 
수정 후: keep

수정 전: was 
수정 후: be

수정 전: driving 
수정 후: drive

수정 전: went 
수정 후: go

수정 전: dug 
수정 후: dig

수정 전: reeds 
수정 후: reed

수정 전: looked 
수정 후: look

수정 전: was 
수정 후: be



## 어근 추출(Stemming)
- 형태학적 분석을 단순화한 버전
- 정해진 규칙만 보고 어미를 자르는 어림짐작의 작업
- 따라서 어간 추출 후 사전에 존재하지 않는 단어가 나올 수 있음<br>
 ex) the going -> the go, having -> hav 등

In [111]:
from nltk.stem import LancasterStemmer

In [106]:
# 단어 토큰화
words = tokenize(text, sent_sep = False)

# 단어 토큰 품사 태깅
words_pos_v = [(word, tag[0].lower()) for word, tag in pos_tag(words) if tag[0].lower() == 'v']

In [107]:
words_pos_v

[('kept', 'v'),
 ('keeping', 'v'),
 ('was', 'v'),
 ('driving', 'v'),
 ('went', 'v'),
 ('dug', 'v'),
 ('looked', 'v'),
 ('mae', 'v'),
 ('was', 'v')]

In [110]:
# 어근 추출

lancaster = LancasterStemmer()

for word, tag in words_pos_v:
    word_stem = lancaster.stem(word)
    print(f'수정 전: {word}\n수정 후: {word_stem}\n' )

# 썩 성능이,,, 좋지 않다,, ㅋㅋ,,

수정 전: kept
수정 후: kept

수정 전: keeping
수정 후: keep

수정 전: was
수정 후: was

수정 전: driving
수정 후: driv

수정 전: went
수정 후: went

수정 전: dug
수정 후: dug

수정 전: looked
수정 후: look

수정 전: mae
수정 후: mae

수정 전: was
수정 후: was

