# Text preprocessing - 텍스트 전처리

내가 해결하고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence # 노란줄 무시
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

# 토큰화 (Tokenization)

단어로 잘라내고 정제하고 정규화하고

- 구두점 
  - 마침표, 쉼표, 물음표, 느낌표, 세미콜론, ...

In [None]:
text = "Quarreling is the weapon of the weak. Patience is genius. One good turn deserves another. Eagles don't catch flies"

In [None]:
print(word_tokenize(text))
# word_tokenize : you're -> you와 're로 구분 / Don't -> Do와 n't로 구분
print()
print(WordPunctTokenizer().tokenize(text))
# 구두점으로 별도로 표시
print()
print(text_to_word_sequence(text))
# keras의 text_to_word_sequence : 모든 알파벳을 소문자로 바꿔줌
#                                 구두점 제거
#                                 you're , don't, ...와 같은 경우는 보존

['Quarreling', 'is', 'the', 'weapon', 'of', 'the', 'weak', '.', 'Patience', 'is', 'genius', '.', 'One', 'good', 'turn', 'deserves', 'another', '.', 'Eagles', 'do', "n't", 'catch', 'flies']

['Quarreling', 'is', 'the', 'weapon', 'of', 'the', 'weak', '.', 'Patience', 'is', 'genius', '.', 'One', 'good', 'turn', 'deserves', 'another', '.', 'Eagles', 'don', "'", 't', 'catch', 'flies']

['quarreling', 'is', 'the', 'weapon', 'of', 'the', 'weak', 'patience', 'is', 'genius', 'one', 'good', 'turn', 'deserves', 'another', 'eagles', "don't", 'catch', 'flies']


# 문장을 자르고 정제, 정규화 하는

# 문장 토큰화 (Sentence Tokenization)

In [None]:
sentence = "Mr. Sherlock Holmes, who was usually very late in the mornings,save upon those not infrequent occasions when he was up allnight, was seated at the breakfast table. I stood upon the hearth-rug and picked up the stick which our visitor had left behind him the night before."
sentence

'Mr. Sherlock Holmes, who was usually very late in the mornings,save upon those not infrequent occasions when he was up allnight, was seated at the breakfast table. I stood upon the hearth-rug and picked up the stick which our visitor had left behind him the night before.'

In [None]:
from nltk.tokenize import sent_tokenize

In [None]:
sent_tokenize(sentence)
# NLTK는 단순하게 마침표로 문장을 구분하지 않음
# Mr. , Dr. , ... 등 단어들은 마침표를 기준으로 나뉘어지지 않음 -> 성공적으로 인식

['Mr. Sherlock Holmes, who was usually very late in the mornings,save upon those not infrequent occasions when he was up allnight, was seated at the breakfast table.',
 'I stood upon the hearth-rug and picked up the stick which our visitor had left behind him the night before.']

In [None]:
# 내일은 어린이날 입니다.
# 그래서 내일을 위해 달립니다.

In [None]:
# KSS(Korean Sentence Splitter)
!pip install kss

Collecting kss
  Downloading kss-3.4.2.tar.gz (42.4 MB)
[K     |████████████████████████████████| 42.4 MB 1.3 MB/s 
[?25hCollecting emoji
  Downloading emoji-1.7.0.tar.gz (175 kB)
[K     |████████████████████████████████| 175 kB 52.9 MB/s 
Building wheels for collected packages: kss, emoji
  Building wheel for kss (setup.py) ... [?25l[?25hdone
  Created wheel for kss: filename=kss-3.4.2-py3-none-any.whl size=42448069 sha256=8acca923ee950ae84904b725b11599269d64aacbafccfb2cbc8dbb300c7ba768
  Stored in directory: /root/.cache/pip/wheels/ef/22/aa/6399b60516a067ec97fa6599fb2d472aeb25e3f9ee6dae3224
  Building wheel for emoji (setup.py) ... [?25l[?25hdone
  Created wheel for emoji: filename=emoji-1.7.0-py3-none-any.whl size=171046 sha256=7346404079c38f4a9f18a1cf5eb6d1fbe06bc232f1ca4e2896bebfe689b57607
  Stored in directory: /root/.cache/pip/wheels/8a/4e/b6/57b01db010d17ef6ea9b40300af725ef3e210cb1acfb7ac8b6
Successfully built kss emoji
Installing collected packages: emoji, kss
Successfu

In [None]:
import kss

In [None]:
kor = "오늘부터 AI 공부 시작입니다. 텍스트 전처리는 영어보다 한국어가 난이도가 높습니다. 한 번 시험해봅시다."
kor

'오늘부터 AI 공부 시작입니다. 텍스트 전처리는 영어보다 한국어가 난이도가 높습니다. 한 번 시험해봅시다.'

In [None]:
print(kss.split_sentences(kor))

['오늘부터 AI 공부 시작입니다.', '텍스트 전처리는 영어보다 한국어가 난이도가 높습니다.', '한 번 시험해봅시다.']


# 한국어 = 교착어 (어근 + 접사)

한국어에는 [조사]가 존재
- 글자 뒤에 띄어쓰기 없이 존재
- 형태소 (morpheme)
  - 말의 가장 작은 단위
    - 자립형태소 : 명사, 대명사, 수사, 관형사, 부사, 감탄사, ...
    - 의존형태소 : 다른 형태소와 결합을 해야만하는... 어간, 어미, 접사, 조사, ...

# 품사 태깅 (Part - of - speech tagging) : 단어 토큰화를 거친 토큰들(단어들)에게 품사를 붙여주는 작업

동음이의어

mean : 
동사] 의미하다/ 형용사] 비열한,못된 / 명사] 평균

연패 : 연속해서 패하다 / 연속해서 이기다

NLTK / KoNLPy

In [None]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [None]:
from nltk.tag import pos_tag

In [None]:
text = "Mr. Sherlock Holmes, who was usually very late in the mornings,save upon those not infrequent occasions when he was up allnight, was seated at the breakfast table. I stood upon the hearth-rug and picked up the stick which our visitor had left behind him the night before."
tokenized_sentence = word_tokenize(text)
print(tokenized_sentence)
print(pos_tag(tokenized_sentence))

['Mr.', 'Sherlock', 'Holmes', ',', 'who', 'was', 'usually', 'very', 'late', 'in', 'the', 'mornings', ',', 'save', 'upon', 'those', 'not', 'infrequent', 'occasions', 'when', 'he', 'was', 'up', 'allnight', ',', 'was', 'seated', 'at', 'the', 'breakfast', 'table', '.', 'I', 'stood', 'upon', 'the', 'hearth-rug', 'and', 'picked', 'up', 'the', 'stick', 'which', 'our', 'visitor', 'had', 'left', 'behind', 'him', 'the', 'night', 'before', '.']
[('Mr.', 'NNP'), ('Sherlock', 'NNP'), ('Holmes', 'NNP'), (',', ','), ('who', 'WP'), ('was', 'VBD'), ('usually', 'RB'), ('very', 'RB'), ('late', 'RB'), ('in', 'IN'), ('the', 'DT'), ('mornings', 'NNS'), (',', ','), ('save', 'VBP'), ('upon', 'IN'), ('those', 'DT'), ('not', 'RB'), ('infrequent', 'JJ'), ('occasions', 'NNS'), ('when', 'WRB'), ('he', 'PRP'), ('was', 'VBD'), ('up', 'RB'), ('allnight', 'RB'), (',', ','), ('was', 'VBD'), ('seated', 'VBN'), ('at', 'IN'), ('the', 'DT'), ('breakfast', 'NN'), ('table', 'NN'), ('.', '.'), ('I', 'PRP'), ('stood', 'VBD'), 

# PRP : 인칭대명사

# RB : 부사 

# VBP : 단수, 현재형, 비 3인칭동사

# W~ : wh~

# JJ : 형용사

# NN : 단수명사

# NNS : 복수명사

# MD : 조동사 

# VB : 동사 기본형 

# VBD : 동사 과거시제

# VBG : 동명사

# VBP : 단수, 현재형, 3인칭 동사

한국어 자연어 처리 : KoNLPy라는 파이썬 패키지

KoNLPy에서 사용할 수 있는 형태소 분석기
- Okt(Open Korea Text)
- Komoran
- Kkma (꼬꼬마)
- Mecab
- Hannanum

In [None]:
pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.1 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 12.7 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


In [None]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

In [None]:
okt = Okt()

print(okt.morphs('내일은 어린이날이고요, 모레는 시험입니다!'))
# morphs : 형태소 분석 -> 어떤 대상 어절을 최소 의미단위인 '형태소'로 분석

print(okt.pos('내일은 어린이날이고요, 모레는 시험입니다!'))
# pos : 품사 태깅 (Part-of-Speech tagging)

print(okt.nouns('내일은 어린이날이고요, 모레는 시험입니다!'))
# nouns : 명사 추출

['내일', '은', '어린이날', '이', '고요', ',', '모레', '는', '시험', '입니다', '!']
[('내일', 'Noun'), ('은', 'Josa'), ('어린이날', 'Noun'), ('이', 'Determiner'), ('고요', 'Noun'), (',', 'Punctuation'), ('모레', 'Noun'), ('는', 'Josa'), ('시험', 'Noun'), ('입니다', 'Adjective'), ('!', 'Punctuation')]
['내일', '어린이날', '고요', '모레', '시험']


In [None]:
kkma = Kkma()

print(kkma.morphs("공부해야하는데 너무 졸려서 힘이듭니다. 하지만 힘내봅시다!"))
print(kkma.pos("공부해야하는데 너무 졸려서 힘이듭니다. 하지만 힘내봅시다!"))
print(kkma.nouns("공부해야하는데 너무 졸려서 힘이듭니다. 하지만 힘내봅시다!"))

['공부', '하', '어야', '하', '는데', '너무', '졸리', '어서', '힘', '이', '들', 'ㅂ니다', '.', '하지만', '힘', '내보', 'ㅂ시다', '!']
[('공부', 'NNG'), ('하', 'XSV'), ('어야', 'ECD'), ('하', 'VV'), ('는데', 'ECD'), ('너무', 'MAG'), ('졸리', 'VV'), ('어서', 'ECD'), ('힘', 'NNG'), ('이', 'JKS'), ('들', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF'), ('하지만', 'MAC'), ('힘', 'NNG'), ('내보', 'VV'), ('ㅂ시다', 'EFA'), ('!', 'SF')]
['공부', '힘']


# 코퍼스 (Corpus) : 말뭉치

# 코퍼스에서 용도에 맞게 토큰을 나누는 것을 토큰화 (Tokenization)

# 토큰화를 진행하기 전, 후에 텍스트를 용도에 맞게 정제(Cleaning), 정규화(Normalization)를 하는 것이 필요

- 정제(Cleaning) : 가지고 있는 말뭉치에서 노이즈 데이터를 제거
- 정규화(Normalization) : 표현 방법이 서로 다른 단얻르을 통일시켜서 닽은 단어로 재가공
1. 규칙에 따라서 표기가 다른 언어를 통합시키기 US USA us U.S.A
2. 대소문자를 통합