# Text Preprocessing - 텍스트 전처리

내가 해결하고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리해버리는 작업

In [3]:
import nltk   # 자연어 처리를 위한 패키지
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence
nltk.download('punkt') # 문장 구조를 학습한 일종의 모델

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

# 토큰화(Tokenization)

어떤 문장을 단어로 잘라내서 정제하고, 정규화를 시키는 과정

- 구두점(Functuation)
  * 마침표, 쉼포, 물음표, 느낌표, 세미콜론, ...

In [4]:
text = "A barking dog never bites. No pain No gain. The more, the better."

In [5]:
print(word_tokenize(text))
# word_tokenize : Don't => Do와 n't / you와 're로 구
print()

print(WordPunctTokenizer().tokenize(text))
# 구두점을 별도로 표시
print()

print(text_to_word_sequence(text))
# keras의 text_to_word_sequence : 모든 알파벳을 소문자로 바꿔줌
#                                 구두점 제거
#                                 you're, don't, ain't 같은 경우는 보존함

['A', 'barking', 'dog', 'never', 'bites', '.', 'No', 'pain', 'No', 'gain', '.', 'The', 'more', ',', 'the', 'better', '.']

['A', 'barking', 'dog', 'never', 'bites', '.', 'No', 'pain', 'No', 'gain', '.', 'The', 'more', ',', 'the', 'better', '.']

['a', 'barking', 'dog', 'never', 'bites', 'no', 'pain', 'no', 'gain', 'the', 'more', 'the', 'better']


# 문장 토큰화(Sentence Tokenization)

In [7]:
sentence = """I have repeated several of the illustrations used in “The Authoress of the Odyssey”, and have added two which I hope may bring the outer court of Ulysses’ house more vividly before the reader. I should like to explain that the presence of a man and a dog in one illustration is accidental, and was not observed by me till I developed the negative. In an appendix I have also reprinted the paragraphs explanatory of the plan of Ulysses’ house, together with the plan itself. The reader is recommended to study this plan with some attention."""
sentence

'I have repeated several of the illustrations used in “The Authoress of the Odyssey”, and have added two which I hope may bring the outer court of Ulysses’ house more vividly before the reader. I should like to explain that the presence of a man and a dog in one illustration is accidental, and was not observed by me till I developed the negative. In an appendix I have also reprinted the paragraphs explanatory of the plan of Ulysses’ house, together with the plan itself. The reader is recommended to study this plan with some attention.'

In [8]:
from nltk.tokenize import sent_tokenize

In [9]:
sent_tokenize(sentence)
# NLTK는 단순하게 마침표로 문장을 구분하지 않음
# Dr. , Mrs. Mr. 등 단어들은 마침표를 기준으로 해서 나뉘어지지 않음 => 성공적!!

['I have repeated several of the illustrations used in “The Authoress of the Odyssey”, and have added two which I hope may bring the outer court of Ulysses’ house more vividly before the reader.',
 'I should like to explain that the presence of a man and a dog in one illustration is accidental, and was not observed by me till I developed the negative.',
 'In an appendix I have also reprinted the paragraphs explanatory of the plan of Ulysses’ house, together with the plan itself.',
 'The reader is recommended to study this plan with some attention.']

In [10]:
# KSS (Korean Sentence Splitter)
!pip install KSS

Collecting KSS
  Downloading kss-6.0.4.tar.gz (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m13.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting emoji==1.2.0 (from KSS)
  Downloading emoji-1.2.0-py3-none-any.whl.metadata (4.3 kB)
Collecting pecab (from KSS)
  Downloading pecab-1.0.8.tar.gz (26.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.4/26.4 MB[0m [31m39.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting jamo (from KSS)
  Downloading jamo-0.4.1-py3-none-any.whl.metadata (2.3 kB)
Collecting hangul-jamo (from KSS)
  Downloading hangul_jamo-1.0.1-py3-none-any.whl.metadata (899 bytes)
Collecting tossi (from KSS)
  Downloading tossi-0.3.1.tar.gz (11 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting distance (from KSS)
  Downloading Distance-0.1.3.tar.gz (180 kB)
[2K     [90m━━━━━━━━━━━━━━━━━

In [11]:
import kss

In [12]:
kor = "오늘부터 AI 시작이에요. 텍스트 전처리는 한국어가 영어보다 훨씬 난이도가 높아요. 한번 경험해봅시다."
kor

'오늘부터 AI 시작이에요. 텍스트 전처리는 한국어가 영어보다 훨씬 난이도가 높아요. 한번 경험해봅시다.'

In [14]:
print(kss.split_sentences(kor))

['오늘부터 AI 시작이에요.', '텍스트 전처리는 한국어가 영어보다 훨씬 난이도가 높아요.', '한번 경험해봅시다.']


# 한국어 = 교착어(어근 + 접사)

한국어에는 [조사]가 존재

- 글자 뒤에 띄어쓰기 없이 존재
- 형태소 (morpheme)
  - 말의 가장 작은 단위
    - 자립형태소 : 명사, 대명사, 수사, 관형사, 부사, ...
    - 의존형태소 : 다른 형태소와 결합을 해야만 하는... 어간, 어미, 접사, 조사, ...

# 품사 태깅(Part-of-speech tagging) : 단어 토큰화를 거친 토큰들(단어들)에게 품사를 붙여주는 작업

동음이의어

mean : 동사] 의미하다 / 명사] 평균 / 형용사] 비열한, 못된

연패 : 연속해서 패하다 / 연속해서 이기다

# NLTK / KoNLPy

In [15]:
nltk.download('averaged_perceptron_tagger') # 품사태깅을 위한 라이브러리

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [16]:
from nltk.tag import pos_tag

In [18]:
sentence = "I have repeated several of the illustrations used in “The Authoress of the Odyssey”, and have added two which I hope may bring the outer court of Ulysses’ house more vividly before the reader. I should like to explain that the presence of a man and a dog in one illustration is accidental, and was not observed by me till I developed the negative. In an appendix I have also reprinted the paragraphs explanatory of the plan of Ulysses’ house, together with the plan itself. The reader is recommended to study this plan with some attention."
tokenized_sentence = word_tokenize(text)
print(tokenized_sentence)
print(pos_tag(tokenized_sentence))

['A', 'barking', 'dog', 'never', 'bites', '.', 'No', 'pain', 'No', 'gain', '.', 'The', 'more', ',', 'the', 'better', '.']
[('A', 'DT'), ('barking', 'NN'), ('dog', 'NN'), ('never', 'RB'), ('bites', 'VBZ'), ('.', '.'), ('No', 'DT'), ('pain', 'NN'), ('No', 'RB'), ('gain', 'NN'), ('.', '.'), ('The', 'DT'), ('more', 'RBR'), (',', ','), ('the', 'DT'), ('better', 'JJR'), ('.', '.')]


# PRP : 인칭대명사
# RB : 부사
# DT :관사
# VBP : 단수, 현재형, 3인칭 동사
# W ~ : wh~
# JJ : 형용사
# NN : 단수명사
# NNS : 복수명사
# MD : 조동사
# VB : 동사 기본형
# VBD : 동사 과거시제
# VBG : 동명사


# 한국어 자연어처리 : KoNLPy라는 파이썬 패키지

KoNLPy에서 사용할 수 있는 형태소 분석기
- Okt(Open Korean Text)
- Komoran
- kkma(꼬꼬마)
- Mecab
- Hannanum

In [19]:
!pip install KoNLPy

Collecting KoNLPy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from KoNLPy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m46.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m28.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, KoNLPy
Successfully installed JPype1-1.5.0 KoNLPy-0.6.0


In [20]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

In [21]:
okt = Okt()

print(okt.morphs("오늘은 화요일이고요. 내일은 수요일입니다!"))
# morphs : 형태소 분석 : 어떤 대상의 어절을 최소 의미단위인 형태소로 분석하는 것
print(okt.pos("오늘은 화요일이고요. 내일은 수요일입니다!"))
# pos : 품사 태깅(Part-of-Speech tagging)
print(okt.nouns("오늘은 화요일이고요. 내일은 수요일입니다!"))
# nouns : 명사 추출

['오늘', '은', '화요일', '이', '고요', '.', '내일', '은', '수요일', '입니다', '!']
[('오늘', 'Noun'), ('은', 'Josa'), ('화요일', 'Noun'), ('이', 'Josa'), ('고요', 'Noun'), ('.', 'Punctuation'), ('내일', 'Noun'), ('은', 'Josa'), ('수요일', 'Noun'), ('입니다', 'Adjective'), ('!', 'Punctuation')]
['오늘', '화요일', '고요', '내일', '수요일']


In [22]:
kkma = Kkma()
print(kkma.morphs("아침 약이 굉장히 쎈가봐요. 눈을 뜨기가 힘드네요"))
print(kkma.pos("아침 약이 굉장히 쎈가봐요. 눈을 뜨기가 힘드네요"))
print(kkma.nouns("아침 약이 굉장히 쎈가봐요. 눈을 뜨기가 힘드네요"))

['아침', '약', '이', '굉장히', '쎄', 'ㄴ가', '보', '아요', '.', '눈', '을', '뜨', '기', '가', '힘들', '네요']
[('아침', 'NNG'), ('약', 'NNG'), ('이', 'JKS'), ('굉장히', 'MAG'), ('쎄', 'VA'), ('ㄴ가', 'ECS'), ('보', 'VXV'), ('아요', 'EFN'), ('.', 'SF'), ('눈', 'NNG'), ('을', 'JKO'), ('뜨', 'VV'), ('기', 'ETN'), ('가', 'JKS'), ('힘들', 'VA'), ('네요', 'EFN')]
['아침', '약', '눈']


# 코퍼스(Coupus) : 말뭉치

보통 여러 단어들로 이루어진 문장, 분석하려는 대상, 문서, 데이터셋

코퍼스에서 용도에 맞게 토큰을 나누는 것을 토큰화(Tokenization)

토큰화를 진행하기 전, 후에 텍스트를 용도에 맞게 정제(Clanging), 정규화(Normalization)를 하는 것이 필요!

- 정제(Cleaning) : 가지고 있는 말뭉치에서 노이즈 데이터를 제거
- 정규화(Normalization) : 표현 방법이 서로 다른 단어들을 통일시켜서 같은 단어로 재가공
  1. 규칙에 따라서 표기가 다른 언어를 통합시키기
  ex) US USA us U,S,A
  2. 대소문자를 통합