# 텍스트 전처리(Preprocessing)

### 1. 토큰화(Tokenization)
    - 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업

In [3]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

#### 1) 단어 토큰화
    - 토큰의 기준을 단어(word)로 하는 경우
    - 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 합니다.
    - 입력: Time is an illusion. Lunchtime double so!
    ↓ 구두점을 제외시킨 토큰화 작업
    - 출력: "Time", "is", "an", "illustion", "Lunchtime", "double", "so"

In [4]:
sample = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

In [5]:
# 's, n't, '.'도 포함하여 token화 됨
# word_tokenize == 함수 <== 소문자
# word_tokenize는 Don't를 Do와 n't로 분리
# Jone's는 Jone과 's로 분리한 것을 확인
from nltk.tokenize import word_tokenize
print(word_tokenize(sample))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [6]:
# WordPunctTokenizer == Class <== CamelCase
# 객체화해서 사용
# 구두점을 별도로 분류하는 특징
# Don't를 Don과 '와 t로 분리
# Jone's를 Jone과 '와 s로 분리한 것을 확인
from nltk.tokenize import WordPunctTokenizer
wpt = WordPunctTokenizer()
print(wpt.tokenize(sample))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [7]:
# 기본적으로 모든 알파벳을 소문자로 바꿈
# 마침표나 컴마, 느낌표 등의 구두점을 제거
# don't나 jone's와 같은 경우 아포스트로피는 보존
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence(sample))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [8]:
# 하이푼으로 구성된 단어는 하나로 유지
# doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리
from nltk.tokenize import TreebankWordTokenizer
tok = TreebankWordTokenizer()
print(tok.tokenize(sample))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


#### 2) 문장 토큰화
     - 문장 단위로 구분되어지는 리스트를 생성

In [9]:
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [10]:
# 문장을 토큰화 -> 단어 토큰으로 출력
# 딥러닝: 감성분석에 이용
for sentence in sent_tokenize(text):
    print(word_tokenize(sentence))

['His', 'barber', 'kept', 'his', 'word', '.']
['But', 'keeping', 'such', 'a', 'huge', 'secret', 'to', 'himself', 'was', 'driving', 'him', 'crazy', '.']
['Finally', ',', 'the', 'barber', 'went', 'up', 'a', 'mountain', 'and', 'almost', 'to', 'the', 'edge', 'of', 'a', 'cliff', '.']
['He', 'dug', 'a', 'hole', 'in', 'the', 'midst', 'of', 'some', 'reeds', '.']
['He', 'looked', 'about', ',', 'to', 'make', 'sure', 'no', 'one', 'was', 'near', '.']


In [11]:
text = "Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."
print(sent_tokenize(text))

["Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year."]


- 한글 문장 토큰화

In [12]:
# KSS (Korean Sentence Splitter) 설치
!pip install kss



In [13]:
# KSS (Korean Sentence Splitter) 설치시 메시지를 보고 싶지 않을 때
# !pip install kss > /dev/null

In [14]:
!ls -l sample_data

total 55504
-rwxr-xr-x 1 root root     1697 Jan  1  2000 anscombe.json
-rw-r--r-- 1 root root   301141 Dec 23 14:32 california_housing_test.csv
-rw-r--r-- 1 root root  1706430 Dec 23 14:32 california_housing_train.csv
-rw-r--r-- 1 root root 18289443 Dec 23 14:32 mnist_test.csv
-rw-r--r-- 1 root root 36523880 Dec 23 14:32 mnist_train_small.csv
-rwxr-xr-x 1 root root      930 Jan  1  2000 README.md


- cmd (command) : 명령어
- shell
- !ls -l
- 프로그램 설치: pip install module
- 한글 폰트 설치: apt-get
- 파일 업로드: 시간이 오래걸림
- 파일 --> Google Drive --> Colab에서 사용하게 조처 --> 빠른 시간 mount

- Linux(unix) 명령어를 알아둘 필요가 있다.


In [15]:
import kss
text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

[Korean Sentence Splitter]: Initializing Pynori...


['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


- 한국어 토큰화의 어려움
    - 영어: 줄임말 예외처리 외, 띄어쓰기를 기준으로 토큰화 수행 가능
    - 한국어: 어절 토큰화X -> **형태소**
        - 어절 토큰화 != 단어 토큰화
        - 교착어: 명사/동사 + 조사/어미
        - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용
            - 그 자체로 단어
            - 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사

        - 의존 형태소 : 다른 형태소와 결합하여 사용
            - 접사, 어미, 조사, 어간
    - 국어 문법 참고: https://m.blog.naver.com/zzangdol57/221546199789
    - https://www.korean.go.kr/front/onlineQna/onlineQnaView.do?mn_id=216&qna_seq=124353
    - https://m.blog.naver.com/st004329/220860481805

- 품사 태깅
    - 단어의 의미를 제대로 파악하기 위해서 해당 단어가 어떤 품사로 쓰였는지 확인해야
    - 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분하는 것
    - 참고: https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/ 

In [16]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [17]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [18]:
# NLTK에서는 Penn Treebank POS Tags라는 기준을 사용하여 품사를 태깅
from nltk.tag import pos_tag
pos_tag(text)

[('I', 'PRP'),
 (' ', 'VBP'),
 ('a', 'DT'),
 ('m', 'NN'),
 (' ', 'VBZ'),
 ('a', 'DT'),
 ('c', 'JJ'),
 ('t', 'NN'),
 ('i', 'NN'),
 ('v', 'VBP'),
 ('e', 'NN'),
 ('l', 'NN'),
 ('y', 'NN'),
 (' ', 'NNP'),
 ('l', 'NN'),
 ('o', 'NN'),
 ('o', 'IN'),
 ('k', 'NN'),
 ('i', 'NN'),
 ('n', 'VBP'),
 ('g', 'NN'),
 (' ', 'NNP'),
 ('f', 'NN'),
 ('o', 'NN'),
 ('r', 'NN'),
 (' ', 'NNP'),
 ('P', 'NNP'),
 ('h', 'NN'),
 ('.', '.'),
 ('D', 'NNP'),
 ('.', '.'),
 (' ', 'VB'),
 ('s', 'JJ'),
 ('t', 'NN'),
 ('u', 'JJ'),
 ('d', 'NN'),
 ('e', 'NN'),
 ('n', 'JJ'),
 ('t', 'NN'),
 ('s', 'NN'),
 ('.', '.'),
 (' ', 'VB'),
 ('a', 'DT'),
 ('n', 'JJ'),
 ('d', 'NN'),
 (' ', 'NNP'),
 ('y', 'NN'),
 ('o', 'NN'),
 ('u', 'JJ'),
 (' ', 'VBZ'),
 ('a', 'DT'),
 ('r', 'NN'),
 ('e', 'NN'),
 (' ', 'VBZ'),
 ('a', 'DT'),
 (' ', 'JJ'),
 ('P', 'NNP'),
 ('h', 'NN'),
 ('.', '.'),
 ('D', 'NNP'),
 ('.', '.'),
 (' ', 'VB'),
 ('s', 'JJ'),
 ('t', 'NN'),
 ('u', 'JJ'),
 ('d', 'NN'),
 ('e', 'NN'),
 ('n', 'JJ'),
 ('t', 'NN'),
 ('.', '.')]

- 펜트리뱅트 캐드세트에서 사용하는 품사의 예

NNP: 단수 고유명사

VB: 동사

VBP: 동사 현재형

TO: to 전치사

NN: 명사(단수형 혹은 집합형)

DT: 관형사

PRP: 인칭 대명사

RB: 부사

그 밖에도, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사

- 한글 (KoNLPy:코엔엘파이)

In [20]:
# KoNLPy 설치 - PC에서 Okt를 주로 사용
# 고속 처리: Mecab(단, Linux에는 없음, PC사용 불가)
!pip install KoNLPy



- Okt(Open Korean Text)

In [21]:
# 형태소 분석 : 벡터화 관련
from konlpy.tag import Okt
okt = Okt()
text="열심히 코딩한 당신, 연휴에는 여행을 가봐요"
okt.morphs(text)

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']

In [22]:
# stem 파라미터를 True로 입력하면 원형이 나온다.
# 벡터화 관련
okt.morphs(text, stem=True)     # 용언(동사, 형용사)은 어간을 추출함

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가보다']

In [23]:
# 품사 부착
okt.pos(text) 

[('열심히', 'Adverb'),
 ('코딩', 'Noun'),
 ('한', 'Josa'),
 ('당신', 'Noun'),
 (',', 'Punctuation'),
 ('연휴', 'Noun'),
 ('에는', 'Josa'),
 ('여행', 'Noun'),
 ('을', 'Josa'),
 ('가봐요', 'Verb')]

In [24]:
# 명사 추출
# 단어 군집화 == Word Crowd (명사만 추출)
okt.nouns(text)

['코딩', '당신', '연휴', '여행']

In [25]:
# 부착되는 품사 태그의 기호와 의미 알아보기
okt.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

##### 꼬꼬마

In [26]:
from konlpy.tag import Kkma
kkma = Kkma()
kkma.morphs(text)

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']

In [28]:
kkma.pos(text)

[('열심히', 'MAG'),
 ('코딩', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('당신', 'NP'),
 (',', 'SP'),
 ('연휴', 'NNG'),
 ('에', 'JKM'),
 ('는', 'JX'),
 ('여행', 'NNG'),
 ('을', 'JKO'),
 ('가보', 'VV'),
 ('아요', 'EFN')]

In [29]:
kkma.nouns(text)

['코딩', '당신', '연휴', '여행']

In [30]:
# 부착되는 품사 태그의 기호와 의미 알아보기
kkma.tagset

{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN': "부정 지정사, 형용사 '아니다'",
 'VC

### 2. 정제(Cleaning)와 정규화(Normalization)
    - 코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화(tokenization)
    - 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)

    - 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
    - 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

- 1. 규칙에 기반한 표기가 다른 단어들의 통합
    - 예시: USA == US
- 2. 대,소문자 통합
    - 예시: 검색엔진에서 a Ferrari car == ferrari
    - 예시: bush != Bush(사람이름)
- 3. 불필요한 단어의 제거
    - 등장빈도가 적은 단어
    - 길이가 짧은 단어

In [32]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."

In [33]:
# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
# 이 방법은 거의 사용하지 않는다.
shortword = re.compile(r'\W*\b\w{1,2}\b')
shortword.sub('', text)

' was wondering anyone out there could enlighten this car.'

In [34]:
# 단어 토큰화한 후 길이가 2보다 큰 단어만 발췌
# 리스트 컴프리헨션을 이용하여 불용어 제거하기
# 실무에서 자주 사용하는 방법
[word for word in word_tokenize(text) if len(word) > 2]

['was',
 'wondering',
 'anyone',
 'out',
 'there',
 'could',
 'enlighten',
 'this',
 'car']

In [35]:
clean_text = ' '.join([word for word in word_tokenize(text) if len(word) > 2])
clean_text

'was wondering anyone out there could enlighten this car'

### 3. 어간 추출(Stemming) 및 표제어 추출(Lemmatization)

#### 1) 표제어 추출
    - 표제어란?: 기본 사전형 단어
    - 예시: am, are, is => 표제어는 be
    - 표제어 추출 방법: 단어의 형태학적 파싱을 먼저 진행
        - 어간: 단어의 의미를 담는 부분
        - 접사: 단어에 추가적 의미 부여

In [36]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [37]:
from nltk.stem import WordNetLemmatizer
lemma = WordNetLemmatizer()

In [39]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([lemma.lemmatize(word) for word in words]) # map을 사용해도 된다.
                                                 # print를 사용X => 세로로 출력

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [41]:
# lemma.lemmatize(단어, 품사) => 원형을 추출하기 위해 설정
lemma.lemmatize('lives','v'), lemma.lemmatize('dies','v'), lemma.lemmatize('watched','v'), lemma.lemmatize('has','v')

('live', 'die', 'watch', 'have')

In [42]:
# 스펠링이 같으나 의미가 다른 경우
lemma.lemmatize('flies','v'), lemma.lemmatize('flies','n')

('fly', 'fly')

In [43]:
lemma.lemmatize('lives','v'), lemma.lemmatize('lives','n')

('live', 'life')

#### 2) 어간 추출

In [44]:
from nltk.stem import PorterStemmer
ps = PorterStemmer()

text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

In [46]:
# 어간 추출 전
print(word_tokenize(text))

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [49]:
# 어간 추출 후 
print([ps.stem(word) for word in word_tokenize(text)])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [50]:
words = ['formalize', 'allowance', 'electricical']
print([ps.stem(word) for word in words])

['formal', 'allow', 'electric']


In [51]:
# Porter Stemmer
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([ps.stem(word) for word in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [53]:
# Lancaster Stemmer
from nltk.stem import LancasterStemmer 
ls = LancasterStemmer()
print([ls.stem(word) for word in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']
