<a href="https://colab.research.google.com/github/waltechel/202209-novice-nlp-with-python/blob/master/Ch%2002.%20%ED%85%8D%EC%8A%A4%ED%8A%B8%20%EC%A0%84%EC%B2%98%EB%A6%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Chapter 2. 텍스트 전처리

## 2.1 텍스트 전처리의 개념

### 2.1.1 왜 전처리가 필요한가?

텍스트에는 불필요한 정보도 많이 있으며, 작업 목적에 맞지 않는 정보를 사전에 정리하는 것이 효율적이기 때문이다.

자연어를 벡터화하는 것을 임베딩이라고 하는데, 임베딩을 더 잘 하기 위해서도 텍스트 전처리가 필요하다.

### 2.1.2 전처리의 단계

1. 정제 : 노이즈나 불용어를 제거한다.
2. 토큰화 : 텍스트를 원하는 단위로 분할한다.
3. 정규화 : 어간을 추출하거나 표제어를 추출한다.
4. 품사 태깅 : 정규화된 목록에 품사를 태깅하여 메타 정보를 등록한다.


## 2. 토큰화(Tokenization)

#### NLTK (https://www.nltk.org/) 설치

In [None]:
# 필요한 nltk library download
import nltk
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to /root/nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

### 2.1 문장 토큰화(sentence tokenize)

In [None]:
para = "Hello everyone. It's good to see you. Let's start our text mining class!"

In [None]:
from nltk.tokenize import sent_tokenize

#주어진 text를 sentence 단위로 tokenize함. 주로 . ! ? 등을 이용
print(sent_tokenize(para)) 

['Hello everyone.', "It's good to see you.", "Let's start our text mining class!"]


In [None]:
paragraph_french = """Je t'ai demandé si tu m'aimais bien, Tu m'a répondu non. 
Je t'ai demandé si j'étais jolie, Tu m'a répondu non. 
Je t'ai demandé si j'étai dans ton coeur, Tu m'a répondu non."""

import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/french.pickle')
print(tokenizer.tokenize(paragraph_french))

["Je t'ai demandé si tu m'aimais bien, Tu m'a répondu non.", "Je t'ai demandé si j'étais jolie, Tu m'a répondu non.", "Je t'ai demandé si j'étai dans ton coeur, Tu m'a répondu non."]


In [None]:
para_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 텍스트마이닝 클래스를 시작해봅시다!"

In [None]:
print(sent_tokenize(para_kor)) #한국어에 대해서도 sentence tokenizer는 잘 동작함

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 텍스트마이닝 클래스를 시작해봅시다!']


### 2.2 단어 토큰화 (word tokenize)

- 영어에 대해서는 마침표나 느낌표가 토큰으로 갈라지는 것을 확인할 수 있다.

In [None]:
from nltk.tokenize import word_tokenize

#주어진 text를 word 단위로 tokenize함
print(word_tokenize(para)) 

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']


- word_tokenize와 달리 WordPunctTokenizer 는 어퍼스트로피도 분리하는 것을 확인할 수 있다. 

In [None]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize(para))

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'our', 'text', 'mining', 'class', '!']


- 한국어는 토큰화를 어절 단위로밖에 수행하지 못하는 것을 알 수 있다.
  - 한국어의 경우 형태소 단위까지 분절이 가능한데 한국어에서는 KoNLPy를 활용해서 분석해본다.

In [None]:
print(word_tokenize(para_kor))

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '텍스트마이닝', '클래스를', '시작해봅시다', '!']


### 2.3 정규표현식을 이용한 토큰화

- `are` 에서 a를 가져오고, `boy`에서 b를 가져왔다.

In [None]:
import re
re.findall("[abc]", "How are you, boy?")

['a', 'b']

- 숫자에 해당하는 것을 모두 가져왔다.

In [None]:
re.findall("[0123456789]", "3a7b5c9d")

['3', '7', '5', '9']

- 알파벳과 숫자에 _언더바 까지 모두 검색하고 싶다면 `[a-zA-Z0-9_]` 로 표기하면 된다.
  - 약어로는 `[\w]` 를 활용한다.

In [None]:
re.findall("[\w]", "3a 7b_ '.^&5c9d")

['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']

- 한 번 이상의 반복을 나타내고자 할 때는 `+`를 사용할 수 있다.

In [None]:
re.findall("[_]+", "a_b, c__d, e___f")

['_', '__', '___']

- 센스 있게 문장 부호와 스페이스를 제거하는 방법

In [None]:
re.findall("[\w]+", "How are you, boy?")

['How', 'are', 'you', 'boy']

- `o`의 개수가 2개부터 4개까지 찾아보는 방법
  - 맨 마지막의 경우 4개, 3개로 분리된 것을 확인할 수 있다.

In [None]:
re.findall("[o]{2,4}", "oh, hoow are yoooou, boooooooy?")

['oo', 'oooo', 'oooo', 'ooo']

In [None]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+") #regular expression(정규식)을 이용한 tokenizer
#단어단위로 tokenize \w:문자나 숫자를 의미 즉 문자나 숫자 혹은 '가 반복되는 것을 찾아냄
print(tokenizer.tokenize("Sorry, I can't go there."))
# can't를 하나의 단어로 인식

['Sorry', 'I', "can't", 'go', 'there']


In [None]:
tokenizer = RegexpTokenizer("[\w]+") 
print(tokenizer.tokenize("Sorry, I can't go there."))

['Sorry', 'I', 'can', 't', 'go', 'there']


- 모두 소문자로 바꾸고 ' 를 포함해 세 글자 이상의 단어들만 골라내고 싶을 때는 다음과 같이 한다.

In [None]:
text1 = "Sorry, I can't go there."
tokenizer = RegexpTokenizer("[\w']{3,}") 
print(tokenizer.tokenize(text1.lower()))

['sorry', "can't", 'there']


### 2.4 노이즈와 불용어 제거

- 노이즈는 특수문자 혹은 오타를 말한다.
- 불용어는 실제 사용은 되는 단어들이지만 분석에 별다른 영향을 미치지 않는 단어들을 말한다.

In [None]:
from nltk.corpus import stopwords #일반적으로 분석대상이 아닌 단어들
english_stops = set(stopwords.words('english')) #반복이 되지 않도록 set으로 변환

text1 = "Sorry, I couldn't go to movie yesterday."

tokenizer = RegexpTokenizer("[\w']+")
tokens = tokenizer.tokenize(text1.lower()) #word_tokenize로 토큰화

result = [word for word in tokens if word not in english_stops] #stopwords를 제외한 단어들만으로 list를 생성
print(result)

['sorry', 'go', 'movie', 'yesterday']


- 영어 불용어는 다음과 같다.

In [None]:
print(english_stops) #nltk가 제공하는 영어 stopword를 확인

{'own', 'me', 'your', 'while', 'under', "hasn't", "shan't", 'at', 'his', 'ours', 'as', 'down', 'most', 'weren', 're', 'did', 'when', 'but', "isn't", "wasn't", 'which', 'my', 'is', 'didn', 'ma', 'i', 'shouldn', 'if', 'those', 'it', 'has', 'both', 'what', 'too', 'm', "needn't", "wouldn't", 'an', 'further', 'haven', 'or', 'some', "didn't", "it's", 'hasn', "she's", 'aren', 'do', 'their', 'there', 'how', 'nor', 'wasn', 'again', 'until', "you'll", 'of', 't', 'd', 'having', 'that', 'such', 'doesn', 'because', 'don', 'with', "hadn't", "shouldn't", 'had', 'shan', 'won', "couldn't", "aren't", 'themselves', 'whom', 'in', 've', 'same', 'being', 'up', 'isn', 'have', 'not', 'against', 'once', 'we', 'herself', 'between', 'mustn', 'where', "haven't", 'hers', "won't", 'no', "you've", 'over', 'now', "mustn't", 'yourselves', 'this', 'after', 'does', 'during', 'yourself', "mightn't", 'out', 'any', 'hadn', 'him', 'off', 'and', 'to', 'wouldn', 'here', "doesn't", 'these', 'above', 'been', 'you', "you're", "w

- 자신만의 불용어를 만들고 싶으면 다음과 같이 진행한다.

In [None]:
#자신만의 stopwords를 만들고 이용
#한글처리에서도 유용하게 사용할 수 있음
my_stopword = ['i', 'go', 'to'] #나만의 stopword를 리스트로 정의
result = [word for word in tokens if word not in my_stopword] 
print(result)

['sorry', "couldn't", 'movie', 'yesterday']


# 2. 정규화(Normalization)

- 정규화    
  정규화는 같은 의미를 가진 동일한 단어이면서 다른 형태로 쓰여진 단어들을 통일해 표준 단어로 만드는 작업을 말한다.    
  어휘의 크기를 줄이는 기법인 정규화는 비슷한 토큰들을 하나의 형태로 결합시키는 것으로, 결국 어휘의 종류가 줄어들게 되어 과대적합이 일어날 가능성 또한 줄여준다.
  - 정규화는 P로 분류하는 대상을 확대함으로써 재현율을 높여주지만 정밀도를 낮출 수 있다.
    - 재현율(recall) = TP / (TP + FN)
    - 정밀도(precision) = TP / (TP + FP)

## 2.1 어간 추출(Stemming)

- 어간 추출    
  어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해내는 작업을 말한다. 
  - 어형 : 단어의 형태
  - 어간 : 어형변화에서 변화하지 않는 부분
  - 어미 : 어형변화에서 바뀌는 부분
  - 어형변화
    - 통시적 어형변화 : 간다 -> 갔다 같은 시제가 반영된 어형변화
    - 공시적 어형변화 : 작다 -> 작고 같은 시제가 반영되지 않은 어형변화

- 영어의 어간추출 알고리즘으로는 포터 스테머(Porter Stemmer), 랭카스터 스테머(Lancaster Stemmer)가 존재한다. 아래는 포터 스테머를 활용한 어간추출 소스 코드이다.


In [None]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))

cook cookeri cookbook


- 다음은 포터 스테머를 활용하여 어간 추출한 결과를 나타낸다.

In [None]:
from nltk.tokenize import word_tokenize

para = "Hello everyone. It's good to see you. Let's start our text mining class!"
tokens = word_tokenize(para) #토큰화 실행
print(tokens)
result = [stemmer.stem(token) for token in tokens] #모든 토큰에 대해 스테밍 실행
print(result)

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']
['hello', 'everyon', '.', 'it', "'s", 'good', 'to', 'see', 'you', '.', 'let', "'s", 'start', 'our', 'text', 'min', 'class', '!']


- 다음은 랭카스터 스테머를 사용해 어간 추출한 결과는 다음과 같다.

In [None]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))

cook cookery cookbook


In [None]:
from nltk.tokenize import word_tokenize

para = "Hello everyone. It's good to see you. Let's start our text mining class!"
tokens = word_tokenize(para) #토큰화 실행
print(tokens)
result = [stemmer.stem(token) for token in tokens] #모든 토큰에 대해 스테밍 실행
print(result)

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']
['hello', 'everyon', '.', 'it', "'s", 'good', 'to', 'see', 'you', '.', 'let', "'s", 'start', 'our', 'text', 'min', 'class', '!']


## 2.2 표제어 추출(Lemmatization)

- 표제어    
  사전에 나오는 말을 표제어라고 한다. 표제어 추출은 의미적 관점에서 단어의 기본형을 찾는 작업을 말한다.
  - 어간이 표제어일 필요는 없다. 

In [None]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('cooking'))
print(lemmatizer.lemmatize('cooking', pos='v')) #품사를 지정
print(lemmatizer.lemmatize('cooking', pos='n')) #품사를 지정
print(lemmatizer.lemmatize('cookery'))
print(lemmatizer.lemmatize('cookbooks'))

cooking
cook
cooking
cookery
cookbook


- 어간과 표제어 간의 차이는 다음과 같다.

In [None]:
#comparison of lemmatizing and stemming
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print('stemming result:', stemmer.stem('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes', pos='v'))

stemming result: believ
lemmatizing result: belief
lemmatizing result: believe


# 3. 품사 태깅(Part-of-Speech Tagging)

## 3.1 품사의 이해

- 품사는 명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사와 같이 공통된 성질을 지닌 낱말끼리 모아 놓은 낱말의 갈래를 말한다.
- 낱말은 뜻을 가지고 홀로 쓰일 수 있는 말의 가장 작은 단위

## 3.2 NLTK를 이용한 품사 태깅

`nltk.pos_tag()`는 토큰화된 결과에 대해 품사를 태깅해 (단어, 품사) 로 구성된 튜플의 리스트로 품사 태깅 결과를 반환해준다.

In [None]:
import nltk
from nltk.tokenize import word_tokenize

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!")
print(nltk.pos_tag(tokens))

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]


- 품사의 약어를 잘 모를 경우에는 아래와 같이 품사 약어의 의미와 그 설명을 알 수 있다.

In [None]:
nltk.download('tagsets')
nltk.help.upenn_tagset('CC')

CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet


[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Package tagsets is already up-to-date!


- 아래와 같이 원하는 품사의 단어들만 추출할 수도 있다.

In [None]:
my_tag_set = ['NN', 'VB', 'JJ']
my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]
print(my_words)

['everyone', 'good', 'see', 'Let', 'start', 'text', 'mining', 'class']


- 아래와 같이 단어에 품사 정보를 추가해 구분해볼 수도 있다.

In [None]:
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]
print(words_with_tag)

['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN', '!/.']


## 3.3 한글 형태소 분석과 품사 태깅

#### 한글 형태소 분석과 품사 태깅

- NLTK로는 한글 토큰화나 품사 태깅이 잘 되지 않는다. 
- 가령 `절망의`는 `절망` + `의` 가 결합되어 있어 한글 토큰화에 실패하였다.
- `절망의` 에 `JJ` 가 표기되었는데 이는 형용사로써, 물론 옳지 못하다(명사 + 조사 가 맞다)

In [None]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

In [None]:
tokens = word_tokenize(sentence)
print(tokens)
print(nltk.pos_tag(tokens))

['절망의', '반대가', '희망은', '아니다', '.', '어두운', '밤하늘에', '별이', '빛나듯', '희망은', '절망', '속에', '싹트는', '거지', '만약에', '우리가', '희망함이', '적다면', '그', '누가', '세상을', '비출어줄까', '.', '정희성', ',', '희망', '공부']
[('절망의', 'JJ'), ('반대가', 'NNP'), ('희망은', 'NNP'), ('아니다', 'NNP'), ('.', '.'), ('어두운', 'VB'), ('밤하늘에', 'JJ'), ('별이', 'NNP'), ('빛나듯', 'NNP'), ('희망은', 'NNP'), ('절망', 'NNP'), ('속에', 'NNP'), ('싹트는', 'NNP'), ('거지', 'NNP'), ('만약에', 'NNP'), ('우리가', 'NNP'), ('희망함이', 'NNP'), ('적다면', 'NNP'), ('그', 'NNP'), ('누가', 'NNP'), ('세상을', 'NNP'), ('비출어줄까', 'NNP'), ('.', '.'), ('정희성', 'NN'), (',', ','), ('희망', 'NNP'), ('공부', 'NNP')]


In [None]:
nltk.help.upenn_tagset('JJ')

JJ: adjective or numeral, ordinal
    third ill-mannered pre-war regrettable oiled calamitous first separable
    ectoplasmic battery-powered participatory fourth still-to-be-named
    multilingual multi-disciplinary ...


### KoNLPy 설치

https://konlpy.org/ko/latest/install/

- 코랩에는 konlpy 가 설치되어 있지 않으므로 설치를 해줘야 햔다.

In [None]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from konlpy.tag import Okt
t = Okt()

In [None]:
print('형태소:', t.morphs(sentence))
print()
print('명사:', t.nouns(sentence))
print()
print('품사 태깅 결과:', t.pos(sentence))

형태소: ['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비출어줄까', '.', '\n', '정희성', ',', '희망', '공부']

명사: ['절망', '반대', '희망', '어', '두운', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '우리', '희망', '함', '그', '누가', '세상', '정희성', '희망', '공부']

품사 태깅 결과: [('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('어', 'Noun'), ('두운', 'Noun'), ('밤하늘', 'Noun'), ('에', 'Josa'), ('별', 'Noun'), ('이', 'Josa'), ('빛나듯', 'Verb'), ('\n', 'Foreign'), ('희망', 'Noun'), ('은', 'Josa'), ('절망', 'Noun'), ('속', 'Noun'), ('에', 'Josa'), ('싹트는', 'Verb'), ('거지', 'Noun'), ('\n', 'Foreign'), ('만약', 'Noun'), ('에', 'Josa'), ('우리', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('함', 'Noun'), ('이', 'Josa'), ('적다면', 'Verb'), ('\n', 'Foreign'), ('그', 'Noun'), ('누가', 'Noun'), ('세상