# 텍스트 전처리, Text Preprocessing
---
1. **자연어처리 라이브러리 설치** : NLTK, KoNLPy
1. **토근화 (Tokenization)** : 데이터를 의미있는 기본 단위로 분리하는 작업
1. **품사 태깅 (POS Tagging)** : 토큰에 품사를 태깅하는 작업
1. **정제 (Cleaning)** : 불필요한 기호나 문자를 제거하는 작업
1. **정규화 (Normalization)** : 형태가 다른 단어를 하나의 형태로 통합하는 작업. 대/소문자 통합, 유사의미 단어통합

## 1. 자연어 처리 라이브러리 설치 (NLTK, KoNLPy)

In [1]:
import nltk
nltk.__version__

'3.9.1'

In [2]:
# NLTK data 설치
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [3]:
import konlpy
konlpy.__version__

'0.6.0'

## 2. 토큰화 (Tokenization)

### 2-1. NLTK를 활용한 토큰화 : nltk.tokenize

In [12]:
text = "Hello, everyone. It's good to see you. Let's start out NLP class!"

In [13]:
# word_tokenize, sent_tokenize
from nltk.tokenize import word_tokenize, sent_tokenize

# 문장 토큰화
word_tokens = word_tokenize(text)

# 단어 토큰화
sent_tokens = sent_tokenize(text)

In [14]:
# WordPunctTokenizer, TreebankWordTokenizer
from nltk.tokenize import WordPunctTokenizer, TreebankWordTokenizer
wpTokenizer = WordPunctTokenizer()
wpTokenizer.tokenize(text)

tbTokenizer = TreebankWordTokenizer()
tbTokenizer.tokenize(text)

['Hello',
 ',',
 'everyone.',
 'It',
 "'s",
 'good',
 'to',
 'see',
 'you.',
 'Let',
 "'s",
 'start',
 'out',
 'NLP',
 'class',
 '!']

### 2-2. 한국어 토큰화 : konlpy.tag

In [15]:
kor_text = "안녕하세요, 여러분. 만나서 반갑습니다. 지금부터 자연어처리 수업을 시작하겠습니다."

In [16]:
# nltk로 토큰화
from nltk.tokenize import word_tokenize, sent_tokenize

# 문장 분리
print(sent_tokenize(kor_text))

# 단어 토큰화
print(word_tokenize(kor_text))

['안녕하세요, 여러분.', '만나서 반갑습니다.', '지금부터 자연어처리 수업을 시작하겠습니다.']
['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '지금부터', '자연어처리', '수업을', '시작하겠습니다', '.']


In [18]:
# Okt로 토큰화 
from konlpy.tag import Okt
okt = Okt()
okt.morphs(kor_text)    #형태소 단위로 토큰화

['안녕하세요',
 ',',
 '여러분',
 '.',
 '만나서',
 '반갑습니다',
 '.',
 '지금',
 '부터',
 '자연어',
 '처리',
 '수업',
 '을',
 '시작',
 '하겠습니다',
 '.']

In [19]:
# Komoran으로 토큰화
from konlpy.tag import Komoran # 대소문자 구분 주의
kmr = Komoran()
kmr.morphs(kor_text)

['안녕하세요',
 ',',
 '여러분',
 '.',
 '만나',
 '아서',
 '반갑습니다',
 '.',
 '지금',
 '부터',
 '자연어',
 '처리',
 '수업',
 '을',
 '시작',
 '하',
 '겠',
 '습니다',
 '.']

## 3. 품사 태깅 (POS Tagging)

### 3-1. NLTK 활용 품사 태깅 : nltk.pos_tag(token_list)

In [20]:
import nltk
from nltk.tokenize import word_tokenize
sent = "Hello everyone. It's good to see you. Let's start our text mining class!"

# 토큰화
word_tokens = word_tokenize(sent)
print(word_tokens)

# 품사태깅
tagged = nltk.pos_tag(word_tokens)
print(tagged)

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']
[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]


* 품사명 알아보기 : nltk.help.upenn_tagset(품사명)
    - nltk.download('tagsets')

In [21]:
nltk.download('tagsets')
nltk.download('tagsets_json')

[nltk_data] Downloading package tagsets to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package tagsets is already up-to-date!
[nltk_data] Downloading package tagsets_json to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package tagsets_json is already up-to-date!


True

In [22]:
# 품사명 확인
nltk.help.upenn_tagset('NN')

NN: noun, common, singular or mass
    common-carrier cabbage knuckle-duster Casino afghan shed thermostat
    investment slide humour falloff slick wind hyena override subhumanity
    machinist ...


### 3-2. 한글 형태소 분석과 품사 태깅 (konlpy.tag)

In [15]:
kor_text = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비추어줄까.
정희성, 희망 공부'''

In [16]:
# nltk로 한글 품사 태깅
tokens = word_tokenize(kor_text)
print(tokens)
print(nltk.pos_tag(tokens))

['절망의', '반대가', '희망은', '아니다', '.', '어두운', '밤하늘에', '별이', '빛나듯', '희망은', '절망', '속에', '싹트는', '거지', '만약에', '우리가', '희망함이', '적다면', '그', '누가', '세상을', '비추어줄까', '.', '정희성', ',', '희망', '공부']
[('절망의', 'JJ'), ('반대가', 'NNP'), ('희망은', 'NNP'), ('아니다', 'NNP'), ('.', '.'), ('어두운', 'VB'), ('밤하늘에', 'JJ'), ('별이', 'NNP'), ('빛나듯', 'NNP'), ('희망은', 'NNP'), ('절망', 'NNP'), ('속에', 'NNP'), ('싹트는', 'NNP'), ('거지', 'NNP'), ('만약에', 'NNP'), ('우리가', 'NNP'), ('희망함이', 'NNP'), ('적다면', 'NNP'), ('그', 'NNP'), ('누가', 'NNP'), ('세상을', 'NNP'), ('비추어줄까', 'NNP'), ('.', '.'), ('정희성', 'NN'), (',', ','), ('희망', 'NNP'), ('공부', 'NNP')]


In [23]:
# Okt로 형태소 분석, 품사 태깅, 명사 추출
print("형태소 분석 : ",okt.morphs(kor_text))
print("품사 태깅 : ",okt.pos(kor_text))
print("명사 추출 : ",okt.nouns(kor_text))

형태소 분석 :  ['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '지금', '부터', '자연어', '처리', '수업', '을', '시작', '하겠습니다', '.']
품사 태깅 :  [('안녕하세요', 'Adjective'), (',', 'Punctuation'), ('여러분', 'Noun'), ('.', 'Punctuation'), ('만나서', 'Verb'), ('반갑습니다', 'Adjective'), ('.', 'Punctuation'), ('지금', 'Noun'), ('부터', 'Josa'), ('자연어', 'Noun'), ('처리', 'Noun'), ('수업', 'Noun'), ('을', 'Josa'), ('시작', 'Noun'), ('하겠습니다', 'Verb'), ('.', 'Punctuation')]
명사 추출 :  ['여러분', '지금', '자연어', '처리', '수업', '시작']


In [24]:
# Komoran으로 형태소 분석, 품사 태깅, 명사 추출
print("형태소 분석 : ",kmr.morphs(kor_text))
print("품사 태깅 : ",kmr.pos(kor_text))
print("명사 추출 : ",kmr.nouns(kor_text))

형태소 분석 :  ['안녕하세요', ',', '여러분', '.', '만나', '아서', '반갑습니다', '.', '지금', '부터', '자연어', '처리', '수업', '을', '시작', '하', '겠', '습니다', '.']
품사 태깅 :  [('안녕하세요', 'NNP'), (',', 'SP'), ('여러분', 'NNP'), ('.', 'SF'), ('만나', 'VV'), ('아서', 'EC'), ('반갑습니다', 'NNP'), ('.', 'SF'), ('지금', 'NNG'), ('부터', 'JX'), ('자연어', 'NNP'), ('처리', 'NNP'), ('수업', 'NNG'), ('을', 'JKO'), ('시작', 'NNG'), ('하', 'XSV'), ('겠', 'EP'), ('습니다', 'EF'), ('.', 'SF')]
명사 추출 :  ['안녕하세요', '여러분', '반갑습니다', '지금', '자연어', '처리', '수업', '시작']


## 4. 정제 (Cleaning)

### 4-1. 불필요한 기호 삭제

In [25]:
import re
text = "Hello, everyone. It's good to see you. Let's start out NLP class~~~~!"

# [영어] 문자, 숫자, ' 가 아닌 기호 삭제
#꺽쇠안에 적힌 조건에 부합한 문자나 숫자를 2번째 인자에 적힌 것으로 변환
# + = 패턴 1회 이상 반복
clean_text = re.sub("[^A-Za-z0-9']+", " ", text)
print(clean_text)

Hello everyone It's good to see you Let's start out NLP class 


In [26]:
# 한글만 남기고 삭제
clean_kor_text = re.sub("[^가-힣]+"," ",kor_text)
print(clean_kor_text)

안녕하세요 여러분 만나서 반갑습니다 지금부터 자연어처리 수업을 시작하겠습니다 


#### 정규 표현식 연습

In [27]:
import re
text1 = "543 cat camera 자연어처리~~~~ good^^"

#영어만, 숫자만, 한글만, 기호만
p = re.compile('[^a-z0-9]+')
print(p.findall(text1))

[' ', ' ', ' 자연어처리~~~~ ', '^^']


In [28]:
# 이메일 주소 검증
email_pattern = re.compile(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}')
email = input("이메일 주소를 입력하세요 : ")
if email_pattern.match(email):
    print("이메일 주소가 맞습니다.")
else:
    print("잘못된 이메일입니다.")

이메일 주소를 입력하세요 :  c


잘못된 이메일입니다.


### 4-2. 불용어(Stopwords) 제거

#### 불용어 사전을 사용하여, 사전에 있는 단어를 삭제

In [9]:
# [영어] nltk 불용어 사전 확인
from nltk.corpus import stopwords
english_stopwords = stopwords.words('english')
print(len(english_stopwords))
print(english_stopwords)

198
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been', 'before', 'being', 'below', 'between', 'both', 'but', 'by', 'can', 'couldn', "couldn't", 'd', 'did', 'didn', "didn't", 'do', 'does', 'doesn', "doesn't", 'doing', 'don', "don't", 'down', 'during', 'each', 'few', 'for', 'from', 'further', 'had', 'hadn', "hadn't", 'has', 'hasn', "hasn't", 'have', 'haven', "haven't", 'having', 'he', "he'd", "he'll", 'her', 'here', 'hers', 'herself', "he's", 'him', 'himself', 'his', 'how', 'i', "i'd", 'if', "i'll", "i'm", 'in', 'into', 'is', 'isn', "isn't", 'it', "it'd", "it'll", "it's", 'its', 'itself', "i've", 'just', 'll', 'm', 'ma', 'me', 'mightn', "mightn't", 'more', 'most', 'mustn', "mustn't", 'my', 'myself', 'needn', "needn't", 'no', 'nor', 'not', 'now', 'o', 'of', 'off', 'on', 'once', 'only', 'or', 'other', 'our', 'ours', 'ourselves', 'out', 'over', 'own', 're', 's', 'same', 'shan', "shan't", 

In [29]:
# [영어] 불용어 사전에 있는 단어 제거 : 정규화 -> 정제 -> 토큰화 -> 불용어 제거

clean_text = re.sub(r"[^\w]+", " ", text.lower())
print(clean_text)
tokens = word_tokenize(clean_text)

result = [word for word in tokens if word not in english_stopwords]
print(result)

hello everyone it s good to see you let s start out nlp class 
['hello', 'everyone', 'good', 'see', 'let', 'start', 'nlp', 'class']


In [30]:
# [한글] 사용자 정의 stopwords 를 만들어서 사용
result = []
temp = '의 가 은 다 ㄴ 에 이 듯 은 속 에 는 에 가 하 겠 ㅁ 이 적 다면 그 가 을 어 주 ㄹ까 습니다 . ,'
kor_stopwords = temp.split()
print("불용어 : ", kor_stopwords)
print()

# 토큰화

tokens = okt.morphs(kor_text)
print(tokens)
print()

# 불용어 제거
# stopword에 속하지 않는 문자를 붙이기
# 아래 for문 3줄의 경우 list comprehension 방식을 사용한 1줄 코딩이 가능하다 
# result = [word for word in tokens if word not in kor_stopwords]
for word in tokens:
    if word not in kor_stopwords:
        result.append(word)

print('불용어 제거 전 :\n',tokens) 
print()
print('불용어 제거 후 :\n',result)

불용어 :  ['의', '가', '은', '다', 'ㄴ', '에', '이', '듯', '은', '속', '에', '는', '에', '가', '하', '겠', 'ㅁ', '이', '적', '다면', '그', '가', '을', '어', '주', 'ㄹ까', '습니다', '.', ',']

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '지금', '부터', '자연어', '처리', '수업', '을', '시작', '하겠습니다', '.']

불용어 제거 전 :
 ['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '지금', '부터', '자연어', '처리', '수업', '을', '시작', '하겠습니다', '.']

불용어 제거 후 :
 ['안녕하세요', '여러분', '만나서', '반갑습니다', '지금', '부터', '자연어', '처리', '수업', '시작', '하겠습니다']


#### 품사 태깅을 하여 불용어에 해당하는 품사의 단어를 삭제 
* 한국어 형태소 해석기의 품사태그집합 정보
https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit?gid=0#gid=0

In [31]:
# 품사 태깅 결과 검토 -> 원하는 품사 추출 
my_tag_set = ['NN', 'VB', 'NNP']
my_words = []


In [32]:
# 원하는 품사의 단어들만 추출
pos_tag_tokens = nltk.pos_tag(word_tokens)
print(pos_tag_tokens)
for word, tag in pos_tag_tokens:
    if tag in my_tag_set:
        my_words.append(word)
print(my_words)        

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]
['Hello', 'everyone', 'see', 'Let', 'start', 'text', 'mining', 'class']


## 5. 정규화 (Normalization)
### 5-1. 어간 추출 (Stemming)

In [34]:
from nltk.stem import PorterStemmer
p_stemmer = PorterStemmer()
print(p_stemmer.stem('cooking'), p_stemmer.stem('cookery'), p_stemmer.stem('cookbooks'))

cook cookeri cookbook


In [35]:
from nltk.stem import LancasterStemmer
l_stemmer = LancasterStemmer()
print(l_stemmer.stem('cooking'), l_stemmer.stem('cookery'), l_stemmer.stem('cookbooks'))

cook cookery cookbook


In [36]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
p_result =  
l_result = 
print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후:', p_result)
print('랭커스터 스테머의 어간 추출 후:', l_result)

SyntaxError: invalid syntax (2535546570.py, line 2)

### 5-2 표제어 추출 (Lemmatization)

In [48]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('cooking'))
print(lemmatizer.lemmatize('cooking', pos='v')) #품사를 지정
print(lemmatizer.lemmatize('cookery'))
print(lemmatizer.lemmatize('cookbooks'))

cooking
cook
cookery
cookbook


In [49]:
#comparison of lemmatizing and stemming
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print('stemming result:', stemmer.stem('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes', pos='v'))

stemming result: believ
lemmatizing result: belief
lemmatizing result: believe


In [50]:
# Okt로 형태소 분석 시 표제어 추출
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs(kor_text))
print()
print(okt.morphs(kor_text, stem = True))

['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비추어줄까', '.', '\n', '정희성', ',', '희망', '공부']

['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나다', '\n', '희망', '은', '절망', '속', '에', '싹트다', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다', '\n', '그', '누가', '세상', '을', '비추다', '.', '\n', '정희성', ',', '희망', '공부']
