# 텍스트 전처리를 위한 NLTK 설치

In [1]:
import nltk
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

# 문장 토큰화
 - 주어진 텍스트를 문장으로 나누고 싶을 때 사용. 실제 사용 빈도는 낮은 편
 - 분석 단위를 문장으로 해야 할 필요가 있을 때 먼저 문장으로 나누고, 각 문장에 대해 이후 분석을 수행
 - NLTK의 sent_tokenize() 사용

In [2]:
from nltk.tokenize import sent_tokenize 

para = "Hello everyone. It's good to see you. Let's start our text mining class!" 
print(sent_tokenize(para)) 

['Hello everyone.', "It's good to see you.", "Let's start our text mining class!"]


# 단어 토큰화
 - 일반적으로 토큰화는 단어 토큰화를 의미하며, 텍스트를 단어 단위로 분리하는 작업
 - 문장 토큰화 없이 문서 전체에 바로 단어 토큰화 사용이 가능
 - NLTK의 word_tokenize() 사용

In [3]:
from nltk.tokenize import word_tokenize

para = "Hello everyone. It's good to see you. Let's start our text mining class!" 
print(word_tokenize(para)) 

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']


# 정규표현식
 - regex 혹은 regexp라고 줄여서 표현되며, 문자열에 대해 원하는 검색 패턴을 지정하는 방법
    

In [4]:
import re
# 둘째 인수인 문자열에서 a, b, c 중 하나라도 일치하는 문자를 가져옴
print(re.findall("[abc]", "How are you, boy?"))
# 숫자를 검색
print(re.findall("[0123456789]", "3a7b5c9d"))

['a', 'b']
['3', '7', '5', '9']


# 정규표현식을 이용한 간편한 토큰화
 - 문자, 숫자, 언더바(_), 아포스트로피(＇)로 이루어지고 공백이 포함되지 않으며 3자 이상인
단어로 텍스트를 토큰화 → 일반적으로 사용되는 규칙
 - 이 외에 본인에게 필요한 조건을 추가할 수 있음

In [5]:
from nltk.tokenize import RegexpTokenizer 

text1 = "Sorry, I can't go there." 
# 문자, 숫자, 언더바(_), 아포스트로피(＇)로 이루어진 3자 이상의 단어로 토크나이즈
tokenizer = RegexpTokenizer("[\w']{3,}") 
print(tokenizer.tokenize(text1.lower())) # 소문자로 바꾸고 정규식 적용

['sorry', "can't", 'there']


# 노이즈 제거
 - 정규표현식을 통해 특수문자와 같은 대부분의 불필요한 문자들은 제거됨
 - 그 외 별도로 원하는 패턴의 노이즈도 제거 가능

# 불용어 제거
 - 노이즈는 아니지만 분석에 필요 없는 단어들을 불용어라 함

# NLTK의 불용어 사전
 - 기본적인 불용어 제거 가능

# 자신만의 불용어 사전 정의 후 제거
 - 자신만의 사전을 만들고 해당 단어를 제거 가능


In [6]:
from nltk.corpus import stopwords # 일반적으로 분석대상이 아닌 단어들 
english_stops = set(stopwords.words('english')) # 반복이 되지 않도록 set으로 변환
text1 = "Sorry, I couldn't go to movie yesterday."
tokens = word_tokenize(text1.lower())
# stopwords를 제외한 단어들만으로 list를 생성
tokens = [word for word in tokens if word not in english_stops]
print(tokens)
# 자신만의 불용어 사전 생성
my_stops = ['could', 'n\'t']
tokens = [word for word in tokens if word not in my_stops]
print(tokens)

['sorry', ',', 'could', "n't", 'go', 'movie', 'yesterday', '.']
['sorry', ',', 'go', 'movie', 'yesterday', '.']


# 동일한 의미의 단어가 다른 형태를 갖는 것을 보완
 - 다른 형태의 단어들을 통일시켜 표준단어로 변환

# 어간 추출 (Stemming)
 - 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 작업

# 관련 개념의 이해
 - 어형변화: 어떤 단어가 동일한 어간을 가지고 동일한 품사를 유지하면서, 
그 어미를 여러 가지로 변화시켜 그에 따라 문법적 기능도 변화하는 현상
 - 어간: 어형변화에서 변화하지 않는 부분
 - 어미: 어형변화에서 바뀌는 부분
 - 예) [간다, 갔다]의 어간: 가, [작다, 작고, 작으니]의 어간: 작


# 포터 스테머
 - 마틴 포터가 작성한 스테밍 알고리즘으로 영어 분야에서 사실상의 표준임
 - 어간 추출은 사전을 사용하지 않고 규칙에 따라 어간을 추출함
 - 추출한 어간은 사전에 없는 단어가 될 수 있으나, 컴퓨터 입장에서는 중요하지 않음

In [7]:
from nltk.stem import PorterStemmer 

stemmer = PorterStemmer() 
print(stemmer.stem('cooking'), stemmer.stem('cookery'),stemmer.stem('cookbooks')) 

cook cookeri cookbook


# 원문
 - "This was not the map we found in Billy Bones's chest, but an accurate copy, 
complete in all things“

# 토큰화 결과
 - '<span style="color: red">This</span>', '<span style="color: red">was</span>', 'not', 'the', 'map', 'we', 'found', 'in', '<span style="color: red">Billy</span>', 'Bones', "'s", 'chest', ',', 'but', 
'an', '<span style="color: red">accurate</span>', '<span style="color: red">copy</span>', ',', '<span style="color: red">complete</span>', 'in', 'all', 'things’

# Porter stemmer 결과
 - '<span style="color: red">thi</span>', '<span style="color: red">wa</span>', 'not', 'the', 'map', 'we', 'found', 'in', '<span style="color: red">billi</span>', 'bone', "'s", 'chest', ',', 'but', 'an', 
'<span style="color: red">accur</span>', '<span style="color: red">copi</span>', ',', '<span style="color: red">complet</span>', 'in', 'all', 'thing’

# 문제점
 - this → thi, was → wa, accurate → accur 등 이상한 단어로 변환
 - 이는 사전이 아닌 알고리즘(규칙)에 의해 변환하기 때문


# 표제어 추출
 - 주어진 단어를 사전에 정의된 기본형으로 변환
 - 어간 추출과 달리 사전이 필요하며, 의미적 관점의 기본형을 찾는 작업
 - WordNetLemmatizer가 잘 알려져 있음

In [8]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer() 
print(lemmatizer.lemmatize('cooking'))
print(lemmatizer.lemmatize('cooking', pos='v')) # 품사를 지정 
print(lemmatizer.lemmatize('cookery'),lemmatizer.lemmatize('cookbooks')) 

cooking
cook
cookery cookbook


# 원문
 - "This was not the map we found in Billy Bones's chest, but an accurate copy, 
complete in all things“
# tokenize 결과
 - 'This', '<span style="color: red">was</span>', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', '<span style="color: red">Bones</span>', "'s", 'chest', ',', 'but', 
'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', '<span style="color: red">things</span>'
# 결과
 - 'This', '<span style="color: red">wa</span>', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', '<span style="color: red">Bones</span>', "'s", 'chest', ',', 'but', 
'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', '<span style="color: red">thing</span>'
 - was는 품사를 모르기 때문에 형태적으로 접근, pos=’v’를 지정하면 be를 반환
 - things는 사전에 근거하여 thing으로 변환
 - 나머지 단어는 사전의 원형을 유지


In [9]:
print(lemmatizer.lemmatize('was'))
print(lemmatizer.lemmatize('was', pos='v')) 

wa
be


# 품사 태깅 (POS-TAGGING)

## 품사의 이해
 - 품사는 “명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사와 같이 공통된
성질을 지닌 낱말끼리 모아 놓은 낱말의 갈래”를 말한다. 
      - 네이버 지식백과 초등국어 개념 사전

## 형태소
 - ‘의미를 가진 가장 작은 말의 단위’를 의미하며 더 나누게 되면 본래의 뜻을 잃어버림
 - 예) 가방은 형태소이나, ‘가’와 ‘방’으로 나누면 더이상 형태소가 아님
 - 한글은 형태소를 분리하는 작업이 쉽지 않음

## 품사 태깅
 - 형태소에 대해 품사를 파악해 부착(Tagging)하는 작업



## nltk.pos_tag() 
 - 토큰화된 결과에 대해 품사를 태깅해 (단어, 품사)로 구성된 튜플의 리스트로
품사 태깅 결과를 반환


In [10]:
import nltk 
from nltk.tokenize import word_tokenize
tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!") 
print(nltk.pos_tag(tokens)) # 토큰 리스트를 입력으로 받을 수 있음

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]


## 원하는 품사의 단어들만 추출
 - 아래와 같이 특정 품사에 해당하는 단어만 추출해서 사용이 가능


In [11]:
my_tag_set = ['NN', 'VB', 'JJ']
my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]
print(my_words)

['everyone', 'good', 'see', 'Let', 'start', 'text', 'mining', 'class']


# 단어에 품사 정보를 추가해 구분
 - 아래와 같이 join()을 이용해 단어와 품사를 결합함으로써, 단어에 대한 품사정보를
추가할 수 있음

In [12]:
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]
print(words_with_tag)

['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN', '!/.']


# KoNLPy 사용 예
## koNLPy에서 Okt(트위터) 형태소 분석기를 import

In [16]:
!pip install konlpy



In [14]:
!pip install jpype1



In [17]:
from konlpy.tag import Okt
t = Okt()

sentence = "절망의 반대가 희망은 아니다."
print(t.morphs(sentence))
print(t.nouns(sentence))
print(t.pos(sentence))

JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

In [19]:
import sys

print("--sys.version—")
print(sys.version)

--sys.version—
3.9.12 (main, Apr  4 2022, 05:22:27) [MSC v.1916 64 bit (AMD64)]
