In [3]:
import nltk

In [4]:
#NLTK 패키지 다운로드
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

# 토큰화

### 문장 토큰화

In [5]:
para = "Hello everyone. It's good to see you. Let's start our text mining class!"

from nltk.tokenize import sent_tokenize

#주어진 텍스트를 문장 단위로 토큰화. 주로 !, ? 등을 이용
print(sent_tokenize(para))

['Hello everyone.', "It's good to see you.", "Let's start our text mining class!"]


In [6]:
#NLTK에는 한국어를 사전학습한 모델은 아직 없으나, 마침표 등으로 문장을 분리하므로 작동이 가능함
para_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 텍스트마이닝 클래스를 시작해봅시다!"

print(sent_tokenize(para_kor))

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 텍스트마이닝 클래스를 시작해봅시다!']


### 단어 토큰화

In [7]:
#word_tokenize를 사용한 단어 토큰화
from nltk.tokenize import word_tokenize

print(word_tokenize(para))

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']


In [8]:
#WordPunctTokenizer를 사용한 단어 토큰화
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(para))

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'our', 'text', 'mining', 'class', '!']


In [9]:
#한국어의 단어 토큰화
print(word_tokenize(para_kor))

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '텍스트마이닝', '클래스를', '시작해봅시다', '!']


### 정규 표현식을 이용한 토큰화

In [10]:
import re
re.findall("[abc]", "How are you, boy?")
# findall() 함수는 첫째 인수의 패턴을 둘째 인수인 문자열에서 검색해 매칭되는 모든 값을 반환해준다.

['a', 'b']

In [11]:
re.findall("[0123456789]", "317b5c9d")

['3', '1', '7', '5', '9']

In [12]:
re.findall("[\w]", "3a7b_'.^&5c9d")

['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']

In [13]:
# +를 이용하면 한 번 이상 반복된 부분을 찾을 수 있다.
re.findall("[_]+", "a_b, c__d, e___f")

['_', '__', '___']

In [14]:
re.findall("[\w]+", "How are you, boy?")

['How', 'are', 'you', 'boy']

In [15]:
#{}를 이용해 반복 횟수를 지정할 수 있다.
re.findall("[o]{2,4}", "oh, hoow are yoooou, boooooooy?")

['oo', 'oooo', 'oooo', 'ooo']

In [16]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+") #regular expression(정규식)을 이용한 tokenizer
#단어 단위로 tokenize \w:문자나 숫자를 의미, 즉 문자나 숫자 혹은 '가 반복되는 것을 찾아냄
print(tokenizer.tokenize("Sorry, I can't go there."))

['Sorry', 'I', "can't", 'go', 'there']


In [17]:
tokenizer = RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("Sorry, I can't go there."))

['Sorry', 'I', 'can', 't', 'go', 'there']


In [18]:
text1 = "Sorry, I can't go there."
tokenizer = RegexpTokenizer("[\w']{3,}")
print(tokenizer.tokenize(text1.lower()))

['sorry', "can't", 'there']


### 노이즈와 불용어 제거

In [19]:
from nltk.corpus import stopwords # 불용어로 등재된 값 불러오기
english_stops = set(stopwords.words('english')) #반복이 되지 않도록 set 으로 변환

text1 = "Sorry, I couldn't go to movie yesterday."

tokenizer = RegexpTokenizer("[\w']+")
tokens = tokenizer.tokenize(text1.lower())

# stopwords를 제외한 단어들만으로 list 생성
result = [word for word in tokens if word not in english_stops]

print(result)

['sorry', 'go', 'movie', 'yesterday']


In [20]:
#nltk가 제공하는 영어 불용어 확인
print(english_stops)

{'than', 'is', 'its', 'those', "mightn't", "needn't", 'her', 'has', 'how', 'off', 'we', 'out', 'yourself', 're', 'about', 'further', 'o', 'whom', 'up', 'aren', 'were', "she's", 'does', 'into', 'same', 'too', "you'll", 'own', 'more', 'hadn', 'yours', 'these', 'where', 'ain', 've', 'have', 'or', 'very', 'the', 'a', 'again', "won't", 'only', 'once', 'did', 'mustn', 'wasn', 'had', "hadn't", "mustn't", 'he', 'isn', 'of', 'just', 'before', 'over', 'wouldn', 'with', 'if', "that'll", 'hers', 'don', 'between', 'above', 'she', 'down', 'mightn', "you're", 'nor', 'll', 'who', 'after', 'why', 'each', 'am', 'any', 'ours', 'myself', 'under', "couldn't", 'doesn', 'itself', 'that', 'your', "wouldn't", "weren't", 'herself', 'here', 'do', "should've", 'such', 'no', 'not', 'other', 'against', 'all', "doesn't", 'was', 'being', 'been', 'for', 'me', "it's", 'should', 'haven', 'are', 'through', 'what', 'there', 'this', "don't", 'during', 'their', 'ma', "shan't", 'hasn', 'didn', 'our', 'an', 'them', "aren't", 

In [21]:
# stopwords 만들기
my_stopword = ['i', 'go', 'to']

result = [word for word in tokens if word not in my_stopword]

print(result)

['sorry', "couldn't", 'movie', 'yesterday']


# 정규화

### 어간 추출

* 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해내는 작업

In [22]:
# 포터 스테머를 사용한 어간 추출
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))

cook cookeri cookbook


In [23]:
#토큰화와 결합해 어간 추출
from nltk.tokenize import word_tokenize

para = "Hello everyone. It's good to see you. Let's start out text mining class!"
tokens = word_tokenize(para) #토큰화 실행
print(tokens)
result = [stemmer.stem(token) for token in tokens] #모든 토큰에 대해 스테밍 실행
print(result)

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'out', 'text', 'mining', 'class', '!']
['hello', 'everyon', '.', 'it', "'s", 'good', 'to', 'see', 'you', '.', 'let', "'s", 'start', 'out', 'text', 'mine', 'class', '!']


In [24]:
# 랭카스터 스테머를 사용한 어간 추출
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))

cook cookery cookbook


### 표제어 추출

* 주어진 단어를 기본형을 변환하는 과정

In [25]:
nltk.download("popular")

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package gazetteers to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gazetteers is already up-to-date!
[nltk_data]    | Downloading package genesis to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package genesis is already up-to-date!
[nltk_data]    | Downloading package gutenberg to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to
[nltk_data]    |     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]    |   Package inaugural is already up-to-date!
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |   

True

In [26]:
#NLTK의 WordNetLemmatizer를 사용한 표제어 추출

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('cooking'))
print(lemmatizer.lemmatize('cooking', pos = 'v')) # 품사를 지정
print(lemmatizer.lemmatize('cookery'))
print(lemmatizer.lemmatize('cookbooks'))

cooking
cook
cookery
cookbook


In [27]:
# lemmatizing과 stemming 비교
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print('stemming result:', stemmer.stem('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes')) #품사 지정 X
print('lemmatizing result:', lemmatizer.lemmatize('believes', pos = 'v')) #품사 지정

stemming result: believ
lemmatizing result: belief
lemmatizing result: believe


# 품사 태깅

### 품사의 이해

In [28]:
# NLTK를 이용한 품사 태깅
import nltk
from nltk.tokenize import word_tokenize

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!")
print(nltk.pos_tag(tokens))

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]


In [29]:
nltk.download("tagsets")

[nltk_data] Downloading package tagsets to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package tagsets is already up-to-date!


True

In [30]:
nltk.help.upenn_tagset('CC')

CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet


In [31]:
#원하는 품사의 단어들만 추출
my_tag_set = ['NN', 'VB', 'JJ']
my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]
print(my_words)

['everyone', 'good', 'see', 'Let', 'start', 'text', 'mining', 'class']


In [32]:
#단어에 품사 정보를 추가해 구분
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]
print(words_with_tag)

['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN', '!/.']


### 한글 형태소 분석과 품사 태깅

In [33]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비추어줄까
정희성, 희망 공부'''

In [34]:
tokens = word_tokenize(sentence)
print(tokens)
print(nltk.pos_tag(tokens))

['절망의', '반대가', '희망은', '아니다', '.', '어두운', '밤하늘에', '별이', '빛나듯', '희망은', '절망', '속에', '싹트는', '거지', '만약에', '우리가', '희망함이', '적다면', '그', '누가', '세상을', '비추어줄까', '정희성', ',', '희망', '공부']
[('절망의', 'JJ'), ('반대가', 'NNP'), ('희망은', 'NNP'), ('아니다', 'NNP'), ('.', '.'), ('어두운', 'VB'), ('밤하늘에', 'JJ'), ('별이', 'NNP'), ('빛나듯', 'NNP'), ('희망은', 'NNP'), ('절망', 'NNP'), ('속에', 'NNP'), ('싹트는', 'NNP'), ('거지', 'NNP'), ('만약에', 'NNP'), ('우리가', 'NNP'), ('희망함이', 'NNP'), ('적다면', 'NNP'), ('그', 'NNP'), ('누가', 'NNP'), ('세상을', 'NNP'), ('비추어줄까', 'NNP'), ('정희성', 'NNP'), (',', ','), ('희망', 'NNP'), ('공부', 'NNP')]


### KoNLPy 설치

https://konlpy.org/ko/latest/install/

In [35]:
import sys
print('--sys.version--')
print(sys.version)

--sys.version--
3.10.9 | packaged by Anaconda, Inc. | (main, Mar  1 2023, 18:18:15) [MSC v.1916 64 bit (AMD64)]


In [36]:
!pip install JPype1-1.4.0-cp310-cp310-win_amd64.whl

Processing c:\users\user\desktop\학업\파이썬\텍스트마이닝\파이썬 텍스트마이닝 완벽 가이드\실습\jpype1-1.4.0-cp310-cp310-win_amd64.whl
JPype1 is already installed with the same version as the provided wheel. Use --force-reinstall to force an installation of the wheel.


In [37]:
!pip install konlpy



In [39]:
from konlpy.tag import Okt
t = Okt()

In [40]:
print('형태소:', t.morphs(sentence))
print()
print('명사:', t.nouns(sentence))
print()
print('품사 태깅 결과:', t.pos(sentence))

형태소: ['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비추어줄까', '\n', '정희성', ',', '희망', '공부']

명사: ['절망', '반대', '희망', '어', '두운', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '우리', '희망', '함', '그', '누가', '세상', '정희성', '희망', '공부']

품사 태깅 결과: [('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('어', 'Noun'), ('두운', 'Noun'), ('밤하늘', 'Noun'), ('에', 'Josa'), ('별', 'Noun'), ('이', 'Josa'), ('빛나듯', 'Verb'), ('\n', 'Foreign'), ('희망', 'Noun'), ('은', 'Josa'), ('절망', 'Noun'), ('속', 'Noun'), ('에', 'Josa'), ('싹트는', 'Verb'), ('거지', 'Noun'), ('\n', 'Foreign'), ('만약', 'Noun'), ('에', 'Josa'), ('우리', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('함', 'Noun'), ('이', 'Josa'), ('적다면', 'Verb'), ('\n', 'Foreign'), ('그', 'Noun'), ('누가', 'Noun'), ('세상', 'N