<a href="https://colab.research.google.com/github/kmalicekim/NLP_practice_mine/blob/master/%EC%A0%84%EC%B2%98%EB%A6%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2. 토큰화(Tokenization) 

NLTK (https://www.nltk.org/)설치

In [1]:
# 필요한 nltk library download

import nltk
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package webtext to /root/nltk_data...
[nltk_data]   Unzipping corpora/webtext.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

## 2.1 문장 토큰화(sentence tokenize)

In [2]:
para = "Hello everyone. It's good to see you. Let's start out text mining class!"

In [3]:
from nltk.tokenize import sent_tokenize   # 주어진 text를 **sentence** 단위로 tokenize 함. 주로 .!? 등을 이용 
print(sent_tokenize(para))

['Hello everyone.', "It's good to see you.", "Let's start out text mining class!"]


In [4]:
# 영어 이외의 언어 토큰화

paragraph_french = """Je t'ai demandé si tu m'aimais bien, Tu m'a répondu non. 
Je t'ai demandé si j'étais jolie, Tu m'a répondu non. 
Je t'ai demandé si j'étai dans ton coeur, Tu m'a répondu non."""

import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/french.pickle')
print(tokenizer.tokenize(paragraph_french))

["Je t'ai demandé si tu m'aimais bien, Tu m'a répondu non.", "Je t'ai demandé si j'étais jolie, Tu m'a répondu non.", "Je t'ai demandé si j'étai dans ton coeur, Tu m'a répondu non."]


In [5]:
# 한국어는 sentence tokenizer 가 잘 될까? -- 잘 됨

para_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 이제 텍스트마이닝 클래스를 시작해봅시다!"
print(sent_tokenize(para_kor))

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 이제 텍스트마이닝 클래스를 시작해봅시다!']


## 2.2 단어 토큰화(word tokenize)

In [6]:
from nltk.tokenize import word_tokenize  # 주어진 text를 **word** 단위로 tokenize함
print(word_tokenize(para))

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'out', 'text', 'mining', 'class', '!']


In [7]:
# word_tokenize 와 WordPunctTokenizer 는 약간의 차이를 보임 (Apostrophe)

from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(para))

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'out', 'text', 'mining', 'class', '!']


In [8]:
print(word_tokenize(para_kor))

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '이제', '텍스트마이닝', '클래스를', '시작해봅시다', '!']


## 2.3 정규표현식을 이용한 토큰화 

In [9]:
import re

re.findall("[abce]", "How are you, Alice?")

['a', 'e', 'c', 'e']

In [10]:
re.findall('[0123456789]', "3a7b5c9d")

['3', '7', '5', '9']

In [11]:
re.findall("[\w]", "3a 7b_'.^&5c9d")

['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']

In [12]:
re.findall("[_]+", "a_b, c__d, e___f")

['_', '__', '___']

In [13]:
re.findall("[_]", "a_b, c__d, e___f")

['_', '_', '_', '_', '_', '_']

In [14]:
re.findall("[\w]+", "How are you, Alice?")

['How', 'are', 'you', 'Alice']

In [15]:
re.findall("[\w,]+", "How are you, Alice?")

['How', 'are', 'you,', 'Alice']

In [16]:
re.findall("[\w,?]+", "How are you, Alice?")

['How', 'are', 'you,', 'Alice?']

In [17]:
# 찾고싶은 단어의 개수를 제한에서 보여줄 때

re.findall("[o]{2,4}", "oh, hoow are yoooou, booooooy?")

['oo', 'oooo', 'oooo', 'oo']

In [18]:
# 정규식(regular expression)을 이용한 tokenizer ## 중요중요

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+")

print(tokenizer.tokenize("Sorry, I can't go there."))

['Sorry', 'I', "can't", 'go', 'there']


In [19]:
text1 = "Sorry, I can't go there."
tokenizer = RegexpTokenizer("[\w']{3,}")
print(tokenizer.tokenize(text1.lower()))

['sorry', "can't", 'there']


## 2.4 노이즈와 불용어 제거

In [20]:
# 일반적으로 분석 대상이 아닌 단어들 : stopwords 에 있음

from nltk.corpus import stopwords 

english_stops = set(stopwords.words("english"))  # 반복이 되지 않도록 set으로 변환

text1 = "Sorry, I couldn't go to movie yesterday."

tokenizer = RegexpTokenizer("[\w']+")
tokens = tokenizer.tokenize(text1.lower()) # word_tokenize로 토큰화

result = [word for word in tokens if word not in english_stops] # stopwords를 제외한 단어들만으로 list를 생성
print(result)


['sorry', 'go', 'movie', 'yesterday']


In [21]:
# nltk가 제공하는 영어 stopwords

# print(english_stops)
print(set(stopwords.words("english")))

{'weren', 'do', 'should', 'aren', "needn't", 'mustn', 'i', 'but', 'through', "didn't", 'this', 'him', 'my', 'ain', 'couldn', "wasn't", 'are', 'if', 'again', "you'd", 'hasn', 'no', 'them', 'over', 'why', 'she', "mustn't", 'o', 'that', 'very', 'did', 'where', "haven't", 'both', 'what', 'ourselves', "shan't", 'yours', "weren't", 'her', 'been', 's', 'below', 'don', 'does', 'will', 'how', 'above', "she's", 'himself', 'myself', 'whom', 'not', 'themselves', "wouldn't", 'before', 've', 're', 'having', "that'll", 'into', 'once', 'was', 'by', 'they', 'against', 'with', 'doesn', 'y', 'hers', 'all', "should've", 'ours', "you're", 'same', 'on', "couldn't", 'or', 'of', 'so', 't', "you've", 'am', 'there', 'other', 'too', "don't", "shouldn't", 'during', 'out', 'here', 'some', 'as', 'shan', 'wasn', 'his', 'our', 'down', 'herself', 'any', 'll', 'own', 'an', 'because', 'has', 'those', 'than', 'now', 'wouldn', 'it', 'such', 'itself', "you'll", 'then', 'until', 'under', 'only', 'your', 'off', 'about', 'bei

--- 

# 2. 정규화(Normalization)

## 2.1 어간 추출(Stemming)

In [22]:
# 어간이란? : 활용 시 변하지 않는 부분 (ex. 찾- / 어미: 변하는 부분)

from nltk.stem import PorterStemmer 

stemmer = PorterStemmer()

print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))


cook cookeri cookbook


In [23]:
from nltk.tokenize import word_tokenize 

para = "Hello everyone. It's good to see you. Let's start our text mining class!"
tokens = word_tokenize(para)
print("word_tokenize를 사용하여 나옴:", tokens)  # list 형태로 나옴

result = [stemmer.stem(token) for token in tokens]
print("어간을 구했을 때:",result)



word_tokenize를 사용하여 나옴: ['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']
어간을 구했을 때: ['hello', 'everyon', '.', 'it', "'s", 'good', 'to', 'see', 'you', '.', 'let', "'s", 'start', 'our', 'text', 'mine', 'class', '!']


## 2.2 표제어 추출(Lemmatization)

In [24]:
# 표제어란? : 사전에 실어 알기쉽게 풀이해 놓은 말
# ex) am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be라고 볼 수 있음. 이때, 이 단어들의 표제어는 be 

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize("cooking"))
print(lemmatizer.lemmatize("cookery"))
print(lemmatizer.lemmatize("cooker"))
print(lemmatizer.lemmatize("cookbooks"))
print(lemmatizer.lemmatize("cooking", pos='v'))  # 품사 지정

cooking
cookery
cooker
cookbook
cook


## ** - 어간 추출: 품사 정보가 보존되지 않음**
## ** - 표제어 추출: 문맥을 고려하며 수행했을 때의 결과는 해당 단어의 품사 정보를 보존함**
## *** 더 정확히는 어간 추출을 한 결과는 사전에 존재하지 않는 단어일 경우가 많다 ***

In [25]:
# comparision of lemmatizing & stemming

from nltk.stem import PorterStemmer 

stemmer = PorterStemmer()

print('stemming result: ', stemmer.stem('believes'))
print('lemmatizing result: ', lemmatizer.lemmatize('believes'))
print('lemmatizing result: ', lemmatizer.lemmatize('believes', pos='v'))

stemming result:  believ
lemmatizing result:  belief
lemmatizing result:  believe


# 3. 품사 태깅(Part-of-Speech Tagging)

## 3.1 품사의 이해

## 3.2 NLTK를 이용한 품사 태깅

In [26]:
import nltk
from nltk.tokenize import word_tokenize

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!")
print(tokens)

print(nltk.pos_tag(tokens))

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']
[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]


In [27]:
import nltk
nltk.download('tagsets')

[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.


True

In [28]:
# 줄인 말이 어떤 품사를 의미하는지 확인

nltk.help.upenn_tagset('CC')

CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet


In [29]:
# 내가 뽑고 싶은 품사만 tagging 하기

my_tag_set = ['NN', 'VB', 'JJ']

my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]

print(my_words)


['everyone', 'good', 'see', 'Let', 'start', 'text', 'mining', 'class']


In [30]:
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]    # join 함수는 매개변수로 들어온 리스트에 있는 요소 하나하나를 합쳐서 하나의 문자열로 바꾸어 반환하는 함수

for item in nltk.pos_tag(tokens):
  print(item)

print(words_with_tag)

('Hello', 'NNP')
('everyone', 'NN')
('.', '.')
('It', 'PRP')
("'s", 'VBZ')
('good', 'JJ')
('to', 'TO')
('see', 'VB')
('you', 'PRP')
('.', '.')
('Let', 'VB')
("'s", 'POS')
('start', 'VB')
('our', 'PRP$')
('text', 'NN')
('mining', 'NN')
('class', 'NN')
('!', '.')
['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN', '!/.']


## 3.3 한글 형태소 분석과 품사 태깅

In [31]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

In [32]:
tokens = word_tokenize(sentence)
print(tokens)

print(nltk.pos_tag(tokens)) # 한글소 품사 태깅은 nltk로 잘 안됨

['절망의', '반대가', '희망은', '아니다', '.', '어두운', '밤하늘에', '별이', '빛나듯', '희망은', '절망', '속에', '싹트는', '거지', '만약에', '우리가', '희망함이', '적다면', '그', '누가', '세상을', '비출어줄까', '.', '정희성', ',', '희망', '공부']
[('절망의', 'JJ'), ('반대가', 'NNP'), ('희망은', 'NNP'), ('아니다', 'NNP'), ('.', '.'), ('어두운', 'VB'), ('밤하늘에', 'JJ'), ('별이', 'NNP'), ('빛나듯', 'NNP'), ('희망은', 'NNP'), ('절망', 'NNP'), ('속에', 'NNP'), ('싹트는', 'NNP'), ('거지', 'NNP'), ('만약에', 'NNP'), ('우리가', 'NNP'), ('희망함이', 'NNP'), ('적다면', 'NNP'), ('그', 'NNP'), ('누가', 'NNP'), ('세상을', 'NNP'), ('비출어줄까', 'NNP'), ('.', '.'), ('정희성', 'NN'), (',', ','), ('희망', 'NNP'), ('공부', 'NNP')]


## KoNLPy 설치

https://konlpy.org/ko/latest/install/

In [33]:
pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.8 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (453 kB)
[K     |████████████████████████████████| 453 kB 24.6 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.0 konlpy-0.6.0


In [34]:
from konlpy.tag import Okt
t = Okt()

In [35]:
print('형태소: ', t.morphs(sentence))
print()

print('명사: ', t.nouns(sentence))
print()

print('품사 태깅 결과: ', t.pos(sentence))
print()


형태소:  ['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비출어줄까', '.', '\n', '정희성', ',', '희망', '공부']

명사:  ['절망', '반대', '희망', '어', '두운', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '우리', '희망', '함', '그', '누가', '세상', '정희성', '희망', '공부']

품사 태깅 결과:  [('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('어', 'Noun'), ('두운', 'Noun'), ('밤하늘', 'Noun'), ('에', 'Josa'), ('별', 'Noun'), ('이', 'Josa'), ('빛나듯', 'Verb'), ('\n', 'Foreign'), ('희망', 'Noun'), ('은', 'Josa'), ('절망', 'Noun'), ('속', 'Noun'), ('에', 'Josa'), ('싹트는', 'Verb'), ('거지', 'Noun'), ('\n', 'Foreign'), ('만약', 'Noun'), ('에', 'Josa'), ('우리', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('함', 'Noun'), ('이', 'Josa'), ('적다면', 'Verb'), ('\n', 'Foreign'), ('그', 'Noun'), ('누가', 'Noun'), (