# 표제어 추출 (Lemmatization)

말뭉치(코퍼스)의 단어의 갯수를 줄일 수 있는 기법

be 동사 : be, am ,are, is

공부하다 : 공부하고, 공부때문에, 공부여서, 공부덕분에, ...

- 분석시에 단어 빈도수 기반으로 진행 => 자연어 처리 단계에서 상당히 자주 사용

- 형태소로부터 단어를 만들어가는...
  - 어간(stem) : 의미가 있는 단어의 핵심부분
  - 접사(affix) : 단어에 추가적인 의미를 부여하는 부분

  형태학적 파싱 : 코퍼스에서 어간과 접사를 분리하는 것

ex) students => student + s

In [1]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [2]:
# WordNetLemmatizer : NLTK에서 지원하는 표제어 추출 도구
from nltk.stem import WordNetLemmatizer
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [3]:
lemmatizer = WordNetLemmatizer()

words = ['sky', 'computer', 'having', 'lives', 'love', 'mouse', 'dies', 'listened', 'ate', 'has']
print('추출 전 : ', words)
print('추출 후 : ', [lemmatizer.lemmatize(word) for word in words])

추출 전 :  ['sky', 'computer', 'having', 'lives', 'love', 'mouse', 'dies', 'listened', 'ate', 'has']
추출 후 :  ['sky', 'computer', 'having', 'life', 'love', 'mouse', 'dy', 'listened', 'ate', 'ha']


In [4]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [5]:
lemmatizer.lemmatize('listened', 'v')

'listen'

In [6]:
lemmatizer.lemmatize('better', 'a')

# v : 동사 / a : 형용사 / n : 명사 / r : 부사

'good'

# 어간 추출(Stemming)

In [7]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [8]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

In [9]:
sentence = """I have repeated several of the illustrations used in “The Authoress of the Odyssey”, and have added two which I hope may bring the outer court of Ulysses’ house more vividly before the reader. I should like to explain that the presence of a man and a dog in one illustration is accidental, and was not observed by me till I developed the negative. In an appendix I have also reprinted the paragraphs explanatory of the plan of Ulysses’ house, together with the plan itself. The reader is recommended to study this plan with some attention."""

In [10]:
stemmer = PorterStemmer()

words2 = word_tokenize(sentence)
print(words2)
print([stemmer.stem(w) for w in words2])

['I', 'have', 'repeated', 'several', 'of', 'the', 'illustrations', 'used', 'in', '“', 'The', 'Authoress', 'of', 'the', 'Odyssey', '”', ',', 'and', 'have', 'added', 'two', 'which', 'I', 'hope', 'may', 'bring', 'the', 'outer', 'court', 'of', 'Ulysses', '’', 'house', 'more', 'vividly', 'before', 'the', 'reader', '.', 'I', 'should', 'like', 'to', 'explain', 'that', 'the', 'presence', 'of', 'a', 'man', 'and', 'a', 'dog', 'in', 'one', 'illustration', 'is', 'accidental', ',', 'and', 'was', 'not', 'observed', 'by', 'me', 'till', 'I', 'developed', 'the', 'negative', '.', 'In', 'an', 'appendix', 'I', 'have', 'also', 'reprinted', 'the', 'paragraphs', 'explanatory', 'of', 'the', 'plan', 'of', 'Ulysses', '’', 'house', ',', 'together', 'with', 'the', 'plan', 'itself', '.', 'The', 'reader', 'is', 'recommended', 'to', 'study', 'this', 'plan', 'with', 'some', 'attention', '.']
['i', 'have', 'repeat', 'sever', 'of', 'the', 'illustr', 'use', 'in', '“', 'the', 'authoress', 'of', 'the', 'odyssey', '”', ','

# PorterStemmer : 알고리즘

규칙 기반의 접근 => 어림짐작하는 작업 => 섬세한 작업 X => 사전에 없는 단어가 도출될수도...!

- 마틴포터 홈페이지에서 다양한 것들을 살펴볼 수 있음
- 규칙 기반의 접근
  - -ALIZE = -AL
  - -ANCE => 삭제
  - -ICAL => -IC

In [11]:
word = ['channelize', 'allowance', 'typical']

print('추출 전 : ', word)
print('추출 후 : ', [stemmer.stem(w) for w in word])

추출 전 :  ['channelize', 'allowance', 'typical']
추출 후 :  ['channel', 'allow', 'typic']


In [12]:
# NLTK에서는 포터 알고리즘 외에도 랭커스터 스태머(Lancaster Stemmer) 알고리즘을 지원
from nltk.stem import LancasterStemmer

In [13]:
lancaster = LancasterStemmer()

In [14]:
print([stemmer.stem(w) for w in words])
print()
print([lancaster.stem(w) for w in words])

# 두 스태머가 다른 결과를 보여줌
# 두 스태머는 서로 다른 알고리즘을 사용하기 때문!
# 제대로 된 표제어를 뽀아오지는 못하고 있음

['sky', 'comput', 'have', 'live', 'love', 'mous', 'die', 'listen', 'ate', 'ha']

['sky', 'comput', 'hav', 'liv', 'lov', 'mous', 'die', 'list', 'at', 'has']


# 불용어 (Stopword)

단어들 중에서 의미가 없는 단어

데이터 중에서 의미가 있는 단어 토큰만 취급하기 위해서 의미를 가지지 않은 단어들을 제거하는 작업

In [16]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [17]:
from nltk.corpus import stopwords

In [18]:
# NLTK에 있는 불용어
s = stopwords.words('english')
print(len(s))
print(s[:20])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [20]:
sentence = """I have repeated several of the illustrations used in “The Authoress of the Odyssey”, and have added two which I hope may bring the outer court of Ulysses’ house more vividly before the reader. I should like to explain that the presence of a man and a dog in one illustration is accidental, and was not observed by me till I developed the negative. In an appendix I have also reprinted the paragraphs explanatory of the plan of Ulysses’ house, together with the plan itself. The reader is recommended to study this plan with some attention."""

# NLTK에서 지정한 불용어 가져오기
sw = set(stopwords.words('english'))
# print(sw)

# 문장을 단어로 쪼개는 작업
word = word_tokenize(sentence)

# 불용어가 아닌 단어들만 list에 담아서 출력
result = []
for w in word:
  if w not in sw:
    result.append(w)

print(word)
print(result)

['I', 'have', 'repeated', 'several', 'of', 'the', 'illustrations', 'used', 'in', '“', 'The', 'Authoress', 'of', 'the', 'Odyssey', '”', ',', 'and', 'have', 'added', 'two', 'which', 'I', 'hope', 'may', 'bring', 'the', 'outer', 'court', 'of', 'Ulysses', '’', 'house', 'more', 'vividly', 'before', 'the', 'reader', '.', 'I', 'should', 'like', 'to', 'explain', 'that', 'the', 'presence', 'of', 'a', 'man', 'and', 'a', 'dog', 'in', 'one', 'illustration', 'is', 'accidental', ',', 'and', 'was', 'not', 'observed', 'by', 'me', 'till', 'I', 'developed', 'the', 'negative', '.', 'In', 'an', 'appendix', 'I', 'have', 'also', 'reprinted', 'the', 'paragraphs', 'explanatory', 'of', 'the', 'plan', 'of', 'Ulysses', '’', 'house', ',', 'together', 'with', 'the', 'plan', 'itself', '.', 'The', 'reader', 'is', 'recommended', 'to', 'study', 'this', 'plan', 'with', 'some', 'attention', '.']
['I', 'repeated', 'several', 'illustrations', 'used', '“', 'The', 'Authoress', 'Odyssey', '”', ',', 'added', 'two', 'I', 'hope'

# 한국어 불용어 제거하기

- 토큰화 => 조사 or 접속사같이 명사 or 형용사에서 필요 없는 단어들을 제거

- 한국어의 경우에는 사용자가 직접 불용어를 지정해서 사용하는 경우가 많음

In [21]:
!pip install Konlpy

Collecting Konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from Konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m65.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m28.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, Konlpy
Successfully installed JPype1-1.5.0 Konlpy-0.6.0


In [22]:
from konlpy.tag import Okt

In [None]:
okt = Okt()

ex = "점심 먹고 나서 피곤하시죠? 여러분은 어떤 메뉴를 드셨나요? 저는 초밥을 먹었습니다."
sw = "를 어떤 는 은 을"

sw = set(sw.split(' '))
token = okt.morphs(ex) # 형태소 분석

result = [w for w in token if w not in sw]

print(token) # 불용어 제거 전
print()
print(result) # 불용어 제거 후


# 정수 인코딩 (Integer Encoding)

컴퓨터의 입장에서는 텍스트보다는 숫자를 더 쉽게 처리하는 경향이 있음

텍스트에 정수를 부여하는 방법
1. 단어를 빈도수를 기준으로 정렬
2. 정렬된 집합 구성
3. 빈도가 높은순 => 낮은순으로 숫자를 부여

In [26]:
# 영어 동요
text = """Twinkle, twinkle little star.
How I wonder what you are.
Up above the world so high.
Like a diamond in the sky.
Twinkle, twinkle little star.
How I wonder what you are.
Twinkle, twinkle little star.
How I wonder what you are.
Up above the world so high.
Like a diamond in the sky.
Twinkle, twinkle little star.
How I wonder what you are.
"""

In [24]:
from nltk.tokenize import sent_tokenize # 영어 문장 토큰화
from nltk.tokenize import word_tokenize # 영어 단어 토큰화
from nltk.corpus import stopwords

In [27]:
# 문장 토큰화
sentence = sent_tokenize(text)
sentence

['Twinkle, twinkle little star.',
 'How I wonder what you are.',
 'Up above the world so high.',
 'Like a diamond in the sky.',
 'Twinkle, twinkle little star.',
 'How I wonder what you are.',
 'Twinkle, twinkle little star.',
 'How I wonder what you are.',
 'Up above the world so high.',
 'Like a diamond in the sky.',
 'Twinkle, twinkle little star.',
 'How I wonder what you are.']

In [28]:
# 단어 토큰화 => 불용어를 뺀 단어 토큰들을 list에 담기

sw = set(stopwords.words('english'))
final_sentence = []
aa = {}

for s in sentence:
  # 단어 토큰화
  word = word_tokenize(s)
  result = []
  for w in word:
    w = w.lower() # 모든 단어를 소문자화 => 단어 갯수를 줄이는데 도움 O
    if w not in sw:
      if len(w) > 2: # 단어 길이가 너무 짧은 것은 포함시키지 않겠다!
        result.append(w)
        if w not in aa:
          aa[w] = 0
        aa[w] += 1
  final_sentence.append(result)
print(final_sentence)
print(aa)

[['twinkle', 'twinkle', 'little', 'star'], ['wonder'], ['world', 'high'], ['like', 'diamond', 'sky'], ['twinkle', 'twinkle', 'little', 'star'], ['wonder'], ['twinkle', 'twinkle', 'little', 'star'], ['wonder'], ['world', 'high'], ['like', 'diamond', 'sky'], ['twinkle', 'twinkle', 'little', 'star'], ['wonder']]
{'twinkle': 8, 'little': 4, 'star': 4, 'wonder': 4, 'world': 2, 'high': 2, 'like': 2, 'diamond': 2, 'sky': 2}


In [29]:
# 'little' 단어의 빈도수
print(aa['little'])

4


In [30]:
# sorted() 함수 : 빈도수대로 정렬
# sorted(정렬할 데이터, key옵션, reverse옵션)
#   key 옵션 : 어떤 것을 기준으로 정렬할지 (key에 준 값으로 정렬)
#   reverse 옵션 : False(default) >> 오름차순

# sort() vs sorted() :
#   sort()는 리스트 자체를 정렬해서 바꾸는 형태
#   sorted()는 원래 리스트는 그대로 두고, 정렬한 것을 새로운 리스트에 넣는 형태

# key=lambda x: x[1] => x[1]의 값이 정렬의 기준 => 빈도수를 기준으로 정렬

aaSort = sorted(aa.items(), key=lambda x: x[1], reverse=True)
print(aaSort)

[('twinkle', 8), ('little', 4), ('star', 4), ('wonder', 4), ('world', 2), ('high', 2), ('like', 2), ('diamond', 2), ('sky', 2)]


In [31]:
# [높은 빈도수]를 가지고 있는 단어일수록 [낮은 정수값]을 부여 (정수는 1부터 부여)

# 빈도수가 1이하인것들은 삭제 (결과에 안나오게)
# {'twinkle' : 1, 'little' : 2, 'star' : 3, ...}

aa_index = {}
i = 0
for (word, frequency) in aaSort:
  if frequency > 1:
    i = i + 1
    aa_index[word] = i

print(aa_index)

{'twinkle': 1, 'little': 2, 'star': 3, 'wonder': 4, 'world': 5, 'high': 6, 'like': 7, 'diamond': 8, 'sky': 9}


In [32]:
# 단어 빈도수가 가장 높은 상위 5개 출력
freSize = 5

# 인덱스가 5초과(6이상)인 단어들을 aa_final이라는 변수에 담기
aa_final = [w for (w, index) in aa_index.items() if index >= freSize + 1]

for w in aa_final:
  del aa_index[w]

print(aa_index)

{'twinkle': 1, 'little': 2, 'star': 3, 'wonder': 4, 'world': 5}


In [33]:
# ['twinkle', 'little', 'star', 'wonder', 'world', 'coffee']
#      >> aa_index에 더이상 존재하지 않는 단어 추가
# [1, 2, 3, 4, 5, ??]
# Out-Of-Vocabulary : 단어 집합에 없는 단어 >> OOV
# aa_index에 'OOV'라는 단어가 있는 자리를 하나 만들고, 그 단어집합에 존재하지 않는 단어를
#   OOV의 인덱스로 인코딩

In [34]:
aa_index['OOV'] = len(aa_index) + 1
print(aa_index)

{'twinkle': 1, 'little': 2, 'star': 3, 'wonder': 4, 'world': 5, 'OOV': 6}


In [36]:
# 문장마다 텍스트 대신에 그 자리에 해당하는 인덱스로 변환
# 문장마다 단어로 토큰화 : final_sentence

encoding_sentences = []
for fs in final_sentence:
  encoding_sentence = []
  for w in fs:
    try:
      # 단어 집합에 있는 단어면 해당 단어의 정수를 넣어줌
      encoding_sentence.append(aa_index[w])
    except KeyError:
      # 단어 집합에 없는 단어면 OOV의 정수를 넣어줌
      encoding_sentence.append(aa_index['OOV'])
  encoding_sentences.append(encoding_sentence)
print(encoding_sentences)

[[1, 1, 2, 3], [4], [5, 6], [6, 6, 6], [1, 1, 2, 3], [4], [1, 1, 2, 3], [4], [5, 6], [6, 6, 6], [1, 1, 2, 3], [4]]
