# 표제어 추출 ( Lemmatization )   
   
말뭉치(코퍼스)의 단어의 갯수를 줄일 수 있는 기법 - 차원 낮추기?
be 동사 : be, am, are, is   
공부하다 : 공부하고, 공부 때문에, 공부여서 등등...   
   
- 분석시에 단어 빈도수 기반으로 진행 => 자연어 처리 단계에서 상당히 자주 사용   
- 형태소로부터 단어를 만들어가는 방식   
  - 어간(stem) : 의미가 있는, 단어의 핵심 부분
  - 접사(affix) : 단어에 추가적인 의미를 부여하는 부분   
     
  형태학적 파싱 : 코퍼스에서 어간과 접사를 분리하는 것   
  ex) students => student + s



In [1]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [2]:
# 표제어 추출을 위한 도구
# WordNetLemmatizer
from nltk.stem import WordNetLemmatizer
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [4]:
lemmatizer = WordNetLemmatizer()

words  = ['sky', 'computer', 'having', 'lives', 'love', 'mouse' ,'dies', 'listened', 'ate', 'has']
print('추출 전 : ' , words)
print("추출 후 : ", [lemmatizer.lemmatize(word) for word in words])

추출 전 :  ['sky', 'computer', 'having', 'lives', 'love', 'mouse', 'dies', 'listened', 'ate', 'has']
추출 후 :  ['sky', 'computer', 'having', 'life', 'love', 'mouse', 'dy', 'listened', 'ate', 'ha']


In [5]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [6]:
lemmatizer.lemmatize('listened', 'v')

'listen'

In [11]:
lemmatizer.lemmatize('better', 'a')

# v: 동사 / a : 형용사 / n : 명사 / r : 부사

'good'

# 어간 추출(Stemming)

In [13]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [15]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

In [17]:
sentence = """The practical thing was to find rooms in the city, but it was a warm season, and I had just left a country of wide lawns and friendly trees, so when a young man at the office suggested that we take a house together in a commuting town, it sounded like a great idea."""


In [19]:
stemmer = PorterStemmer()

word2 = word_tokenize(sentence)
print(word2)
print([stemmer.stem(w) for w in word2])

['The', 'practical', 'thing', 'was', 'to', 'find', 'rooms', 'in', 'the', 'city', ',', 'but', 'it', 'was', 'a', 'warm', 'season', ',', 'and', 'I', 'had', 'just', 'left', 'a', 'country', 'of', 'wide', 'lawns', 'and', 'friendly', 'trees', ',', 'so', 'when', 'a', 'young', 'man', 'at', 'the', 'office', 'suggested', 'that', 'we', 'take', 'a', 'house', 'together', 'in', 'a', 'commuting', 'town', ',', 'it', 'sounded', 'like', 'a', 'great', 'idea', '.']
['the', 'practic', 'thing', 'wa', 'to', 'find', 'room', 'in', 'the', 'citi', ',', 'but', 'it', 'wa', 'a', 'warm', 'season', ',', 'and', 'i', 'had', 'just', 'left', 'a', 'countri', 'of', 'wide', 'lawn', 'and', 'friendli', 'tree', ',', 'so', 'when', 'a', 'young', 'man', 'at', 'the', 'offic', 'suggest', 'that', 'we', 'take', 'a', 'hous', 'togeth', 'in', 'a', 'commut', 'town', ',', 'it', 'sound', 'like', 'a', 'great', 'idea', '.']


# PorterStemmer   
이미 정의해 둔 규칙 기반의 접근 => 섬세한 작업 X, 사전에 없는 단어가 나올수도   
# 마틴 포터(라이브러리 제작자) 의 홈페이지에서 자세한 규칙 확인 가능   
- ~~ALIZE -> -AL
- ~~ANCE -> 부분 삭제
- ~~ICAL => -IC

In [20]:
word  = ['channelize', 'allowance' , 'typical']

print("추출전 : ", word)
print("추출후 : ", [stemmer.stem(w) for w in word])

추출전 :  ['channelize', 'allowance', 'typical']
추출후 :  ['channel', 'allow', 'typic']


In [22]:
# NLTK 에서는 포터 알고리즘 외에도 랭커스터 스테머(Lancaster Stemmer) 알고리즘을 지원
from nltk.stem import LancasterStemmer

In [24]:
lancaster = LancasterStemmer()
print("Porter : ", [stemmer.stem(w) for w in words])
print("Lancaster : ", [lancaster.stem(w) for w in words])

Porter :  ['sky', 'comput', 'have', 'live', 'love', 'mous', 'die', 'listen', 'ate', 'ha']
Lancaster :  ['sky', 'comput', 'hav', 'liv', 'lov', 'mous', 'die', 'list', 'at', 'has']


# 불용어 (StopWord)   
   
단어들 중에서 의미가 없는 단어   
   
데이터 중에서 의미가 있는 단어 토큰만 취급하기위해서 의미를 가지지 않은 단어들을 제거하는 작업

In [29]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [30]:
# NLTK에 있는 불용어
s = stopwords.words('english')
print(len(s))
print(s[:20])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [33]:
sentence = """The practical thing was to find rooms in the city, but it was a warm season, and I had just left a country of wide lawns and friendly trees, so when a young man at the office suggested that we take a house together in a commuting town, it sounded like a great idea."""

# NLTK에서 지정한 불용어 가져오기
sw = set(stopwords.words('english'))
# print(sw)

# 문장을 단어로 쪼개는 작업
word = word_tokenize(sentence)

# 불용어가 아닌 단어만 리스트에 담아서 출력
result = []
for w in word:
  if w not in sw:
    result.append(w)

print("불용어 제거 전 : ", word)
print("불용어 제거 후 : ", result)

불용어 제거 전 :  ['The', 'practical', 'thing', 'was', 'to', 'find', 'rooms', 'in', 'the', 'city', ',', 'but', 'it', 'was', 'a', 'warm', 'season', ',', 'and', 'I', 'had', 'just', 'left', 'a', 'country', 'of', 'wide', 'lawns', 'and', 'friendly', 'trees', ',', 'so', 'when', 'a', 'young', 'man', 'at', 'the', 'office', 'suggested', 'that', 'we', 'take', 'a', 'house', 'together', 'in', 'a', 'commuting', 'town', ',', 'it', 'sounded', 'like', 'a', 'great', 'idea', '.']
불용어 제거 후 :  ['The', 'practical', 'thing', 'find', 'rooms', 'city', ',', 'warm', 'season', ',', 'I', 'left', 'country', 'wide', 'lawns', 'friendly', 'trees', ',', 'young', 'man', 'office', 'suggested', 'take', 'house', 'together', 'commuting', 'town', ',', 'sounded', 'like', 'great', 'idea', '.']


# 한글로 불용어 처리   
  
- 문장 토큰화 -> 조사 or 접속사가 같이 토큰화 됨
이 중에서 필요없는 것들을 제거하는 형태로 불용어 처리가 이루어짐   
   
- 그래서 한국어의 경우에는 사용자가 직접 불용어를 지정해서 사용하는 경우가 많음   
   


In [36]:
pip install Konlpy

Collecting Konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from Konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m30.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m12.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, Konlpy
Successfully installed JPype1-1.5.0 Konlpy-0.6.0


In [37]:
from konlpy.tag import Okt

In [38]:
okt = Okt()

ex = "점심 먹고 나서 피곤하시죠? 여러분은 어떤 메뉴를 드셨나요? 저는 초밥을 먹었습니다."
sw = "를 어떤 는 은 을"

sw = set(sw.split())
# 형태소 분석
token = okt.morphs(ex)

result = [word for word in token if not word in sw]

print("불용어 제거 전 : ", token)
print("불용어 제거 후 : ", result)



불용어 제거 전 :  ['점심', '먹고', '나서', '피곤하시죠', '?', '여러분', '은', '어떤', '메뉴', '를', '드셨나요', '?', '저', '는', '초밥', '을', '먹었습니다', '.']
불용어 제거 후 :  ['점심', '먹고', '나서', '피곤하시죠', '?', '여러분', '메뉴', '드셨나요', '?', '저', '초밥', '먹었습니다', '.']


# 정수 인코딩 ( Integer Encoding )   
   
컴퓨터의 입장에서는 텍스트보다는 숫자를 조금 더 쉽게 처리 가능   
   
텍스트에 정수를 부여하는 방법   
1. 단어를 빈도수를 기준으로 정렬   
2. 정렬된 집합 구성   
3. 빈도가 높은 순 -> 낮은 순으로 숫자를 부여

In [40]:
# 영어 동요
text = """Twinkle, twinkle, little star.
How I wonder what you are!.
Up above the world so high.
Like a diamond in the sky.

When the blazing sun is gone.
When he nothing shines upon.
Then you show your little light.
Twinkle, twinkle, all the night.

Then the trav'ller in the dark.
Thanks you for your tiny spark.
He could not see which way to go.
If you did not twinkle so.

In the dark blue sky you keep.
And often thro' my curtains peep.
For you never shut your eye.
Till the sun is in the sky.

'Tis your bright and tiny spark.
Lights the trav'ller in the dark.
Tho' I know not what you are.
Twinkle, twinkle, little star.
"""

In [39]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [42]:
# 문장 토큰화
sentence = sent_tokenize(text)
sentence

['Twinkle, twinkle, little star.',
 'How I wonder what you are!.',
 'Up above the world so high.',
 'Like a diamond in the sky.',
 'When the blazing sun is gone.',
 'When he nothing shines upon.',
 'Then you show your little light.',
 'Twinkle, twinkle, all the night.',
 "Then the trav'ller in the dark.",
 'Thanks you for your tiny spark.',
 'He could not see which way to go.',
 'If you did not twinkle so.',
 'In the dark blue sky you keep.',
 "And often thro' my curtains peep.",
 'For you never shut your eye.',
 'Till the sun is in the sky.',
 "'Tis your bright and tiny spark.",
 "Lights the trav'ller in the dark.",
 "Tho' I know not what you are.",
 'Twinkle, twinkle, little star.']

In [47]:
# 단어 토큰화 => 불용어를 뺀 단어 토큰들을 list에 담기

sw = set(stopwords.words('english'))
final_sentence = []
aa = {}

for s in sentence:
  word  = word_tokenize(s)
  result = []
  for w in word:
    w = w.lower() # 모든 단어들을 소문자로 변환( 가능한 가짓수 줄이기 )
    if w not in sw:
      if len(w) > 2:
        result.append(w)
        if w not in aa:
          aa[w] = 0
        aa[w] +=1
  final_sentence.append(result)
print(final_sentence)
print(aa)


[['twinkle', 'twinkle', 'little', 'star'], ['wonder'], ['world', 'high'], ['like', 'diamond', 'sky'], ['blazing', 'sun', 'gone'], ['nothing', 'shines', 'upon'], ['show', 'little', 'light'], ['twinkle', 'twinkle', 'night'], ["trav'ller", 'dark'], ['thanks', 'tiny', 'spark'], ['could', 'see', 'way'], ['twinkle'], ['dark', 'blue', 'sky', 'keep'], ['often', 'thro', 'curtains', 'peep'], ['never', 'shut', 'eye'], ['till', 'sun', 'sky'], ['bright', 'tiny', 'spark'], ['lights', "trav'ller", 'dark'], ['tho', 'know'], ['twinkle', 'twinkle', 'little', 'star']]
{'twinkle': 7, 'little': 3, 'star': 2, 'wonder': 1, 'world': 1, 'high': 1, 'like': 1, 'diamond': 1, 'sky': 3, 'blazing': 1, 'sun': 2, 'gone': 1, 'nothing': 1, 'shines': 1, 'upon': 1, 'show': 1, 'light': 1, 'night': 1, "trav'ller": 2, 'dark': 3, 'thanks': 1, 'tiny': 2, 'spark': 2, 'could': 1, 'see': 1, 'way': 1, 'blue': 1, 'keep': 1, 'often': 1, 'thro': 1, 'curtains': 1, 'peep': 1, 'never': 1, 'shut': 1, 'eye': 1, 'till': 1, 'bright': 1, 'li

In [48]:
# 'little' 단어의 빈도수
print(aa['little'])

3


In [49]:
# sorted() 함수 : 빈도수대로 정렬
# sorted(정렬할 데이터, key 옵션, reverse 옵션)
#   key 옵션 : 어떤것을 기준으로 정렬할지 (key에 준 값으로 정렬)
#   reverse 옵션 : False(default) -> 오름차순 정렬이 기본값

# sort() vs sorted() :
# sort()는 리스트 자체를 정렬해서 바꾸는 형태
# sorted()는 원래 리스트는 그대로 두고, 정렬한 것을 새로운 리스트에 넣는 형태

#람다 함수 : dict의 1번째 값(빈도수)를 대상으로 정렬하겠다는 선언
aaSort = sorted(aa.items(), key = lambda x : x[1], reverse=True)
print(aaSort)

[('twinkle', 7), ('little', 3), ('sky', 3), ('dark', 3), ('star', 2), ('sun', 2), ("trav'ller", 2), ('tiny', 2), ('spark', 2), ('wonder', 1), ('world', 1), ('high', 1), ('like', 1), ('diamond', 1), ('blazing', 1), ('gone', 1), ('nothing', 1), ('shines', 1), ('upon', 1), ('show', 1), ('light', 1), ('night', 1), ('thanks', 1), ('could', 1), ('see', 1), ('way', 1), ('blue', 1), ('keep', 1), ('often', 1), ('thro', 1), ('curtains', 1), ('peep', 1), ('never', 1), ('shut', 1), ('eye', 1), ('till', 1), ('bright', 1), ('lights', 1), ('tho', 1), ('know', 1)]


In [50]:
# 빈도수가 높을수록 낮은 정수값을 부여 (정수는 1부터 부여)
# 빈도수가 1 이하인 것들은 삭제
# {'twinkle': 1, 'little':2, 'star':3, ... }

aa_index = {}
i = 0
for (word, frequency) in aaSort:
  if frequency >1:
    i += 1
    aa_index[word] = i

print(aa_index)

{'twinkle': 1, 'little': 2, 'sky': 3, 'dark': 4, 'star': 5, 'sun': 6, "trav'ller": 7, 'tiny': 8, 'spark': 9}


In [51]:
# 단어의 빈도수가 가장 높은 상위 5개만 가져오기
freSize = 5

# 인덱스가 6이상인 단어들을 aa_final이라는 변수에 담기
aa_final = [w for (w,index) in aa_index.items() if index >= freSize +1]

for w in aa_final:
  del aa_index[w]

print(aa_index)

{'twinkle': 1, 'little': 2, 'sky': 3, 'dark': 4, 'star': 5}


In [None]:
# {'twinkle': 1, 'little': 2, 'sky': 3, 'dark': 4, 'star': 5, 'coffee'}
# >> aa_index에 더이상 존재하지 않는 단어 추가되는 경우...?
# [1,2,3,4,5, ???]

# Out-Of-Vocabulary : 단어 집합에 없는 단어 (OOV)
# aa_index에 OOV 라는 단어가 있는 자리를 하나 만들고, 그 단어집합에 존재하지 않는 단어를 OOV의 값으로 인코딩


In [52]:
aa_index['OOV'] = len(aa_index) + 1
print(aa_index)
#

{'twinkle': 1, 'little': 2, 'sky': 3, 'dark': 4, 'star': 5, 'OOV': 6}


In [54]:
# 문장마다 텍스트 대신에 그 자리에 해당하는 인덱스 넣기
# 문장마다 단어로 토큰화 한 변수 : final_sentence

encoding_sentences = []
for fs in final_sentence:
  encoding_sentence = []
  for w in fs:
    try:
      # 단어 집합에 있는 단어인 경우, 해당 단어의 정수값을 넣기
      encoding_sentence.append(aa_index[w])
    except KeyError:
      # 단어 집합에 없는 단어인 경우, OOV의 정수값을 넣기
      encoding_sentence.append(aa_index['OOV'])
  encoding_sentences.append(encoding_sentence)
print(encoding_sentences)

[[1, 1, 2, 5], [6], [6, 6], [6, 6, 3], [6, 6, 6], [6, 6, 6], [6, 2, 6], [1, 1, 6], [6, 4], [6, 6, 6], [6, 6, 6], [1], [4, 6, 3, 6], [6, 6, 6, 6], [6, 6, 6], [6, 6, 3], [6, 6, 6], [6, 6, 4], [6, 6], [1, 1, 2, 5]]
