<a href="https://colab.research.google.com/github/Whiteheim/WH/blob/main/Dec12_4_Text_PreProcessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 표제어 추출 (Lemmatization)

말뭉치(코퍼스)의 단어 개수를 줄일 수 있는 기법

be 동사 : be, am, are, is

공부하다 : 공부하고, 공부때문에, 공부여서, 공부덕분에, ...

* 분석시에 단어 빈도수 기반으로 진행 -> 자연어 처리 단계에서 상당히 자주 사용

* 형태소로부터 단어를 만들어가는 것 : 형태학
  * 어간(stem) : 의미가 있는 단어의 핵심부분
  * 접사(affix) : 단어에 추가적인 의미를 부여하는 부분 

  형태학적 파싱 : 코퍼스에서 어간과 접사를 분리하는 것

  ex) students => student + s

In [4]:
import nltk # 자연어 처리를 위한 패키지
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [10]:
# WordNetLemmatizer : NLTK에서 지원하는 표제어 추출도구
from nltk.stem import WordNetLemmatizer
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [12]:
lemmatizer = WordNetLemmatizer()

words = ['sky', 'computer', 'having', 'lives', 'love', 'mouse', 'dies', 'listend', 'ate', 'has']

print('추출 전 : ', words)
print('추출 후 : ', [lemmatizer.lemmatize(word) for word in words])

추출 전 :  ['sky', 'computer', 'having', 'lives', 'love', 'mouse', 'dies', 'listend', 'ate', 'has']
추출 후 :  ['sky', 'computer', 'having', 'life', 'love', 'mouse', 'dy', 'listend', 'ate', 'ha']


In [13]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [14]:
lemmatizer.lemmatize('listend', 'v')

'listend'

In [15]:
lemmatizer.lemmatize('better', 'a')

# v : 동사 / a : 형용사 / n : 명사 / r : 부사

'good'

# 어간 추출 (Stemming)



In [16]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [17]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

In [19]:
sentence = """
wraps up its second season on Sunday, and you know what that means: It’s time for somebody to die. Multiple somebodies, actually. As resort manager Valentina (Sabrina Impacciatore) learns from her unwitting romantic rival, Rocco (Federico Ferrante), in the flash-forward that opens the premiere, at least one guest has drowned—and there are “other bodies” somewhere, too. With the apparent exception of Daphne (Meghann Fahy), who is shown discovering a corpse floating in the Ionian Sea, victims could include just about any vacationer and a few of their Italian associates.
"""

In [22]:
stemmer = PorterStemmer()

words2 = word_tokenize(sentence)
print(words2)
print([stemmer.stem(w) for w in words2])

['wraps', 'up', 'its', 'second', 'season', 'on', 'Sunday', ',', 'and', 'you', 'know', 'what', 'that', 'means', ':', 'It', '’', 's', 'time', 'for', 'somebody', 'to', 'die', '.', 'Multiple', 'somebodies', ',', 'actually', '.', 'As', 'resort', 'manager', 'Valentina', '(', 'Sabrina', 'Impacciatore', ')', 'learns', 'from', 'her', 'unwitting', 'romantic', 'rival', ',', 'Rocco', '(', 'Federico', 'Ferrante', ')', ',', 'in', 'the', 'flash-forward', 'that', 'opens', 'the', 'premiere', ',', 'at', 'least', 'one', 'guest', 'has', 'drowned—and', 'there', 'are', '“', 'other', 'bodies', '”', 'somewhere', ',', 'too', '.', 'With', 'the', 'apparent', 'exception', 'of', 'Daphne', '(', 'Meghann', 'Fahy', ')', ',', 'who', 'is', 'shown', 'discovering', 'a', 'corpse', 'floating', 'in', 'the', 'Ionian', 'Sea', ',', 'victims', 'could', 'include', 'just', 'about', 'any', 'vacationer', 'and', 'a', 'few', 'of', 'their', 'Italian', 'associates', '.']
['wrap', 'up', 'it', 'second', 'season', 'on', 'sunday', ',', 'an

# PorterStemmer : 알고리즘 (사람이 만든 라이브러리)

규칙 기반의 접근 => 어림짐작하는 작업 => 섬세한 작업 X => 사전에 없는 단어가 도출 될 수도 있음
* 마틴포터 홈페이지에서 다양한 것들을 살펴볼 수 있음
* 규칙 기반의 접근
  * ~ALIZE => AL
  * ~ANCE => 삭제 
  * ~ICAL => IC

In [23]:
word = ['channelize', 'allowance', 'typical']

print('추출 전 : ', word)
print('추출 후 : ', [stemmer.stem(w) for w in word])

추출 전 :  ['channelize', 'allowance', 'typical']
추출 후 :  ['channel', 'allow', 'typic']


In [24]:
# NLTK에서는 포터 알고리즘 외에도 랭커스터 스태머(Lancaster Stemmer) 알고리즘을 지원
from nltk.stem import LancasterStemmer

In [25]:
lancaster = LancasterStemmer()

In [27]:
print([stemmer.stem(w) for w in words])
print()
print([lancaster.stem(w) for w in words])

# 두 스태머가 각각 다른 결과를 보여줌
# -> 서로 다른 알고리즘을 사용하기 때문
# 제대로 된 표제어를 뽑아오지는 못하고 있음

['sky', 'comput', 'have', 'live', 'love', 'mous', 'die', 'listend', 'ate', 'ha']

['sky', 'comput', 'hav', 'liv', 'lov', 'mous', 'die', 'listend', 'at', 'has']


# 불용어(Stopword)

단어들 중에서 의미가 없는 단어

데이터 중에서 의미가 있는 단어 토근만 취급하기 위해 의미를 가지지 않은 단어들을 제거하는 작업

In [28]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [29]:
from nltk.corpus import stopwords

In [33]:
# NLTK에 있는 불용어 
s = stopwords.words('english')
print(len(s))
print(s[:20])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [43]:
sentence = """
wraps up its second season on Sunday, and you know what that means: 
It’s time for somebody to die. Multiple somebodies, actually. 
As resort manager Valentina (Sabrina Impacciatore) learns from her unwitting romantic rival, 
Rocco (Federico Ferrante), in the flash-forward that opens the premiere, 
at least one guest has drowned—and there are “other bodies” somewhere, too. 
With the apparent exception of Daphne (Meghann Fahy), 
who is shown discovering a corpse floating in the Ionian Sea, 
victims could include just about any vacationer and a few of their Italian associates.
"""

# NLTK에서 지정한 불용어를 가져오기
sw = stopwords.words('english')
# 문장을 단어로 쪼개는 작업
# lcst = LancasterStemmer()
# words = [lcst.stem(w) for w in words]
word = word_tokenize(sentence)
# 불용어가 아닌 단어들만 list에 담아서 출력
# for w in words:
#   for s in range(len(sw)):
#     if w == sw[s]:
#       del words[s]
result = []
for w in word:
  if w not in sw:
    result.append(w)

print(word)
print(result)

['wraps', 'up', 'its', 'second', 'season', 'on', 'Sunday', ',', 'and', 'you', 'know', 'what', 'that', 'means', ':', 'It', '’', 's', 'time', 'for', 'somebody', 'to', 'die', '.', 'Multiple', 'somebodies', ',', 'actually', '.', 'As', 'resort', 'manager', 'Valentina', '(', 'Sabrina', 'Impacciatore', ')', 'learns', 'from', 'her', 'unwitting', 'romantic', 'rival', ',', 'Rocco', '(', 'Federico', 'Ferrante', ')', ',', 'in', 'the', 'flash-forward', 'that', 'opens', 'the', 'premiere', ',', 'at', 'least', 'one', 'guest', 'has', 'drowned—and', 'there', 'are', '“', 'other', 'bodies', '”', 'somewhere', ',', 'too', '.', 'With', 'the', 'apparent', 'exception', 'of', 'Daphne', '(', 'Meghann', 'Fahy', ')', ',', 'who', 'is', 'shown', 'discovering', 'a', 'corpse', 'floating', 'in', 'the', 'Ionian', 'Sea', ',', 'victims', 'could', 'include', 'just', 'about', 'any', 'vacationer', 'and', 'a', 'few', 'of', 'their', 'Italian', 'associates', '.']
['wraps', 'second', 'season', 'Sunday', ',', 'know', 'means', ':'

# 한글 불용어 제거하기
* 토큰화 -> 조사 or 접속사 같이 명사 or 형용사에서 필요없는 단어들을 제거하는 형태
* 한국어의 경우에는 사용자가 직접 불용어를 지정해서 사용하는 경우가 많음


In [47]:
!pip install Konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [49]:
from konlpy.tag import Okt

In [50]:
okt = Okt()

ex = "점심 먹고 나서 피곤하시죠? 여러분은 어떤 메뉴를 드셨나요? 저는 샐러드를 먹었습니다."
sw = "를 어떤 는 은"

sw = set(sw.split(' '))
token = okt.morphs(ex) # 형태소 분석

result = [w for w in token if w not in sw]

print(token) # 불용어 제거 전
print()
print(result) # 불용어 제거 후

['점심', '먹고', '나서', '피곤하시죠', '?', '여러분', '은', '어떤', '메뉴', '를', '드셨나요', '?', '저', '는', '샐러드', '를', '먹었습니다', '.']

['점심', '먹고', '나서', '피곤하시죠', '?', '여러분', '메뉴', '드셨나요', '?', '저', '샐러드', '먹었습니다', '.']


# 정수 인코딩 (Integer Encoding)

컴퓨터의 입장에서 텍스트보다는 숫자를 더 쉽게 처리하는 경향이 있음 

텍스트에 정수를 부여하는 방법
  1. 단어를 빈도수를 기준으로 정렬
  2. 정렬된 단어집합 구성
  3. 빈도가 높은순 -> 낮은순으로 숫자를 부여
  

In [54]:
# 영어 동요
text = """Daddy finger, daddy finger, where are you?
Here I am, here I am
How do you do?
Mommy finger, Mommy finger, where are you?
Here I am, here I am
How do you do?
Brother finger, Brother finger, where are you?
Here I am, here I am
How do you do?
Sister finger, Sister finger, where are you?
Here I am, here I am
How do you do?
Baby finger, Baby finger, where are you?
Here I am, here I am
How do you do?
Yeap
Finger family , Finger family, where are you?
Here we are, here we are
How do you do?
Hey
"""
text

'Daddy finger, daddy finger, where are you?\nHere I am, here I am\nHow do you do?\nMommy finger, Mommy finger, where are you?\nHere I am, here I am\nHow do you do?\nBrother finger, Brother finger, where are you?\nHere I am, here I am\nHow do you do?\nSister finger, Sister finger, where are you?\nHere I am, here I am\nHow do you do?\nBaby finger, Baby finger, where are you?\nHere I am, here I am\nHow do you do?\nYeap\nFinger family , Finger family, where are you?\nHere we are, here we are\nHow do you do?\nHey\n'

In [52]:
from nltk.tokenize import sent_tokenize # 영어 문장 토큰화
from nltk.tokenize import word_tokenize # 영어 단어 토큰화
from nltk.corpus import stopwords

In [55]:
# 문장 토큰화
sentence = sent_tokenize(text)
sentence

['Daddy finger, daddy finger, where are you?',
 'Here I am, here I am\nHow do you do?',
 'Mommy finger, Mommy finger, where are you?',
 'Here I am, here I am\nHow do you do?',
 'Brother finger, Brother finger, where are you?',
 'Here I am, here I am\nHow do you do?',
 'Sister finger, Sister finger, where are you?',
 'Here I am, here I am\nHow do you do?',
 'Baby finger, Baby finger, where are you?',
 'Here I am, here I am\nHow do you do?',
 'Yeap\nFinger family , Finger family, where are you?',
 'Here we are, here we are\nHow do you do?',
 'Hey']

In [90]:
# 단어 토큰화 -> 불용어를 뺀 단어 토큰들을 list에 담기

sw = set(stopwords.words('english'))
final_sentence = []
aa = {}

for s in sentence:
  # 단어 토큰화 
  word = word_tokenize(s)
  result = []
  for w in word:
    w = w.lower() # 모든 단어를 소문자화 -> 단어 개수를 줄이는데에 도움
    if w not in sw:
      if len(w) > 2:       # 단어 길이가 1인것들 (관사 같은것) 잘라내기
        result.append(w)
        if w not in aa:
          aa[w] = 0
        aa[w] += 1
  final_sentence.append(result)
print(final_sentence)
print(aa)

[['daddy', 'finger', 'daddy', 'finger'], [], ['mommy', 'finger', 'mommy', 'finger'], [], ['brother', 'finger', 'brother', 'finger'], [], ['sister', 'finger', 'sister', 'finger'], [], ['baby', 'finger', 'baby', 'finger'], [], ['yeap', 'finger', 'family', 'finger', 'family'], [], ['hey']]
{'daddy': 2, 'finger': 12, 'mommy': 2, 'brother': 2, 'sister': 2, 'baby': 2, 'yeap': 1, 'family': 2, 'hey': 1}


In [60]:
# 'hey' 단어의 빈도수
print(aa['hey'])

1


In [61]:
# sorted() : 빈도수대로 정렬
# sorted(정렬할 데이터, key 옵션, reverse옵션)
#   key옵션 : key parameter
#             어떤것을 기준으로 정렬할지 (key에 준 값으로 정렬)
#   reverse옵션 : False(default) >> 오름차순 

# sort() vs sorted():
#   sort()는 리스트 자체를 정렬하여 바꾸는 형태
#   sorted()는 리스트 원본은 유지한 채, 새로운 리스트에 정렬한 값을 입력 

# key=lambda x : x[1] => x[1]의 값이 정렬의 기준 -> 빈도수를 기준으로 정렬

aaSort = sorted(aa.items(), key=lambda x : x[1], reverse=True)
print(aaSort)

[('finger', 12), ('daddy', 2), ('mommy', 2), ('brother', 2), ('sister', 2), ('baby', 2), ('family', 2), ('yeap', 1), ('hey', 1)]


In [66]:
# [높은 빈도수]를 가지고 있는 단어일수록 [낮은 정수값]을 부여 (정수는 1부터 부여)

# 빈도수가 1이하인것들은 삭제(결과에 나오지 않도록)
# {'finger' : 1, 'daddy' : 2, 'mommy' : 3, ...}

aa_index = {}
i = 0

# aaSort2 = sorted(aa.items(), key=lambda x : x[1], reverse=True)
# for a in aaSort2:
#   if a.values() != 1:
#     rank.append(a[a])
for (word, frequency) in aaSort:
  if frequency > 1:
    i = i + 1
    aa_index[word] = i

print(aa_index)

{'finger': 1, 'daddy': 2, 'mommy': 3, 'brother': 4, 'sister': 5, 'baby': 6, 'family': 7}


In [80]:
# 단어 빈도수가 가장 높은 상위 5개 출력
# aaSort2  = sorted(aa.items(), key=lambda x : (x[1], 5), reverse=True)
# print(aaSort2)
freSize = 5
# 인덱스가 5초과 (6이상)인 단어들을 aa_final이라는 변수에 담기
aa_final = [w for (w, index) in aa_index.items() if index >= freSize + 1]

for w in aa_final:
  del aa_index[w]

print(aa_index)

{'finger': 1, 'daddy': 2, 'mommy': 3, 'brother': 4, 'sister': 5}


In [None]:
# ['finger, 'daddy', mommy, 'brother', 'sister'] >> aa_index에 더이상 존재하지 않는 단어 추가
# [1, 2, 3, 4, 5, ?]
# Out_of_Vocabulary : 단어 집합에 없는 단어 => OOV
# aa_index에 'OOV'라는 단어가 있는 자리를 하나 만들고, 그 단어 집합에 존재하지 않는 단어를
#   OOV의 인덱스로 인코딩

In [81]:
aa_index['OOV'] = len(aa_index) + 1
print(aa_index)

{'finger': 1, 'daddy': 2, 'mommy': 3, 'brother': 4, 'sister': 5, 'OOV': 6}


In [86]:
# 문장마다 텍스트 대신 그 자리에 해당하는 인덱스로 변환
# 문장마다 단어로 토큰화 : final_sentence

encoding_sentences = []
for fs in final_sentence:
  encoding_sentence = []
  for w in fs:
    try:
      # 단어 집합에 있는 단어면 해당 단어의 정수값을 넣어줌
      encoding_sentence.append(aa_index[w])
    except KeyError:
      # 단어 집합에 없는 단어면 OOV의 정수값을 넣어줌
      encoding_sentence.append(aa_index['OOV'])
  encoding_sentences.append(encoding_sentence)
print(final_sentence)
print(encoding_sentences)

[['daddy', 'finger', 'daddy', 'finger'], [], ['mommy', 'finger', 'mommy', 'finger'], [], ['brother', 'finger', 'brother', 'finger'], [], ['sister', 'finger', 'sister', 'finger'], [], ['baby', 'finger', 'baby', 'finger'], [], ['yeap', 'finger', 'family', 'finger', 'family'], [], ['hey']]
[[2, 1, 2, 1], [], [3, 1, 3, 1], [], [4, 1, 4, 1], [], [5, 1, 5, 1], [], [6, 1, 6, 1], [], [6, 1, 6, 1, 6], [], [6]]
