In [1]:
"""
표제어(Lemmatization) 추출:서로 형태는 다르지만, root 단어를
가지고 비교해서, 전체적으로 단어의 개수를 줄이자.
am, are, is, was, were.. => be(표제어)

형태소 : stem(어간, 단어의 의미), affix(접사,부가적 의미)
형태소 파싱 : 어간, 접사를 분리하는 작업
dog(독립형태소)
dogs = dog(어간) + s(접사)

WordNetLemmatizer :  NLTK에 표제어 추출 도구
"""
from nltk.stem import WordNetLemmatizer
wnl=WordNetLemmatizer()

In [2]:
#wnl.lemmatize('watched') #watched
wnl.lemmatize('watched', 'v')
wnl.lemmatize('has','v')
wnl.lemmatize('dies','v')

'die'

In [3]:
#어간 추출
text="Python is an interpreted, high-level, general-purpose programming language."
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

In [4]:
ps=PorterStemmer()
words=word_tokenize(text)
print(words)

['Python', 'is', 'an', 'interpreted', ',', 'high-level', ',', 'general-purpose', 'programming', 'language', '.']


In [5]:
print([ps.stem(w) for w in words])

['python', 'is', 'an', 'interpret', ',', 'high-level', ',', 'general-purpos', 'program', 'languag', '.']


In [6]:
print(ps.stem('electricical'))
print(ps.stem('formalize'))
#구글 : 마틴 포터 or 포터스태머 검색

electric
formal


In [7]:
ps.stem('going') #go
ps.stem('gone') #gone
from nltk.stem import LancasterStemmer

In [8]:
ls=LancasterStemmer()
ls.stem('going') #going
ls.stem('gone') #gon
ls.stem('dies')

'die'

In [9]:
#불용어:stopwords
from nltk.corpus import stopwords

In [10]:
sw=stopwords.words('english')
ex="Family is not an important thing. It's everything"
wt=word_tokenize(ex)
res=[]
for w in wt:
    if w not in sw:
        res.append(w)
print(wt)
print(res)
        

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything']


In [11]:
#www.ranks.nl/stopwords/korean
ex="""
최근 코로나19로 인한 감염으로 인해 
확진자 및 사망자가 증가하고 있습니다. 
코로나19를 이겨냅시다.
"""
stop_words="인한 증가 최근 및"
stop_words=stop_words.split(" ")
wt=word_tokenize(ex)
print(wt)
res=[]
for w in wt:
    if w not in stop_words:
        res.append(w)        
print(res)

['최근', '코로나19로', '인한', '감염으로', '인해', '확진자', '및', '사망자가', '증가하고', '있습니다', '.', '코로나19를', '이겨냅시다', '.']
['코로나19로', '감염으로', '인해', '확진자', '사망자가', '증가하고', '있습니다', '.', '코로나19를', '이겨냅시다', '.']


In [12]:
from nltk.tokenize import sent_tokenize
text="Python is an interpreted, high-level, general-purpose programming language. Created by Guido van Rossum and first released in 1991, Python's design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects."
text=sent_tokenize(text) #3개 문장
text

['Python is an interpreted, high-level, general-purpose programming language.',
 "Created by Guido van Rossum and first released in 1991, Python's design philosophy emphasizes code readability with its notable use of significant whitespace.",
 'Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects.']

In [13]:
#모든 단어를 소문자, 불용어 제거, 길이가 2이하 제거
#print(sw)

voc={}
sentences=[]
for t in text:
    words=word_tokenize(t)
    res=[]
    for word in words:
        word=word.lower()
        if word not in sw:
            if len(word)>2:
                res.append(word)
                if word not in voc:
                    voc[word]=0
                voc[word]+=1
    sentences.append(res)
print(sentences) #[[문장1][문장2],[문장3]]
#voc=={'python':3, ...}        

[['python', 'interpreted', 'high-level', 'general-purpose', 'programming', 'language'], ['created', 'guido', 'van', 'rossum', 'first', 'released', '1991', 'python', 'design', 'philosophy', 'emphasizes', 'code', 'readability', 'notable', 'use', 'significant', 'whitespace'], ['language', 'constructs', 'object-oriented', 'approach', 'aim', 'help', 'programmers', 'write', 'clear', 'logical', 'code', 'small', 'large-scale', 'projects']]


In [14]:
vs=sorted(voc.items(), key=lambda x:x[1], reverse=True)
vs

[('python', 2),
 ('language', 2),
 ('code', 2),
 ('interpreted', 1),
 ('high-level', 1),
 ('general-purpose', 1),
 ('programming', 1),
 ('created', 1),
 ('guido', 1),
 ('van', 1),
 ('rossum', 1),
 ('first', 1),
 ('released', 1),
 ('1991', 1),
 ('design', 1),
 ('philosophy', 1),
 ('emphasizes', 1),
 ('readability', 1),
 ('notable', 1),
 ('use', 1),
 ('significant', 1),
 ('whitespace', 1),
 ('constructs', 1),
 ('object-oriented', 1),
 ('approach', 1),
 ('aim', 1),
 ('help', 1),
 ('programmers', 1),
 ('write', 1),
 ('clear', 1),
 ('logical', 1),
 ('small', 1),
 ('large-scale', 1),
 ('projects', 1)]

In [15]:
wi={}
i=0
for w,f in vs:
    if f>1 :
        i+=1
        wi[w]=i #index 부여
print(wi)
        
        

{'python': 1, 'language': 2, 'code': 3}


In [16]:
a=wi.items()
for w,i in a:
    print(i)

1
2
3


In [17]:
vocSize=2 #가장 많이 언급된 2개 단어만 추출

#단어의 인덱스가 vocSize를 초과하는 단어 추출
wordFreq=[w for w,i in wi.items() if i>vocSize]
print(wordFreq)
for w in wordFreq:
    del wi[w]
#인덱스(index)가 3번 이상인 단어는 제거(1번, 2번만 추출)

['code']


In [18]:
wi

{'python': 1, 'language': 2}

In [20]:
#OOV(out of voc, 단어집합에 없는 단어)
영수:철수야 안녕? (입력 데이터, x)
# 철수:응 너도 안녕.(출력 데이터, y)
# ...
# 철수야 안녕? -> 모델 -> 응 너도 안녕.

# 철수(1) 안녕(2)  ->     -> 응  너  안녕
# ...

# 철수 안녕 너 응 잘가 ...
#   1    2   3   4   5 ...

SyntaxError: invalid syntax (<ipython-input-20-3141eaa6222c>, line 2)

In [21]:
sentences

[['python',
  'interpreted',
  'high-level',
  'general-purpose',
  'programming',
  'language'],
 ['created',
  'guido',
  'van',
  'rossum',
  'first',
  'released',
  '1991',
  'python',
  'design',
  'philosophy',
  'emphasizes',
  'code',
  'readability',
  'notable',
  'use',
  'significant',
  'whitespace'],
 ['language',
  'constructs',
  'object-oriented',
  'approach',
  'aim',
  'help',
  'programmers',
  'write',
  'clear',
  'logical',
  'code',
  'small',
  'large-scale',
  'projects']]

In [22]:
#원핫인코딩
from konlpy.tag import Okt

In [23]:
okt=Okt()
tok=okt.morphs("나는 자연어 처리를 학습한다")
#원핫벡터:단어 집합을 벡터로 표현하는 방식

In [24]:
w2i={}
for v in tok:
    if v not in w2i.keys():
        w2i[v]=len(w2i)
print(w2i)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '학습': 5, '한다': 6}


In [25]:
#'자연어' -> 원핫 -> 0010000
def ohe(w, w2i):
    ohv=[0]*len(w2i)
    index=w2i[w]
    ohv[index]=1
    return ohv
print(ohe("자연어", w2i))

[0, 0, 1, 0, 0, 0, 0]


In [26]:
#케라스 원핫인코딩 : to_categorical()
text="데이터 분석은 판다스 최고야 판다스 곰이야"

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
tok=Tokenizer()
tok.fit_on_texts([text])
print(tok.word_index)
#단어집합(voc)



{'판다스': 1, '데이터': 2, '분석은': 3, '최고야': 4, '곰이야': 5}


In [27]:
sample="판다스 분석은 동물원에서 한다"
enc=tok.texts_to_sequences([sample])[0]

In [28]:
to_categorical(enc)

array([[0., 1., 0., 0.],
       [0., 0., 0., 1.]], dtype=float32)

In [29]:
#단어 분리(BPE) => 기계번역
#학습과정에서 사용되지 않은 단어가 테스트과정에서
#입력되면 -> OOV 문제 => 제대로 모델이 동작X

In [30]:
# run-length 기법  aaaabbbaaaaa => a4b3a5
# 허프만 트리(인코딩)를 이용한 압축
#a=> 101, b=10, c=1101...
#BPE 압축 알고리즘 => 단어 분리에 응용

In [31]:
#AAABDAAABAC
#BPE 압축
#연속적인 글자 쌍(2글자)을 구성했을때 
#가장 많이 등장
#1) AA가 가장 많이 등장 => 다른 글자로 치환
#=> 소문자 z로 치환
#zABDzABAC

#2) AB가 가장 많이 등장 => 다른 글자로 치환
#=> 소문자 y로 치환
#zyDzyAC

#3) zy가 가장 많이 등장 => 다른 글자로 치환
#=> 소문자 x로 치환
#xDxAC
