# 1. Tokenize

### 1.Tokenizing text into sentences
Tokenization이란 문자열을 여러개의 조각으로 나누는 것.
Token은 문자열의 한 조각으로 하나의 단어가 하나의 토큰이라고 할 수 있다.

#### 1) paragraph를 문장 단위로 tokenize 하기

In [10]:
from nltk.tokenize import sent_tokenize  # 문장 단위로 tokenize
para = "My name is YOONHYUNSEOP. My major is e-Business. Thanks you."
print(sent_tokenize(para))

['My name is YOONHYUNSEOP.', 'My major is e-Business.', 'Thanks you.']


### 2. Tokenizing sentences into words
가장 기본적인 word_tokenize 함수. Space 단위와 구두점(punctuation)을 기준으로 토큰화한다.

In [11]:
from nltk.tokenize import word_tokenize
print(word_tokenize("My name is YOONHYUNSEOP."))

['My', 'name', 'is', 'YOONHYUNSEOP', '.']


#### Separating contractions
word_tokenize()를 사용한 can`t의 분리 예시

In [14]:
from nltk.tokenize import word_tokenize
print(word_tokenize("can't")) # 신기한건 ` 와 ' 를 넣어서 했을 때 다르다는 점이다.
print(word_tokenize("can`t"))

['ca', "n't"]
['can', '`', 't']


#### WordPunctTokenizer

word_tokenize( )의 대안인 WordPunctTokenizer.
이 Tokenizer는 모든 구두점(punctuation)을 기준으로 분리한다고 한다.

In [15]:
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()
print(tokenizer.tokenize("Can't is a contraction."))

['Can', "'", 't', 'is', 'a', 'contraction', '.']


# 2. 표제어 추출(Lemmatization)
사전을 이용하여 단어의 원형을 추출
* 품사(part-of-speech)를 고려
* 영어의 경우, 유명한 어휘 데이터베이스인 WordNet을 이용한 WordNet lemmatizer가 많이 쓰임 (강의노트 및 수업 내용)

WordNetLemmatizer를 통한 표제어 추출 시도

In [21]:
from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()
words = ['talking', 'doing', 'purpose', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])
# 품사를 모르기에 ha, dy와 같은 이상한 단어가 추출됨

['talking', 'doing', 'purpose', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


* 단어의 품사를 알려줘서 표제어 추출

In [18]:
n.lemmatize('dies','v')

'die'

In [19]:
n.lemmatize('watched','v')

'watch'

In [20]:
n.lemmatize('has','v')
# v를 적어 동사라고 알려주자 동사의 원형을 다 잘 추출해냄

'have'

# 2. 어간 추출(Stemming)
* Stemming (어간 추출)
* 단수 – 복수, 현재형 – 미래형 등 단어의 다양한 변형을 하나로 통일
* 의미가 아닌 규칙에 의한 변환
* 영어의 경우, Porter stemmer, Lancaster stemmer 등이 유명

* Stemming 시도(포터 알고리즘)

input : My name is HYUNSEOP and my major is e-Business. My grade is fourth and I want to get a job. After one years, I will graduate school. Now I actually do my last semester. I have remained 2 semester but there is no class in my last semester.

In [23]:
from nltk.stem import PorterStemmer  # 포터 알고리즘(어간 추출 알고리즘 중 하나인) 불러옴
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text = "My name is HYUNSEOP and my major is e-Business. My grade is fourth and I want to get a job. After one years, I will graduate school. Now I actually do my last semester. I have remained 2 semester but there is no class in my last semester."
words = word_tokenize(text) # 단어로 토큰화하여 넣음.
print(words)

['My', 'name', 'is', 'HYUNSEOP', 'and', 'my', 'major', 'is', 'e-Business', '.', 'My', 'grade', 'is', 'fourth', 'and', 'I', 'want', 'to', 'get', 'a', 'job', '.', 'After', 'one', 'years', ',', 'I', 'will', 'graduate', 'school', '.', 'Now', 'I', 'actually', 'do', 'my', 'last', 'semester', '.', 'I', 'have', 'remained', '2', 'semester', 'but', 'there', 'is', 'no', 'class', 'in', 'my', 'last', 'semester', '.']


In [24]:
print([s.stem(w) for w in words]) # 알고리즘에 의해 추출하였더니 이상하게 나오는 단어도 발생한다.

['My', 'name', 'is', 'hyunseop', 'and', 'my', 'major', 'is', 'e-busi', '.', 'My', 'grade', 'is', 'fourth', 'and', 'I', 'want', 'to', 'get', 'a', 'job', '.', 'after', 'one', 'year', ',', 'I', 'will', 'graduat', 'school', '.', 'now', 'I', 'actual', 'do', 'my', 'last', 'semest', '.', 'I', 'have', 'remain', '2', 'semest', 'but', 'there', 'is', 'no', 'class', 'in', 'my', 'last', 'semest', '.']


* Stemming 시도(랭커스터 알고리즘)

In [26]:
from nltk.stem import LancasterStemmer
l = LancasterStemmer()
print([l.stem(w) for w in words])  # 알고리즘이 다르기에 전혀 다른 단어들 추출

# 예를들어 포터알고리즘은 name 이 제데로 되고 e-business가 깨지지만, 랭캐스터는 name이 깨지고 e-business가 제대로 출력된다.

['my', 'nam', 'is', 'hyunseop', 'and', 'my', 'maj', 'is', 'e-business', '.', 'my', 'grad', 'is', 'four', 'and', 'i', 'want', 'to', 'get', 'a', 'job', '.', 'aft', 'on', 'year', ',', 'i', 'wil', 'gradu', 'school', '.', 'now', 'i', 'act', 'do', 'my', 'last', 'semest', '.', 'i', 'hav', 'remain', '2', 'semest', 'but', 'ther', 'is', 'no', 'class', 'in', 'my', 'last', 'semest', '.']


# Part-Of-Speech tagging(pos tagging)
* 토큰화와 정규화 작업을 통해 나누어진 형태소(의미를 가지는 최소단위)에 대해 품사를 결정하여 할당하는 작업
* 동일한 단어라도 문맥에 따라 의미가 달라지므로 품사를 알기 위해서는 문맥을 파악해야 함
* POS Tagging은 형태소 분석으로 번역되기도 하는데, 형태소 분석은 주어진 텍스트(원시말뭉치)를 형태소 단위로 나누는 작업을 포함하므로 앞의 토큰화, 정규화 작업에 품사 태깅을 포함한 것으로 보는 것이 타당
* 문장 내 단어들의 품사를 식별하여 태그를 붙여주는 것. 투플(tuple)의 형태로 출력되며 (단어, 태그)로 출력. 여기서 태그는 품사(POS) 태그.


## 1. Default tagging

In [27]:
from nltk.tag.sequential import DefaultTagger   # 태그 모듈 
tagger = DefaultTagger('NN')
print(tagger.tag(['Hello','World']))

[('Hello', 'NN'), ('World', 'NN')]


### 1) Evaluating accuracy
tagger의 정확도를 측정하려면 evaluate() 메소드를 사용하여 확인할 수 있다고 한다.
아래의 예제는 treebank corpus의 tagged_sents 일부와 비교 시도.

In [28]:
from nltk.tag.sequential import DefaultTagger
tagger = DefaultTagger('NN')
from nltk.corpus import treebank
test_sents = treebank.tagged_sents()[3000:]
print(tagger.evaluate(test_sents))

0.14331966328512843


### 2) Untagging a tagged sentence

Tagging된 토큰들을 nltk.tag.untag( )를 이용하여 태그들을 제거

In [29]:
from nltk.tag.util import untag
print(untag([('Hello','NN'),('World','NN')]))

['Hello', 'World']


## 2. Training a unigram part-of-speech tagger

unigram은 일반적으로 단일 토큰을 참조하며, unigram tagger는 POS tag를 결정하기위한 컨텍스트로 한 단어만 사용한다. UnigramTagger는 SequentialBackoffTagger에서 상속받은 ContextTagger의 하위 클래스인 NgramTagger로 부터 상속받는다. 

In [32]:
from nltk.corpus import treebank
from nltk.tag.sequential import UnigramTagger

train_sents = treebank.tagged_sents()[:3000]  # treebank.tagged_sents의 단어들을 넣는다.
tagger = UnigramTagger(train_sents)   # Unigram을 통해 한단어씩만 사용.
print(treebank.sents()[0])
print(tagger.tag(treebank.sents()[0]))

['Pierre', 'Vinken', ',', '61', 'years', 'old', ',', 'will', 'join', 'the', 'board', 'as', 'a', 'nonexecutive', 'director', 'Nov.', '29', '.']
[('Pierre', 'NNP'), ('Vinken', 'NNP'), (',', ','), ('61', 'CD'), ('years', 'NNS'), ('old', 'JJ'), (',', ','), ('will', 'MD'), ('join', 'VB'), ('the', 'DT'), ('board', 'NN'), ('as', 'IN'), ('a', 'DT'), ('nonexecutive', 'JJ'), ('director', 'NN'), ('Nov.', 'NNP'), ('29', 'CD'), ('.', '.')]


In [36]:
print(treebank.tagged_sents())

[[('Pierre', 'NNP'), ('Vinken', 'NNP'), (',', ','), ('61', 'CD'), ('years', 'NNS'), ('old', 'JJ'), (',', ','), ('will', 'MD'), ('join', 'VB'), ('the', 'DT'), ('board', 'NN'), ('as', 'IN'), ('a', 'DT'), ('nonexecutive', 'JJ'), ('director', 'NN'), ('Nov.', 'NNP'), ('29', 'CD'), ('.', '.')], [('Mr.', 'NNP'), ('Vinken', 'NNP'), ('is', 'VBZ'), ('chairman', 'NN'), ('of', 'IN'), ('Elsevier', 'NNP'), ('N.V.', 'NNP'), (',', ','), ('the', 'DT'), ('Dutch', 'NNP'), ('publishing', 'VBG'), ('group', 'NN'), ('.', '.')], ...]


# 개체명 인식(NER)

### NLTK를 이용한 개체명 인식

In [37]:
from nltk import word_tokenize, pos_tag, ne_chunk
sentence = "Hyunseop is studying about Python."
sentence = pos_tag(word_tokenize(sentence))  # 문장을 단어로 토큰화
print(sentence)     

[('Hyunseop', 'NNP'), ('is', 'VBZ'), ('studying', 'VBG'), ('about', 'IN'), ('Python', 'NNP'), ('.', '.')]


In [38]:
sentence = ne_chunk(sentence)
print(sentence)    # 개체명 인식 # Hyunseop이 person으로 안뜨는걸로 보아 사람으로 인식을 못한 것 같다.

(S
  (GPE Hyunseop/NNP)
  is/VBZ
  studying/VBG
  about/IN
  (PERSON Python/NNP)
  ./.)


# Bow(Bag of Words)

* 특징: 단어들의 순서를 전혀 고려하지 않고 출현 빈도(frequency)에만 집중.
* 문장을 넣어 연습

In [45]:
from konlpy.tag import Okt
import re
okt = Okt()
token = re.sub("(\.)","","나는 현재 오훈이와 바빈스 커피숍에서 공부를 하고 있고 오훈이도 공부를 하고 있다.")
# 정규 표현식(re.sub)을 통해 온점을 제거.

token = okt.morphs(token)
# Okt 형태소 분석기를 통해 토큰화 작업을 수행한 뒤에, token에다가 넣는다.

word2index = {}
bow = []
for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index) # 토큰을 읽으면서 word2index에 없는 (not in) 단어는 새로 추가하고, 이미 있는 단어는 넘긴다.
        bow.insert(len(word2index)-1,1) # bow 전체에 기본값 1 설정, 단어의 개수는 최소 1개 이상이기 때문
    
    else:
        index = word2index.get(voca) # 재등장하는 단어의 인덱스를 받아옵니다.
        bow[index] = bow[index] + 1 # 재등장하는 단어는 해당하는 인덱스의 위치에 1을 더해줍니다. (단어의 개수를 세는 것)
        
print(word2index)
bow # 인덱스의 위치별로 나온 횟수

{'나': 0, '는': 1, '현재': 2, '오': 3, '훈': 4, '이': 5, '와': 6, '바빈스': 7, '커피숍': 8, '에서': 9, '공부': 10, '를': 11, '하고': 12, '있고': 13, '도': 14, '있다': 15}


[1, 1, 1, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 1, 1, 1]

# TF-IDF 

In [46]:
import pandas as pd
from math import log

In [49]:
docs = ['먹고 싶은 사과', '먹고 싶은 바나나', '길고 노란 바나나 바나나', '저는 과일이 좋아요']
vocab = list(set(w for doc in docs for w in doc.split())) # 단어들을 중복을 허용하지 않고 list로 만든다
vocab.sort() 

In [54]:
vocab

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

* TF,IDF, 그리고 TF-IDF 값을 구하는 함수 구현

In [50]:
N = len(docs) # 총 문서의 수
def tf(t, d):
    return d.count(t)

def idf(t):
    df = 0
    for doc in docs:
        df += t in doc
    return log(N/(df + 1))

def tfidf(t, d):
    return tf(t,d)* idf(t)

* TF 구하기, DTM을 데이터 프레임에 저장

In [53]:
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]
        result[-1].append(tf(t, d))

tf_ = pd.DataFrame(result, columns = vocab)
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [55]:
result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index = vocab, columns = ["IDF"])  # IDF 값
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [57]:
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]

        result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_           
# TF-IDF 행렬

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


# Word Embedding

## 인터넷 검색을 통해 연습해보기

## 1. 케라스 임베딩 층(Keras Embedding layer)

In [70]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

In [71]:
sentences = ['nice great best amazing', 'stop lies', 'pitiful nerd', 'excellent work', 'supreme quality', 'bad', 'highly respectable']
y_train = [1, 0, 0, 1, 1, 0, 1]
# 문장과 레이블 데이터. 긍정인 문장은 레이블1, 부정인 문장은 레이블0

In [72]:
t = Tokenizer()
t.fit_on_texts(sentences)
vocab_size = len(t.word_index) + 1

print(vocab_size) 
# Tokenizer를 사용하여 토큰화

16


In [73]:
X_encoded = t.texts_to_sequences(sentences)
print(X_encoded)
# 각 문장에 대해 정수 인코딩

[[1, 2, 3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13], [14, 15]]


In [74]:
max_len = max(len(l) for l in X_encoded)
print(max_len)

# 문장 중에서 가장 길이가 긴 문장의 길이는 4

4


In [76]:
X_train = pad_sequences(X_encoded, maxlen = max_len, padding = 'post')
y_train = np.array(y_train)
print(X_train)
# 패딩:  모든 샘플의 길이를 동일하게 맞추어야할 때 사용.
# 패딩사용하여 길이 4로 다 통일시켜줌.
# 여기까지 훈련 데이터에 대한 전처리 과정이라고 한다.

[[ 1  2  3  4]
 [ 5  6  0  0]
 [ 7  8  0  0]
 [ 9 10  0  0]
 [11 12  0  0]
 [13  0  0  0]
 [14 15  0  0]]


In [77]:
# 모델 설계
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, Flatten

model = Sequential()
model.add(Embedding(vocab_size, 4, input_length = max_len))
model.add(Flatten())
model.add(Dense(1, activation = 'sigmoid'))
# 출력층에 1개의 뉴런에 활성화 함수로는 시그모이드 함수를 사용하여 이진 분류를 수행합니다.
# 이 부분은 후에 공부가 더 필요해 보인다

In [78]:
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
model.fit(X_train, y_train, epochs=100, verbose=2)

# 정확도 의미가 없지만 다른 가중치들과 함께 학습된 값들 인것 같다.

Epoch 1/100
1/1 - 0s - loss: 0.6910 - acc: 0.4286
Epoch 2/100
1/1 - 0s - loss: 0.6892 - acc: 0.4286
Epoch 3/100
1/1 - 0s - loss: 0.6873 - acc: 0.5714
Epoch 4/100
1/1 - 0s - loss: 0.6854 - acc: 0.5714
Epoch 5/100
1/1 - 0s - loss: 0.6836 - acc: 0.7143
Epoch 6/100
1/1 - 0s - loss: 0.6817 - acc: 0.7143
Epoch 7/100
1/1 - 0s - loss: 0.6798 - acc: 0.7143
Epoch 8/100
1/1 - 0s - loss: 0.6780 - acc: 0.7143
Epoch 9/100
1/1 - 0s - loss: 0.6761 - acc: 0.7143
Epoch 10/100
1/1 - 0s - loss: 0.6742 - acc: 0.7143
Epoch 11/100
1/1 - 0s - loss: 0.6723 - acc: 0.7143
Epoch 12/100
1/1 - 0s - loss: 0.6705 - acc: 0.7143
Epoch 13/100
1/1 - 0s - loss: 0.6686 - acc: 0.7143
Epoch 14/100
1/1 - 0s - loss: 0.6667 - acc: 0.7143
Epoch 15/100
1/1 - 0s - loss: 0.6648 - acc: 0.7143
Epoch 16/100
1/1 - 0s - loss: 0.6629 - acc: 0.8571
Epoch 17/100
1/1 - 0s - loss: 0.6610 - acc: 1.0000
Epoch 18/100
1/1 - 0s - loss: 0.6591 - acc: 1.0000
Epoch 19/100
1/1 - 0s - loss: 0.6572 - acc: 1.0000
Epoch 20/100
1/1 - 0s - loss: 0.6553 - a

<tensorflow.python.keras.callbacks.History at 0x22930c9b700>

### 2. 사전 훈련된 워드 임베딩 사용하기

# N-gram

In [79]:
### 2-gram 출력해보기
text = 'TomNToms'

for i in range(len(text) - 1): # 2-gram 이므로 문자열의 한 글자 앞까지만 반복함
    print(text[i], text[i+1], sep='')

To
om
mN
NT
To
om
ms


## 1) NLTK을 이용한 N그램

In [81]:
from nltk import bigrams, word_tokenize
from nltk.util import ngrams

sentence = "The future depends on what we do in the present"
tokens = word_tokenize(sentence)

bigram = bigrams(tokens)
trigram = ngrams(tokens, 3)

print("\nbigram:")
for t in bigram:
    print(t)
    
print("\ntrigram")
for t in trigram:
    print(t)


bigram:
('The', 'future')
('future', 'depends')
('depends', 'on')
('on', 'what')
('what', 'we')
('we', 'do')
('do', 'in')
('in', 'the')
('the', 'present')

trigram
('The', 'future', 'depends')
('future', 'depends', 'on')
('depends', 'on', 'what')
('on', 'what', 'we')
('what', 'we', 'do')
('we', 'do', 'in')
('do', 'in', 'the')
('in', 'the', 'present')


# RNN, LSTM

## 1. RNN

* 신경망의 일종
* 데이터 - 트레이닝 셋을 통해서 가중치를 학습시키고 테스트 셋을 통해 확인
* 데이터의 시간적인 측면을 고려한다.
* 은닉층의 결과가 다시 은닉층의 입력으로 들어감
* Sequence data를 다루는데 도움이 됨.
* ex)the clouds are in the sky 라는 문장이 있을 때 the clouds are in th 라는 문장이 있으면 뒤 단어가 sky일 확률 높음

## 2.LSTM

In [None]:
* RNN과 달리 상호작용을 하는 4개의 레이어 존재
* RNN의 문제점인 입력데이터와 참고데이터의 위치 차이가 커질때 문맥 연결의 힘든점을 보완

# CNN(합성곱 신경망)

* 이미지 처리를 위한 신경망
* 합성곱층과 풀링층으로 구성
* 합성곱층과 풀링층 번갈아가면서 이미지의 특징을 단계적으로 추출
* 1D CNN모형을 통해서 문서분류 가능

# Attention, Transformer

### 1) Attention
* 전체 또는 특정 영역의 입력값을 반영해서 그 중 어떤 부분에 집중해야 하는지 나타내줌
* 기존의 seq2seq 모델의 단점 보완

### 2) Transformer
* Attention을 입력 -> 출력 외에 입력 단어들끼리도 적용하여 입력 + 출력 -> 출력으로의 attention을 추가