## 텍스트의 토큰화
**자연어 처리(NLP)에서 토큰화(Tokenization)**
- 텍스트 분석, 언어 번역, 감정 분석 등 다양한 NLP 작업을 위해 텍스트를 준비하는 기본 단계입니다.
- 토큰화는 텍스트를 단어, 문구, 기호 또는 기타 의미 있는 요소(토큰)로 분해하는 작업을 포함합니다. 이 과정에서 생성된 토큰은 추가 처리 및 분석을 위한 기본 구성 요소가 됩니다.

토큰화의 목적
- 토큰화의 주요 목적은 텍스트 데이터를 단순화하여 알고리즘이 이해하고 처리할 수 있도록 관리하기 쉽게 만드는 것입니다. 이를 통해 텍스트의 복잡성을 줄이고 일관성을 유지함으로써, 다양한 NLP 작업에서 효율적인 분석과 처리가 가능해집니다.

토큰화의 유형
- 토큰화는 다양한 수준에서 수행될 수 있으며, 각 유형은 특정 NLP 작업의 요구 사항에 따라 선택됩니다:
  - 단어 토큰화 (Word Tokenization):
    텍스트를 개별 단어로 분해합니다.
    예: "ChatGPT is amazing!" → ["ChatGPT", "is", "amazing", "!"]
  - 문장 토큰화 (Sentence Tokenization):
    텍스트를 개별 문장으로 분해합니다.
    예: "Hello world. How are you?" → ["Hello world.", "How are you?"]
  - 하위 단어 토큰화 (Subword Tokenization):
    단어를 더 작은 의미 단위로 분해합니다. 주로 BPE(Byte Pair Encoding)나 WordPiece 알고리즘을 사용합니다.
    예: "unhappiness" → ["un", "hap", "pi", "ness"]
  - 문자 토큰화 (Character Tokenization):
    텍스트를 개별 문자로 분해합니다.
    예: "Hello" → ["H", "e", "l", "l", "o"]

토큰화의 과정
- 토큰화 과정은 일반적으로 다음 단계로 구성됩니다:
  - 텍스트 정규화 (Text Normalization):
    모든 텍스트를 소문자로 변환하여 일관성을 유지합니다.
    불필요한 구두점과 공백을 제거합니다.
    예: "Hello, World!" → "hello world"
  - 구분자 사용 (Delimiter-based Tokenization):
    공백이나 구두점을 기준으로 텍스트를 분해합니다.
    예: "hello world" → ["hello", "world"]
  - 고급 토큰화 기법 (Advanced Tokenization Techniques):
    언어의 문법적, 의미적 구조를 고려하여 토큰을 생성합니다.
    BPE, WordPiece, SentencePiece 등의 알고리즘을 사용합니다.

토큰화의 중요성
- 토큰화는 NLP 작업에서 매우 중요한 역할을 합니다. 잘못된 토큰화는 후속 처리와 분석의 정확도에 큰 영향을 미칠 수 있습니다.
- 반면, 올바른 토큰화는 텍스트 데이터를 효과적으로 전처리하고 분석할 수 있게 합니다.

## 고급 토큰화 기법
언어의 문법적, 의미적 구조를 고려하여 토큰을 생성하는 것은 텍스트의 의미를 더 잘 보존하고, 더 정확한 분석과 처리를 가능하게 하기 위한 고급 토큰화 기법입니다. 이러한 기법들은 단순히 공백이나 구두점을 기준으로 텍스트를 분해하는 것을 넘어, 단어의 의미와 형태, 문장의 구조 등을 이해하여 더 정교한 토큰을 생성합니다.


형태소 분석 (Morphological Analysis):
- 단어를 구성하는 최소 의미 단위인 형태소를 분석합니다.
- 예를 들어, "cats"는 "cat"과 복수형 접미사 "s"로 분해됩니다.
- 형태소 분석기는 단어의 어간과 접사(접두사, 접미사)를 인식하고 분리합니다.

어간 추출 (Stemming):
- 단어의 어간을 추출하여 형태를 단순화합니다.
- 예: "running", "runs", "ran" → "run"
- 포터 스테머(Porter Stemmer)와 같은 알고리즘이 사용됩니다.

어근 추출 (Lemmatization):
- 단어의 어근을 추출하여 형태를 표준화합니다. 어간 추출보다 더 정교합니다.
- 예: "running", "ran" → "run"
- 품사 정보를 사용하여 정확한 어근을 찾아냅니다. 예를 들어, "better"는 어근 "good"으로 변환됩니다.
- WordNetLemmatizer와 같은 도구가 사용됩니다.

BPE (Byte Pair Encoding):
- 자주 등장하는 바이트 쌍을 병합하여 점진적으로 단어를 분해합니다.
- 예: "lowest"가 "l", "o", "w", "e", "s", "t"로 분해되고, 자주 등장하는 "lo", "we"가 결합되어 "low", "est"로 변환됩니다.
- BPE는 신경망 번역 모델과 같은 대규모 언어 모델에서 널리 사용됩니다.

WordPiece:
- BPE와 유사하지만, 서브워드(subword) 단위로 토큰을 생성합니다.
- 예: "unhappiness" → ["un", "##happiness"]
- 트랜스포머 모델(BERT 등)에서 사용됩니다.

SentencePiece:
- 언어에 중립적인 방식으로 텍스트를 서브워드 단위로 분해합니다.
- BPE와 유사하지만, 문장을 토큰화하는 과정에서 공백을 고려하지 않음.
- 예: "unhappiness" → ["un", "ha", "ppiness"]
- Google의 T5, ALBERT 모델에서 사용됩니다.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,Flatten,Embedding
from tensorflow.keras.utils import to_categorical
from numpy import array

# 케라스의 텍스트 전처리와 관련한 함수중 text_to_word_sequence 함수를 불러옵니다.
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전처리할 텍스트를 정합니다.
text = '해보지 않으면 해낼 수 없다'

# 해당 텍스트를 토큰화합니다.
result = text_to_word_sequence(text)
print("\n원문:\n", text)
print("\n토큰화:\n", result)


원문:
 해보지 않으면 해낼 수 없다

토큰화:
 ['해보지', '않으면', '해낼', '수', '없다']


- Tokenizer' 클래스는 텍스트를 정수 시퀀스로 변환하도록 설계
- fit_on_texts(docs): 이 메소드는 문장 목록(docs)을 인수로 사용하여 token 개체에서 호출된다. 텍스트 목록을 기반으로 내부 어휘를 업데이트하여 토크나이저가 이러한 텍스트로 작업할 수 있도록 준비한다. 말뭉치의 각 고유 단어에 색인을 할당하고 단어 빈도와 같은 다양한 측정항목을 계산하는 작업이 포함된다.
- token.word_counts: 토크나이저를 텍스트에 맞춘 후 word_counts는 키가 입력 텍스트에서 발견된 단어이고 값은 각 단어의 발생 횟수인 OrderedDict를 제공한다. 'OrderedDict'를 사용하면 단어가 텍스트에서 처음 나타나는 순서대로 정렬.
- token.document_count: 이 속성은 처리된 총 문서(또는 문장) 수를 표시
- token.word_docs: word_counts와 유사한 OrderedDict이지만 단어의 빈도 대신 각 단어가 나타나는 문서 수를 표시
- token.word_index: 이 속성은 단어를 고유하게 할당된 정수에 매핑하는 OrderedDict를 제공. 모델에는 숫자 입력이 필요하므로 이는 기계 학습 모델의 텍스트를 벡터화하는 데 필요


In [None]:
# 단어 빈도수 세기

# 전처리하려는 세 개의 문장을 정합니다.
docs = ['먼저 텍스트의 각 단어를 나누어 토큰화 합니다.',
       '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
       '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.',
       ]

# 토큰화 함수를 이용해 전처리 하는 과정입니다.
token = Tokenizer()             # 토큰화 함수 지정
token.fit_on_texts(docs)       # 토큰화 함수에 문장 적용

# 단어의 빈도수를 계산한 결과를 각 옵션에 맞추어 출력합니다.
# Tokenizer()의 word_counts 함수는 순서를 기억하는 OrderedDict 클래스를 사용합니다.
print("\n단어 카운트:\n", token.word_counts)
print("\n문장 카운트: ", token.document_count)
print("\n각 단어가 몇 개의 문장에 포함되어 있는가:\n", token.word_docs)
# token.word_index의 출력 순서는 제공된 텍스트 코퍼스의 각 단어의 빈도에 따라 가장 빈번한 단어부터 가장 빈도가 낮은 단어까지 결정
# 동일한 빈도의 경우는 먼저 등장한 단어가 더 낮은 인덱스를 할당
print("\n각 단어에 매겨진 인덱스 값:\n",  token.word_index)

Q. 주어진 docs를 토큰화해서 아래사항을 수행하세요.

In [3]:
docs = ['검찰이 제시한 혐의 사실 전부를 재판부가 무죄로 판단하면서 이 회장은 검찰 기소 이후 3년 5개월여 만에 시름을 덜게 됐다.',
'검찰 항소로 2심 재판이 진행될 것이란 전망이 나오지만,']

token = Tokenizer()
token.fit_on_texts(docs)

print("\n단어 카운트:\n", token.word_counts)
print("\n문장 카운트: ", token.document_count)
print("\n각 단어가 몇 개의 문장에 포함되어 있는가:\n", token.word_docs)
print("\n각 단어에 매겨진 인덱스 값:\n",  token.word_index)


단어 카운트:
 OrderedDict([('검찰이', 1), ('제시한', 1), ('혐의', 1), ('사실', 1), ('전부를', 1), ('재판부가', 1), ('무죄로', 1), ('판단하면서', 1), ('이', 1), ('회장은', 1), ('검찰', 2), ('기소', 1), ('이후', 1), ('3년', 1), ('5개월여', 1), ('만에', 1), ('시름을', 1), ('덜게', 1), ('됐다', 1), ('항소로', 1), ('2심', 1), ('재판이', 1), ('진행될', 1), ('것이란', 1), ('전망이', 1), ('나오지만', 1)])

문장 카운트:  2

각 단어가 몇 개의 문장에 포함되어 있는가:
 defaultdict(<class 'int'>, {'재판부가': 1, '제시한': 1, '만에': 1, '전부를': 1, '기소': 1, '회장은': 1, '무죄로': 1, '판단하면서': 1, '사실': 1, '이후': 1, '3년': 1, '덜게': 1, '검찰이': 1, '시름을': 1, '이': 1, '됐다': 1, '5개월여': 1, '혐의': 1, '검찰': 2, '2심': 1, '진행될': 1, '항소로': 1, '재판이': 1, '것이란': 1, '전망이': 1, '나오지만': 1})

각 단어에 매겨진 인덱스 값:
 {'검찰': 1, '검찰이': 2, '제시한': 3, '혐의': 4, '사실': 5, '전부를': 6, '재판부가': 7, '무죄로': 8, '판단하면서': 9, '이': 10, '회장은': 11, '기소': 12, '이후': 13, '3년': 14, '5개월여': 15, '만에': 16, '시름을': 17, '덜게': 18, '됐다': 19, '항소로': 20, '2심': 21, '재판이': 22, '진행될': 23, '것이란': 24, '전망이': 25, '나오지만': 26}


Keras의 Tokenizer를 사용하여 텍스트 데이터를 정수 인덱스 시퀀스로 변환한 후, 이를 One-Hot Encoding 형식으로 변환하는 과정은 NLP 모델의 입력 데이터를 준비하는 중요한 단계입니다.

Tokenizer를 사용한 텍스트 토큰화

word_index:
- token.word_index는 각 단어를 고유한 정수 인덱스로 매핑한 딕셔너리입니다. 키는 단어이고, 값은 해당 단어의 인덱스입니다.
- 이 딕셔너리의 길이(len(token.word_index))는 말뭉치에 있는 고유 단어의 총 개수를 나타냅니다.

word_size:
- word_size는 고유 단어의 총 개수에 1을 더한 값입니다. 이는 NLP에서 일반적인 관행으로, "0" 인덱스를 포함하기 위해 사용됩니다.
- "0" 인덱스는 패딩(padding)에 사용되거나, 구현에 따라 알 수 없는 단어를 나타낼 수 있습니다.

One-Hot Encoding:
- to_categorical 함수는 클래스 벡터(정수 인덱스)를 바이너리 클래스 행렬로 변환합니다.
- x는 단어를 나타내는 정수 인덱스의 목록 또는 배열이어야 하며, - to_categorical은 이를 One-Hot Encoding 형식으로 변환합니다.
- 각 정수에 대해 해당 인덱스 위치만 1로 설정되고 나머지 위치는 0인 벡터를 생성합니다.

num_classes:
- num_classes는 총 클래스 수를 지정합니다. 이 경우 어휘 크기(word_size)로 설정되어, One-Hot Encoding에 어휘의 모든 단어에 대한 슬롯과 추가 "0" 인덱스가 있는지 확인합니다.


In [3]:
# Keras Tokenizer의 fit_on_texts 메소드는 일반적으로 문자열의 리스트를 기대하기 때문에, 단일 문자열을 입력하는 것은 적절하지 않다.
text="오랫동안 꿈꾸는 이는 그 꿈을 닮아간다"
token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}


In [4]:
x=token.texts_to_sequences([text])
print(x)



[[1, 2, 3, 4, 5, 6]]


In [5]:
#인덱스 수에 하나를 추가해서 원-핫 인코딩 배열 만들기
# word_size 에 1을 추가하는 이유는 Keras의 Tokenizer를 사용할 때 0 인덱스를 패딩(padding)을 위해 예약하는 관례 때문
word_size = len(token.word_index) + 1
x = to_categorical(x, num_classes=word_size)
print(x)

[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


In [6]:
# 텍스트 리뷰 자료를 지정합니다.
docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요","추천하고 싶은 영화입니다","한번 더 보고싶네요","글쎄요","별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스를 지정합니다.
classes = array([1,1,1,1,1,0,0,0,0,0])

# 토큰화
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)


{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로예요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}


In [7]:
x = token.texts_to_sequences(docs)
print("\n리뷰 텍스트, 토큰화 결과:\n",  x)


리뷰 텍스트, 토큰화 결과:
 [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]


In [8]:
# 패딩, 서로 다른 길이의 데이터를 4로 맞추어 줍니다.
# padding='pre' : 시퀀스의 길이가 4보다 짧은 경우 앞쪽을 0으로 채워 길이를 4로 맞춘다.
padded_x = pad_sequences(x, 4, padding='pre') # default
# padded_x = pad_sequences(x, 4, padding='post')
print("\n패딩 결과:\n", padded_x)


패딩 결과:
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]


Q. 주어진 텍스트 데이터셋을 토큰화하고, 각 단어에 고유한 정수 인덱스를 할당하세요. 그런 다음, 각 문장을 정수 시퀀스로 변환하세요.

데이터셋:

"I love machine learning."<br>
"I love coding in Python."<br>
"Machine learning can be fun."

In [9]:
texts = ['I love machine learning', 'I love coding in Python', 'Machine learning can be fun']

token = Tokenizer()
token.fit_on_texts(texts)

sequences = token.texts_to_sequences(texts)

print('고유 인덱스:', token.word_index)
print("정수 시퀀스:", sequences)

고유 인덱스: {'i': 1, 'love': 2, 'machine': 3, 'learning': 4, 'coding': 5, 'in': 6, 'python': 7, 'can': 8, 'be': 9, 'fun': 10}
정수 시퀀스: [[1, 2, 3, 4], [1, 2, 5, 6, 7], [3, 4, 8, 9, 10]]


Q 위에서 생성한 정수 시퀀스에 패딩을 추가하여 모든 시퀀스의 길이를 동일하게 만드세요.

In [10]:
from keras.preprocessing.sequence import pad_sequences

# 패딩 추가
padded_sequences = pad_sequences(sequences, padding='post')

# 패딩된 시퀀스 출력
print("패딩된 정수 시퀀스:", padded_sequences)


패딩된 정수 시퀀스: [[ 1  2  3  4  0]
 [ 1  2  5  6  7]
 [ 3  4  8  9 10]]


Q. 주어진 텍스트 데이터셋에 대해 원-핫 인코딩을 수행하세요.
- 사용할 최대 단어 수 설정 : num_words=1000

In [16]:
# 첫 번째 열에 1이 나타나는 이유는 여기서 0 인덱스가 실제로 원-핫 인코딩에서 하나의 위치를 차지하고 있기 때문
# 토큰화 및 시퀀스 패딩 과정에서 0은 일반적으로 패딩을 위해 사용
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical  # to_categorical import 추가

# 데이터셋 정의
texts = [ "I love coding in Python.","I love machine learning.", "Machine learning can be fun."]

# 토큰화 객체 생성
tokenizer = Tokenizer(num_words=1000)

# 데이터셋에 대해 토큰화 수행
tokenizer.fit_on_texts(texts)  # 여기를 수정

# 각 문장을 정수 시퀀스로 변환
sequences = tokenizer.texts_to_sequences(texts)
print(sequences)

# 모든 시퀀스를 동일한 길이로 패딩
padded_sequences = pad_sequences(sequences, padding='post')
print(padded_sequences)

word_size = len(tokenizer.word_index) + 1
x = to_categorical(padded_sequences, num_classes=word_size)  # to_categorical 사용

# 결과 출력
print("패딩된 시퀀스:", x)


[[1, 2, 5, 6, 7], [1, 2, 3, 4], [3, 4, 8, 9, 10]]
[[ 1  2  5  6  7]
 [ 1  2  3  4  0]
 [ 3  4  8  9 10]]
패딩된 시퀀스: [[[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]]

 [[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]]


### Embedding
- 기계 학습, 특히 자연어 처리(NLP)의 맥락에서 임베딩은 단어, 구문 또는 기타 유형의 엔터티를 실수의 밀집된 벡터로 표현하는 기술을 의미. 핵심 아이디어는 이러한 엔터티의 의미론적 의미를 연속적인 벡터 공간으로 인코딩하는 것이다. 여기서 벡터 간의 기하학적 관계는 이들이 나타내는 엔터티 간의 의미론적 관계를 반영하며 이 접근 방식은 의미론적 관계가 캡처되지 않는 원-핫 인코딩과 같은 희소 표현과 대조된다.
- 의미:
  - 의미적 표현: 임베딩 벡터는 단어나 개체의 의미를 포착하도록 설계된다. 비슷한 의미를 가진 단어는 임베딩 공간에서 서로 가까운 벡터를 갖도록 처리된다.
  - 차원성 감소: 임베딩은 고차원 공간(예: 원-핫 인코딩된 벡터)의 단어를 저차원의 연속 벡터 공간으로 매핑하며 이는 표현을 더욱 효율적으로 만들고 계산 복잡성을 줄인다.
  - 컨텍스트화: 고급 임베딩 모델(예: Word2Vec, GloVe, BERT)에서는 단어가 나타나는 컨텍스트가 벡터 표현에 영향을 미치므로 모델이 다양한 컨텍스트에서 단어의 다양한 의미를 캡처할 수 있다.
- 임베딩 생성 방법:
  - 사전 훈련된 임베딩: 일반적인 접근 방식 중 하나는 대규모 텍스트 모음에 대해 사전 훈련된 임베딩을 사용하는 것으로 Word2Vec, GloVe와 같은 모델을 사용하면 훈련 코퍼스에서 풍부한 의미 체계 관계를 학습한 사전 훈련된 모델을 기반으로 단어를 벡터에 매핑할 수 있다.
    - Word2Vec: 컨텍스트를 사용하여 대상 단어를 예측하거나(CBOW) 단어를 사용하여 컨텍스트를 예측(Skip-gram)하여 임베딩을 학습한다.
      - CBOW 모델은 주어진 컨텍스트(주변 단어들)를 바탕으로 타겟 단어를 예측하는 방식으로 작동. 예를 들어, 문장 "the cat sits on the"에서 "cat", "sits", "on", "the"를 컨텍스트로 사용하여 "mat"이라는 타겟 단어를 예측
      - skip-gram 모델은 CBOW와 반대로, 주어진 타겟 단어로부터 컨텍스트(주변 단어들)를 예측하는 방식으로 작동. 예를 들어, "cat"이라는 단어가 주어졌을 때, "the", "sits", "on", "the"와 같은 주변 단어들을 예측
    - GloVe: 단어 동시 발생 통계 행렬을 인수분해하여 임베딩을 학습한다.    
  - 자신만의 임베딩 훈련: 신경망을 사용하여 처음부터 자신만의 임베딩을 훈련할 수도 있다.

텍스트 입력을 표현하기 위해 단어 임베딩 활용
- model.add(Embedding(word_size, 8, input_length=4)): 이 줄은 모델에 임베딩 레이어를 추가. 임베딩 레이어는 단어 임베딩을 만드는 데 사용. 각 매개변수의 의미는 다음과 같다.
  - word_size: 입력 차원의 크기, 즉 어휘 크기. 데이터 세트에 있는 총 고유 단어 수에 1을 더한 값.
  - 8: 임베딩 벡터의 크기. 각 단어는 8차원 벡터로 표현.
  - input_length=4: 입력 시퀀스의 길이. 이 모델은 각 입력 시퀀스의 길이가 4일 것으로 예상(예: 입력당 4개의 단어).
- model.add(Flatten()): 임베딩 레이어 이후 출력 모양은 배치 크기를 포함하여 3차원. 이 레이어는 출력을 2차원(배치 크기, input_length * 8)으로 평면화하여 밀도가 높은 레이어에 직접 공급될 수 있도록 한다.

In [17]:
# 텍스트 리뷰 자료를 지정합니다.
docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요","추천하고 싶은 영화입니다","한번 더 보고싶네요","글쎄요","별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스를 지정합니다.
classes = np.array([1,1,1,1,1,0,0,0,0,0])

In [18]:
from tensorflow.keras.preprocessing.text import Tokenizer
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

# 임베딩에 입력될 단어의 수를 지정합니다.
word_size = len(token.word_index) +1

# 단어 임베딩을 포함하여 딥러닝 모델을 만들고 결과를 출력합니다.
model = Sequential()
model.add(Input(shape=(4,)))
model.add(Embedding(word_size, 8))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.summary()

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로예요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}


In [18]:
word_size

21

In [19]:
x = token.texts_to_sequences(docs)
padded_x = pad_sequences(x, 4, padding='pre')

In [20]:
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)
print("\n Accuracy: %.4f" % (model.evaluate(padded_x, classes)[1]))

Epoch 1/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2s/step - accuracy: 0.4000 - loss: 0.6931
Epoch 2/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step - accuracy: 0.5000 - loss: 0.6913
Epoch 3/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 57ms/step - accuracy: 0.6000 - loss: 0.6895
Epoch 4/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 26ms/step - accuracy: 0.7000 - loss: 0.6878
Epoch 5/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 27ms/step - accuracy: 0.7000 - loss: 0.6860
Epoch 6/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 26ms/step - accuracy: 0.8000 - loss: 0.6842
Epoch 7/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step - accuracy: 0.8000 - loss: 0.6825
Epoch 8/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step - accuracy: 0.8000 - loss: 0.6807
Epoch 9/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m

Q. 10개의 단어를 가진 어휘(vocabulary)와 각 단어를 4차원 벡터로 임베딩하는 Keras 모델을 구성하세요. 시퀀스의 최대 길이는 5로 설정하세요.

In [14]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Flatten, Dense
import numpy as np

# 임의의 입력 데이터 (배치 크기 1, 시퀀스 길이 5)
input_data = np.array([
    [1, 2, 3, 4, 5],   # 예시 시퀀스 1
    [2, 3, 4, 5, 6]    # 예시 시퀀스 2 (배치 크기 2로 예시)
])

# 모델 구성
model = Sequential()
model.add(Input(shape=(5,)))  # Input 레이어 추가
model.add(Embedding(input_dim=10, output_dim=4))  # input_length 제거

# Flatten 레이어 추가 (임베딩 출력의 차원을 평평하게 하기 위해)
model.add(Flatten())

# Dense 레이어 추가 (출력을 보기 위해 간단한 밀집 레이어)
model.add(Dense(1, activation='sigmoid'))



# 모델 컴파일
model.compile(optimizer='adam', loss='binary_crossentropy')

# 모델 요약 출력
model.summary()

# 모델 예측
output = model.predict(input_data)
print("임베딩 레이어의 출력:\n", output)


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 91ms/step
임베딩 레이어의 출력:
 [[0.5057892 ]
 [0.48085546]]


Q. 100개의 단어를 가진 어휘와 각 단어를 8차원 벡터로 임베딩한 후, 이를 평탄화하고 Dense 레이어를 통해 분류하는 Keras 모델을 구성하세요. 최종 출력은 3개의 클래스를 가진 분류 문제를 가정

In [12]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Embedding, Flatten, Dense
import numpy as np

# 예시 입력 데이터 (배치 크기 2, 시퀀스 길이 10)
input_data = np.array([
    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]
])

# 모델 구성
model = Sequential()
model.add(Input(shape=(10,)))  # Input 레이어 추가
model.add(Embedding(input_dim=100, output_dim=8))  # input_length 제거

# Flatten 레이어 추가 (임베딩 출력의 차원을 평평하게 하기 위해)
model.add(Flatten())

# Dense 레이어 추가 (3개의 클래스로 분류하기 위해)
model.add(Dense(3, activation='softmax'))

# 모델 컴파일
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 모델 요약 출력
model.summary()

# 모델 예측 (임의의 입력 데이터 사용)
output = model.predict(input_data)
print("모델 예측 결과:\n", output)


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 96ms/step
모델 예측 결과:
 [[0.33155936 0.34121314 0.3272274 ]
 [0.3309402  0.32625672 0.34280315]]


Q. 간단한 분류 모델을 구성하고, 이를 컴파일하는 코드를 작성하세요. 이 모델은 이진 분류 문제를 해결하며, 다음 조건을 만족해야 한다:

- 입력 차원은 20.
- 첫 번째 Dense 레이어는 64 유닛과 ReLU 활성화 함수를 사용.
- 출력 레이어는 1 유닛과 시그모이드 활성화 함수를 사용.
- 손실 함수로는 binary crossentropy를 사용.
- 옵티마이저로는 'adam'을 사용.
- 평가 지표로는 'accuracy'를 사용.

In [19]:
from keras.models import Sequential
from keras.layers import Dense

# 모델 구성
model = Sequential()
model.add(Input(shape=(20,)))
model.add(Dense(64, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

# 모델 컴파일
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# 모델 요약 출력
model.summary()


 Q1_0206. IMDB 영화 리뷰 데이터셋을 사용하여 긍부정 이진분류 모델링 및 평가를 수행하세요. 단, embedding 차원은 8

In [20]:
from keras.datasets import imdb
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Embedding, Flatten, Dense

# 데이터셋 로드
# num_words=10000은 훈련 데이터에서 가장 자주 나타나는 상위 10,000개의 단어만 사용하겠다는 의미입니다.
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000)

# 시퀀스 데이터 패딩
x_train = pad_sequences(x_train, maxlen=100)
x_test = pad_sequences(x_test, maxlen=100)

model = Sequential()
model.add(Input(shape=(100,)))
model.add(Embedding(10000, 8))  # 입력 차원은 단어 인덱스의 최대 값 + 1, 출력 차원은 임베딩 후 벡터 크기
model.add(Flatten())  # 임베딩된 시퀀스를 평탄화
model.add(Dense(1, activation='sigmoid'))  # 긍정과 부정을 분류하므로 시그모이드 활성화 함수 사용

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.summary()

history = model.fit(x_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

loss, accuracy = model.evaluate(x_test, y_test)
print(f'Test Accuracy: {accuracy}')

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz
[1m17464789/17464789[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step


Epoch 1/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 3ms/step - accuracy: 0.5918 - loss: 0.6634 - val_accuracy: 0.8216 - val_loss: 0.4163
Epoch 2/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.8693 - loss: 0.3402 - val_accuracy: 0.8500 - val_loss: 0.3397
Epoch 3/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 2ms/step - accuracy: 0.9138 - loss: 0.2353 - val_accuracy: 0.8526 - val_loss: 0.3322
Epoch 4/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.9405 - loss: 0.1802 - val_accuracy: 0.8512 - val_loss: 0.3374
Epoch 5/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.9648 - loss: 0.1284 - val_accuracy: 0.8462 - val_loss: 0.3563
Epoch 6/10
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.9796 - loss: 0.0954 - val_accuracy: 0.8434 - val_loss: 0.3755
Epoch 7/10
[1m625/625[0m 