<a href="https://colab.research.google.com/github/ancestor9/24_fall_textmining_NLP/blob/main/Ch_10_Keras_Textmining.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Keras 입문



### 1. 전처리(Preprocessing)
- **Tokenizer()**: 토큰화와 정수 인코딩을 위해 사용하며 훈련 데이터로부터 단어 집합을 생성하고, 해당 단어 집합으로 임의의 문장을 정수 인코딩하는 과정

In [None]:
import warnings
warnings.filterwarnings(action='ignore')

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

tokenizer = Tokenizer()

In [None]:
corpus_train = [
    'The earth is an great place live',
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
# Tokenization
tokenizer.fit_on_texts(corpus_train)

# 결과 출력
print("단어 집합 : ", tokenizer.word_index)

단어 집합 :  {'the': 1, 'is': 2, 'this': 3, 'document': 4, 'first': 5, 'earth': 6, 'an': 7, 'great': 8, 'place': 9, 'live': 10, 'second': 11, 'and': 12, 'third': 13, 'one': 14}


In [None]:

train_text = "The earth is an awesome place live"

# 단어 집합 생성
tokenizer.fit_on_texts([train_text])
print(tokenizer)
# 정수 인코딩
sub_text = "The earth is an great place live"

<keras.src.legacy.preprocessing.text.Tokenizer object at 0x7bdf8edb1420>


In [None]:

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

# ## Keras 입문

tokenizer = Tokenizer()

train_text = "The earth is an awesome place live"
# train_text = "I am your father"

#단어 집합 생성
tokenizer.fit_on_texts([train_text])

# 결과 출력
print("단어 집합 : ", tokenizer.word_index)

단어 집합 :  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'live': 7}


In [None]:
# 정수 인코딩
sub_text = "The earth is an great place live"
sequences = tokenizer.texts_to_sequences([sub_text])[0]

print("정수 인코딩 : ",sequences)
word_index = tokenizer.word_index
print("단어 집합 : ", word_index)

# 행렬 생성
matrix = np.zeros((len(sequences), len(word_index)))
for i, seq in enumerate(sequences):
  matrix[i, seq-1] = 1
matrix

정수 인코딩 :  [1, 2, 3, 4, 6, 7]
단어 집합 :  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'live': 7}


array([[1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 1.]])

### pad_sequence() :
- 전체 훈련 데이터에서 각 샘플의 길이는 서로 다를 수 있거나 각 문서 또는 각 문장은 단어의 수가 제 각각
- 모델의 입력으로 사용하려면 모든 샘플의 길이를 동일하게 맞추어야 하는데 이를 자연어 처리에서는 패딩(padding) 작업
- 보통 숫자 0을 넣어서 길이가 다른 샘플들의 길이를 맞추며 케라스에서는 pad_sequence()를 사용
- pad_sequence()는 정해준 길이보다 길이가 긴 샘플은 값을 일부 자르고, 정해준 길이보다 길이가 짧은 샘플은 값을 0으로 채움

In [None]:
pad_sequences([[1, 2, 3], [3, 4, 5, 6], [7, 8]], maxlen=3, padding='pre')


array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]], dtype=int32)

In [None]:
pad_sequences([[1, 2, 3], [3, 4, 5, 6], [7, 8]], maxlen=3, padding='post')

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 0]], dtype=int32)

## 2. 워드 임베딩(Word Embedding)
- 워드 임베딩이란 텍스트 내의 단어들을 밀집 벡터(dense vector)로 만드는 것
### **2.1 데이터전처리(토큰화)**

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

# 1. 토큰화된 텍스트
tokenized_text = [['Hope', 'to', 'see', 'you', 'soon'], ['Nice', 'to', 'see', 'you', 'again']]

# 2. Tokenizer 객체 생성
tokenizer = Tokenizer()

# 3. fit_on_texts() 메서드로 단어 집합 생성
# fit_on_texts()는 단어 집합을 생성할 때 토큰화된 리스트 형태를 받는 대신, 전체 텍스트를 받아야 함
# 따라서 각 리스트를 문장으로 합친 형태로 전달
tokenizer.fit_on_texts([' '.join(sentence) for sentence in tokenized_text])

# 4. 각 텍스트를 정수 인코딩으로 변환
encoded_text = tokenizer.texts_to_sequences([' '.join(sentence) for sentence in tokenized_text])

# 5. 결과 출력
print("단어 집합 : ", tokenizer.word_index)
print("정수 인코딩 : ", encoded_text)

단어 집합 :  {'to': 1, 'see': 2, 'you': 3, 'hope': 4, 'soon': 5, 'nice': 6, 'again': 7}
정수 인코딩 :  [[4, 1, 2, 3, 5], [6, 1, 2, 3, 7]]


### **2.2. WordEmbedding**

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Flatten, Dense
import numpy as np

# 1. 토큰화된 텍스트
tokenized_text = [['Hope', 'to', 'see', 'you', 'soon'], ['Nice', 'to', 'see', 'you', 'again']]

# 2. Tokenizer 객체 생성
tokenizer = Tokenizer()

# 3. 단어 집합 생성
tokenizer.fit_on_texts([' '.join(sentence) for sentence in tokenized_text])

# 4. 각 텍스트를 정수 인코딩으로 변환
encoded_text = tokenizer.texts_to_sequences([' '.join(sentence) for sentence in tokenized_text])

# 5. 패딩 적용 (시퀀스의 길이를 동일하게 맞추기 위해)
padded_text = pad_sequences(encoded_text, padding='post', maxlen=5)

print("단어 집합 : ", tokenizer.word_index)
print("패딩된 정수 인코딩 :\n", padded_text)

# 6. 임베딩 레이어 정의
vocab_size = len(tokenizer.word_index) + 1  # 단어 집합의 크기 + 1 (0번 인덱스를 위한 추가)
embedding_dim = 3  # 임베딩 차원 수
input_length = padded_text.shape[1]  # 입력 시퀀스 길이 (패딩된 길이와 동일)

# 7. 모델 구성
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=input_length))
model.add(Flatten())  # 임베딩 벡터를 펼치기 위해 사용
model.add(Dense(1, activation='sigmoid'))  # 예시로 간단한 이진 분류용 출력층 추가

# 8. 모델 컴파일
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 9. 모델 요약 출력
model.summary()

# --- The fix ---
# Create some dummy data for training
X_train = padded_text
y_train = np.array([0, 1])  # Example labels (adjust as needed)

# Train the model for at least one epoch
model.fit(X_train, y_train, epochs=1)
# --- End of fix ---

# 10. 가중치 추출 (임베딩 벡터)
embedding_layer = model.layers[0]
embedding_weights = embedding_layer.get_weights()[0]

# 11. 임베딩 벡터 출력
print("임베딩 벡터 :\n", embedding_weights)

단어 집합 :  {'to': 1, 'see': 2, 'you': 3, 'hope': 4, 'soon': 5, 'nice': 6, 'again': 7}
패딩된 정수 인코딩 :
 [[4 1 2 3 5]
 [6 1 2 3 7]]


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 819ms/step - accuracy: 0.0000e+00 - loss: 0.7071
임베딩 벡터 :
 [[-0.00655003  0.03789905 -0.01900787]
 [-0.04005739  0.02494198  0.04938038]
 [-0.03571683 -0.02770532 -0.04837917]
 [ 0.04056328  0.02016231 -0.04066862]
 [ 0.03829871 -0.03119194  0.02735214]
 [ 0.01206921 -0.02228847 -0.03972652]
 [-0.04865739  0.00128269  0.02605205]
 [-0.00189136 -0.01079234 -0.01497699]]


## **<font color='orange'> 이상한 나라의 앨리스로 실습**

In [None]:
import nltk
from nltk.corpus import gutenberg
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Flatten, Dense
import numpy as np

# 1. NLTK의 말뭉치에서 Alice in Wonderland 텍스트 불러오기
nltk.download('gutenberg')
nltk.download('punkt')

alice_text = gutenberg.raw('carroll-alice.txt')

# 2. 텍스트 전처리 (토큰화)
# 단어 단위로 토큰화 수행
tokens = nltk.word_tokenize(alice_text)

# 3. 소문자 변환 및 알파벳 이외의 문자 제거
tokens = [word.lower() for word in tokens if word.isalpha()]

# 4. TensorFlow Tokenizer 객체 생성 및 단어 집합 학습
tokenizer = Tokenizer()
tokenizer.fit_on_texts(tokens)

# 5. 텍스트를 정수 인코딩으로 변환
sequences = tokenizer.texts_to_sequences([tokens])[0]  # 전체 텍스트를 시퀀스로 변환

# 6. 시퀀스의 길이를 동일하게 맞추기 위해 패딩 적용 (여기서는 최대 길이를 100으로 설정)
max_length = 100
padded_sequences = pad_sequences([sequences], maxlen=max_length, padding='post')

print("단어 집합 크기: ", len(tokenizer.word_index))
print("패딩된 시퀀스 샘플:\n", padded_sequences)

# 7. 임베딩 레이어 정의 및 모델 구성
vocab_size = len(tokenizer.word_index) + 1  # 단어 집합의 크기 + 1 (0번 인덱스를 위한 추가)
embedding_dim = 50  # 임베딩 벡터의 차원 수
input_length = max_length  # 입력 시퀀스의 길이

# 8. 모델 정의
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=input_length))
model.add(Flatten())  # 임베딩 벡터를 펼치기 위해 사용
model.add(Dense(1, activation='sigmoid'))  # 예시로 간단한 이진 분류용 출력층 추가

# 9. 모델 컴파일
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 10. 모델 요약 출력
model.summary()

# --- The fix ---
# Create some dummy data for training
# Assuming padded_sequences is your input data
X_train = padded_sequences
# Create dummy labels (replace with your actual labels)
y_train = np.array([0])  # Example label, adjust as needed

# Train the model for at least one epoch
model.fit(X_train, y_train, epochs=1)
# --- End of fix ---

# 11. 임베딩 벡터 출력
embedding_layer = model.layers[0]
embedding_weights = embedding_layer.get_weights()[0]

print("임베딩 벡터 샘플 :\n", embedding_weights[:5])  # 임베딩 벡터 일부 출력

[nltk_data] Downloading package gutenberg to /root/nltk_data...
[nltk_data]   Package gutenberg is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


단어 집합 크기:  2470
패딩된 시퀀스 샘플:
 [[  75 1348  774 2460    5 2461    3   51   80   29  173   30  362    8
   772   41   12    1   22   51    4  476 1158    2   80    5   41  355
   245   21   16 2462 2463    1  569    2 2464 1346    8   16 2465    2
    80    5   41 2466   40   16  111   30  342    2  154   83  147  455
     2  979   20  289    4  585  699  246  194   20    1  449    8  786
     8  130 1089    2   80    5   41  394   20   21   83  569 2467    2
   184    4 1009   12   21   83  569 2468 2469   16  329    2    1 2470
  1378  750]]


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 850ms/step - accuracy: 1.0000 - loss: 0.6799
임베딩 벡터 샘플 :
 [[-3.90512459e-02  7.28512928e-03 -1.45345815e-02 -1.96779966e-02
   8.02484900e-03 -3.21628340e-02 -4.37870622e-05 -2.70767100e-02
  -4.34693471e-02  8.99610668e-03 -4.22043465e-02 -4.09283489e-03
  -1.49199367e-02 -3.35379839e-02  2.43359320e-02  3.54259945e-02
   4.00505327e-02 -1.98069215e-02 -4.05947194e-02 -8.00559670e-03
   1.82906128e-02  7.87124783e-03  4.09009717e-02  2.28908099e-02
   1.18293278e-02 -2.51850616e-02 -3.59941609e-02 -2.20951792e-02
   3.97859924e-02 -3.81585956e-02 -1.65395960e-02  6.03485107e-03
   8.70371982e-03  1.92116760e-02 -1.47921927e-02  1.96578018e-02
   9.15575027e-03 -6.73825666e-03 -1.56424418e-02  4.01898064e-02
   1.48371346e-02 -3.07479985e-02 -6.58057630e-04 -1.55031197e-02
  -1.69162378e-02  2.19146349e-02 -4.05705795e-02  1.20314211e-03
   3.32486629e-03  1.06726401e-02]
 [ 1.51187275e-02  4.74952199e-02  1.25219952e-03  1.

### **[projector.tensorflow.org](https://projector.tensorflow.org/)**
- 시각화를 위한 데이터 추출

In [None]:
import os

# 4. 벡터 및 메타데이터 파일 생성
# 디렉토리 생성
output_dir = "/content"# 12. 벡터 및 메타데이터 파일 생성

if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# vectors.tsv 생성
vectors_file = os.path.join(output_dir, 'vectors.tsv')
with open(vectors_file, 'w', encoding='utf-8') as f:
    for vector in embedding_weights:
        f.write('\t'.join(map(str, vector)) + "\n")

# metadata.tsv 생성
metadata_file = os.path.join(output_dir, 'metadata.tsv')
with open(metadata_file, 'w', encoding='utf-8') as f:
    f.write("Word\n")  # 첫 번째 행에 헤더 추가
    for word, index in tokenizer.word_index.items():
        f.write(word + "\n")

print("임베딩 벡터와 메타데이터 파일이 생성되었습니다.")
print(f"벡터 파일 경로: {vectors_file}")
print(f"메타데이터 파일 경로: {metadata_file}")

임베딩 벡터와 메타데이터 파일이 생성되었습니다.
벡터 파일 경로: /content/vectors.tsv
메타데이터 파일 경로: /content/metadata.tsv
