In [18]:
# 필수 라이브러리 설치
!pip install scikit-learn
!pip install gensim
!pip install tensorflow



In [2]:
# [퀴즈 1: BoW (CountVectorizer)]

from sklearn.feature_extraction.text import CountVectorizer  # 1번 빈칸 (BoW 모델)

# 2. 분석할 문서 데이터
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]

# 3. BoW Vectorizer 객체 생성
# (내부적으로 토큰화, 불용어 제거 등을 수행합니다)
vectorizer = CountVectorizer()  # 1번 빈칸 (위와 동일)

# 4. 문서를 BoW 행렬로 학습 및 변환
bow_matrix = vectorizer.fit_transform(corpus)  # 2번 빈칸 (학습 및 변환)

print("--- 어휘 사전 (Vocabulary) ---")
# 'get_feature_names_out'은 학습된 단어 목록(사전)을 보여줍니다.
print(vectorizer.get_feature_names_out())  # 3번 빈칸 (학습된 단어 목록 가져오기)

print("--- BoW 행렬 (결과) ---")
print(bow_matrix.toarray())

--- 어휘 사전 (Vocabulary) ---
['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
--- BoW 행렬 (결과) ---
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


In [12]:
# [퀴즈 2: Word2Vec (gensim)]

from gensim.models import Word2Vec  # 1번 빈칸 (Word2Vec 모델)

# 2. 학습할 문장 데이터 (이미 토큰화 완료)
sentences = [
    ['I', 'love', 'nlp'],
    ['I', 'love', 'deep', 'learning'],
    ['nlp', 'is', 'fun'],
    ['deep', 'learning', 'is', 'fun']
]

# 3. Word2Vec 모델 학습
# vector_size=100 : 단어를 100차원 벡터로 만듦
# window=2 : 주변 2개 단어까지 문맥으로 참고
# min_count=1 : 최소 1번 이상 나온 단어만 학습
model = Word2Vec(
    sentences=sentences,  # 2번 빈칸 (학습 데이터)
    vector_size=100,
    window=2,
    min_count=1
)

# 4. 'nlp' 단어의 학습된 벡터 확인
vector_nlp = model.wv['nlp']  # 3번 빈칸 (단어 벡터 접근)

print(f"--- 'nlp'의 100차원 벡터 ---")
print(vector_nlp)

# 5. 'nlp'와 가장 유사한 단어 찾기
similar_words = model.wv.most_similar('nlp')  # 4번 빈칸 (유사 단어 찾기)
print(f"\n--- 'nlp'와 가장 유사한 단어 ---")
print(similar_words)

--- 'nlp'의 100차원 벡터 ---
[-0.00713902  0.00124103 -0.00717672 -0.00224462  0.0037193   0.00583312
  0.00119818  0.00210273 -0.00411039  0.00722533 -0.00630704  0.00464722
 -0.00821997  0.00203647 -0.00497705 -0.00424769 -0.00310898  0.00565521
  0.0057984  -0.00497465  0.00077333 -0.00849578  0.00780981  0.00925729
 -0.00274233  0.00080022  0.00074665  0.00547788 -0.00860608  0.00058446
  0.00686942  0.00223159  0.00112468 -0.00932216  0.00848237 -0.00626413
 -0.00299237  0.00349379 -0.00077263  0.00141129  0.00178199 -0.0068289
 -0.00972481  0.00904058  0.00619805 -0.00691293  0.00340348  0.00020606
  0.00475375 -0.00711994  0.00402695  0.00434743  0.00995737 -0.00447374
 -0.00138926 -0.00731732 -0.00969783 -0.00908026 -0.00102275 -0.00650329
  0.00484973 -0.00616403  0.00251919  0.00073944 -0.00339215 -0.00097922
  0.00997913  0.00914589 -0.00446183  0.00908303 -0.00564176  0.00593092
 -0.00309722  0.00343175  0.00301723  0.00690046 -0.00237388  0.00877504
  0.00758943 -0.00954765 -0.

In [19]:
# [퀴즈 3: LSTM 모델 (Keras) - 정답]

import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential     # 1번 정답
from tensorflow.keras.layers import Embedding, LSTM, Dense  # 2, 3, 4번 정답
from tensorflow.keras.preprocessing.text import Tokenizer      # 5번 정답
from tensorflow.keras.preprocessing.sequence import pad_sequences  # 6번 정답

# 1. 데이터 준비 (긍정=1, 부정=0)
texts = ['This movie is great', 'I love this film', 'This is terrible', 'I hate this movie']
labels = np.array([1, 1, 0, 0])

# 2. 텍스트 전처리 (Tokenizer)
vocab_size = 100
tokenizer = Tokenizer(num_words=vocab_size)  # 5번 정답
tokenizer.fit_on_texts(texts)               # 7번 정답
sequences = tokenizer.texts_to_sequences(texts)      # 8번 정답

print("--- 숫자 시퀀스 변환 ---")
print(sequences)

# 3. 텍스트 전처리 (Padding)
max_len = 10
padded_data = pad_sequences(sequences, maxlen=max_len)  # 6번 정답

print("\n--- 패딩 완료 (길이 10) ---")
print(padded_data)

# 4. 모델 구축
model = Sequential()  # 1번 정답
model.add(Embedding(input_dim=vocab_size, output_dim=32, input_length=max_len)) # 2번 정답
model.add(LSTM(units=64))  # 3번 정답
model.add(Dense(units=1, activation='sigmoid'))  # 4번 정답

# 5. 모델 컴파일 (학습 설정)
model.compile(optimizer='adam',
             loss='binary_crossentropy',  # 9번, 10번 정답
             metrics=['accuracy'])

# 6. 모델 훈련
model.fit(padded_data, labels, epochs=20)  # 11번, 12번 정답

# 7. [퀴즈] 새로운 데이터 예측
test_text = ['I love this great movie']
test_seq = tokenizer.texts_to_sequences(test_text)
test_pad = pad_sequences(test_seq, maxlen=max_len)

prediction = model.predict(test_pad)  # 13번 정답
print(f"\n--- 예측 결과 ('I love this great movie'는?) ---")
print(prediction) # 1에 가까우면 긍정

--- 숫자 시퀀스 변환 ---
[[1, 2, 3, 5], [4, 6, 1, 7], [1, 3, 8], [4, 9, 1, 2]]

--- 패딩 완료 (길이 10) ---
[[0 0 0 0 0 0 1 2 3 5]
 [0 0 0 0 0 0 4 6 1 7]
 [0 0 0 0 0 0 0 1 3 8]
 [0 0 0 0 0 0 4 9 1 2]]
Epoch 1/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 6s/step - accuracy: 0.5000 - loss: 0.6945
Epoch 2/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 84ms/step - accuracy: 0.2500 - loss: 0.6934
Epoch 3/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 84ms/step - accuracy: 0.5000 - loss: 0.6922
Epoch 4/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 87ms/step - accuracy: 0.5000 - loss: 0.6911
Epoch 5/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 85ms/step - accuracy: 0.7500 - loss: 0.6899
Epoch 6/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 103ms/step - accuracy: 0.7500 - loss: 0.6887
Epoch 7/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 147ms/step - accuracy: 1.0000 - loss: 