# 자연어 처리 주요 코드
처음 보는 코드들이라면 당연히 맞출 수 없습니다. 핵심적인 부분을 빈칸으로 만들었기 때문에 답지 보면서 확인하는 정도만 해보세요. 더 관심 있으시면 따로 더 찾아보시는걸 추천드립니다.

In [2]:
# 필수 라이브러리 설치
!pip install scikit-learn
!pip install gensim
!pip install tensorflow

Collecting gensim
  Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (8.4 kB)
Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (27.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.9/27.9 MB[0m [31m70.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: gensim
Successfully installed gensim-4.4.0


In [None]:
# [퀴즈 1: BoW (CountVectorizer)]

from sklearn.feature_extraction.text import [_____]  # 1번 빈칸 (BoW 모델)

# 2. 분석할 문서 데이터
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]

# 3. BoW Vectorizer 객체 생성
# (내부적으로 토큰화, 불용어 제거 등을 수행합니다)
vectorizer = [_____]()  # 1번 빈칸 (위와 동일)

# 4. 문서를 BoW 행렬로 학습 및 변환
bow_matrix = vectorizer.[_____](corpus)  # 2번 빈칸 (학습 및 변환)

print("--- 어휘 사전 (Vocabulary) ---")
# 'get_feature_names_out'은 학습된 단어 목록(사전)을 보여줍니다.
print(vectorizer.[_____]())  # 3번 빈칸 (학습된 단어 목록 가져오기)

print("--- BoW 행렬 (결과) ---")
print(bow_matrix.toarray())

In [None]:
# [퀴즈 2: Word2Vec (gensim)]

from gensim.models import [_____]  # 1번 빈칸 (Word2Vec 모델)

# 2. 학습할 문장 데이터 (이미 토큰화 완료)
sentences = [
    ['I', 'love', 'nlp'],
    ['I', 'love', 'deep', 'learning'],
    ['nlp', 'is', 'fun'],
    ['deep', 'learning', 'is', 'fun']
]

# 3. Word2Vec 모델 학습
# vector_size=100 : 단어를 100차원 벡터로 만듦
# window=2 : 주변 2개 단어까지 문맥으로 참고
# min_count=1 : 최소 1번 이상 나온 단어만 학습
model = [_____](
    [_____]=sentences,  # 2번 빈칸 (학습 데이터)
    vector_size=100,
    window=2,
    min_count=1
)

# 4. 'nlp' 단어의 학습된 벡터 확인
vector_nlp = model.[_____]['nlp']  # 3번 빈칸 (단어 벡터 접근)

print(f"--- 'nlp'의 100차원 벡터 ---")
print(vector_nlp)

# 5. 'nlp'와 가장 유사한 단어 찾기
similar_words = model.[_____].most_similar('nlp')  # 4번 빈칸 (유사 단어 찾기)
print(f"\n--- 'nlp'와 가장 유사한 단어 ---")
print(similar_words)

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import [_____]     # 1번 빈칸 (모델 뼈대)
from tensorflow.keras.layers import [_____], [_____], [_____]  # 2, 3, 4번 빈칸
from tensorflow.keras.preprocessing.text import [_____]      # 5번 빈칸 (전처리)
from tensorflow.keras.preprocessing.sequence import [_____]  # 6번 빈칸 (전처리)

# 1. 데이터 준비 (긍정=1, 부정=0)
texts = ['This movie is great', 'I love this film', 'This is terrible', 'I hate this movie']
labels = np.array([1, 1, 0, 0])

# 2. 텍스트 전처리 (Tokenizer)
vocab_size = 100  # 단어 사전 크기를 100개로 제한
tokenizer = [_____](num_words=vocab_size)  # 5번 빈칸
tokenizer.[_____](texts)               # 7번 빈칸 (단어 사전 학습)
sequences = tokenizer.[_____](texts)      # 8번 빈칸 (텍스트를 숫자 시퀀스로)

print("--- 숫자 시퀀스 변환 ---")
print(sequences)

# 3. 텍스트 전처리 (Padding)
max_len = 10  # 모든 문장 길이를 10으로 맞춤
padded_data = [_____](sequences, maxlen=max_len)  # 6번 빈칸

print("\n--- 패딩 완료 (길이 10) ---")
print(padded_data)

# 4. 모델 구축
model = [_____]()  # 1번 빈칸
model.add([_____](input_dim=vocab_size, output_dim=32, input_length=max_len)) # 2번 빈칸
model.add([_____](units=64))  # 3번 빈칸
model.add([_____](units=1, activation='sigmoid'))  # 4번 빈칸

# 5. 모델 컴파일 (학습 설정)
model.[_____](optimizer='adam',
             [_____]='binary_crossentropy',  # 9번, 10번 빈칸
             metrics=['accuracy'])

# 6. 모델 훈련
model.[_____](padded_data, labels, [_____]=20)  # 11번, 12번 빈칸

# 7. [퀴즈] 새로운 데이터 예측
test_text = ['I love this great movie']
test_seq = tokenizer.texts_to_sequences(test_text)
test_pad = pad_sequences(test_seq, maxlen=max_len)

prediction = model.[_____](test_pad)  # 13번 빈칸
print(f"\n--- 예측 결과 ('I love this great movie'는?) ---")
print(prediction) # 1에 가까우면 긍정

자연어 처리에서 가장 유명한 논문이 "Attention Is All You Need"입니다. 자연어 처리에 관심이 있으신 분들인 이 논문을 꼭 읽어보시는걸 추천드립니다. (읽으면서 모르는건 생성형 AI에 질문해보세요.)