In [None]:
# TfidfVectorizer는 텍스트 데이터를 숫자 벡터로 변환하는 도구입니다.
# scikit-learn의 feature_extraction.text 모듈에 들어있고, 
# TF-IDF(Term Frequency - Inverse Document Frequency) 방식을 이용합니다.

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 샘플 문서들
docs = [
    "나는 자연어 처리를 공부합니다",
    "자연어 처리는 재미있습니다",
    "자연어 처리를 배우고 응용합니다"
]

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(docs)

print("단어 사전:", vectorizer.get_feature_names_out())
print("TF-IDF 행렬 크기:", X.shape)

# 희소 행렬 → 밀집 행렬 변환
print(X.toarray())

단어 사전: ['공부합니다' '나는' '배우고' '응용합니다' '자연어' '재미있습니다' '처리는' '처리를']
TF-IDF 행렬 크기: (3, 8)
[[0.5844829  0.5844829  0.         0.         0.34520502 0.
  0.         0.44451431]
 [0.         0.         0.         0.         0.38537163 0.65249088
  0.65249088 0.        ]
 [0.         0.         0.5844829  0.5844829  0.34520502 0.
  0.         0.44451431]]


In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 1. 훈련/검증 데이터 준비
X_train = ["나는 밥을 먹었다", "학교에 갔다"]
X_valid = ["밥을 많이 먹었다"]

# 2. 토크나이저 정의 (상위 10000개 단어만 사용 예시)
tokenizer = Tokenizer(num_words=10000, oov_token="<OOV>")

# 3. 훈련 데이터로 단어 사전 구축
tokenizer.fit_on_texts(X_train)

# 4. 단어 인덱스 확인
print("단어 인덱스:", tokenizer.word_index)

# 5. 텍스트 → 시퀀스 변환
X_train_seq = tokenizer.texts_to_sequences(X_train)
X_valid_seq = tokenizer.texts_to_sequences(X_valid)

print("훈련 시퀀스:", X_train_seq)
print("검증 시퀀스:", X_valid_seq)           # 검증 시퀀스: [[3, 1, 4]]   # '많이'는 사전에 없어 <OOV>(1) 처리됨

# 6. 패딩 처리 (모델 입력 크기 맞추기)
max_len = 10  # 원하는 최대 길이
X_train_pad = pad_sequences(X_train_seq, maxlen=max_len, padding='post')
X_valid_pad = pad_sequences(X_valid_seq, maxlen=max_len, padding='post')

print("훈련 패딩 결과:\n", X_train_pad)
print("검증 패딩 결과:\n", X_valid_pad)


# 이렇게 하면 X_train_pad, X_valid_pad를 바로 딥러닝 모델의 입력 데이터로 사용할 수 있습니다.

단어 인덱스: {'<OOV>': 1, '나는': 2, '밥을': 3, '먹었다': 4, '학교에': 5, '갔다': 6}
훈련 시퀀스: [[2, 3, 4], [5, 6]]
검증 시퀀스: [[3, 1, 4]]
훈련 패딩 결과:
 [[2 3 4 0 0 0 0 0 0 0]
 [5 6 0 0 0 0 0 0 0 0]]
검증 패딩 결과:
 [[3 1 4 0 0 0 0 0 0 0]]
