<a href="https://colab.research.google.com/github/kwonyounghwan/colab/blob/main/word2vec_dtm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**문서-단어 행렬(Document-Term Matrix, DTM)**


문서-단어 행렬(Document-Term Matrix, DTM)은 여러 문서에 걸쳐 단어의 출현 빈도를 행렬 형태로 표현하는 방법입니다. 각 행은 개별 문서를 나타내고, 각 열은 단어 사전에 있는 단어를 나타냅니다. 이 방식은 문서들 사이의 비교나 텍스트 데이터의 구조적 분석을 용이하게 합니다. 다음은 파이썬에서 DTM을 생성하는 예제 소스코드입니다. 이 예제에서는 CountVectorizer를 사용하여 DTM을 생성합니다.

In [1]:
# 필요한 라이브러리를 불러옵니다.
from sklearn.feature_extraction.text import CountVectorizer

# 문서 집합을 정의합니다. 여기서는 간단한 예제로 4개의 문서를 사용합니다.
documents = [
    "나는 파이썬을 배우고 있어",
    "파이썬은 데이터 분석에 유용해",
    "머신러닝을 공부하고 싶어",
    "데이터 분석은 재미있어"
]

# CountVectorizer 인스턴스를 생성합니다.
vectorizer = CountVectorizer()

# 문서-단어 행렬(DTM)을 생성합니다. fit_transform 메서드는 문서들을 입력받아 행렬을 생성합니다.
X = vectorizer.fit_transform(documents)

# 생성된 DTM을 배열로 변환합니다.
X_array = X.toarray()

# 각 단어와 그에 해당하는 인덱스를 출력합니다.
print("단어 인덱스:\n", vectorizer.vocabulary_)

# 문서-단어 행렬을 출력합니다.
print("\n문서-단어 행렬(DTM):")
print(X_array)


단어 인덱스:
 {'나는': 1, '파이썬을': 12, '배우고': 4, '있어': 9, '파이썬은': 11, '데이터': 2, '분석에': 5, '유용해': 8, '머신러닝을': 3, '공부하고': 0, '싶어': 7, '분석은': 6, '재미있어': 10}

문서-단어 행렬(DTM):
[[0 1 0 0 1 0 0 0 0 1 0 0 1]
 [0 0 1 0 0 1 0 0 1 0 0 1 0]
 [1 0 0 1 0 0 0 1 0 0 0 0 0]
 [0 0 1 0 0 0 1 0 0 0 1 0 0]]


이 코드는 주어진 문서들로부터 DTM을 생성하고, 각 단어가 문서 내에서 얼마나 자주 등장하는지를 보여주는 행렬을 출력합니다. CountVectorizer는 각 문서에서 단어의 출현 횟수를 세어, 문서별로 단어의 빈도를 나타내는 벡터를 생성합니다. 이렇게 생성된 벡터들을 모아서 DTM을 구성하게 됩니다.

이 예제에서는 단어의 순서나 문맥은 고려되지 않으며, 단순히 출현 빈도만을 기반으로 정보를 표현합니다. 실제 응용에서는 추가적인 전처리 단계(예: 불용어 제거, 어간 추출 등)가 필요할 수 있습니다.