# DTM : Document - Term Matrix
---
* 텍스트 문서를 단어의 출현 빈도를 기반으로 행렬로 표현
* 각 행은 문서, 각 열은 단어
* 문서간 유사성 분석, 주제 모델링, 정보 검색 등의 작업에서 사용

In [1]:
!pip install wget

Collecting wget
  Downloading wget-3.2.zip (10 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hBuilding wheels for collected packages: wget
  Building wheel for wget (setup.py) ... [?25ldone
[?25h  Created wheel for wget: filename=wget-3.2-py3-none-any.whl size=9656 sha256=a307eae11dd92e8a45a3b17775c6cec900a635b85511a035a79993032df1b9f0
  Stored in directory: /Users/brielle/Library/Caches/pip/wheels/40/b3/0f/a40dbd1c6861731779f62cc4babcb234387e11d697df70ee97
Successfully built wget
Installing collected packages: wget
Successfully installed wget-3.2


* 데이터 준비

In [7]:
import wget

url = 'https://raw.githubusercontent.com/euphoris/datasets/master/imdb.xlsx'
wget.download(url, 'imdb.xlsx')


'imdb.xlsx'

In [8]:
import pandas as pd
df = pd.read_excel('/data/imdb.xlsx',index_col = 0)
df.head()

Unnamed: 0,review,sentiment
0,"A very, very, very slow-moving, aimless movie ...",0
1,Not sure who was more lost - the flat characte...,0
2,Attempting artiness with black & white and cle...,0
3,Very little music or anything to speak of.,0
4,The best scene in the movie was when Gerardo i...,1


### CountVectorizer를 이용해서 DTM 만들기

In [12]:
# CounterVectorizer 특징
#     토큰이 문서별로 몇 번 등장했는지 행렬로 정리
#     빈 칸을 기준으로 토큰 구분(저장이 안 되어 있을 경우)
#     max_features : 단어문서행렬에 포함시킬 최대(max)의 단어(feature) 수
#     stop_words='english' : 불용어 설정
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(max_features=500, stop_words='english')

In [18]:
dtm = cv.fit_transform(df['review'])
dtm

<748x500 sparse matrix of type '<class 'numpy.int64'>'
	with 3434 stored elements in Compressed Sparse Row format>

### 단어 목록

In [19]:
cv.get_feature_names_out()[:10]

array(['10', '20', '90', 'absolutely', 'acted', 'acting', 'action',
       'actor', 'actors', 'actress'], dtype=object)

In [20]:
len(cv.get_feature_names_out())

500

In [21]:
dtm.sum(axis=0) # 단어별 빈도 수 *axis=1이 pandas 초기에는 칼럼(열)을 의미하는데 나중에는 행을 의미함 -> Term 기준 집계

matrix([[ 29,   3,   6,   9,   3,  43,   7,  10,  19,   3,   3,  10,   3,
           4,   3,   4,   9,   3,   3,   3,   6,   3,   4,   3,  13,   4,
           3,   5,   3,   8,   5,   3,  14,  71,   4,  11,   4,   6,   8,
          25,  18,  10,   5,  10,   4,   3,   4,  10,   3,   3,   6,   7,
           3,   4,  10,   5,   3,  18,   6,   8,  24,  35,   4,   3,   7,
           3,   4,   5,   8,  10,   6,   5,   5,   7,   4,   3,   3,   5,
           3,   3,   4,   4,   7,   4,   5,   3,   4,   6,   4,   3,   5,
           4,   3,   5,   4,   3,   9,   3,   4,   3,  13,  11,  22,   5,
           3,   9,   5,  12,   6,   3,   9,  12,  26,   4,  10,   3,   3,
           3,   3,   4,   4,   3,   6,   3,   9,  11,  11,   4,   5,   3,
           9,   4,   6,   3,   8,   3,   3,  16,   4,   7,   4,   4,   5,
           8,   5,   7,   5,   7,   5,   3,   3,  10,   5, 163,  24,   3,
           3,   5,   6,   4,   5,  19,   3,   9,   3,   7,   5,   3,   4,
           3,   6,   3,   7,   3,   6,

In [32]:
dtm.sum(axis=1)  # 문서별 총 단어 수 *axis=1이 pandas 초기에는 칼럼(열)을 의미하는데 나중에는 행을 의미함 -> 단어 기준 집계

matrix([[  5],
        [  5],
        [ 12],
        [  3],
        [  6],
        [  7],
        [  2],
        [  7],
        [  2],
        [  2],
        [  1],
        [  4],
        [  3],
        [  1],
        [  5],
        [  5],
        [  6],
        [ 10],
        [  3],
        [229],
        [  5],
        [  2],
        [  5],
        [  3],
        [  1],
        [  2],
        [  4],
        [  2],
        [  7],
        [  3],
        [  1],
        [  0],
        [  1],
        [  3],
        [  4],
        [  6],
        [  3],
        [  6],
        [ 11],
        [  3],
        [  4],
        [  3],
        [  2],
        [  0],
        [  0],
        [  6],
        [  4],
        [  3],
        [  1],
        [  8],
        [  5],
        [  5],
        [  2],
        [  2],
        [  4],
        [  5],
        [  5],
        [  1],
        [  2],
        [  4],
        [  3],
        [  4],
        [  0],
        [  1],
        [  2],
        [  3],
        [ 

In [25]:
word_count = pd.DataFrame({'단어': cv.get_feature_names_out(),
                          '빈도':dtm.sum(axis=0).flat})             # axis=0은 후기 판다스에서 열을 의미하므로 단어 기준 집계이다
word_count

Unnamed: 0,단어,빈도
0,10,29
1,20,3
2,90,6
3,absolutely,9
4,acted,3
...,...,...
495,wrong,3
496,year,5
497,years,14
498,yes,3


In [27]:
word_count.sort_values('빈도',inplace=True,ascending=False)
word_count

Unnamed: 0,단어,빈도
284,movie,182
153,film,163
33,bad,71
225,just,63
178,good,58
...,...,...
48,bought,3
411,sub,3
415,super,3
417,sure,3


In [30]:
word_count.to_csv('./data/word_count.csv',index=False)

# TDM(Term-Document Matrix)
---
* 텍스트 문서를 단어의 출현 빈도를 기반으로 행렬로 표현
* 각 행은 단어, 각 열은 문서

- DTM을 만들고 transpose만 하면 TDM 완성 따단