# 데이터 다운로드 및 열기

In [1]:
import pandas as pd

df = pd.read_excel('../data/imdb.xlsx', index_col=0) # 파일 저장시 발생하는 행번호 제거 -> 0번 컬럼은 행번호

In [2]:
df.head()

Unnamed: 0,review,sentiment
0,"A very, very, very slow-moving, aimless movie ...",0
1,Not sure who was more lost - the flat characte...,0
2,Attempting artiness with black & white and cle...,0
3,Very little music or anything to speak of.,0
4,The best scene in the movie was when Gerardo i...,1


In [3]:
df.shape

(748, 2)

# TDM 만들기

### scikit-learn 라이브러리에서 단어문서행렬을 만드는 CountVectorizer 모듈을 사용한다.

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

### CountVectorizer는 토큰이 문서별로 몇 번 등장했는지 행렬로 정리해준다. 특별히 토큰화 방법을 지정하지 않으면, 빈 칸을 기준으로 토큰을 구분한다.

#### max_features: 단어문서행렬에 포함시킬 최대(max)의 단어(feature) 수를 말한다. 즉, 빈도 순으로 최대 500 단어까지 포함한다.
#### stop_words: 분석에서 제외할 불용어를 설정하는 옵션이다. stop_words=english로 설정하면 영어의 경우 관사, 전치사 등을 제외한다. 다른 언어는 리스트 등의 형태로 불용어 목록을 넘겨주어야 한다.

In [5]:
cv = CountVectorizer(max_features=500, stop_words='english')

In [6]:
tdm = cv.fit_transform(df['review'])

In [7]:
tdm # 압축이 되어 있어서 바로 열기는 불가능.

<748x500 sparse matrix of type '<class 'numpy.int64'>'
	with 3434 stored elements in Compressed Sparse Row format>

In [8]:
# 숫자가 있는 칸
3434/(748*500)

0.009181818181818182

In [9]:
tdm.shape

(748, 500)

# 단어 목록

In [10]:
cv.get_feature_names()[:10]

['10',
 '20',
 '90',
 'absolutely',
 'acted',
 'acting',
 'action',
 'actor',
 'actors',
 'actress']

# 단어별 총 빈도

### 단어별 총 빈도를 계산한다.
### .sum() 메소드는 합계를 낸다.
#### axis=0: 열별 합계
#### axis=1: 행별 합계

#### -> 행은 문서, 열은 단어

In [11]:
tdm.sum(axis=0)  # 단어별 총빈도(단어별 합계), 10이 29번, 20이 3번 feature_names 순으로

matrix([[ 29,   3,   6,   9,   3,  43,   7,  10,  19,   3,   3,  10,   3,
           4,   3,   4,   9,   3,   3,   3,   6,   3,   4,   3,  13,   4,
           3,   5,   3,   8,   5,   3,  14,  71,   4,  11,   4,   6,   8,
          25,  18,  10,   5,  10,   4,   3,   4,  10,   3,   3,   6,   7,
           3,   4,  10,   5,   3,  18,   6,   8,  24,  35,   4,   3,   7,
           3,   4,   5,   8,  10,   6,   5,   5,   7,   4,   3,   3,   5,
           3,   3,   4,   4,   7,   4,   5,   3,   4,   6,   4,   3,   5,
           4,   3,   5,   4,   3,   9,   3,   4,   3,  13,  11,  22,   5,
           3,   9,   5,  12,   6,   3,   9,  12,  26,   4,  10,   3,   3,
           3,   3,   4,   4,   3,   6,   3,   9,  11,  11,   4,   5,   3,
           9,   4,   6,   3,   8,   3,   3,  16,   4,   7,   4,   4,   5,
           8,   5,   7,   5,   7,   5,   3,   3,  10,   5, 163,  24,   3,
           3,   5,   6,   4,   5,  19,   3,   9,   3,   7,   5,   3,   4,
           3,   6,   3,   7,   3,   6,

In [12]:
tdm.sum(axis=1)  # 문서별 총 단어 수

matrix([[  5],
        [  5],
        [ 12],
        [  3],
        [  6],
        [  7],
        [  2],
        [  7],
        [  2],
        [  2],
        [  1],
        [  4],
        [  3],
        [  1],
        [  5],
        [  5],
        [  6],
        [ 10],
        [  3],
        [229],
        [  5],
        [  2],
        [  5],
        [  3],
        [  1],
        [  2],
        [  4],
        [  2],
        [  7],
        [  3],
        [  1],
        [  0],
        [  1],
        [  3],
        [  4],
        [  6],
        [  3],
        [  6],
        [ 11],
        [  3],
        [  4],
        [  3],
        [  2],
        [  0],
        [  0],
        [  6],
        [  4],
        [  3],
        [  1],
        [  8],
        [  5],
        [  5],
        [  2],
        [  2],
        [  4],
        [  5],
        [  5],
        [  1],
        [  2],
        [  4],
        [  3],
        [  4],
        [  0],
        [  1],
        [  2],
        [  3],
        [ 

#### 각 단어의 총빈도를 데이터 프레임으로 만들어 word_count라고 한다. 
#### .sum의 결과가 행렬 형태이므로 ._flat을 사용하여 컬럼에 들어갈 수 있는 형태로 변환한다.

In [13]:
word_count = pd.DataFrame({
    '단어': cv.get_feature_names(),
    '빈도': tdm.sum(axis=0).flat # 단어별 합계 -> 열별 합계 axis=0
})

In [14]:
word_count

Unnamed: 0,단어,빈도
0,10,29
1,20,3
2,90,6
3,absolutely,9
4,acted,3
...,...,...
495,wrong,3
496,year,5
497,years,14
498,yes,3


#### .sort_values()를 이용해 빈도 순으로 정렬을 한다. 
#### ascending=TRUE을 하면 오름차순으로 정렬한다. 생략하거나 False로 하면 내림차순 정렬.

In [15]:
word_count.sort_values('빈도')

Unnamed: 0,단어,빈도
466,war,3
118,early,3
121,ed,3
327,presents,3
123,effective,3
...,...,...
178,good,58
225,just,63
33,bad,71
153,film,163


In [16]:
word_count.sort_values('빈도', ascending=False).head()

Unnamed: 0,단어,빈도
284,movie,182
153,film,163
33,bad,71
225,just,63
178,good,58


# 단어 빈도 저장

In [17]:
word_count.to_csv('../data/word_count.csv')