# 한국어 텍스트의 카운트 벡터 변환

JDK & JPype1 & KoNLPy 설치명령어

In [None]:
%%bash
apt-get update
apt-get install g++ openjdk-8-jdk python-dev python3-dev
pip3 install JPype1
pip3 install konlpy

환경변수 설정

In [None]:
%env JAVA_HOME "/usr/lib/jvm/java-8-openjdk-amd64"

**다음 영화 리뷰 확인**

In [5]:
import pandas as pd

df = pd.read_csv('/content/drive/Othercomputers/내 컴퓨터/TextMining/data/daum_movie_review.csv')
df.head(10)

Unnamed: 0,review,rating,date,title
0,돈 들인건 티가 나지만 보는 내내 하품만,1,2018.10.29,인피니티 워
1,몰입할수밖에 없다. 어렵게 생각할 필요없다. 내가 전투에 참여한듯 손에 땀이남.,10,2018.10.26,인피니티 워
2,이전 작품에 비해 더 화려하고 스케일도 커졌지만.... 전국 맛집의 음식들을 한데 ...,8,2018.10.24,인피니티 워
3,이 정도면 볼만하다고 할 수 있음!,8,2018.10.22,인피니티 워
4,재미있다,10,2018.10.20,인피니티 워
5,나는 재밌게 봄,10,2018.10.14,인피니티 워
6,0.5점은 줄 수 없냐?,0,2018.10.10,인피니티 워
7,헐..다 죽었어....나중에 앤트맨 보다가도 깜놀...,10,2018.10.08,인피니티 워
8,충격 결말,9,2018.10.06,인피니티 워
9,응집력,8,2018.10.05,인피니티 워


**카운트 벡터 만들기**

`CountVectorizer`는 영어를 대상으로 토크나이징을 하기 때문에 바로 사용하기에는 적합하지 않다.

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

daum_cv = CountVectorizer(max_features=1000)    # 특성 집합이 따로 없기 때문에 최대 특성의 수를 지정

daum_DTM = daum_cv.fit_transform(df.review)     # review를 이용하여 count vector를 학습하고, 변환
print(daum_cv.get_feature_names_out()[:100])    # count vector에 사용된 feature 이름을 반환

['10점' '18' '1987' '1도' '1점' '1점도' '2시간' '2시간이' '2편' '5점' '6점' '7점' '8점'
 'cg' 'cg가' 'cg는' 'cg도' 'cg만' 'good' 'of' 'ㅋㅋ' 'ㅋㅋㅋ' 'ㅋㅋㅋㅋ' 'ㅎㅎ' 'ㅎㅎㅎ'
 'ㅜㅜ' 'ㅠㅠ' 'ㅠㅠㅠ' 'ㅡㅡ' '가는' '가는줄' '가면' '가서' '가슴' '가슴아픈' '가슴이' '가장' '가족'
 '가족과' '가족들과' '가족의' '가족이' '가지고' '간만에' '갈수록' '감독' '감독님' '감독은' '감독의' '감독이'
 '감동' '감동과' '감동도' '감동은' '감동을' '감동이' '감동입니다' '감동적' '감동적이고' '감동적인' '감사드립니다'
 '감사합니다' '감정이' '갑자기' '갔는데' '갔다가' '강철비' '강추' '강추합니다' '같고' '같네요' '같다' '같습니다'
 '같아' '같아요' '같은' '같은데' '같음' '같이' '개연성' '개연성이' '개인적으로' '거의' '겁나' '것도' '것은'
 '것을' '것이' '것이다' '겨울왕국' '결국' '결말' '결말이' '계속' '고맙습니다' '곤지암' '공포' '공포를'
 '공포영화' '관객']


`KoNLPy`로 토크나이징하여 필요 없는 품사 제거

In [26]:
from konlpy.tag import Okt

twitter_tag = Okt()

print('전체 형태소 결과\n', twitter_tag.morphs(df.review[0]), twitter_tag.morphs(df.review[1]))
print('품사 태깅 결과\n', twitter_tag.pos(df.review[0]), twitter_tag.pos(df.review[1]))

전체 형태소 결과
 ['돈', '들인건', '티', '가', '나', '지만', '보는', '내내', '하품', '만'] ['몰입', '할수밖에', '없다', '.', '어렵게', '생각', '할', '필요없다', '.', '내', '가', '전투', '에', '참여', '한', '듯', '손', '에', '땀', '이남', '.']
품사 태깅 결과
 [('돈', 'Noun'), ('들인건', 'Verb'), ('티', 'Noun'), ('가', 'Josa'), ('나', 'Noun'), ('지만', 'Josa'), ('보는', 'Verb'), ('내내', 'Noun'), ('하품', 'Noun'), ('만', 'Josa')] [('몰입', 'Noun'), ('할수밖에', 'Verb'), ('없다', 'Adjective'), ('.', 'Punctuation'), ('어렵게', 'Adjective'), ('생각', 'Noun'), ('할', 'Verb'), ('필요없다', 'Adjective'), ('.', 'Punctuation'), ('내', 'Noun'), ('가', 'Josa'), ('전투', 'Noun'), ('에', 'Josa'), ('참여', 'Noun'), ('한', 'Determiner'), ('듯', 'Noun'), ('손', 'Noun'), ('에', 'Josa'), ('땀', 'Noun'), ('이남', 'Noun'), ('.', 'Punctuation')]


In [25]:
# 명사, 동사, 형용사만 추출
def my_tokenizer(doc):
    return [token for token, pos in twitter_tag.pos(doc) if pos in ['Noun', 'Verb', 'Adjective']]

print("첫번째, 두번째 리뷰 토크나이저 결과\n", my_tokenizer(df.review[0]), my_tokenizer(df.review[1]))

첫번째, 두번째 리뷰 토크나이저 결과
 ['돈', '들인건', '티', '나', '보는', '내내', '하품'] ['몰입', '할수밖에', '없다', '어렵게', '생각', '할', '필요없다', '내', '전투', '참여', '듯', '손', '땀', '이남']


토크나이저를 지정하여 `CountVectorizer` 진행

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

# 토크나이저와 특성의 최대개수를 지정
daum_cv = CountVectorizer(max_features=1000, tokenizer=my_tokenizer)

daum_DTM = daum_cv.fit_transform(df.review) # review를 이용하여 count vector를 학습하고, 변환
print(daum_cv.get_feature_names_out()[:100]) # count vector에 사용된 feature 이름을 반환

['가' '가는' '가는줄' '가면' '가서' '가슴' '가장' '가족' '가족영화' '가지' '가치' '각색' '간' '간다'
 '간만' '갈' '갈수록' '감' '감독' '감동' '감사' '감사합니다' '감상' '감성' '감정' '감탄' '갑자기' '갔는데'
 '갔다' '갔다가' '강' '강철' '강추' '같고' '같네요' '같다' '같습니다' '같아' '같아요' '같은' '같은데'
 '같음' '개' '개그' '개봉' '개연' '개인' '거' '거기' '거리' '거의' '걱정' '건' '건가' '건지' '걸'
 '겁니다' '것' '게' '겨울왕국' '결론' '결말' '경찰' '경험' '계속' '고' '고맙습니다' '고민' '고생' '곤지암'
 '곳' '공감' '공포' '공포영화' '과' '과거' '관' '관객' '관객수' '관람' '광주' '괜찮은' '교훈' '구성'
 '국내' '국민' '군인' '군함도' '굿' '권선' '귀신' '그' '그것' '그게' '그날' '그냥' '그닥' '그대로'
 '그때' '그래픽']


**daum_DTM**

In [36]:
print('sample of Count vector\n', daum_DTM[0:3])
print('type, shape of Count vector\n', repr(daum_DTM))

sample of Count vector
   (0, 211)	1
  (0, 899)	1
  (0, 134)	1
  (0, 364)	1
  (0, 161)	1
  (0, 939)	1
  (1, 307)	1
  (1, 577)	1
  (1, 436)	1
  (1, 948)	1
  (1, 160)	1
  (1, 233)	1
  (1, 455)	1
  (2, 233)	1
  (2, 721)	2
  (2, 413)	1
  (2, 203)	1
  (2, 465)	1
  (2, 57)	1
  (2, 55)	1
  (2, 299)	1
  (2, 941)	1
  (2, 180)	1
  (2, 190)	1
type, shape of Count vector
 <14725x1000 sparse matrix of type '<class 'numpy.int64'>'
	with 110800 stored elements in Compressed Sparse Row format>


In [39]:
print('희소벡터에서 값이 존재하는 비율 :', (110800/(14725*1000))*100, '%')

희소벡터에서 값이 존재하는 비율 : 0.7524617996604415 %


In [46]:
for word, count in zip(daum_cv.get_feature_names_out(), daum_DTM[0].toarray()[0]):
    if count > 0:
        print(word, ':', count, end=', ')

나 : 1, 내내 : 1, 돈 : 1, 보는 : 1, 티 : 1, 하품 : 1, 