In [1]:
import nltk
nltk.download('movie_reviews')
from nltk.corpus import movie_reviews

[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\sangu\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


In [2]:
documents = [movie_reviews.raw(fileid) for fileid in movie_reviews.fileids()]
print("리뷰의 수:", len(documents))

리뷰의 수: 2000


In [3]:
from sklearn.feature_extraction.text import CountVectorizer
# 앞서와 동일하게 최대 특성의 수를 1,000개로 제한
cv = CountVectorizer(max_features=2000, min_df=5, max_df=0.5)
# 앞서 가져온 리뷰 문서에 대해 fit_transform 적용
reviews_cv = cv.fit_transform(documents)
# 특성 집합의 단어명을 앞에서부터 10개 출력
print(cv.get_feature_names_out()[:10])
# 첫째 리뷰 문서의 앞 10개 특성을 출력
print(reviews_cv[0, :10])

['000' '10' '100' '13' '15' '1995' '1996' '1997' '1998' '1999']
  (0, 1)	10


In [4]:
print(reviews_cv.toarray()[:5, :5])

[[ 0 10  0  0  0]
 [ 0  0  0  0  0]
 [ 0  0  0  0  0]
 [ 0  0  0  0  0]
 [ 0  0  0  0  0]]


In [5]:
print(reviews_cv[:5, :5])

  (0, 1)	10


In [6]:
import pandas as pd
df = pd.read_csv('./data/daum_movie_review.csv')
df.head(5)

Unnamed: 0,review,rating,date,title
0,돈 들인건 티가 나지만 보는 내내 하품만,1,2018.10.29,인피니티 워
1,몰입할수밖에 없다. 어렵게 생각할 필요없다. 내가 전투에 참여한듯 손에 땀이남.,10,2018.10.26,인피니티 워
2,이전 작품에 비해 더 화려하고 스케일도 커졌지만.... 전국 맛집의 음식들을 한데 ...,8,2018.10.24,인피니티 워
3,이 정도면 볼만하다고 할 수 있음!,8,2018.10.22,인피니티 워
4,재미있다,10,2018.10.20,인피니티 워


In [7]:
df.title.value_counts()

신과함께      4947
택시운전사     2322
인피니티 워    2042
범죄도시      1939
곤지암       1547
라라랜드      1150
코코         778
Name: title, dtype: int64

In [8]:
df.describe()

Unnamed: 0,rating
count,14725.0
mean,7.451952
std,3.279778
min,0.0
25%,6.0
50%,9.0
75%,10.0
max,10.0


In [9]:
from konlpy.tag import Okt
okt = Okt()
# 트위터 형태소 분석기를 이용해 명사, 동사, 형용사만을 반환하는 함수 정의
def my_tokenizer(doc):
    return [token for token, pos in okt.pos(doc) 
            if pos in ['Noun', 'Verb', 'Adjective']]
print("나만의 토크나이저 결과:", my_tokenizer(df.review[1]))

나만의 토크나이저 결과: ['몰입', '할수밖에', '없다', '어렵게', '생각', '할', '필요없다', '내', '전투', '참여', '듯', '손', '땀', '이남']


In [10]:
print(okt.morphs(df.review[1]))

['몰입', '할수밖에', '없다', '.', '어렵게', '생각', '할', '필요없다', '.', '내', '가', '전투', '에', '참여', '한', '듯', '손', '에', '땀', '이남', '.']


In [11]:
from sklearn.feature_extraction.text import CountVectorizer
# 토크나이저와 특성의 최대 개수를 지정
daum_cv = CountVectorizer(max_features=1000, tokenizer=my_tokenizer)
# 명사만 추출하고 싶은 경우 예: daum_cv = CountVectorizer(tokenizer=okt.nouns)
# review를 특성 벡터로 변환
daum_result = daum_cv.fit_transform(df.review)
print(daum_cv.get_feature_names_out()[:10]) # 특성 집합의 앞 열개 단어 출력

['가' '가는' '가는줄' '가면' '가서' '가슴' '가장' '가족' '가족영화' '가지']
