All rights reserved, 2021, By Youn-Sik Hong. 수업 목적으로만 활용 가능.

- 참고 서적
    - Python Machine Learning(3rd Ed.), Sebastian Raschka , Vahid Mirjalili, Packt, 2019.10.
        - 8장. Applying Machine Learning to Sentiment Analysis 코드 참조.
    - 텐서플로2와 머신러닝으로 시작하는 자연어 처리, 전창욱, 최태균, 조중현, 신성진 지음, 위키북스, 2020.
        - 4장. 텍스트 분류 예제 참조.

In [None]:
import os
import pandas as pd
import numpy as np
import csv
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud

In [None]:
DATA_IN_PATH = './data_in/'
print('파일 크기: ')

for file in os.listdir(DATA_IN_PATH):
    if 'txt' in file:
        fsize = round(os.path.getsize(DATA_IN_PATH + file)/1000000, 2)
        file_unit = str(fsize) + 'MB'
        print(file.ljust(30)+ file_unit)

In [None]:
train_fname = DATA_IN_PATH + 'ratings_train.txt'
train_data = pd.read_csv(train_fname, header=0, delimiter='\t', quoting=csv.QUOTE_NONE)
# quoting 옵션은 csv파일을 dataframe으로 바꿀 때 따옴표(")는 무시하겠다는 뜻.
# ratings.txt 파일에는 따옴표는 없음. naver에서 말뭉치로 바꾸면서 모두 없앤 것으로 보임.

In [None]:
train_data.head()

In [None]:
#train_data.shape
#train_data.info() # document 중에 null 값이 5개 있음.
#train_data["document"][:5]
train_data[train_data['document'].isnull()]

In [None]:
#print('train data 수:{}'.format(len(train_data)))
print('train data = %d' % (len(train_data)))

In [None]:
f = lambda x: len(x)
train_length = train_data['document'].astype(str).apply(f)

train_length.head()
#train_length.sort_values(ascending=False)

In [None]:
plt.figure(figsize=(12,5))
plt.hist(train_length, bins=200, alpha=0.5, color='r', label='word')
plt.yscale('log', nonposy='clip')
plt.title('Log-histogram of length of review')
plt.xlabel('Length of review')
plt.ylabel('Number of review')

In [None]:
print('리뷰 길이 최대값: %d' % (np.max(train_length)))
print('리뷰 길이 최소값: %d' % (np.min(train_length)))
print('리뷰 길이 평균값: %.2f' % (np.mean(train_length)))
print('리뷰 길이 표준편차: %.2f' % (np.std(train_length)))
print('리뷰 길이 중간값: %.1f' % (np.median(train_length)))
print('리뷰 길이 제1사분위: %.1f' %  (np.percentile(train_length, 25)))
print('리뷰 길이 제3사분위: %.1f' % (np.percentile(train_length, 75)))

In [None]:
plt.figure(figsize=(12,5))
plt.boxplot(train_length, labels=['counts'], showmeans=True)

In [None]:
train_review = [review for review in train_data['document'] if type(review) is str]
#train_review[:2]

In [None]:
hangul_ttf = DATA_IN_PATH + 'NanumGothic.ttf'
wordcloud = WordCloud(font_path=hangul_ttf).generate(' '.join(train_review))

In [None]:
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

In [None]:
fig, axe = plt.subplots(ncols=1)
fig.set_size_inches(6, 3)
sns.countplot(train_data['label'])

In [None]:
neg_review = train_data['label'].value_counts()[0]
pos_review = train_data['label'].value_counts()[1]
print('긍정 리뷰 개수:{}'.format(pos_review))
print('부정 리뷰 개수:{}'.format(neg_review))

In [None]:
qmarks = np.mean(train_data['document'].astype(str).apply(lambda x:'?' in x))
fullstop = np.mean(train_data['document'].astype(str).apply(lambda x:'.' in x))

In [None]:
print('물음표가 있는 질문:{:.2f}%'.format(qmarks * 100))
print('마침표가 있는 질문:{:.2f}%'.format(fullstop * 100))