# I. 영화 리뷰 데이터 탐색적 분석(EDA)

---
### 1) 데이터 로드 : dataframe (pandas module 사용)  
네이버 영화평 데이터셋 : https://github.com/e9t/nsmc

In [None]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning) # 경고 메시지 안보이게 설정

import gc # garbage collector : 메모리 관리
gc.collect()

In [None]:
import os

---
전역 변수 중 일부(디렉토리 이름과 파일 이름 등)는 대문자로  
나머지 변수는 소문자로

In [None]:
# 파일 경로는 단순히 문자열 연결보다는 os.path.join()을 사용하는 것이 좋음 
DATA_DIR = 'data'

TRAIN_DATA_FILE = 'ratings_train.txt'
TEST_DATA_FILE = 'ratings_test.txt'

TRAIN_DATA_PATH = os.path.join(DATA_DIR, TRAIN_DATA_FILE)
TEST_DATA_PATH = os.path.join(DATA_DIR, TEST_DATA_FILE)

In [None]:
import pandas as pd

In [None]:
# pandas data frame
train_df = pd.read_table(TRAIN_DATA_PATH) # pd.read_csv(TRAIN_DATA_PATH, sep='\t') 동일한 기능
test_df = pd.read_table(TEST_DATA_PATH)

---
### 2) 데이터 기본 정보 보기

---
#### (가) train dataset

In [None]:
train_df.head() # 맨 위 5개 행

label : 0 부정 평가, 1 긍정 평가  

---

In [None]:
# 특정 행 데이터 보기
print(train_df.loc[0]) # 인덱스 번호로 데이터(행) 불러오기
print('----------')
print(train_df.iloc[0]) # 행번호로 데이터(행) 불러오기, 인덱스가 없으므로 위와 동일
print('----------')
print(train_df[train_df['id']==9976970]) # id 값이 9976970인 데이터(행) 불러오기

In [None]:
train_df.info() # 데이터프레임의 기본 정보 보기

In [None]:
train_df.describe() # 숫자 데이터에 대한 통계정보, 이 데이터에는 별 소용이 없음

In [None]:
train_df.shape

---
#### (나) test dataset :

In [None]:
test_df.head()

In [None]:
test_df.info()

In [None]:
test_df.describe()

In [None]:
test_df.shape

---
### 3) 결측 데이터 처리 : nul 데이터는 통계분석에 방해가 되므로 먼저 제거한다.

In [None]:
print('null data가 있는가? : ', train_df.isnull().values.any())
print('----------')
print('null data 건수 \n', '-----\n', train_df.isnull().sum())

In [None]:
# null 값 데이터 행 출력
train_df[train_df['document'].isnull()]

In [None]:
train_no_nan_df = train_df.dropna(axis=0) # nan이 있는 모든 row를 없애는 코드
test_no_nan_df = test_df.dropna(axis=0)
# train_data_df['document'] = train_data_df['document'].fillna('S') # nan에 다른 데이터를 대신 넣는 방법

In [None]:
# nul 값 제거 확인
print('train data에 null data가 있는가? : ', train_no_nan_df.isnull().values.any())
print('test data에 null data가 있는가? : ', test_no_nan_df.isnull().values.any())

In [None]:
# dataset의 shape 출력
print('shape of no nan train data : ', train_no_nan_df.shape)
print('shape of no nan test data : ', test_no_nan_df.shape)

---
### 4) EDA (Exploratory Data Analysis; 탐색적 데이터 분석)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

---
train dataset의 긍정평가(label:1)와 부정평가(label:0) 건수

In [None]:
fig, axe = plt.subplots(ncols=1)
fig.set_size_inches(6, 3)
sns.countplot(train_no_nan_df['label'])

In [None]:
print(train_no_nan_df.groupby('label').size().reset_index(name = 'count'))

In [None]:
fig, axe = plt.subplots(ncols=1)
fig.set_size_inches(6, 3)
sns.countplot(test_no_nan_df['label'])

In [None]:
print(test_no_nan_df.groupby('label').size().reset_index(name = 'count'))

---
#### (가) 문장의 길이(글자수) 분포 조사

In [None]:
train_length = train_no_nan_df['document'].apply(len) # 이런식으로 쓰면 데이터가 없는 행에서 아래와 같은 에러가 난다.
# TypeError: object of type 'float' has no len()
test_length = test_no_nan_df['document'].apply(len)

# train_length = train_no_nan_df['document'].str.len() # NaN 값이 있는 경우 길이를 계산하지 않고 길이 값도 NaN이 된다.
# test_length = test_no_nan_df['document'].str.len()

In [None]:
# print(train_length)
train_length.head()

In [None]:
test_length.head()

In [None]:
train_length.describe()

In [None]:
test_length.describe()

In [None]:
import numpy as np

In [None]:
np.median(train_length) # NaN 값이 있으면 에러
# np.nanmedian(train_length) # NaN 값이 있어도 빼고 계산

In [None]:
print('문자 길이 최대 값: {}'.format(np.max(train_length)))
print('문자 길이 최소 값: {}'.format(np.min(train_length)))
print('문자 길이 평균 값: {:.2f}'.format(np.mean(train_length)))
print('문자 길이 표준편차: {:.2f}'.format(np.std(train_length)))
print('문자 길이 중간 값: {}'.format(np.median(train_length)))
# 사분위의 대한 경우는 0~100 스케일로 되어있음
print('문자 길이 제 1 사분위: {}'.format(np.percentile(train_length, 25))) # nanpercentile()을 쓰면 NaN 값이 있을 때도 에러 안남.
print('문자 길이 제 3 사분위: {}'.format(np.percentile(train_length, 75))) # nanpercentile()을 쓰면 NaN 값이 있을 때도 에러 안남.

In [None]:
# 그래프에 대한 이미지 사이즈 선언
# figsize: (가로, 세로) 형태의 튜플로 입력
plt.figure(figsize=(12, 5))
# 히스토그램 선언
# bins: 히스토그램 값들에 대한 버켓 범위, bin의 갯수
# range: x축 값의 범위
# alpha: 그래프 색상 투명도
# color: 그래프 색상
# label: 그래프에 대한 라벨
# range: 이상, 미만
plt.hist(train_length, range=(1, 147), bins=146, alpha=0.5, color= 'r',  label='train')
plt.yscale('log', nonpositive='clip')
# 그래프 제목
plt.title('Log-Histogram of length of text')
# 그래프 x 축 라벨
plt.xlabel('Length of text')
# 그래프 y 축 라벨
plt.ylabel('Number of text')

In [None]:
plt.figure(figsize=(12, 5))
# 박스플롯 생성
# 첫번째 파라메터: 여러 분포에 대한 데이터 리스트를 입력
# labels: 입력한 데이터에 대한 라벨
# showmeans: 평균값을 마크함

plt.boxplot(train_length,
             labels=['counts'],
             showmeans=True)

---
#### (나) 단어 수 분포 조사  
  - 한국어 문어체는 띄어쓰기로만 단어를 분리해 낼 수 없으나, 간단하게 띄어쓰기로 분석해 본다.

In [None]:
train_word_counts = train_no_nan_df['document'].apply(lambda x:len(x.split(' ')))

In [None]:
train_word_counts.describe()

In [None]:
plt.figure(figsize=(12, 5))
plt.hist(train_word_counts,  range=(1, 42), bins=41, facecolor='r', label='train')
plt.title('Log-Histogram of word count in text', fontsize=15)
plt.yscale('log', nonpositive='clip')
plt.legend()
plt.xlabel('Number of words', fontsize=15)
plt.ylabel('Number of text', fontsize=15)

In [None]:
print('문자 단어 개수 최대 값: {}'.format(np.max(train_word_counts)))
print('문자 단어 개수 최소 값: {}'.format(np.min(train_word_counts)))
print('문자 단어 개수 평균 값: {:.2f}'.format(np.mean(train_word_counts)))
print('문자 단어 개수 표준편차: {:.2f}'.format(np.std(train_word_counts)))
print('문자 단어 개수 중간 값: {}'.format(np.median(train_word_counts)))
# 사분위의 대한 경우는 0~100 스케일로 되어있음
print('문자 단어 개수 제 1 사분위: {}'.format(np.percentile(train_word_counts, 25)))
print('문자 단어 개수 제 3 사분위: {}'.format(np.percentile(train_word_counts, 75)))

---
### 5) 워드 클라우드

In [None]:
# Get all the positive and negative
neg_msg = train_no_nan_df[train_no_nan_df.label == 0]['document']
pos_msg = train_no_nan_df[train_no_nan_df.label == 1]['document']

In [None]:
neg_msg.shape

In [None]:
pos_msg.shape

In [None]:
75170 + 74825

In [None]:
pos_msg

In [None]:
pos_txt = " ".join(pos_msg)

In [None]:
len(pos_txt)

In [None]:
from wordcloud import WordCloud

In [None]:
# 긍정 평가 데이터 워드 클라우드 표현
cloud = WordCloud(font_path='fonts/NanumGothic.ttf', width=800, height=600).generate(pos_txt)
plt.figure(figsize=(20, 15))
plt.imshow(cloud)
plt.axis('off')

In [None]:
neg_txt = " ".join(neg_msg)

In [None]:
# 부정 평가 워드 클라우드 표현
cloud = WordCloud(font_path='fonts/NanumGothic.ttf', width=800, height=600).generate(neg_txt)
plt.figure(figsize=(20, 15))
plt.imshow(cloud)
plt.axis('off')