In [0]:
# 구글 드라이브와 연결
# from google.colab import auth
# auth.authenticate_user()

from google.colab import drive
drive.mount('/content/gdrive')

In [0]:
import matplotlib as mpl
import matplotlib.pyplot as plt

# 그래프에서 한글표현을 위해 폰트를 설치
%config InlineBackend.figure_format = 'retina'   # 폰트가 깨끗하게 보이도록 설정
!apt-get -qq -y install fonts-nanum > /dev/null      # 나눔 폰트 설치

import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)

# 기본 글꼴 변경
import matplotlib as mpl
mpl.font_manager._rebuild()
mpl.pyplot.rc('font', family='NanumBarunGothic')

In [0]:
# 형태소분석기 관련 설치
!apt-get update
!apt-get install g++ openjdk-8-jdk

!pip install JPype1==0.7.4
!pip install rhinoMorph

In [0]:
# 경로 변경
cd /content/gdrive/My Drive/pytest/

In [0]:
# 데이터 로딩
def read_data(filename, encoding='cp949'):                # 읽기 함수 정의
  with open(filename, 'r', encoding=encoding) as f:
    data = [line.split('\t') for line in f.read().splitlines()]
    data = data[1:]                 # txt 파일의 헤더(id document label)는 제외하기
  return data

def write_data(data, filename, encoding='cp949'):         # 쓰기 함수도 정의
  with open(filename, 'w', encoding=encoding) as f:
    f.write(data)

data = read_data('ratings_small.txt', encoding='cp949')  # 전체파일은 ratings.txt (긍정 1만, 부정 1만)

In [0]:
# 데이터 확인
print(len(data))
print(len(data[0])) 
print(data[0])
print(data[0:3])

In [0]:
# 샘플 데이터 분석 연습

import rhinoMorph
rn = rhinoMorph.startRhino()
# 형태소 분석된 문장 샘플 보기
sample_data = rhinoMorph.onlyMorph_list(rn, data[0][1], pos=['NNG', 'NNP', 'VV', 'VA', 'XR', 'IC', 'MM', 'MAG', 'MAJ'], eomi=True)

print('sample data:', sample_data)				            # 형태소 분석 결과
print('joined sample data:', ' '.join(sample_data))	  # 문자열을 공백으로 연결한다

In [0]:
# 전체 데이터 형태소 분석

morphed_data = ''
for data_each in data:
  morphed_data_each = rhinoMorph.onlyMorph_list(rn, data_each[1], pos=['NNG', 'NNP', 'VV', 'VA', 'XR', 'IC', 'MM', 'MAG', 'MAJ'], eomi=True)
  joined_data_each = ' '.join(morphed_data_each)			        # 문자열을 하나로 연결
  if joined_data_each:                                      	# 내용이 있는 경우만 저장하게 함
    morphed_data += data_each[0]+"\t"+joined_data_each+"\t"+data_each[2]+"\n"
    
# 형태소 분석된 파일 저장
write_data(morphed_data, 'ratings_morphed.txt', encoding='cp949')

In [0]:
print(morphed_data)

In [0]:
# 기분석된 데이터 로딩

data = read_data('ratings_morphed.txt', encoding='cp949')
print(len(data))                              # 일부는 내용이 남지 않아 제외 됨
print(len(data[0]))                           # 3개의 컬럼

data_text = [line[1] for line in data]      	# 데이터 본문
data_senti = [line[2] for line in data]     	# 데이터 긍부정 부분 (1은 긍정, 0은 부정)

In [0]:
# counter 연습
from collections import Counter
count = Counter(["여름", "과일", "딸기", "과일", "딸기"])
result = count.most_common(2)

print(result)
print(result[0])
print(result[0][0])		# 0 번째 요소의 0 번째
print(result[0][1])		# 0 번째 요소의 1 번째

In [0]:
# 분석된 데이터 빈도 구하기
print('data_text:', data_text)

mergedText = ' '.join(data_text)         	# 좋은 방법. 공백을 추가하며 모든 리스트 요소들을 결합한다
print('mergedText:', mergedText)

mergedTextList = mergedText.split(' ')   	# 결합된 요소들을 공백 단위로 분리하여 하나의 리스트로 만든다
print('mergedTextList:', mergedTextList)

wordInfo = Counter(mergedTextList)  	    # 하나의 리스트로 결합된 요소를 카운트한다 (내림차순)
print('wordInfo:', wordInfo)

In [0]:
# sorted 연습
sample = {'여름':1, '과일':2, '딸기':3}

print(sorted(sample))
print(sorted(sample, reverse=True))                     # 역순으로 정렬한다
print(sorted(sample, key=sample.get, reverse=True))     # sample.get의 출력된 값을 기준으로 sample을 정렬한다

print(sorted(sample.values(), reverse=True))

In [0]:
# bar 그래프 연습
wordInfo_sample = Counter({'여름':1, '과일':2, '딸기':3})
sorted_keys_sample = sorted(wordInfo_sample, key=wordInfo_sample.get, reverse=True)
sorted_values_sample = sorted(wordInfo_sample.values(), reverse=True)

import matplotlib.pyplot as plt
plt.bar(range(len(wordInfo_sample)), sorted_values_sample)	  # X축의 위치, 각 x의 높이
plt.xticks(range(len(wordInfo_sample)), sorted_keys_sample)  	# X축의 위치, 각 x의 라벨
plt.show()

In [0]:
# 앞에서 20개까지만 출력
sorted_keys = sorted(wordInfo, key=wordInfo.get, reverse=True)
sorted_values = sorted(wordInfo.values(), reverse=True)

import matplotlib.pyplot as plt
plt.bar(range(20), sorted_values[:20])
plt.xticks(range(20), sorted_keys[:20])
plt.show()

In [0]:
# data_text는 각 문장을 리스트 원소로 담고 있다 
# 각 문장 리스트 원소는 공백으로 분리되어 있다
print(data_text)

In [0]:
!pip install wordcloud                       # 만약 워드클라우드 패키지가 없다고 나오면 이를 설치한다
from wordcloud import WordCloud
cloud = WordCloud(font_path=fontpath, width=800, height=600).generate(" ".join(data_text))
plt.imshow(cloud, interpolation='bilinear')   # 글자를 더 부드럽게 나오게 한다
plt.axis('off')
plt.show()

In [0]:
# 워드 클라우드 배경 바꾸기
cloud = WordCloud(font_path=fontpath, width=800, height=600, background_color='white').generate(" ".join(data_text))
plt.imshow(cloud, interpolation='bilinear')
plt.axis('off')
plt.show()