# 라이브러리

In [24]:
import pandas as pd
import numpy as np
import plotly as py
from konlpy.tag import Okt # Okt는 명사 형태소 추출 단위
from collections import Counter
import re
# import matplotlib.pyplot as plt

# import warnings
# warnings.filterwarnings('ignore')

# 데이터 읽기

### 전체 소설

In [18]:
df = pd.read_csv('분야별/국내소설.csv')
df

Unnamed: 0,part,title,date,rating,text
0,국내소설,하얼빈,2022-08-05,4,오랜만에 작가님의 책을 들고 우라지에서 하얼빈으로 다녀왔네요. 광복절도 다가오고 있...
1,국내소설,하얼빈,2022-08-15,4,문재인 대통령님 추천 도서라 읽고 있습니다. 아직 완독은 못 했지만 재밌습니다. 역...
2,국내소설,하얼빈,2022-08-05,4,김훈의 신작 기대가 큽니다.
3,국내소설,하얼빈,2022-08-09,4,칼의 노래를 통해 눈물빼게 하더니 총의 노래(하얼빈)을 통해 기어이 콧물까지 빠지도...
4,국내소설,하얼빈,2022-08-10,4,뉴스보고 너무 궁금해서 구입했습니다 읽기전부터 설레네요
...,...,...,...,...,...
3493,국내소설,칼의 노래,2017-03-30,3,전쟁의 소용돌이 속에 있는 장수의 心
3494,국내소설,칼의 노래,2017-03-20,4,재밌게읽었어요
3495,국내소설,칼의 노래,2017-03-06,4,이순신 장군님의 내면에 대해 더 집중된 소설..마치 그 시간대를 엿보고 온 것처럼 ...
3496,국내소설,칼의 노래,2017-02-13,4,읽으면서 그 당시 이순신 장군님에 몰입되어 느낄 수 있는 책입니다.


### 책 한권만

In [21]:
df_ha = df[df['title'] == '하얼빈']
df_ha

Unnamed: 0,part,title,date,rating,text
0,국내소설,하얼빈,2022-08-05,4,오랜만에 작가님의 책을 들고 우라지에서 하얼빈으로 다녀왔네요. 광복절도 다가오고 있...
1,국내소설,하얼빈,2022-08-15,4,문재인 대통령님 추천 도서라 읽고 있습니다. 아직 완독은 못 했지만 재밌습니다. 역...
2,국내소설,하얼빈,2022-08-05,4,김훈의 신작 기대가 큽니다.
3,국내소설,하얼빈,2022-08-09,4,칼의 노래를 통해 눈물빼게 하더니 총의 노래(하얼빈)을 통해 기어이 콧물까지 빠지도...
4,국내소설,하얼빈,2022-08-10,4,뉴스보고 너무 궁금해서 구입했습니다 읽기전부터 설레네요
...,...,...,...,...,...
207,국내소설,하얼빈,2022-08-11,4,"기대되네요,,, 잘 읽어보겠습니다"
208,국내소설,하얼빈,2022-08-11,4,작가의 책은 소설뿐만 아니라 수필집도 다 읽었다. 절제력 있고 간결한 문체 너무나 좋다.
209,국내소설,하얼빈,2022-08-10,4,안중근의 거사전 일주일과 사형집행까지의 시간들은 소설속에서는 너무나도 차분하게 혹은...
210,국내소설,하얼빈,2022-08-09,4,아빠가 구매해달라고 하셔서 구매했습니다:)


In [23]:
df_ha['text'][0]

'오랜만에 작가님의 책을 들고 우라지에서 하얼빈으로 다녀왔네요. 광복절도 다가오고 있고 연일 일본에 강제노역에 따른 민간차원의 대응이 뉴스에 나오는 이때,전후 독일과 비교되는 일본의 현 시국을 보면서 안중근 의사의 방아쇠가 어질을 향해 뿜었는지 다시 생각하는 시간이 됐고, 한편 부끄럽기도 하네요. 특정일이 아닌 평상시의 역사관,국가관이 바로 서기도 생각하게합니다.'

# 데이터 전처리

### 정규식

In [25]:
def apply_regular_expression(text):
    hangul = re.compile('[^ ㄱ-ㅣ 가-힣]')  # 한글 추출 규칙: 띄어 쓰기(1 개)를 포함한 한글
    result = hangul.sub('', text)  # 위에 설정한 "hangul"규칙을 "text"에 적용(.sub)시킴
    return result

In [26]:
apply_regular_expression(df_ha['text'][0])

'오랜만에 작가님의 책을 들고 우라지에서 하얼빈으로 다녀왔네요 광복절도 다가오고 있고 연일 일본에 강제노역에 따른 민간차원의 대응이 뉴스에 나오는 이때전후 독일과 비교되는 일본의 현 시국을 보면서 안중근 의사의 방아쇠가 어질을 향해 뿜었는지 다시 생각하는 시간이 됐고 한편 부끄럽기도 하네요 특정일이 아닌 평상시의 역사관국가관이 바로 서기도 생각하게합니다'

### 명사 형태소 추출

In [27]:
okt = Okt()
nouns = okt.nouns(apply_regular_expression(df_ha['text'][0]))
nouns

['만',
 '작가',
 '책',
 '라지',
 '하얼빈',
 '광복절',
 '연일',
 '일본',
 '강제',
 '노역',
 '민간',
 '차원',
 '대응',
 '뉴스',
 '때',
 '전후',
 '독일',
 '비교',
 '일본',
 '현',
 '시국',
 '안중근',
 '의사',
 '방아쇠',
 '향',
 '뿜었는',
 '다시',
 '생각',
 '시간',
 '한편',
 '기도',
 '특정',
 '일이',
 '평상시',
 '역사관',
 '국가',
 '관',
 '바로',
 '서기',
 '생각']

### 말뭉치 생성

In [28]:
corpus = "".join(df_ha['text'].tolist())
corpus

'오랜만에 작가님의 책을 들고 우라지에서 하얼빈으로 다녀왔네요. 광복절도 다가오고 있고 연일 일본에 강제노역에 따른 민간차원의 대응이 뉴스에 나오는 이때,전후 독일과 비교되는 일본의 현 시국을 보면서 안중근 의사의 방아쇠가 어질을 향해 뿜었는지 다시 생각하는 시간이 됐고, 한편 부끄럽기도 하네요. 특정일이 아닌 평상시의 역사관,국가관이 바로 서기도 생각하게합니다.문재인 대통령님 추천 도서라 읽고 있습니다. 아직 완독은 못 했지만 재밌습니다. 역사를 잊은 민족에게 미래는 없다고 합니다. 광복절을 기념할 겸 다 같이 읽어보면 좋겠습니다.김훈의 신작 기대가 큽니다.칼의 노래를 통해 눈물빼게 하더니 총의 노래(하얼빈)을 통해 기어이 콧물까지 빠지도록 했다. 국뽕을 떠나 인간의 고뇌와 삶의 무게를 한층 더 생각하게 만든 좋은 작품 많이 많이 읽어주시길뉴스보고 너무 궁금해서 구입했습니다 읽기전부터 설레네요명불허전.. 여름휴가에 읽고 있습니다. 사실과 허구를 넘나드는 필력에 감동입니다문재인 대통령께서 추천하셔서 바로 구입했습니다 책을 받고 안중근을 떠올리는 순간 눈물이 나려합니다 현시점 나라가 시끄러운 것이 안타까워서인듯 합니다김훈 작가의 책은 문장은 짧으면서도 많은 것을 내포하고 생각하게 하는 마력이 있는 작가이다. 책속의 한 문장 \'이토의 목숨을 죽여서 없앤다기 보다는, 이토가 살아서 이 세상을 위젓고 돌아다니지 않도옥 이토의 존재를 소거하는 것이 자신의 마음이 가리키는 바라고 안중근은 생각했다.\' 정말 감동이다. 기록 사진이 있었으면.......2022년 여름 휴양지에서 뜨거운 태양 아래, 즐겁게 읽어볼까 합니다.진짜 이건... 올해 최고의 소설이라고 말할 수 있습니다.김훈 작가님 문체는 그 담담함이 오히려 더 슬퍼요.. 칼의 노래나 현의 노래등에서도 느껴지는 그저 받아들이는 정신....오래간만의 김훈 소설 역시 믿고 읽은만 합니다~~~역시 기대한대로 좋은 책입니다!감명깊게 읽었습니다. 건강관리 잘 하셨으면 좋겠네요. 다음 작품도 기다리겠습니다.1909년 10월 

### 정규표현식 적용

In [29]:
apply_regular_expression(corpus)

'오랜만에 작가님의 책을 들고 우라지에서 하얼빈으로 다녀왔네요 광복절도 다가오고 있고 연일 일본에 강제노역에 따른 민간차원의 대응이 뉴스에 나오는 이때전후 독일과 비교되는 일본의 현 시국을 보면서 안중근 의사의 방아쇠가 어질을 향해 뿜었는지 다시 생각하는 시간이 됐고 한편 부끄럽기도 하네요 특정일이 아닌 평상시의 역사관국가관이 바로 서기도 생각하게합니다문재인 대통령님 추천 도서라 읽고 있습니다 아직 완독은 못 했지만 재밌습니다 역사를 잊은 민족에게 미래는 없다고 합니다 광복절을 기념할 겸 다 같이 읽어보면 좋겠습니다김훈의 신작 기대가 큽니다칼의 노래를 통해 눈물빼게 하더니 총의 노래하얼빈을 통해 기어이 콧물까지 빠지도록 했다 국뽕을 떠나 인간의 고뇌와 삶의 무게를 한층 더 생각하게 만든 좋은 작품 많이 많이 읽어주시길뉴스보고 너무 궁금해서 구입했습니다 읽기전부터 설레네요명불허전 여름휴가에 읽고 있습니다 사실과 허구를 넘나드는 필력에 감동입니다문재인 대통령께서 추천하셔서 바로 구입했습니다 책을 받고 안중근을 떠올리는 순간 눈물이 나려합니다 현시점 나라가 시끄러운 것이 안타까워서인듯 합니다김훈 작가의 책은 문장은 짧으면서도 많은 것을 내포하고 생각하게 하는 마력이 있는 작가이다 책속의 한 문장 이토의 목숨을 죽여서 없앤다기 보다는 이토가 살아서 이 세상을 위젓고 돌아다니지 않도옥 이토의 존재를 소거하는 것이 자신의 마음이 가리키는 바라고 안중근은 생각했다 정말 감동이다 기록 사진이 있었으면년 여름 휴양지에서 뜨거운 태양 아래 즐겁게 읽어볼까 합니다진짜 이건 올해 최고의 소설이라고 말할 수 있습니다김훈 작가님 문체는 그 담담함이 오히려 더 슬퍼요 칼의 노래나 현의 노래등에서도 느껴지는 그저 받아들이는 정신오래간만의 김훈 소설 역시 믿고 읽은만 합니다역시 기대한대로 좋은 책입니다감명깊게 읽었습니다 건강관리 잘 하셨으면 좋겠네요 다음 작품도 기다리겠습니다년 월 일 이토 히로부미가 러시아 제국의 재무장관 블라디미르 코콥초프와 회담하기 위해 하얼빈에 오게 되었다 그 시절 

### 전체 말뭉치(corpus)에서 명사 형태소 추출

In [30]:
nouns = okt.nouns(apply_regular_expression(corpus))
print(nouns)

['만', '작가', '책', '라지', '하얼빈', '광복절', '연일', '일본', '강제', '노역', '민간', '차원', '대응', '뉴스', '때', '전후', '독일', '비교', '일본', '현', '시국', '안중근', '의사', '방아쇠', '향', '뿜었는', '다시', '생각', '시간', '한편', '기도', '특정', '일이', '평상시', '역사관', '국가', '관', '바로', '서기', '생각', '문재인', '대통령', '추천', '도서', '완독', '못', '역사', '민족', '미래', '광복절', '기념', '겸', '김훈', '신작', '기대', '칼', '노래', '통해', '눈물', '총', '노래', '하얼빈', '통해', '기어이', '콧물', '국뽕', '인간', '고뇌', '삶', '무게', '한층', '더', '생각', '작품', '뉴스', '보고', '구입', '명불허전', '여름', '휴가', '사실', '허구', '필', '감동', '문재인', '대통령', '추천', '바로', '구입', '책', '안중근', '순간', '눈물', '시점', '나라', '것', '김훈', '작가', '책', '문장', '것', '내포', '생각', '마력', '작가', '책속', '문장', '이토', '목숨', '죽', '이토', '이', '세상', '위', '옥', '이토', '존재', '소거', '것', '자신', '마음', '안중근', '생각', '정말', '감동', '기록', '사진', '년', '여름', '휴양지', '태양', '아래', '진짜', '이건', '올해', '최고', '소설', '말', '수', '김훈', '작가', '문체', '그', '오히려', '더', '칼', '노래', '현', '노래', '등', '정신', '의', '김훈', '소설', '역시', '역시', '책', '감명', '건강', '관리', '다음', '작품', '년', '월', '일', '이토', '히로', '부', '미가', '

### 빈도 탐색 - 탑 10

In [31]:
counter = Counter(nouns)
counter.most_common(10)

[('안중근', 55),
 ('작가', 46),
 ('김훈', 46),
 ('책', 40),
 ('소설', 27),
 ('하얼빈', 22),
 ('그', 21),
 ('수', 19),
 ('의사', 18),
 ('역사', 16)]

### 한글자 명사 제거

In [None]:
available_counter = Counter({x: counter[x] for x in counter if len(x) > 1})
available_counter.most_common(10)