# 모듈 설치 및 실행

In [1]:
# !python --version

In [2]:
# !pip install konlpy

In [3]:
import pandas as pd
import tqdm
import re

from konlpy.corpus import kolaw
from konlpy.tag import Okt
from konlpy.utils import concordance, pprint

In [4]:
import warnings
warnings.filterwarnings('ignore')

In [5]:
# story_sep = okt.pos(text)

---

# 데이터 불러오기

In [6]:
df = pd.read_csv('novel_total.csv')

# 불용어 처리 및 제거 형태 지정

In [7]:
stop_words = ['은', '는', '이', '가', '수', '한다', '관객', '작가', '저자', '장편소설', '단편소설', '장편', '단편', '소설', '수상작', '작품', '개정판', '베스트셀러', 
'있는', '어느', '있다', '없다', '이후', '이전', '하며', '했던', '했다', '된다', '모든', '문장', '문학', '여러', '되었다',
'수록', '이야기', '이자', '않는', '하며', '되어', '통해', '없이', '위해', '독자', '하지', '같은', '다른', '하여', '되고', '하던', '없는',
'화제', '하는데', '하기', '였던', '가장', '갑자기', '연재', '되는', '해온', '더욱', '번역', '않은', '많은', '이었다', '선정', '발표', '신작', 
'하게', '아니라', '대한', '냈다', '특히']
rm_ls = ['Foreign', 'Josa', 'Number', 'Suffix', 'Punctuation', 'Determiner', 'VerbPrefix', 'Alpha', 'Eomi', 'Exclamation', 'KoreanParticle', 'Modifier' ,'Conjunction', 'URL', 'PreEomi', 'ScreenName', 'Email', 'Hashtag']

In [12]:
sep_ls = []
set_word = set()

for i in tqdm.tqdm(range(df.shape[0])):

    sentence = ''
    
    try:
        okt = Okt()
        text = df['story'][i]
        story_sep = okt.pos(text)

        for idx, (a, b) in enumerate(story_sep):
            if (b not in rm_ls) and (a not in stop_words) and (len(a) > 1):
            # if b == 'Noun':
                sentence += a + ' '
                set_word.add(a)
    except:
        pass

    sep_ls.append(sentence)

100%|██████████| 1000/1000 [00:19<00:00, 52.50it/s]


In [9]:
# 필요한 단어(명사)들만 ' '로 나누어서 한 문장으로 저장. split() 이용해서 빠르게 리스트로 만들 수 있음.
# print(sep_ls[0])
# print(sep_ls[0].split())
# print(len(sep_ls[0].split()))

# 형태소 분리된 sep_ls를 데이터 프레임에 추가

In [13]:
df['story_sep'] = sep_ls
df

Unnamed: 0,itemId,title,pubDate,coverSmallUrl,coverLargeUrl,publisher,customerReviewRank,author,isbn,link,story,story_sep
0,281536876,파친코 1,20180309,https://bimage.interpark.com/partner/goods_ima...,https://bimage.interpark.com/partner/goods_ima...,문학사상,9.5,이민진,9788970129815,http://book.interpark.com/blog/integration/pro...,어디에도 속하지 못했던 자이니치들의 분노와 슬픔에서 탄생한 대작!한국계 1.5세인 ...,어디 자이니치 분노 슬픔 탄생 대작 한국 세인 미국 이민 진의 파친코 면서 끝내 이...
1,281536885,파친코 2,20180309,https://bimage.interpark.com/partner/goods_ima...,https://bimage.interpark.com/partner/goods_ima...,문학사상,9.2,이민진,9788970129822,http://book.interpark.com/blog/integration/pro...,어디에도 속하지 못했던 자이니치들의 분노와 슬픔에서 탄생한 대작!한국계 1.5세인 ...,어디 자이니치 분노 슬픔 탄생 대작 한국 세인 미국 이민 진의 파친코 면서 끝내 이...
2,348921505,불편한 편의점(40만부 기념 벚꽃 에디션),20210420,https://bimage.interpark.com/partner/goods_ima...,https://bimage.interpark.com/partner/goods_ima...,나무옆의자,9.8,김호연,9791161571188,http://book.interpark.com/blog/integration/pro...,"※ 인터넷 한정 특별판: 매장 구매, 바로드림 구매 시에는 다른 표지의 에디션으로 ...",인터넷 한정 특별판 매장 구매 바로 드림 구매 표지 에디 제공 됩니다 플러스 기쁨 ...
3,354595636,저주토끼,20220401,https://bimage.interpark.com/partner/goods_ima...,https://bimage.interpark.com/partner/goods_ima...,아작,0.0,정보라(정도경),9791166686665,http://book.interpark.com/blog/integration/pro...,2022 부커상 최종 후보 지명작!한국 호러 SF/판타지 대표작가 정보라 대표작20...,부커상 최종 후보 명작 한국 호러 판타지 대표 정보라 대표 인터내셔널 부커상 후보 ...
4,266107628,아몬드,20170331,https://bimage.interpark.com/partner/goods_ima...,https://bimage.interpark.com/partner/goods_ima...,창비,9.6,손원평(孫元平),9788936434267,http://book.interpark.com/blog/integration/pro...,괴물인 내가 또 다른 괴물을 만났다!영화와도 같은 강렬한 사건과 매혹적인 문체로 시...,괴물 괴물 만났다 영화 강렬한 사건 매혹 문체 시선 사로잡는 한국 어덜트 아몬드 타...
...,...,...,...,...,...,...,...,...,...,...,...,...
995,288668147,하얀 늑대들 3,20180705,https://bimage.interpark.com/partner/goods_ima...,https://bimage.interpark.com/partner/goods_ima...,제우미디어,0.0,윤현승,9788959526130,http://book.interpark.com/blog/integration/pro...,가진 건 용기와 입담뿐인 농부 카셀이 위대한 기사들의 캡틴이 되기까지!2003년 처...,가진 용기 입담 농부 카셀 위대한 기사 캡틴 되기까지 처음 지난 지금 전자책 올라있...
996,289078215,네버무어: 모리건 크로우와 원드러스 평가전 1,20180805,https://bimage.interpark.com/partner/goods_ima...,https://bimage.interpark.com/partner/goods_ima...,디오네,9.6,제시카 타운센드,9791157746088,http://book.interpark.com/blog/integration/pro...,"불행의 날에 태어난 저주받은 아이, 운명을 거부하고 신비의 도시 네버무어로 떠나다!...",불행 태어난 저주받은 아이 운명 거부 신비 도시 무어 떠나다 제시카 타운센드 무려 ...
997,243131474,춘분 지나고까지,20150828,https://bimage.interpark.com/partner/goods_ima...,https://bimage.interpark.com/partner/goods_ima...,현암사,9.8,나쓰메 소세키(夏目漱石),9788932317472,http://book.interpark.com/blog/integration/pro...,"20세기 대문호 나쓰메 소세키 문학의 정수!단단한 번역, 꼼꼼한 편집과 디자인으로 ...",세기 문호 소세키 정수 단단한 꼼꼼한 편집 디자인 새롭게 읽는 소세키 전집 춘분 지...
998,268911218,별의 계승자 2: 가니메데의 친절한 거인,20170825,https://bimage.interpark.com/partner/goods_ima...,https://bimage.interpark.com/partner/goods_ima...,아작,9.2,제임스 P. 호건,9791187206675,http://book.interpark.com/blog/integration/pro...,가니메데의 거인이 돌아왔다! 다시 미궁에 빠진 인류의 기원과 미래2천 5백만 년 전...,가니메데 거인 돌아왔다 다시 미궁 빠진 인류 기원 미래 백만 태양계 사라졌던 거인 ...


# 파일로 저장

In [2]:
df.to_csv('novel_story_sep.csv', index=False)

NameError: name 'df' is not defined