In [39]:
import pandas as pd
import numpy as np
import re
from konlpy.tag import Komoran

# null 값 및 공백 제거

In [62]:
categorys = ["China", "english", 'Europe', 'France', 'german', 'Japan', 
            'Korea_1', 'Korea_2', 'Korea_3', 'others', 'russian', 'spanish']

PAT_BLANK = re.compile(r'[\s]')

for category in categorys:
    df = pd.read_csv(f'./crawling/book_info_{category}.csv', index_col=0)
    
    # info가 null인 항목 제거
    df.dropna(axis=0, how='any', subset=["info"], inplace=True)
    
    # 공백 제거
    for idx in df.index:
        info = df.loc[idx]['info']
        df.loc[idx]['info'] = PAT_BLANK.sub(' ', info)
    
    df.to_csv(f'./datasets/book_info_{category}.csv')
    print(df.info(), '\n')

<class 'pandas.core.frame.DataFrame'>
Int64Index: 718 entries, 67023250 to 74028274
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   title   718 non-null    object
 1   img     718 non-null    object
 2   info    718 non-null    object
dtypes: object(3)
memory usage: 38.6+ KB
None
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3972 entries, 24512355 to 24512341
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   title   3972 non-null   object
 1   img     3972 non-null   object
 2   info    3972 non-null   object
dtypes: object(3)
memory usage: 253.2+ KB
None
<class 'pandas.core.frame.DataFrame'>
Int64Index: 206 entries, 69280130 to 24512357
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   title   206 non-null    object
 1   img     206 non-null    object
 2   info    206 non-null    object
dtypes: object(3)


# Tokenizing

In [17]:
komoran = Komoran()

In [97]:
print('---', df.iloc[13]['info'], '---')

---   ---


In [108]:
info = re.sub(r'^\s*$', ' ', '             \t')
print(info == ' ')

True


In [99]:
token = komoran.pos('             ')
df_token = pd.DataFrame(token, columns=['word', 'tag'])

java.lang.NullPointerException: java.lang.NullPointerException

In [98]:
print(df.iloc[13]==' ')

code     False
title    False
img      False
info      True
Name: 13, dtype: bool


In [104]:
category = 'Japan'

CSV_ORIGIN = f"./crawling/cleaned_book_info_{category}.csv"
CSV_RESULT = f"./datasets/book_keyword_{category}.csv"

TAG_NORMAL = {'NA', 'NF', 'NNG', 'NNP', 'XR'}

#######################################################

df = pd.read_csv(CSV_ORIGIN, index_col=0)

tokens = []
codes = []

for idx in df.index:
    print(idx)
    # 불필요한 문자 제거
    info = re.sub(r'[^0-9가-힣]', ' ', df.loc[idx]['info'])
    info = re.sub(r'^\s*$', ' ', info)
    if info == ' ':
        continue
    
    # tokenizing
    token = komoran.pos(info)
    df_token = pd.DataFrame(token, columns=['word', 'tag'])
    
    # 추출한 token 한 문장으로 만들어서 저장
    tokens.append(' '.join(df_token[df_token['tag'].isin(TAG_NORMAL)]['word']))
    codes.append(idx)

df_result = df[df.index.isin(codes)].copy()
df_result['info'] = tokens
# df_result.to_csv(CSV_RESULT)

64994431
92094468
94448019
41828737
80858321
44183549
9183765
71383264
16366966
64101217
15968762
38922751
30181353
63792340
47688806
13160165
44377165
62114116
61833905
12655226
71028624
88322540
56936844
89594130
61120512
46257742
4081443
82616141
42753381
63693938
7981738
5478012
64990049
16366964
16366960
39046139
39046138
67158752
74801153
11310999
69333402
62114122
62114123
62114124
71729962
93982822
93982823
93982824
93982825
62160259
62160260
74028130
63689662
8020806
35203938
70961021
69610975
91860491
62161313
91224263
8317606
60789936
14212512
61784334
29641843
65283364
13573653
26035648
26035647
14436163
13533376
32449301
46546903
5986328
89379631
91127808
91127809
91127810
37922438
89018625
96033438
56895200
56895199
56895197
64470212
64470214
64470216
64704197
67137735
71755355
69333398
77259699
91224261
91224260
91159681
17591427
59272805
35197634
73020631
67707695
42797914
91729075
78576622
96173923
84916163
7901468
44338381
72301753
89960055
8699305
73807677
57654830
6

75217617
76181313
76181316
76181320
64693162
24451068
13231385
13231383
73022820
16514767
75220791
52898406
59615712
71974038
90550338
44338390
56946084
59186922
80456174
56901677
37885525
90963000
41147815
36422854
61792696
95926811
52898403
52898402
74598520
28197211
70982335
94874142
45471899
62055804
77204690
95741382
33472482
45878080
77728687
15401623
15401622
15401621
15401620
15401619
15401618
15401617
15401616
15401615
15401614
15401613
15401612
15401610
15401609
15401608
87681820
64948272
44339081
9396473
7465106
70961023
74976188
72260729
42762075
24275035
61786823
37238660
83761567
92336368
92575038
89230291
89230292
11100180
70933179
12823953
92100013
43832425
39041112
91447131
69235647
69235646
75194057
45506657
12444894
7517165
64322418
63755952
59398926
38819603
18364246
7919874
15478224
60891470
58097347
78567079
29419071
70961025
89427139
70859080
64175912
28340173
11592349
38290242
11592348
11592347
12823948
54236542
70893500
8778704
65548794
65548795
65548796
655487

In [105]:
print(df_result)

                                                      title  \
code                                                          
64994431                                               가격파괴   
92094468                                            가나에 아줌마   
94448019                                            가난을 팝니다   
41828737                                        가난한 사람들의 무리   
80858321                                          가만히 손을 보다   
...                                                     ...   
75237899                         [특가][세트] 다카노 가즈아키 전작 (총5권)   
75237897                   [특가][세트] 밀리언셀러클럽 일본 문학 걸작선 (총3권)   
41110025  [한글 번역] 장갑을 사러 간 아기여우, 금빛여우, 빨간 초, 하나의 촛불 ('니이...   
29033866                                     [합본] 백년법 (상,하)   
15323853                [합본] 불패의 검성(劍聖), 미야모토 무사시 (전10권/완결)   

                                                        img  \
code                                                          
64994431        http://image.yes24.com/goods/64994431/

In [106]:
df.to_csv(CSV_RESULT)

In [88]:
info = """전교생의 눈과 앞에 담임선생님의 눈이 예상치 못한 상황에 나에게 시선이 멈추어 있었다  나도 내 자신에게 놀라 지켜보았다 교장선생님 연설처럼 앞산  뒷산이 메아리쳤다  예진이랑  같은 반 되게 해주세요   세상에는 수많은 사랑 이야기가 있다  한 편의 시로 시작했던 사랑 이야기는 이윽고 소설로  음악으로  연극으로  영화로  드라마로 그 영역을 넓혀가면서 우리 곁에 없어선 안 될 존재로 자리매김 하였다  이와 같이 다양한 형태로 존재하는 사랑 이야기에 우리는 울고  웃고  때론 분노하고 또는 감동한다  그리고 여기  우리들의 삶의 꿈과 목적이 어디인지 알려주는 또 다른 사랑 이야기를 담은 한 권의 소설책이 출간됐다  바로              금산  금강 이다 주인공인 고용석은 국민학교 시절부터 짝사랑해온 예진이와의 결혼이라는 원대한 꿈을 이루기 위해 고군분투하며 노력하는  이 시대에 다시없을  순정남 이다  그의 순수한 마음을 가만히 보고 있노라면 어쩐지 힘든 세상에 찌든 우리의 마음을 밝고 환하게 힐링시켜 주는 기분마저 든다  또한 예진이와 결혼을 성공하고 그 뒤의 여러 가지 사건을 겪으며 점점 성장하는 고용석에게서 우리는 잊고 있던 삶의 꿈과 목적을 떠올려 보게 된다  저토록 순수한 마음 하나로 누군가를 열렬히 사랑해본 적이 있었는지  저토록 순수한 마음 하나로 무언가를 이루기 위해 노력해본 적이 있었는지 하고 말이다               금산  금강 은 사랑 이야기와 더불어 우리 조상에 대한 이야기도 함께 이끌고 간다  그와 더불어 고용석 집안의 비밀을 풀기 위해 다양한 인물과 장치를 배치하여 극의 다채로움은 물론  밀도까지 높여 완성도를 높였다  그럼으로써 밝혀지는 고용석 집안의 비밀은 우리 조상들만의 고유 정신을 깨우치게 해줘 한시도 쉬지 않고 바쁘게만 살아가던 현대인들에게 진정한 삶의 방향이 무엇인가데 대한 질문을 던진다 이에 작가 최병진은  매순간 우리들은 꿈과 목적을 위해 삶을 살아가나 그 꿈과 목적에 도달하는 순간 허무함과 곤고함이 기다린다  때문에 진정 우리네 삶의 꿈과 목적지 무엇인지에 대해 다시 한 번 생각하게 해주는 글을 써보고 싶었다  고 소감을 밝힌다 
일명  갈매기 선생 으로 불리며 학생들의 인기를 독차지한경상도 토박이 교사 서상국의 남다른 교육 이야기이 책은  산에 갔다 첩하나 달고 왔네    나는 호박꽃이고 싶다 의 저자 서상국의 세 번째 에세이집이다  경상도 토박이 교사인 저자가 경기도로 발령받으면서 생긴 에피소드들을 생생하게 담았다  제목  가가 가라니까  는  그 사람이 맞습니다  란 뜻의 경상도 사투리  학생들은 어느 날 저자에게서 들은 그 말을 재미있다는 듯 따라했고  지금은 애칭으로 굳어졌다 그렇다고 이 책을 사투리 우스갯거리만 가득한 책으로 넘겨짚어서는 안 된다  이 책에는 꽃씨를 심어 생명의 소중함을 가르치고 잘못한 일을 따끔하게 혼낼 줄 아는 참 선생의 모습이 담겨 있다  졸업한 학생들이 학교로 찾아와  혼내주셔서 고맙습니다  라고 인사하는 풍경은 오랫동안 잊고 있던 아름다운 풍경이다  교권이 무너지고 사제 간의 불신이 커지는 현실 속에서 자녀에게 정말 필요한 교육이 무엇인지 되짚어볼 수 있고  나아가 가족 해체의 위기 속에서 따뜻한 가정을 이루어가는 그의 비법을 엿볼 수 있는 책이다 
우리 시대의 작가 황석영의 중단편들은 당대 현실에서 체화한 치열한 리얼리즘 미학의 정점을 보여주는 작품들로서 한국문학사의 획을 그은 걸작으로 손꼽힌다  그 가운데 미래의 대표작으로 삼을 빼어난 작품들을 섬세하게 추려 뽑은 대표중단편선  가객 이 문학동네 한국문학전집 2차분의 첫 권으로 묶였다  이번 대표중단편선  가객 은 흔히 알려진  사상계  등단작  입석 부근  1962  대신 1965년에 쓰인 초기작으로 이후 작가의 행보를 예감하게 하는 인상적인 단편  가객 을 프롤로그 겸 표제작으로 삼았다  이는  삼포 가는 길  1973    몰개월의 새  1976  등 널리 알려진 걸작들뿐 아니라 비교적 덜 알려졌지만 여전히  또 새로이 읽혀야 할 단편들을 새로운 세대의 독자들에게 충실히 소개하고자 하는 취지이다  또한 1970년대의 대표적 중단편들 외에도 1980년대 이후 드물게 발표된 단편과 지난해 28년 만에 발표한 단편소설로 화제를 모은  만각 스님  2016 까지를 한데 엮음으로써 긴 세월 동안 작품 속에서 시대와의 긴장을 놓치지 않아온 작가의 작품세계 전모를 조망할 수 있게 했다 이로써  가객 은 오늘 다시 발견되고 탐구되어야 할 황석영 중단편문학의 정수를 보여주는 데 부족함이 없다   당대의 평자와 독자들이 훗날의 거장을 예감하면서 품었던  거대한 기대 의 유적지이자  오늘날에도 여전히 탐구할 가치가 있는 주제들에 대한 선구적 천착이 마련해놓은  위대한 유산 의 공간  신형철  해설 인 이 중단편들은 한국문학의 또다른 미래가 발 딛고 선 거인의 어깨인 동시에  그 자체로 여전히 생동하는 현재로서 한국문학사의 미래를 향해 나아가는 발걸음이기도 할 것이다 
어느 겨울 날 일이다   차데찬 모진 바람이 살처럼 을여의는 듯이 불어 닥들인다  이 차데찬 바람을 안고  그 골 원의    행차 가   산 모룅이를 지나게 되었다  원은    물론  그 고을의    주인 인 만콤 솜을 퉁 하게 놓은 명주바지 조구리를 입고  명주두루마기를 또 그 우에 입고  가마 속에 들어 앉어있다  그러나 날이 워낙 차고 바람이 워낙 몾어서 아모리 뜨듯한 명주옷을 입고 가마 속에 들었어도 원의 몸은 가시나무처럼 덜  떨였 다 
오 헨리 특유의 갑작스런 결말  극적인 반전이 냉소적으로 표현된 1906년 작품이다  가난한 사람들이 바글거리며 사는 복잡한 동네 어느 골목 어느 낡아빠진 집에서 지금도 일어나고 있을 법한 일  지극히 현실적이면서도 너무나 비현실적인 일  나에겐 숨이 막힐 정도로 절실한 일이지만 다른 사람들에게는 말 그대로 남의 일일 뿐인 그런 일  오늘도  지금 이 순간에도 누군가는 그런 일을 겪고 있을지 모른다   어쩌면 우리 모두 
당신의 사랑은 지금 어디쯤 있습니까  가장 가까운 이가 가장 멀게 느껴질 때 당신은 어떻게 하실 건가요  흐르거나 혹은 마르거나  고여서는 존재하지 못하는 강물 같은 사랑의 이야기 
전위와 서정 사이  그 매혹의 경계에서 사랑을 고백하는 신예 정용준의 첫번째 소설집이다  한국 소설의 아주 어두운 계보인 죽음 충동의 에너지의 계보를 잇는 작가다  아름다운 죽음의 문장들을 만날 수 있다  표제작  가나 등 9편의 단편 소설이 수록되어 있다 
사직골 막바지 솟을대문 달린 큰 기와집 행랑방에서는 큰 야단이 일어났습니다  땟국이 꾀죄죄 흐르는 행주치마를 앞에 두른 채 뒤축 달아빠진 고무신을 짝짝 끌면서 행랑어멈인 듯한 여인이 대문을 벼락 치듯 열고 뛰어 나오더니  아이구 이를 어쩌나  아이구 이를 어쩌나   하면서 어쩔 줄을 모르는 듯이 길 아래위로 허둥지둥 오르내리기만 할 뿐 입니다 
1930년대 리얼리즘 소설가로서 중요한 위치를 차지하고 있는 이기영 소설집  남존여비의 봉건사상에 대한 신랄한 비판을 담은 등 그의 창작과정을 살필 수 있는 18편의 단편들을 모아 엮었다 
우리 문학의 깊이와 재미를 느낄 수 있는 주요 작품  오랜 시간 문학성을 인정받은 작품  독서하면서 생각하는 힘도 팍팍 길러주는 한국문학  청소년 및 성인 모두에게 권하고 싶은 한국문학 대표소설  한국인이라면 꼭 읽어야 할 한국문학 필독서      책 속으로     그것이 그해 오월 초승 어떤 고요한 밤이었다  이삼일 전부터 몹시 볶이어서 명이 경각에 있다고 하던 오빠가 저녁 편부터 좀 정신을 차리었는지라 모여들었던 이웃 사람들은 헤어지고 가슴을 치던 어머니는 저녁 뒤에 퇴침을 베고 잠들고 우선이는 약 지으러 가고 정숙이는 컴컴한 마루에서 숯불에 미음을 쑤는데 
이 소설은 가난한 의사들에 대한 이야기이다 어려운 시절을 보내는 동안 문득 보고  듣고  직접 겪어 보고  느낀 것에 대해서 나름대로 사람들에게 진솔하게 전달하고 싶은 생각이 들었다  그래서 히포크라테스의 선서로 곱게 꾸며진 의료계에도 이렇게 어려운 면들이 있다는 것을 국민들이 바르게 알아주었으면 하는 생각이 든 것이다  물론 처음부터 잘되지는 않겠지만 조금이나마 의사들의 손상된 인권과 진료권이 회복되기를 바라는 마음이 간절하다  가난한 의사들 을 읽고 이 사회가 고생하는 의사들의 손을 잡고 진정  고맙다  는 말 한마디를 해 주길 바랄 뿐이다  그리고 국민들이 힘든 의사들을 조금이나마 더 인간적으로 이해하며 서로 심적으로 소통할 수 있게 되기를 바란다  또 한 많은 의사 분들이 이 글을 읽고 자신과 주변을 한 번쯤 돌아볼 수 있는 계기가 되기를 바라며 힘든 우리 사회에 잘 적응할 수 있었으면 하는 바람이다  물론 의사가 가난하다고 하면 믿지 않는 사람들도 많겠지만 여기서 가난하다는 것은 경제적 가난뿐 아니라 정신적 가난 모두를 의미한다고 볼 수가 있겠다  경제적 가난이란 줄어드는 환자수와 낮은 의료수가 그리고 과도한 세금으로 인한 병원경영의 어려움을 말하는 것이고 정신적 가난이란 국가사회적으로 통제된 공간에서 억압적이고 불합리하게 살아가는 의사들의 목마른 영혼을 의미한다고 보면 된다 필자는 소아청소년과 이하 소아과  전문의로 살고 있다  일반적으로 의사라면 그렇듯이 학창시절 별 탈 없이 공부만 하고 집과 학교만 왔다 갔다 한 소위 모범생이었다 그러다가 남들이 부러워하는 의과대학에 입학해서 역시 공부만 하고 학창 시절 지금의 아내와 만나서 결혼했다 학교생활이나 수련의전문의과정이야 별문제 없이 지났지만 문제는 개원 후였다 생각해 보면 개원 후 십여 년 동안 병원을 여러 번 이전했으며 지금은 대도시를 떠나 중소도시에서 개원하고 있다  물론 빈번한 이전의 원인은 험한 세상에 잘 적응을 못한 본인 탓이라 하겠다  지금 생각해 보면 조급하게 행동한 것도 있고 환자들의 행태를 너무 모르고 준비 없이 개원했던 것 같다  무턱대고 학교에서 배운 교과서적인 진료를 하려 드니 제대로 되는 게 없었다 결국 개원의 성공은 자리에서 시작해서 자리로 끝난다는 것도 배웠다 그만큼 병원의 위치가 중요하다는 말이다 일반 사람들은 개원만 하면 의사들이 돈을 많이 버는 줄 알지만 자꾸 이전하니 벌어놓은 돈도 없고 현재는 경제적으로 힘들지만 조용히 적응해서 살려고 하고 있다 지금 생각해 보면 필자는 소위 개원 체질이 아니었던 모양이다 그렇게 어려운 시절을 보내는 동안 문득 보고  듣고  직접 겪어 보고  느낀 것에 대해서 나름대로 사람들에게 진솔하게 전달하고 싶은 생각이 들었다 그래서 히포크라테스의 선서로 곱게 꾸며진 의료계에도 이렇게 어려운 면들이 있다는 것을 국민들이 바르게 알아주었으면 하는 생각이 든 것이다  물론 처음부터 잘되지는 않겠지만 조금이나마 의사들의 손상된 인권과 진료권이 회복되기를 바라는 마음이 간절하다 그렇게 해서 이 사회가 고생하는 의사들의 손을 잡고 진정  고맙다  는 말 한마디를 해 주길 바랄 뿐이다  그리고 국민들이 힘든 의사들을 조금이나마 더 인간적으로 이해하며 서로 심적으로 소통할 수 있게 되기를 바란다  또 한 많은 의사 분들이 이 글을 읽고 자신과 주변을 한 번쯤 돌아볼 수 있는 계기가 되기를 바라며 힘든 우리 사회에 잘 적응할 수 있었으면 하는 바람이다 
인생이라는 한 판의 대국에서내 수의 끝은 가덕도에 닿았다가덕도 신공항과 맞물려 난마처럼 얽혀 가는동남권 신공항 20년의 비사    소설의 주인공인  나 는 젊은 시절 사랑의 열병을 온몸으로 앓다가 부평초처럼 표류하는 인생을 살아간다  그러나 그런 와중에도 의미 있는 삶을 꾸리고자 노력한 끝에 대학교수가 된다  교수가 된 이후로도 그는 인생을 한 판의 바둑으로 여기고 복기와 장고를 거듭하며 한 수씩 앞으로 나아간다  끝이 보이지 않던 인생 대국에서 현 상황만 헤쳐나가던 그에게 어느 날 다가온 가덕도 신공항이라는 주제는 새로운 목표와 열정을 지펴 주었다 이 소설은 부산 지역의 한 교수가 신공항 당원이 되고 마침내는 당수가 되어 가덕도 신공항 논의를 부활시키는 반전의 이야기를 담았다  청년 시절의 쓰라린 좌절과 마흔셋 늦깎이 교수가 되기까지의 험난한 과정을 낭만적 열정으로 극복해 가는 이야기와 교수사회의 단면을 보는 것은 이 소설에서 덤으로 얻는 지식과 재밋거리가 될 것이다 김해신공항이 발표되는 순간 나는 충격을 느꼈지만  절망하지는 않았다   하느님  정말 이렇게 결정되고 마는 것입니까   어떻게든 방법이 있을 것이라는 생각이 들었다  그 시점에서 문득  가덕도 신공항 재검토 주장을 하기에 가장 적합한 사람은 내가 아닐까  라는 생각을 하게 되었다   본문 중에서
징용 간 할아버지가 남긴 세 글자를 단서로마침내 손자가 밝혀낸 일본군의 만행 현장   용서할 수는 있어도 잊어서는 안 된다 는 메세지를탁월한 문학적 서사로 풀어낸 최순희의 단편소설 가덕도에 부는 바람  외 6선문호는 할아버지의 쪽지 한 장을 단서로 친구들과 함께 가덕도로 향한다  쪽지에 적힌 세 글자  가덕도   그곳은 아름답고 평화롭기만 하다  섬 곳곳을 배회해 보지만 도무지 실마리를 찾을 수 없다  그러나 모두가 지쳐갈 즈음 눈앞에 드넓은 대밭이 펼쳐진다  대밭 아래는 아무도 상상하지 못한 거대한 방공호가 숨겨져 있다  방공호는 언제부터 존재했을까  이 작은 섬에 방공호가 만들어진 이유는 무엇일까 꼬리에 꼬리를 무는 질문들  하나씩 맞춰지는 퍼즐 조각들  믿을 수 없는 현실이 눈앞에 펼쳐지는데  최순희 작가의 표제작  가덕도에 부는 바람 은 현재와 과거의 시공간을 넘나들어 비로소 우리의 미래까지 내다본다  잊고 지냈던 지난 시절의 뼈아픈 역사  그때 그 사람들 곁으로 우리를 초대하여 미래를 제시한다  주인공들의 생생한 사투리는 마치 그들이 실재하는 듯하다  이 소설을 통하여 지난 역사의 희생자들이 여전히 우리 곁에서 숨 쉬고 있음을 느낄 수 있을 것이다 
"""

In [89]:
token = komoran.pos(info)
df_token = pd.DataFrame(token, columns=['word', 'tag'])

print(df_token)

     word  tag
0       전   MM
1      교생  NNP
2       의  JKG
3       눈  NNG
4       과   JC
...   ...  ...
3405    있   VV
3406    을  ETM
3407    것  NNB
3408    이  VCP
3409    다   EC

[3410 rows x 2 columns]


# Test

In [65]:
df_spanish = pd.read_csv('./datasets/book_info_spanish.csv', index_col=0)
print(df_spanish)
print(df_spanish.info())

                                                      title  \
code                                                          
9167968                      검은 양과 또 다른 우화들 - 지식을만드는지식 소설선집   
79633118                             경이로운 도시 1 - 세계문학전집 255   
79633119                             경이로운 도시 2 - 세계문학전집 256   
18038042                                               고 GO   
91560829                            고양이는 내게 행복하라고 말했다 (개정판)   
...                                                     ...   
61356124                                             2666 5   
90373622                                            7개의 목소리   
6139411                                            7인의 미치광이   
15119005                      Don Quixote - 영어로 읽는 세계문학 250   
41699094  The Exemplary Novels of Cervantes - 영어로 읽는 세계문...   

                                                        img  \
code                                                          
9167968   http://image.yes24.com/momo/TopCate0001/kepu

In [63]:
komoran.tagset

{'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ETM': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JKB': '부사격 조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JKV': '호격 조사',
 'JX': '보조사',
 'MAG': '일반 부사',
 'MAJ': '접속 부사',
 'MM': '관형사',
 'NA': '분석불능범주',
 'NF': '명사추정범주',
 'NNB': '의존 명사',
 'NNG': '일반 명사',
 'NNP': '고유 명사',
 'NP': '대명사',
 'NR': '수사',
 'NV': '용언추정범주',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SH': '한자',
 'SL': '외국어',
 'SN': '숫자',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'VA': '형용사',
 'VCN': '부정 지정사',
 'VCP': '긍정 지정사',
 'VV': '동사',
 'VX': '보조 용언',
 'XPN': '체언 접두사',
 'XR': '어근',
 'XSA': '형용사 파생 접미사',
 'XSN': '명사파생 접미사',
 'XSV': '동사 파생 접미사'}

In [78]:
TAG_NORMAL = {'NA', 'NF', 'NNG', 'NNP', 'XR'}

tokens = []

for info in df_spanish['info']:
    info = re.sub(r'[^0-9가-힣]', ' ', info)
    token = komoran.pos(info)
    df_token = pd.DataFrame(token, columns=['word', 'tag'])
    tokens.append(' '.join(df_token[df_token['tag'].isin(TAG_NORMAL)]['word']))

print(tokens)

['20세기 중남미 문학 단편소설 분야 일인자 아우구스토 몬테로 소의 작품집 우화 합리 모순 인간 현실 풍자 역설 간결 압축 작가 유머 이성 인간 현실 꿋꿋 수단 작용 현실 비판 풍자 속 인간 따뜻 시선 책 스페인 마드리드 소재 알파 출판사 포켓 북 원전 20세기 중남미 문학 단편소설 분야 일인자 아우구스토 몬테로 소의 작품집 우화 합리 모순 인간 현실 풍자 역설 간결 압축 작가 유머 이성 인간 현실 꿋꿋 수단 작용 현실 비판 풍자 속 인간 따뜻 시선 책 스페인 마드리드 소재 알파 출판사 포켓 북 원전 아우구스토 몬테로 소 단편소설 작가 유명 공룡 이다 작품 길이 불과 때 공룡 단어 작품 스페인 이탈리아 중남미 나라 출간 중남미 단편 선집 포함 언어 번역 작품 소설 장르 전통 개념 도그마 독자 도전 작품 문학 비평 대상 다양 변종 작품 창작 동기 공룡 은 멕시코 사회 정치 영향력 행사 뒷거래 시대 정치 문화 유산 인물 비유 해석 그러 단편 작품 관심 작품집 양 우화 을 강화 단편소설 작가 확고 이미지 구축 동시 단편소설 장르 발전 작품집 작품 책 작품집 우화 우화 집 인간 속성 동물 인간 인간 세상 풍자 고전 우화 성격 아이러니 패러디 아포리즘 상호 텍스트 기법 메타픽션 기법 문학 풍부 지적 우화 바퀴벌레 작품 패러디 상호 텍스트 기법 카프카 변신 보르 헤스 뫼비우스의 띠 구조 문학 현실 경계 장자 접지 몽 을 동원 꿈 실재 문학 현실 작가 인물 피고 용인 바퀴벌레 경계 복합 유희 독자 즐거움 기존 작품 전달 의미 동물 구원 부엉이 풍자 작가 원숭이 원숭이 생각 페넬로페 피그말리온 작품 상호 텍스트 기법 메타픽션 기법 활용 대부분 경우 기존 텍스트 의미 우리들의 통념 관습 사고 인식 조롱 의문 제기 페넬로페 의 경우 페넬로페 율리시스 집 해석 제기 그리스 신화 다이달로스 이카로스 피그말리온 조각 작품 겉 배은망덕 제자 여성 자신 특성 한계 망각 인간 풍자 한편 작가 작품 관계 신 인간 관계 생각 측면 작품 스페인 작가 우 나무 노 작품 안개 의 패러디 작품 완

In [76]:
TAG_NORMAL = {'NA', 'NF'}

tokens_na = set()
tokens_nf = set()

for info in df_spanish['info']:
    info = re.sub(r'[^0-9가-힣]', ' ', info)
    token = komoran.pos(info)
    df_token = pd.DataFrame(token, columns=['word', 'tag'])
    
    tokens_na.update(df_token[df_token['tag'] == 'NA']['word'])
    tokens_nf.update(df_token[df_token['tag'] == 'NF']['word'])

In [77]:
tokens_na

{'감사히',
 '구스망에',
 '구스타브',
 '굼벵이',
 '그리뇨텡',
 '까스뜨로',
 '깜뿌사노가',
 '깜뿌사노는',
 '깜뿌사노와',
 '꼬르넬리아',
 '꼬르넬리아는',
 '꼬르넬리아를',
 '꼬르넬리아의',
 '꼬르따도는',
 '꼬르따도를',
 '꼬르따디요에',
 '꼬르따사르',
 '꼬르따사르가',
 '꼬르따사르는',
 '꼬르따사르의',
 '꼬맹이',
 '꼰스딴사가',
 '꼰스딴사에게',
 '꾸바스는',
 '꾸바스에',
 '꾸바스의',
 '낑까스',
 '나쯔메',
 '내러티브',
 '내러티브와',
 '네덜란드령',
 '네비스가',
 '네비스란',
 '네비스와',
 '네비스의',
 '놋',
 '느릿한',
 '다흐블라트',
 '데상브르',
 '도스또예프스끼는',
 '도스토옙스키에',
 '뒤쫒아가게',
 '드레퓌스를',
 '똘레도의',
 '라쁠라따',
 '라스',
 '러브크래프트와',
 '러브크래프트의',
 '럭셔리하고',
 '레시페에',
 '레트라스',
 '레퓌블리크',
 '렉퇴르',
 '로뻬스',
 '로사스',
 '로사스의',
 '로스켈러스',
 '로페',
 '뢸이',
 '루페를',
 '리꼬쉐',
 '리브라르테',
 '리스펙트로의',
 '리오델라쁠라따',
 '마르께스',
 '말세르반떼스와',
 '말콤',
 '맙소',
 '매튜',
 '메스트르는',
 '메스트르의',
 '멕스',
 '무뇨스',
 '미랄례스는',
 '미랄례스의',
 '미이챠에게',
 '바렛은',
 '발스가',
 '발스를',
 '발스의',
 '벗었다코엘료는',
 '베넹헬리',
 '베뚜스따는',
 '베뚜스따를',
 '베뚜스따의',
 '보엠',
 '부다뻬스뜨의',
 '부스또스',
 '부왕령',
 '부켄뷔름',
 '브라바',
 '브라바에서',
 '브라스',
 '브라울리오',
 '브루나',
 '블라네스에서',
 '블라카만',
 '비블리오',
 '빠스',
 '빠스와',
 '뽀르뚜갈',
 '뽀르뚜갈로',
 '뽀르뚜갈로부터',
 '쁘레시오사는',
 '쁘레시오사에게',
 '쁘레시오사의',
 '쁘로그레

In [73]:
tokens_nf

{}