## 1. 패키지 로드

In [1]:
import pandas as pd
from konlpy.tag import Okt
from collections import Counter
from tqdm import tqdm_notebook

## 2. 데이터 로드

In [2]:
webtoon_df = pd.read_csv('../text_data/Webtoon.csv')
webtoon_df.head()

Unnamed: 0,Title,Character,Sex,Age,설명
0,폭풍의전학생,주인공,남,10대,최완서를 얼굴에 니킥을 작렬시켜 한방에 보내버리고 정해인을 박치기 한다음에 머리를 ...
1,폭풍의전학생,최완서,남,10대,전 3반짱. 묘한 색깔의 피부[7]와 부서진 콧잔등이 포인트. 전설의 레전드의 최대...
2,폭풍의전학생,김대용,남,10대,1반의 짱을 맡고 있는 녀석이다. 처음엔 무슨 최종보스같은 포스를 내뿜었지만 나중엔...
3,폭풍의전학생,정해인,남,10대,실눈 남자. 서울에서 태어나고 자란 서울 토박이지만 어릴적 본 조폭 영화에서 큰 감...
4,폭풍의전학생,황인규,남,10대,근육질의 남자. 6반의 짱을 맡고 있다. 대체 어떻게 이런 녀석이 다른 반의 짱들과...


## 3. 불용어 지정을 위한 데이터 분석

In [3]:
# Okt 객체 선언
okt = Okt()

In [4]:
# 형태소 토큰화
sentences_tag = []

for sentence in tqdm_notebook(webtoon_df['설명']):
    morph = okt.pos(sentence)
    sentences_tag.append(morph)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for sentence in tqdm_notebook(webtoon_df['설명']):


  0%|          | 0/530 [00:00<?, ?it/s]

In [5]:
# 형용사만 추출
stopwords = []
bucket_list = []

for my_sentence in sentences_tag:
    for word, tag in my_sentence:
        if tag in ['Adjective']:
            if word not in stopwords:
                bucket_list.append(word)

In [6]:
# 불용어 선정을 위한 counter
counts = Counter(bucket_list)
counts.most_common(50)

[('있다', 700),
 ('있는', 468),
 ('같은', 266),
 ('없는', 190),
 ('좋아하는', 143),
 ('그런', 133),
 ('상당히', 128),
 ('아닌', 122),
 ('좋은', 110),
 ('인해', 108),
 ('없다', 107),
 ('이런', 104),
 ('있었다', 97),
 ('아니라', 93),
 ('많은', 85),
 ('있으며', 84),
 ('있지만', 74),
 ('있다는', 74),
 ('의해', 73),
 ('있던', 70),
 ('있다고', 70),
 ('같다', 66),
 ('아니다', 66),
 ('엄청난', 65),
 ('있을', 63),
 ('있고', 60),
 ('굉장히', 57),
 ('어떻게', 56),
 ('없다고', 56),
 ('많다', 55),
 ('완전히', 53),
 ('있었던', 53),
 ('있는데', 53),
 ('의하면', 53),
 ('다르게', 52),
 ('평범한', 52),
 ('어떤', 51),
 ('있어', 46),
 ('당한다', 46),
 ('있어서', 45),
 ('당하는', 44),
 ('비슷한', 42),
 ('아니고', 42),
 ('상당한', 41),
 ('당하고', 41),
 ('없고', 40),
 ('유일하게', 38),
 ('좋지', 37),
 ('강한', 36),
 ('여리는', 36)]

In [7]:
# 불용어 지정
stopwords = ['먼', '그러다', '다를', '있자', '있는줄', '그럼에도', '뻔하다가', '새로','미를', '미에게', '있다', '있는', '같은', '없는', '그런', '상당히', '아닌', '좋은', '인해', '없다', '이런', '있었다', '아니라', '많은', '있으며', '의해', '있다는','가능한', '이런건', '같긴' '있지만', '있던', '있다고', '같다', '아니다', '있을', '있고', '없다고', '굉장히', '어떻게', '많다', '있었던', '의하면','당했', '아무런', '아니였냐', '완전히', '있는데', '다르게', '어떤', '있어', '당한다', '당해', '안된다', '있어서', '당하는', '상당한', '말라', '그래', '당하고', '아니고', '없고', '당했는데', '없기', '없지만', '꼬이기', '그렇지']

## 4. 형용사 추출

In [8]:
total_keyword = [] 
sentences_tag = []

for sentence in tqdm_notebook(webtoon_df['설명']):
    morph = okt.pos(sentence)
    sentences_tag.append(morph)
        
for my_sentence in tqdm_notebook(sentences_tag):
    bucket_list = []
    for word, tag in my_sentence:
        if tag in ['Adjective']:
            if word not in stopwords:
                bucket_list.append(word)
    total_keyword.append(", ".join(bucket_list))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for sentence in tqdm_notebook(webtoon_df['설명']):


  0%|          | 0/530 [00:00<?, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for my_sentence in tqdm_notebook(sentences_tag):


  0%|          | 0/530 [00:00<?, ?it/s]

In [9]:
# 등장인물 별로 추출된 형용사가 담긴 list
total_keyword[:5]

['순전히, 있지만, 엄청난, 태연한, 뛰어난데, 가까운, 약해서, 진정한, 안되지만, 당하며, 아쉽게, 섹시한, 여전한듯',
 '불쌍한, 멀쩡하던, 수많은, 자리는, 평범하다, 좋아하는, 아니며, 없으며, 강한, 아니기, 평정했던, 있었다는, 여전히, 당연한게, 느려서, 그렇다, 비슷하게, 단련해서, 강해졌다고, 안좋다, 변하고, 순하고, 변함, 약한, 약하다고, 강한, 아니, 휩쓸려, 좋아라, 험하다, 약하다고, 약하다고, 있었는지',
 '우세했지만, 비슷하게, 강하기는, 강한, 단련해서, 강해졌다, 친한, 강한, 성장하기',
 '비겁하게, 비슷한듯',
 '있었는지는, 우락부락한, 있듯이, 강하다, 순진하다는, 있었는데, 아닌가, 새로운, 반했었다, 순진했던, 더러운, 친한']

## 5. 형용사 data 병합

In [10]:
webtoon_df['keyword'] = total_keyword
webtoon_df.head(3)

Unnamed: 0,Title,Character,Sex,Age,설명,keyword
0,폭풍의전학생,주인공,남,10대,최완서를 얼굴에 니킥을 작렬시켜 한방에 보내버리고 정해인을 박치기 한다음에 머리를 ...,"순전히, 있지만, 엄청난, 태연한, 뛰어난데, 가까운, 약해서, 진정한, 안되지만,..."
1,폭풍의전학생,최완서,남,10대,전 3반짱. 묘한 색깔의 피부[7]와 부서진 콧잔등이 포인트. 전설의 레전드의 최대...,"불쌍한, 멀쩡하던, 수많은, 자리는, 평범하다, 좋아하는, 아니며, 없으며, 강한,..."
2,폭풍의전학생,김대용,남,10대,1반의 짱을 맡고 있는 녀석이다. 처음엔 무슨 최종보스같은 포스를 내뿜었지만 나중엔...,"우세했지만, 비슷하게, 강하기는, 강한, 단련해서, 강해졌다, 친한, 강한, 성장하기"


## 6. 형용사가 추가된 데이터 프레임 저장

In [11]:
webtoon_df.to_csv('../text_data/webtoon_data_keyword.csv', index=False, encoding='utf-8-sig')