## 1. 패키지 로드

In [29]:
import numpy as np
import pandas as pd
from konlpy.tag import Okt
from collections import Counter
from tqdm import tqdm_notebook

## 2. 데이터 로드

In [3]:
actor_df = pd.read_csv('../text_data/Actor.csv', encoding='utf-8-sig')
actor_df.head(2)

Unnamed: 0,Name,Age,Sex,수상내역,드라마활동,activation_content,사진url,배역내용,"제목, 내용"
0,감우성,52,남,"['2018 SBS 연기대상 대상', '2018 SBS 연기대상 베스트 커플상', ...",['바람이 분다/주연/권도훈 역/https://search.naver.com/sea...,"MBC 20기 공채 탤런트로 배우 생활을 시작했으며 동기로 한석규, 박철, 차광수,...",https://search.pstatic.net/common?type=b&size=...,['첫사랑 수진과 열렬한 연애 끝에 결혼까지 성공했다. 남에게 피해 주지 않고 올곧...,"감우성 닮으면 잘생긴거냐?,내 친구 미용실가서 누나가 감우성 닮았다는데 잘생긴거냐 ..."
1,강경준,39,남,"['2017 MBC 연기대상 연속극부문 남자 우수연기상', '2004 MBC 방송연...",['별별 며느리/주연/최한주 역/https://search.naver.com/sea...,"초등학교 시절에는 야구, 중학교 시절에는 농구선수였었다. 농구를 소재로 한 드라마 ...",https://search.pstatic.net/common?type=b&size=...,"['흙수저? 아니, 몸짱 얼짱 마음까지 짱인 태권도장 사범. 얼굴만 봐도 신뢰감이 ...","강경준 -> 강 산 -> 강승호네,이름 두번이나 바꿨구나\n그러고보니 남다 딱 장신..."


## 3. 불용어 선정을 위한 데이터 전처리 및 분석

### 1) 데이터 전처리

In [11]:
# 한글 외에 모두 제거
actor_df['activation_content'] = actor_df['activation_content'].str.replace('[^가-힣 ]', '')
actor_df['배역내용'] = actor_df['배역내용'].str.replace('[^가-힣 ]', '')
actor_df['제목, 내용'] = actor_df['제목, 내용'].str.replace('[^가-힣 ]', '')

  actor_df['activation_content'] = actor_df['activation_content'].str.replace('[^가-힣 ]', '')
  actor_df['배역내용'] = actor_df['배역내용'].str.replace('[^가-힣 ]', '')
  actor_df['제목, 내용'] = actor_df['제목, 내용'].str.replace('[^가-힣 ]', '')


In [4]:
# Okt 객체 선언
okt = Okt()

In [6]:
# 토큰화된 morphs를 각각 담을 list
activation_tag = []
act_tag = []
community_tag = []

In [12]:
# 형태소 토큰화
for activation in tqdm_notebook(actor_df['activation_content']):
    morph = okt.pos(activation)
    activation_tag.append(morph)

for act in tqdm_notebook(actor_df['배역내용']):
    morph = okt.pos(act)
    act_tag.append(morph)
    
for community in tqdm_notebook(actor_df['제목, 내용']):
    morph = okt.pos(community)
    community_tag.append(morph)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for activation in tqdm_notebook(actor_df['activation_content']):


  0%|          | 0/252 [00:00<?, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for act in tqdm_notebook(actor_df['배역내용']):


  0%|          | 0/252 [00:00<?, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for community in tqdm_notebook(actor_df['제목, 내용']):


  0%|          | 0/252 [00:00<?, ?it/s]

In [13]:
# 형용사만 추출
stopwords = []
activation_bucket_list = []
act_bucket_list = []
community_bucket_list = []

for activation in activation_tag:
    for word, tag in activation:
        if tag in ['Adjective']:
            if word not in stopwords:
                activation_bucket_list.append(word)

for act in act_tag:
    for word, tag in act:
        if tag in ['Adjective']:
            if word not in stopwords:
                act_bucket_list.append(word)
                
for community in community_tag:
    for word, tag in community:
        if tag in ['Adjective']:
            if word not in stopwords:
                community_bucket_list.append(word)

### 2) 불용어 선정

In [14]:
# 불용어 선정을 위한 counter
activation_counts = Counter(activation_bucket_list)
activation_counts.most_common(50)

[('있다', 281),
 ('있는', 183),
 ('같은', 143),
 ('많은', 110),
 ('좋은', 87),
 ('없는', 79),
 ('다양한', 55),
 ('아니라', 54),
 ('있었다', 48),
 ('인해', 43),
 ('젊은', 41),
 ('있는데', 40),
 ('상당히', 40),
 ('꾸준히', 39),
 ('아닌', 38),
 ('수상했다', 35),
 ('많다', 32),
 ('희', 30),
 ('있을', 29),
 ('이런', 29),
 ('그런', 28),
 ('높은', 28),
 ('유명한', 27),
 ('굉장히', 27),
 ('있다고', 26),
 ('있고', 26),
 ('있으며', 25),
 ('새로운', 24),
 ('작은', 24),
 ('강렬한', 23),
 ('엄청난', 22),
 ('없다', 22),
 ('어떤', 22),
 ('뛰어난', 22),
 ('있어', 22),
 ('그러다', 21),
 ('있던', 20),
 ('상당한', 19),
 ('깊은', 19),
 ('있었는데', 18),
 ('완전히', 18),
 ('없고', 18),
 ('미', 17),
 ('있었던', 17),
 ('많았다', 16),
 ('강한', 16),
 ('수상하였다', 15),
 ('중요한', 15),
 ('있어서', 15),
 ('수많은', 15)]

In [15]:
act_counts = Counter(act_bucket_list)
act_counts.most_common(50)

[('있다', 224),
 ('있는', 156),
 ('없는', 148),
 ('같은', 116),
 ('없다', 91),
 ('좋은', 42),
 ('그런', 41),
 ('많은', 39),
 ('없고', 39),
 ('많고', 31),
 ('뛰어난', 30),
 ('완벽한', 27),
 ('넘치는', 27),
 ('강한', 26),
 ('깊은', 25),
 ('유일한', 25),
 ('젊은', 25),
 ('있지만', 25),
 ('어떤', 24),
 ('작은', 24),
 ('있고', 24),
 ('아니라', 23),
 ('따뜻한', 22),
 ('없었다', 22),
 ('있었다', 21),
 ('미', 20),
 ('희', 19),
 ('화려한', 19),
 ('아닌', 18),
 ('아픈', 18),
 ('가난한', 17),
 ('있을', 17),
 ('평범한', 17),
 ('아름다운', 16),
 ('많다', 16),
 ('인해', 16),
 ('없어', 15),
 ('아니다', 14),
 ('아니', 14),
 ('좋고', 14),
 ('미친', 14),
 ('있다는', 14),
 ('있어', 14),
 ('이런', 13),
 ('없을', 13),
 ('있던', 13),
 ('착하고', 13),
 ('우아한', 13),
 ('나쁜', 12),
 ('새로운', 12)]

In [16]:
community_counts = Counter(community_bucket_list)
community_counts.most_common(50)

[('같은', 887),
 ('같음', 690),
 ('같은데', 649),
 ('있는', 612),
 ('아님', 511),
 ('입니다', 437),
 ('이런', 422),
 ('없는', 384),
 ('있음', 382),
 ('같아', 358),
 ('어떻게', 345),
 ('좋은', 339),
 ('아니라', 294),
 ('아니', 284),
 ('있다', 281),
 ('좋아', 279),
 ('있는데', 274),
 ('있어', 261),
 ('아니고', 250),
 ('솔직히', 241),
 ('좋다', 239),
 ('그런', 232),
 ('없음', 229),
 ('있고', 214),
 ('미', 208),
 ('아닌', 208),
 ('좋겠다', 207),
 ('같다', 192),
 ('그럼', 190),
 ('어떤', 187),
 ('좋아하는', 184),
 ('많은', 178),
 ('희', 175),
 ('아니면', 173),
 ('같아서', 172),
 ('없고', 169),
 ('미친', 167),
 ('같', 164),
 ('좋고', 163),
 ('좋음', 155),
 ('없는데', 153),
 ('좋', 151),
 ('같고', 149),
 ('아니냐', 145),
 ('없어', 140),
 ('없다', 138),
 ('없어서', 138),
 ('아닌데', 132),
 ('있었는데', 131),
 ('있어서', 129)]

In [19]:
# 상위 50개를 모두 불용어로 지정
for stopword, _ in activation_counts.most_common(50):
    stopwords.append(stopword)

for stopword, _ in act_counts.most_common(50):
    stopwords.append(stopword)

for stopword, _ in community_counts.most_common(50):
    stopwords.append(stopword)

In [20]:
# 선정된 불용어 확인
stopwords = set(stopwords) # 중복 제거
stopwords

{'가난한',
 '강렬한',
 '강한',
 '같',
 '같고',
 '같다',
 '같아',
 '같아서',
 '같은',
 '같은데',
 '같음',
 '굉장히',
 '그러다',
 '그런',
 '그럼',
 '깊은',
 '꾸준히',
 '나쁜',
 '넘치는',
 '높은',
 '다양한',
 '따뜻한',
 '뛰어난',
 '많고',
 '많다',
 '많았다',
 '많은',
 '미',
 '미친',
 '상당한',
 '상당히',
 '새로운',
 '솔직히',
 '수많은',
 '수상하였다',
 '수상했다',
 '아니',
 '아니고',
 '아니냐',
 '아니다',
 '아니라',
 '아니면',
 '아닌',
 '아닌데',
 '아님',
 '아름다운',
 '아픈',
 '어떤',
 '어떻게',
 '엄청난',
 '없고',
 '없는',
 '없는데',
 '없다',
 '없어',
 '없어서',
 '없었다',
 '없을',
 '없음',
 '완벽한',
 '완전히',
 '우아한',
 '유명한',
 '유일한',
 '이런',
 '인해',
 '입니다',
 '있고',
 '있는',
 '있는데',
 '있다',
 '있다고',
 '있다는',
 '있던',
 '있어',
 '있어서',
 '있었는데',
 '있었다',
 '있었던',
 '있으며',
 '있을',
 '있음',
 '있지만',
 '작은',
 '젊은',
 '좋',
 '좋겠다',
 '좋고',
 '좋다',
 '좋아',
 '좋아하는',
 '좋은',
 '좋음',
 '중요한',
 '착하고',
 '평범한',
 '화려한',
 '희'}

## 4. 형용사 추출 (불용어 제외)

In [36]:
# 형용사만 추출
activation_total_keywords = []
act_total_keywords = []
community_total_keywords = []
activation_bucket_list = []
act_bucket_list = []
community_bucket_list = []

for activation in activation_tag:
    for word, tag in activation:
        if tag in ['Adjective']:
            if word not in stopwords:
                activation_bucket_list.append(word)
    activation_bucket_list = list(set(activation_bucket_list))
    activation_total_keywords.append(", ".join(activation_bucket_list))

for act in act_tag:
    for word, tag in act:
        if tag in ['Adjective']:
            if word not in stopwords:
                act_bucket_list.append(word)
    act_bucket_list = list(set(act_bucket_list))
    act_total_keywords.append(", ".join(act_bucket_list))
                
for community in community_tag:
    for word, tag in community:
        if tag in ['Adjective']:
            if word not in stopwords:
                community_bucket_list.append(word)
    community_bucket_list = list(set(community_bucket_list))
    community_total_keywords.append(", ".join(community_bucket_list))

In [39]:
# 키워드 합치기
total_keywords = []

for i in range(len(activation_total_keywords)):
    add_list = activation_total_keywords[i] + act_total_keywords[i] + community_total_keywords[i]
    total_keywords.append(add_list)

In [42]:
# 키워드 중복제거
duplicate_total_keywords = []

for i in range(len(total_keywords)):
    tmp = total_keywords[i].split(', ')
    tmp = list(set(tmp))
    duplicate_total_keywords.append(', '.join(tmp))

## 5. 데이터 프레임에 합치기

In [45]:
actor_df['keywords'] = duplicate_total_keywords
actor_df.head(2)

Unnamed: 0,Name,Age,Sex,수상내역,드라마활동,activation_content,사진url,배역내용,"제목, 내용",keywords
0,감우성,52,남,"['2018 SBS 연기대상 대상', '2018 SBS 연기대상 베스트 커플상', ...",['바람이 분다/주연/권도훈 역/https://search.naver.com/sea...,기 공채 탤런트로 배우 생활을 시작했으며 동기로 한석규 박철 차광수 곽진영 김소이...,https://search.pstatic.net/common?type=b&size=...,첫사랑 수진과 열렬한 연애 끝에 결혼까지 성공했다 남에게 피해 주지 않고 올곧고 바...,감우성 닮으면 잘생긴거냐내 친구 미용실가서 누나가 감우성 닮았다는데 잘생긴거냐 정우...,"괜찮은, 예민함이, 있었네요, 작음, 그러겟지, 자유롭게, 당해서, 있나, 비슷해,..."
1,강경준,39,남,"['2017 MBC 연기대상 연속극부문 남자 우수연기상', '2004 MBC 방송연...",['별별 며느리/주연/최한주 역/https://search.naver.com/sea...,초등학교 시절에는 야구 중학교 시절에는 농구선수였었다 농구를 소재로 한 드라마 마지...,https://search.pstatic.net/common?type=b&size=...,흙수저 아니 몸짱 얼짱 마음까지 짱인 태권도장 사범 얼굴만 봐도 신뢰감이 뚝뚝 묻어...,강경준 강 산 강승호네이름 두번이나 바꿨구나그러고보니 남다 딱 장신영강경준이랑 ...,"이뻐, 괜찮은, 예민함이, 있었네요, 그러면서, 쿨한, 작음, 그러겟지, 자유롭게,..."


## 6. 데이터 프레임 저장하기

In [47]:
actor_df.to_csv('../text_data/actor_data_keyword.csv', encoding='utf-8-sig', index=False)