# Preprocessing


1. 원본 데이터 정리 (중복 제거, 빈 곳 삭제 등)

In [1]:
import pandas as pd
import emoji

def remove_emojis(text: str) -> str:
    return ''.join(c for c in text if c not in emoji.UNICODE_EMOJI)

df = pd.read_excel('data/yt_comments.xlsx')
df = df.drop_duplicates()
df = df.dropna(how='all',axis=0)

2. Okt를 통한 토큰화

In [2]:
from konlpy.tag import Okt

okt = Okt()

for i in range(len(df)):       
    df.loc[i,'tokenized'] = str(okt.pos(remove_emojis(df.loc[i,'content']), norm=True, stem=True))

df.head()

Unnamed: 0,vid_title,vid_uploader,c_author,content,like,tokenized
0,"'비혼모 출산' 사유리, 💎냉동난자💎까지 공개했던 속사정은? [비행소녀 43회]",MBN Entertainment,MI mi,응원합니다! \n부모같지 않은 쓰레기들보다는 백배 천배 더 훨 낫습니다!!,254,"[('응원', 'Noun'), ('하다', 'Verb'), ('!', 'Punctu..."
1,"'비혼모 출산' 사유리, 💎냉동난자💎까지 공개했던 속사정은? [비행소녀 43회]",MBN Entertainment,문은정,한번 사는 인생...사유리 하고 싶은대로...\n귀중한 아기 얻어서 사랑 많이 주면...,372,"[('한번', 'Noun'), ('살다', 'Verb'), ('인생', 'Noun'..."
2,"'비혼모 출산' 사유리, 💎냉동난자💎까지 공개했던 속사정은? [비행소녀 43회]",MBN Entertainment,Soonoknim,결혼해서 살다가 헤어지는 부부가 얼마나 많은데 그럼 아이들이 얼마나 상처받는데 그것...,202,"[('결혼', 'Noun'), ('하다', 'Verb'), ('살다', 'Verb'..."
3,"'비혼모 출산' 사유리, 💎냉동난자💎까지 공개했던 속사정은? [비행소녀 43회]",MBN Entertainment,릴렉스쪼꼬,나두 남자는 싫은데...애는 낳고싶다...하지만 능력도 능력이지만....애한테 미안...,97,"[('나', 'Noun'), ('두', 'Josa'), ('남자', 'Noun'),..."
4,"'비혼모 출산' 사유리, 💎냉동난자💎까지 공개했던 속사정은? [비행소녀 43회]",MBN Entertainment,하트,난자도 소중히 보물이라 여기는 사유리\n혼자서도 충분히 아이사랑해주고 잘키우겠다 멋...,150,"[('난자', 'Noun'), ('도', 'Josa'), ('소중하다', 'Adje..."


3. 불용어 제거 및 명사, 동사, 부사, 형용사만 추출

In [3]:
import ast

tags = ['Noun', 'Verb', 'Adverb', 'Adjective']
stopwords = ['하다', '없다', '있다', '되다', '아니다', '같다', '이다', '않다', '그렇다']

for i in range(len(df)):
    pos_list = ast.literal_eval(df.loc[i, 'tokenized'])
    
    final = []
    
    for j in range(len(pos_list)):
        if pos_list[j][1] in tags:
            if pos_list[j][0] not in stopwords:
                final.append(pos_list[j][0])
    
    df.loc[i, 'tokenized'] = str(final)

df.to_excel('data/yt_comments_tokenized.xlsx', index = False)

In [4]:
df.head()

Unnamed: 0,vid_title,vid_uploader,c_author,content,like,tokenized
0,"'비혼모 출산' 사유리, 💎냉동난자💎까지 공개했던 속사정은? [비행소녀 43회]",MBN Entertainment,MI mi,응원합니다! \n부모같지 않은 쓰레기들보다는 백배 천배 더 훨 낫습니다!!,254,"['응원', '부모', '쓰레기', '백배', '천배', '더', '훨', '낫다']"
1,"'비혼모 출산' 사유리, 💎냉동난자💎까지 공개했던 속사정은? [비행소녀 43회]",MBN Entertainment,문은정,한번 사는 인생...사유리 하고 싶은대로...\n귀중한 아기 얻어서 사랑 많이 주면...,372,"['한번', '살다', '인생', '사유리', '싶다', '귀중하다', '아기', ..."
2,"'비혼모 출산' 사유리, 💎냉동난자💎까지 공개했던 속사정은? [비행소녀 43회]",MBN Entertainment,Soonoknim,결혼해서 살다가 헤어지는 부부가 얼마나 많은데 그럼 아이들이 얼마나 상처받는데 그것...,202,"['결혼', '살다', '헤어지다', '부부', '얼마나', '많다', '아이', ..."
3,"'비혼모 출산' 사유리, 💎냉동난자💎까지 공개했던 속사정은? [비행소녀 43회]",MBN Entertainment,릴렉스쪼꼬,나두 남자는 싫은데...애는 낳고싶다...하지만 능력도 능력이지만....애한테 미안...,97,"['나', '남자', '싫다', '애', '낳다', '능력', '능력', '애', ..."
4,"'비혼모 출산' 사유리, 💎냉동난자💎까지 공개했던 속사정은? [비행소녀 43회]",MBN Entertainment,하트,난자도 소중히 보물이라 여기는 사유리\n혼자서도 충분히 아이사랑해주고 잘키우겠다 멋...,150,"['난자', '소중하다', '보물', '여기다', '사유리', '혼자', '서도',..."
