In [1]:
import pandas as pd

from sklearn.preprocessing import MinMaxScaler, StandardScaler

In [2]:
df_article = pd.read_excel('./kakao-text-data.xlsx', sheet_name='article')
df_community = pd.read_excel('./kakao-text-data.xlsx', sheet_name='community')

In [3]:
df_article = df_article.iloc[::-1].reset_index().drop('index', axis=1)
df_community = df_community.iloc[::-1].reset_index().drop('index', axis=1)

## Drop & Rename Columns

In [4]:
df_article['useful'].unique(), df_article['wow'].unique(), df_article['touched'].unique(), df_article['analytical'].unique(), df_article['recommend'].unique()

(array([0]), array([0]), array([0]), array([0]), array([0]))

In [5]:
df_article = df_article.drop(
    [
        'article_No', 
        'article_id', 
        'press_id', 
        'author', 
        'useful', 
        'wow', 
        'touched', 
        'analytical', 
        'recommend'
    ], 
    axis=1
)
df_article = df_article.rename(columns={'published_datetime': 'Date'})

In [6]:
df_article.head()

Unnamed: 0,title,Date,article
0,대기업집단 신고 온라인으로 가능해진다…'기업집단포털' 개편,2023-01-03 10:14:17,"n공정위 ""업무 효율성 제고""…절차도 간소화개정 공정거래법 시행 반영·이용자 편의성..."
1,“온라인으로 쉽고 편하게 기업집단 신고하세요”,2023-01-03 10:15:01,n[세종=이데일리 강신우 기자] 공정거래위원회는 이용자들의 활발한 참여를 통해 사용...
2,"공정위, 기업집단포털 서비스 개편",2023-01-03 10:18:01,n공정거래위원회는 이용자 참여 중심 기업집단포털 서비스를 개시한다고 3일 밝혔다. ...
3,"기업집단 신고, 온라인으로 쉽고 간편하게… ‘기업집단포털’ 개편",2023-01-03 10:55:03,"기업들이 대기업집단 계열사 변동, 지주회사 설립·전환 등을 온라인으로 편리하게 신고..."
4,고향사랑기부' 직접 해보니…10만원 내고 답례품 떡갈비 3팩,2023-01-03 11:17:35,(서울=연합뉴스) 김윤구 계승현 기자 = 올해 1월1일부터 처음 시행된 '고...


In [7]:
df_community = df_community.drop(['article_no'], axis=1)
df_community = df_community.rename(columns={'body': 'article', 'published_datetime': 'Date'})

In [8]:
df_community.head()

Unnamed: 0,title,Date,article,view,good,bad
0,신저가로 장마감 내일또 얼마나 처내릴까?,2022-10-13 20:25:00,카카오 자체에 대한 평가에서도 좋은 점을 찾아보기는 어렵다다. 우선 카카오의 3분기...,127,1,1
1,버디버디 싸이월드를 봐라,2022-10-13 20:28:00,해외에서 카카오쓴다는거봤노ㅋㅋn카카오는 한계가 명확하다야,124,2,0
2,그쯤봤다ㅡ,2022-10-13 20:30:00,전신에 댓글적는 사람. 다~~~ 못적게 하니...n요즘 카카오 들어가는 사람이 없...,103,0,0
3,카카오 주가 예상,2022-10-13 20:31:00,11월 초 4만 붕괴n12월 말 3만 붕괴nn이후 급등n...n..n.n.n.n.n...,255,1,0
4,그렇게 폭락하고 오늘 하루만에 5%처내린 송장주,2022-10-13 20:33:00,카카사n다음n카카삼 되는건 시간 문제n,143,2,0


In [9]:
df_article.isna().any().any(), df_community.isna().any().any()

(False, False)

## Cleaning Data

### Article

In [10]:
# 제목 전처리
# '[~~~]' 제거

df_article['title'] = df_article['title'].str.replace('\[.*?\]', '')
df_article['title'] = df_article['title'].str.strip()

  df_article['title'] = df_article['title'].str.replace('\[.*?\]', '')


In [11]:
# 본문 전처리
# URL, '[~~~]', ^n, (~~~ 기자) 등 제거

df_article['article'] = df_article['article'].str.replace('\[.*?\]', '')
df_article['article'] = df_article['article'].str.replace('\([0-9]*\)', '')
df_article['article'] = df_article['article'].str.replace('\(.*?기자\)', '')
df_article['article'] = df_article['article'].str.replace('(?:www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b(?:[-a-zA-Z0-9()@:%_\+.~#?&\/=]*)', '')
df_article['article'] = df_article['article'].str.replace('^n', '')
df_article['article'] = df_article['article'].str.replace('n(?![a-zA-Z ])', '')
df_article['article'] = df_article['article'].str.replace('▲', '')
df_article['article'] = df_article['article'].str.replace('... 기자', '')
df_article['article'] = df_article['article'].str.replace('\([A-Z]*?\)', '')
df_article['article'] = df_article['article'].str.replace('\([가-힣:]*?\)', '')
df_article['article'] = df_article['article'].str.replace('\(사진제공*?\)', '')
df_article['article'] = df_article['article'].str.replace('\(사진 제공*?\)', '')
df_article['article'] = df_article['article'].str.replace('\(대표*?\)', '')
df_article['article'] = df_article['article'].str.replace('\([0-9가-힣a-zA-Z ]{,10}\)', '')
df_article['article'] = df_article['article'].str.strip()

  df_article['article'] = df_article['article'].str.replace('\[.*?\]', '')
  df_article['article'] = df_article['article'].str.replace('\([0-9]*\)', '')
  df_article['article'] = df_article['article'].str.replace('\(.*?기자\)', '')
  df_article['article'] = df_article['article'].str.replace('(?:www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b(?:[-a-zA-Z0-9()@:%_\+.~#?&\/=]*)', '')
  df_article['article'] = df_article['article'].str.replace('^n', '')
  df_article['article'] = df_article['article'].str.replace('n(?![a-zA-Z ])', '')
  df_article['article'] = df_article['article'].str.replace('... 기자', '')
  df_article['article'] = df_article['article'].str.replace('\([A-Z]*?\)', '')
  df_article['article'] = df_article['article'].str.replace('\([가-힣:]*?\)', '')
  df_article['article'] = df_article['article'].str.replace('\(사진제공*?\)', '')
  df_article['article'] = df_article['article'].str.replace('\(사진 제공*?\)', '')
  df_article['article'] = df_article['article'].str.replace('\(대표*

### Community
커뮤니티 게시글에 대한 전처리는 답이 안보임.

In [12]:
df_community['title'] = df_community['title'].str.replace('(?:www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b(?:[-a-zA-Z0-9()@:%_\+.~#?&\/=]*)', '')
df_community['title'] = df_community['title'].str.replace('\[.*?\]', '')
df_community['title'] = df_community['title'].str.strip()

  df_community['title'] = df_community['title'].str.replace('(?:www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b(?:[-a-zA-Z0-9()@:%_\+.~#?&\/=]*)', '')
  df_community['title'] = df_community['title'].str.replace('\[.*?\]', '')


In [13]:
df_community['article'] = df_community['article'].str.replace('(?:www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b(?:[-a-zA-Z0-9()@:%_\+.~#?&\/=]*)', '')
df_community['article'] = df_community['article'].str.replace('^n', '')
df_community['article'] = df_community['article'].str.replace('n(?![a-zA-Z ])', '')
df_community['article'] = df_community['article'].str.strip()

  df_community['article'] = df_community['article'].str.replace('(?:www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b(?:[-a-zA-Z0-9()@:%_\+.~#?&\/=]*)', '')
  df_community['article'] = df_community['article'].str.replace('^n', '')
  df_community['article'] = df_community['article'].str.replace('n(?![a-zA-Z ])', '')


## Concating Strings

In [14]:
df_list = [df_article, df_community]

for i, df in enumerate(df_list):
    df['text'] = df['title'].str.cat(df['article'])
    df_list[i] = df.drop(['title', 'article'], axis=1)

In [15]:
df_list[0]

Unnamed: 0,Date,text
0,2023-01-03 10:14:17,"대기업집단 신고 온라인으로 가능해진다…'기업집단포털' 개편공정위 ""업무 효율성 제고..."
1,2023-01-03 10:15:01,“온라인으로 쉽고 편하게 기업집단 신고하세요”공정거래위원회는 이용자들의 활발한 참여...
2,2023-01-03 10:18:01,"공정위, 기업집단포털 서비스 개편공정거래위원회는 이용자 참여 중심 기업집단포털 서비..."
3,2023-01-03 10:55:03,"기업집단 신고, 온라인으로 쉽고 간편하게… ‘기업집단포털’ 개편기업들이 대기업집단 ..."
4,2023-01-03 11:17:35,고향사랑기부' 직접 해보니…10만원 내고 답례품 떡갈비 3팩(서울=연합뉴스) 김윤구...
...,...,...
216,2023-01-06 16:09:03,군산 염불사서 화재…전북문화재는 무사6일 오후 1시 41분쯤 전북 군산의 염불사에서...
217,2023-01-06 18:23:01,"무인기 공방 격화…여 ""북과 내통"" vs 김병주 ""항적만 봐도 알아""북한 무인기의 ..."
218,2023-01-06 18:24:24,"카카오, 보상이라더니…한 달 후 자동 결제 '꼼수'카카오는 지난해 10월 데이터센터..."
219,2023-01-06 19:55:01,"“아이들도 보는데”…‘국민 메신저’ 카카오 먹통 보상, 외설 논란“무슨 동아리도 아..."


In [16]:
for i, df in enumerate(df_list):
    bins = [0, 7.5, 12, 15, 24]
    labels = ['_Closed', '_AM', '_PM', '_Closed']
    period = pd.cut(df['Date'].dt.hour, bins=bins, labels=labels, include_lowest=True, ordered=False)
    period[df['Date'].dt.day_of_week > 4] = '_Closed'
    
    date = df['Date'].dt.date.astype(str)
    df['DayIndex'] = date.str.cat(period)
    df = df.drop('Date', axis=1)
    df = df.set_index('DayIndex')
    df_list[i] = df

df_article, df_community = df_list

In [17]:
df_community.head()

Unnamed: 0_level_0,view,good,bad,text
DayIndex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2022-10-13_Closed,127,1,1,신저가로 장마감 내일또 얼마나 처내릴까?카카오 자체에 대한 평가에서도 좋은 점을 찾...
2022-10-13_Closed,124,2,0,버디버디 싸이월드를 봐라해외에서 카카오쓴다는거봤노ㅋㅋ카카오는 한계가 명확하다야
2022-10-13_Closed,103,0,0,그쯤봤다ㅡ전신에 댓글적는 사람. 다~~~ 못적게 하니...요즘 카카오 들어가는 사...
2022-10-13_Closed,255,1,0,카카오 주가 예상11월 초 4만 붕괴12월 말 3만 붕괴n이후 급등............
2022-10-13_Closed,143,2,0,그렇게 폭락하고 오늘 하루만에 5%처내린 송장주카카사다음카카삼 되는건 시간 문제


## Metric Index

In [18]:
df_community['MetricIndex'] = (df_community['good'] - df_community['bad']) / df_community['view']


In [19]:
df_article.to_excel('kakao-article-preprocessed.xlsx')
df_community.to_excel('kakao-community-preprocessed.xlsx')