In [1]:
import numpy as np
import pandas as pd
import csv
import re
import math

### Preprocessing

In [2]:
#patterns for all the other unicodes except for korean,english,and number
en_ko_pattern = re.compile("["
        u"\U00000021-\U0000002F"
        u"\U0000003A-\U00000040"
        u"\U0000005B-\U00000060"
        u"\U0000007B-\U000010ff"
        u"\U00001113-\U00001160"
        u"\U00001176-\U000011A7"
        u"\U000011C3-\U00003130"
        u"\U0000314f-\U0000ABFF"
        u"\U0000D7A4-\U0010FFFF"
                           "]+", flags=re.UNICODE)

In [3]:
#replace meaningless unicodes, hash, and html tags
insta_contents = []
with open('jeju.csv','r') as f:
    csv_reader = csv.reader(f)
    next(csv_reader)
    for line in csv_reader:
        content = line[2].replace('#',' ').replace('&nbsp;',' ').replace('&gt;',' ').replace('&lt;',' ')
        content = en_ko_pattern.sub(r' ',content)
        insta_contents.append(content)

In [4]:
#remove duplicates
insta_contents = list(dict.fromkeys(insta_contents))

In [5]:
with open('jeju_contents.csv','w') as f:
    for content in insta_contents:
        f.write(content+'\n')

### Tagging
따로 광고인지 아닌지 태그가 되어있지 않은 데이터이기 때문에 트레이닝을 위해서 수작업으로 태깅을 했다.

In [2]:
ads, non_ads, semi_ads, reviews = [],[],[],[]
with open('jeju_contents_tags.csv','r') as f:
    csv_reader = csv.reader(f)
    for line in csv_reader:
        if(line[1] == '0'):
            non_ads.append(line[0])
        elif(line[1] == '1'):
            ads.append(line[0])
        elif(line[1] == '2'):
            semi_ads.append(line[0])

In [10]:
#제주 여행과 관련이 없는 광고 - 주로 소재지만 제주인 경우 (ex. 제주 타투가게, 제주 옷가게, 제주 미용실...)
len(ads), ads[:3]

(86,
 ['사이즈가자꾸깨지는탓에 바로픽업이 힘들어져서 속상하네용  내일또 신상입고되니 많이찾아와주세요    2헨느  제주옷가게  아동의류  아동의류쇼핑몰  구남동옷가게  2reine  jeju  등원룩  문센룩  아동데일리룩  쥬니어의류쇼핑몰  링크클릭 ',
  '오늘 하루도 감사드려요 신상하러 못올라갔지만  거래처신상보면서 신상추가 하고있어요  사진으로만 보고 주문하다보니  핀이랑 머리띠가 좀많이들어왔지만 다 이쁘다고 해주셔서 감사해요 ',
  ' 우리아이 생일 키즈홈파티 대여 오픈 해요  첫번째 컨셉인 다이너소어파티 입니다  집에서도 다양한 컨셉으로 파티를 즐기실수 있도록준비해 드릴꺼에요  다빌리죠 상호명에 맞게 첫컨셉 잡은대로 찾아가는 중이에요  부족하지만 항상 예쁘다 해주셔서 감사해요   jeju 제주 다빌리죠 Dabillijyo 홈파티 제주카페 제주여행 제주파티 제주공항근처 제주돌스냅 제주웨딩스냅 제주파티샵 제주맘 제주아이 제주에서 제주한달살기 제주아기 제주라이프 제주커플 hbd 제주프로포즈 레터링풍선  제주풍선 제주파티소품  키즈파티 제주육아 헬륨풍선 꽃풍선 제주꽃풍선 제주이벤트'])

In [11]:
#광고가 아닌 모든 게시글 (ex. 여행 후기, 일상, 투어)
len(non_ads), non_ads[:3]

(569,
 ['누워서 한손으로  코야 잡아보기  부시럭부시럭  소리나서 놀랐더니유쨔니가 코야 만지며 놀고있더라구요 일어나면 조용히 놀고 있는 쪼꼬미틴구 ',
  ' 로즈데이 챙겨주는   ',
  ' Social Distancing   So In Gook Theme Park  2019 05 12 reminiscing  Jeju  tbt'])

In [12]:
#제주 여행과 관련이 있는 광고 (ex. 민박, 게스트하우스, 스쿠버다이빙, 카페)
len(semi_ads), semi_ads[:3]

(127,
 ['다이빙   뒷풀이 또한 완벽했던 우리들   다음주에 또 만난다는건 안비밀   율강사가 육지로 날아갈게요    제주 서귀포시 칠십리로 490 01079170079  01038074475 Kakaotalk  yul0079 율랜드   율강사  현강사  체험다이빙  율랜드스쿠버  oceantag  스쿠버교육  펀다이빙  보트다이빙  야간다이빙  섶섬  제주율랜드  jeju  jejuisland  제지기오름  보목포구  제주도가볼만한곳  서귀포스쿠버  오픈워터교육  제주도스킨스쿠버  제주도스쿠버다이빙  서귀포스쿠버교육 오산다이브리조트  신세계다이버  오산리이장님  밥식혜감사합니다',
  ' jeju  applemango  flake  빙수먹기  좋은날날씨가 습해서 빙수가 땡기는날100  제주 애플망고빙수 드시러 오세요  제주망고 애플망고 jeju mangoflake  villadeato     제주빙수 빙수스타그램 빙수맛집 빙수그램 맛있는 망고 달코롬 망고빙수 제주도 서귀포시 이중섭거리 올레시장 빙수   망빙 제주는 여름날씨 망고스무디 mango 이중섭거리 제주애플망고빙수',
  '게스트분들이랑 제주 포토스팟 갯깍주상절리대 다녀왔어요       소규모파티게하 레스고 소등없는게하 모두동의하에 노래방  보드게임  술게임 사정없이 하는게하 이렇게 놀다가 해뜨고 자도 난모룸  실제로 여행 못하신분들 많이봄  물론 써니도 하루가 사라지는 마법 혼자와도 우리는 위아더월드 귀찮을 정도로 말걸음 조식 원하시면해드림 써니표샌드위치와 갓뚜기라면중 택 1 제주도 요지 애월과 협재사이에 있는 게하 곽지해수욕장5분  협재 애월10분 만능버스 202번 타는 정류장 집앞 2분거리에 있음 공항에서 서귀포까지 다감 2박하시면 피크닉세트 빌려드림 번거롭게 짐챙길필요없이 써니가 다 준비해드림  서핑  패들보드 바다놀이기구등 원하시면 시중가보다 저렴하게 연결해드림 같이가자고 하시면 못이기는척 같이가드림 쥔장이 요리 조금 한다고하니 재료 사오시면 다 해드림 맛보장은 못ㅋ함ㅋ 나만맛있음 야외

### Tokenizing

In [3]:
from konlpy.tag import Okt

okt = Okt()

In [4]:
#마지막 5개씩은 테스트 데이터셋
ads_LCK, ads_Lth3 = [],[]
for i in range(80):
    for j in ads[i].split():
        ads_LCK+= okt.morphs(j)
        
for i in range(len(ads_LCK)):
    if len(ads_LCK[i]) >1:
        ads_Lth3.append(ads_LCK[i])
        
        
non_ads_LCK, non_ads_Lth3 = [],[]
for i in range(175):
    for j in non_ads[i].split():
        non_ads_LCK+= okt.morphs(j)
        
for i in range(len(non_ads_LCK)):
    if len(non_ads_LCK[i]) >1:
        non_ads_Lth3.append(non_ads_LCK[i])
        
        
semi_ads_LCK, semi_ads_Lth3 = [],[]
for i in range(60):
    for j in semi_ads[i].split():
        semi_ads_LCK+= okt.morphs(j)
        
for i in range(len(semi_ads_LCK)):
    if len(semi_ads_LCK[i]) >1:
        semi_ads_Lth3.append(semi_ads_LCK[i])

In [14]:
ads_Lth3[:6],non_ads_Lth3[:6],semi_ads_Lth3[:6]

(['사이즈', '자꾸', '깨지는', '바로', '픽업', '힘들어져서'],
 ['누워서', '한손으로', '코야', '잡아보기', '부시럭부시럭', '리나'],
 ['다이빙', '풀이', '또한', '완벽했던', '우리', '다음주'])

In [15]:
len(ads_Lth3),len(non_ads_Lth3),len(semi_ads_Lth3)

(3663, 3703, 3846)

### Probability

각 토큰의 확률을 구해보았다. 

In [16]:
ads_LCKF = pd.DataFrame(ads_Lth3, columns=['token'])
ads_c = pd.DataFrame(ads_LCKF.groupby(['token'])['token'].count()).rename(columns = {'token':'count'}).reset_index()
ads_c['add one'] = ads_c['count']+1
ads_c['Prob'] = ads_c['add one']/ads_c['add one'].sum()
ads_c['LN(P)'] = np.log(ads_c['Prob'])

non_ads_LCKF = pd.DataFrame(non_ads_Lth3, columns=['token'])
non_ads_c = pd.DataFrame(non_ads_LCKF.groupby(['token'])['token'].count()).rename(columns = {'token':'count'}).reset_index()
non_ads_c['add one'] = non_ads_c['count']+1
non_ads_c['Prob'] = non_ads_c['add one']/non_ads_c['add one'].sum()
non_ads_c['LN(P)'] = np.log(non_ads_c['Prob'])

semi_ads_LCKF = pd.DataFrame(semi_ads_Lth3, columns=['token'])
semi_ads_c = pd.DataFrame(semi_ads_LCKF.groupby(['token'])['token'].count()).rename(columns = {'token':'count'}).reset_index()
semi_ads_c['add one'] = semi_ads_c['count']+1
semi_ads_c['Prob'] = semi_ads_c['add one']/semi_ads_c['add one'].sum()
semi_ads_c['LN(P)'] = np.log(semi_ads_c['Prob'])

아래는 각 묶음별로 가장 출현빈도가 높은 단어들을 5개씩 나타낸 결과이다.
해시태그 jeju로 검색한 결과이기 때문에 제주, jeju, 제주도 등의 단어가 세 묶음 모두에게서 자주 발견됨을 관찰할 수 있다.
하지만 공통적으로 많이 나타나는 토큰은 세 집단을 구별하는데 큰 의미가 없기 때문에 이를 제거하여 동일한 과정을 다시 수행해보았다.

In [17]:
ads_c.sort_values(by=['add one'], ascending=False).iloc[:5]

Unnamed: 0,token,count,add one,Prob,LN(P)
1656,제주,138,139,0.025063,-3.686358
1120,네일,56,57,0.010278,-4.577781
288,jeju,54,55,0.009917,-4.613499
1657,제주도,46,47,0.008475,-4.770685
354,ng,38,39,0.007032,-4.957271


In [18]:
non_ads_c.sort_values(by=['add one'], ascending=False).iloc[:5]

Unnamed: 0,token,count,add one,Prob,LN(P)
1860,제주,117,118,0.020268,-3.898714
304,jeju,98,99,0.017004,-4.074279
1654,여행,75,76,0.013054,-4.338666
1861,제주도,68,69,0.011852,-4.435293
1084,그램,48,49,0.008416,-4.777579


In [19]:
semi_ads_c.sort_values(by=['add one'], ascending=False).iloc[:5]

Unnamed: 0,token,count,add one,Prob,LN(P)
1512,제주,207,208,0.037057,-3.295303
1039,맛집,154,155,0.027614,-3.589415
1513,제주도,67,68,0.012115,-4.413333
1293,애월,57,58,0.010333,-4.572398
166,jeju,43,44,0.007839,-4.848651


### Probability - removed common words

In [5]:
common_words = ["제주","제주도","jeju","제주"]

new_ads_Lth3,new_non_ads_Lth3,new_semi_ads_Lth3 = [],[],[]
for i in ads_Lth3:
    if i not in common_words:
        new_ads_Lth3.append(i)
        
for i in non_ads_Lth3:
    if i not in common_words:
        new_non_ads_Lth3.append(i)
        
for i in semi_ads_Lth3:
    if i not in common_words:
        new_semi_ads_Lth3.append(i)

In [21]:
len(ads_Lth3),len(new_ads_Lth3)

(3663, 3409)

In [22]:
len(non_ads_Lth3),len(new_non_ads_Lth3)

(3703, 3401)

In [23]:
len(semi_ads_Lth3),len(new_semi_ads_Lth3)

(3846, 3519)

In [6]:
ads_LCKF = pd.DataFrame(new_ads_Lth3, columns=['token'])
ads_c = pd.DataFrame(ads_LCKF.groupby(['token'])['token'].count()).rename(columns = {'token':'count'}).reset_index()
ads_c['add one'] = ads_c['count']+1
ads_c['Prob'] = ads_c['add one']/ads_c['add one'].sum()
ads_c['LN(P)'] = np.log(ads_c['Prob'])

non_ads_LCKF = pd.DataFrame(new_non_ads_Lth3, columns=['token'])
non_ads_c = pd.DataFrame(non_ads_LCKF.groupby(['token'])['token'].count()).rename(columns = {'token':'count'}).reset_index()
non_ads_c['add one'] = non_ads_c['count']+1
non_ads_c['Prob'] = non_ads_c['add one']/non_ads_c['add one'].sum()
non_ads_c['LN(P)'] = np.log(non_ads_c['Prob'])

semi_ads_LCKF = pd.DataFrame(new_semi_ads_Lth3, columns=['token'])
semi_ads_c = pd.DataFrame(semi_ads_LCKF.groupby(['token'])['token'].count()).rename(columns = {'token':'count'}).reset_index()
semi_ads_c['add one'] = semi_ads_c['count']+1
semi_ads_c['Prob'] = semi_ads_c['add one']/semi_ads_c['add one'].sum()
semi_ads_c['LN(P)'] = np.log(semi_ads_c['Prob'])

In [25]:
ads_c.sort_values(by=['add one'], ascending=False).iloc[:5]

Unnamed: 0,token,count,add one,Prob,LN(P)
1118,네일,56,57,0.010779,-4.530144
353,ng,38,39,0.007375,-4.909634
1720,청년,31,32,0.006051,-5.107459
1411,스냅,31,32,0.006051,-5.107459
1543,웨딩,23,24,0.004539,-5.395142


In [26]:
non_ads_c.sort_values(by=['add one'], ascending=False).iloc[:5]

Unnamed: 0,token,count,add one,Prob,LN(P)
1652,여행,75,76,0.013778,-4.284675
1082,그램,48,49,0.008883,-4.723588
1515,스타,39,40,0.007252,-4.926529
1795,일상,31,32,0.005801,-5.149672
197,daily,26,27,0.004895,-5.319571


In [7]:
semi_ads_c.sort_values(by=['add one'], ascending=False).iloc[:5]

Unnamed: 0,token,count,add one,Prob,LN(P)
1037,맛집,154,155,0.029345,-3.528635
1291,애월,57,58,0.010981,-4.511617
1340,여행,38,39,0.007384,-4.908498
1606,카페,29,30,0.00568,-5.170863
1590,추천,29,30,0.00568,-5.170863


### Test

In [8]:
# Test_data = ads[-5:]+non_ads[-5:]+semi_ads[-5:]
with open('jeju_contents_test.csv','r') as f:
    Test_data = f.readlines()

Test_data_split = []
for i in range(len(Test_data)):
    tmp=[]
    for j in Test_data[i].split():
        tmp += okt.morphs(j)
    Test_data_split.append(tmp)

In [9]:
ads_prob = [[] for cols in range(len(Test_data_split))]
for i in range(len(Test_data_split)):
    for j in range(len(Test_data_split[i])):
        if len(Test_data_split[i][j]) > 1 and j not in common_words:
            if(ads_c[ads_c['token'].isin([Test_data_split[i][j]])]['LN(P)'].empty):
                ads_prob[i].append(math.log(1/ads_c['add one'].sum()))
            else:
                ads_prob[i].append(ads_c[ads_c['token'].isin([Test_data_split[i][j]])]['LN(P)'].values[0])
        else:
            ads_prob[i].append(0.0)

non_ads_prob = [[] for cols in range(len(Test_data_split))]
for i in range(len(Test_data_split)):
    for j in range(len(Test_data_split[i])):
        if len(Test_data_split[i][j]) > 1:
            if(non_ads_c[non_ads_c['token'].isin([Test_data_split[i][j]])]['LN(P)'].empty):
                non_ads_prob[i].append(math.log(1/non_ads_c['add one'].sum()))
            else:
                non_ads_prob[i].append(non_ads_c[non_ads_c['token'].isin([Test_data_split[i][j]])]['LN(P)'].values[0])
        else:
            non_ads_prob[i].append(0.0)
            
semi_ads_prob = [[] for cols in range(len(Test_data_split))]
for i in range(len(Test_data_split)):
    for j in range(len(Test_data_split[i])):
        if len(Test_data_split[i][j]) > 1:
            if(semi_ads_c[semi_ads_c['token'].isin([Test_data_split[i][j]])]['LN(P)'].empty):
                semi_ads_prob[i].append(math.log(1/semi_ads_c['add one'].sum()))
            else:
                semi_ads_prob[i].append(semi_ads_c[semi_ads_c['token'].isin([Test_data_split[i][j]])]['LN(P)'].values[0])
        else:
            semi_ads_prob[i].append(0.0)

### Result

In [33]:
result = []
t_ads, t_nonads, t_semiads = [],[],[]
for i in range(len(ads_prob)):
    p_ads,p_non_ads,p_semi_ads = np.sum(ads_prob[i]),np.sum(non_ads_prob[i]),np.sum(semi_ads_prob[i])
#     print(p_ads,p_non_ads,p_semi_ads)
    p_max = max([p_ads,p_non_ads,p_semi_ads])
    if(p_max == p_ads):
        t_ads.append(Test_data[i])
#         print("Ads")
    elif(p_max == p_non_ads):
        t_nonads.append(Test_data[i])
#         print("Non-ads")
    else:
        t_semiads.append(Test_data[i])
#         print("Semi-ads")

In [34]:
t_ads

[' 아이린여성복 연청이랑 코디하니 너무 이쁘넹  청바지도 신상  모리CD   베이지 801PT   연청   S M L 문의는 언제든지 다이렉트 amp 카톡 gogo 카톡   irene8478  제주아동복 아동복매장 제주시청아동복 등원룩 제주맘 아동복코디 여름신상 제주아이린 제주 제주도 jeju 제주옷가게 제주도옷가게 제주시청옷가게 데일리 데일리룩 옷스타그램 신상 일상 소통 팔로우 인친 daily dailylook\n',
 ' filmphotography\n',
 '  책 받았어요    어쨌든 사랑하기로 했다 저자   권희경  상담심리전문가  27년차 심리상담가의 노하우가 담긴 연애와  결혼의 관계   실제 상담 사례를 들고 분석하고 전문가적 의견을 더하는 형식입니다  연인  부부간의 갈등  해결을 다루고 있는 책이예요  지금 사랑때문에 고민하시는 분이나 앞으로 사랑하고 싶은 분들  읽어 보심 좋을듯요  저도 꼼꼼하게 잘  읽어보겠숩니당  제주라 책이 늦게 도착하네요   슬퍼요  어쨌든사랑  연애  결혼  심리학  고민상담   받았다그램   인증샷 5월신간  홍익출판사  hongikbook  홍익서포터즈6기  신간서평   손글씨서포터즈6기  홍익출판사서포터즈6기   서포터즈 캘리그라피  calligraphy  handwriting  jeju  제주영문글씨  제주캘리모임  캘리페포니  callipeponi  한국캘리그라피작가연합  kcau 은주캘리in제주  은주글씨  은주캘리   20200521   changbi insta\n',
 'innisfree x PAZZO     C   innisfree PAZZO 100     tag 2 3 T

In [35]:
t_nonads

['남는시간  981파크게임장  오락실  981파크오락실  제주도  981  사격  야구  서바이벌  여행  여행에미치다  여행에미치다 제주 jeju  jejuisland  일상  선팔하면맞팔  먹스타그램  ootd  instadaily  instalike  instagood  insta  instagram  life  followforfollowback  fff  following  jeju  jejuisland  jejudo\n',
 '펜선을 뒤에 끄적대보기 좀 더 자연스러울때까지 연습 kaeru jeju 인친님  사진 허락도 없이 죄송합니다  제주 협재해수욕장  비양도 jeju  penandwash 어반포레스트울산  내맘대로  어반스케치 기록 일상기록 일기  펜 어반스케치  어반스케쳐스울산  스케치   여행스케치 울산남구  남해 유채꽃 spring  sketch  diary  drawing  usk  lamy  urbansketch urbansketchers  traveldrawing  pendrawing  pen usk lineandwash\n',
 ' 20 100 100 w 9 1             100               jeju  jejuisland  trip  제주도  제주            korea\n',
 '야외촬영 바다는 참 이뻤지만 너무나 지쳤다  today  jeju  jejuisland  제주도  제주도민 소통  insta  instasize  instababy  instapic  instadaily  instaphoto  instagood  육아  육아소통  연년생  자매스타그램  육아소통  육아스토리  인스타베이비  애스타그램  인스타그램  인스타베이비  소통  인친  2020년\n',
 '즉흥으로

In [36]:
t_semiads

['엄마 그거무냐 혼자묵을꼬냐  \n',
 ' 한우스지입고완료 스지수육 오늘부터 가능해요 맛있는 안주에 술한잔 어때요 제주특별자치도 제주시 구좌읍월정 1길 54 11   히츠야 064 783 8891  매일 12 00 00 00브레이크타임 15 00 17 00매주 월요일휴무\n',
 'May\n',
 '성공적 조과   제주 jeju 마라도 긴꼬리벵에돔  벵에돔  travel  낚시  도시어부 다이와 dawa\n',
 ' 애월  바이크스타그램  바이크  바이크투어  제주도투어  제주도바이크여행  yzfr3  r3  제주  수원  쇼에이헬멧  라이더  motorcycle  애월해안도로  여성라이더  여라  jeju  최고\n',
 '타르트 명소라고 하는 곳     제주선물세트  제주공항카페  제주선물  타르트맛집  jeju  제주도선물세트  제주도타르트  제주핫플  제주도맛집  제주카페  제주도여행  jejudo  제주도카페  섬타르  제주타르트  제주도선물  제주맛집  제주공항근처카페\n',
 ' 우두커니 서있는 외돌개 외돌개는 해안산책로를따라서 10분정도 가다보면나오는 제주도의 대표적 관광지입니다 서귀포시내에 위치해있어서다녀오기도 너무나 좋은곳이라는 사실 맑은날에 가면 청명한 바다와 함께어우러지는 외돌개의 모습이정말 웅장합니다 돌과바람 호스텔에서 차로 5분거리에위치해있는 정말 구경가기 넘 좋은 관광지 외돌개였습니다  Photo By 으니스텝  \n',
 ' 목요일 텍스처 마감 합니다  한가한 목요일  이것 저것 매장 내 정리를 하고나름대로 재정비에 시간을 가졌습니다  진한 마틸다 시리즈로 당 빠 짝 충전하셨길 바래요  모두 고생 많으셨어요  오늘도 텍스처를 찾아주신 ᄆ