# Project : Instagram Data Clustering

# 1. Data Introduce
### 1.1 Purpose : To find out popular hashtags are being used and analyze topic using Latent Dirichlet Allocation.

### 1.2 Data set:
   > - Train Data : 43264 rows, 20 columns

In [1]:
from IPython.display import display, Markdown
import private_function as pf
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# Pretty display for notebooks
%matplotlib inline

# Ignore the warnings
import warnings
warnings.filterwarnings('ignore')

def get_x_train_and_features_name(df):
    cnt_vectorizer = CountVectorizer(lowercase=False)
    X_train = cnt_vectorizer.fit_transform(df)
#     cnt_feature_names = cnt_vectorizer.get_feature_names()
    return X_train

def run_lda(df, n_topic, max_iter = 100):
    cnt_vectorizer = CountVectorizer(lowercase=False)
    X_train = cnt_vectorizer.fit_transform(df)
    cnt_feature_names = cnt_vectorizer.get_feature_names()

    # hyper parameter
    alpha = 1
    beta = 1

    # train the model
    lda = LatentDirichletAllocation(n_components=n_topic, doc_topic_prior=alpha,\
                                    topic_word_prior=beta, learning_method='online', max_iter=max_iter)

    %time lda.fit_transform(X_train)
    
    return lda, cnt_vectorizer, cnt_feature_names

In [2]:
df_li = pf.getAllDataFrame()
train = pf.makeOneTrainDf(df_li)
train = pf.make_df_i_want(train)
counter = pf.get_counter(train)
counter.most_common()
tag_count = 0
for tup in counter.most_common():
    tag_count += tup[1]
tag_count, len(counter)

['직장인', '럽스타그램', '서울맛집', '먹스타그램', '친스타그램', '여행', '일상', '셀스타그램']

['seoul']

job.csv : 2213

insta_new_5.csv : 2136

insta_new_4.csv : 2148

insta_new_3.csv : 2172

insta_new_2.csv : 465

insta_new_1.csv : 2029

insta_new.csv : 2203

love_new.csv : 10783

insta_train.csv : 5

insta_food_1.csv : 2217

insta_food.csv : 1911

food.csv : 1986

beer.csv : 1970

food_1.csv : 2068

food_2.csv : 2089

food_3.csv : 2046

friend.csv : 1888

trip_1.csv : 1145

trip.csv : 2533

daily.csv : 2195

daily_2.csv : 785

daily_1.csv : 2312

selfie.csv : 2156

seongnam.csv : 960

seoul_2.csv : 19

seoul_1.csv : 960

incheon.csv : 960

seoul.csv : 880

yongin.csv : 960

gyeonggido.csv : 960

30
Df list length : 30
Df length changes after concat (if 0 means all datas are unique) : 0
Df length changes after concat (if 0 means all datas are unique) : 0
Df length changes after concat (if 0 means all datas are unique) : 1095
Df length changes after concat (if 0 means all datas are unique) : 411
Df length changes after concat (if 0 means all datas are unique) : 54
Df length changes after concat (if 0 means all datas are unique) : 131
Df length changes after concat (if 0 means all datas are unique) : 17
Df length changes after concat (if 0 means all datas are unique) : 0
Df length changes after concat (if 0 means all datas are unique) : 40
Df length changes after concat (if 0 means all datas are unique) : 16
Df length changes after concat (if 0 means all datas are unique) : 75
Df length changes after concat (if 0 means all datas are unique) : 11
Df length changes after concat (if 0 means all datas are unique) : 43
Df length changes after concat (if 0 means all datas are unique) :

(63099, 16584)

In [4]:
test = train[train.tags_cnt == 0]
df_test = test.caption

In [6]:
train["caption_only"] = train["caption_only"].apply(lambda a: "" if type(a) == float else a)
train["caption_only"] = train["caption_only"].apply(lambda a: a.strip())
train = train[train["caption_only"] != ""]

In [7]:
X_test = train[train["tags_str"] == ""]["tags_str"].values
X_train = train[train["tags_str"] != ""]["tags_str"].values
len(X_train), len(X_test)

(45634, 4572)

In [9]:
%time lda_model11, cnt_vectorizer11, cnt_feature_names11 = run_lda(X_train, 11)
%time lda_model12, cnt_vectorizer12, cnt_feature_names = run_lda(X_train, 12)
%time lda_model13, cnt_vectorizer13, cnt_feature_names13 = run_lda(X_train, 13)
%time lda_model14, cnt_vectorizer14, cnt_feature_names14 = run_lda(X_train, 14)

CPU times: user 43min 42s, sys: 3min 51s, total: 47min 33s
Wall time: 47min 41s
CPU times: user 43min 43s, sys: 3min 51s, total: 47min 35s
Wall time: 47min 43s
CPU times: user 46min 47s, sys: 4min 15s, total: 51min 2s
Wall time: 51min 9s
CPU times: user 46min 48s, sys: 4min 15s, total: 51min 4s
Wall time: 51min 10s
CPU times: user 49min 46s, sys: 4min 35s, total: 54min 21s
Wall time: 54min 28s
CPU times: user 49min 47s, sys: 4min 35s, total: 54min 23s
Wall time: 54min 30s
CPU times: user 52min 54s, sys: 6min 5s, total: 58min 59s
Wall time: 59min 7s
CPU times: user 52min 55s, sys: 6min 5s, total: 59min
Wall time: 59min 8s


In [10]:
pf.saveModelObjectAsPickle(lda_model11, "./lda/lda_model11.pkl")
pf.saveModelObjectAsPickle(cnt_feature_names11, "./lda/lda_model11_feature_name.pkl")
pf.saveModelObjectAsPickle(lda_model12, "./lda/lda_model12.pkl")
pf.saveModelObjectAsPickle(cnt_feature_names, "./lda/lda_model12_feature_name.pkl")
pf.saveModelObjectAsPickle(lda_model13, "./lda/lda_model13.pkl")
pf.saveModelObjectAsPickle(cnt_feature_names13, "./lda/lda_model13_feature_name.pkl")
pf.saveModelObjectAsPickle(lda_model14, "./lda/lda_model14.pkl")
pf.saveModelObjectAsPickle(cnt_feature_names14, "./lda/lda_model14_feature_name.pkl")

In [11]:
pf.display_topics(lda_model11, cnt_feature_names11, 20)

Topic 0:
서울맛집 겐조 샤넬 핫플레이스 강남맛집 구찌 에르메스 발렌티노 커플 프라다 팔찌 강남역 까르띠에 강남 펜디 몽블랑 불가리 막스마라 보태가베네타 남여
Topic 1:
직장인 선물 아이폰케이스 커플룩 데이트룩 폰케이스 아이폰8 용인 마켓 신상 커플케이스 원피스 가을신상 아이폰7케이스 아이폰x케이스 귀걸이 아이폰x 아이폰8케이스 핸드메이드 기념일
Topic 2:
이벤트 맛집 첫줄안녕 야구 축구 상품권 소액 안전공원 스포츠 스포츠토토 홍대맛집 소액결제 소액결제현금화 카드깡 안전놀이터 메이저놀이터 검증놀이터 상품권현금화 조건만남 love
Topic 3:
먹스타그램 먹방 맛스타그램 맛집 맥주스타그램 술스타그램 food 점심 맥주 먹스타 남친이랑 instafood foodstagram 토토사이트추천 먹방스타그램 먹부림 음식 푸드스타그램 존맛 맛있다
Topic 4:
일상 맞팔 소통 데일리 선팔 셀스타그램 좋아요 셀카 셀피 럽스타그램 팔로우 먹스타그램 daily 얼스타그램 일상스타그램 인친 선팔하면맞팔 오오티디 ootd selfie
Topic 5:
다이어트 운동하는여자 직장인 운동 운동하는남자 다이어터 영화 다이어트식단 헬스 diet 화이팅 필라테스 헬스타그램 식단 다이어트그램 건강 fitness 몸스타그램 운스타그램 꿀잼
Topic 6:
여행에미치다 여행스타그램 여행 남친이랑 travel 휴가 럽스타그램 korea 감성사진 photography 일본 바다 힐링 감성 추억 예신 결혼준비 웨딩 사랑 웨딩촬영
Topic 7:
서울맛집 부산맛집 대구맛집 대전맛집 서면맛집 부산여행 신촌맛집 대전 네일아트 행복하자 해운대맛집 남친이랑 둔산동 광주맛집 종로맛집 울산맛집 경기도 이태원맛집 인천맛집 f4follow
Topic 8:
제주도 제주도맛집 제주맛집 선팔맞팔 제주여행 서귀포맛집 소통해요 f4follow 제주 제주맛집추천 소통하자 맥주스타그램 제주도그램 제주서귀포맛집 제주도여행 좋아 평일 휴일 제주도흑돼지맛집 제주흑돼지
Topic 9:
멍스타그램 반려견 강아지 개스타그

In [15]:
pf.display_topics(lda_model12, cnt_feature_names, 20)

Topic 0:
멍스타그램 반려견 강아지 개스타그램 냥스타그램 dog 댕댕이 고양이 펫스타그램 bts いいね返し kpop 견스타그램 독스타그램 puppy dogstagram pet korea cat お洒落さんと繋がりたい
Topic 1:
여행에미치다 여행스타그램 여행 travel 휴가 럽스타그램 photography 일본 바다 korea 추억 예신 아이폰케이스 결혼준비 웨딩 웨딩촬영 trip seoul 결혼 photo
Topic 2:
일상 맞팔 소통 데일리 선팔 셀스타그램 좋아요 셀카 셀피 럽스타그램 팔로우 먹스타그램 daily 얼스타그램 일상스타그램 인친 선팔하면맞팔 오오티디 ootd selfie
Topic 3:
골프 차스타그램 직장인 타투 카지노 주식 로또 자동차 토토 카지노추천 온라인카지노 등산 낚시 마카오 뉴스킨 반영구 피부관리 벤츠 모바일카지노 눈썹문신
Topic 4:
맥주스타그램 맥주 술스타그램 beer 수제맥주 beerstagram 혼술 크래프트비어 craftbeer 화이팅 생맥주 맥덕 하이트 맥스타그램 혼맥 야구 하이트엑스트라콜드 야구스타그램 엑스트라콜드 한정판
Topic 5:
꽃스타그램 꽃다발 flower flowers 플로리스트 플라워레슨 원데이클래스 florist 꽃바구니 꽃집 플라워클래스 꽃선물 장미 아침식사 드라이플라워 flowerlesson 플라워 춘천 라이프스타일 flowershop
Topic 6:
홍대맛집 강남맛집 상품권 소액 카드깡 서울맛집 소액결제 소액결제현금화 상품권현금화 신용카드현금화 정보이용료현금화 곱창 강남 강남역 급전 정보이용료 소액대출 비트코인 당일대출 구글정보이용료
Topic 7:
먹스타그램 먹방 맛스타그램 맛집 남친이랑 food 점심 서울맛집 먹스타 데이트 instafood foodstagram 먹방스타그램 먹부림 디저트 푸드스타그램 존맛 음식 맛있다 맛스타
Topic 8:
토토사이트추천 겐조 샤넬 핫플레이스 럽스타 구찌 에르메스 서울맛집 발렌티노 프라다 커플 운동하는남자 술스타그램 토토사이트 팔찌 스포츠가족방 픽스

In [13]:
pf.display_topics(lda_model13, cnt_feature_names13, 20)

Topic 0:
korea 일본 한국 bts kpop seoul 韓国 방탄소년단 japan 일본여행 korean jungkook exo jimin 오사카 귀여운 jhope jin suga army
Topic 1:
속초 전주 대만여행 대만 전주한옥마을 미용실 친구해요 3박4일 힐링여행 염색 여수여행 hiphop 타이페이여행 pop instamusic rap musica nickiminaj beyoncé childishgambino
Topic 2:
이벤트 맛집 첫줄안녕 축구 야구 상품권 소액 안전공원 스포츠 스포츠토토 카드깡 소액결제 소액결제현금화 안전놀이터 메이저놀이터 홍대맛집 검증놀이터 상품권현금화 조건만남 love
Topic 3:
일상 맞팔 소통 데일리 선팔 셀스타그램 좋아요 셀카 셀피 럽스타그램 팔로우 먹스타그램 daily 얼스타그램 일상스타그램 인친 선팔하면맞팔 오오티디 ootd selfie
Topic 4:
술스타그램 토토사이트추천 럽스타 술안주 운동하는남자 토토사이트 스포츠가족방 사다리가족방 다리다리가족방 픽스터가족방 파워볼가족방 프로토가족방 사설사이트추천 사설사이트 일상스냅 육아템 selfcam 당첨 가족방 숙소
Topic 5:
귀걸이 악세사리 커플링 목걸이 쥬얼리 반지 뉴스킨 피부관리 브랜드 이어링 여친선물 드롭귀걸이 귀걸이추천 주얼리 핸드메이드 귀찌 갈바닉 생활 루미스파 다이아몬드
Topic 6:
맥주스타그램 맥주 제주도 제주도맛집 제주맛집 f4follow beer 선팔맞팔 소통해요 소통하자 제주여행 서귀포맛집 제주 술스타그램 제주맛집추천 제주도그램 제주서귀포맛집 수제맥주 제주도여행 좋아
Topic 7:
직장인 남친이랑 데이트 행복 사랑 다이어트 운동하는여자 럽스타 커플 럽스타그램 사랑해 남자친구 직장인스타그램 냥스타그램 연애중 운동 공감 연애 고양이 영화
Topic 8:
선물 아이폰케이스 생일 폰케이스 꽃스타그램 기념일 용인 커플케이스 아이폰8 아이폰7케이스 아이폰x케이스 아이폰x 생일선물 꽃다발 아이폰8케이스 핸드폰케이스 flower 원데이클래

In [14]:
pf.display_topics(lda_model14, cnt_feature_names14, 20)

Topic 0:
제주도 부산맛집 제주도맛집 제주맛집 f4follow 선팔맞팔 소통해요 소통하자 아이폰케이스 대전맛집 맥주스타그램 제주여행 대구맛집 서귀포맛집 서울맛집 서면맛집 제주맛집추천 폰케이스 제주도그램 제주서귀포맛집
Topic 1:
MustafaCeceli nefesimceceli antalyamcfc 영덕 MCVeMelekleri MCveMelekleri 동해맛집 삼척맛집 대게맛집 beautystagram 대게스타그램 강구항 삼척데이트 banilaco 삼척여행 영덕대게맛집 강구항맛집 강구항대게 뜰인더그릴 삼척맛집뜰인더야외포차짱
Topic 2:
토토사이트추천 겐조 샤넬 핫플레이스 럽스타 서울맛집 운동하는남자 구찌 에르메스 발렌티노 커플 프라다 팔찌 토토사이트 술안주 스포츠가족방 파워볼가족방 사다리가족방 사설사이트추천 프로토가족방
Topic 3:
일상 맞팔 소통 데일리 선팔 셀스타그램 좋아요 셀카 셀피 럽스타그램 팔로우 먹스타그램 daily 얼스타그램 일상스타그램 인친 선팔하면맞팔 오오티디 ootd selfie
Topic 4:
햄스터 비숑프리제분양 hamster 햄스타그램 골든햄스터 hamsta goldenhamster 햄스타 hamstagram 시리안햄스터 syrianhamster 별내 공릉 소원 석계역 석계 별내맛집 애견분양 나는야 석계역애견미용
Topic 5:
맥주스타그램 술스타그램 맥주 beer 수제맥주 혼술 영화 소주 글귀 글스타그램 치맥 공감 맥주한잔 사랑 소맥 화이팅 술집 beerstagram 일러스트 크래프트비어
Topic 6:
멍스타그램 반려견 강아지 개스타그램 냥스타그램 선물 dog 댕댕이 고양이 펫스타그램 견스타그램 독스타그램 puppy dogstagram pet 꽃스타그램 kpop 화장품 cat 말티즈
Topic 7:
남친이랑 여행에미치다 여행스타그램 여행 럽스타그램 데이트 travel 휴가 korea photography 일본 바다 추억 감성사진 예신 힐링 결혼준비 웨딩 웨딩촬영 trip
Topic 8:
먹스타그램 먹방 맛스타그램 맛

In [32]:
lda_model12 = lda_model

In [38]:
x_train = get_x_train_and_features_name(X_train)

In [35]:
pf.display_topics(lda_model11, cnt_feature_names11, 20)

Topic 0:
여행에미치다 여행스타그램 여행 travel korea photography photo 일본 seoul 냥스타그램 감성사진 감성 trip 한국 취미 풍경 고양이 스냅 사랑 여행그램
Topic 1:
일상 맞팔 데일리 소통 선팔 셀스타그램 좋아요 셀카 셀피 팔로우 daily 먹스타그램 얼스타그램 일상스타그램 선팔하면맞팔 오오티디 인친 좋아요반사 럽스타그램 ootd
Topic 2:
제주도 제주도맛집 제주맛집 선팔맞팔 제주 소통해요 서귀포맛집 f4follow 제주여행 소통하자 제주맛집추천 제주도그램 제주서귀포맛집 좋아 제주도여행 평일 맥주스타그램 휴일 인스타감성 제주도흑돼지맛집
Topic 3:
맥주스타그램 술스타그램 맥주 토토사이트추천 술안주 럽스타 토토사이트 스포츠가족방 다리다리가족방 파워볼가족방 사다리가족방 프로토가족방 사설사이트추천 픽스터가족방 사설사이트 운동하는남자 일상스냅 beer selfcam 육아템
Topic 4:
남친이랑 데이트 럽스타그램 럽스타 휴가 커플 사랑해 커플스타그램 행복 남자친구 여름휴가 영화 연애중 연애 남친 고마워 사랑꾼 힐링 ㅋㅋㅋ 화이팅
Topic 5:
bts kpop 방탄소년단 jungkook jimin exo jhope korea jin 귀여운 suga army bangtanboys taehyung blackpink 여자 kimtaehyung BTS jeonjungkook rm
Topic 6:
서울맛집 강남맛집 강남 강남역 신용카드현금화 곱창 카드깡 강남역맛집 역삼맛집 역삼동맛집 신논현맛집 대치동맛집 곱창맛집 상품권현금화 역삼동 서초맛집 양재맛집 서초동맛집 역삼역맛집 역삼역
Topic 7:
다이어트 운동하는여자 운동 헬스 다이어터 다이어트식단 운동하는남자 용인 diet 성남 이벤트 헬스타그램 다이어트그램 식단 Repost 필라테스 건강 fitness 몸스타그램 운스타그램
Topic 8:
반려견 멍스타그램 강아지 개스타그램 dog 댕댕이 펫스타그램 견스타그램 dogstagram 네일아트 puppy 독스타그램 pet 꽃스

In [34]:
pf.display_topics(lda_model12, cnt_feature_names, 20)

Topic 0:
일상 맞팔 소통 데일리 선팔 셀스타그램 좋아요 셀카 셀피 팔로우 먹스타그램 daily 얼스타그램 일상스타그램 선팔하면맞팔 오오티디 인친 럽스타그램 좋아요반사 ootd
Topic 1:
여행에미치다 여행스타그램 여행 travel 휴가 바다 photography 여름휴가 감성사진 일본 trip 풍경 웨딩 럽스타그램 힐링 photo 스냅 예신 웨딩촬영 결혼
Topic 2:
럽스타그램 육아스타그램 육아 육아소통 육아맘 맘스타그램 사랑해 도치맘 젊줌마 딸스타그램 직장인 인스타베이비 애스타그램 아들스타그램 일상 아들맘 세젤귀 워킹맘 줌마그램 딸맘
Topic 3:
제주도 제주도맛집 제주맛집 f4follow 선팔맞팔 소통해요 제주 소통하자 서귀포맛집 제주여행 맥주스타그램 제주맛집추천 제주도그램 제주서귀포맛집 좋아 제주도여행 평일 휴일 인스타감성 제주도흑돼지맛집
Topic 4:
서울맛집 겐조 커플 샤넬 핫플레이스 구찌 에르메스 팔찌 발렌티노 대구맛집 프라다 부산맛집 까르띠에 펜디 골든구스 몽블랑 불가리 막스마라 서울여행 보태가베네타
Topic 5:
신용카드현금화 카드깡 상품권현금화 소액결제 소액결제현금화 모바일문화상품권 타투 굿핀 해피머니 컬쳐랜드 일수대출 신용카드대출 홍대맛집 모바 휴대폰소액결제 남친이랑 차스타그램 성남 핸드폰소액결제 빈티지
Topic 6:
강남맛집 곱창 강남역 서울맛집 강남 강남역맛집 역삼맛집 역삼동맛집 신논현맛집 대치동맛집 곱창맛집 역삼동 서초맛집 양재맛집 서초동맛집 역삼역맛집 역삼역 강남역맛집베스트10 양재역맛집 서초동곱창
Topic 7:
korea seoul 한국 kpop 韓国 사랑 art 그림 글스타그램 일러스트 bts 공감 글귀 beautiful korean いいね返し 생각 독서 exo 감성
Topic 8:
반려견 멍스타그램 강아지 개스타그램 냥스타그램 아이폰케이스 dog 댕댕이 고양이 펫스타그램 폰케이스 견스타그램 아이폰8 커플케이스 cat dogstagram 아이폰7케이스 아이폰x케이스 puppy 독스타그램
Topic 9:
토토사

In [74]:
pf.display_topics(lda_model13, cnt_feature_names13, 20)

Topic 0:
먹스타그램 먹방 맛스타그램 일상 럽스타그램 맛집 직장인 육아스타그램 육아 육아소통 육아맘 food 맘스타그램 점심 도치맘 사랑해 젊줌마 딸스타그램 먹스타 인스타베이비
Topic 1:
축구 커플신발 푸마 해외직구 레플 아웃도어 헬스 커플운동화 나이키에어맥스 신발쇼핑몰 운동화할인 아식스 연예인골든구스 등산화 신발도매 신상신발 명품등산화 유행신발 GGDB 운동화도매
Topic 2:
속초 워터파크 속초맛집 그래도 속초여행 거제도맛집 거제맛집 꾸욱 속초중앙시장맛집 2018 당일치기여행 인친대환영 안산맛집 삼척맛집 캐리비안베이 클래식 속초대게맛집 원피스 속초중앙시장 대부도맛집
Topic 3:
제주도 제주도맛집 제주맛집 제주 서귀포맛집 제주여행 f4follow 선팔맞팔 제주맛집추천 소통해요 소통하자 제주도그램 제주서귀포맛집 맥주스타그램 제주도여행 제주도흑돼지맛집 제주흑돼지 제주도흑돼지 서귀포흑돼지맛집 서귀포흑돼지
Topic 4:
일상 맞팔 소통 데일리 선팔 셀스타그램 좋아요 셀카 셀피 팔로우 먹스타그램 얼스타그램 일상스타그램 daily 선팔하면맞팔 오오티디 인친 좋아요반사 럽스타그램 ootd
Topic 5:
강남맛집 곱창 강남역 강남 서울맛집 맛스타그램 강남역맛집 역삼맛집 역삼동맛집 신논현맛집 대치동맛집 곱창맛집 역삼동 서초맛집 양재맛집 서초동맛집 역삼역맛집 역삼역 강남역맛집베스트10 양재역맛집
Topic 6:
맥주스타그램 술스타그램 맥주 beer 혼술 치맥 수제맥주 소주 소맥 치킨 맥주한잔 술집 beerstagram 크래프트비어 맥주그램 존맛탱 낮술 생맥주 술스타 craftbeer
Topic 7:
뉴스킨 피부관리 갈바닉 루미스파 스킨케어 포천여행 전주한옥마을 홈케어 짖어야개다 포천카페 효자동맛집 햄스터 피부고민 포천이동갈비 성남애견미용 뉴스킨하세요 평일 180도 물광피부 2018년
Topic 8:
여행에미치다 여행 여행스타그램 travel 휴가 korea photography 럽스타그램 일본 photo seoul 바다 여름휴가 한국 trip 감성사진 풍경

In [72]:
pf.display_topics(lda_model14, cnt_feature_names14, 20)

Topic 0:
여행에미치다 여행스타그램 여행 travel 휴가 korea photography 일본 photo seoul 바다 감성사진 한국 trip 풍경 웨딩 럽스타그램 스냅 예신 결혼
Topic 1:
신용카드현금화 카드깡 상품권현금화 소액결제 소액결제현금화 모바일문화상품권 굿핀 해피머니 컬쳐랜드 신용카드대출 일수대출 모바 홍대맛집 휴대폰소액결제 차스타그램 핸드폰소액결제 빈티지 골프 상품권 비트코인
Topic 2:
다이어트 운동하는여자 다이어터 다이어트식단 용인 diet 다이어트그램 꽃다발 꽃스타그램 식단 헬스 flower 운동 운스타그램 fitness 플로리스트 유지어터 workout 운동하는남자 식단일기
Topic 3:
축구 헬스 커플신발 푸마 레플 해외직구 아웃도어 커플운동화 나이키에어맥스 신발쇼핑몰 신상신발 등산화 신발도매 명품등산화 유행신발 아디다스신발 GGDB 아식스 아디다스울트라부스트 NEWBALANCE
Topic 4:
kpop bts exo 귀여운 blackpink 여자 korea kawaii 아름다운 自撮り boy asmr korean 속초맛집 Asia jisoo kpopl4l tomboy селфи 自分撮り
Topic 5:
서울맛집 부산맛집 강남맛집 대구맛집 곱창 홍대맛집 강남역 강남역맛집 대전맛집 강남 맛스타그램 역삼맛집 이태원맛집 역삼동맛집 신논현맛집 대치동맛집 서면맛집 곱창맛집 역삼동 서초맛집
Topic 6:
남친이랑 데이트 커플 사랑해 럽스타 커플스타그램 남자친구 영화 연애중 연애 행복 남친 고마워 사랑꾼 ㅋㅋㅋ 행복해 데이트그램 사랑 여자친구 화이팅
Topic 7:
럽스타그램 육아 육아스타그램 육아소통 육아맘 맘스타그램 도치맘 일상 젊줌마 딸스타그램 인스타베이비 애스타그램 직장인 아들스타그램 사랑해 아들맘 세젤귀 반려견 워킹맘 멍스타그램
Topic 8:
토토사이트추천 겐조 샤넬 서울맛집 운동하는남자 럽스타 핫플레이스 커플 구찌 에르메스 술스타그램 토토사이트 발렌티노 팔찌 스포츠가족방 사설사이트추천 파워볼가족방 프로토가족방 픽스터가

In [73]:
pf.display_topics(lda_model15, cnt_feature_names15, 20)

Topic 0:
직장인 서울맛집 강남맛집 강남 곱창 강남역 신용카드현금화 강남역맛집 카드깡 역삼맛집 역삼동맛집 아지트샵 신논현맛집 대치동맛집 곱창맛집 상품권현금화 역삼동 서초맛집 양재맛집 서초동맛집
Topic 1:
먹스타그램 먹방 맛스타그램 맛집 맥주스타그램 food 술스타그램 점심 먹스타 맥주 instafood foodstagram 먹방스타그램 음식 디저트 존맛 맛스타 먹부림 푸드스타그램 맛있다
Topic 2:
케이크토퍼 토퍼 짖어야개다 토퍼제작 생일토퍼 성남애견미용 여행토퍼 케이크번팅 성남애견호텔 생신토퍼 생신선물 hbd 성남애견유치원 백일토퍼 기념일토퍼 beautystagram banilaco 여행선물 결혼기념일토퍼 울산토퍼
Topic 3:
서울맛집 핫플레이스 부산맛집 맛집투어 대구맛집 JMT 서울여행 대전맛집 용산맛집 숙대맛집 남영동맛집 seoullife 맛집골목 후암동맛집 seoultravel youngsan 삼각지맛집 seouleats 서면맛집 신촌맛집
Topic 4:
asmr 아침식사 라이프스타일 mukbang 꾸욱 eatingshow 유튜브 첫줄안녕 tumblr 장미 eatingsounds 비지니스 스텔라코치 asmrfood asmreating 영양 먹기 Korean satisfying 열정
Topic 5:
우기 chomiyeon 소통해 InstaSize G_I_DLE GIDLE TFLers minnie yuqi likes4likes kpoplfl 여자아이들 TagsForLikes 영덕 miyeon cube CUBE 소연 MINNIE likesforlikesalways
Topic 6:
MustafaCeceli nefesimceceli antalyamcfc 햄스터 MCVeMelekleri MCveMelekleri 햄스타그램 골든햄스터 hamster music 시리안햄스터 햄스타 hamstagram hamsta syrianhamster goldenhamster 부천호빠 musician guitar 시흥호빠
Topic 7:
일상 맞팔 소통 데일리 선팔

## Topic별 Top 20 키워드

### Topic 0: 여행스타그램
여행에미치다 여행스타그램 여행 travel 휴가 korea photography 일본 photo seoul 바다 감성사진 한국 trip 풍경 웨딩 럽스타그램 스냅 예신 결혼

### Topic 1: 대출 광고
신용카드현금화 카드깡 상품권현금화 소액결제 소액결제현금화 모바일문화상품권 굿핀 해피머니 컬쳐랜드 신용카드대출 일수대출 모바 홍대맛집 휴대폰소액결제 차스타그램 핸드폰소액결제 빈티지 골프 상품권 비트코인

### Topic 2: 운동스타그램
다이어트 운동하는여자 다이어터 다이어트식단 용인 diet 다이어트그램 꽃다발 꽃스타그램 식단 헬스 flower 운동 운스타그램 fitness 플로리스트 유지어터 workout 운동하는남자 식단일기

### Topic 3: 신발 광고
축구 헬스 커플신발 푸마 레플 해외직구 아웃도어 커플운동화 나이키에어맥스 신발쇼핑몰 신상신발 등산화 신발도매 명품등산화 유행신발 아디다스신발 GGDB 아식스 아디다스울트라부스트 NEWBALANCE

### Topic 4: Kpop
kpop bts exo 귀여운 blackpink 여자 korea kawaii 아름다운 自撮り boy asmr korean 속초맛집 Asia jisoo kpopl4l tomboy селфи 自分撮り

### Topic 5: 서울 맛집
서울맛집 부산맛집 강남맛집 대구맛집 곱창 홍대맛집 강남역 강남역맛집 대전맛집 강남 맛스타그램 역삼맛집 이태원맛집 역삼동맛집 신논현맛집 대치동맛집 서면맛집 곱창맛집 역삼동 서초맛집

### Topic 6: 럽스타그램
남친이랑 데이트 커플 사랑해 럽스타 커플스타그램 남자친구 영화 연애중 연애 행복 남친 고마워 사랑꾼 ㅋㅋㅋ 행복해 데이트그램 사랑 여자친구 화이팅

### Topic 7: 육아스타그램
럽스타그램 육아 육아스타그램 육아소통 육아맘 맘스타그램 도치맘 일상 젊줌마 딸스타그램 인스타베이비 애스타그램 직장인 아들스타그램 사랑해 아들맘 세젤귀 반려견 워킹맘 멍스타그램

### Topic 8: 토토 등 사이트 및 명품 광고
토토사이트추천 겐조 샤넬 서울맛집 운동하는남자 럽스타 핫플레이스 커플 구찌 에르메스 술스타그램 토토사이트 발렌티노 팔찌 스포츠가족방 사설사이트추천 파워볼가족방 프로토가족방 픽스터가족방 사설사이트

### Topic 9: 폰케이스 광고
선물 직장인 아이폰케이스 냥스타그램 마카롱 취미 고양이 폰케이스 아이폰8 커플케이스 공감 그림 글스타그램 기념일 디저트 일러스트 아이폰7케이스 아이폰x케이스 글귀 귀걸이

### Topic 10: 먹스타그램
먹스타그램 먹방 맛스타그램 맛집 맥주스타그램 food 술스타그램 점심 먹스타 맥주 instafood foodstagram 먹방스타그램 음식 존맛 맛스타 먹부림 푸드스타그램 맛있다 디저트

### Topic 11: 일상적인 해시태그
일상 맞팔 데일리 소통 선팔 셀스타그램 좋아요 셀카 셀피 팔로우 먹스타그램 daily 얼스타그램 일상스타그램 선팔하면맞팔 오오티디 럽스타그램 인친 좋아요반사 ootd

### Topic 12: 제주도 맛집 광고
제주도 제주도맛집 제주맛집 제주 서귀포맛집 제주여행 f4follow 선팔맞팔 제주맛집추천 소통해요 소통하자 제주도그램 제주서귀포맛집 맥주스타그램 제주도여행 제주도흑돼지맛집 제주흑돼지 제주도흑돼지 서귀포흑돼지맛집 서귀포흑돼지

### Topic 13: 거제도 맛집?
거제도맛집 거제맛집 포천여행 짖어야개다 평일 포천카페 햄스터 포천이동갈비 삼척맛집 성남애견미용 근무시간 스킨케어 포천맛집 거제대명리조트맛집 성남애견호텔 골든햄스터 살롱순라 햄스타그램 2018년 삼척여행

### Topic 14: 반려견스타그램 (lda topic number = 12를 통해서 찾음, 해당 모델에선 topic 8)
반려견 멍스타그램 강아지 개스타그램 냥스타그램 아이폰케이스 dog 댕댕이 고양이 펫스타그램 폰케이스 견스타그램 아이폰8 커플케이스 cat dogstagram 아이폰7케이스 아이폰x케이스 puppy 독스타그램

### Topic 15: 맥주스타그램 및 치맥 (lda topic number = 13을 통해서 찾음, 해당 모델에선 topic 6)
맥주스타그램 술스타그램 맥주 beer 혼술 치맥 수제맥주 소주 소맥 치킨 맥주한잔 술집 beerstagram 크래프트비어 맥주그램 존맛탱 낮술 생맥주 술스타 craftbeer

In [94]:
def get_topic_using_lda(lda_model, x_train):
    doc_topic_dist_unnormalized = np.matrix(lda_model.transform(x_train))
    # normalize the distribution (only needed if you want to work with the probabilities)
    doc_topic_dist = doc_topic_dist_unnormalized/doc_topic_dist_unnormalized.sum(axis=1)
    return doc_topic_dist.argmax(axis=1)

In [95]:
x_train

<38791x100222 sparse matrix of type '<class 'numpy.int64'>'
	with 800194 stored elements in Compressed Sparse Row format>

In [96]:
y_pred = get_topic_using_lda(lda_model13, x_train)

In [88]:
df_train_ = df_train[df_train["tags_str"] != ""]

In [98]:
df_train_["topic_type_13"] = y_pred

In [99]:
y_pred = get_topic_using_lda(lda_model12, x_train)

In [100]:
df_train_["topic_type_12"] = y_pred

In [101]:
df_train_ = df_train_.reset_index(drop=True)

In [57]:
def model_test(test_list, lda_model):
    test_ = cnt_vectorizer14.transform(test_list)
    doc_topic_dist_unnormalized = np.matrix(lda_model.transform(test_))
    doc_topic_dist = doc_topic_dist_unnormalized/doc_topic_dist_unnormalized.sum(axis=1)
    print(doc_topic_dist.argmax(axis=1))
    return doc_topic_dist.argmax(axis=1)

In [124]:
df_train_[df_train_.topic_type_13 == 6].shape, df_train_[df_train_.topic_type_12 == 8].shape

((1432, 24), (951, 24))

In [109]:
df_train_["target"] = df_train_["topic_type"]

In [116]:
index_8 = df_train_[df_train_.topic_type_12 == 8].index
index_6 = df_train_[df_train_.topic_type_13 == 6].index

In [125]:
index_8.shape

(951,)

In [126]:
df_train_.at[index_8, "target"] = 14

In [117]:
df_train_.at[index_8, "target"] = 14
df_train_.at[index_6, "target"] = 15

In [128]:
df_train_[df_train_["target"] == 15].shape

(1421, 24)

In [118]:
sorted(df_train_["target"].unique())

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]

In [119]:
df_train_.head()

Unnamed: 0,caption,comment_cnt,first_comment,id,is_video,likes,loc_id,loc_lat,loc_lon,loc_name,...,video_view_count,tags,tags_cnt,caption_only,tags_str,duplicated_tag,topic_type,topic_type_13,topic_type_12,target
0,"기다리고 기다리던 clique 18FW 가을 슬링백, 4차까지 수정을 하느라 커밍쑨...",1.0,#데일리#일상#소통#맞팔#패션#슈스타그램#구두#운동하는여자#셀카#직장인#직딩#데일리...,1857900177048070682,False,7.0,0,0.0,0.0,,...,0.0,"[데일리, 일상, 소통, 맞팔, 패션, 슈스타그램, 구두, 운동하는여자, 셀카, 직...",26,"기다리고 기다리던 clique 18FW 가을 슬링백, 4차까지 수정을 하느라 커밍쑨...",데일리 일상 소통 맞팔 패션 슈스타그램 구두 운동하는여자 셀카 직장인 직딩 데일리룩...,0,11,4,0,11
1,돈 아껴씁시다!!!!!,1.0,#산책#산책냥#산책중#산책길#산책로#줌마스타그램#젊줌마#퇴근하고싶다#준비#일#일스타...,1857900725409995033,False,4.0,0,0.0,0.0,,...,0.0,"[산책, 산책냥, 산책중, 산책길, 산책로, 줌마스타그램, 젊줌마, 퇴근하고싶다, ...",29,돈 아껴씁시다!!!!!,산책 산책냥 산책중 산책길 산책로 줌마스타그램 젊줌마 퇴근하고싶다 준비 일 일스타그...,0,7,0,2,7
2,#끄적끄적#내생각#짧은글#짧은시#공감#감성#직장인#그지같은상사#무책임#꺼져주라,0.0,,1857900316684967123,False,6.0,0,0.0,0.0,,...,0.0,"[끄적끄적, 내생각, 짧은글, 짧은시, 공감, 감성, 직장인, 그지같은상사, 무책임...",10,,끄적끄적 내생각 짧은글 짧은시 공감 감성 직장인 그지같은상사 무책임 꺼져주라,0,9,9,7,9
3,재가입멘토1위의 주인공\n오직 인스타 하나로\n-\n돈 잘버는 유명한 언니보다\n돈...,0.0,,1857900683954862254,False,1.0,0,0.0,0.0,,...,0.0,"[아지트샵문근주1등, 육아소통, 남매, 남매스타그램, 남매맘, 신혼, 신혼남매, 신...",30,재가입멘토1위의 주인공 오직 인스타 하나로 - 돈 잘버는 유명한 언니보다 돈 잘벌게...,아지트샵문근주1등 육아소통 남매 남매스타그램 남매맘 신혼 신혼남매 신혼일상 아지트샵...,0,7,0,2,7
4,마취가 5시간째 안풀린다 .......................🤦🏻‍♀️,1.0,#소통 #소통해요 #데일리 #선팔 #선팔하면맞팔 #선팔맞팔 #팔로우미 #셀스타그램 ...,1857900270328085783,False,21.0,0,0.0,0.0,,...,0.0,"[소통, 소통해요, 데일리, 선팔, 선팔하면맞팔, 선팔맞팔, 팔로우미, 셀스타그램,...",28,마취가 5시간째 안풀린다 .......................🤦‍♀️,소통 소통해요 데일리 선팔 선팔하면맞팔 선팔맞팔 팔로우미 셀스타그램 얼스타그램 좋아...,0,11,4,0,11


In [130]:
pf.saveDf(df_train_, "df_train")

In [134]:
df_train_.to_pickle("asset/df_train.pkl")