In [1]:
import pandas as pd
import numpy as np
import re
from sklearn.metrics import classification_report
from sklearn.metrics import f1_score

In [2]:
data = pd.read_excel(r"instagram_hashtag_data_f.xlsx")
data

Unnamed: 0,id,type,word
0,https://www.instagram.com/p/BVwh5IYAXyJ/,1,"경리단길카페, 맛스타그램,"
1,https://www.instagram.com/p/BYgQOMJFY36/,0,"가을신상, 가을한정판, 가을가을해, 데일리백, 주말데이트, 주말에뭐입지, 한남동맛집..."
2,https://www.instagram.com/p/BbvQarblI8-/,1,"이태원, 브런치, 데이트, 럽스타그램,"
3,https://www.instagram.com/p/Bb8V2uEhFiF/,0,"앤드하리, 앤드하리한남, 한남동카페, 한강진카페, 이태원카페, 강화도카페, 강화카페,"
4,https://www.instagram.com/p/BZd39qTnDU0/,1,"사유, 이태원, 이태원카페,"
...,...,...,...
10361,https://www.instagram.com/p/BcMVdbUHMyg/,0,"성산일출봉\t, 해운대맛집\t, 환승\t, 신천\t, 시험기간, 11자복근\t, 스..."
10362,https://www.instagram.com/p/Ba3Nj_QH90T/,0,"jw메리어트호텔, 거창까막국수, 동대문맛집, 롯데백화점, 대구맛집, 서울맛집, 대전..."
10363,https://www.instagram.com/p/BbeCcYzF4kp/,1,"먹스타그램, 한남동맛집, 나들이, 고추장불백, 맛있다, iphone7plus, pi..."
10364,https://www.instagram.com/p/BbMStBTBHAi/,1,"오랜만에, 한남동, 한남살롱, 맥주한잔, 양꼬치, 양꼬치맛집, 양고기, 홈메이드, ..."


In [3]:
# 이모티콘 없애기
data["word"] = data["word"].apply(lambda x : re.sub("\<.*\>|\s-\s.*",'', str(x)))

In [4]:
# 특수기호 없애기
data["word"] = data["word"].apply(lambda x : re.sub('[^\w\s]','', str(x)))

# 자연어 처리하기(Tokenizer)

In [55]:
from sklearn.model_selection import train_test_split
X = data["word"]
y = data["type"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 123,stratify=y)

In [6]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [7]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)
X_train_encoded = tokenizer.texts_to_sequences(X_train)
X_test_encoded = tokenizer.texts_to_sequences(X_test)

In [8]:
word_to_index = tokenizer.word_index
print(word_to_index)

{'이태원': 1, '이태원맛집': 2, '먹스타그램': 3, '우사단길': 4, '경리단길': 5, '이태원카페': 6, '일상': 7, '맛스타그램': 8, '한남동': 9, '한남동맛집': 10, '경리단길카페': 11, '데일리': 12, '해방촌맛집': 13, '해방촌': 14, '맛집': 15, 'itaewon': 16, '맞팔': 17, '먹방': 18, '한남동카페': 19, '경리단길맛집': 20, '카페': 21, '커피': 22, '디저트': 23, '경리단': 24, '카페스타그램': 25, '소통': 26, 'daily': 27, '좋아요': 28, 'cafe': 29, '커피스타그램': 30, '해방촌카페': 31, '럽스타그램': 32, '셀카': 33, '데이트': 34, '이태원역': 35, '셀피': 36, '오늘뭐먹지': 37, '이태원술집': 38, '인테리어': 39, '사진': 40, '힐링': 41, '불금': 42, '가을': 43, '셀스타그램': 44, '온더테이블': 45, 'coffee': 46, '금요일': 47, '퇴근길': 48, '푸딩': 49, '디저트스타그램': 50, '이태원데이트': 51, '우사단로': 52, '아이폰7': 53, '퇴근': 54, '이태원핫플': 55, '후식': 56, 'seoul': 57, '이태원핫플레이스': 58, '얼스타그램': 59, '맛있다그램': 60, '핵존맛': 61, '보석길': 62, '브런치': 63, '이태원회식': 64, '서울': 65, '이태원막걸리': 66, 'food': 67, 'ootd': 68, '녹사평맛집': 69, '와인': 70, '주말': 71, '녹사평': 72, '보광동': 73, 'instafood': 74, '꽃스타그램': 75, '루프탑': 76, '선팔': 77, '브런치카페': 78, '존맛': 79, 'selfie': 80, '술스타그램': 81, '핵맛': 82, '에스프레소': 83, '빵스타그램': 84, '압구정

In [9]:
s = sorted(tokenizer.word_counts.items(),reverse=True, key=lambda item:item[1])
s

[('이태원', 3175),
 ('이태원맛집', 1976),
 ('먹스타그램', 1479),
 ('우사단길', 1402),
 ('경리단길', 1346),
 ('이태원카페', 1330),
 ('일상', 1176),
 ('맛스타그램', 1089),
 ('한남동', 856),
 ('한남동맛집', 854),
 ('경리단길카페', 822),
 ('데일리', 814),
 ('해방촌맛집', 771),
 ('해방촌', 715),
 ('맛집', 687),
 ('itaewon', 628),
 ('맞팔', 595),
 ('먹방', 587),
 ('한남동카페', 586),
 ('경리단길맛집', 581),
 ('카페', 558),
 ('커피', 485),
 ('디저트', 468),
 ('경리단', 457),
 ('카페스타그램', 442),
 ('소통', 435),
 ('daily', 411),
 ('좋아요', 408),
 ('cafe', 403),
 ('커피스타그램', 394),
 ('해방촌카페', 375),
 ('럽스타그램', 368),
 ('셀카', 352),
 ('데이트', 340),
 ('이태원역', 334),
 ('셀피', 311),
 ('오늘뭐먹지', 305),
 ('이태원술집', 304),
 ('인테리어', 299),
 ('사진', 298),
 ('힐링', 291),
 ('불금', 289),
 ('가을', 287),
 ('셀스타그램', 281),
 ('온더테이블', 262),
 ('coffee', 257),
 ('금요일', 249),
 ('퇴근길', 249),
 ('푸딩', 247),
 ('디저트스타그램', 245),
 ('이태원데이트', 241),
 ('우사단로', 241),
 ('아이폰7', 236),
 ('퇴근', 234),
 ('이태원핫플', 229),
 ('후식', 219),
 ('seoul', 212),
 ('이태원핫플레이스', 206),
 ('얼스타그램', 205),
 ('맛있다그램', 195),
 ('핵존맛', 195),
 ('보석길', 195),
 ('브

In [10]:
for i in range(len(s)):
    print(s[i][0],round(s[i][1]/len(data),4))

이태원 0.3063
이태원맛집 0.1906
먹스타그램 0.1427
우사단길 0.1352
경리단길 0.1298
이태원카페 0.1283
일상 0.1134
맛스타그램 0.1051
한남동 0.0826
한남동맛집 0.0824
경리단길카페 0.0793
데일리 0.0785
해방촌맛집 0.0744
해방촌 0.069
맛집 0.0663
itaewon 0.0606
맞팔 0.0574
먹방 0.0566
한남동카페 0.0565
경리단길맛집 0.056
카페 0.0538
커피 0.0468
디저트 0.0451
경리단 0.0441
카페스타그램 0.0426
소통 0.042
daily 0.0396
좋아요 0.0394
cafe 0.0389
커피스타그램 0.038
해방촌카페 0.0362
럽스타그램 0.0355
셀카 0.034
데이트 0.0328
이태원역 0.0322
셀피 0.03
오늘뭐먹지 0.0294
이태원술집 0.0293
인테리어 0.0288
사진 0.0287
힐링 0.0281
불금 0.0279
가을 0.0277
셀스타그램 0.0271
온더테이블 0.0253
coffee 0.0248
금요일 0.024
퇴근길 0.024
푸딩 0.0238
디저트스타그램 0.0236
이태원데이트 0.0232
우사단로 0.0232
아이폰7 0.0228
퇴근 0.0226
이태원핫플 0.0221
후식 0.0211
seoul 0.0205
이태원핫플레이스 0.0199
얼스타그램 0.0198
맛있다그램 0.0188
핵존맛 0.0188
보석길 0.0188
브런치 0.0185
이태원회식 0.0177
서울 0.0175
이태원막걸리 0.0172
food 0.017
ootd 0.0169
녹사평맛집 0.0169
와인 0.016
주말 0.0159
녹사평 0.0157
보광동 0.0157
instafood 0.0154
꽃스타그램 0.0153
루프탑 0.0153
선팔 0.015
브런치카페 0.0149
존맛 0.0141
selfie 0.0139
술스타그램 0.0139
핵맛 0.0135
에스프레소 0.0133
빵스타그램 0.0131
압구정맛집 0.

팔찌 0.0007
커피고작 0.0007
진달래 0.0007
불리스 0.0007
fleamarket 0.0007
한남동빵집 0.0007
굿모닝 0.0007
명이나물 0.0007
무화과토스트 0.0007
데이트장소 0.0007
남산데이트 0.0007
jankuraartspace 0.0007
반포 0.0007
이촌동수영레슨 0.0007
세컨드키친 0.0007
이태원커피 0.0007
글라스아트 0.0007
한남동맥주 0.0007
신혼부부 0.0007
우버이츠 0.0007
쏘리맘암쏘하이 0.0007
atelier 0.0007
빼빼로데이 0.0007
미스터페이튼 0.0007
cafesaru 0.0007
데일리패션 0.0007
콜드브루 0.0007
춥다 0.0007
연탄고기 0.0007
사는게다고기서고기 0.0007
근고기 0.0007
혼고 0.0007
기분전환 0.0007
좋다 0.0007
빈티지샵 0.0007
금호동맛집 0.0007
블로그 0.0007
함께 0.0007
coffeelover 0.0007
goodafternoon 0.0007
디톡스 0.0007
묵은지닭찜 0.0007
기록 0.0007
오늘의아운 0.0007
프랑스 0.0007
newrp 0.0007
bbq 0.0007
bmeal 0.0007
금호동 0.0007
칵테일바 0.0007
studio 0.0007
gallery 0.0007
이태원가정식 0.0007
이태원집밥 0.0007
남자팔찌 0.0007
ordermade 0.0007
jewelrydesign 0.0007
세공 0.0007
세공강습 0.0007
모우모우 0.0007
blue 0.0007
나리식당 0.0007
증류소주 0.0007
black 0.0007
촵촵 0.0007
멋짐 0.0007
타르틴 0.0007
baco 0.0007
sls 0.0007
sla 0.0007
디자인소품 0.0007
stylejieum 0.0007
이태원동321다시2 0.0007
핫도그 0.0007
아날로그키친 0.0007
유피피 0.0007
버블앤코클스 0.0007
필

a0log 0.0003
술안주 0.0003
문어 0.0003
전복 0.0003
비숑 0.0003
한남동셀렉다이닝 0.0003
마이원더수강생이 0.0003
쥬얼리 0.0003
장진우길 0.0003
계단식테이블 0.0003
개방형유리문 0.0003
이태원경리단 0.0003
빅스텝로고 0.0003
유니폼 0.0003
까페뷔에이 0.0003
포마드 0.0003
빈티지카페 0.0003
mijuri 0.0003
cafemijuri 0.0003
curry 0.0003
일본라멘 0.0003
구월동맛집 0.0003
말리커피 0.0003
이태원양꼬치 0.0003
단앤청 0.0003
비엔에이치알 0.0003
페스티벌 0.0003
솜사탕카페 0.0003
카페거리 0.0003
마들렌 0.0003
mindmining 0.0003
마인드마이닝 0.0003
비오는 0.0003
호호돈까스짬뽕 0.0003
밀크쉐이크 0.0003
머스터 0.0003
먹그램 0.0003
디져트 0.0003
djrude 0.0003
djtrickster 0.0003
soundcloud 0.0003
신상 0.0003
떡볶이맛집 0.0003
rose 0.0003
연남동꽃집 0.0003
공공빌라 0.0003
아이폰6 0.0003
글스타그램 0.0003
f 0.0003
개인작업 0.0003
해질녘 0.0003
꽃빕 0.0003
한라산소주 0.0003
jelly 0.0003
샵3239 0.0003
금요일저녁 0.0003
플렛화이트 0.0003
에펠탑 0.0003
사랑의온도 0.0003
셀카그램 0.0003
새우전 0.0003
bigbang 0.0003
블루베리에이드 0.0003
버버리머플러 0.0003
핸드메이드코트공구 0.0003
카멜코트 0.0003
막스마라코트 0.0003
막스마라 0.0003
와인콜키지프리 0.0003
해방촌미수식당 0.0003
소주한잔 0.0003
うに 0.0003
포장 0.0003
모 0.0003
avocado 0.0003
ginospizza 0.0003
하얏트호텔 0.0003
보드카 0.000

rue경리단 0.0002
스시쵸우 0.0002
화끈하게매운 0.0002
오사카짬뽕 0.0002
카레볶음밥 0.0002
돈까스나배 0.0002
이태원점 0.0002
이태원정모 0.0002
루프탑피자집 0.0002
뷰티플러스 0.0002
피자먹고팔자피자그램 0.0002
피자먹고인생피자그램 0.0002
밤스버거 0.0002
타이거jk 0.0002
노래 0.0002
카나페 0.0002
길고양이 0.0002
런치코스 0.0002
코로비아 0.0002
instawine 0.0002
아란치니 0.0002
소통인친구함 0.0002
제일 0.0002
상수 0.0002
가라아게 0.0002
izakaya 0.0002
압구정자코비버거 0.0002
orange 0.0002
prettyboy 0.0002
장스시 0.0002
설 0.0002
시츄 0.0002
크렘브륄레 0.0002
마렘마트라토리아 0.0002
커틀러리 0.0002
러블리숑숑 0.0002
happyhappyday화요일날씨 0.0002
방콕 0.0002
교통사고 0.0002
핑크팬더 0.0002
vintagetoy 0.0002
빈티지토이 0.0002
맥마담 0.0002
케어베어 0.0002
포니 0.0002
마이리틀포니 0.0002
빈티지악세사리 0.0002
트롤 0.0002
커밋 0.0002
현백 0.0002
발레 0.0002
barhwi 0.0002
휘빠 0.0002
이태원미용실 0.0002
술스타그램댓글 0.0002
임부복 0.0002
싱어송라이터 0.0002
이태원샹 0.0002
런드리카페 0.0002
laundry 0.0002
빵투어 0.0002
오렌지파운드 0.0002
벼룩시장 0.0002
학꽁치 0.0002
식물스타그램 0.0002
jordan11 0.0002
조던11 0.0002
샹들리에 0.0002
사랑은의미를주고받는것 0.0002
leatherwork 0.0002
회화 0.0002
playground 0.0002
해방촌데이트코스 0.0002
서울에서 0.0002
바질스콘 0.0002
단체주문 0.0002

굳밤 0.0001
테디베어 0.0001
teddycoat 0.0001
식물연출 0.0001
박쥐란 0.0001
plantart 0.0001
오리지날밀크티 0.0001
인생라떼 0.0001
コスメ 0.0001
drjart 0.0001
토마토커리 0.0001
치즈맛은 0.0001
원픽 0.0001
아보카도연어라이스 0.0001
앙리마티스 0.0001
나른한오후 0.0001
길바닥에누워 0.0001
봄하늘 0.0001
부라타치즈샐러드 0.0001
메론빙수 0.0001
조계사 0.0001
유키 0.0001
컴백홈 0.0001
베리굿 0.0001
직장인의길 0.0001
bigeion 0.0001
빅이안 0.0001
태평동 0.0001
사랑의제철 0.0001
상무지구 0.0001
서면옷가게 0.0001
동성로옷가게 0.0001
못말 0.0001
글귀스타그램 0.0001
마스크팩 0.0001
이천쌀 0.0001
gelatigelati 0.0001
coreanos 0.0001
저는레드불이요 0.0001
vvip 0.0001
коник 0.0001
avocadopancake 0.0001
붓닿는데로 0.0001
석류타임 0.0001
휴가중 0.0001
물통 0.0001
미니마우스 0.0001
샤넬가브리엘 0.0001
어제의점심 0.0001
장꼬방 0.0001
instarfood 0.0001
파란하늘이보이는술집 0.0001
클래식자전거 0.0001
트랜드지금여기 0.0001
연합뉴스tv 0.0001
연합뉴스 0.0001
꿀모닝 0.0001
잘잤구먼 0.0001
체크인플리즈 0.0001
체크아웃플리즈 0.0001
발가락그램 0.0001
20170515 0.0001
악마의베이컨 0.0001
혼자뭐라는건지 0.0001
몽블랑에끌레어 0.0001
크림빵 0.0001
크림케이크 0.0001
플리플리 0.0001
fleeflee 0.0001
김연아단골 0.0001
진짜참나무 0.0001
웰치스포도 0.0001
오늘사진 0.0001
원없이찍음 0.0001
씐남 0.0001
이태원구경 0.00

환상조합 0.0001
무엇을상상하던 0.0001
과즙상 0.0001
원기쉡 0.0001
반가웠어요 0.0001
happythanksgiving 0.0001
추수감사절 0.0001
칠면조 0.0001
그레이비 0.0001
thanksgiving 0.0001
stuffing 0.0001
givethanks 0.0001
eeeats 0.0001
도레미파솔파미레도 0.0001
knowyourscales 0.0001
knowyourchords맨날 0.0001
로얄 0.0001
세탁 0.0001
컴퓨터드라이크리닝 0.0001
カメラ女子 0.0001
음스타그램 0.0001
펩시 0.0001
잉수랑 0.0001
고향이 0.0001
miller 0.0001
마포구청역 0.0001
바삭바삭 0.0001
커리비스트로 0.0001
수제진저에일 0.0001
justinbieberrp 0.0001
littlebrother 0.0001
girlfriend 0.0001
themarbling 0.0001
더마블링 0.0001
젓가락송 0.0001
happyhappyday웃으며 0.0001
유리의성 0.0001
산방산탄산온천 0.0001
이태원브런치카페 0.0001
혼카페 0.0001
피스코사워 0.0001
piscosour 0.0001
2017서울카페쇼 0.0001
2017cafeshow 0.0001
2017wbc 0.0001
seoulcafeshow 0.0001
아이스모카 0.0001
예진갬성 0.0001
펜단트 0.0001
아무것도할수있는 0.0001
일요일낮 0.0001
에너지 0.0001
아메리카노한잔 0.0001
안녕하세요 0.0001
신입 0.0001
괜찮은밤 0.0001
순찰 0.0001
재미난동네 0.0001
혹독함 0.0001
파이팅 0.0001
오빠가 0.0001
우리신랑 0.0001
coffeesmith 0.0001
향기로운 0.0001
럭키야사랑해 0.0001
천천히걷기 0.0001
미세먼지조심 0.0001
출산준비 0.0001
딸맘 0.0001
예비맘스타그램 0.00

샴공맛집 0.0001
싸인페인팅샵 0.0001
americansignwriter 0.0001
oldbook 0.0001
signbook 0.0001
1800s 0.0001
1900s 0.0001
올드북 0.0001
싸인북 0.0001
지나가다 0.0001
우연히 0.0001
일찍여는카페 0.0001
우사단계단장 0.0001
seife 0.0001
병가 0.0001
장국영유자브루스게타 0.0001
오늘도배뻥 0.0001
바람부는후암동 0.0001
대사관길 0.0001
문화 0.0001
컬쳐 0.0001
timeout 0.0001
타임아웃서울 0.0001
press 0.0001
ou 0.0001
양파 0.0001
모이스춰라이징 0.0001
양파크림 0.0001
와인잔 0.0001
porcelainpainting 0.0001
취미미술 0.0001
그릭온더그릴 0.0001
스테이블 0.0001
괜스레 0.0001
녹사평맛집32393239카페 0.0001
로우커피밀크티 0.0001
루이보스바닐라 0.0001
수다폭발 0.0001
통밍크머플러 0.0001
통밍크머플러공구 0.0001
밍크머플러 0.0001
밍크머플러공구 0.0001
파스타아직도 0.0001
니글니글여기서 0.0001
뜬금없는위치 0.0001
ryan 0.0001
화로구이1인 0.0001
혼고기 0.0001
grazing 0.0001
과일청아이들 0.0001
진주혁신 0.0001
축하해줘서 0.0001
찬열아생일축하해 0.0001
찬열 0.0001
찬열생일 0.0001
생일축하해찬열아 0.0001
카페인섭취 0.0001
샌드위치멋진 0.0001
마쉬멜로우 0.0001
달아 0.0001
남영동 0.0001
까치네 0.0001
닭볶음탕가격이 0.0001
동생네 0.0001
오픈한 0.0001
사천식 0.0001
중국식 0.0001
놓지말라고전화받을때까지안놓는건쫌 0.0001
나혼자서도잘놀아요 0.0001
걱정말아요그대 0.0001
가성비쩔어와인 0.0001
귀국환영회 0.0001
와인모임 0.0001
음식맛남

신년회 0.0001
bnhr오늘도 0.0001
두유크림떡볶이강정우사단길맛집 0.0001
우사단밥집 0.0001
떡강정 0.0001
인기메뉴 0.0001
크림떡볶이 0.0001
버티고 0.0001
버티고클라이밍 0.0001
버티고클라이밍짐 0.0001
vertigo 0.0001
vertigoclimbing 0.0001
vertigoclimbinggym 0.0001
개그우먼 0.0001
강유미 0.0001
싸인도남겨줌 0.0001
이태원친구들 0.0001
리체타브로들 0.0001
머랭쿠키만들기 0.0001
수제마들렌 0.0001
제빵 0.0001
무념 0.0001
스위치 0.0001
스탠리스 0.0001
led 0.0001
lamp 0.0001
switch 0.0001
프라하에서온편지 0.0001
프라하 0.0001
prague 0.0001
ohlalaseoul 0.0001
한남동오라라 0.0001
서방견문록 0.0001
버뮤다삼각지 0.0001
언플러그드바바 0.0001
웹매거진 0.0001
멕시코음식점 0.0001
화이타 0.0001
버섯무덤파스타 0.0001
삼각지역맛집 0.0001
editor 0.0001
에디터 0.0001
웹진 0.0001
webmagazine 0.0001
webzine 0.0001
unpluggedbaba 0.0001
coneystudio 0.0001
경리단와인바 0.0001
보석길와인 0.0001
녹사평와인 0.0001
오탁민쿠폰 0.0001
경리단월하정인 0.0001
경리단길월하정인 0.0001
와인바월하정인 0.0001
수비드동파육 0.0001
꽁티드툴레아한남점 0.0001
vanillialatte오늘 0.0001
더스토브 0.0001
도도한부엌 0.0001
s팩토리 0.0001
재우스키친 0.0001
아드님너무너무귀엽던데 0.0001
방문해 0.0001
엄코코 0.0001
손님은왕 0.0001
bestmoments 0.0001
roastingcafe 0.0001
cocopop 0.0001
adoptdontshop 0.0001
다

마이원더원하면은 0.0001
아크네era코트 0.0001
acnestudios 0.0001
구찌인터라켄 0.0001
구찌체인숄더백 0.0001
봄사랑벚꽃말고 0.0001
리얼레모네이드 0.0001
뜻밖의가수 0.0001
청년몰에도 0.0001
유쾌한만남 0.0001
손가락 0.0001
치워줄래 0.0001
20170921하고싶었던 0.0001
마딛따 0.0001
시원한바람 0.0001
아머마켓 0.0001
나가자 0.0001
쵸코 0.0001
고고고 0.0001
해방촌오난희 0.0001
badandboujee 0.0001
만져주면 0.0001
기분좋은 0.0001
망또 0.0001
만지냥 0.0001
happyhappyday금요일 0.0001
써니브레드영롱하게 0.0001
데빌초코케이크 0.0001
꾸덕꾸덕 0.0001
happyhappyday날이 0.0001
all 0.0001
secondhand 0.0001
만원 0.0001
가을옷 0.0001
가을여행 0.0001
가을패션 0.0001
겨울바다 0.0001
겨울여행 0.0001
인스타그램중독 0.0001
오늘아침 0.0001
비건버거 0.0001
healthylife 0.0001
죽전카페거리 0.0001
조이풀마켓 0.0001
디코드 0.0001
뷰조하 0.0001
맛도조하 0.0001
memory 0.0001
chill 0.0001
놀러가고싶다 0.0001
남매둥이 0.0001
빼박집순이 0.0001
국밥 0.0001
카페사루쓰고 0.0001
꽃이가득 0.0001
데잇데잇 0.0001
mimi 0.0001
dan 0.0001
틴트선글라스 0.0001
해산물킬러 0.0001
hip 0.0001
와인킬러 0.0001
셀피족 0.0001
갤럭시8 0.0001
카페디에고 0.0001
디에고 0.0001
17년차 0.0001
아기자기 0.0001
정란 0.0001
스타일아닌듯 0.0001
151114instadaily 0.0001
cafediego 0.0001
스테이모얼 0.0001
맛있어서포장까지 0.0001


착한연예인 0.0001
마초스헛 0.0001
테라스타그램 0.0001
영상공개짜잔 0.0001
팬디 0.0001
실물이더예쁜건안비밀 0.0001
실물깡패 0.0001
예쁨주의 0.0001
도자기까페 0.0001
라움제이 0.0001
명품스타일 0.0001
싸우지말자 0.0001
보듬어줄게 0.0001
한남동고깃집 0.0001
김보성의리의리한집 0.0001
하이포크맛집 0.0001
비오는일요일 0.0001
차우차우 0.0001
오레오그램 0.0001
호랑이그램 0.0001
chowchow 0.0001
chowstargram 0.0001
이제곧월요일 0.0001
개꿀맛약간 0.0001
토마토파스타 0.0001
오리털패딩 0.0001
흥 0.0001
후광 0.0001
미수식당우니동 0.0001
경리단길계단 0.0001
rainbowroll 0.0001
간만에데이트 0.0001
우민아미안 0.0001
고양이그램 0.0001
집사의하루 0.0001
알레르기 0.0001
스코티쉬폴드 0.0001
집사 0.0001
나만없어진짜사람들고양이다있고나만없어 0.0001
부쩍외식타령하는우리집똥강아지 0.0001
나의필살기매운된장찌개질렸니 0.0001
275c 0.0001
피치볼 0.0001
peachball 0.0001
마스코트 0.0001
보고싶다 0.0001
윤현찬 0.0001
쉐프님과 0.0001
채널a 0.0001
하트시그널 0.0001
목요일와인 0.0001
비건카페 0.0001
공유이벤트 0.0001
조니워커 0.0001
블랙라벨 0.0001
구형보틀 0.0001
블렌디드 0.0001
스카치 0.0001
johnniewalker 0.0001
blacklabel 0.0001
oldbottles 0.0001
whiskygram 0.0001
whiskyporn 0.0001
whiskylife 0.0001
미니드베베 0.0001
덕다운패딩 0.0001
라쿤패딩 0.0001
홀가먼트니트 0.0001
이태원파트사 0.0001
한강진피자 0.0001
먹는즐거움 0.0001
loulo

happyhappyday집에서 0.0001
그릇가게 0.0001
노리다케 0.0001
본차이나 0.0001
맥주컵 0.0001
파스타접시 0.0001
밥그릇 0.0001
국그릇 0.0001
리차드카피켓 0.0001
2달전 0.0001
액땜 0.0001
눈치 0.0001
개껌 0.0001
얌전하개 0.0001
언니는대단했다 0.0001
빌리스팬케익 0.0001
바나나팬케익 0.0001
경리단길10대맛집 0.0001
핑크림토스트 0.0001
캐릭터솜사탕예쁜 0.0001
존맛인형도 0.0001
0msanchemistry 0.0001
귀려워 0.0001
경리당길 0.0001
ㅅㅅ음식작업소세상에 0.0001
주방장및사장및이빨쟁이 0.0001
역시모든건 0.0001
처음이젤맛있음 0.0001
하시엔다 0.0001
hacienda 0.0001
멕시코요리 0.0001
남미음식 0.0001
꽃집추천 0.0001
탑기어장미 0.0001
결혼선물 0.0001
ddukbokki 0.0001
후랜드천 0.0001
옛날떡볶이 0.0001
이태원존맛 0.0001
사진찍기좋은곳 0.0001
우정그램 0.0001
딥스팸 0.0001
사랑한다 0.0001
카페투어살빼서올께내덩치실화냐 0.0001
셀린모어롱자켓 0.0001
핀턱부츠컷팬츠 0.0001
remymartin 0.0001
러블리룩 0.0001
東大門 0.0001
新款 0.0001
newarrival 0.0001
wholesale 0.0001
일많은하루 0.0001
중독되는맛 0.0001
에클레르 0.0001
눈사람 0.0001
해방주민 0.0001
국물떡복이 0.0001
제주고기집 0.0001
코스모스 0.0001
제이뮤지엄 0.0001
실버팔지 0.0001
조선족갱무비 0.0001
탑쓰리 0.0001
covetblan暑すぎて寄ったカフェ 0.0001
cafecovetblan 0.0001
도심여행 0.0001
심양 0.0001
통마늘꼬치 0.0001
심양양꼬치 0.0001
mutton 0.0001
qingdao 0.0001
부산아재어묵

양복점 0.0001
kingsman 0.0001
블리스 0.0001
먹부심 0.0001
버스 0.0001
常懷千歲憂llolllloll 0.0001
생양파 0.0001
김병일셰프 0.0001
모던심플 0.0001
모어블링 0.0001
유행귀걸이 0.0001
떵이랑데이트 0.0001
무한도전 0.0001
밤데이트 0.0001
김뽁밥 0.0001
오징어먹물리조또 0.0001
늘 0.0001
바닥에뒹굴어꾀죄죄한룽지와 0.0001
공주님같이보송한구름이 0.0001
samoyed 0.0001
해방촌베트남샌드위치 0.0001
주 0.0001
다양 0.0001
커피스미스 0.0001
야경보러왓다가 0.0001
양말가게 0.0001
내집맛집 0.0001
등심구이 0.0001
비냉 0.0001
송이버섯 0.0001
커핑 0.0001
우산 0.0001
필수 0.0001
땡겨 0.0001
밥알 0.0001
찹쌀떡 0.0001
최희서 0.0001
트와이스 0.0001
몬스터 0.0001
beechoose 0.0001
비이츄즈 0.0001
퍼 0.0001
퍼클러치 0.0001
페이크퍼 0.0001
당떨어짐 0.0001
그래서만취 0.0001
routine 0.0001
curryrice 0.0001
chopsteak 0.0001
훈연 0.0001
무한리필 0.0001
구이 0.0001
날씨굳 0.0001
바람쐬기좋은날 0.0001
분위기좋은까페 0.0001
짜용 0.0001
샤넬카드지갑 0.0001
샤넬가방 0.0001
샤넬크로스 0.0001
iwc 0.0001
매봉역카페 0.0001
기다림 0.0001
단풍이물들 0.0001
디자인해야되는데 0.0001
フェリ 0.0001
페리로스타즈 0.0001
instafashion 0.0001
야경조하 0.0001
막걸리조아언니랑 0.0001
이태원모우모우yeossseul 0.0001
막걸리맛집 0.0001
삼겹김치전 0.0001
roberobe 0.0001
balloon 0.0001
로베로베 0.0001
풍선 0.0001
신난당 0.0001
대

sbs 0.0001
개그맨 0.0001
이영식 0.0001
아빠의삶 0.0001
딸과여행 0.0001
베트남여행 0.0001
다낭 0.0001
청라신도시 0.0001
영상제작 0.0001
바이럴영상 0.0001
도깨비픽쳐스 0.0001
프로필투어 0.0001
감기조심httpsyoutube 0.0001
mfp4rfddyc 0.0001
홍어 0.0001
홍어삼합 0.0001
직원들과 0.0001
포차7080 0.0001
문어보쌈 0.0001
초코에몽 0.0001
솔로스키친 0.0001
한남동백반 0.0001
횡성한우 0.0001
화연당 0.0001
플라워영상 0.0001
날씨개꿀 0.0001
원두제일 0.0001
성찰 0.0001
20대 0.0001
사회 0.0001
사회적인 0.0001
로스팅 0.0001
샘플로스팅 0.0001
상처 0.0001
배려 0.0001
배려심 0.0001
소심 0.0001
소심함 0.0001
깊어가는가을밤 0.0001
브라우니맛집 0.0001
네이버 0.0001
이웃신청 0.0001
어떻게하는거죠 0.0001
글쓰는데만 0.0001
세시간 0.0001
나란바보 0.0001
호호 0.0001
l4lf4f 0.0001
샐러드파스타 0.0001
현대아울렛 0.0001
엉클샘팬케이크 0.0001
호밀스콘키에리 0.0001
식사 0.0001
꼬수움 0.0001
eatstagram 0.0001
왼손은거들뿐 0.0001
먹리어답터 0.0001
fi0l 0.0001
0mjasikdang 0.0001
dish 0.0001
chillout 0.0001
방학식 0.0001
목금토영업 0.0001
늦은마감 0.0001
4시마감은피곤 0.0001
30분도안되서 0.0001
깨끗히클리어 0.0001
데일리브루차가운 0.0001
레드마운틴 0.0001
tomo 0.0001
aya 0.0001
미슐랭스타 0.0001
happyhappyday방콕갔을때 0.0001
목화꽃다발 0.0001
burgerpub 0.0001
ㄷㅇㅌㅇㄴ 0.0001
호주식브런치 0.0001

In [11]:
vocab_size = len(word_to_index) + 1
print('단어 집합의 크기: {}'.format((vocab_size)))

단어 집합의 크기: 20568


In [12]:
print('피드의 최대 길이 : %d' % max(len(sample) for sample in X_train_encoded))
print('피드의 평균 길이 : %f' % (sum(map(len, X_train_encoded))/len(X_train_encoded)))

피드의 최대 길이 : 83
피드의 평균 길이 : 14.030182


In [13]:
max_len = 453
X_train_padded = pad_sequences(X_train_encoded, maxlen = max_len)
X_test_padded  = pad_sequences(X_test_encoded, maxlen=max_len)
print("훈련 데이터의 크기(shape):", X_train_padded.shape)

훈련 데이터의 크기(shape): (7256, 453)


# RNN

In [14]:
from keras import backend as K

def recall(y_target, y_pred):
    # clip(t, clip_value_min, clip_value_max) : clip_value_min~clip_value_max 이외 가장자리를 깎아 낸다
    # round : 반올림한다
    y_target_yn = K.round(K.clip(y_target, 0, 1)) # 실제값을 0(Negative) 또는 1(Positive)로 설정한다
    y_pred_yn = K.round(K.clip(y_pred, 0, 1)) # 예측값을 0(Negative) 또는 1(Positive)로 설정한다

    # True Positive는 실제 값과 예측 값이 모두 1(Positive)인 경우이다
    count_true_positive = K.sum(y_target_yn * y_pred_yn) 

    # (True Positive + False Negative) = 실제 값이 1(Positive) 전체
    count_true_positive_false_negative = K.sum(y_target_yn)

    # Recall =  (True Positive) / (True Positive + False Negative)
    # K.epsilon()는 'divide by zero error' 예방차원에서 작은 수를 더한다
    recall = count_true_positive / (count_true_positive_false_negative + K.epsilon())

    # return a single tensor value
    return recall


def precision(y_target, y_pred):
    # clip(t, clip_value_min, clip_value_max) : clip_value_min~clip_value_max 이외 가장자리를 깎아 낸다
    # round : 반올림한다
    y_pred_yn = K.round(K.clip(y_pred, 0, 1)) # 예측값을 0(Negative) 또는 1(Positive)로 설정한다
    y_target_yn = K.round(K.clip(y_target, 0, 1)) # 실제값을 0(Negative) 또는 1(Positive)로 설정한다

    # True Positive는 실제 값과 예측 값이 모두 1(Positive)인 경우이다
    count_true_positive = K.sum(y_target_yn * y_pred_yn) 

    # (True Positive + False Positive) = 예측 값이 1(Positive) 전체
    count_true_positive_false_positive = K.sum(y_pred_yn)

    # Precision = (True Positive) / (True Positive + False Positive)
    # K.epsilon()는 'divide by zero error' 예방차원에서 작은 수를 더한다
    precision = count_true_positive / (count_true_positive_false_positive + K.epsilon())

    # return a single tensor value
    return precision


def f1score(y_target, y_pred):
    _recall = recall(y_target, y_pred)
    _precision = precision(y_target, y_pred)
    # K.epsilon()는 'divide by zero error' 예방차원에서 작은 수를 더한다
    _f1score = ( 2 * _recall * _precision) / (_recall + _precision+ K.epsilon())
    
    # return a single tensor value
    return _f1score

In [15]:
from tensorflow.keras.layers import SimpleRNN, Embedding, Dense
from tensorflow.keras.models import Sequential

embedding_dim = 128
hidden_units = 128

model = Sequential()
model.add(Embedding(vocab_size, embedding_dim))
model.add(SimpleRNN(hidden_units))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy', precision, recall, f1score])
history = model.fit(X_train_padded, y_train, epochs=5 ,batch_size=64, validation_split=0.3)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


In [16]:
X_test_encoded = tokenizer.texts_to_sequences(X_test)
X_test_padded = pad_sequences(X_test_encoded, maxlen = max_len)
print("\n 테스트 정확도: %.4f" % (model.evaluate(X_test_padded, y_test)[1]))


 테스트 정확도: 0.8537


# LSTM

In [72]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, SimpleRNN, LSTM, Embedding

# 모델 구축
# 레이어들을 쌓을 모델을 생성
model = Sequential()
model.add(Embedding(45000, 160))
model.add(LSTM(160))
model.add(Dense(1, activation='sigmoid'))

In [76]:
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

# 테스트 데이터 손실함수값(val_loss)이 patience회 이상 연속 증가하면 학습을 조기 종료하는 콜백
early_stop = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)
# 훈련 도중 테스트 데이터 정확도(val_acc)가 높았던 순간을 체크포인트로 저장해 활용하는 콜백
model_check = ModelCheckpoint('the_best.h5', monitor='val_acc', mode='max', verbose=1, save_best_only=True)

In [141]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy', precision, recall, f1score])
model.fit(X_train_padded, y_train, validation_split=0.3  ,epochs=4, batch_size=64, callbacks=[early_stop, model_check])

Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4


<keras.callbacks.History at 0x279649069a0>

In [134]:
print(model.evaluate(X_test_padded, y_test))

[0.4108043313026428, 0.8842443823814392, 0.8929822444915771, 0.9284731149673462, 0.9086498618125916]


In [81]:
model = Sequential()
model.add(Embedding(45000, 150))
model.add(LSTM(150))
model.add(Dense(64, activation = 'relu'))
model.add(Dense(2, activation='softmax'))

In [82]:
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy', precision, recall, f1score])
model.fit(X_train_padded, y_train, validation_split=0.3  ,epochs=5, batch_size=64, callbacks=[early_stop, model_check])

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x25428be7f40>

In [83]:
print(model.evaluate(X_test_padded, y_test))

[0.5126271843910217, 0.8752411603927612, 0.6389243006706238, 1.0, 0.7757214903831482]


# 나이브베이즈

In [18]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB # 다항분포 나이브 베이즈 모델
from sklearn.metrics import accuracy_score #정확도 계산

In [26]:
dtmvector = CountVectorizer()
X_train_dtm = dtmvector.fit_transform(X_train)
print(X_train_dtm.shape)

(7256, 20363)


In [20]:
tfidf_transformer = TfidfTransformer()
tfidfv = tfidf_transformer.fit_transform(X_train_dtm)
print(tfidfv.shape)

(7256, 20363)


In [21]:
mod = MultinomialNB()
mod.fit(tfidfv, y_train)

MultinomialNB()

In [22]:
MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

MultinomialNB()

In [23]:
X_test_dtm = dtmvector.transform(X_test) #테스트 데이터를 DTM으로 변환
tfidfv_test = tfidf_transformer.transform(X_test_dtm) #DTM을 TF-IDF 행렬로 변환

predicted = mod.predict(tfidfv_test) #테스트 데이터에 대한 예측
print("정확도:", classification_report(y_test, predicted)) #예측값과 실제값 비교

정확도:               precision    recall  f1-score   support

           0       0.93      0.59      0.72      1115
           1       0.81      0.97      0.88      1995

    accuracy                           0.83      3110
   macro avg       0.87      0.78      0.80      3110
weighted avg       0.85      0.83      0.82      3110



# logistic Regression

In [67]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [69]:
lr = LogisticRegression()
lr.fit(X_train_dtm,y_train)
pred_Y = lr.predict(X_test_dtm)
print(classification_report(y_test, pred_Y))

              precision    recall  f1-score   support

           0       0.85      0.80      0.82      1115
           1       0.89      0.92      0.90      1995

    accuracy                           0.88      3110
   macro avg       0.87      0.86      0.86      3110
weighted avg       0.87      0.88      0.87      3110



# RandomForest

In [65]:
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
RF_clf = clf.fit(X_train_padded, y_train)
RF_pred = RF_clf.predict(X_test_padded)
RF_pred
print(classification_report(y_test, RF_pred))

              precision    recall  f1-score   support

           0       0.87      0.58      0.70      1115
           1       0.80      0.95      0.87      1995

    accuracy                           0.82      3110
   macro avg       0.84      0.77      0.78      3110
weighted avg       0.83      0.82      0.81      3110



# ELMo --> colab에서 실행

%tensorflow_version 1.x 

pip install tensorflow-hub

import tensorflow_hub as hub
import tensorflow as tf
from keras import backend as K
import urllib.request
import pandas as pd
import numpy as np

elmo = hub.Module("https://tfhub.dev/google/elmo/1", trainable=True)
 텐서플로우 허브로부터 ELMo를 다운로드

sess = tf.Session()
K.set_session(sess)
sess.run(tf.global_variables_initializer())
sess.run(tf.tables_initializer())

from sklearn.model_selection import train_test_split
X = data["word"]
y = data["type"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 123,stratify=y)

def ELMoEmbedding(x):
    return elmo(tf.squeeze(tf.cast(x, tf.string)), as_dict=True, signature="default")["default"]

from keras.models import Model
from keras.layers import Dense, Lambda, Input

input_text = Input(shape=(1,), dtype=tf.string)
embedding_layer = Lambda(ELMoEmbedding, output_shape=(1024, ))(input_text)
hidden_layer = Dense(256, activation='relu')(embedding_layer)
output_layer = Dense(1, activation='sigmoid')(hidden_layer)
model = Model(inputs=[input_text], outputs=output_layer)
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

history = model.fit(X_train, y_train, epochs=4, batch_size=60)

print("\n 테스트 정확도: %.4f" % (model.evaluate(X_test, y_test)[1]))

# SVM

In [17]:
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix


def SVM(X_train, X_test, y_train, y_test):
    svm = SVC()
    svm.fit(X_train, y_train)
    pred_y = svm.predict(X_test)
    return pred_y

pred_y = SVM(X_train_padded, X_test_padded, y_train, y_test)

# SVM 분류 결과값을 출력합니다.
print("\nConfusion matrix : \n", confusion_matrix(y_test, pred_y))
print("\nReport : \n", classification_report(y_test, pred_y))


Confusion matrix : 
 [[ 113 1002]
 [  37 1958]]

Report : 
               precision    recall  f1-score   support

           0       0.75      0.10      0.18      1115
           1       0.66      0.98      0.79      1995

    accuracy                           0.67      3110
   macro avg       0.71      0.54      0.48      3110
weighted avg       0.69      0.67      0.57      3110



In [27]:
pred_y = SVM(tfidfv, tfidfv_test, y_train, y_test)

# SVM 분류 결과값을 출력합니다.
print("\nConfusion matrix : \n", confusion_matrix(y_test, pred_y))
print("\nReport : \n", classification_report(y_test, pred_y))


Confusion matrix : 
 [[ 829  286]
 [  92 1903]]

Report : 
               precision    recall  f1-score   support

           0       0.90      0.74      0.81      1115
           1       0.87      0.95      0.91      1995

    accuracy                           0.88      3110
   macro avg       0.88      0.85      0.86      3110
weighted avg       0.88      0.88      0.88      3110



In [34]:
import sklearn.svm as svm
import sklearn.metrics as mt
from sklearn.model_selection import cross_val_score, cross_validate

In [56]:
from gensim.models import Word2Vec
# Skip-gram (sg=1)
w2v_skip_gram = Word2Vec(X_train, vector_size=100, window=10, min_count=10, workers=4, sg=1)
# CBOW (sg=0)
w2v_CBOW = Word2Vec(X_train, vector_size=100, window=10, min_count=10, workers=4, sg=0)

# size : 한 단어당 몇 차원의 벡터로 만들지
# window : 앞뒤 몇개의 단어를 사용할지
# min_count : 최소 등장 횟수(min_count이하인 단어는 제외)
# sg : CBOW(=0)로 할지 skip-gram(=1)으로 할지

In [60]:
w2v_skip_gram.wv.vectors.shape

(904, 100)

In [61]:
w2v_CBOW.wv.vectors.shape

(904, 100)

In [57]:
# Text embedding 하기
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import defaultdict
import numpy as np

In [58]:
# 문서 embedding
class TfidfEmbeddingVectorizer:
    def __init__(self, word2vec):
        self.word2vec = word2vec

    def transform(self, X):
        tfidf = TfidfVectorizer(analyzer = lambda x : x) 
        tfidf.fit(X)
        max_idf = max(tfidf.idf_) 
        word2weight = defaultdict(lambda : max_idf, [(w, tfidf.idf_[i]) for w, i in tfidf.vocabulary_.items()]) 

        array_list =[]
        for words in X:
            array_list.append(np.array(np.mean([self.word2vec[w]*word2weight[w] for w in words if w in self.word2vec] or [np.zeros(100)], axis = 0)))
        return(array_list)

vec_tf_skip_gram = TfidfEmbeddingVectorizer(w2v_skip_gram)
vec_tf_CBOW = TfidfEmbeddingVectorizer(w2v_CBOW)

In [59]:
# skip-gram
train_tf_s = vec_tf_skip_gram.transform(X_train)
test_tf_s = vec_tf_skip_gram.transform(X_test)
# CBOW
train_tf_c = vec_tf_CBOW.transform(X_train)
test_tf_c = vec_tf_CBOW.transform(X_test)

TypeError: argument of type 'Word2Vec' is not iterable

In [63]:
# Support Vector Machine
from sklearn.svm import SVC
clf = SVC(decision_function_shape='ovo') # SVM 만들기
svc_clf_s = clf.fit(train_tf_s, label_train)  # skip-gram
svc_clf_c = clf.fit(train_tf_c, label_train)  # CBOW

# 예측값 뽑아내기
svc_pred_s = svc_clf.predict(test_tf_s) # skip-gram
svc_pred_c = svc_clf.predict(test_tf_c) # CBOW

# 정확도 확인
from sklearn import metrics
print(classification_report(label_test, svc_pred_s)) # skip-gram

NameError: name 'train_tf_s' is not defined

In [65]:
#Load the word2vec model
word2vec = KeyedVectors.load_word2vec_format(EMBEDDING_FILE, binary=True)

word_index = tokenizer.word_index
nb_words = min(MAX_NB_WORDS, len(word_index))+1

embedding_matrix = np.zeros((nb_words, EMBEDDING_DIM))
null_words = []
for word, i in word_index.items():
    if word in word2vec.wv.vocab:
        embedding_matrix[i] = word2vec.word_vec(word)
    else:
        null_words.append(word)

embedding_layer = Embedding(embedding_matrix.shape[0], # or len(word_index) + 1
                            embedding_matrix.shape[1], # or EMBEDDING_DIM,
                            weights=[embedding_matrix],
                            input_length=701,
                            trainable=False)

model = Sequential()
model.add(embedding_layer)
model.add(LSTM(100))
model.add(Dropout(0.4))
model.add(Dense(2, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

NameError: name 'KeyedVectors' is not defined