In [4]:
from tensorflow.keras.models import load_model
from tensorflow.keras.preprocessing.text import Tokenizer
# 테스트 데이터에 대해서 정확도 측정
loaded_model = load_model('/content/drive/MyDrive/tfidf/1203_final_lstm.h5')

In [6]:
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

In [7]:
!pip install konlpy
from konlpy.tag import Okt
# 토큰화를 위한 형태소 분석기는 KoNLPy의 Okt를 사용
okt = Okt()

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m77.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m51.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [9]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
max_len = 100

In [8]:
import pickle

# 저장된 tokenizer를 불러오기
tokenizer_filename = '/content/drive/MyDrive/tfidf/tokenizer3.pkl'
with open(tokenizer_filename, 'rb') as file:
    loaded_tokenizer = pickle.load(file)

In [10]:
# 현재 학습한 model에 새로운 입력에 대해서 예측값을 얻기위해 model.predict()를 사용
# 새로운 입력에 대해서도 동일한 전처리를 수행 후에 model.predict()의 입력하여 사용

def voicephshing_predict(new_sentence):
  new_sentence = okt.morphs(new_sentence, stem=True) # 토큰화
  new_sentence = [word for word in new_sentence if not word in stopwords] # 불용어 제거
  print(new_sentence)
  encoded = loaded_tokenizer.texts_to_sequences([new_sentence]) # 정수 인코딩
  print(encoded)
  pad_new = pad_sequences(encoded, maxlen = 100) # 패딩
  print(pad_new)
  score = float(loaded_model.predict(pad_new)) # 예측
  if(score > 0.5):
    print("{:.2f}% 확률로 보이스피싱입니다.\n".format(score * 100))
  else:
    print("{:.2f}% 확률로 일반대화입니다.\n".format((1 - score) * 100))

In [11]:
voicephshing_predict('압수물품에서 서울시에서 발급된 귀하 명의의 우리은행 및 하나은행 통장이 발견되었습니다. 최근 지갑이나 신분증을 잃어버린 적이 있으신가요? 중고물품 거래 사이트에서 물건을 판매한 적이 있습니까?')

['압수', '물품', '에서', '서울시', '에서', '발급', '되다', '귀하', '명의', '우리은행', '및', '하나은행', '통장', '발견', '되어다', '.', '최근', '지갑', '이나', '신분증', '을', '잃어버리다', '적', '있다', '가요', '?', '중고', '물품', '거래', '사이트', '에서', '물건', '을', '판매', '적', '있다', '?']
[[798, 9, 9, 155, 1, 799, 143, 307, 440, 61, 645, 78, 625, 137, 374, 4, 63, 3, 268, 798, 257, 800, 9, 4, 609, 63, 3]]
[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0 798   9   9 155   1 799 143 307 440  61 645  78 625 137 374   4  63
    3 268 798 257 800   9   4 609  63   3]]
99.74% 확률로 보이스피싱입니다.



In [14]:
voicephshing_predict('신용 그 대출 중계 업체가 대출 에이전시 이용 전산 기록으로 저희가 등록이 되신 고객분들 한해서 저희가 상담을 하고 고객님 담당자 분 상담을 하고 나서 고객님께서 접수를 하실 부분에 대해서 접수를 하면 해드리는데 저 부분이 인증이 되면 그때 거래 중가 본사 쪽으로 접수를 해드립니다')

['신용', '그', '대출', '중계', '업체', '대출', '에이전시', '이용', '전산', '기록', '저희', '등록', '되다', '고객', '분들', '한해', '서', '저희', '상담', '을', '고객', '님', '담당자', '분', '상담', '을', '나서다', '고객', '님', '께서', '접수', '부분', '대해', '서', '접수', '해드리다', '저', '부분', '인증', '되다', '그때', '거래', '중', '본사', '쪽', '접수', '해드리다']
[[523, 15, 36, 36, 105, 298, 562, 12, 1, 11, 55, 12, 4, 11, 6, 303, 223, 4, 818, 11, 6, 48, 399, 97, 114, 55, 399, 92, 81, 97, 1, 542, 257, 127, 29, 399, 92]]
[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0 523  15  36  36 105 298 562  12   1
   11  55  12   4  11   6 303 223   4 818  11   6  48 399  97 114  55 399
   92  81  97   1 542 257 127  29 399  92]]
99.75% 확률로 보이스피싱입니다.



In [28]:
voicephshing_predict('하나은행가셔서 적금 해지하시고 다 현금으로 받으시는데 은행원이 왜 뽑냐고 물어보면 아들 유학가는 자금이라고 하시고 더 물어보면 무시하시고 나오세요')

['하나은행', '갈다', '적금', '해지', '다', '현금', '받다', '은행원', '왜', '뽑다', '물어보다', '아들', '유학', '가다', '자금', '이라고', '더', '물어보다', '무시', '나오다']
[[619, 27, 354, 14, 128, 448, 23, 73, 218, 171, 448, 74]]
[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0 619  27
  354  14 128 448  23  73 218 171 448  74]]
94.85% 확률로 보이스피싱입니다.



In [26]:
voicephshing_predict(' 나 다은인데 나 통장이 문제가 있어서 친구 계좌로 받아야되거든? 지금 계좌번호 들려줄테니까 들어봐 오늘 등록금 하나은행 계좌에 꼭 넣어야돼 400만원 잊지말고 넣어줘 그래야 내가 살아')

['나', '다', '인데', '나', '통장', '문제', '있다', '친구', '계좌', '로', '받다', '되다', '?', '지금', '계좌', '번호', '들려주다', '들다', '보다', '오늘', '등록금', '하나은행', '계좌', '꼭', '넣다', '돼다', '400만원', '잊다', '넣다', '그', '래야', '내', '살', '아']
[[22, 27, 173, 22, 61, 541, 3, 318, 40, 8, 14, 1, 16, 40, 205, 99, 18, 115, 40, 344, 353, 47, 353, 15, 795, 46, 449, 21]]
[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   22  27 173  22  61 541   3 318  40   8  14   1  16  40 205  99  18 115
   40 344 353  47 353  15 795  46 449  21]]
99.41% 확률로 보이스피싱입니다.



In [18]:
voicephshing_predict('송다은씨 아시죠? 지금 송다은씨가 사기죄로 잡혀있는데 지금 본인 계좌를 이용한게 드러났어요')

['송다', '은씨', '아시', '죠', '?', '지금', '송다은씨', '사기죄', '로', '잡히다', '지금', '본인', '계좌', '용한', '게', '드러나다']
[[514, 201, 16, 8, 507, 16, 20, 40, 41]]
[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0 514 201  16   8 507  16  20  40  41]]
94.42% 확률로 보이스피싱입니다.



In [None]:
voicephshing_predict('안녕하세요 NH 컨설팅에서 전화드렸습니다. 예 혹시 고금리로 대출 쓰고 계시면은 은행권으로 대환이 가능하셔서 안내 차 연락 드렸는데요.')

['안녕하다', 'NH', '컨설팅', '에서', '전화', '드리다', '.', '예', '혹시', '고', '금리', '로', '대출', '쓰다', '계시다', '은행권', '대', '환', '가능하다', '안내', '차', '연락', '드리다', '.']
[[455, 9, 113, 17, 259, 142, 67, 161, 8, 36, 461, 350, 460, 151, 1329, 93, 604, 204, 83, 17]]
[[   0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0    0    0    0    0
     0    0    0    0    0    0    0    0    0    0  455    9  113   17
   259  142   67  161    8   36  461  350  460  151 1329   93  604  204
    83   17]]
99.99% 확률로 보이스피싱입니다.



In [19]:
voicephshing_predict('경기도 빨간 버스 얼마 하게얼마 하는데? 빨간 버스는?비싸?왕복 6천 원이야그거 일주일 타면 진짜 돈 순삭 키키아 진짜 대박나는 자가용 타고 다녀예전에 수원에서 출퇴근 할 때 진짜 버스비 엄청 나왔어차비로 돈 다 깨지겠네 키키 비싸다수원에서 서울 가려면 빨간 버스 타야 해월급을 죄다 버스비로 쓰는구만그래서 난 자취를 선택 했지 키키진짜 나도 그랬었는데 택시비택시비도 무시 못해 키키근데 여기 있으니 부지런해져진짜 순삭이야 월급 택시비로 키키당연하지 키키난 택시비 아껴서 방세 내야 해나 그래서 직장이 바로 앞이라 이제는 걸어 다녀 키키부럽다 키키그러면 교통비 많이 아끼겠다웅 나는 좀 많이 아끼긴 해')

['경기도', '빨갛다', '버스', '얼마', '얼마', '?', '빨갛다', '버스', '?', '비싸다', '?', '왕복', '6천', '원', '이야', '그거', '일주일', '타다', '진짜', '돈', '순삭', '키키', '아', '진짜', '대박나다', '자가용', '타고', '다니다', '예전', '수원', '에서', '출퇴근', '때', '진짜', '버스비', '엄청', '나오다', '차비', '로', '돈', '다', '깨지다', '키키', '비싸다', '수원', '에서', '서울', '가다', '빨갛다', '버스', '타다', '해', '월급', '을', '죄다', '버스비', '로', '쓰다', '그래서', '난', '자취', '선택', '키키', '진짜', '나다', '그렇다', '택시', '비', '택시', '비도', '무시', '못', '키키', '근데', '여기', '있다', '부지런하다', '진짜', '순삭', '이야', '월급', '택시', '비', '로', '키키', '당연하다', '키키', '난', '택시', '비', '아끼다', '방세', '내야', '해나', '그래서', '직장', '바로', '앞', '이라', '이제', '걸다', '다니다', '키키', '부럽다', '키키', '그러면', '교통비', '많이', '아끼다', '웅', '나', '많이', '아끼다', '해']
[[666, 679, 555, 157, 157, 679, 555, 291, 64, 159, 101, 864, 672, 7, 95, 865, 2, 21, 7, 320, 368, 595, 9, 50, 7, 236, 74, 8, 95, 27, 2, 291, 9, 169, 23, 679, 555, 672, 76, 4, 8, 461, 116, 172, 635, 2, 7, 72, 10, 680, 278, 680, 96, 2, 68, 144, 3, 7, 865, 159, 680, 278, 8, 2, 283, 2, 172, 680, 278, 866, 867, 

In [20]:
voicephshing_predict('타자 치면 어깨 아프지 않냐...나 어깨 아파 죽겠음 하하웅 마자손도 떨림,... 키키다들 자세를 바르게 해나 목 디스크 온 거 같아 ㅠㅠ거북목 되는 거 아니제...아직 병원 가긴 일러... 우리...갑자기 자고 일어나니 아파 죽겠음키키 맞아나도 자고 일어나면 어휴방금 자세 바르게 한 사람 키키저요 저요띠라렉을 하나 사야겠어어 키키 나도 방금 자세 똑바로 함띠라렉 효과 있대? 키키나도 바르게 해 봤어 한번 하하띠라렉이 뭐야? 키키도수 치료가 낫지 않냐 키키응 꽤나 있다던데 효과넌 한의원 갈 거자나 키키')

['타자', '치면', '어깨', '아프다', '않다', '...', '나', '어깨', '아프다', '죽다', '하하', '웅', '마', '자손', '떨리다', ',...', '키키', '다', '들다', '자세', '바르게', '해나', '목', '디스크', '온', '거', '같다', 'ㅠㅠ', '거북목', '되다', '거', '아니다', '제', '...', '아직', '병원', '가다', '이르다', '...', '우리', '...', '갑자기', '자고', '일어나다', '아프다', '죽다', '키키', '맞다', '자고', '일어나다', '어휴', '방금', '자세', '바르게', '사람', '키키', '저', '요', '저', '요', '띠', '라', '렉', '을', '하나', '사다', '키키', '나다', '방금', '자세', '똑바로', '함띠', '라', '렉', '효과', '있다', '?', '키키', '나다', '바르게', '해', '보다', '한번', '하하', '띠', '라', '렉', '뭐', '야', '?', '키키', '도수', '치료', '낫', '지', '않다', '키키', '응', '꽤', '나', '있다', '효과', '넌', '한의원', '갈다', '거', '나', '키키']
[[709, 52, 22, 709, 560, 322, 164, 2, 27, 99, 867, 772, 5, 32, 38, 1, 5, 25, 49, 378, 23, 745, 131, 709, 560, 2, 26, 107, 2, 81, 70, 81, 70, 238, 4, 180, 2, 72, 238, 3, 2, 72, 76, 18, 122, 322, 238, 24, 79, 2, 146, 52, 2, 263, 855, 22, 3, 619, 5, 22, 2]]
[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0

In [22]:
voicephshing_predict('진짜 결혼해서 육아하는 거 누가 안 도와주면 힘들 것 같아어 맞아 독박 육아는 생각도 하기 싫어 키키그치 육아는 도와주는 게 아니라 같이 해야 하는 거라고 하잖아 ㅠㅠ무조건 같이 해야지나 아는 언니는 독박 육아에 일도 하고 있더라고 ㅠㅠ헐 그거 진짜 너무 힘들겠는걸...와 독박 육아에 일도 어떻게 동시에 해... ㅠㅠ남편은 뭐 한대?근데 친정이나 시댁에서 아무도 안 도와줘서 ㅠㅠ남편도 일이 바쁘고 ㅠㅠ내 친구도 독박 육아인데 거긴 남편이 돈 번다고 투잡 뛰어서 ㅠㅠ 뭐라고 할 수가 없어ㅠㅠ 그런 경우는 진짜 어쩔 수 없이 혼자 해야지 ...그런 거 아니고는 혼자서는 진짜 절대 못하겠더라헐... 투잡? 남편도 진짜 힘들겠다 ㅠㅠ어어 맞아 그래서 뭐라고 하지도 못하고 혼자 애기 열심히 보는 듯 ㅠㅠㅠㅠ... 와 진짜 고생 많다...돈이 문제야 돈이!진짜 둘 다 너무 힘들겠다 ㅠㅠ육아하기 너무 무섭다 ㅠㅠ맞아 애기들 키우기 좋게 환경 좀 바꿔줬으면 좋겠어 키키그니까 키키 ㅠㅠ 요새 출산율도 줄어드는데 출산 축하금 장려금 이런 것도 많이 주고 해야 늘지!남자나 여자나 육아 때문에 회사 그만둘 생각 많이 한다고 하더라 ㅠㅠ그치 그래야 사람들도 결혼 생각도 하고 그러지 키키키키 그치 ㅠㅠ 솔직히 근데 육아 시작하면 일은 아예 못하니까 외벌이로 살아야 하는데 사회가 그렇게는 못 사는 사회니까 답답해')

['진짜', '결혼', '육아', '거', '누가', '안', '도와주다', '힘들다', '것', '같다', '맞다', '독박', '육아', '생각', '싫다', '키키', '그치다', '육아', '도와주다', '게', '아니다', '같이', '거', '라고', 'ㅠㅠ', '무조건', '같이', '알다', '언니', '독박', '육아', '일도', '있다', 'ㅠㅠ', '헐다', '그거', '진짜', '너무', '힘들다', '...', '오다', '독박', '육아', '일도', '어떻다', '동시', '해', '...', 'ㅠㅠ', '남편', '뭐', '대', '?', '근데', '친정', '이나', '시댁', '에서', '아무', '안', '도와주다', 'ㅠㅠ', '남편', '일이', '바쁘다', 'ㅠㅠ', '내', '친구', '독박', '육아', '인데', '거', '기다', '남편', '돈', '번다', '고', '투잡', '뛰다', 'ㅠㅠ', '뭐라다', '수가', '없다', 'ㅠㅠ', '그렇다', '경우', '진짜', '어쩔', '수', '없이', '혼자', '...', '그렇다', '거', '아니다', '혼자', '서다', '진짜', '절대', '못', '헐다', '...', '투잡', '?', '남편', '진짜', '힘들다', 'ㅠㅠ', '어어', '맞다', '그래서', '뭐라다', '못', '하고', '혼자', '애기', '열심히', '보다', '듯', 'ㅠㅠㅠㅠ', '...', '오다', '진짜', '고생', '많다', '...', '돈', '문제', '야', '돈', '!', '진짜', '둘', '다', '너무', '힘들다', 'ㅠㅠ', '육아', '너무', '무섭다', 'ㅠㅠ', '맞다', '애기', '키우다', '좋다', '환경', '바꾸다', '주다', '좋다', '키키', '그니까', '키키', 'ㅠㅠ', '요새', '출산율', '줄어들다', '출산', '축하', '금', '장려', '금', '이렇다', '것', '많이', '주다', 

In [25]:
voicephshing_predict('난 차라리 의경을 갈 껄 그랬어 라떼는 진짜 너무 힘들었어 군대 가는 게 너무 싫지 의경 너무 멋진 것 같아요즘 애들은 축복 받은 거야요즘 군대는 군대도 아니긴 해편하면서 멋진 것 같아 키키나도 의경을 가고 싶었어난 시도때도 없이 카톡하는 게 무슨 군대인가 싶더라군대 너무 꿀이지 요즘은 키키말 안 들으면 바로 테이저건 쏠 꺼야근데 요즘 군대 월급이 많이 올랐다면서?폰도 자유롭잖아 이젠 키키요즘 군대 가면 당뇨병 걸릴 것 같아나때는 진짜 월급 담배 사면 끝이었는데다시 가고 싶어지네 ')

['난', '차라리', '의경', '을', '갈다', '껄', '그렇다', '라떼', '진짜', '너무', '힘들다', '군대', '가다', '게', '너무', '싫다', '의경', '너무', '멋지다', '것', '같다', '요즘', '애', '축복', '받다', '거', '야', '요즘', '군대', '군대', '아니다', '해', '편하다', '멋지다', '것', '같다', '키키', '나다', '의경', '을', '가다', '싶다', '시도', '때', '없이', '카톡', '게', '무슨', '군대', '인가', '싶다', '군대', '너무', '꿀', '이지', '요즘', '키키', '말', '안', '들다', '바로', '테이저건', '쏠', '끄다', '근데', '요즘', '군대', '월급', '많이', '오르다', '?', '폰', '자유롭다', '젠', '키키', '요즘', '군대', '가면', '당뇨병', '걸리다', '것', '같다', '때', '진짜', '월급', '담배', '사면', '끝', '이다', '시', '가다', '싶다']
[[172, 4, 619, 10, 7, 84, 309, 270, 23, 41, 84, 334, 84, 69, 32, 168, 14, 5, 79, 168, 270, 270, 25, 76, 838, 69, 32, 2, 72, 4, 23, 77, 50, 518, 41, 297, 270, 847, 77, 270, 84, 348, 168, 2, 98, 13, 99, 165, 605, 68, 168, 270, 167, 2, 168, 270, 450, 188, 69, 32, 50, 7, 19, 123, 23, 77]]
[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0 172   4
  619  10   7  84 309 2