# Project: LSTM_module (predict)

학습된 모델로 음성파일 스팸 예측

## 순서

1. import: 필요한 모듈 import
2. 파일 불러오기: 모델 학습에 사용된 객체, 변수 등 불러오기
3. STT: 음성파일 STT변환
4. 전처리: 텍스트 토큰화
5. 예측: 스팸 탐지

## 모듈 import

In [145]:
import sys
import json
import pickle
import re
import numpy as np

import speech_recognition as sr

import tensorflow as tf
from konlpy.tag import Okt
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import urllib.request

## GPU 셋팅

GPU 사용 시 활성화

In [146]:
# physical_devices = tf.config.list_physical_devices('GPU')
# tf.config.experimental.set_memory_growth(physical_devices[0], enable=True)

## 파일 이름 선언

필요 변수, 모델, 토큰 객체 등 파일 이름 선언

In [147]:
file_name = "LSTM_module_ver4.0"

## 파일 불러오기

tokenizer 객체 불러오기

In [148]:
with open(file_name+'_tokenizer.pickle', 'rb') as f:
    tokenizer = pickle.load(f)

변수 불러오기

In [149]:
with open(file_name+'_variable.json') as f:
    var = json.load(f)

불용어 단어 불러오기

In [150]:
with open(file_name+'_stopwords.json') as f:
    stopwords = json.load(f)

불러온 변수 초기화

In [151]:
min_data = var['min_data'] # 데이터 문자열 최소 길이
data_length = var['data_length'] # 데이터 문자열 최대 길이
split_list = var['split_list'] # 문장 단위로 분리하기 위한 글자 리스트
max_len = var['max_len'] # 전체 데이터 셋 길이 설정 (메일의 최대 길이)
trunc_type = var['trunc_type']
padding_type = var['padding_type']

print('min_data:',min_data)
print('data_length:',data_length)
print('max_len:',max_len)
print('trunc_type:',trunc_type)
print('padding_type:',padding_type)

min_data: 10
data_length: 100
max_len: 150
trunc_type: post
padding_type: post


## STT 변환

음성파일 STT변환
* `language`: 언어 설정
* 약 80~100MB 용량 제한

In [152]:
r = sr.Recognizer()
harvard = sr.AudioFile('ham2.flac') # 100MB 용량 제한
with harvard as source:
    audio = r.record(source)

try:
    t = r.recognize_google(audio, language='ko-KR')
except:
    t = '녹음 내용이 존재하지 않습니다.'
print(t)

여보세요 여보세요네 혹시 그 당근마켓 그 신발 판매 안 하시는 일 보고 전화 드렸는데요 나이키 나이키 조던 그거 15만원에 올리셨던데 그 혹시 좀 할인 안 될까요 제가 아직 학생이라서 돈이 많이 없는데 된다고 적어 놨는데 내 돼요 얼마까지 가능하신가요 얼마까지 마세요 마음 같아서는 15만원까지 15만 원 15만 원 할인 15만 원 어디 사시죠 혹시 저는 거주중입니다 그러면 15만 원에 내일 하시죠 직거래 하시는 건가요 하면 될 거 같아요 근데 지금 요새 코로나 가지고 만나기가 좀 걸어 지는데 혹시 계좌 번호 알려 주시면 제가 보내 드리면 안 되나요 그러면 택배비 내셔야 될 텐데 괜찮으신가요 택배비는 본인이 부담하시는 거 아니에요 아니 저거는 직거래를 원하는데 분께서는 택배로 하시다고 하시니까 그쪽에서 내셔야 줘 아 그러면 경산으로 와 주실 건가요 아니요 저기 그 중간에 만나면 되지 않을까요 근데 약간 걱정 돼 가지고 무서운 분이 나오시면 또 이제 큰일 나니까 아니요 그 당근마켓에 구매다 인증 이런 것도 있는데 아 보니까 청도 되게 좋더라구요 가지고 내 걱정 안 하셔도 됩니다 그러면 어디서 만날까요 그러면 어디 어디까지 올 수 있으신가요 혹시 월드컵 경기 대구스타디움 아세요 들어오는 봤어요 거기까지 가면 될까요 여기 오시면 제가 가겠습니다 아 그러면 일단 알겠습니다 그럼 하시는 건가요 그럼 바로 직거래 할까요 오늘은 제가 약속이 있어 가지고 제가 고소를 당해 가지고 오늘 경찰청에 가야 되는데 그거는 안 될 거 같고 아마 내일 내일은 가능할 것 같습니다 그러면 직장인이라서 내일 퇴근하고 6시 7시쯤 되시나요 그때쯤 그러면 저녁도 같이 함께할까요 아까 무서워 농담입니다 그럼 뭐 내일 6시에 7시 반에 대구스타디움 앞에서 직거래 하도록 그렇게 알고 있겠습니다 예 알겠습니다 감사합니다


## 텍스트 데이터 분리

**findIndex**: 문장이 끝나는 부분의 index값을 찾기위한 함수

In [153]:
def findIndex(data_list, split_list, start_index):
    index_list = []
    for i in split_list:
        index = data_list.find(i, start_index)
        index_list.append(index)
        
    index_list = [i for i in index_list if i not in [-1]]
    if index_list == []:
        return -1
    
    index = min(index_list)
    
    return index     

`data_length` 값 이후에 `split_list` 에 있는 문자가 나오면 자르기

In [154]:
t = re.sub("네|[^가-힣 ]", "", t) # 특수문자 제거
index = findIndex(t, split_list, data_length)

i = 0
t_list = []
while index != -1:
    x = t[i:index+2]
    t_list.append(x)

    i = index+2
    index = findIndex(t, split_list, i+data_length)
else:
    x = t[i:]
    if len(x) > min_data:
        t_list.append(x) # 텍스트 마지막 부분 추가

## 전처리: 토큰화 및 불용어 처리

Okt 객체 선언

In [155]:
okt = Okt()

**preTreatment**: 토큰화 및 불용어 처리 함수

In [156]:
def preTreatment(data):
    global stopwords
    temp = okt.morphs(data, stem=True) # 토큰화
    temp = [word for word in temp if not word in stopwords] # 불용어 처리
    return temp

**sentiment_predict**: 정수 인코딩 후 모델 예측 함수

In [157]:
def sentiment_predict(new_sentence):
    data = tokenizer.texts_to_sequences([new_sentence])
    pad_new = pad_sequences(data, maxlen = max_len, truncating = trunc_type, padding = padding_type)
    score = float(model.predict(pad_new))
    print(score)
    print('----------------------')
    return score

## 모델 예측

학습된 모델 불러오기

In [158]:
model = tf.keras.models.load_model(file_name+'.h5')
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, None, 150)         748500    
_________________________________________________________________
lstm (LSTM)                  (None, 100)               100400    
_________________________________________________________________
dense (Dense)                (None, 1)                 101       
Total params: 849,001
Trainable params: 849,001
Non-trainable params: 0
_________________________________________________________________


분리한 각 데이터 확률 예측 후 평균 구하기

In [159]:
score_sum = 0.0
for txt in t_list:
    print(txt)
    data = preTreatment(txt)
    score_sum += sentiment_predict(data)
    
score_result = score_sum / len(t_list)

여보세요 여보세요 혹시 그 당근마켓 그 신발 판매 안 하시는 일 보고 전화 드렸는데요 나이키 나이키 조던 그거 만원에 올리셨던데 그 혹시 좀 할인 안 될까요 제가 아직 학생이라서 돈이 많이 없는데 된다고 적어 놨는데 내 돼요 
0.31438159942626953
----------------------
얼마까지 가능하신가요 얼마까지 마세요 마음 같아서는 만원까지 만 원 만 원 할인 만 원 어디 사시죠 혹시 저는 거주중입니다 그러면 만 원에 내일 하시죠 직거래 하시는 건가요 하면 될 거 같아요 
0.31438159942626953
----------------------
근데 지금 요새 코로나 가지고 만나기가 좀 걸어 지는데 혹시 계좌 번호 알려 주시면 제가 보내 드리면 안 되나요 그러면 택배비 내셔야 될 텐데 괜찮으신가요 택배비는 본인이 부담하시는 거 아니에요 
0.3143816292285919
----------------------
아니 저거는 직거래를 원하는데 분께서는 택배로 하시다고 하시니까 그쪽에서 내셔야 줘 아 그러면 경산으로 와 주실 건가요 아니요 저기 그 중간에 만나면 되지 않을까요 근데 약간 걱정 돼 가지고 무서운 분이 나오시면 또 이제 큰일 나니까 
0.31438156962394714
----------------------
아니요 그 당근마켓에 구매다 인증 이런 것도 있는데 아 보니까 청도 되게 좋더라구요 가지고 내 걱정 안 하셔도 됩니다 그러면 어디서 만날까요 그러면 어디 어디까지 올 수 있으신가요 혹시 월드컵 경기 대구스타디움 아세요 
0.31438159942626953
----------------------
들어오는 봤어요 거기까지 가면 될까요 여기 오시면 제가 가겠습니다 아 그러면 일단 알겠습니다 그럼 하시는 건가요 그럼 바로 직거래 할까요 오늘은 제가 약속이 있어 가지고 제가 고소를 당해 가지고 오늘 경찰청에 가야 되는데 그거는 안 될 거 같고 아마 내일 내일은 가능할 것 같습니다 
0.3143816888332367
-------

## 예측 확률 출력

In [160]:
print("{:.2f}% 확률로 스팸입니다.\n".format(score_result * 100))

31.44% 확률로 스팸입니다.

