In [6]:
import sys
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
import urllib.request
from konlpy.tag import Okt

import json

tokenizer = Tokenizer()

# wordInext 목록 받아오기
with open('LSTM_module_ver1.0_wordIndex.json') as f:
    word_index = json.load(f)
    tokenizer.word_index = word_index

model = tf.keras.models.load_model('LSTM_module_ver1.0.h5')
model.summary()

okt = Okt()

def preTreatment(data):
    stopwords = ['\n','.','?',',','']
    temp = okt.morphs(data, stem=True) # 토큰화
    temp = [word for word in temp if not word in stopwords] # 불용어 처리
    return temp


def sentiment_predict(new_sentence):
    data = tokenizer.texts_to_sequences([new_sentence]) # 단어를 숫자값, 인덱스로 변환하여 저장
    print(data)
    max_len = 100 # 전체 데이터 셋 길이 설정 (메일의 최대 길이)
    pad_new = pad_sequences(data, maxlen = max_len) # 모든 메일의 길이를 100로 설정 (빈 부분은 0으로 패딩)
    print(pad_new)
    score = float(model.predict(pad_new))
    if (score > 0.5):
        print(' {:.2f}% 확률로 스팸입니다.'.format(score * 100))
    else:
        print(' {:.2f}% 확률로 스팸이 아닙니다.'.format((1 - score) * 100))
        
        
import speech_recognition as sr

r = sr.Recognizer()
harvard = sr.AudioFile('ham.wav') # 10MB 용량 제한
with harvard as source:
    audio = r.record(source)

t = r.recognize_google(audio, language='ko-KR')
x = [t[i:i+150] for i in range(0, len(t), 150)] # 텍스트 파일 중 150 길이로 데이터 길이 제한
for txt in x:
    print(txt)
    data = preTreatment(txt)
    sentiment_predict(data)

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, None, 100)         2420100   
_________________________________________________________________
lstm (LSTM)                  (None, 128)               117248    
_________________________________________________________________
dense (Dense)                (None, 1)                 129       
Total params: 2,537,477
Trainable params: 2,537,477
Non-trainable params: 0
_________________________________________________________________
오빠 늦는다고 당당하다 너 몇 시에 올 건데 엄마 말 좀 잘 해 줘 그냥 근데 그게 네가 뭐 어떤게 뭐 있다고 염병을 하고 있네 야 근데 남자가 잘생겼어 키도 커 돈도 많아 근데이 사람이 불고기 화재 할 거야 안 할 거야 안 해 안 한다고 안 한다고 하는 비 올 수 있
[[139, 252, 3493, 33, 246, 235, 6, 35, 871, 76, 45, 59, 36, 145, 101, 71, 29, 232, 39, 5, 42, 144, 42, 18, 9552, 28, 1, 18, 38, 29, 358, 5, 795, 3391, 199, 137, 10, 121, 554, 2493, 67, 3, 3504, 1, 1334, 12, 1, 1334, 12, 145, 