In [1]:
# 필요한 모듈 임포트
import pandas as pd
import tensorflow as tf
from tensorflow.keras import preprocessing
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Embedding, Dense, Dropout, Conv1D, GlobalMaxPool1D, concatenate

# 데이터 읽어오기
train_file = "./traindata.csv"
data = pd.read_csv(train_file, delimiter=',')
features = data['question'].tolist()
labels = data['label'].tolist()

# 단어 인덱스 시퀀스 벡터
corpus = [preprocessing.text.text_to_word_sequence(text) for text in features]

tokenizer = preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(corpus)
sequences = tokenizer.texts_to_sequences(corpus)
word_index = tokenizer.word_index
MAX_SEQ_LEN = 15  # 단어 시퀀스 벡터 크기
padded_seqs = preprocessing.sequence.pad_sequences(sequences, maxlen=MAX_SEQ_LEN, padding='post')

# 학습용, 검증용, 테스트용 데이터셋 생성 ➌
# 학습셋:검증셋:테스트셋 = 7:2:1
ds = tf.data.Dataset.from_tensor_slices((padded_seqs, labels))
ds = ds.shuffle(len(features))
train_size = int(len(padded_seqs) * 0.7)
val_size = int(len(padded_seqs) * 0.2)
test_size = int(len(padded_seqs) * 0.1)
train_ds = ds.take(train_size).batch(20)
val_ds = ds.skip(train_size).take(val_size).batch(20)
test_ds = ds.skip(train_size + val_size).take(test_size).batch(20)

# 하이퍼파라미터 설정
dropout_prob = 0.5
EMB_SIZE = 128
EPOCH = 5
VOCAB_SIZE = len(word_index) + 1  # 전체 단어 수

# CNN 모델 정의
input_layer = Input(shape=(MAX_SEQ_LEN,))
embedding_layer = Embedding(VOCAB_SIZE, EMB_SIZE, input_length=MAX_SEQ_LEN)(input_layer)
dropout_emb = Dropout(rate=dropout_prob)(embedding_layer)

conv1 = Conv1D(filters=128, kernel_size=3, padding='valid', activation=tf.nn.relu)(dropout_emb)
pool1 = GlobalMaxPool1D()(conv1)
conv2 = Conv1D(filters=128, kernel_size=4, padding='valid', activation=tf.nn.relu)(dropout_emb)
pool2 = GlobalMaxPool1D()(conv2)
conv3 = Conv1D(filters=128, kernel_size=5, padding='valid', activation=tf.nn.relu)(dropout_emb)
pool3 = GlobalMaxPool1D()(conv3)

# 3, 4, 5- gram 이후 합치기
concat = concatenate([pool1, pool2, pool3])
hidden = Dense(128, activation=tf.nn.relu)(concat)
dropout_hidden = Dropout(rate=dropout_prob)(hidden)
logits = Dense(4, name='logits')(dropout_hidden)
predictions = Dense(4, activation=tf.nn.softmax)(logits)

# 모델 생성
model = Model(inputs=input_layer, outputs=predictions)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 모델 학습
model.fit(train_ds, validation_data=val_ds, epochs=EPOCH, verbose=1)

# 모델 평가(테스트 데이터셋 이용)
loss, accuracy = model.evaluate(test_ds, verbose=1)
print('Accuracy: %f' % (accuracy * 100))
print('loss: %f' % (loss))

# 모델 저장
model.save('cnn_0305_model.h5')

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Accuracy: 99.267101
loss: 0.018002


In [9]:
import tensorflow as tf
import pandas as pd
from tensorflow.keras.models import Model, load_model
from tensorflow.keras import preprocessing

# 데이터 읽어오기
train_file = "./traindata.csv"
data = pd.read_csv(train_file, delimiter=',')
features = data['question'].tolist()
labels = data['label'].tolist()

# 단어 인덱스 시퀀스 벡터
corpus = [preprocessing.text.text_to_word_sequence(text) for text in features]
tokenizer = preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(corpus)
sequences = tokenizer.texts_to_sequences(corpus)
MAX_SEQ_LEN = 15 # 단어 시퀀스 벡터 크기
padded_seqs = preprocessing.sequence.pad_sequences(sequences, maxlen=MAX_SEQ_LEN, padding='post')

# 테스트용 데이터셋 생성
ds = tf.data.Dataset.from_tensor_slices((padded_seqs, labels))
ds = ds.shuffle(len(features))
test_ds = ds.take(2000).batch(20) # 테스트 데이터셋

# 감정 분류 CNN 모델 불러오기
model = load_model('cnn_0304_model.h5')
model.summary()
model.evaluate(test_ds, verbose=2)

# 테스트용 데이터셋의 10212번째 데이터 출력
print("단어 시퀀스 : ", corpus[2])
print("단어 인덱스 시퀀스 : ", padded_seqs[2])
print("문장 분류(정답) : ", labels[2])

# 테스트용 데이터셋의 10212번째 데이터 감정 예측
picks = [6111]
predict = model.predict(padded_seqs[picks])
predict_class = tf.math.argmax(predict, axis=1)
print("의도 예측 점수 : ", predict)
print("의도 예측 클래스 : ", predict_class.numpy())

Model: "model"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 input_1 (InputLayer)           [(None, 15)]         0           []                               
                                                                                                  
 embedding (Embedding)          (None, 15, 128)      2350720     ['input_1[0][0]']                
                                                                                                  
 dropout (Dropout)              (None, 15, 128)      0           ['embedding[0][0]']              
                                                                                                  
 conv1d (Conv1D)                (None, 13, 128)      49280       ['dropout[0][0]']                
                                                                                              

의도 확인이 끝났으니, 검색모듈

In [14]:
import pandas as pd
import glob, os

path = r'C:\Users\GyeongMinKim\Desktop\Univ_Files\Projects_contests\Project_AJOU_Chatbot\_Code\Drill\topics'
all_files = glob.glob(os.path.join(path,"*.data"))
filename_list = []
opinion_text = []

for file_ in all_files:
    df = pd.read_table(file_, index_col=None, header=0, encoding='latin1')
    filename_ = file_.split('\\')[-1]
    filename = filename_.split('.')[0]

    filename_list.append(filename)
    opinion_text.append(df.to_string())

document_df = pd.DataFrame({'filename':filename_list, 'opinion_text':opinion_text})
print(document_df.head())

                         filename  \
0   accuracy_garmin_nuvi_255W_gps   
1  bathroom_bestwestern_hotel_sfo   
2      battery-life_amazon_kindle   
3      battery-life_ipod_nano_8gb   
4     battery-life_netbook_1005ha   

                                        opinion_text  
0                                                ...  
1                                                ...  
2                                                ...  
3                                                ...  
4                                                ...  


In [8]:
#WordNet is a semantically-oriented dictionary of English included in NLTK.
def LemTokens(tokens):
    lemmer = nltk.stem.WordNetLemmatizer()
    return [lemmer.lemmatize(token) for token in tokens]
    # remove_punct_dict = dict((ord(punct), None) for punct in string.punctuation)

def LemNormalize(text):
    remove_punct_dict = dict((ord(punct), None) for punct in string.punctuation)
    return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))

In [64]:
from sklearn.feature_extraction.text import TfidfVectorizer import Common_Module.CMNLP as CMNLP

tfodf_vect = TfidfVectorizer(tokenizer=CMNLP.LemNormalize, stop_words='english', ngram_range=(1,2), min_df=0.05, max_df=0.85)
feature_vect = tfodf_vect.fit_transform(document_df['opinion_text'])

SyntaxError: invalid syntax (Temp/ipykernel_7652/4073359515.py, line 1)

In [10]:
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
print('코사인 유사도 연산 결과 :',cosine_sim.shape)

NameError: name 'cosine_similarity' is not defined

In [11]:
question_to_index = dict(zip(data['answer'], data.index))

NameError: name 'data' is not defined

In [12]:
def get_recommendations(question, cosine_sim=cosine_sim):
    # 해당 질문의 인덱스를 받아온다.
    idx = question_to_index[question]

    # 질문들간 유사도를 가져온다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 정렬한다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 질문을 받아온다.
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 질문 인덱스를 얻는다.
    expects = [idx[0] for idx in sim_scores]

    # 가장 유사한 10개의 질문을 리턴한다.
    return data['answer'].iloc[expects]

NameError: name 'cosine_sim' is not defined

In [13]:
get_recommendations('아주 Bb에 이메일 등록 어떻게함???')

NameError: name 'get_recommendations' is not defined

형태소 분석 확인중

In [16]:
from konlpy.tag import Komoran

class Preprocess:
    def __init__(self, userdic = None):
        self.komoran = Komoran(userdic=userdic)
        self.exclusion_tags = [
            'JKS','JKC', 'JKG', 'JKB', 'JKV', 'JKQ', 'JX', 'JC', 'SF', 'SP', 'SS', 'SE', 'SO', 'EP', 'EF', 'EC', 'ETN', 'ETM', 'XSN', 'XSV', 'XSA'
            ]
        
    def pos(self, sentence):
        return self.komoran.pos(sentence)
    
    def get_keywords(self, pos, without_tag = False):
        f = lambda x : x in self.exclusion_tags
        word_list = []
        for p in pos:
            if f(p[1]) is False:
                word_list.append(p if without_tag is False else p[0])
        return word_list

In [17]:
train_file = "./uploadingtestdata.csv"
data = pd.read_csv(train_file, delimiter=',')
sent = data['question'].tolist()

p = Preprocess(userdic='../utils/user_dic.tsv')

pos = p.pos(sent)

ret = p.get_keywords(pos, without_tag = False)
print(ret)

ret = p.get_keywords(pos, without_tag = True)
print(ret)

NameError: name 'pd' is not defined

형태소 분석은 똑바로 작동하네요

In [10]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

data = pd.read_csv('biguploadingtestdata.csv', low_memory=False)
data.head(2)

Unnamed: 0,question,answer
0,소학회 언제까지 가입해야하나요?,상시모집!
1,정시생 긱사 발표나신 분 결핵검사서 스캔한거 메일 보내셨나요?,"""격리 해제 후 입사하기 전에 결핵검사 결과 생활관으로 제출 바랍니다. 이메일 주소..."


In [11]:
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(data['answer'])
print('TF-IDF 행렬의 크기(shape) :',tfidf_matrix.shape)

TF-IDF 행렬의 크기(shape) : (1652, 2750)


In [12]:
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
print('코사인 유사도 연산 결과 :',cosine_sim.shape)

코사인 유사도 연산 결과 : (1652, 1652)


In [13]:
title_to_index = dict(zip(data['question'], data.index))

# 영화 제목 Father of the Bride Part II의 인덱스를 리턴
idx = title_to_index['학식 어디로 가서 먹는거아?']
print(idx)

1632


In [14]:
def get_recommendations(question, cosine_sim=cosine_sim):
    # 선택한 영화의 타이틀로부터 해당 영화의 인덱스를 받아온다.
    idx = title_to_index[question]

    # 해당 영화와 모든 영화와의 유사도를 가져온다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬한다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 받아온다.
    sim_scores = sim_scores[:4]

    # 가장 유사한 10개의 영화의 인덱스를 얻는다.
    movie_indices = [idx[0] for idx in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴한다.
    return data['answer'].iloc[movie_indices]

In [18]:
get_recommendations('기숙사 무인택배함 요금 얼마예요??????????')

24                           3시간 까지 무료, 이후로는 시간당 요금 추가!
25                           3시간 까지 무료, 이후로는 시간당 요금 추가!
0                                                 상시모집!
1     "격리 해제 후 입사하기 전에 결핵검사 결과 생활관으로 제출 바랍니다. 이메일 주소...
Name: answer, dtype: object

In [9]:
from hanspell import spell_checker
sent = "남제관"
spelled_sent = spell_checker.check(sent)
print(spelled_sent)

Checked(result=True, original='남제관', checked='남에 관', errors=1, words=OrderedDict([('남에', 4), ('관', 4)]), time=0.09475135803222656)


In [6]:
from rank_bm25 import BM25Okapi
from konlpy.tag import Komoran

komoran = Komoran(userdic='./user_dic.tsv')

corpus = [
    "세계 배달 피자 리더 도미노피자가 우리 고구마를 활용한 신메뉴를 출시한다.도미노피자는 오는 2월 1일 국내산 고구마와 4가지 치즈가 어우러진 신메뉴 `우리 고구마 피자`를 출시하고 전 매장에서 판매를 시작한다. 이번에 도미노피자가 내놓은 신메뉴 `우리 고구마 피자`는 까다롭게 엄선한 국내산 고구마를 무스와 큐브 형태로 듬뿍 올리고, 모차렐라, 카망베르, 체더 치즈와 리코타 치즈 소스 등 4가지 치즈와 와규 크럼블을 더한 프리미엄 고구마 피자다.",
    "피자의 발상지이자 원조라고 할 수 있는 남부의 나폴리식 피자(Pizza Napolitana)는 재료 본연의 맛에 집중하여 뛰어난 식감을 자랑한다. 대표적인 나폴리 피자로는 피자 마리나라(Pizza Marinara)와 피자 마르게리타(Pizza Margherita)가 있다.",
    "도미노피자가 삼일절을 맞아 '방문포장 1+1' 이벤트를 진행한다. 이번 이벤트는 도미노피자 102개 매장에서 3월 1일 단 하루 동안 방문포장 온라인, 오프라인 주문 시 피자 1판을 더 증정하는 이벤트다. 온라인 주문 시 장바구니에 2판을 담은 후 할인 적용이 가능하며, 동일 가격 또는 낮은 가격의 피자를 고객이 선택하면 무료로 증정한다."
]

def tokenizer(sent):
  return komoran.pos(sent)

tokenized_corpus = [tokenizer(doc) for doc in corpus]

bm25 = BM25Okapi(tokenized_corpus)

In [3]:
bm25.idf

{('세계', 'NNG'): 0.5108256237659907,
 ('배달', 'NNP'): 0.5108256237659907,
 ('피자', 'NNP'): 0.06147048382171928,
 ('리더', 'NNP'): 0.5108256237659907,
 ('도미노피자', 'NNP'): 0.06147048382171928,
 ('가', 'JKS'): 0.06147048382171928,
 ('우리', 'NP'): 0.5108256237659907,
 ('고구마', 'NNG'): 0.5108256237659907,
 ('를', 'JKO'): 0.06147048382171928,
 ('활용', 'NNG'): 0.5108256237659907,
 ('하', 'XSV'): 0.06147048382171928,
 ('ㄴ', 'ETM'): 0.06147048382171928,
 ('신', 'XPN'): 0.5108256237659907,
 ('메뉴', 'NNP'): 0.5108256237659907,
 ('출시', 'NNG'): 0.5108256237659907,
 ('ㄴ다', 'EF'): 0.06147048382171928,
 ('.', 'SF'): 0.06147048382171928,
 ('는', 'JX'): 0.06147048382171928,
 ('오', 'VV'): 0.5108256237659907,
 ('는', 'ETM'): 0.06147048382171928,
 ('2월 1일', 'NNP'): 0.5108256237659907,
 ('국내', 'NNG'): 0.5108256237659907,
 ('산', 'XSN'): 0.5108256237659907,
 ('고구마', 'NNP'): 0.5108256237659907,
 ('와', 'JC'): 0.06147048382171928,
 ('4', 'SN'): 0.5108256237659907,
 ('가지', 'NNB'): 0.5108256237659907,
 ('치즈', 'NNP'): 0.5108256237

In [8]:
query = "나폴리 피자"
tokenized_query = tokenizer(query)
bm25.get_top_n(tokenized_query, corpus, n=1)

['피자의 발상지이자 원조라고 할 수 있는 남부의 나폴리식 피자(Pizza Napolitana)는 재료 본연의 맛에 집중하여 뛰어난 식감을 자랑한다. 대표적인 나폴리 피자로는 피자 마리나라(Pizza Marinara)와 피자 마르게리타(Pizza Margherita)가 있다.']