# Mendefinisikan Variable Penting

In [1]:
# Variable Penting
ListLabelUnique = []
ListLabelSpesifikUnique = []
testSize = 0.15 #Pembagian ukuran datatesing

MAX_NB_WORDS = 100000 #Maximum jumlah kata pada vocabulary yang akan dibuat
max_seq_len = 0 #Panjang kalimat maximum

num_epochs = 400 #Jumlah perulangan / epoch saat proses training

# Import Module

In [2]:
# Import CSV
import csv
# Import json
import json
# Import Pandas
import pandas as pd
# Settingan di Pandas untuk menghilangkan warning
pd.options.mode.chained_assignment = None  # default='warn'

# Import Numpy
import numpy as np

# Loading Bar TQDM
from tqdm import tqdm

# Stopword Removal
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
from nltk.tokenize import word_tokenize

# Stemming (Sastrawi)
# !pip install Sastrawi
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Tokenizer
from keras.preprocessing.text import Tokenizer

# pad_sequences untuk google colab
# from keras.utils import pad_sequences
# pad_sequences untuk jupter-lab
from keras_preprocessing.sequence import pad_sequences

# Pickle FastText
import pickle

# Split Data
from sklearn.model_selection import train_test_split

# Label Encoder
from sklearn.preprocessing import LabelEncoder

# Model Building
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Embedding, LSTM, Dense
from tensorflow.keras.layers import Dropout
from tensorflow.keras.backend import clear_session
from keras.models import load_model

# Callbacks
from keras.callbacks import ModelCheckpoint
from tensorflow.keras.callbacks import EarlyStopping

# Grafik
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("whitegrid")
np.random.seed(0)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# Function Mengubah File CSV menjadi File JSON

In [3]:
def csv_to_json(CsvPath, JsonPath):
    JsonArray = []
    UniqueLabel = {}
    
    # Membuka File CSV 
    with open(CsvPath, encoding='utf-8') as CsvFile: 
        # Membaca file csv dan menjadikannya dict menggunakan module DictReader
        CsvReader = csv.DictReader(CsvFile)

        for row in CsvReader: 
            # Memasukkan tiap baris dict ke dalam array
            
            # Menambahkan label spesifik
            if(row['Label'] not in UniqueLabel):
                UniqueLabel[row['Label']]=1
                ListLabelUnique.append(row['Label'])
            else:
                UniqueLabel[row['Label']]+=1
                            
#             row['Label_Spesifik']=row['Label']+"_"+str(UniqueLabel[row['Label']])
            # print(row['LabelSpesifik'])
            JsonArray.append(row)
            
                            
    # Memasukkan dict ke dalam json
    with open(JsonPath, 'w', encoding='utf-8') as JsonFile: 
        JsonString = json.dumps(JsonArray, indent=4)
        JsonFile.write(JsonString)

# Memanggil Function csv_to_json

In [4]:
csvFilePath = r'D:\Kuliah\File Kuliah\Skripsi\Program Chabot\StockEdu\Dataset\Intents.csv'
jsonFilePath = r'D:\Kuliah\File Kuliah\Skripsi\Program Chabot\StockEdu\Dataset\Intents.json'
csv_to_json(csvFilePath, jsonFilePath)

# Function Membaca file JSON menjadi DataFrame

In [5]:
def read_data(filename):
    # Membaca file CSV ke dalam Dataframe
    df = pd.read_json(filename) 
    return df

# Memanggil Function read_data

In [6]:
# Memanggil Function Read Data
FileIntents = './Dataset/Intents.json'
df = read_data(FileIntents)

In [7]:
# Membuat fungsi label encoder
def encode_label(df):
    # Encoding Categorical Data (Mengubah data kategorikal menjadi angka)
    LE = LabelEncoder()
    #df['Label_Spesifik_Encoded'] = LE.fit_transform(df['Label_Spesifik'])
    df['Label_Encoded'] = LE.fit_transform(df['Label'])
    return df

In [8]:
# Menampilkan Label sebelum dan sesudah encoded
df = encode_label(df)
pd.set_option("max_rows", None)
# df[['Label_Spesifik','Label_Spesifik_Encoded']].sort_values(["Label_Spesifik"],ascending=[True])
label = df[['Label','Label_Encoded']].sort_values(["Label_Encoded"],ascending=[True]).drop_duplicates().reset_index(drop=True)
label

Unnamed: 0,Label,Label_Encoded
0,IPO,0
1,Investasi,1
2,Istilah,2
3,Strategi,3
4,Trading,4


In [9]:
# Shape dari Label_Spesifik_Encoded
pd.get_dummies(df['Label']).values.shape

(152, 5)

In [10]:
def preprocessing(data):
    # Case Folding
    data['lower'] = data['Pertanyaan'].str.lower()
    
    # Punctual Removal
    data['punctual'] = data['lower'].str.replace('[^a-zA-Z]+',' ', regex=True)
    
    # Normalization
    kamus_baku = pd.read_csv('kata_baku.csv', sep=";")
    dict_kamus_baku = kamus_baku[['slang','baku']].to_dict('list')
    dict_kamus_baku = dict(zip(dict_kamus_baku['slang'], dict_kamus_baku['baku']))
    norm = []
    for i in data['punctual']:
        res = " ".join(dict_kamus_baku.get(x, x) for x in str(i).split())
        norm.append(str(res))
    data['normalize'] = norm
    
    # Stopword Removal
    stop_words = set(stopwords.words('indonesian'))
    swr = []
    for i in tqdm(data['normalize']):
        tokens = word_tokenize(i)
        filtered = [word for word in tokens if word not in stop_words]
        swr.append(" ".join(filtered))
    data['stopwords'] = swr
    
    # Stemming
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()
    stem = []
    for i in tqdm(data['stopwords']):
#     for i in tqdm(data['stopwords']):
        stem.append(stemmer.stem(str(i)))
    data['stemmed'] = stem
    
    return data

In [11]:
df = preprocessing(df)

100%|██████████████████████████████████████████████████████████████████████████████| 152/152 [00:00<00:00, 4107.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 152/152 [00:08<00:00, 16.99it/s]


In [12]:
# data splitting
df_training, df_testing = train_test_split(df, test_size=testSize, random_state=42, shuffle=True)
df_training.reset_index(drop=True)
df_testing.reset_index(drop=True)

Unnamed: 0,Pertanyaan,Jawaban,Label,Label_Encoded,lower,punctual,normalize,stopwords,stemmed
0,Apa yang dimaksud dengan margin trading?,Margin trading adalah strategi di mana investo...,Istilah,2,apa yang dimaksud dengan margin trading?,apa yang dimaksud dengan margin trading,apa yang dimaksud dengan margin trading,margin trading,margin trading
1,Bagaimana cara mengenali saham yang mengalami ...,Mengenali saham yang mengalami breakout meliba...,Trading,4,bagaimana cara mengenali saham yang mengalami ...,bagaimana cara mengenali saham yang mengalami ...,bagaimana cara mengenali saham yang mengalami ...,mengenali saham mengalami breakout trading saham,nali saham alami breakout trading saham
2,Apa itu diversifikasi portofolio?,Diversifikasi portofolio adalah strategi inves...,Istilah,2,apa itu diversifikasi portofolio?,apa itu diversifikasi portofolio,apa itu diversifikasi portofolio,diversifikasi portofolio,diversifikasi portofolio
3,Apa itu Stochastic Oscillator?,Stochastic Oscillator adalah indikator momentu...,Istilah,2,apa itu stochastic oscillator?,apa itu stochastic oscillator,apa itu stochastic oscillator,stochastic oscillator,stochastic oscillator
4,Bagaimana pengaruh berita dan peristiwa ekonom...,Berita dan peristiwa ekonomi dapat memiliki pe...,Strategi,3,bagaimana pengaruh berita dan peristiwa ekonom...,bagaimana pengaruh berita dan peristiwa ekonom...,bagaimana pengaruh berita dan peristiwa ekonom...,pengaruh berita peristiwa ekonomi harga saham,pengaruh berita peristiwa ekonomi harga saham
5,Apakah ada metode strategi untuk mengidentifik...,Salah satu metode yang dapat digunakan untuk m...,Strategi,3,apakah ada metode strategi untuk mengidentifik...,apakah ada metode strategi untuk mengidentifik...,apakah ada metode strategi untuk mengidentifik...,metode strategi mengidentifikasi saham dijual ...,metode strategi identifikasi saham jual harga ...
6,Apa itu berinvestasi saham?,Investasi saham adalah penanaman modal jangka ...,Istilah,2,apa itu berinvestasi saham?,apa itu berinvestasi saham,apa itu berinvestasi saham,berinvestasi saham,investasi saham
7,Apa yang dimaksud dengan analisis teknikal dal...,Analisis teknikal adalah metode analisis yang ...,Investasi,1,apa yang dimaksud dengan analisis teknikal dal...,apa yang dimaksud dengan analisis teknikal dal...,apa yang dimaksud dengan analisis teknikal dal...,analisis teknikal investasi saham,analisis teknikal investasi saham
8,Apa yang dimaksud dengan analisis fundamental ...,Analisis fundamental adalah metode analisis ya...,Investasi,1,apa yang dimaksud dengan analisis fundamental ...,apa yang dimaksud dengan analisis fundamental ...,apa yang dimaksud dengan analisis fundamental ...,analisis fundamental investasi saham,analisis fundamental investasi saham
9,Bagaimana cara memahami risiko investasi saham?,Untuk memahami risiko investasi saham penting ...,Investasi,1,bagaimana cara memahami risiko investasi saham?,bagaimana cara memahami risiko investasi saham,bagaimana cara memahami risiko investasi saham,memahami risiko investasi saham,paham risiko investasi saham


In [13]:
# Mengecek panjang kalimat maksimum
longest_string = max(df_training['stemmed'].values.tolist(), key=len)
max_seq_len = len(longest_string.split())
print(longest_string)
print(max_seq_len)

pengaruh berita rumor harga saham investasi saham
7


In [14]:
def tokenize_corpus(data_corpus):
    global corpus_tokenizer
    corpus_tokenizer = Tokenizer(oov_token="<OOV>")
    corpus_tokenizer.fit_on_texts(data_corpus['stemmed'])
    corpus_sequences = corpus_tokenizer.texts_to_sequences(data_corpus['stemmed'])
    corpus_word_index = corpus_tokenizer.word_index

    return corpus_sequences, corpus_word_index

def tokenize_training(data_training):
    global model_tokenizer #Menggunakan variabel global agar 'tokenizer' bisa dipake di luar fungsi ini
    model_tokenizer = Tokenizer(oov_token = "<OOV>")
    model_tokenizer.fit_on_texts(data_training['stemmed'])
    model_word_index = model_tokenizer.word_index
    # Integer Tokenizer
    train_sequences = model_tokenizer.texts_to_sequences(data_training['stemmed'])
    # Padding
    train_sequences_padded = pad_sequences(train_sequences, maxlen = max_seq_len)

    return model_word_index, train_sequences, train_sequences_padded

def tokenize_testing(data_testing):
    test_model_sequences = model_tokenizer.texts_to_sequences(data_testing['stemmed'])
    test_model_sequences_padded = pad_sequences(test_model_sequences, maxlen = max_seq_len)
    test_corpus_sequences = corpus_tokenizer.texts_to_sequences(data_testing['stemmed'])
    return test_model_sequences, test_model_sequences_padded, test_corpus_sequences

In [15]:
# # Test oov_token
# tokenizer = Tokenizer(num_words = MAX_NB_WORDS, char_level=False)
# tokenizer.fit_on_texts(df['stemmed'])
# word_index = tokenizer.word_index
# # Integer Tokenizer
# coba = tokenizer.texts_to_sequences([['saham', 'bla', 'bagaimana','sakdjsadkasd']])
# coba = pad_sequences(coba, maxlen = max_seq_len)
# coba

In [16]:
corpus_sequences, corpus_word_index = tokenize_corpus(df)
model_word_index, train_sequences, train_sequences_padded  = tokenize_training(df_training)
test_model_sequences, test_model_sequences_padded, test_corpus_sequences = tokenize_testing(df_testing)
# print("Sebelum Tokenizer :" , df_training['stemmed'][0])
# print("Setelah Tokenizer :" , train_sequences_padded[0])
# print("Model Word Index :" , model_word_index)
# print("Corpus Word Index :" , corpus_word_index)

In [17]:
print("Model Tokenized Word :",len(list(model_word_index.keys())))
print("Corpus Tokenized Word :",len(list(corpus_word_index.keys())))

Model Tokenized Word : 156
Corpus Tokenized Word : 172


In [18]:
pickle.dump(model_tokenizer, open('model_tokenizer.pkl','wb'))
pickle.dump(corpus_tokenizer, open('corpus_tokenizer.pkl','wb'))

In [19]:
pickle.dump(model_word_index, open('model_word_index.pkl','wb'))
pickle.dump(corpus_word_index, open('corpus_word_index.pkl','wb'))

In [20]:
# pertanyaan df_training setelah di 
df_training = df_training.reset_index(drop=True) #Reset Index
# df_training['Sequences'] = word_seq_train.tolist()
df_training['Sequences'] = train_sequences
# df_training[['stemmed','Sequences']]

In [21]:
# Pertanyaan df_testing setelah di tokenize
df_testing = df_testing.reset_index(drop=True) #Reset Index
# df_testing['Sequences'] = test_sequences_padded.tolist()
df_testing['Model_Sequences'] = test_model_sequences
df_testing['Corpus_Sequences'] = test_corpus_sequences
# df_testing[['stemmed','Sequences']]

In [22]:
# Pertanyaan df setelah di tokenize
# df['Sequences'] = word_seq_corpus.tolist()
df['Sequences'] = corpus_sequences
# df[['stemmed','Sequences']]

In [23]:
# Pendefenisian fungsi word embedding
def word_embedding():
    fasttext_word_to_index = pickle.load(open("fasttext_voc", 'rb'))
    
    words_not_found = []
    nb_words = min(MAX_NB_WORDS, len(model_word_index)+1) # Word_index berasal dari tokenize

    embed_dim = 300 # dimensi matrix (dari fastTextnya cc.id.300.vec)
    embedding_matrix = np.zeros((nb_words, embed_dim)) # Membuat array vector berisi 0 (135 baris kebawah,300 dimension kesamping)
    # Hanya 134 yang akan terisi (dari index 1 sampai 134) untuk index ke 0 hanya akan berisi 300 buah dimension bernilai 0

    for word, index in model_word_index.items():
        if index < nb_words:
            embedding_vector = fasttext_word_to_index.get(word) # mengambil vector word yang dimasukkan dari word_index dari fasttext_voc
            if (embedding_vector is not None) and len(embedding_vector) > 0:
                embedding_matrix[index] = embedding_vector # memasukkan vector dari word yang didapatkan ke dalam index matrix yang sama dengan index dari word_index
            else:
                words_not_found.append(word)
    
    return embedding_matrix, nb_words, embed_dim

In [24]:
# Pemanggilan Fungsi word embedding
embedding_matrix, nb_words, embed_dim = word_embedding()

In [25]:
# df_training

In [26]:
df_testing

Unnamed: 0,Pertanyaan,Jawaban,Label,Label_Encoded,lower,punctual,normalize,stopwords,stemmed,Model_Sequences,Corpus_Sequences
0,Apa yang dimaksud dengan margin trading?,Margin trading adalah strategi di mana investo...,Istilah,2,apa yang dimaksud dengan margin trading?,apa yang dimaksud dengan margin trading,apa yang dimaksud dengan margin trading,margin trading,margin trading,"[1, 8]","[109, 8]"
1,Bagaimana cara mengenali saham yang mengalami ...,Mengenali saham yang mengalami breakout meliba...,Trading,4,bagaimana cara mengenali saham yang mengalami ...,bagaimana cara mengenali saham yang mengalami ...,bagaimana cara mengenali saham yang mengalami ...,mengenali saham mengalami breakout trading saham,nali saham alami breakout trading saham,"[19, 2, 53, 1, 8, 2]","[20, 2, 32, 171, 8, 2]"
2,Apa itu diversifikasi portofolio?,Diversifikasi portofolio adalah strategi inves...,Istilah,2,apa itu diversifikasi portofolio?,apa itu diversifikasi portofolio,apa itu diversifikasi portofolio,diversifikasi portofolio,diversifikasi portofolio,"[50, 51]","[51, 52]"
3,Apa itu Stochastic Oscillator?,Stochastic Oscillator adalah indikator momentu...,Istilah,2,apa itu stochastic oscillator?,apa itu stochastic oscillator,apa itu stochastic oscillator,stochastic oscillator,stochastic oscillator,"[1, 1]","[124, 125]"
4,Bagaimana pengaruh berita dan peristiwa ekonom...,Berita dan peristiwa ekonomi dapat memiliki pe...,Strategi,3,bagaimana pengaruh berita dan peristiwa ekonom...,bagaimana pengaruh berita dan peristiwa ekonom...,bagaimana pengaruh berita dan peristiwa ekonom...,pengaruh berita peristiwa ekonomi harga saham,pengaruh berita peristiwa ekonomi harga saham,"[32, 55, 1, 1, 6, 2]","[23, 39, 161, 60, 5, 2]"
5,Apakah ada metode strategi untuk mengidentifik...,Salah satu metode yang dapat digunakan untuk m...,Strategi,3,apakah ada metode strategi untuk mengidentifik...,apakah ada metode strategi untuk mengidentifik...,apakah ada metode strategi untuk mengidentifik...,metode strategi mengidentifikasi saham dijual ...,metode strategi identifikasi saham jual harga ...,"[1, 68, 14, 2, 58, 6, 1]","[164, 53, 16, 2, 27, 5, 165]"
6,Apa itu berinvestasi saham?,Investasi saham adalah penanaman modal jangka ...,Istilah,2,apa itu berinvestasi saham?,apa itu berinvestasi saham,apa itu berinvestasi saham,berinvestasi saham,investasi saham,"[3, 2]","[3, 2]"
7,Apa yang dimaksud dengan analisis teknikal dal...,Analisis teknikal adalah metode analisis yang ...,Investasi,1,apa yang dimaksud dengan analisis teknikal dal...,apa yang dimaksud dengan analisis teknikal dal...,apa yang dimaksud dengan analisis teknikal dal...,analisis teknikal investasi saham,analisis teknikal investasi saham,"[4, 9, 3, 2]","[4, 9, 3, 2]"
8,Apa yang dimaksud dengan analisis fundamental ...,Analisis fundamental adalah metode analisis ya...,Investasi,1,apa yang dimaksud dengan analisis fundamental ...,apa yang dimaksud dengan analisis fundamental ...,apa yang dimaksud dengan analisis fundamental ...,analisis fundamental investasi saham,analisis fundamental investasi saham,"[4, 18, 3, 2]","[4, 19, 3, 2]"
9,Bagaimana cara memahami risiko investasi saham?,Untuk memahami risiko investasi saham penting ...,Investasi,1,bagaimana cara memahami risiko investasi saham?,bagaimana cara memahami risiko investasi saham,bagaimana cara memahami risiko investasi saham,memahami risiko investasi saham,paham risiko investasi saham,"[22, 7, 3, 2]","[15, 6, 3, 2]"


In [27]:
# Penentuan X (input) dan Y (output)
X_train = train_sequences_padded
X_test = test_model_sequences_padded

Y_train = pd.get_dummies(df_training['Label']).values
Y_test = pd.get_dummies(df_testing['Label']).values

In [28]:
# Y_train

In [29]:
# Y_test

In [30]:
model = keras.Sequential([
        keras.layers.Embedding(nb_words, embed_dim ,input_length=max_seq_len, 
                               weights=[embedding_matrix], trainable=False),
#         keras.layers.Embedding(nb_words,300),
#         keras.layers.Conv1D(256, 5, padding='same', activation='relu'),
#         keras.layers.MaxPooling1D(pool_size=4),
#         keras.layers.Dropout(0.5),
#         keras.layers.LSTM(10),
#         keras.layers.Dense(1, activation = 'softmax') #softmax
#         keras.layers.LSTM(128, return_sequences = True),
        keras.layers.LSTM(64, return_sequences = True),
        keras.layers.LSTM(32),# returns a sequence of vectors of dimension 32
#         keras.layers.Dropout(0.5),
#         keras.layers.LSTM(32, return_sequences=True), # returns a sequence of vectors of dimension 32
#         keras.layers.LSTM(10),  # return a single vector of dimension 32
        keras.layers.Dense(len(Y_train[0]), activation='softmax')
    ])
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 7, 300)            47100     
                                                                 
 lstm (LSTM)                 (None, 7, 64)             93440     
                                                                 
 lstm_1 (LSTM)               (None, 32)                12416     
                                                                 
 dense (Dense)               (None, 5)                 165       
                                                                 
Total params: 153,121
Trainable params: 106,021
Non-trainable params: 47,100
_________________________________________________________________


In [31]:
# One Hot Label Encoded
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# es = tf.keras.callbacks.EarlyStopping(monitor='val_loss', mode='auto', patience=15)
chatbotmodel = model.fit(X_train, Y_train,
        epochs = 150, 
#         callbacks = [es],
#         validation_split=0.2,
        verbose = True # Verbose = 0 (tidak nampak progress), 1/True (progress bar), 2 (angka)
)

Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78

In [32]:
model.save('chatbotmodel.h5', chatbotmodel)

In [33]:
def predict_test(model,test_sequences_padded):
    categorical_predicted_label = []
    onehot_predicted_label = model.predict(test_sequences_padded)
    for i in range(0,len(test_sequences_padded)):
        categorical_predicted_label.append(onehot_predicted_label[i].argmax())
    return onehot_predicted_label, categorical_predicted_label

In [34]:
# Predict test data
# predict_test = model.predict(test_sequences_padded)

In [35]:
# Convert hasil predict_test dari one hot label menjadi integer categorical label 
# integer_categorical_label = []
# for i in range(0,len(test_sequences_padded)):
#     array.append(predict_test[i].argmax())

In [36]:
# pd.set_option("max_rows", None)
# df['Predicted'] = array
# df[['Label_Spesifik_Encoded','Predicted']].loc[df['Label_Spesifik_Encoded'] != df['Predicted']]

In [37]:
pd.set_option("max_rows", None)
onehot_predicted_label, df_testing['Predicted_Label'] = predict_test(model,test_model_sequences_padded)
df_testing[['Label_Encoded','Predicted_Label']].loc[df_testing['Label_Encoded'] != df_testing['Predicted_Label']]



Unnamed: 0,Label_Encoded,Predicted_Label
1,4,3
8,1,2
17,1,2


In [38]:
# onehot_predicted_label[9]

In [39]:
# df_testing.iloc[9]

In [40]:
label

Unnamed: 0,Label,Label_Encoded
0,IPO,0
1,Investasi,1
2,Istilah,2
3,Strategi,3
4,Trading,4


In [41]:
# df_testing

In [42]:
df_testing[['Label_Encoded','Predicted_Label']].loc[df_testing['Label_Encoded'] != df_testing['Predicted_Label']].shape

(3, 2)

In [43]:
# for i in range(0,len(word_seq_test)):
#     for j in word_seq_test[i]:
#         print(j)
#     break

In [44]:
# df_testing[['Label_Encoded','Predicted']].sort_values(["Predicted"],ascending=[True])

In [45]:
# Pembagian dataframe_corpus berdasarkan label untuk matching
df_IPO = df[['Pertanyaan','Jawaban','Sequences']].loc[df['Label_Encoded']==int(0)].reset_index(drop=True)
df_Investasi = df[['Pertanyaan','Jawaban','Sequences']].loc[df['Label_Encoded']==int(1)].reset_index(drop=True)
df_Istilah = df[['Pertanyaan','Jawaban','Sequences']].loc[df['Label_Encoded']==int(2)].reset_index(drop=True)
df_Strategi = df[['Pertanyaan','Jawaban','Sequences']].loc[df['Label_Encoded']==int(3)].reset_index(drop=True)
df_Trading = df[['Pertanyaan','Jawaban','Sequences']].loc[df['Label_Encoded']==int(4)].reset_index(drop=True)

In [46]:
pickle.dump(df_IPO, open('df_IPO.pkl','wb'))
pickle.dump(df_Investasi, open('df_Investasi.pkl','wb'))
pickle.dump(df_Istilah, open('df_Istilah.pkl','wb'))
pickle.dump(df_Strategi, open('df_Strategi.pkl','wb'))
pickle.dump(df_Trading, open('df_Trading.pkl','wb'))

In [47]:
df_Investasi

Unnamed: 0,Pertanyaan,Jawaban,Sequences
0,Apa perbedaan antara investasi jangka pendek d...,Investasi jangka pendek biasanya berlangsung d...,"[33, 3, 14, 79, 14]"
1,Bagaimana cara mengelola risiko dalam investas...,Beberapa cara untuk mengelola risiko dalam inv...,"[34, 6, 3, 2]"
2,Apa yang harus diperhatikan saat memilih saham...,Saat memilih saham untuk investasi perhatikan ...,"[35, 11, 2, 3]"
3,Bagaimana cara mengukur kinerja investasi saham?,Kinerja investasi saham dapat diukur dengan me...,"[12, 36, 3, 2]"
4,Bagaimana cara memahami risiko investasi saham?,Memahami risiko investasi saham melibatkan pen...,"[15, 6, 3, 2]"
5,Bagaimana cara mengidentifikasi saham yang pot...,Mengidentifikasi saham yang potensial untuk ja...,"[16, 2, 80, 3, 14]"
6,Bagaimana cara memanfaatkan laporan keuangan p...,Laporan keuangan perusahaan seperti laporan la...,"[82, 22, 28, 10, 4, 3, 2]"
7,Apa yang dimaksud dengan risiko sistemik dalam...,Risiko sistemik adalah risiko yang terkait den...,"[6, 83, 3, 2]"
8,Bagaimana cara menggunakan analisis sentimen d...,Analisis sentimen melibatkan memantau dan meng...,"[4, 56, 3, 2]"
9,Apa yang harus dilakukan jika terjadi kegagala...,Jika terjadi kegagalan dalam investasi saham p...,"[84, 3, 2]"


In [48]:
# Pembagian dataframe_testing berdasarkan predicted label untuk matching
def matching_testing(df_testing):
    Prediksi_Jawaban = []
    for row in range(len(df_testing)):
        #Mengambil Predicted_Label per baris
        Predicted_Label = df_testing['Predicted_Label'].iloc[row] 
        # Menentukan df yang dipakai untuk matching
        if(Predicted_Label==0):
            check_df = df_IPO
        elif(Predicted_Label==1):
            check_df = df_Investasi
        elif(Predicted_Label==2):
            check_df = df_Istilah
        elif(Predicted_Label==3):
            check_df = df_Strategi
        elif(Predicted_Label==4):
            check_df = df_Trading
    
        Compatibility = [0]*len(check_df)
        
        # Looping tiap baris Sequences df corpus pilihan
        index = 0
        for check_sequences in check_df['Sequences']:
            # Looping tiap element Sequences df testing per baris
            for element in df_testing['Corpus_Sequences'].iloc[row]:
                if(element in check_sequences):
                    Compatibility[index]+=1
#                     print(Compatibility)    
            index += 1
        Prediksi_Jawaban.append(check_df['Jawaban'].iloc[Compatibility.index(max(Compatibility))])
#         print(Prediksi_Jawaban)
    return Prediksi_Jawaban

In [49]:
Prediksi_Jawaban = matching_testing(df_testing)
df_testing['Prediksi_Jawaban'] = Prediksi_Jawaban

In [50]:
df_testing[['Pertanyaan','Prediksi_Jawaban']].loc[df_testing['Jawaban']!=df_testing['Prediksi_Jawaban']]

Unnamed: 0,Pertanyaan,Prediksi_Jawaban
1,Bagaimana cara mengenali saham yang mengalami ...,Mengenali saham yang mengalami manipulasi pasa...
8,Apa yang dimaksud dengan analisis fundamental ...,Analisis fundamental adalah pendekatan untuk m...
9,Bagaimana cara memahami risiko investasi saham?,Memahami risiko investasi saham melibatkan pen...
13,Bagaimana cara memilih saham untuk investasi j...,Memilih saham untuk investasi jangka panjang m...
14,Apa yang dimaksud dengan saham blue chip?,Saham blue-chip merujuk pada saham dari perusa...
16,Apa yang dimaksud dengan dividen?,Dividen adalah pembagian sebagian dari laba pe...
17,Apa yang dimaksud dengan analisis sektor dalam...,Analisis fundamental adalah pendekatan untuk m...


In [51]:
df_testing[['Pertanyaan','Prediksi_Jawaban']]

Unnamed: 0,Pertanyaan,Prediksi_Jawaban
0,Apa yang dimaksud dengan margin trading?,Margin trading adalah strategi di mana investo...
1,Bagaimana cara mengenali saham yang mengalami ...,Mengenali saham yang mengalami manipulasi pasa...
2,Apa itu diversifikasi portofolio?,Diversifikasi portofolio adalah strategi inves...
3,Apa itu Stochastic Oscillator?,Stochastic Oscillator adalah indikator momentu...
4,Bagaimana pengaruh berita dan peristiwa ekonom...,Berita dan peristiwa ekonomi dapat memiliki pe...
5,Apakah ada metode strategi untuk mengidentifik...,Salah satu metode yang dapat digunakan untuk m...
6,Apa itu berinvestasi saham?,Investasi saham adalah penanaman modal jangka ...
7,Apa yang dimaksud dengan analisis teknikal dal...,Analisis teknikal adalah metode analisis yang ...
8,Apa yang dimaksud dengan analisis fundamental ...,Analisis fundamental adalah pendekatan untuk m...
9,Bagaimana cara memahami risiko investasi saham?,Memahami risiko investasi saham melibatkan pen...


In [52]:
model.predict([[0,0,0,0,0,0,0,0,0,0,3,2]])



array([[1.1094144e-05, 1.1793161e-04, 9.9703908e-01, 2.7823397e-03,
        4.9635364e-05]], dtype=float32)

In [53]:
model.predict(np.array([[3,2]]))



array([[0.04469255, 0.6379697 , 0.09813866, 0.10553929, 0.1136599 ]],
      dtype=float32)

In [65]:
df_Istilah['Sequences'].iloc[0]

[4, 81]

In [67]:
df_Istilah

Unnamed: 0,Pertanyaan,Jawaban,Sequences
0,Apa yang dimaksud dengan analisis sektoral?,Analisis sektoral adalah proses menganalisis k...,"[4, 81]"
1,Apa itu berinvestasi saham?,Investasi saham adalah penanaman modal jangka ...,"[3, 2]"
2,Saham adalah?,Saham adalah instrumen keuangan yang mewakili ...,[2]
3,Apa itu saham?,Saham adalah instrumen keuangan yang mewakili ...,[2]
4,Apa itu dividen?,Dividen adalah pembagian sebagian dari laba pe...,[29]
5,Apa itu indeks saham?,Indeks saham adalah ukuran statistik yang meng...,"[24, 2]"
6,Apa yang dimaksud dengan indeks saham?,Indeks saham adalah ukuran statistik yang meng...,"[24, 2]"
7,Apa itu analisis fundamental dalam investasi s...,Analisis fundamental adalah pendekatan untuk m...,"[4, 19, 3, 2]"
8,Apa itu pasar saham primer dan sekunder?,Pasar saham primer adalah pasar di mana saham ...,"[17, 2, 101, 102]"
9,Apa itu saham blue-chip dan apa keuntungannya?,Saham blue-chip merujuk pada saham dari perusa...,"[2, 13, 21, 103]"


In [55]:
df.loc[df['Label_Encoded']==int(2)].reset_index(drop=True)

Unnamed: 0,Pertanyaan,Jawaban,Label,Label_Encoded,lower,punctual,normalize,stopwords,stemmed,Sequences
0,Apa yang dimaksud dengan analisis sektoral?,Analisis sektoral adalah proses menganalisis k...,Istilah,2,apa yang dimaksud dengan analisis sektoral?,apa yang dimaksud dengan analisis sektoral,apa yang dimaksud dengan analisis sektoral,analisis sektoral,analisis sektoral,"[4, 81]"
1,Apa itu berinvestasi saham?,Investasi saham adalah penanaman modal jangka ...,Istilah,2,apa itu berinvestasi saham?,apa itu berinvestasi saham,apa itu berinvestasi saham,berinvestasi saham,investasi saham,"[3, 2]"
2,Saham adalah?,Saham adalah instrumen keuangan yang mewakili ...,Istilah,2,saham adalah?,saham adalah,saham adalah,saham,saham,[2]
3,Apa itu saham?,Saham adalah instrumen keuangan yang mewakili ...,Istilah,2,apa itu saham?,apa itu saham,apa itu saham,saham,saham,[2]
4,Apa itu dividen?,Dividen adalah pembagian sebagian dari laba pe...,Istilah,2,apa itu dividen?,apa itu dividen,apa itu dividen,dividen,dividen,[29]
5,Apa itu indeks saham?,Indeks saham adalah ukuran statistik yang meng...,Istilah,2,apa itu indeks saham?,apa itu indeks saham,apa itu indeks saham,indeks saham,indeks saham,"[24, 2]"
6,Apa yang dimaksud dengan indeks saham?,Indeks saham adalah ukuran statistik yang meng...,Istilah,2,apa yang dimaksud dengan indeks saham?,apa yang dimaksud dengan indeks saham,apa yang dimaksud dengan indeks saham,indeks saham,indeks saham,"[24, 2]"
7,Apa itu analisis fundamental dalam investasi s...,Analisis fundamental adalah pendekatan untuk m...,Istilah,2,apa itu analisis fundamental dalam investasi s...,apa itu analisis fundamental dalam investasi s...,apa itu analisis fundamental dalam investasi s...,analisis fundamental investasi saham,analisis fundamental investasi saham,"[4, 19, 3, 2]"
8,Apa itu pasar saham primer dan sekunder?,Pasar saham primer adalah pasar di mana saham ...,Istilah,2,apa itu pasar saham primer dan sekunder?,apa itu pasar saham primer dan sekunder,apa itu pasar saham primer dan sekunder,pasar saham primer sekunder,pasar saham primer sekunder,"[17, 2, 101, 102]"
9,Apa itu saham blue-chip dan apa keuntungannya?,Saham blue-chip merujuk pada saham dari perusa...,Istilah,2,apa itu saham blue-chip dan apa keuntungannya?,apa itu saham blue chip dan apa keuntungannya,apa itu saham blue chip dan apa keuntungannya,saham blue chip keuntungannya,saham blue chip untung,"[2, 13, 21, 103]"
