Repo Training Model
- Tokenizer
- Tokenizer menggunakan python dengan lib nltk dan pandas
- Tokenizer menggunakan Golang
- Stemming
- Stemming data menggunakan PortStemmer py
- Stemming menggunakan Sastrawi Untuk bahasa indonesia
- Stemming Go-Sastrawi Menggunakan golang
- Normalisasi Imbuhan kata mu (seperti: dirimu menjadi diri kamu)
- Struktur cleaning folder
--- cleaning
--- jaro
--- bagWords
--- sastrawi- Jaro Winkler
- Jaro Winkler digunakan untuk mengukur ketepatan atau kesamaan antara kata yang diberikan user dengan kata yang ada pada kalimat dataset
- Bag Of Words
- Bag-of-words digunakan untuk menghitung kata dalam kalimat
- Sastrawi
- Biasa digunakan untuk melakukan stemming kalimat dalam data (khususnya bahasa indonesia)
- Indo-Bert
- Stacked-LSTM
- Regexp Queries (golang) (Low Cost Modelling)
Untuk Regexp Queries :
primitive.Regex{pattern: "string", options:"i"}sertakan primitve.regex ke dalam bson.M atau bson.D maka string yang dimasukan baik itu lowercase atau UpperCase akan otomatis menyesuaikan sesuai urutan hurufnya . Pada kasus ini kami menggunakan multiple filter pada fungsi query kami sehingga menjadi:
queries = Stemmer(queries)
splits := strings.Split(queries, " ")
if len(splits) >= 5 {
queries = splits[len(splits)-3] + " " + splits[len(splits)-2] + " " + splits[len(splits)-1]
filter := bson.M{"questions": primitive.Regex{Pattern: queries, Options: "i"}}
dengan melakukan split dari setiap kata yang ada dan mengambil secara bertahap urutan kata dari setiap kalimat yang dimasukan (full code can be accessed on : kimseokgis/backend-ai/helper/mongo.go)
Keterbatasan GPU dan device mendorong kami menggunakan regex untuk mempermudah ketersediaan chatbot yang kami buat
Untuk merunning stacked-LSTM bisa dilakukan dengan cara:
$ cd Stacked-LSTM
$ python lstm.pypastikan requirement library sudah diisi, dengan isi sebagai berikut :
numpy
pandas
requests
Sastrawi
keras
keras_preprocessing
Kemudian jalankan perintah
$ pip install -r requirements.txtUntuk bert bisa masuk ke folder bert dengan cara:
$ cd bert
$ python model.pyuntuk menjalankan script python lainnya bisa menggunakan :
$ cd <folder>
$ python <namafile.py>