In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import os
import tensorflow as tf

In [2]:
##### Limit GPU for training ###
gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
    try:
        # Restrict TensorFlow to only use the fourth GPU
        tf.config.experimental.set_visible_devices(gpus[0], 'GPU')

        # Currently, memory growth needs to be the same across GPUs
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
        logical_gpus = tf.config.experimental.list_logical_devices('GPU')
        print(len(gpus), "Physical GPUs,", len(logical_gpus), "Logical GPUs")
    except RuntimeError as e:
        # Memory growth must be set before GPUs have been initialized
        print(e)

1 Physical GPUs, 1 Logical GPUs


In [3]:
### read hopital names from datasets ###
df = pd.read_csv(r'hospital_allnew.csv')

In [14]:
df.head()

Unnamed: 0,name
0,คลินิกกรุงเทพพัทยาสาขาจอมเทียน
1,คลินิกกรุงเทพระยองสาขาบ่อวิน
2,คลินิกกรุงเทพระยองสาขาบ้านฉาง
3,คลินิกกรุงเทพระยองสาขาปลวกแดง
4,คลินิกไทยอินเตอร์การแพทย์(เกาะพงัน)


In [3]:
from pythainlp import thai_letters

In [4]:
label_map_0 = ["0","1","2","3","4","5","6","7","8","9","-",".","/","(",")","\"","&"]
label_map_1 = list(thai_letters)
char_set = label_map_0+label_map_1

In [5]:
len(char_set)

90

In [6]:
char2int = { char_set[x]:x for x in range(len(char_set)) }
int2char = { char2int[x]:x for x in char_set }

In [9]:
#thresh - 0 to 1
import random
def gen_gibberish(line,thresh=0.15):
    text_true = line
    times = int(random.randrange(1,len(line)) * thresh)
    '''
    Types of replacement:
        1.Delete random character.
        2.Add random character.
        3.Replace a character.
        4.Combination?
    '''
    while times!=0:
        # try to gen noise length times...
        times-=1
        val = random.randrange(0,10)
        if val <= 5:
            #get random index
            val = random.randrange(0,10)
            index = random.randrange(2,len(line))
            if val <= 3 :
                #delete character
                line = line[:index]+line[index+1:]
            else:
                #add character
                insert_index = random.randrange(0,len(char_set))
                line = line[:index] + char_set[insert_index] + line[index:]
        else:
            index = random.randrange(0,len(char_set))
            replace_index = random.randrange(2,len(line))
            line = line[:replace_index] + char_set[index] + line[replace_index+1:]
    return line,text_true

In [9]:
hos_list = list(df['name'])
len(hos_list)

1375

In [10]:
name1 = ['โรงพยาบาลเกษมราษฎร์']

In [11]:
x =[]
y =[]
for i in range(100):
    for name in name1:
        a,b =gen_gibberish(name)
        x.append(a)
        y.append(b)

In [42]:
x1=pd.DataFrame(x2)
y1 =pd.DataFrame(y2)

In [41]:
x2 =[]
y2 =[]
for i,val in enumerate(x):
    if val != name1[0]:
        print(val)
        x2.append(val)
        y2.append(y[i])

โรงพยาบาลเกษมร๋ษฎร์
โรงพยา3าลเกษมราษฎ7ร์
โรงพยณาบาลเกษมราษฎ7์
โรงพยาบาลเนษมาษฎร์
โรงพยาบาลเกษมรภาฎร์
โรงพยบาลเกษมราีษฎร์
โรงพยาบาลเกษมรุาษฎร์
โรงพยาบาเูกษมราษฎร์
โรงพาาลเกษมราษฎร์
โรงพยาบาลเกษมผราษฎร์
โรงพยาบาลเกษมราร์
โรงพยา้าลเกษมราษฎ์
โรงพยาบาลเกษึราษฎร์
โรงพยามาลเกษมรทาษฎร์
โรงูพยาบาณเกษมราษฎร์
โรงพยถบาลเกษมราษฎร์
โรงพยาบาลเฎกษมราษฎร์
โรงพยาบาลเกษมัาษฎร์
โรงพยาบาลๆเกษมรฃาษฎร์
โรงพยฐบาลเกษมราษฎร์
โรงพยาาลเกษมราษฎร์
โรงพยาบาลเกษมรษฎร์
โรงพยาฆาลเกษมราษฎร์
โรงพยาบฤาลเกษมราษฎร์
โรไพยาบาลเกษมราษฎ์
โรงพยาาลเกษมราษฎร์
โรงพยาบาลเกษรษฎร์
โรงพยาบาลเกษมราฎร์
โรงพยาบาลเกษมพราษฎร์
โรงพยาบาลเกษมราษฎน์
โรงพยาบาลเกษมร)าษฎร์
โรงพยาตบาลเกษมราษฎร์
โรงพยาบ9าลเกษมราษฎรฝ์
โรงไพยาบาลเกษมูาษฎร์
โรงพยาบาลเ๋กษมราษฎร์
โรงพยาบาลฯกษมราษฎร์
โรงพยฎาบาๆเกษมราษฎร์
โรพยาบาลเกฎษมราษฎร์
โรดงพาบาลเกษมราษฎร์
โรงพยฅบาลเกษมราษฎร์
โรงพยาฮบาลเกษมราษฎร์
โรงพยาบาลเกษมราษฎรๅ
โรงฯยาบาลเกษมราษฎร์
โรฟงยาบาลเกษมราษฎร์
โรงพยาบาูเกฎมราษฎร์
โรงพยาบาเกษมราษ็ร์
โรงพยาบาลเกฬ4มราษฎร์
โรง-พยบาลเกษมราษฎร์
โรง็พยาบาล3เกษมราษฎร์
โรงพย"บาลเกษ

In [32]:
name1[0] == 'โรงพยาบาลเกษมราษฎร์'

True

In [39]:
len(x2)

75

In [43]:
x1.columns=['gen_data']
y1.columns=['true_data']

In [44]:
col_merge = pd.concat([x1,y1],axis=1)

In [45]:
col_merge.to_csv('add_data1.csv',encoding='utf-8' ,index=False)

In [23]:
df6 = pd.read_csv('hospital_augment_train6_3.csv')

In [24]:
df6_gen = list(df6['gen_data'])
df6_true=list(df6['true_data'])

In [20]:
len(df6_gen),len(df6_true)

(78352, 78352)

In [19]:
res_gen = []
res_true =[] 
for i,key in enumerate(df6_gen): 
    if not key  in res_gen: 
        res_gen.append(key)
        res_true.append(df6_true[i])

In [69]:
val_x2 =[]
val_y2 =[]
for i,val in enumerate(val_x):
    if not val in res_gen:
        val_x2.append(val_x[i])
        val_y2.append(val_y[i])

In [70]:
val_x2[100],val_y2[100],len(val_x2),len(val_y2)

('โรนพยาบาลขุนตาล', 'โรงพยาบาลขุนตาล', 8178, 8178)

In [71]:
val_x2 = val_x2 +['ก้าน']+['ร้าน']
val_y2 = val_y2+['บ้าน']+['บ้าน']

In [73]:
train_x = res_gen+hos_list+hos_list+hos_list+hos_list+hos_list
train_y = res_true+hos_list+hos_list+hos_list+hos_list+hos_list

In [74]:
len(train_x),len(train_y2)

(85227, 77391)

In [75]:
gen_data_df = pd.DataFrame(train_x)
true_data_df =pd.DataFrame(train_y)
val_x_df = pd.DataFrame(val_x2)
val_y_df =pd.DataFrame(val_y2)

In [76]:
gen_data_df.columns=['gen_data']
true_data_df.columns=['true_data']
val_x_df.columns=['gen_data']
val_y_df.columns=['true_data']

In [77]:
df_col_merged_train =pd.concat([gen_data_df,true_data_df],axis=1)
df_col_merged_val = pd.concat([val_x_df,val_y_df],axis=1)

In [78]:
df_col_merged_train.to_csv('hospital_augment_train7.csv',encoding='utf-8',index=False)
df_col_merged_val.to_csv('hospital_augment_val7.csv',encoding='utf-8',index=False)

In [13]:
hos_list2 = hos_list[:46]+hos_list[47:]

In [14]:
b = hos_list[:46]
len(b)

46

In [15]:
b2 = hos_list[47:]
len(b2)

1239

In [16]:
len(hos_list2)

1285

In [17]:
if 'บ้าน' in hos_list2:
    print('vao')

In [68]:
gen_data =[]
true_data =[]
for i in range(25):
    for line in hos_list2:
        a,b = gen_gibberish(line)
        gen_data.append(a)
        true_data.append(b)

In [69]:
len(gen_data)

32125

In [26]:
a1 = ['บาน']
a2 = ['บ้า']
a3 = ['บ้านน']
a4 = ['ป้าน']
a5 =['ป้านน']
a6 =['บ็าน']
a7= ['ข้าน']
a8 = ['บานน']
a9 = ['ช้าน']
a10 = ['บ๊าน']

In [60]:
gen_data = gen_data+a1+a2+a3+a4+a5+a6+a7+a8+a9+a10

In [61]:
true_data = true_data +['บ้าน']*10

In [62]:
temp_gen = gen_data[:100]

In [70]:
# using naive method 
# to remove duplicated  
# from list  
res_gen = []
res_true =[] 
for i,key in enumerate(gen_data): 
    if not key  in res_gen: 
        res_gen.append(key)
        res_true.append(true_data[i])

In [71]:
len(res_gen)

21963

In [76]:
k = int(len(res_gen)*.3)

In [77]:
k

6588

In [78]:
test_x =res_gen[:k]
test_y=res_true[:k]

In [79]:
len(test_x),len(test_y)

(6588, 6588)

In [80]:
train_x = res_gen[k:]
train_y = res_true[k:]

In [81]:
len(train_x),len(train_y)

(15375, 15375)

In [59]:
df3 = pd.read_csv('hospital_augment_train_addv3.csv')

In [60]:
df3.head()

Unnamed: 0,gen_data,true_data
0,-รงพยาบาลกรุงเทพพิษณุโลก,โรงพยาบาลกรุงเทพพิษณุโลก
1,-รงพยาบาลทุ่งฝน,โรงพยาบาลทุ่งฝน
2,-รงพยาบาลธนบุรี1,โรงพยาบาลธนบุรี1
3,-รงพยาบาลนพรัตนราชธานี,โรงพยาบาลนพรัตนราชธานี
4,-รงพยาบาลมหาวชิราลงกรณ ธัญบุรี,โรงพยาบาลมหาวชิราลงกรณ ธัญบุรี


In [61]:
df3_trainx = list(df3['gen_data'])
df3_trainy =list(df3['true_data'])

In [82]:
for i,val in enumerate(df3_trainx):
    if not val in train_x:
        train_x.append(df3_trainx[i])
        train_y.append(df3_trainy[i])

In [83]:
len(train_x),len(train_y)

(66169, 66169)

In [84]:
train_x[:10]

['โรงพยวาบาลพนมดงรัก เฉลิมฃพระญใกียรติ 80 พรรษา',
 'โรงพยาบาลฅพนมสารคาม',
 'โรงพยบาลพบพระ',
 'โรงยาบาลยัคฆภูมิพิสัย',
 'โรงพยาๆบาลพยุห์',
 'โรงพยาบาลพยุชหะคีรี',
 'โรงพยาบาลพรหมฌคีรี',
 'โรงะยาบาลพรหมพิราม',
 'โรงพยาบาลพระทแงฒคำ เฉิมพระเกียรติ 80 พระรษา',
 'โรงพยาบาลพระชครศรีอซยุธยา']

In [86]:
df_add = pd.read_csv('hospital_wrong5.csv')

In [87]:
gen_df_train = pd.DataFrame(train_x)
true_df_train = pd.DataFrame(train_y)
gen_df_test =pd.DataFrame(test_x)
true_df_test =pd.DataFrame(test_y)

In [88]:
gen_df_train.columns=['gen_data']
true_df_train.columns=['true_data']
gen_df_test.columns =['gen_data']
true_df_test.columns =['true_data']

In [89]:
df_col_merged_train =pd.concat([gen_df_train,true_df_train],axis=1)
df_col_merged_test =pd.concat([gen_df_test,true_df_test],axis=1)

In [90]:
df_train_new = pd.concat([df_col_merged_train,df_add],axis=0)

In [91]:
df_train_new.to_csv('hospital_augment_train_addv5.csv',index=False)
df_col_merged_test.to_csv('hospital_augment_test_addv5.csv',index=False)

In [92]:
df_train_new.head()

Unnamed: 0,gen_data,true_data
0,โรงพยวาบาลพนมดงรัก เฉลิมฃพระญใกียรติ 80 พรรษา,โรงพยาบาลพนมดงรัก เฉลิมพระเกียรติ 80 พรรษา
1,โรงพยาบาลฅพนมสารคาม,โรงพยาบาลพนมสารคาม
2,โรงพยบาลพบพระ,โรงพยาบาลพบพระ
3,โรงยาบาลยัคฆภูมิพิสัย,โรงพยาบาลพยัคฆภูมิพิสัย
4,โรงพยาๆบาลพยุห์,โรงพยาบาลพยุห์


In [None]:
len(res_gen)
len(res_true)

In [78]:
# using naive method 
# to remove duplicated  
# from list  
res_gen = []
res_true =[] 
for i,key in enumerate(gen_data): 
    if key not in res_gen: 
        res_gen.append(key)
        res_true.append(true_data[i])

In [79]:
len(res_gen)
len(res_true)

708832

In [89]:
import random

In [93]:
random.shuffle(res_gen)

In [95]:
random.shuffle(res_true)

In [98]:
train_data_gen =[]
train_data_true =[]
val_data_gen =[]
val_data_true =[]
for i in range(0,len(res_gen),10):
    val_data_gen.append(res_gen[i])
    val_data_true.append(res_true[i])

In [99]:
len(val_data_gen)

70884

In [100]:
for i,key in enumerate(res_gen):
    if not key in val_data_gen:
        train_data_gen.append(res_gen[i])
        train_data_true.append(res_true[i])


In [102]:
test_data_gen =[]
test_data_true=[]
for i in range(0,len(train_data_gen),10):
    test_data_gen.append(train_data_gen[i])
    test_data_true.append(train_data_true[i])

In [104]:
train_gen =[]
train_true = []
for i,key in enumerate(train_data_gen):
    if not key in test_data_gen:
        train_gen.append(train_data_gen[i])
        train_true.append(train_data_true[i])

In [105]:
len(train_gen),len(val_data_gen),len(test_data_gen)

(574153, 70884, 63795)

In [106]:
train_gen_out = train_gen + hos_list
train_true_out = train_true +hos_list
val_gen_out = val_data_gen
val_true_out = val_data_true
test_gen_out = test_data_gen
test_true_out = test_data_true

In [107]:
gen_df_train = pd.DataFrame(train_gen_out)
true_df_train = pd.DataFrame(train_true_out)
gen_df_val =pd.DataFrame(val_gen_out)
true_df_val =pd.DataFrame(val_true_out)
gen_df_test =pd.DataFrame(test_gen_out)
true_df_test =pd.DataFrame(test_true_out)

In [108]:
gen_df_train.columns=['gen_data']
true_df_train.columns=['true_data']
gen_df_val.columns =['gen_data']
true_df_val.columns =['true_data']
gen_df_test.columns =['gen_data']
true_df_test.columns =['true_data']

In [109]:
df_col_merged_train =pd.concat([gen_df_train,true_df_train],axis=1)

In [110]:
df_col_merged_val =pd.concat([gen_df_val,true_df_val],axis=1)
df_col_merged_test =pd.concat([gen_df_test,true_df_test],axis=1)

In [111]:
df_col_merged_train.to_csv('hospital_augment_train4.csv',index=False)
df_col_merged_val.to_csv('hospital_augment_val4.csv',index=False)
df_col_merged_test.to_csv('hospital_augment_test4.csv',index=False)

In [13]:
import random

In [31]:
def gen_delete(text,per=0.15):
    e = np.random.uniform() 
    if e <0.1:
        return text
    r = np.random.randint(len(list(text)))
    text_lst = list(text)
    del text_lst[r]
    return ''.join(text_lst)

In [32]:
def gen_insert(text,per=0.15):
    e = np.random.uniform() 
    if e <0.1:
        return text
    index = np.random.randint(len(list(text)))
    char = random.choice(char_set)
    text_list = list(text)
    text_list.insert(index, char)
    return ''.join(text_list)

In [33]:
def gen_substitution(text,per=0.15):
    e = np.random.uniform() 
    if e <0.1:
        return text
    index = np.random.randint(len(list(text)))
    char = random.choice(char_set)
    text_list = list(text)
    text_list[index] = char
    return ''.join(text_list)

In [34]:
delete_hos = []
delete_hos_true =[]
for i in range(10):
    for p in hos_list:
        delete_hos.append(gen_delete(p))
        delete_hos_true.append(p)

In [35]:
insert_hos = []
insert_hos_true =[]
for i in range(10):
    for p in hos_list:
        insert_hos.append(gen_insert(p))
        insert_hos_true.append(p)

In [36]:
sub_hos = []
sub_hos_true =[]
for i in range(10):
    for p in hos_list:
        sub_hos.append(gen_substitution(p))
        sub_hos_true.append(p)

In [37]:
gen_data2 = delete_hos+ insert_hos+sub_hos
true_data2 = delete_hos_true + insert_hos_true+sub_hos_true

In [38]:
len(gen_data2),len(true_data2)

(38700, 38700)

In [55]:
len(res_gen),len(res_true)

(708628, 708628)

In [56]:
ture_idx = len(res_true) -1290

In [57]:
gen_data = res_gen[:ture_idx]
true_dat = res_true[:ture_idx]

In [68]:
gen_data[2000],true_data[2000]

('โร8พยาบาลร่มฉัตร', 'โรงพยาบาลโพธาราม')

In [65]:
train_data_gen =[]
train_data_true =[]
val_data_gen =[]
val_data_true =[]
for i in range(0,len(gen_data),15):
    val_data_gen.append(gen_data[i])
    val_data_true.append(true_data[i])

In [67]:
len(val_data_gen)

70734

In [46]:
for i,key in enumerate(res_gen):
    if not key in val_data_true:
        train_data_gen.append(key)
        train_data_true.append(res_true[i])

In [47]:
len(train_data_gen),len(val_data_gen),len(train_data_true),len(val_data_true)

(32369, 3353, 32369, 3353)

In [48]:
train_data_gen[500],train_data_true[500]

('โรงพาบาลบ้านลาด', 'โรงพยาบาลบ้านลาด')

In [49]:
test_data_gen =[]
test_data_true =[]
for i in range(0,len(train_data_gen),12):
    test_data_gen.append(train_data_gen[i])
    test_data_true.append(train_data_true[i])

In [50]:
train_data_gen_res =[]
train_data_true_res =[]
for i,key in enumerate(train_data_gen):
    if not key in test_data_gen:
        train_data_gen_res.append(train_data_gen[i])
        train_data_true_res.append(train_data_true[i])

In [51]:
train_data_gen[0],train_data_true[0]

('คลินิกรุงเทพพัทยาสาขาจอมเทียน', 'คลินิกกรุงเทพพัทยาสาขาจอมเทียน')

In [52]:
len(train_data_true_res),len(val_data_gen),len(test_data_gen)

(29671, 3353, 2698)

In [53]:
train_gen = train_data_gen_res + hos_list
train_true = train_data_true_res +hos_list
val_gen = val_data_gen
val_true = val_data_true
test_gen = test_data_gen
test_true = test_data_true

In [54]:
gen_df_train = pd.DataFrame(train_gen)
true_df_train = pd.DataFrame(train_true)
gen_df_val =pd.DataFrame(val_gen)
true_df_val =pd.DataFrame(val_true)
gen_df_test =pd.DataFrame(test_data_gen)
true_df_test =pd.DataFrame(test_data_true)

In [55]:
gen_df_train.columns=['gen_data']
true_df_train.columns=['true_data']
gen_df_val.columns =['gen_data']
true_df_val.columns =['true_data']
gen_df_test.columns =['gen_data']
true_df_test.columns =['true_data']

In [56]:
len(gen_df_train),len(gen_df_val),len(gen_df_test)

(30961, 3353, 2698)

In [57]:
df_col_merged_train =pd.concat([gen_df_train,true_df_train],axis=1)

In [58]:
df_col_merged_val =pd.concat([gen_df_val,true_df_val],axis=1)
df_col_merged_test =pd.concat([gen_df_test,true_df_test],axis=1)

In [59]:
df_col_merged_train.to_csv('hospital_augment_train3.csv',index=False)
df_col_merged_val.to_csv('hospital_augment_val3.csv',index=False)
df_col_merged_test.to_csv('hospital_augment_test3.csv',index=False)

In [87]:
df_col_merged2.to_csv('hospital_augment2_val.csv',index=False)

In [167]:
len(sub_hos)

12900

In [109]:
df_test = pd.read_csv('hospital_augment_test.csv')

In [110]:
df_test_gen = list(df_test['gen_data'])
df_test_true = list(df

In [142]:
df_test_read = pd.read_csv('hospital_augment_test2.csv')

In [148]:
list_test_gen = list(df_test_read['gen_data'])
list_test_true = list(df_test_read['true_data'])

In [149]:
test_gen_res =[]
test_true_res=[]
for i in range(0,len(list_test_gen),2):
    test_gen_res.append(list_test_gen[i])
    test_true_res.append(list_test_true[i])

In [150]:
gen_df_test2=pd.DataFrame(test_gen_res)
true_df_test2 =pd.DataFrame(test_true_res)

In [151]:
len(gen_df_test2)

3831

In [152]:
gen_df_test2.columns =['gen_data']
true_df_test2.columns =['true_data']

In [153]:
df_col_merged_test =pd.concat([gen_df_test2,true_df_test2],axis=1)

In [154]:
df_col_merged_test.to_csv('hospital_augment_test2.csv',index=False)