In [1]:
import os, re
from os.path import isdir, join, exists, abspath, isfile
import numpy as np
import matplotlib.pyplot as plt
from subprocess import call
from wordsegment import segment
%matplotlib notebook

# Load documents and scrutinize unwanted punctuations
**Load document labels**

In [2]:
raw_path = u'./corpus/raw-docs' # it will listdir into unicode
doc_labels = [fn for fn in os.listdir(raw_path) if isdir(join(raw_path, fn))] # list only folders
print 'Showing one sample document label'
print 'Unicode codepoints representation:', repr(doc_labels[0]), '::', type(doc_labels[0])
print 'The actual glyph (appearance):', doc_labels[0]

Showing one sample document label
Unicode codepoints representation: u'\u0e1a\u0e23\u0e34\u0e2b\u0e32\u0e23\u0e18\u0e38\u0e23\u0e01\u0e34\u0e08' :: <type 'unicode'>
The actual glyph (appearance): บริหารธุรกิจ


**Show all document labels**

In [3]:
doc_labels_idx = {} # maps label name to its corresponding index
print 'Total labels:', len(doc_labels)
for i, label in enumerate(doc_labels):
    doc_labels_idx[label] = i
    print "%d: %s" % (i, label)

Total labels: 20
0: บริหารธุรกิจ
1: ประมง
2: มนุษยศาสตร์
3: วนศาสตร์
4: วิทยาการจัดการ
5: วิทยาศาสตร์
6: วิทยาศาสตร์การกีฬา
7: วิศวกรรมศาสตร์
8: ศิลปศาสตร์และวิทยาศาสตร์
9: ศึกษาศาสตร์
10: ศึกษาศาสตร์และพัฒนศาสตร์
11: สถาปัตยกรรมศาสตร์
12: สังคมศาสตร์
13: สัตวแพทยศาสตร์
14: สิ่งแวดล้อม
15: อุตสาหกรรมเกษตร
16: เกษตร
17: เศรษฐศาสตร์
18: โครงการจัดตั้งวิทยาเขตสุพรรณบุรี
19: โครงการสหวิทยาการระดับบัณฑิตศึกษา


**Open documents from each folder**

In [5]:
%%time
label_freqs = []
dataset_contents, dataset_labels, dataset_filenames, content_lengths = [], [], [], [] # will be used later
for i, label in enumerate(doc_labels):
    curr_dir = join(raw_path, label)
    fns = os.listdir(curr_dir)
#     print len(fns), label
    label_freqs.append(len(fns))
    for fn in fns:
        file_path = join(curr_dir, fn)
        with open(file_path, 'r') as f:
            content = unicode(f.read(), 'utf8')
            content_lengths.append(len(content))
            dataset_contents.append(content)
            dataset_labels.append(i)
            dataset_filenames.append(fn)

Wall time: 1min 1s


**Show number of files in each folder**

In [6]:
plt.figure()
plt.bar(np.arange(len(doc_labels))-0.5, label_freqs, 1)
plt.xticks(np.arange(len(doc_labels)))
plt.xlabel('Label')
plt.ylabel('Frequency')
plt.yticks(np.arange(0, max(label_freqs)+50, 50))
plt.grid()
plt.show()

<IPython.core.display.Javascript object>

**Show dataset statistics**

In [7]:
print 'Total documents:', len(dataset_contents)
print 'Label Frequencies:', label_freqs
print 'Label Frequencies Mean:', np.mean(label_freqs)
print 'Content Lengths Mean:', np.mean(content_lengths)

Total documents: 2549
Label Frequencies: [99, 76, 129, 119, 6, 251, 32, 468, 25, 312, 6, 15, 110, 19, 58, 203, 326, 209, 4, 82]
Label Frequencies Mean: 127.45
Content Lengths Mean: 189040.900353


**Remove outliers**

In [513]:
# idx = np.argmax(content_lengths)
# del content_lengths[idx]
# del dataset_contents[idx]
# del dataset_labels[idx]

**Show histogram of all contents' length**

In [8]:
plt.figure()
plt.hist(content_lengths, bins=200)
plt.xlabel('Content Length (characters count)')
plt.ylabel('Document Count')
plt.show()

<IPython.core.display.Javascript object>

In [25]:
def has_thai_char(s):
    return any(u'\u0e00' < c < u'\u0f00' for c in s)
print has_thai_char(u'สวัสดีจ้ะ english')
print has_thai_char(u'Ianalysis')

True
False


## Scrutinize unwanted punctuations
**Define scrutinize() function**

In [23]:
punctuations = set('!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~\r\t')
def scrutinize(s):
    scrutinized = ''.join(' ' if c in punctuations else c for c in s) # remove all punctuations inside s
    return scrutinized

**Sample Original Content**

In [17]:
sample = dataset_contents[1][:2**9]
print sample
# sample

I49737869
Ipage 
Iวิทยานิพนธ์
Pการวิเคราะห์ต้นทุนต่อหน่วยผลผลิต ในการผลิตบัณฑิตระดับปริญญาตรีของวิทยาลัยเอกชน จังหวัดสุราษฎร์ธานี
Ianalysis of cost per output unit in producing undergraduates 
Iof a private college in surat thani province
Iนางสาวกาญจนธัช บัวพา
Iบัณฑิตวิทยาลัย มหาวิทยาลัยเกษตรศาสตร์
Iพ . ศ . ๒๕๕๔
Iใบรับรองวิทยานิพนธ์
Iบัณฑิตวิทยาลัย มหาวิทยาลัยเกษตรศาสตร์
Iบัญชีมหาบัณฑิต
Iปริญญา
Iบัญชี บัญชี
Iสาขา
Iภาควิชา
Iเรื่อง
Iการวิเคราะห์ต้นทุนต่อหน่วยผลผลิต ในการผลิตบัณฑิตระดับปริญญาตรี
Iของวิทยาลัยเอ


**Sample Content Scrutinized**

In [24]:
scrutinized = scrutinize(sample)
print scrutinized
# scrutinized

I49737869
Ipage 
Iวิทยานิพนธ์
Pการวิเคราะห์ต้นทุนต่อหน่วยผลผลิต ในการผลิตบัณฑิตระดับปริญญาตรีของวิทยาลัยเอกชน จังหวัดสุราษฎร์ธานี
Ianalysis of cost per output unit in producing undergraduates 
Iof a private college in surat thani province
Iนางสาวกาญจนธัช บัวพา
Iบัณฑิตวิทยาลัย มหาวิทยาลัยเกษตรศาสตร์
Iพ   ศ   ๒๕๕๔
Iใบรับรองวิทยานิพนธ์
Iบัณฑิตวิทยาลัย มหาวิทยาลัยเกษตรศาสตร์
Iบัญชีมหาบัณฑิต
Iปริญญา
Iบัญชี บัญชี
Iสาขา
Iภาควิชา
Iเรื่อง
Iการวิเคราะห์ต้นทุนต่อหน่วยผลผลิต ในการผลิตบัณฑิตระดับปริญญาตรี
Iของวิทยาลัยเอ


**Scrutinize all contents**

In [11]:
%%time
for i in xrange(len(dataset_contents)):
    dataset_contents[i] = scrutinize(dataset_contents[i])
    content_lengths[i] = len(dataset_contents[i])
print 'New Content Lengths Mean:', np.mean(content_lengths)

New Content Lengths Mean: 180538.223822
Wall time: 1min 25s


**New Content Lengths after Scrutinizing**

In [12]:
plt.figure()
plt.hist(content_lengths, bins=200)
plt.xlabel('Content Length (characters count)')
plt.ylabel('Document Count')
plt.show()

<IPython.core.display.Javascript object>

**Save scrutinized contents**

In [13]:
%%time
scrutinized_path = './corpus/scrutinized-docs'
for content, label, fn in zip(dataset_contents, dataset_labels, dataset_filenames):
    str_label = doc_labels[label]
    folder_path = join(scrutinized_path, str_label)
    if not exists(folder_path):
        os.makedirs(folder_path)
    file_path = join(folder_path, fn)
    with open(file_path, 'w') as f:
        f.write(content.encode('utf8'))
del dataset_contents

Wall time: 1min 14s


# Segment each document and save them
**Create new folders if necessary**

In [14]:
segmented_path = u'./corpus/segmented-docs'
for label in doc_labels:
    folder_path = join(segmented_path, label)
    if not exists(folder_path):
        os.makedirs(folder_path)
        print 'New folder', folder_path

** Create temporary paths file then call Java LongLexTo on that file to segment all documents**

In [17]:
%%time
try:
    os.chdir('LongLexTo')
except:
    pass
print os.getcwdu()
tmp_paths = u'tmp_paths.txt'
tmp_output = u'tmp_output.txt'
with open(tmp_paths, 'w') as f:
    contents = []
    for label, fn in zip(dataset_labels, dataset_filenames):
        str_label = doc_labels[label]
        ifp = join('..', scrutinized_path, str_label, fn) # input file path
        ofp = join('..', segmented_path, str_label, fn) # output file path
        if not isfile(ifp):
            print 'Error:', ifp, ofp
            raise AssertionError('input file path is invalid')
        content = ifp + u'\n' + ofp + u'\n'
        contents.append(content)
    content = u'q\n'
    contents.append(content)
    f.write(''.join(contents).encode('utf8'))
print 'Running...'
return_code = call(u'java LongLexTo -Dfile.encoding=UTF-8 < %s > %s' % (tmp_paths, tmp_output), shell=True)
print 'return code:', return_code
print 'Please see %s and %s for more info' % (tmp_paths, tmp_output)
if return_code:
    print 'You may need to call the Java commmand yourself because I failed'
    print 'The paths creation process was successful but the segmentation went wrong'
    print 'Go into the folder LongLexTo, open a shell then type the following command'
    print 'java -Dfile.encoding=UTF-8 LongLexTo < tmp_paths.txt'
    print 'Wait a minute and go check at the segmented-docs folder to see if the segmentation went right.'
    print 'The file will be encoded in UTF-8 and there will be no punctuations in each file.'
os.chdir('..')

D:\off99555\Documents\GitHub\Thai-thesis-classification\LongLexTo
Running...
return code: 1
Please see tmp_paths.txt and tmp_output.txt for more info
You may need to call the Java commmand yourself because I failed
The paths creation process was successful but the segmentation went wrong
Go into the folder LongLexTo, open a shell then type the following command
java -Dfile.encoding=UTF-8 LongLexTo < tmp_paths.txt
Wait a minute and go check at the segmented-docs folder to see if the segmentation went right.
The file will be encoded in UTF-8 and there will be no punctuations in each file.
Wall time: 926 ms
