In [20]:
import os, re
from os.path import isdir, join, exists, abspath, isfile
import numpy as np
import matplotlib.pyplot as plt
from subprocess import call
%matplotlib notebook

# Load documents and scrutinize unwanted punctuations
**Load document labels**

In [2]:
raw_path = u'./corpus/raw-docs' # it will listdir into unicode
doc_labels = [fn for fn in os.listdir(raw_path) if isdir(join(raw_path, fn))] # list only folders
print 'Showing one sample document label'
print 'Unicode codepoints representation:', repr(doc_labels[0]), '::', type(doc_labels[0])
print 'The actual glyph (appearance):', doc_labels[0]

Showing one sample document label
Unicode codepoints representation: u'\u0e1a\u0e23\u0e34\u0e2b\u0e32\u0e23\u0e18\u0e38\u0e23\u0e01\u0e34\u0e08' :: <type 'unicode'>
The actual glyph (appearance): บริหารธุรกิจ


**Show all document labels**

In [3]:
doc_labels_idx = {} # maps label name to its corresponding index
print 'Total labels:', len(doc_labels)
for i, label in enumerate(doc_labels):
    doc_labels_idx[label] = i
    print "%d: %s" % (i, label)

Total labels: 20
0: บริหารธุรกิจ
1: ประมง
2: มนุษยศาสตร์
3: วนศาสตร์
4: วิทยาศาสตร์
5: วิทยาศาสตร์การกีฬา
6: วิศวกรรมศาสตร์
7: วิศวกรรมศาสตร์ กำแพงแสน
8: ศิลปศาสตร์และวิทยาศาสตร์
9: ศึกษาศาสตร์
10: สถาปัตยกรรมศาสตร์
11: สังคมศาสตร์
12: สัตวแพทยศาสตร์
13: สิ่งแวดล้อม
14: อุตสาหกรรมเกษตร
15: เกษตร
16: เกษตร กำแพงแสน
17: เศรษฐศาสตร์
18: เศรษฐศาสตร์ ศรีราชา
19: โครงการสหวิทยาการระดับบัณฑิตศึกษา


**Open documents from each folder**

In [4]:
%%time
label_freqs = []
dataset_contents, dataset_labels, dataset_filenames, content_lengths = [], [], [], [] # will be used later
for i, label in enumerate(doc_labels):
    curr_dir = join(raw_path, label)
    fns = os.listdir(curr_dir)
#     print len(fns), label
    label_freqs.append(len(fns))
    for fn in fns:
        file_path = join(curr_dir, fn)
        with open(file_path, 'r') as f:
            content = unicode(f.read(), 'utf8')
            content_lengths.append(len(content))
            dataset_contents.append(content)
            dataset_labels.append(i)
            dataset_filenames.append(fn)

Wall time: 1.2 s


**Show number of files in each folder**

In [5]:
plt.figure()
plt.bar(np.arange(len(doc_labels))-0.5, label_freqs, 1)
plt.xticks(np.arange(len(doc_labels)))
plt.xlabel('Label')
plt.ylabel('Frequency')
plt.grid()
plt.show()

<IPython.core.display.Javascript object>

**Show dataset statistics**

In [6]:
print 'Total documents:', len(dataset_contents)
print 'Label Frequencies:', label_freqs
print 'Label Frequencies Mean:', np.mean(label_freqs)
print 'Content Lengths Mean:', np.mean(content_lengths)

Total documents: 775
Label Frequencies: [15, 29, 38, 28, 76, 20, 128, 3, 3, 107, 4, 36, 6, 24, 53, 67, 40, 58, 4, 36]
Label Frequencies Mean: 38.75
Content Lengths Mean: 210805.745806


**Remove outliers**

In [513]:
# idx = np.argmax(content_lengths)
# del content_lengths[idx]
# del dataset_contents[idx]
# del dataset_labels[idx]

**Show histogram of all contents' length**

In [23]:
plt.figure()
plt.hist(content_lengths, bins=200)
plt.xlabel('Content Length (characters count)')
plt.ylabel('Document Count')
plt.show()

<IPython.core.display.Javascript object>

## Scrutinize unwanted punctuations
**Define scrutinize() function**

In [10]:
punctuations = set('!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~\r\n\t')
scrutinize = lambda s: ''.join(c for c in s if c not in punctuations) # remove all punctuations inside s

**Sample Original Content**

In [13]:
sample = dataset_contents[1][:2**8]
print sample
# sample

I50731470
I0b บทที่ 1
I1b ความสาคัญของปัญหา
Pจากวิกฤตเศรษฐกิจในปี 2550 ประเทศสหรัฐอเมริกาได้ประสบปัญหาวิกฤตเศรษฐกิจที่มี
Pจุดกาเนิดจากหนี้เสียของสินเชื่อบ้านที่ปล่อยกู้แก่ผู้มีเครดิตต่ำกว่ามาตรฐานและเกิดปัญหาซับไพร์ม (subprime) เนื่องจากปัญหา 3 ประการ ปัญห


**Sample Content Scrutinized**

In [14]:
scrutinized = scrutinize(sample)
print scrutinized
# scrutinized

I50731470I0b บทที่ 1I1b ความสาคัญของปัญหาPจากวิกฤตเศรษฐกิจในปี 2550 ประเทศสหรัฐอเมริกาได้ประสบปัญหาวิกฤตเศรษฐกิจที่มีPจุดกาเนิดจากหนี้เสียของสินเชื่อบ้านที่ปล่อยกู้แก่ผู้มีเครดิตต่ำกว่ามาตรฐานและเกิดปัญหาซับไพร์ม subprime เนื่องจากปัญหา 3 ประการ ปัญห


**Scrutinize all contents**

In [15]:
%%time
for i in xrange(len(dataset_contents)):
    dataset_contents[i] = scrutinize(dataset_contents[i])
    content_lengths[i] = len(dataset_contents[i])
print 'New Content Lengths Mean:', np.mean(content_lengths)

New Content Lengths Mean: 194462.936774
Wall time: 30.3 s


**New Content Lengths after Scrutinizing**

In [22]:
plt.figure()
plt.hist(content_lengths, bins=200)
plt.xlabel('Content Length (characters count)')
plt.ylabel('Document Count')
plt.show()

<IPython.core.display.Javascript object>

**Save scrutinized contents**

In [17]:
%%time
scrutinized_path = './corpus/scrutinized-docs'
for content, label, fn in zip(dataset_contents, dataset_labels, dataset_filenames):
    str_label = doc_labels[label]
    folder_path = join(scrutinized_path, str_label)
    if not exists(folder_path):
        os.makedirs(folder_path)
    file_path = join(folder_path, fn)
    with open(file_path, 'w') as f:
        f.write(content.encode('utf8'))
del dataset_contents

Wall time: 10.7 s


# Segment each document and save them
**Create new folders if necessary**

In [18]:
segmented_path = u'./corpus/segmented-docs'
for label in doc_labels:
    folder_path = join(segmented_path, label)
    if not exists(folder_path):
        os.makedirs(folder_path)
        print 'New folder', folder_path

New folder ./corpus/segmented-docs\บริหารธุรกิจ
New folder ./corpus/segmented-docs\วิศวกรรมศาสตร์
New folder ./corpus/segmented-docs\ศิลปศาสตร์และวิทยาศาสตร์
New folder ./corpus/segmented-docs\สถาปัตยกรรมศาสตร์
New folder ./corpus/segmented-docs\เศรษฐศาสตร์ ศรีราชา


** Create temporary paths file then call Java LongLexTo on that file to segment all documents**

In [21]:
%%time
try:
    os.chdir('LongLexTo')
except:
    pass
print os.getcwdu()
tmp_paths = u'tmp_paths.txt'
tmp_output = u'tmp_output.txt'
with open(tmp_paths, 'w') as f:
    contents = []
    for label, fn in zip(dataset_labels, dataset_filenames):
        str_label = doc_labels[label]
        ifp = join('..', scrutinized_path, str_label, fn) # input file path
        ofp = join('..', segmented_path, str_label, fn) # output file path
        if not isfile(ifp):
            print 'Error:', ifp, ofp
            raise AssertionError('input file path is invalid')
        content = ifp + u'\n' + ofp + u'\n'
        contents.append(content)
    content = u'q\n'
    contents.append(content)
    f.write(''.join(contents).encode('utf8'))
print 'Running...'
return_code = call(u'java LongLexTo -Dfile.encoding=UTF-8 < %s > %s' % (tmp_paths, tmp_output), shell=True)
print 'return code:', return_code
print 'Please see %s and %s for more info' % (tmp_paths, tmp_output)
if return_code:
    print 'You may need to call the Java commmand yourself because I failed'
    print 'The paths creation process was successful but the segmentation went wrong'
    print 'Go into the folder LongLexTo, open a shell then type the following command'
    print 'java -Dfile.encoding=UTF-8 LongLexTo < tmp_paths.txt'
    print 'Wait a minute and go check at the segmented-docs folder to see if the segmentation went right.'
    print 'The file will be encoded in UTF-8 and there will be no punctuations in each file.'
os.chdir('..')

D:\off99555\Documents\GitHub\Thai-thesis-classification\LongLexTo
Running...
return code: 1
Please see tmp_paths.txt and tmp_output.txt for more info
You may need to call the Java commmand yourself because I failed
The paths creation process was successful but the segmentation went wrong
Go into the folder LongLexTo, open a shell then type the following command
java -Dfile.encoding=UTF-8 LongLexTo < tmp_paths.txt
Wait a minute and go check at the segmented-docs folder to see if the segmentation went right.
The file will be encoded in UTF-8 and there will be no punctuations in each file.
Wall time: 1.66 s
