# Custom Markdown Parser

Inputs markdown, outputs XML based on a custom schema using regex.

Next steps:
- Code batch processing (i.e. open all files in one directory, output to another).
- Automate transfer of process files to new directory to simplify workflow.

In [196]:
# Notes on Version 2 (From General Hanley):

# Advocates transcending the "line-by-line approach":
# If you give re.sub the flags=re.MULTILINE option, then ^ and $ will match the
# beginning and end of lines, rather than the whole string. That way you
# can do it for the whole file at once. This should in principle be faster too.

In [126]:
import re, os, os.path, shutil

# custom functions:

import parser_functions as pf

### File Paths

Nice [[explanation of using the os library]](https://automatetheboringstuff.com/chapter8/).

In [127]:
hdir = os.path.expanduser('~')
md_rel_path = "/Box/Notes/Primary_Sources/transcription_markdown_drafting_stage1"
md_path = hdir + md_rel_path

xml_rel_path = r"/Box/Notes/Primary_sources/xml_notes_stage2/parser_depository"
xml_path = hdir + xml_rel_path

archive_rel_path = "/Box/Notes/Primary_Sources/transcription_markdown_drafting_stage1/archive_docs_now_at_xml_stage_do_not_use"
archive_path = hdir + archive_rel_path

print ("Files currently in input folder ", os.path.dirname(md_path), ":")
os.listdir(md_path)


Files currently in input folder  /Users/kribblesworth/Box/Notes/Primary_Sources :


['archive_docs_now_at_xml_stage_do_not_use',
 'document_conversion_backlog',
 'parser_output.xml',
 'ser560.txt',
 'ser560.xml',
 'ser72.md',
 'ser808.md',
 'ser809.md',
 'ser811.md',
 'ser812.md',
 'ser813.md',
 'ser814.md',
 'ser815.md',
 'ser816.md',
 'ser817.md',
 'ser818.md',
 'ser842.md',
 'ser843.md',
 'ser857.md',
 'ser876.md',
 'ser877.md']

In [128]:
print ("Files currently in destination folder ", os.path.dirname(xml_path), ":")

os.listdir(xml_path)

Files currently in destination folder  /Users/kribblesworth/Box/Notes/Primary_sources/xml_notes_stage2 :


['i126-1-1904-5_ser596.txt', 'i126-1-1951_ser626.txt', 'ser706.txt']

## The Parser

In [91]:
# Making sure in correct directory:
os.chdir(md_path)

# Test if it is all functioning properly:
print (pf.parse_md('ser560.txt'))


<?xml-model href="/Users/Enkidu/Documents/digital_humanities/xml_development/schemas/persian_documents_schema_basic.rnc" type="application/relax-ng-compact-syntax"?>
    <document serial = "560">
    	
	<div> 
	
	
	<!-- Model MarkDown document with new schema. -->
	
	\# 
	
	\#\# 
	<!-- top marginalia -->
	
		<lb/>جناب <flag>عالیحضرتمولایم</flag> الله ظله
		<lb/>جناب شریعت و شرافت امارت و وزارتپناهان
		<lb/>دام عافیتکم
	
	\#\# 
	<!-- vertical section -->
	<!-- beginning of honorific section -->
	
		<lb/>روزی و نصیب آنشریعت و شرافت و وزارتپناهان
		<lb/>رفعت و منزلت جایگاهان دولت و حکومت و دستگاهان
		<lb/>بوده باد بعد از اظهار مراهم دعا بوده میدارت که
		<lb/>الله الحمد و المنه بمهربانی و شرفدولت خداداد ؟ مراتب حالات
		<lb/>قرین شکر و رضا بوده همواره سلامتی و تعالی
		<lb/>و عافیت مندی آنمرحمت پناهان مراعات
	
	\#\# 
	<!-- diagonal right section -->
	
		<lb/>بقیه السلام آنکه 
		<lb/>آصف <flag>مقامانا</flag> چنانچه مهربانی خداندی
		<lb/>در کف های دعای از تحت رکوبی چیزی برامده همرنگ بدن ورم کر

### Run parser on every file in the input directory, copy to output directory

In [115]:
for filename in os.listdir(md_path):
    if filename.endswith(".txt") or filename.endswith(".md"):
        # (1): Switch to export directory
        os.chdir(xml_path)
        # (2): Exported filename
        output_file = "ser" + pf.serial_no(filename) + ".xml"
        # (3): Send file
        with open(output_file, 'w+') as fout:
            fout.write(pf.parse_md('filename')
        # (4): Move back to input directory
        os.chdir(md_path)
        # (5): Move active file to the archive folder
        shutil.move(md_path/filename, archive_path + "archived" + filename)
       

<?xml-model href="/Users/Enkidu/Documents/digital_humanities/xml_development/schemas/persian_documents_schema_basic.rnc" type="application/relax-ng-compact-syntax"?>
    <document serial = "560">
    	
	<div> 
	
	
	<!-- Model MarkDown document with new schema. -->
	
	\# 
	
	\#\# 
	<!-- top marginalia -->
	
		<lb/>جناب <flag>عالیحضرتمولایم</flag> الله ظله
		<lb/>جناب شریعت و شرافت امارت و وزارتپناهان
		<lb/>دام عافیتکم
	
	\#\# 
	<!-- vertical section -->
	<!-- beginning of honorific section -->
	
		<lb/>روزی و نصیب آنشریعت و شرافت و وزارتپناهان
		<lb/>رفعت و منزلت جایگاهان دولت و حکومت و دستگاهان
		<lb/>بوده باد بعد از اظهار مراهم دعا بوده میدارت که
		<lb/>الله الحمد و المنه بمهربانی و شرفدولت خداداد ؟ مراتب حالات
		<lb/>قرین شکر و رضا بوده همواره سلامتی و تعالی
		<lb/>و عافیت مندی آنمرحمت پناهان مراعات
	
	\#\# 
	<!-- diagonal right section -->
	
		<lb/>بقیه السلام آنکه 
		<lb/>آصف <flag>مقامانا</flag> چنانچه مهربانی خداندی
		<lb/>در کف های دعای از تحت رکوبی چیزی برامده همرنگ بدن ورم کر

AttributeError: 'NoneType' object has no attribute 'groups'

In [111]:
output_file = 'parser_output.xml'
with open(output_file, 'w+') as fout:
    fout.write(pf.parse_md('ser560.txt'))

In [114]:
pf.parse_md('ser72.md')

AttributeError: 'NoneType' object has no attribute 'groups'

In [109]:
os.listdir(md_path)[5]


'ser72.md'

In [107]:
    if ".txt" in os.listdir(md_path)[5]:
        ret = re.match(r'[^0-9]*([0-9]+)\.txt', os.listdir(md_path)[5])
        doc_serial, = ret.groups()
        doc_serial_xml = '<document serial = "' + doc_serial + '">'
    else:
        ret = re.match(r'[^0-9]*([0-9]+)\.md', os.listdir(md_path)[5])
        doc_serial, = ret.groups()
        doc_serial_xml = '<document serial = "' + doc_serial + '">'

In [108]:
doc_serial_xml


'<document serial = "72">'

In [125]:
pf.serial_no("ser_92")

AttributeError: module 'parser_functions' has no attribute 'serial_no'