In [132]:
"""
This program converts a PDF containing Tamil text in TAM fonts intermixed with some
English fonts, into a plain text Unicode.

Page separators and paragraph first letters are left for proof reading or 
alteration if needed.

Usage: 
    Run as is, and this will extract and save text from Keeladi pdf document.   
    If you have your own TAM-PDF, place the pdf file in this folder or other folder. 
    Set fname to this file name. Run this program.

Author: Ravi Annaswamy
October 10, 2019
"""


import fitz
# if the fitz import fails use this line to install it.
# !pip install PyMuPDF

import TAM # Module written by me for handing font conversion

def assemble_pagetext(page):
    out_text=[]
    # read page text as a dictionary, suppressing extra spaces in CJK fonts
    blocks = page.getText("dict", flags=11)["blocks"]
    for b in blocks:  # iterate through the text blocks
        out_text.append('\n\n')
        for l in b["lines"]:  # iterate through the text lines
            for s in l["spans"]:  # iterate through the text spans
                font_properties = "Font: '%s', size %g, color #%06x" % (
                    s["font"],  # font name
                    s["size"],  # font size
                    s["color"],  # font color
                )
                t=s["text"].strip()
                if t=='':
                    continue
                if 'TAM' not in s["font"]: # in english_fonts:
                    out_text.append(t+' ')  # simple print of text
                    #print(font_properties) #for debugging

                else:
                    t=tam_converter.to_unicode(t)
                    out_text.append(t+' ')
                    #print(t)
                    #print(font_properties)

    pagetext =  ''.join(out_text)
    while '  ' in pagetext:
        pagetext=pagetext.replace('  ',' ')
    return pagetext


### Main Function is below this.
fname = 'Keeladi_Document_Tamil.pdf'

doc = fitz.Document(fname)
tam_converter = TAM.TAM()

ShowDemoInConsole=True
if ShowDemoInConsole:
    page = doc[6]
    print('============')
    pagetext = assemble_pagetext(page)
    print(pagetext)
    print()

oname = fname.replace('.pdf', '_unicode.txt')
with open(oname, 'w', encoding='utf-8') as f:
    pno=0
    for page in doc.pages():
        f.write('============\n')
        pno+=1
        f.write('      page: '+str(pno)+'\n')
        print('Writing page', pno)
        pagetext = assemble_pagetext(page)
        f.write(pagetext+'\n\n')
print('Unicode text written to:', oname)


319 TAM to Unicode replacements read!


இந்திய தொல்லியல் துறை இந்தியாவில் தொல்லியல் ஆய்வுகளை நெறிப்படுத்தும் மத்திய நிறுவனம் ஆகும், மாநிலங்களவில் மாநிலத் தொல்லியல் துறைகள், பல்கலைக்கழகங்களின் தொல்லியல் துறைகள் மற்றும் தொல்லியலில் சிறப்புப்பெற்ற தன்னார்வு தனியார் நிறுவனங்கள் தங்களின் நிலைக்கேற்ப அகழாய்வுகளை மேற்கொண்டு வருகின்றன. 

தமிழ்நாட்டில் மத்திய தொல்லியல் துறை, தமிழ்நாடு அரசு தொல்லியல் துறை, சென்னைப் பல்கலைக் கழகம், தஞ்சாவூர் தமிழ்ப் பல்கலைக் கழகம், சர்மா பராம்பரிய கல்வி மையம், காஞ்சிபுரம் ஸ்ரீசந்திரசேகரேந்திர சரஸ்வதி விஸ்மகா நிகர்நிலைப் பல்கலைக் கழகம், கேரளா பல்கலைக் கழகம் போன்றவை பல இடங்களில் பல ஆண்டுகளாக அகழாய்வுகள் மேற்கொண்டு தமிழ்நாட்டுத் தொல்லியல் வளர்ச்சிக்கு சிறப்பு சேர்த்திருக்கின்றன. 

தமிழ்நாடு அரசு தொல்லியல் துறை வரலாற்று முக்கியத்துவம் கொண்ட இடங்களில் தொல்லியல் சான்றுகளைக் கொண்டும், களஆய்வுகள் செய்தும் அகழாய்வுகளை மேற்கொண்டுவருகிறது. இதுவரை, இத்துறையானது 40 இடங்களில் அகழாய்வுகள் மேற்கொண்டு பழைமையான பல்வேறு காலகட்டங்களின் எச்சங்களை வெளிக்கொணர்ந்துள்ளது. இவ்வகையில் பரிக