In [3]:
"""
This program converts a PDF containing Tamil text in TAM fonts intermixed with some
English fonts, into a plain text Unicode.

Page separators and paragraph first letters are left for proof reading or 
alteration if needed.

Usage: 
    Run as is, and this will extract and save text from Keeladi pdf document.   
    If you have your own TAM-PDF, place the pdf file in this folder or other folder. 
    Set fname to this file name. Run this program.

Author: Ravi Annaswamy
October 10, 2019
"""


import fitz
# if the fitz import fails use this line to install it.
# !pip install PyMuPDF

import web_ulagam # Module written by me for handing font conversion

def assemble_pagetext(page):
    out_text=[]
    # read page text as a dictionary, suppressing extra spaces in CJK fonts
    blocks = page.getText("dict", flags=11)["blocks"]
    for b in blocks:  # iterate through the text blocks
        out_text.append('\n\n')
        for l in b["lines"]:  # iterate through the text lines
            for s in l["spans"]:  # iterate through the text spans
                font_properties = "Font: '%s', size %g, color #%06x" % (
                    s["font"],  # font name
                    s["size"],  # font size
                    s["color"],  # font color
                )
                t=s["text"].strip()
                if t=='':
                    continue
                if '-TM-' not in s["font"]: # in english_fonts:
                    out_text.append(t+' ')  # simple print of text
                    #print(font_properties) #for debugging

                else:
                    t=tam_converter.to_unicode(t)
                    out_text.append(t+' ')
                    #print(t)
                    #print(font_properties)

    pagetext =  ''.join(out_text)
    while '  ' in pagetext:
        pagetext=pagetext.replace('  ',' ')
    return pagetext


### Main Function is below this.
fname = 'Sanga_Ilakkiya_Oor_Peyarkal.pdf'


doc = fitz.Document(fname)
tam_converter = web_ulagam.WU()
tam_converter.self_test()

ShowDemoInConsole=True
if ShowDemoInConsole:
    page = doc[1]
    print('============')
    pagetext = assemble_pagetext(page)
    print(pagetext)
    print()

output_text=True
if output_text:
    oname = fname.replace('.pdf', '_unicode.txt')
    with open(oname, 'w', encoding='utf-8') as f:
        pno=0
        for page in doc.pages():
            f.write('============\n')
            pno+=1
            f.write('      page: '+str(pno)+'\n')
            print('Writing page', pno)
            pagetext = assemble_pagetext(page)
            f.write(pagetext+'\n\n')
    print('Unicode text written to:', oname)


313 WU to Unicode replacements read!


நூற்குறிப்பு 

நூற்பெயர் : சங்க இலக்கிய ஊர்ப்பெயர் ஆய்வு 

ஆசிரியர் : முனைவர் கல்பனா சேக்கிழார் 

பதிப்பாளர் : ஆனந்தன் 

முதல் பதிப்பு : 2017 

தாள் : 16.0 கி. மேப்லித்தோ 

அளவு : 1/8 தெம்மி 

பக்கம் : 104 

படிகள் : 1000 

விலை : உரு. 100/- 

நூலாக்கம் மற்றும் : கயல்விழி 

அட்டை வடிவமைப்பு 

அச்சு : பிராசசு இந்தியா திருவல்லிக்கேணி, சென்னை - 5. 

கட்டமைப்பு : இயல்பு (சாதாரணம்) 

வெளியீடு : நெய்தல் பதிப்பகம் எண்.5, தங்கவேலு வைத்தியர் தெரு, தி ருவல்லிக்கேணி, சென்னை- 5 04428483750/42075836 

நூல் கிடைக்குமிடம் : தமிழ்மண் பதிப்பகம் 2, சிங்காரவேலர் தெரு, தியாகராயர் நகர், சென்னை -600 017 தொ.பே: 2433 9030 

Writing page 1
Writing page 2
Writing page 3
Writing page 4
Writing page 5
Writing page 6
Writing page 7
Writing page 8
Writing page 9
Writing page 10
Writing page 11
Writing page 12
Writing page 13
Writing page 14
Writing page 15
Writing page 16
Writing page 17
Writing page 18
Writing page 19
Writing page 20
Writing page 21
Writing page 22
Writing pa