## **TRANSLATING WRITTEN IMAGES**

<p>Translating written images involves converting text within an image to a different language. 
The general approach to this involves;<br>
1. Optical character Recognition<br>
2. Translation<br>
3. Combining both steps into a work flow to translate text from an image.<br>

### **OBJECTIVES** 
The aim of this task is to convert text within an image into a different language.<br>
In this case the target language is Arabic.

* Import or ensure the required libraries(pytesseract, googletrans, Pillow) are installed and configured<br> correctly for the OCR to work

In [1]:
!pip install pytesseract



In [2]:
!pip install pdf2image



In [3]:
!pip install googletrans==4.0.0-rc1 Pillow



In [4]:
!pip install pillow



In [5]:
!pip install -U deep-translator



In [6]:
import pytesseract 
from pdf2image import convert_from_path 
from googletrans import Translator  
import PIL 
from PIL import Image 
import os
from deep_translator import GoogleTranslator 
import codecs, sys

* Install Tesseract OCR on your system and set the path to the Tesseract to ensure pytesseract can find <br>
the Tesseract executable

In [7]:
pytesseract.pytesseract.tesseract_cmd = r"C:/Program Files/Tesseract-OCR/tesseract.exe"

* Convert PDF to images

In [8]:
path = r"C:/Users/P/Downloads/data analysis/Private project details (100 images).pdf"
if not os.path.exists(path): 
    raise FileNotFoundError(f"The file at path {path} does not exist. Please check the file path.")

In [9]:
try:
    pages = convert_from_path(path, 100) 
except Exception as e:
    raise RunTimeError(f"Failed to convert PDF to images. Error:{e}")

* Loop through each page and extract text<br>
* Perfrom OCR on the page image<br>
* Initialize Translator

In [11]:
full_text = "" 
for page_number, page in enumerate(pages):
    text = pytesseract.image_to_string(page, lang="eng")
    full_text += text + "\n"

In [12]:
translator = GoogleTranslator(source="auto", target="ar").translate(text=text)

In [13]:
print(full_text)

|

Short stories from 100 Selected Stories, by O Henry
1

The Gift of the Magi

A Cosmopolite in a Café
Between Rounds

The Skylight Room

A Service of Love

The Coming-Out of Maggie
The Cop and the Anthem
Memoirs of a Yellow Dog
The Love-philtre of Ikey Shoenstein
The Furnished Room

The Last Leaf

The Poet and the Peasant
A Ramble in Aphasia

A Municipal Report

Proof of the Pudding

bbb bb bbb bbb bv vd

‘The Gift of the Magi

ONE DOLLAR AND EIGHTY-SEVEN CENTS. That was all. And sixty
cents of it was in pennies. Pennies saved one and two at a time by
bulldozing the grocer and the vegetable man and the butcher
until one’s cheek burned with the silent imputation of parsimony
that such close dealing implied, Three times Della counted it.
‘One dollar and eighty-seven cents. And the next day would be
Christmas.

“There was clearly nothing left to do but flop down on the
shabby little couch and howl. So Della did it. Which instigates the
moral reflection that life is made up of sobs, snif

* Split the full text into chunks 
* Translate each chunk

In [14]:
def split_text_into_chunks(text, chunk_size=1000): 
    for i in range(0, len(text), chunk_size):
        yield text[i:i + chunk_size] 
chunks= list(split_text_into_chunks(full_text))

In [15]:
translated_chunks = [] 
translator = GoogleTranslator(source="auto", target="ar") 
for i, chunk in enumerate(chunks):
    translated_chunk = translator.translate(chunk)
    translated_chunks.append(translated_chunk)

* Combine translated chunks

In [16]:
translated_text = "\n".join(translated_chunks)

* Ensure proper UTF-8 encoding and output the translated text

In [65]:
translated_text_utf8 =translated_text.encode("UTF-8", errors="ignore").decode("UTF-8")

In [66]:
print(translated_text_utf8)

|

قصص قصيرة من 100 قصة مختارة، بقلم أو هنري
1

هدية من المجوس

عالمي في مقهى
بين الجولات

غرفة المناور

خدمة الحب

الخروج من ماجي
الشرطي والنشيد
مذكرات كلب أصفر
فلسفة الحب لإيكي شونشتاين
الغرفة المفروشة

الورقة الأخيرة

الشاعر والفلاح
نزهة في الحبسة

تقرير البلدية

دليل على الحلوى

بي بي بي بي بي بي بي بي بي في دي

'هدية من المجوس

دولار واحد وسبعة وثمانون سنتا. هذا كل شئ. وستين
سنتا منه كان في البنسات. أنقذت البنسات واحدًا واثنين في كل مرة
تجريف البقال ورجل الخضار والجزار
حتى يحترق خده بالنسب الصامت للبخل
كما كان يعني ذلك التعامل الوثيق، حسبته ديلا ثلاث مرات.
«دولار واحد وسبعة وثمانون سنتًا.» وفي اليوم التالي سيكون
عيد الميلاد.

"من الواضح أنه لم يتبق شيء للقيام به سوى التخبط في
الأريكة الصغيرة المتهالكة والعواء. لذلك فعلت ديلا ذلك. مما يحرض
الانعكاس الأخلاقي أن الحياة تتكون من تنهدات واستنشاق
يفل، ويبتسم،
مع الزكام السائد.

"في حين أن سيدة المنزل تنحسر تدريجياً من
المرحلة الأولى إلى الثانية، نلقي نظرة على المنزل. شقة مفروشة
بسعر 8 دولارات في الأسبوع. لم يكن وصفًا متسولًا تمامًا، لكن

* Save the translated text to a file, and download to PDF

In [67]:
with open("translated_text.txt", "w", encoding="UTF-8") as f: 
    f.write(translated_text_utf8)