# Text Detection from PNG/PDF Using Google Cloud Vision API

In this notebook, we will perform the following steps:
1. Convert a single-page PDF to an image.
2. Detect text from the image using Google Cloud Vision API.
3. Save the detected text to a text file.



In [5]:
import os
import io
from google.cloud import vision
import fitz
from PIL import Image
from pathlib import Path

src_path = "/home/borisg/Python/Kaleidoo/TestingSamples/PDF_example.pdf"
dst_path = "TestingOutputs/pdf_to_img_example_transcript.txt"

poppler_path = '/usr/bin/pdfinfo' # for pdf to img lib

# Load JSON key into env var
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = '/home/borisg/Python/Kaleidoo/kaleidoo-435715-96fdd3ef71f6.json' 

def detect_text_from_image(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, "rb") as image_file:
        content = image_file.read()

    print ("Processing...")

    image = vision.Image(content=content)

    image_context = vision.ImageContext(
        language_hints=['he']  
    )

    response = client.text_detection(image=image, image_context=image_context)

    response = client.text_detection(image=image)
    texts = response.text_annotations

    if texts:
        print(texts[0].description)
    else:
        print("No text detected.")
    
    print ("Done Processing.")

    if response.error.message:
        raise Exception(f'{response.error.message}')


# Convert single-page PDF to an image
img_dst_path = '/home/borisg/Python/Kaleidoo/TestingSamples/image_path.png'
def pdf_to_image(pdf_path):
    pdf_document = fitz.open(pdf_path)
    page = pdf_document.load_page(0)
    pix = page.get_pixmap()
    img = Image.open(io.BytesIO(pix.tobytes()))
    img.save(img_dst_path, format='PNG')
    pdf_document.close()
    return img_dst_path


pdf_path = src_path
detect_text_from_image(pdf_to_image(pdf_path))


Processing...
הכנה למבחני האיתור למחוננים
גאונצ'יק
הֲבָנַת הַנִּקְרָא
טֶלֶסְקוֹפּ
1 הַמֶּלֶסְקוֹפּ הוּא מַכְשִׁיר הַמְאַפְשֶׁר לָנוּ לִצְפּוֹת בַּעֲצָמִים
2 רְחוֹקִים מְאֹד. צַפָּרִים מִשְׁתַּמִּשִׁים בּוֹ כְּדֵי לִצְפּוֹת בְּצִפּוֹרִים,
3 וְאַסְטְרוֹנוֹמִים מִשְׁתַּמְשִׁים בּוֹ לִצְפִיָּה בֶּחָלָל.
4 אֶת הַמֶּלֶסְקוֹפּ לֹא הִמְצִיא אִישׁ אֶחָד, אֶלָּא הַרְבֵּה אֲנָשִׁים
5 יַחַד. לִפְנֵי כְּ-800 שָׁנִים הִמְצִיאוּ אֲנָשִׁים שׁוֹנִים בְּהוֹלַנְד
6 אֶת הַמֶּלֶסְקוֹפִּים הָרִאשׁוֹנִים. הֵם הָיוּ טֶלֶסְקוּפִים פְּשׁוּטִים
7 בְּאֵיכוּת יְרוּדָה.
8 לִפְנֵי כְּ-400 שָׁנִים הָאַסְטְרוֹנוֹם גְלִילָאוֹ גְלִילֵי בָּנָה טֶלֶסְקוֹפּ,
9 וּבְעֶזְרַת נָסוּיִים מְדַעְיִּים הִצְלִיחַ לְשְׁפֶר וּלְשִׁכְלֵל אוֹתוֹ. הוּא
10 הָיָה הַחוֹקֵר הָרִאשׁוֹן שֶׁהִצְלִיחַ לִצְפּוֹת בֶּחָלָל בְּאֶמְצָעוּת
11 טֶלֶסְקוֹפּ. בְּתַצְפִּיּוֹתָיו גִּלָּה שֶׁיֵּשׁ בַּיָּרֵחַ הָרִים וַעֲמָקִים כְּמוֹ
12 בְּכַדּוּר הָאָרֶץ, שֶׁלְכּוֹכָב הַלֶּכֶת צֶדֶק יֵשׁ יְרָחִים וְשָׁלְכּוֹכָב
13 הַלֶּכֶת שִׁבְּתַאִי יֵשׁ טַבָּעוֹת.
1. לְשֵ