In [None]:
from google.cloud import vision
from google.cloud.vision_v1 import Feature, ImageAnnotatorClient
from PyPDF2 import PdfReader

def extract_text_from_pdf(pdf_file_path):
    """Extrae texto de un archivo PDF utilizando Google Cloud Vision API.

    Args:
        pdf_file_path (str): La ruta al archivo PDF.

    Returns:
        str: El texto extraído del PDF.
    """

    # Crea un cliente de Google Cloud Vision
    client = ImageAnnotatorClient()

    # Lee el archivo PDF
    reader = PdfReader(pdf_file_path)

    # Inicializa una lista para almacenar el texto extraído
    extracted_text = []

    # Itera sobre cada página del PDF
    for page_num in range(len(reader.pages)):
        # Obtiene la página actual
        page = reader.pages[page_num]

        # Convierte la página a una imagen (puedes usar una biblioteca como Pillow)
        # ... (código para convertir la página a una imagen)

        # Crea una solicitud de detección de texto
        image = vision.Image(content=image_bytes)  # image_bytes es la imagen convertida
        features = [Feature(type_=Feature.Type.DOCUMENT_TEXT_DETECTION)]
        request = vision.AnnotateImageRequest(image=image, features=features)

        # Envía la solicitud a la API de Google Cloud Vision
        response = client.batch_annotate_images(requests=[request])

        # Extrae el texto de la respuesta
        for page in response.responses:
            for block in page.full_text_annotation.pages[0].blocks:
                for paragraph in block.paragraphs:
                    for word in paragraph.words:
                        for symbol in word.symbols:
                            extracted_text.append(symbol.text)

    # Convierte la lista de texto a una cadena
    extracted_text = " ".join(extracted_text)

    # Cierra el cliente de Google Cloud Vision
    client.close()

    return extracted_text

# Ejemplo de uso
pdf_file_path = "./resources/books"
text = extract_text_from_pdf(pdf_file_path)
print(text)
