In [1]:
import functions as f
import gradio as gr

### Extracting text

We first read the text from a pdf file.

In [8]:
print(f.read_pdf("pdfs/Contrato de Arrendamiento.pdf"))

Contrato de Arrendamiento  
Partes involucradas:  
Arrendador : [Nombre completo del arrendador]  Arrendatario : [Nombre completo del 
arrendatario]  
Objeto del contrato:  
El arrendador cede al arrendatario el uso y disfrute de la vivienda ubicada en [dirección 
completa] con las siguientes características:  
• [Descripción de la vivienda, incluyendo número de habitaciones, baños, etc.]  
Duración del contrato:  
El presente contrato tendrá una duración de [número de meses o años] a partir del 
[fecha de inicio] hasta el [fecha de finalización].  
Obligaciones del arrendador:  
1. Entregar la vivienda en buen estado de conservación y funcionamiento.  
2. Realizar las reparaciones necesarias para mantener la habitabilidad.  
3. Facilitar el acceso a la vivienda para inspecciones o reparaciones.  
Obligaciones del arrendatario:  
1. Pagar la renta mensual de [cantidad] antes del día [fecha de pago].  
2. Cuidar y mantener la vivienda en buen estado.  
3. No realizar modificaciones sin 

And now we repeat the procedure but with an image, using OCR.

In [9]:
print(f.read_Img("images/texto_paris.png"))

Neither CUDA nor MPS are available - defaulting to CPU. Note: This module is much faster with a GPU.


The towver is 324 Metres (1,063 ft) tall, aDout the Same height 81-storey building, and the tallest structure in Paris Its base i5 square, measuring 125 metres (410 ft) each side During its construction, the Eiffel Towver surpassed the Vashington Monument become the tallest man made structure in the world, title it held for 41 years until the Chrysler Building New York City was finished in 1930 It was the first structure reach height of 380 Metres- Due the addition of broadcasting aerial at the top of the tower in 1957 , it is now taller than the Chrysler Building by 5.2 Metres (17 ft) Excluding transmitters the Eiffel Tower is the secong tallest free 'standing structure France after the Millau Viaduct


### Summarizing

In this next step, we want to be able not only to extract the text, but also make a brief summary pointing out the main ideas. In order to do that we use a chatbot, using an API key. We use functions 'summarize_pdf' and 'summarize_Img' to summarize the information coming from either a pdf file or an image.

In [6]:
print(f.summarize_pdf("pdfs/Contrato de Arrendamiento.pdf"))

Resumen:
1. Partes involucradas: Arrendador y Arrendatario.
2. Objeto del contrato: Uso y disfrute de vivienda ubicada en [dirección completa].
3. Duración del contrato: [Número de meses o años] desde [fecha de inicio] hasta [fecha de finalización].
4. Obligaciones del arrendador: Entregar la vivienda en buen estado, realizar reparaciones necesarias y facilitar acceso para inspecciones.
5. Obligaciones del arrendatario: Pagar renta mensual, cuidar la vivienda y no hacer modificaciones sin consentimiento.
6. Renta mensual acordada: [Cantidad en euros/dólares].
7. Firma: Contrato firmado por ambas partes en [ciudad] el día [fecha de firma].


In [7]:
print(f.summarize_Img("images/texto_paris.png"))

Neither CUDA nor MPS are available - defaulting to CPU. Note: This module is much faster with a GPU.


Resumen:
1. La Torre Eiffel tiene una altura de 324 metros (1,063 pies) y es la estructura más alta de París.
2. Durante su construcción, la Torre Eiffel superó al Monumento a Washington como la estructura hecha por el hombre más alta del mundo.
3. La Torre Eiffel mantuvo el título de la estructura más alta durante 41 años hasta que se completó el Edificio Chrysler en la Ciudad de Nueva York en 1930.
4. Fue la primera estructura en alcanzar una altura de 380 metros debido a la adición de una antena de transmisión en la parte superior en 1957.
5. Excluyendo los transmisores, la Torre Eiffel es la segunda estructura independiente más alta de Francia después del Viaducto de Millau.


### Gradio interface

In this section, we create an interface with Gradio, to make it easy for the user to upload images or files and get summarizes, without needing to work with the code.

In [12]:

# interface one: pdf files
interface1 = gr.Interface(fn=f.summarize_pdf,
                    inputs=[gr.File(label="Upload the pdf document")],
                    outputs=[gr.Textbox(label="Summary of the document")],
                    title="Summarizing legal documents",
                    description="Summarize any pdf file.",
                    allow_flagging="never")
                    #examples=["christmas_dog.jpeg", "bird_flight.jpeg", "cow.jpeg"])

# interface two: images
interface2 = gr.Interface(fn=f.summarize_Img,
                    inputs=[gr.Image(label="Upload the pdf document")],
                    outputs=[gr.Textbox(label="Summary of the document")],
                    title="Summarizing legal documents",
                    description="Summarize any image using OCR.",
                    allow_flagging="never")
                    #examples=["christmas_dog.jpeg", "bird_flight.jpeg", "cow.jpeg"])
gr.close_all()
demo = gr.TabbedInterface([interface1, interface2], ["File", "Image"])

# Run the interface
demo.launch(share=True)

Running on local URL:  http://127.0.0.1:7860
Running on public URL: https://17139903dde45fed89.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)




In [2]:

# interface one: pdf files
interface1 = gr.Interface(fn=f.summarize_pdf_eng,
                    inputs=[gr.File(label="Upload the pdf document")],
                    outputs=[gr.Textbox(label="Summary of the document")],
                    title="Summarizing legal documents",
                    description="Summarize any pdf file.",
                    allow_flagging="never")
                    #examples=["christmas_dog.jpeg", "bird_flight.jpeg", "cow.jpeg"])

# interface two: images
interface2 = gr.Interface(fn=f.summarize_Img_eng,
                    inputs=[gr.Image(label="Upload the pdf document")],
                    outputs=[gr.Textbox(label="Summary of the document")],
                    title="Summarizing legal documents",
                    description="Summarize any image using OCR.",
                    allow_flagging="never")
                    #examples=["christmas_dog.jpeg", "bird_flight.jpeg", "cow.jpeg"])
gr.close_all()
demo = gr.TabbedInterface([interface1, interface2], ["File", "Image"])

# Run the interface
demo.launch(share=True)

Running on local URL:  http://127.0.0.1:7860
Running on public URL: https://10ff86c7f90678b826.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)




### First attempt (only for pdf)

In [1]:
import json
import requests
import PyPDF2
import pytesseract
import easyocr

In [2]:
def summarize(pdf_path):

    # create a pdf reader object and to extract text
    reader = PyPDF2.PdfReader(pdf_path)

    # Initialize an empty string to store the combined text
    full_text = ""

    # Iterate through all pages and extract text
    for page in reader.pages:
        full_text += page.extract_text() # extracting the text per pages
        
    headers = {"Authorization": "Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJ1c2VyX2lkIjoiYzk2Y2QzNzgtZDhlZS00MzkxLWJmYmMtNzg1N2I0NWJjMDYyIiwidHlwZSI6ImFwaV90b2tlbiJ9.BIwMWdaPNAcVM6yhNbLMD2SDbmTxfis_Emd6HUYfVME"}

    url = "https://api.edenai.run/v2/text/chat"
    payload = {
        "providers": "openai",
        "text": full_text,
        "chatbot_global_action": f"""Actua como un asistente cuya funcion es ayudar a abogados
                                 y personal legal a resumir documentos jurídicos extensos,
                                 destacando los datos más importantes para ahorrando tiempo 
                                 y esfuerzo en el análisis manual.
                                 
                                 Para la salida quiero que lo ordenes por puntos importantes, con una idea por punto y pongas Resumen: """,
        "previous_history": [],
        "temperature": 0.0,
        "max_tokens": 1000,
    }

    response = requests.post(url, json=payload, headers=headers)

    result = json.loads(response.text)
    return result['openai']['generated_text']

In [3]:
print(summarize("/teamspace/studios/this_studio/Project_IV/pdfs/Contrato de Arrendamiento.pdf"))

Resumen:
1. Partes involucradas: Arrendador y Arrendatario.
2. Objeto del contrato: Uso y disfrute de vivienda ubicada en [dirección completa].
3. Duración del contrato: [Número de meses o años] desde [fecha de inicio] hasta [fecha de finalización].
4. Obligaciones del arrendador: Entregar la vivienda en buen estado, realizar reparaciones necesarias y facilitar acceso para inspecciones.
5. Obligaciones del arrendatario: Pagar renta mensual, cuidar la vivienda y no hacer modificaciones sin consentimiento.
6. Renta mensual acordada: [Cantidad en euros/dólares].
7. Firma: Contrato firmado por ambas partes en [ciudad] el día [fecha de firma].


In [4]:
import gradio as gr
import os

gr.close_all()
demo = gr.Interface(fn=summarize,
                    inputs=[gr.File(label="Upload the pdf document")],
                    outputs=[gr.Textbox(label="Summary of the document")],
                    title="Summarizing legal documents",
                    #description="Caption any image using the BLIP model",
                    allow_flagging="never")
                    #examples=["christmas_dog.jpeg", "bird_flight.jpeg", "cow.jpeg"])

demo.launch(share=True)

Running on local URL:  http://127.0.0.1:7860
Running on public URL: https://2d619347ff4365b4d7.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)




### Both image and pdf

In [34]:
import easyocr

def read_Img(image_path):

    # Initialize OCR object
    reader = easyocr.Reader(['en', 'es', 'fr'])
    
    # Apply OCR
    text = reader.readtext(image_path, detail=0)
    full_text = " ".join(text)

    return full_text

#print(read_Img("texto_paris.png"))

In [6]:
import PyPDF2

def read_pdf(file_path):

    # create a pdf reader object and to extract text
    reader = PyPDF2.PdfReader(file_path)

    # Initialize an empty string to store the combined text
    full_text = ""

    # Iterate through all pages and extract text
    for page in reader.pages:
        full_text += page.extract_text() # extracting the text per pages
    
    return full_text

#print(read_pdf("/teamspace/studios/this_studio/Project_IV/pdfs/Contrato de Arrendamiento.pdf"))

Contrato de Arrendamiento  
Partes involucradas:  
Arrendador : [Nombre completo del arrendador]  Arrendatario : [Nombre completo del 
arrendatario]  
Objeto del contrato:  
El arrendador cede al arrendatario el uso y disfrute de la vivienda ubicada en [dirección 
completa] con las siguientes características:  
• [Descripción de la vivienda, incluyendo número de habitaciones, baños, etc.]  
Duración del contrato:  
El presente contrato tendrá una duración de [número de meses o años] a partir del 
[fecha de inicio] hasta el [fecha de finalización].  
Obligaciones del arrendador:  
1. Entregar la vivienda en buen estado de conservación y funcionamiento.  
2. Realizar las reparaciones necesarias para mantener la habitabilidad.  
3. Facilitar el acceso a la vivienda para inspecciones o reparaciones.  
Obligaciones del arrendatario:  
1. Pagar la renta mensual de [cantidad] antes del día [fecha de pago].  
2. Cuidar y mantener la vivienda en buen estado.  
3. No realizar modificaciones sin 

In [52]:
def summarize3(path): 
    
    full_text = read_Img(path)
       
    headers = {"Authorization": "Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJ1c2VyX2lkIjoiYzk2Y2QzNzgtZDhlZS00MzkxLWJmYmMtNzg1N2I0NWJjMDYyIiwidHlwZSI6ImFwaV90b2tlbiJ9.BIwMWdaPNAcVM6yhNbLMD2SDbmTxfis_Emd6HUYfVME"}

    url = "https://api.edenai.run/v2/text/chat"
    payload = {
        "providers": "openai",
        "text": full_text,
        "chatbot_global_action": f"""Actua como un asistente cuya funcion es ayudar a abogados
                                 y personal legal a resumir documentos jurídicos extensos,
                                 destacando los datos más importantes para ahorrando tiempo 
                                 y esfuerzo en el análisis manual.
                                 
                                 Para la salida quiero que lo ordenes por puntos importantes, con una idea por punto y pongas Resumen: """,
        "previous_history": [],
        "temperature": 0.0,
        "max_tokens": 1000,
    }

    response = requests.post(url, json=payload, headers=headers)

    result = json.loads(response.text)
    return result['openai']['generated_text']

In [49]:
def summarize2(path): 
    
    full_text = read_pdf(path)
       
    headers = {"Authorization": "Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJ1c2VyX2lkIjoiYzk2Y2QzNzgtZDhlZS00MzkxLWJmYmMtNzg1N2I0NWJjMDYyIiwidHlwZSI6ImFwaV90b2tlbiJ9.BIwMWdaPNAcVM6yhNbLMD2SDbmTxfis_Emd6HUYfVME"}

    url = "https://api.edenai.run/v2/text/chat"
    payload = {
        "providers": "openai",
        "text": full_text,
        "chatbot_global_action": f"""Actua como un asistente cuya funcion es ayudar a abogados
                                 y personal legal a resumir documentos jurídicos extensos,
                                 destacando los datos más importantes para ahorrando tiempo 
                                 y esfuerzo en el análisis manual.
                                 
                                 Para la salida quiero que lo ordenes por puntos importantes, con una idea por punto y pongas Resumen: """,
        "previous_history": [],
        "temperature": 0.0,
        "max_tokens": 1000,
    }

    response = requests.post(url, json=payload, headers=headers)

    result = json.loads(response.text)
    return result['openai']['generated_text']

In [53]:
print(summarize3("/teamspace/studios/this_studio/Project_IV/pdfs/OIP (2).jpg"))

Neither CUDA nor MPS are available - defaulting to CPU. Note: This module is much faster with a GPU.


Resumen:
1. La administración es una organización con estructuras ordenadas y regida por normas jurídicas que crean, modifican y regulan las estructuras administrativas, así como la designación de titulares y competencias.
2. Las normas sobre la organización de la administración son esenciales en el derecho administrativo, ya que determinan los órganos y autoridades competentes, así como el funcionamiento de la administración.
3. La atención hacia el derecho de la organización administrativa ha aumentado con el tiempo, ya que una organización deficiente dificulta asegurar que las decisiones administrativas sean correctas y sirvan con objetividad a los intereses generales.
4. La personalidad jurídica de la administración se refiere a todo conjunto organizativo, de mayor o menor complejidad, que forma parte de la entidad pública.


In [50]:
print(summarize2("/teamspace/studios/this_studio/Project_IV/pdfs/Contrato de Arrendamiento.pdf"))

Resumen:
1. Partes involucradas: Arrendador y Arrendatario.
2. Objeto del contrato: Uso y disfrute de vivienda ubicada en [dirección completa].
3. Duración del contrato: [Número de meses o años] desde [fecha de inicio] hasta [fecha de finalización].
4. Obligaciones del arrendador: Entregar la vivienda en buen estado, realizar reparaciones necesarias y facilitar acceso para inspecciones.
5. Obligaciones del arrendatario: Pagar renta mensual, cuidar la vivienda y no hacer modificaciones sin consentimiento.
6. Renta mensual acordada: [Cantidad en euros/dólares].
7. Firma: Contrato firmado por ambas partes en [ciudad] el día [fecha de firma].


In [54]:

# interface one
interface1 = gr.Interface(fn=summarize2,
                    inputs=[gr.File(label="Upload the pdf document")],
                    outputs=[gr.Textbox(label="Summary of the document")],
                    title="Summarizing legal documents",
                    #description="Caption any image using the BLIP model",
                    allow_flagging="never")
                    #examples=["christmas_dog.jpeg", "bird_flight.jpeg", "cow.jpeg"])
# interface two

interface2 = gr.Interface(fn=summarize3,
                    inputs=[gr.Image(label="Upload the pdf document")],
                    outputs=[gr.Textbox(label="Summary of the document")],
                    title="Summarizing legal documents",
                    #description="Caption any image using the BLIP model",
                    allow_flagging="never")
                    #examples=["christmas_dog.jpeg", "bird_flight.jpeg", "cow.jpeg"])
gr.close_all()
demo = gr.TabbedInterface([interface1, interface2], ["File", "Image"])

# Run the interface
demo.launch(share=True)

Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Closing server running on port: 7860
Running on local URL:  http://127.0.0.1:7864


Running on public URL: https://7ca830548c3c809030.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)




### Other attempts

In [None]:
from PIL import Image
import pytesseract

# Define a function to extract text from an image
def extract_text_from_image(image_path):
    try:
        # Open the image
        image = Image.open(image_path)

        # Use pytesseract to extract text from the image
        extracted_text = pytesseract.image_to_string(image)

        return extracted_text
    except Exception as e:
        return f"Error extracting text from image: {str(e)}"

# Call the function to extract text from an image (e.g., \"sample.jpg\")
image_path = "testamento1.jpg"
extracted_text = extract_text_from_image(image_path)

# Print the extracted text
print(f"Extracted text from {image_path}:\n{extracted_text}")


In [None]:
import pytesseract

def readImgOCR(image):
    text = pytesseract.image_to_string(image, lang='eng')

    # Mostrar el texto extraído y los datos de la factura
    print("Texto extraído con OCR:")
    print(text)
    return text

readImgOCR("texto_paris.png")

In [41]:
from PIL import Image  # install by > python3 -m pip install --upgrade Pillow  # ref. https://pillow.readthedocs.io/en/latest/installation.html#basic-installation
images = [
    Image.open("/teamspace/studios/this_studio/" + f)
    for f in ["texto_paris.png"]
]

pdf_path = "/teamspace/studios/this_studio/texto_paris.pdf"    
images[0].save(
    pdf_path, "PDF" ,resolution=100.0, save_all=True, append_images=images[1:]
)



In [None]:
def get_completion(full_text):
    headers = {"Authorization": "Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJ1c2VyX2lkIjoiYzk2Y2QzNzgtZDhlZS00MzkxLWJmYmMtNzg1N2I0NWJjMDYyIiwidHlwZSI6ImFwaV90b2tlbiJ9.BIwMWdaPNAcVM6yhNbLMD2SDbmTxfis_Emd6HUYfVME"}

    url = "https://api.edenai.run/v2/text/chat"
    payload = {
        "providers": "openai",
        "text": full_text,
        "chatbot_global_action": f"""Actua como un asistente cuya funcion es ayudar a abogados
                                 y personal legal a resumir documentos jurídicos extensos,
                                 destacando los datos más importantes para ahorrando tiempo 
                                 y esfuerzo en el análisis manual.
                                 
                                 Para la salida quiero que lo ordenes por puntos importantes, con una idea por punto y pongas Resumen: """,
        "previous_history": [],
        "temperature": 0.0,
        "max_tokens": 1000,
    }

    response = requests.post(url, json=payload, headers=headers)

    result = json.loads(response.text)
    return result['openai']['generated_text']

In [3]:
text = '''The tower is 324 metres (1,063 ft) tall, about the same height
        as an 81-storey building, and the tallest structure in Paris. 
        Its base is square, measuring 125 metres (410 ft) on each side. 
        During its construction, the Eiffel Tower surpassed the Washington 
        Monument to become the tallest man-made structure in the world,
        a title it held for 41 years until the Chrysler Building
        in New York City was finished in 1930. It was the first structure 
        to reach a height of 300 metres. Due to the addition of a broadcasting 
        aerial at the top of the tower in 1957, it is now taller than the 
        Chrysler Building by 5.2 metres (17 ft). Excluding transmitters, the 
        Eiffel Tower is the second tallest free-standing structure in France 
        after the Millau Viaduct.'''

In [10]:
print(get_completion(text))

Resumen:
1. La Torre Eiffel mide 324 metros de altura, equivalente a un edificio de 81 pisos.
2. Es la estructura más alta de París y su base es cuadrada, con 125 metros de lado.
3. Durante su construcción, la Torre Eiffel se convirtió en la estructura hecha por el hombre más alta del mundo, superando al Monumento a Washington.
4. Mantuvo el título de la estructura más alta durante 41 años hasta la finalización del Edificio Chrysler en Nueva York en 1930.
5. Fue la primera estructura en alcanzar una altura de 300 metros.
6. Con la adición de una antena de transmisión en 1957, la Torre Eiffel superó en altura al Edificio Chrysler en 5.2 metros.
7. Excluyendo los transmisores, la Torre Eiffel es la segunda estructura independiente más alta de Francia después del Viaducto de Millau.


### Pruebas

In [1]:
# Warning control
import warnings
warnings.filterwarnings('ignore')

In [4]:
# importing all the required modules
import PyPDF2

# creating a pdf reader object
reader = PyPDF2.PdfReader('/teamspace/studios/this_studio/pdfs/Redacción-Apuntes.pdf')

# print the number of pages in pdf file
print(len(reader.pages))

# print the text of the first page
print(reader.pages[9].extract_text())

# extract the 10th page
text = reader.pages[9].extract_text()

23
• "TERCERO. - Que no hecha cuestión sobre caducidad, antes de dilucidar sobre el ex-
tremo privativo de la viabilidad del juicio posesorio, legitimación en su doble vertiente, 
activa y pasiva, conviene dejar sentado que, dirigido el proceso interdictal al logro de 
la paz urgente y jurídica necesaria en toda convivencia social, mediante la solución 
momentánea y transitoria del conflicto de hecho, sin perjuicio de un proceso posterior 
declarativo, en que sean examinados todos los elementos en juego; su finalidad no es 
otra q ue, en razón a principios de justicia y orden público, eliminar la violencia, impi-
diendo que nadie se tome ilícitamente la justicia por su propia mano" (del Fundamen-
to Jurídico de una sentencia).  
 
• "La reforma legal trata de poner coto a todo ello, bien qu e nos tememos que los frutos 
no se correspondan con los deseos, a lo que contribuirá, a nuestro modesto criterio, y 
con independencia de que la verdadera solución ha de buscarse por otros cauces, 