In [None]:
import base64
import os
from mistralai import Mistral

def encode_image(image_path):
    """Encode the image to base64."""
    try:
        with open(image_path, "rb") as image_file:
            return base64.b64encode(image_file.read()).decode('utf-8')
    except FileNotFoundError:
        print(f"Error: The file {image_path} was not found.")
        return None
    except Exception as e:  # Added general exception handling
        print(f"Error: {e}")
        return None

# Path to your image
image_path = "/content/pich2.jpg"

# Getting the base64 string
base64_image = encode_image(image_path)

api_key = "Zc9IyT0mOpXMxsLTbkSDdY52DH29SoFg"
client = Mistral(api_key=api_key)

ocr_response = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "image_url",
        "image_url": f"data:image/jpeg;base64,{base64_image}"
    },
    include_image_base64=True
)

In [None]:
import os
os.environ["GOOGLE_API_KEY"] = "AIzaSyDqkMbSOB9WU3yd_ghhhDENFZ6ChhYFPK0"


In [None]:
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.output_parsers import StructuredOutputParser, ResponseSchema
from langchain.prompts import ChatPromptTemplate

# Crear el modelo Gemini
llm = ChatGoogleGenerativeAI(model="gemini-1.5-flash")

# Define el esquema de los campos a extraer
response_schemas = [
    ResponseSchema(name="banco", description="Nombre del banco emisor del comprobante"),
    ResponseSchema(name="hora", description="Hora de la transacción"),
    ResponseSchema(name="nombre", description="Nombre completo del titular"),
    ResponseSchema(name="cedula", description="Cédula de identidad del titular"),
    ResponseSchema(name="fecha", description="Fecha de la transacción"),
    ResponseSchema(name="monto", description="Monto total de la transacción"),
    ResponseSchema(name="numero_transaccion", description="Número de la transacción")
]

parser = StructuredOutputParser.from_response_schemas(response_schemas)
format_instructions = parser.get_format_instructions()


In [None]:
prompt = ChatPromptTemplate.from_template("""
Extrae la siguiente información del comprobante bancario:
- banco
- hora
- nombre del emisor
- cédula
- fecha
- monto
- número de transacción

Si no encuentras de manera clara y especifica la info, pones N/A

Texto:
```{text}```

{format_instructions}
""")


In [None]:
# Este es el texto obtenido del OCR de Mistral
ocr_text = ocr_response.pages[0].markdown

# Formatea los mensajes
messages = prompt.format_messages(text=ocr_text, format_instructions=format_instructions)

# Llama al modelo
response = llm(messages)

# Parsea la respuesta
parsed_data = parser.parse(response.content)

print(parsed_data)


{'banco': 'BANCO PICHINCHA', 'hora': '15:32:57', 'nombre': 'NANCY YUMBLA', 'cedula': 'N/A', 'fecha': '28/08/20', 'monto': '130.00', 'numero_transaccion': '7429'}
