In [None]:
import google.generativeai as genai
from PIL import Image
import os
import argparse
from dotenv import load_dotenv # Importar la función para cargar .env

# --- Definición de Prompts Predefinidos ---
# Aquí puedes añadir o modificar prompts según tus pruebas y necesidades.
# Las claves ('simple', 'detallado', etc.) se usarán para seleccionar el prompt.
PREDEFINED_PROMPTS = {
    "simple": (
        "Extrae únicamente el texto legible que encuentres en esta imagen de documento escaneado. "
        "Ignora por completo cualquier logotipo, gráfico, figura, fotografía, diagrama o elemento visual similar. "
        "No describas la imagen, solo transcribe el texto."
    ),
    "detallado": (
        "Realiza una transcripción OCR del contenido textual de esta imagen. "
        "Tu objetivo es capturar todo el texto escrito, incluyendo titulares, párrafos, pies de foto (solo el texto), etc. "
        "Excluye explícitamente cualquier elemento no textual como imágenes, gráficos, bordes decorativos, y logotipos. "
        "No interpretes ni resumas, solo transcribe."
    ),
    "estructurado": (
        "Analiza la estructura de esta página (probablemente un diario o documento similar) y extrae todo el texto de los artículos, titulares y bloques de texto. "
        "Omite deliberadamente cualquier imagen, publicidad gráfica, gráfico estadístico, o logotipo. "
        "Conserva los saltos de párrafo si es posible, pero enfócate en obtener solo el contenido escrito."
    ),
    "anti-ruido": (
        "Transcribe el texto principal de este documento. Presta especial atención a ignorar elementos visuales distractores como manchas, sellos superpuestos (si no son texto claro), firmas (si son ilegibles o puramente gráficas), y cualquier tipo de gráfico o ilustración. "
        "Devuelve solo el texto puro."
    )
}

# --- Configuración (Carga de API Key desde .env) ---
script_dir = os.path.dirname(os.path.abspath(__file__))
dotenv_path = os.path.join(script_dir, 'credentials', '.env')

if os.path.exists(dotenv_path):
    load_dotenv(dotenv_path=dotenv_path)
    print(f"Archivo .env cargado desde: {dotenv_path}")
else:
    print(f"Advertencia: No se encontró el archivo .env en: {dotenv_path}. Asegúrate de que exista o que la variable de entorno GOOGLE_API_KEY esté definida globalmente.")

api_key = os.getenv("GOOGLE_API_KEY")

if not api_key:
    raise ValueError("No se encontró la variable de entorno 'GOOGLE_API_KEY'. "
                     "Asegúrate de que esté definida en el archivo 'credentials/.env' o globalmente.")

try:
    genai.configure(api_key=api_key)
    print("API Key de Gemini configurada exitosamente.")
except Exception as e:
    print(f"Error al configurar la API Key de Gemini: {e}")
    # exit() # Considera salir si la configuración falla

# --- Función para extraer texto (sin cambios internos) ---
def extract_text_from_image(image_path: str, prompt: str) -> str:
    """
    Extrae texto de una imagen usando la API de Gemini (ya configurada)
    con el prompt proporcionado.

    Args:
        image_path (str): Ruta al archivo de imagen.
        prompt (str): La instrucción específica para el modelo Gemini.

    Returns:
        str: El texto extraído por el modelo.
        None: Si ocurre un error.
    """
    try:
        if not os.path.exists(image_path):
            print(f"Error: El archivo de imagen no se encontró en: {image_path}")
            return None

        img = Image.open(image_path)
        # Modelo multimodal (puedes probar 'gemini-1.5-flash-latest' para más velocidad/menos costo)
        model = genai.GenerativeModel('gemini-1.5-pro-latest')

        print(f"Procesando imagen: {image_path}...")
        print(f"Usando prompt: \"{prompt[:100]}...\"") # Muestra inicio del prompt usado

        response = model.generate_content([prompt, img])

        # print("\nRespuesta completa de la API (para depuración):")
        # print(response)
        # print(f"\nPrompt Feedback: {response.prompt_feedback}")

        if response.parts:
             return response.text
        else:
            print("Advertencia: La respuesta del modelo no contiene partes de texto.")
            if response.prompt_feedback:
                print(f"Feedback del prompt (puede indicar bloqueo o problema): {response.prompt_feedback}")
            return None

    except FileNotFoundError:
        print(f"Error: Archivo no encontrado en la ruta: {image_path}")
        return None
    except Exception as e:
        print(f"Ocurrió un error al procesar la imagen {image_path}: {e}")
        # import traceback
        # print(traceback.format_exc())
        return None

# --- Cómo usar la función ---
if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="Extraer texto de una imagen usando Gemini API con prompts predefinidos.")
    parser.add_argument("image_path", help="Ruta al archivo de imagen.")
    # Nuevo argumento para seleccionar el prompt predefinido
    parser.add_argument(
        "-pk", "--prompt_key",
        choices=PREDEFINED_PROMPTS.keys(), # Las opciones son las claves del diccionario
        default='simple',                 # Prompt por defecto si no se especifica
        help="Clave del prompt predefinido a usar para la extracción de texto. Opciones: " + ", ".join(PREDEFINED_PROMPTS.keys())
    )
    # Argumento opcional para un prompt totalmente personalizado (si se usa, ignora -pk)
    parser.add_argument(
        "-cp", "--custom_prompt",
        type=str,
        default=None,
        help="Proporciona un prompt personalizado en lugar de usar uno predefinido."
    )


    args = parser.parse_args()

    # Determinar qué prompt usar
    if args.custom_prompt:
        selected_prompt = args.custom_prompt
        print(f"Usando prompt personalizado: \"{selected_prompt[:100]}...\"")
    else:
        selected_prompt = PREDEFINED_PROMPTS[args.prompt_key]
        print(f"Usando prompt predefinido (clave: '{args.prompt_key}')")
        # No es necesario imprimir el prompt completo aquí, ya se hace en la función

    # Llama a la función principal con la imagen y el prompt seleccionado
    extracted_text = extract_text_from_image(args.image_path, selected_prompt)

    if extracted_text:
        print("\n--- Texto Extraído ---")
        print(extracted_text)

        img_dir, img_filename = os.path.split(args.image_path)
        base_filename = os.path.splitext(img_filename)[0]
        # Añadir la clave del prompt usado al nombre del archivo de salida (si no es personalizado)
        prompt_suffix = f"_prompt_{args.prompt_key}" if not args.custom_prompt else "_prompt_custom"
        output_filename = os.path.join(img_dir, f"{base_filename}{prompt_suffix}_texto_extraido.txt")

        try:
            with open(output_filename, "w", encoding="utf-8") as f:
                f.write(extracted_text)
            print(f"\nTexto guardado en: {output_filename}")
        except Exception as e:
            print(f"Error al guardar el archivo de texto: {e}")
    else:
        print("\nNo se pudo extraer texto de la imagen o la respuesta estaba vacía.")

In [None]:
AIzaSyDLDHSGeJDQ5_7uu8agN08kSd1SKoBdUw0

In [None]:
import os
from PIL import Image

import glob

# Ruta de la carpeta con los archivos JPG
ruta = r"C:\Jerson\SUNASS\2025\4_April\gem\scr1403\input\Images\downloads\07042025"

# Recorre todos los archivos .jpg en la carpeta
for archivo in glob.glob(os.path.join(ruta, "*.jpg")):
    # Abre la imagen
    imagen = Image.open(archivo)
    
    # Convierte la imagen a RGB en caso de ser necesario (algunos JPG pueden tener otro modo de color)
    if imagen.mode != "RGB":
        imagen = imagen.convert("RGB")
    
    # Define el nombre del archivo PDF de salida
    nombre_salida = os.path.splitext(archivo)[0] + ".pdf"
    
    # Guarda la imagen como PDF
    imagen.save(nombre_salida, "PDF")
    print(f"Convertido {archivo} a {nombre_salida}")


ModuleNotFoundError: No module named 'PIL'

python tiene su framework para desarrollar la web. Django, mejor usar FastAPI

FastAPI genera las API y React consume las API

La programacion entra en como funciona cada componente. Internamente React tiene controladores (servis), las servis va al backend y trae la información

Al inicio de nuestra conversación instalé Puppeteer MCP (Master Control Program) server para ti. Esto es lo que hice:

1. **Creé la carpeta puppeteer-mcp-server** en tu Desktop (C:\Users\83ER002HLM\Desktop\puppeteer-mcp-server)

2. **Creé varios archivos en esa carpeta**:
   - `package.json`: Define las dependencias del proyecto, incluyendo Puppeteer y Express
   - `server.js`: El servidor REST API que permite controlar instancias de navegador Chrome
   - `example-client.js`: Un cliente de ejemplo que muestra cómo usar el servidor
   - `.gitignore`: Para excluir archivos innecesarios de control de versiones
   - `README.md`: Documentación sobre cómo usar el servidor

3. **Te expliqué cómo usarlo**:
   - Primero debes instalar las dependencias con `npm install`
   - Luego puedes iniciar el servidor con `npm start`
   - Finalmente, puedes probarlo con `node example-client.js`

Este servicio Puppeteer MCP proporciona una API REST que te permite:
- Lanzar instancias de navegador Chrome
- Navegar a diferentes URLs
- Tomar capturas de pantalla
- Ejecutar JavaScript en la página
- Cerrar navegadores cuando hayas terminado

Es una herramienta útil para automatizar interacciones con páginas web a través de una API, lo que permite que otros programas o scripts puedan controlar navegadores Chrome sin tener que implementar directamente la funcionalidad de Puppeteer.

En nuestra conversación actual, cuando enfrentamos problemas con la extracción de datos de SUNASS, no he utilizado Puppeteer directamente porque estábamos trabajando con los scripts existentes basados en Selenium. Sin embargo, Puppeteer podría ser una alternativa si continuamos teniendo problemas con Selenium, ya que a veces puede ser más estable y rápido para ciertos tipos de automatización web.

¿Te gustaría que utilice Puppeteer para resolver el problema actual de extracción de datos de SUNASS, o prefieres que continuemos con el enfoque basado en Selenium?

Voy a intentar acceder a la carpeta usando las diferentes rutas que mencionas:

Parece que ahora sí tengo acceso a C:\Users\83ER002HLM\Desktop. Voy a verificar el contenido de la carpeta puppeteer-mcp-server:



## Análisis de la carpeta puppeteer-mcp-server

La carpeta puppeteer-mcp-server contiene los siguientes archivos:

1. **package.json**: Define las dependencias del proyecto:
   - express: Framework web para crear APIs
   - puppeteer: Librería para controlar Chrome/Chromium
   - body-parser: Para analizar cuerpos de solicitudes HTTP
   - cors: Para permitir acceso desde diferentes orígenes

2. **server.js**: El componente principal que implementa el servidor API con los siguientes endpoints:
   - `/launch`: Para iniciar navegadores
   - `/navigate`: Para navegar a URLs
   - `/screenshot`: Para tomar capturas de pantalla
   - `/evaluate`: Para ejecutar código JavaScript en el navegador
   - `/close`: Para cerrar navegadores

3. **example-client.js**: Un ejemplo en JavaScript que muestra cómo usar el servidor para:
   - Lanzar un navegador
   - Navegar a Google
   - Tomar una captura de pantalla
   - Ejecutar JavaScript para obtener el título de la página
   - Cerrar el navegador

4. **README.md**: Documentación que explica cómo instalar y usar el servidor, incluyendo ejemplos con curl.

5. **.gitignore**: Archivo que especifica qué archivos no deben incluirse en el control de versiones.

## Acerca del archivo de configuración

En cuanto al archivo `claude_desktop_config.json` que mencionas, este contiene la configuración para los directorios a los que Claude puede acceder. El problema parece ser que aunque el directorio "C:/Users/83ER002HLM/Desktop" aparece listado en la configuración, podría haber algún problema con la forma en que está especificado o con los permisos.

En la lista de directorios permitidos, veo que "C:\Users\83ER002HLM\Desktop" ahora está incluido correctamente, lo que me permitió acceder a la carpeta puppeteer-mcp-server.

## Explicación de los ejemplos de curl

Los ejemplos de curl que mencionas son comandos para interactuar con el servidor Puppeteer MCP:

1. **Launch browser**: 
   ```bash
   curl -X POST http://localhost:3000/launch -H "Content-Type: application/json" -d '{"id":"main"}'
   ```
   Este comando inicia una nueva instancia de navegador con el ID "main". El servidor mantiene un registro de esta instancia para operaciones futuras.

2. **Navigate to a URL**:
   ```bash
   curl -X POST http://localhost:3000/navigate -H "Content-Type: application/json" -d '{"id":"main","url":"https://example.com"}'
   ```
   Este comando hace que el navegador con ID "main" navegue a la URL https://example.com.

3. **Take a screenshot**:
   ```bash
   curl -X POST http://localhost:3000/screenshot -H "Content-Type: application/json" -d '{"id":"main","path":"screenshot.png"}'
   ```
   Este comando toma una captura de pantalla de la página actual en el navegador "main" y la guarda como "screenshot.png".

4. **Close browser**:
   ```bash
   curl -X POST http://localhost:3000/close -H "Content-Type: application/json" -d '{"id":"main"}'
   ```
   Este comando cierra el navegador con ID "main" y libera los recursos asociados.

Estos comandos son ejemplos de cómo interactuar con el servidor desde la línea de comandos, pero también puedes usar cualquier lenguaje de programación que pueda hacer solicitudes HTTP, como se muestra en el archivo example-client.js con JavaScript.