# InDesign Migration

## Dependencies

In [3]:
from PIL import Image
from pathlib import Path
import google.genai as genai
import xml.etree.ElementTree as ET
import fitz
import json
import shutil
import zipfile
import os

In [4]:
API_KEY = 'AIzaSyBBtO2UJmUute1PJ7w3JUSEj6OLD7g7ECQ'

In [5]:
base_path = Path("data")
old_dir = base_path / "old"
new_template_dir = base_path / "new"
pdf_old_path = base_path / "antigo.pdf"
pdf_new_path = base_path / "new.pdf"

# Diret√≥rio de sa√≠da para o documento migrado
migrated_dir = base_path / "documento_migrado"
idml_final_path = base_path / "resultado_migrado.idml"

## PDF Document Analysis

### PDF Page to Image conversion

In [6]:
def pdf_page_to_image(page) -> Image.Image:
    """Converte a primeira p√°gina de um PDF em um objeto de imagem."""
    pix = page.get_pixmap()
    img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
    return img


### Text Extraction

In [7]:
def pdf_text_extraction(page) -> list[str]:
    """Extrai todos os blocos de texto da primeira p√°gina de um PDF."""
    # Extrai texto em blocos para manter a coes√£o
    text_blocks = page.get_text("blocks")
    # Retorna uma lista de textos limpos
    return [block[4].replace('\n', ' ').strip() for block in text_blocks if block[4].strip()]


### Text Analysis with AI

In [27]:
def gemini_doc_analysis(pdf_path: Path) -> dict:
    """
    Analisa a primeira p√°gina de um PDF, extrai textos e usa o Gemini para
    retornar um mapeamento sem√¢ntico estruturado.
    """
    response = {}
    try:
        # 1. Preparar os dados para a an√°lise multimodal
        doc = fitz.open(pdf_path)
        for page_num in range(doc.page_count):
            page = doc.load_page(page_num)
            textos_pdf = pdf_text_extraction(page)
            imagem_pdf = pdf_page_to_image(page)
        
            # 2. Construir o prompt para a API Gemini
            # todo especificar labels
            # todo especificar poss√≠veis repeti√ß√µes
            prompt_parts = [
                "Analise a imagem desta p√°gina de documento e os textos fornecidos.",
                "Atue como um especialista em editora√ß√£o eletr√¥nica (Desktop Publishing).",
                "Para cada texto na lista, identifique seu type sem√¢ntico (ex: 'titulo_principal', 'subtitulo', 'corpo_de_texto', 'autor', 'cabecalho', 'legenda_imagem', 'numero_pagina').",
                "Retorne um √∫nico objeto JSON com uma chave 'mapeamento_semantico', que cont√©m uma lista de objetos. Cada objeto deve ter duas chaves: 'texto' com o conte√∫do original e 'type_semantico' com a classifica√ß√£o que voc√™ determinou.",
                "Seja preciso e baseie-se no layout visual (tamanho da fonte, posi√ß√£o, peso).",
                "\n--- IMAGEM DA P√ÅGINA ---",
                imagem_pdf,
                "\n--- TEXTOS EXTRA√çDOS DA P√ÅGINA ---",
                "\n".join(textos_pdf)
            ]

            # 3. Chamar a API Gemini
            print(f"Analisando o documento {pdf_path} ({page_num + 1}/{doc.page_count})...")
            ai = genai.Client(api_key=API_KEY)
            generation_config = {
                "temperature": 0.1,
                "response_mime_type": "application/json",
            }
            generated_content = ai.models.generate_content(contents=prompt_parts, model='gemini-2.0-flash', config=generation_config)
            response[int(page_num)] = json.loads(generated_content.text)

            print(f"\n>>> Resultado da An√°lise Sem√¢ntica (Documento {pdf_path.name} ({page_num + 1}/{doc.page_count})):")
            print(response[int(page_num)])
            print("\n")
        doc.close()
        return response # json.loads(response)

    except Exception as e:
        print(f"‚ùå Ocorreu um erro ao analisar {pdf_path.name}: {e}")
        return None

### Execution

In [8]:
# 1. Get the list of story files
story_files_response = default_api.list_files(path="data/old/Stories/")
# Exemplo de uso para o primeiro story encontrado na pasta 'old'
# caminho_stories_antigo = Path('data/old/Stories')
# primeiro_story_antigo = next(caminho_stories_antigo.glob('*.xml'), None)

# if primeiro_story_antigo:
#     texto_extraido = story_text_extraction(primeiro_story_antigo)
#     print(f"Texto extra√≠do de {primeiro_story_antigo.name}:\n{texto_extraido}...")
if story_files_response and story_files_response["list_files_response"]["status"] == "succeeded":
    all_files = story_files_response["list_files_response"]["result"]

    # 2. Filter for XML files and create Path objects
    xml_story_files = [Path("data/old/Stories/") / f for f in all_files if f.endswith(".xml")]

    all_extracted_text = {}

    # 3. Iterate and extract
    for story_file_path in xml_story_files:
        extracted_text = story_text_extraction(story_file_path)
        all_extracted_text[str(story_file_path)] = extracted_text # Store text with file path

    # 4. Process the extracted text (example: print)
    for file_path, text in all_extracted_text.items():
        print(f"--- Text from {file_path} ---")
        print(text)
        print("\\n") # Add a newline for separation


In [None]:
# 4. Executar a an√°lise para obter o plano de migra√ß√£o
old_result = gemini_doc_analysis(pdf_old_path)
print("\n## Resultado da An√°lise Sem√¢ntica (Documento Antigo):")
print(json.dumps(old_result, indent=2, ensure_ascii=False))

In [None]:
new_result = gemini_doc_analysis(pdf_new_path)
print("\n## Resultado da An√°lise Sem√¢ntica (Documento Novo):")
print(json.dumps(new_result, indent=2, ensure_ascii=False))

In [32]:
if not (old_result and new_result):
    print("‚ùå A an√°lise sem√¢ntica falhou. Abortando a migra√ß√£o.")
    exit()

In [None]:
# 5. Processar o plano de migra√ß√£o
# todo adequar ao n√∫mero de p√°ginas de cada result (ex: old-20 e new-14)
# todo poderia desconsiderar a repeti√ß√£o de conte√∫do de texto
# todo poderia considerar as se√ß√µes 
old_content_map = {item['tipo_semantico']: item['texto'] for item in old_result['mapeamento_semantico']}
new_content_map = {item['tipo_semantico']: item['texto'] for item in new_result['mapeamento_semantico']}

migration_plan = []
for type, placeholder in new_content_map.items():
    if type in old_content_map:
        migration_plan.append({
            "type": type,
            "conteudo_a_migrar": old_content_map[type],
            "placeholder": placeholder
        })

print("\n" + "="*50)
print("üöÄ PLANO DE MIGRA√á√ÉO PRONTO PARA EXECU√á√ÉO üöÄ")
print("="*50)
for item in migration_plan:
    print(f"‚úîÔ∏è Tipo: [{item['type']}] - Substituir '{item['placeholder']}...' por '{item['conteudo_a_migrar']}...'")
print("="*50 + "\n")


## Story Analysis

### Story Text Extraction

In [30]:
# todo integrar essa fun√ß√£o a an√°lise dos textos
def story_text_extraction(story_path: Path) -> str:
    """Extrai todo o conte√∫do de texto de um arquivo de Story do IDML."""
    try:
        tree = ET.parse(story_path)
        root = tree.getroot()
        content = ""
        # Itera sobre todos os elementos de conte√∫do no XML
        for content_elem in root.findall('.//Content'):
            if content_elem.text:
                content += content_elem.text
        return content.strip()
    except (ET.ParseError, FileNotFoundError):
        return ""

## Content Replacement

### Text Replacement

In [14]:
from pathlib import Path

def encontrar_e_substituir_na_story(placeholder: str, novo_conteudo: str, stories_path: Path) -> bool:
    """Encontra o arquivo de story que cont√©m o placeholder e substitui seu conte√∫do."""
    for story_file in stories_path.glob("*.xml"):
        try:
            # Usar um parser que lida com namespaces √© uma boa pr√°tica
            parser = ET.XMLParser(encoding="utf-8")
            tree = ET.parse(story_file, parser=parser)
            root = tree.getroot()

            # Precisamos verificar se o placeholder est√° no arquivo antes de modificar
            raw_text = ET.tostring(root, encoding='unicode')
            if placeholder not in raw_text:
                continue

            # Encontra o elemento de par√°grafo/estilo que cont√©m o placeholder
            # todo ajustar para quando houver quebra de linha
            for elem in root.findall('.//ParagraphStyleRange//CharacterStyleRange'):
                content_tags = elem.findall('Content')
                # Recria o texto dentro da tag de estilo para uma busca precisa
                current_text = "".join([c.text for c in content_tags if c.text])
                
                if placeholder in current_text:
                    print(f"   -> Encontrado placeholder em '{story_file.name}'. Substituindo...")
                    
                    # Limpa o conte√∫do antigo (tags <Content> e <Br />)
                    for sub_elem in list(elem):
                        if sub_elem.tag in ['Content', 'Br']:
                            elem.remove(sub_elem)
                    
                    # Adiciona o novo conte√∫do, tratando quebras de linha
                    linhas = novo_conteudo.split('\n')
                    for i, linha in enumerate(linhas):
                        if i > 0:
                            ET.SubElement(elem, 'Br')
                        content_tag = ET.SubElement(elem, 'Content')
                        content_tag.text = linha
                    
                    # Salva as altera√ß√µes no arquivo XML
                    tree.write(story_file, encoding="UTF-8", xml_declaration=True)
                    return True # Modifica√ß√£o bem-sucedida

        except Exception as e:
            print(f"   -> Erro ao processar o arquivo {story_file.name}: {e}")
    
    return False # Placeholder n√£o encontrado em nenhuma story

In [None]:
# 6. Executar a migra√ß√£o
# Primeiro, crie uma c√≥pia limpa do template para modifica√ß√£o
if os.path.exists(migrated_dir):
    print(f"üßπ Limpando diret√≥rio de migra√ß√£o anterior: '{migrated_dir}'")
    shutil.rmtree(migrated_dir)

print(f"¬©Ô∏è Copiando template de '{new_template_dir}' para '{migrated_dir}'...")
shutil.copytree(new_template_dir, migrated_dir)

# Agora, aplique as modifica√ß√µes na c√≥pia
print("‚úçÔ∏è  Iniciando a substitui√ß√£o de conte√∫do nos arquivos de Story...")
stories_path_migrado = migrated_dir / "Stories"
sucessos = 0
for item in migration_plan:
    if encontrar_e_substituir_na_story(item['placeholder'], item['conteudo_a_migrar'], stories_path_migrado):
        sucessos += 1

if sucessos > 0:
    print(f"‚úÖ {sucessos} substitui√ß√µes de conte√∫do realizadas com sucesso.")
else:
    print("‚ö†Ô∏è Nenhuma substitui√ß√£o de conte√∫do foi realizada. Verifique os placeholders.")


## IDML Export

In [16]:
def criar_pacote_idml(source_dir: Path, output_filename: str):
    """Cria um arquivo .idml (zip) a partir de um diret√≥rio de origem."""
    print(f"üì¶ Empacotando o resultado em '{output_filename}'...")
    with zipfile.ZipFile(output_filename, 'w', zipfile.ZIP_DEFLATED) as zipf:
        for root, _, files in os.walk(source_dir):
            for file in files:
                file_path = Path(root) / file
                # O caminho no arquivo zip deve ser relativo ao diret√≥rio de origem
                archive_name = file_path.relative_to(source_dir)
                zipf.write(file_path, archive_name)
    print(f"Pacote '{output_filename}' criado com sucesso!")

In [None]:
# 7. Empacotar o resultado final em um novo arquivo .idml
criar_pacote_idml(migrated_dir, idml_final_path)

print("\nüéâ Processo de migra√ß√£o conclu√≠do!")
print(f"Seu novo documento est√° pronto em: ./{idml_final_path}")
print("Abra este arquivo no Adobe InDesign para verificar e exportar como PDF.")