In [17]:
%pip install selenium
%pip install webdriver-manager

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
import time

# Configuração básica do driver
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

try:
    url = "https://www.docvirt.com/docreader.net/DocReader.aspx?bib=coportinari&id=4645702686696&pagfis=1"
    driver.get(url)

    # Aguarda o carregamento do AJAX (o site é lento devido ao framework Telerik)
    time.sleep(0.9)

    # Utilizando o find_element como você solicitou
    # O primeiro argumento é a estratégia (By.ID), o segundo é o nome do ID
    textarea_element = driver.find_element(By.ID, "TextoDigitadoTxt")
    conteudo = textarea_element.get_attribute("value")

    pasta_element = driver.find_element(By.ID, "PastaTxt")
    texto_pasta = pasta_element.text  # Ou pasta_element.get_attribute("innerText")


    if conteudo:
        print("Texto encontrado:")
        print(conteudo)
        print("Texto da pasta:")
        print(texto_pasta)

    else:
        print("O elemento foi encontrado, mas ainda está vazio. Tente aumentar o time.sleep.")

finally:
    driver.quit()

O elemento foi encontrado, mas ainda está vazio. Tente aumentar o time.sleep.


In [53]:
def extract_text_from_page(url):
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service)

    try:
        driver.get(url)
        time.sleep(1.0)
        textarea_element = driver.find_element(By.ID, "TextoDigitadoTxt")
        conteudo = textarea_element.get_attribute("value")

        pasta_element = driver.find_element(By.ID, "PastaTxt")
        texto_pasta = pasta_element.text  

        linha_df = {
            "titulo": texto_pasta,
            "conteudo": conteudo
        }

        return linha_df
    
    except Exception as e:
        print(f"Erro ao extrair dados da página")
        return {"titulo": None, "conteudo": None}

    finally:
        driver.quit()

In [50]:
import pandas as pd
df_dados = pd.DataFrame(columns=["titulo", "conteudo"])

In [51]:
for i in range(1, 50):
    url = f"https://www.docvirt.com/docreader.net/DocReader.aspx?bib=coportinari&id=4645702686696&pagfis={i}"
    linha_df = extract_text_from_page(url)
    df_dados = pd.concat([df_dados, pd.DataFrame([linha_df])], ignore_index=True)
    

In [52]:
df_dados.head(50)

Unnamed: 0,titulo,conteudo
0,(CO) Consulta Correspondência\CO_0001,COD_TIPO: CO\nNUM_ANTDOC: 1\nPAGINAÇÃO: \nTIPO...
1,(CO) Consulta Correspondência\CO_0002,COD_TIPO: CO\nNUM_ANTDOC: 2\nPAGINAÇÃO: \nTIPO...
2,(CO) Consulta Correspondência\CO_0003,COD_TIPO: CO\nNUM_ANTDOC: 3\nPAGINAÇÃO: \nTIPO...
3,(CO) Consulta Correspondência\CO_0004,COD_TIPO: CO\nNUM_ANTDOC: 4\nPAGINAÇÃO: \nTIPO...
4,(CO) Consulta Correspondência\CO_0005,COD_TIPO: CO\nNUM_ANTDOC: 5\nPAGINAÇÃO: \nTIPO...
5,(CO) Consulta Correspondência\CO_0006,COD_TIPO: CO\nNUM_ANTDOC: 6\nPAGINAÇÃO: \nTIPO...
6,(CO) Consulta Correspondência\CO_0007,COD_TIPO: CO\nNUM_ANTDOC: 7\nPAGINAÇÃO: \nTIPO...
7,(CO) Consulta Correspondência\CO_0007,
8,(CO) Consulta Correspondência\CO_0008,COD_TIPO: CO\nNUM_ANTDOC: 8\nPAGINAÇÃO: \nTIPO...
9,(CO) Consulta Correspondência\CO_0009,COD_TIPO: CO\nNUM_ANTDOC: 9\nPAGINAÇÃO: 3 p.\n...


In [23]:
df_dados.to_csv("dados_extraidos.csv", index=False)

## Versão Rápida
---
selenium é lento

In [None]:
%pip install playwright pandas tqdm
%playwright install chromium

Note: you may need to restart the kernel to use updated packages.


UsageError: Line magic function `%playwright` not found.


In [1]:
%playwright install


UsageError: Line magic function `%playwright` not found.


In [16]:
import asyncio
import random
import pandas as pd
from playwright.async_api import async_playwright
from tqdm.notebook import tqdm

BASE_URL = "https://www.docvirt.com/docreader.net/DocReader.aspx"
BIB = "coportinari"
DOC_ID = "4645702686696"
TOTAL_PAGINAS = 9126  # Ajuste conforme necessário
PARALLEL_PAGES = 2  

async def extract_page(context, pagina, max_retries=3):
    url = f"{BASE_URL}?bib={BIB}&id={DOC_ID}&pagfis={pagina}"
    
    for tentativa in range(max_retries):
        page = await context.new_page()
        try:
            # 1. Navegação mais robusta (networkidle espera o AJAX terminar)
            await page.goto(url, wait_until="networkidle", timeout=30000)

            # 2. Espera o elemento existir no DOM
            await page.wait_for_selector("#TextoDigitadoTxt", state="attached", timeout=15000)

            # 3. A MÁGICA: Espera ativa pelo JS do navegador até que o texto apareça.
            # Se em 10 segundos o length continuar 0, ele solta um TimeoutError.
            try:
                await page.wait_for_function(
                    """() => {
                        const el = document.getElementById("TextoDigitadoTxt");
                        return el && el.value.length > 5;
                    }""",
                    timeout=10000 
                )
            except:
                # Se der timeout aqui, pode ser que a página REALMENTE não tenha texto (só imagem)
                # ou o carregamento falhou. Vamos tentar ler mesmo assim.
                pass

            # 4. Extração Final
            dados = await page.evaluate("""() => {
                const textoEl = document.getElementById("TextoDigitadoTxt");
                const tituloEl = document.getElementById("PastaTxt");
                return {
                    conteudo: textoEl ? textoEl.value.trim() : "",
                    titulo: tituloEl ? tituloEl.innerText.trim() : ""
                }
            }""")
            
            conteudo = dados['conteudo']
            titulo = dados['titulo']

            # Lógica de validação
            status = "sucesso"
            if not conteudo:
                # Se passou pelo wait_for_function e ainda está vazio, assumimos que 
                # a página não tem OCR (é comum em documentos antigos ter páginas em branco ou só fotos)
                status = "vazio_ou_imagem"
            
            # Se for sucesso ou vazio confirmado, retornamos (não tentamos de novo)
            return {
                "pagina": pagina,
                "titulo": titulo,
                "conteudo": conteudo,
                "status": status
            }

        except Exception as e:
            # Erros de conexão ou crash do navegador
            if tentativa == max_retries - 1:
                print(f"❌ Erro final pág {pagina}: {str(e)[:100]}")
                return {
                    "pagina": pagina,
                    "titulo": None,
                    "conteudo": None,
                    "status": "erro_fatal"
                }
            
            # Backoff exponencial
            await asyncio.sleep((tentativa + 1) * 3)
            
        finally:
            await page.close()

async def main():
    resultados = []

    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True)
        
        context = await browser.new_context(
            user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
            viewport={"width": 1280, "height": 720}
        )
        
        sem = asyncio.Semaphore(PARALLEL_PAGES)

        async def worker(pagina):
            async with sem:
                # Pequeno atraso aleatório antes de começar para não bater no servidor tudo junto
                await asyncio.sleep(random.uniform(0.1, 1.5))
                return await extract_page(context, pagina)

        # Se você quiser rodar para as páginas que falharam no seu log, ajuste o range aqui
        # Ex: range(1, 400) se for o caso.
        tasks = [worker(i) for i in range(1, TOTAL_PAGINAS + 1)]

        for coro in tqdm(asyncio.as_completed(tasks), total=len(tasks), desc="Extraindo DocVirt"):
            r = await coro
            resultados.append(r)

        await browser.close()

    df = pd.DataFrame(resultados).sort_values("pagina")
    
    # Salva CSV
    df.to_csv("dados_docvirt_fixed.csv", index=False, encoding="utf-8-sig")

    # Relatório Final
    sucessos = df[df['status'] == 'sucesso']
    vazios = df[df['status'] == 'vazio_ou_imagem']
    erros = df[df['status'] == 'erro_fatal']

    print("-" * 30)
    print(f"Total Processado: {len(df)}")
    print(f"✅ Sucessos (com texto): {len(sucessos)}")
    print(f"⚠️ Vazios (provável só imagem): {len(vazios)}")
    if not vazios.empty:
        print(f"   Páginas vazias: {vazios['pagina'].head(10).tolist()}...")
    print(f"❌ Erros Fatais: {len(erros)}")
    
    #passar o df para um csv
    df.to_csv("dados_docvirt.csv", index=False)

# Para rodar no Jupyter/Colab:
# await main()

In [17]:
await main()

Extraindo DocVirt:   0%|          | 0/9126 [00:00<?, ?it/s]

❌ Erro final pág 518: Page.goto: net::ERR_INTERNET_DISCONNECTED at https://www.docvirt.com/docreader.net/DocReader.aspx?bi
❌ Erro final pág 2427: Page.goto: net::ERR_INTERNET_DISCONNECTED at https://www.docvirt.com/docreader.net/DocReader.aspx?bi
------------------------------
Total Processado: 9126
✅ Sucessos (com texto): 4132
⚠️ Vazios (provável só imagem): 4992
   Páginas vazias: [8, 11, 12, 14, 17, 19, 20, 21, 24, 26]...
❌ Erros Fatais: 2


In [19]:
dataframe = pd.read_csv("dados_docvirt.csv")

dataframe.head(10)

Unnamed: 0,pagina,titulo,conteudo,status
0,1,(CO) Consulta Correspondência\CO_0001,COD_TIPO: CO\nNUM_ANTDOC: 1\nPAGINAÇÃO: \nTIPO...,sucesso
1,2,(CO) Consulta Correspondência\CO_0002,COD_TIPO: CO\nNUM_ANTDOC: 2\nPAGINAÇÃO: \nTIPO...,sucesso
2,3,(CO) Consulta Correspondência\CO_0003,COD_TIPO: CO\nNUM_ANTDOC: 3\nPAGINAÇÃO: \nTIPO...,sucesso
3,4,(CO) Consulta Correspondência\CO_0004,COD_TIPO: CO\nNUM_ANTDOC: 4\nPAGINAÇÃO: \nTIPO...,sucesso
4,5,(CO) Consulta Correspondência\CO_0005,COD_TIPO: CO\nNUM_ANTDOC: 5\nPAGINAÇÃO: \nTIPO...,sucesso
5,6,(CO) Consulta Correspondência\CO_0006,COD_TIPO: CO\nNUM_ANTDOC: 6\nPAGINAÇÃO: \nTIPO...,sucesso
6,7,(CO) Consulta Correspondência\CO_0007,COD_TIPO: CO\nNUM_ANTDOC: 7\nPAGINAÇÃO: \nTIPO...,sucesso
7,8,(CO) Consulta Correspondência\CO_0007,,vazio_ou_imagem
8,9,(CO) Consulta Correspondência\CO_0008,COD_TIPO: CO\nNUM_ANTDOC: 8\nPAGINAÇÃO: \nTIPO...,sucesso
9,10,(CO) Consulta Correspondência\CO_0009,COD_TIPO: CO\nNUM_ANTDOC: 9\nPAGINAÇÃO: 3 p.\n...,sucesso
