# üìÑ Parser MetLife - Google Colab

Este notebook executa o parser de demonstrativos da MetLife, extraindo dados de GTOs e exportando em formato Excel.

‚ö†Ô∏è **Importante**: Este notebook deve ser usado com arquivos no formato PDF gerados pela MetLife, com o layout esperado.


In [None]:
# üîß PASSO 1 - Instalar bibliotecas necess√°rias
!pip install pdfplumber openpyxl pandas


In [None]:
# üìÇ PASSO 2 - Upload do arquivo PDF do relat√≥rio MetLife
from google.colab import files
uploaded = files.upload()


In [None]:
# üß† PASSO 3 - Fun√ß√£o de extra√ß√£o de dados do relat√≥rio MetLife
import pdfplumber  # Biblioteca para ler e extrair texto de arquivos PDF
import pandas as pd  # Biblioteca para manipula√ß√£o de dados em tabelas (DataFrames)
import re  # Biblioteca para trabalhar com express√µes regulares (padr√µes de texto)
import sys  # Biblioteca para ler argumentos passados via linha de comando

# Fun√ß√£o principal que extrai os dados do PDF
def extrair_dados_metlife(pdf_path):
    resultados = []  # Lista onde vamos armazenar os dados extra√≠dos

    # Junta o texto de todas as p√°ginas do PDF em uma √∫nica string
    texto_completo = ""
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            texto = page.extract_text()
            if texto:
                texto_completo += texto + "\n"

    # Divide o texto em linhas para an√°lise linha a linha
    linhas = texto_completo.split('\n')

    # Fun√ß√£o auxiliar que converte texto para n√∫mero decimal (float)
    def to_float(valor):
        try:
            # Remove os pontos (separador de milhar) e troca a v√≠rgula decimal por ponto
            return float(valor.replace('.', '').replace(',', '.').strip())
        except:
            return 0.0

    i = 0  # √çndice da linha atual
    data_pgto = ""
   
    while i < len(linhas):

        # Captura a data de pagamento
        if linhas[i].strip() == "10 - Data do Pagamento 11 - Banco 12 - Ag√™ncia 13 - Conta":

             # Verifica se h√° pelo menos 1 linhas seguinte dispon√≠vel, pois data sempre est√° na linha abaixo
            if i + 1 < len(linhas):
                linha_data_pgto = linhas[i + 1].strip()
                data_pgto_match = re.search(r"\d{2}/\d{2}/\d{4}", linha_data_pgto)
                data_pgto = data_pgto_match.group(0) if data_pgto_match else data_pgto

        # In√≠cio de uma nova GTO √© identificado por esta string
        if linhas[i].strip() == "Dados da Guia":

                # Verifica se h√° pelo menos 4 linhas seguintes dispon√≠veis
                if i + 4 < len(linhas):
                    # Segunda linha abaixo da "Dados da Guia" ‚Üí cont√©m o c√≥digo da GTO
                    linha_gto = linhas[i + 2].strip()
                    gto_match = re.match(r"\b\d{9}\b", linha_gto)
                    gto = gto_match.group(0) if gto_match else ""

                    # Quarta linha abaixo da "Dados da Guia" ‚Üí c√≥digo do paciente + nome
                    linha_paciente = linhas[i + 4].strip()
                    paciente_match = re.match(r"\b\d{14}\b", linha_paciente)
                    cod_paciente = paciente_match.group(0) if paciente_match else ""

                    # Nome do paciente logo ap√≥s o c√≥digo de 14 d√≠gitos
                    nome_social = ""
                    if cod_paciente:
                        tokens = linha_paciente.split()
                        try:
                            idx = tokens.index(cod_paciente) + 1
                            while idx < len(tokens) and tokens[idx].isupper():
                                nome_social += tokens[idx] + " "
                                idx += 1
                            nome_social = nome_social.strip()
                        except ValueError:
                            pass

                    # Captura o texto da glosa (justificativa)
                    glosa = ""  # Metlife n√£o apresenta glosa nos seus demonstrativos

                    # Procura os valores financeiros da GTO
                    valor_info = valor_glosa = valor_pago = ""
                    for j in range(i + 1, min(i + 30, len(linhas))):
                        if "Total da Guia" in linhas[j]:
                            if j + 2 < len(linhas):
                                tot_valores = linhas[j + 2].strip().split()
                                if len(tot_valores) >= 5:
                                    valor_info = tot_valores[0]
                                    valor_glosa = tot_valores[2]
                                    valor_pago = tot_valores[4]
                            break

                    # Adiciona os dados extra√≠dos ao resultado
                    resultados.append({
                        "Data": data_pgto,
                        "Conv√™nio": "MetLife",
                        "GTO": gto,
                        "C√≥digo do Paciente": cod_paciente,
                        "Nome Social do Paciente": nome_social,
                        "Glosas": glosa,
                        "Valor informado": to_float(valor_info),
                        "Valor glosado": to_float(valor_glosa),
                        "Valor pago": to_float(valor_pago)
                    })

        # Avan√ßa sempre uma linha ap√≥s cada itera√ß√£o
        i += 1

    # Converte os dados para um DataFrame do pandas
    return pd.DataFrame(resultados)


# Executa o script apenas se for rodado diretamente (n√£o importado como m√≥dulo)


In [None]:
# ‚ñ∂Ô∏è PASSO 4 - Executar parser e exportar para Excel
import os

pdf_path = list(uploaded.keys())[0]
df = extrair_dados_metlife(pdf_path)

saida = "procedimentos_metlife.xlsx"
df.to_excel(saida, index=False, engine='openpyxl')
print(f"‚úÖ Arquivo gerado: {saida}")
df.head()


In [None]:
# üì• PASSO 5 - Download do arquivo gerado
from google.colab import files
files.download(saida)
