# Leitura e Extração de Texto de PDFs

Este notebook realiza a leitura e extração de texto de todos os arquivos PDF em um diretório especificado.

# Instalar e Importar Bibliotecas Necessárias

Certifique-se de que as bibliotecas necessárias estejam instaladas antes de prosseguir.

In [6]:
# Instalar bibliotecas necessárias (descomente se necessário)
# !pip install PyMuPDF

# Importar bibliotecas
import fitz  # PyMuPDF
import os

# Carregar Arquivos PDF

Nesta seção, identificaremos todos os arquivos PDF no diretório especificado.

In [7]:
# Definir o diretório onde os PDFs estão localizados
pdf_directory = '/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf'

# Listar todos os arquivos PDF no diretório
pdf_files = [os.path.join(pdf_directory, f) for f in os.listdir(pdf_directory) if f.endswith('.pdf')]

# Exibir os arquivos encontrados
print(f"Arquivos PDF encontrados: {len(pdf_files)}")
for pdf in pdf_files:
    print(pdf)

Arquivos PDF encontrados: 7
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Hora.pdf
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Inf_Diário.pdf
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Consumo.pdf
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Corrida.pdf
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F4.pdf
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Minuto.pdf
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_eletrodo.pdf


# Extrair Texto de PDFs

Nesta seção, utilizaremos a biblioteca PyMuPDF para extrair o texto de cada página dos arquivos PDF.

In [8]:
# Função para extrair texto de um PDF
def extract_text_from_pdf(pdf_path):
    text = ""
    with fitz.open(pdf_path) as pdf:
        for page in pdf:
            text += page.get_text()
    return text

# Extrair texto de todos os PDFs
extracted_texts = {}
for pdf_file in pdf_files:
    extracted_texts[pdf_file] = extract_text_from_pdf(pdf_file)

# Exibir Texto Extraído

Visualize o texto extraído diretamente no notebook para validação.

In [9]:
# Exibir texto extraído
for pdf_file, text in extracted_texts.items():
    print(f"Texto extraído do arquivo: {pdf_file}\n")
    print(text[:500])  # Exibir os primeiros 500 caracteres
    print("\n---\n")

Texto extraído do arquivo: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Hora.pdf

Base de dados:
Parâmetros dos Fornos
Incremento de Registro:
Cada registro equivale a uma hora
Variável
Tipo de Variável
Unidade de medida
Descrição
Data
Data Hora
Data da Medição
CH1.PLC_FORNO_05.MIRROR_CMT5001.MRR_CMF5_POT_APAR_TOTAL
Numérico
kVA
Potência Aparente do Forno
CMF5_PAC4200_P_ATIVA_TOTAL
Numérico
kV
Potência Ativa do Forno
CH1.PLC_FORNO_05.MIRROR_CMT5001.MIRROR_CMF5_V_RS
Numérico
kV
Tensão Entre Fase R e S
CH1.PLC_FORNO_05.MIRROR_CMT5001.MIRROR_CMF5_V_ST
Numérico
kV
Tensão Entre Fa

---

Texto extraído do arquivo: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Inf_Diário.pdf

Base de dados:
Informações Diária
Incremento de Registro:
Cada registro equivale a um dia
Variável
Tipo de Variável
Unidade de medida
Base
Texto
Forno
Categórico
Data_base
Data/hora
Comp_Teorico_Ele1
Numérico
mm
Comp_Teorico_Ele2
N

# Salvar Texto Extraído em Arquivo

Os textos extraídos serão salvos em arquivos `.txt` para uso posterior.

In [10]:
# Salvar texto extraído em arquivos .txt
for pdf_file, text in extracted_texts.items():
    output_file = pdf_file.replace('.pdf', '.txt')
    with open(output_file, 'w', encoding='utf-8') as f:
        f.write(text)
    print(f"Texto salvo em: {output_file}")

Texto salvo em: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Hora.txt
Texto salvo em: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Inf_Diário.txt
Texto salvo em: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Consumo.txt
Texto salvo em: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Corrida.txt
Texto salvo em: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F4.txt
Texto salvo em: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Minuto.txt
Texto salvo em: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_eletrodo.txt


# Revisão de Dicionários de Dados
Este notebook realiza a análise de dicionários de dados para identificar campos essenciais.

## Objetivo desta seção
Mapear os campos críticos presentes nos dicionários em texto, estruturando-os em tabelas para facilitar a priorização dos atributos essenciais ao diagnóstico.

In [15]:
# Importar bibliotecas necessárias
import pandas as pd
import os

In [32]:
# Funções auxiliares para estruturar os dicionários em texto
VALID_TYPES = {"Categórico", "Data/hora", "Texto", "Numérico", "Data Hora"}
UNIT_TOKENS = {
    "%", "%/%", "kg/t", "kWh", "kWh/t", "un", "t", "kg", "kg/dia", "t/dia",
    "kVA", "kV", "A", "V", "°C", "C", "mm", "cm", "m", "m3", "m³", "MW", "kW", "bar", "psi"
}

def is_unit(token: str) -> bool:
    token = token.strip()
    if not token:
        return False
    if token in UNIT_TOKENS:
        return True
    return any(marker in token for marker in ["%", "/", "°", "kg", "kWh", "t", "mm", "cm", "m³", "m3"])

def parse_dictionary_txt(path: str) -> pd.DataFrame:
    with open(path, 'r', encoding='utf-8') as file:
        raw_lines = [line.strip() for line in file]
    lines = [line for line in raw_lines if line]
    try:
        start_idx = next(i for i, line in enumerate(lines) if line.lower() == 'variável')
    except StopIteration as exc:
        raise ValueError(f"Cabeçalho 'Variável' não encontrado em {path}") from exc
    has_inline_description = start_idx + 3 < len(lines) and lines[start_idx + 3].lower() == 'descrição'
    records = []
    if has_inline_description:
        data_lines = lines[start_idx + 4:]
        state = 'variable'
        current = {'variable': '', 'type': '', 'unit': '', 'description': ''}
        for token in data_lines:
            if token.lower() == 'descrição':
                continue
            if state == 'variable':
                current['variable'] = token
                state = 'type'
                continue
            if state == 'type':
                if token in VALID_TYPES:
                    current['type'] = token
                    state = 'unit'
                    continue
                current = {'variable': token, 'type': '', 'unit': '', 'description': ''}
                state = 'type'
                continue
            if state == 'unit':
                if is_unit(token):
                    current['unit'] = token
                    state = 'description'
                    continue
                current['unit'] = ''
                current['description'] = token
                records.append(current.copy())
                current = {'variable': '', 'type': '', 'unit': '', 'description': ''}
                state = 'variable'
                continue
            if state == 'description':
                current['description'] = token
                records.append(current.copy())
                current = {'variable': '', 'type': '', 'unit': '', 'description': ''}
                state = 'variable'
        if current['variable'] and (current['type'] or current['description']):
            records.append(current.copy())
    else:
        data_lines = lines[start_idx + 3:]
        i = 0
        while i < len(data_lines):
            entry = data_lines[i]
            if entry.lower() == 'descrição':
                break
            if entry in VALID_TYPES or 'medida' in entry.lower():
                i += 1
                continue
            name = entry
            vtype = ''
            unit = ''
            if i + 1 < len(data_lines) and data_lines[i + 1] in VALID_TYPES:
                vtype = data_lines[i + 1]
                i += 2
            else:
                i += 1
                continue
            if i < len(data_lines):
                candidate = data_lines[i]
                if candidate.lower() == 'descrição':
                    pass
                elif candidate in VALID_TYPES:
                    pass
                elif is_unit(candidate):
                    unit = candidate
                    i += 1
            records.append({'variable': name, 'type': vtype, 'unit': unit, 'description': ''})
    df = pd.DataFrame(records, columns=['variable', 'type', 'unit', 'description'])
    if df.empty:
        return pd.DataFrame(columns=['variable', 'type', 'unit', 'description', 'variable_lower', 'source'])
    df['variable_lower'] = df['variable'].str.lower()
    df['source'] = os.path.basename(path)
    return df

In [21]:
# Definir os arquivos TXT a serem analisados
txt_files = [
    '/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Hora.txt',
    '/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Inf_Diário.txt',
    '/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Consumo.txt',
    '/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Corrida.txt',
    '/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F4.txt',
    '/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Minuto.txt',
    '/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_eletrodo.txt'
    ]

# Exibir os arquivos encontrados
print(f"Arquivos TXT definidos: {len(txt_files)}")
for txt in txt_files:
    print(txt)

Arquivos TXT definidos: 7
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Hora.txt
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Inf_Diário.txt
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Consumo.txt
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Corrida.txt
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F4.txt
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Minuto.txt
/home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_eletrodo.txt


In [33]:
# Carregar e estruturar os dados de cada arquivo TXT
dictionary_frames = {}
for txt_file in txt_files:
    df = parse_dictionary_txt(txt_file)
    dictionary_frames[txt_file] = df
    print(f"Campos estruturados a partir de: {txt_file}")
    print(df[['variable', 'type', 'unit']].head())
    print("Total de campos identificados:", len(df))
    print("\n---\n")

Campos estruturados a partir de: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Hora.txt
                                           variable       type  \
0                                              Data  Data Hora   
1                        CMF5_PAC4200_P_ATIVA_TOTAL   Numérico   
2  CH1.PLC_FORNO_05.MIRROR_CMT5001.MIRROR_CMF5_V_RS   Numérico   
3  CH1.PLC_FORNO_05.MIRROR_CMT5001.MIRROR_CMF5_V_ST   Numérico   
4  CH1.PLC_FORNO_05.MIRROR_CMT5001.MIRROR_CMF5_V_TR   Numérico   

              unit  
0  Data da Medição  
1               kV  
2               kV  
3               kV  
4               kV  
Total de campos identificados: 23

---

Campos estruturados a partir de: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Inf_Diário.txt
            variable        type       unit
0               Base       Texto           
1              Forno  Categórico  Data_base
2  Comp_Teorico_Ele1    Numérico 

In [38]:
# Identificar campos essenciais em cada dicionário
KEYWORDS_RELACIONAIS = ['forno', 'corrida', 'codigo', 'código', 'produto', 'lote', 'bica', 'silo', 'folha', 'turno']
KEYWORDS_TIMESTAMP = ['data', 'hora']
KEYWORDS_PROCESSO = ['energia', 'consumo', 'potencia', 'potência', 'corrente', 'tensao', 'tensão', 'temperatura', 'producao', 'produção']
KEYWORDS_DISTANCIA = ['dist', 'ponta', 'fundo']


def classify_categories(raw_name: str, field_type: str) -> list[str]:
    name_lower = raw_name.lower()
    categories = []
    is_simple_name = '.' not in raw_name and len(raw_name) <= 40
    if is_simple_name and any(keyword in name_lower for keyword in KEYWORDS_RELACIONAIS):
        categories.append('chave_relacional')
    if field_type in {'Data/hora', 'Data Hora'} or any(keyword in name_lower for keyword in KEYWORDS_TIMESTAMP):
        categories.append('timestamp')
    if any(keyword in name_lower for keyword in KEYWORDS_PROCESSO):
        categories.append('processo_termico')
    if any(keyword in name_lower for keyword in KEYWORDS_DISTANCIA):
        categories.append('variavel_distancia')
    return categories


def extract_essential_fields(df: pd.DataFrame) -> pd.DataFrame:
    rows = []
    for _, record in df.iterrows():
        categories = classify_categories(record['variable'], record['type'])
        if categories:
            rows.append({
                'variable': record['variable'],
                'type': record['type'],
                'unit': record['unit'],
                'categoria': ', '.join(sorted(set(categories)))
            })
    return pd.DataFrame(rows)


essential_fields = {}
for path, frame in dictionary_frames.items():
    essentials = extract_essential_fields(frame)
    essential_fields[path] = essentials
    print(f"Campos essenciais no arquivo: {path}")
    if essentials.empty:
        print("Nenhum campo essencial identificado com as heurísticas atuais.")
    else:
        print(essentials)
    print("\n---\n")

Campos essenciais no arquivo: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Supervisorio F5 Hora.txt
                                         variable       type             unit  \
0                                            Data  Data Hora  Data da Medição   
1  CH1.PLC_FORNO_05.PTR5_CORRENTES.PTR5_COR_SEC_R   Numérico                    
2  CH1.PLC_FORNO_05.PTR5_CORRENTES.PTR5_COR_SEC_S   Numérico                    
3  CH1.PLC_FORNO_05.PTR5_CORRENTES.PTR5_COR_SEC_T   Numérico                    

          categoria  
0         timestamp  
1  processo_termico  
2  processo_termico  
3  processo_termico  

---

Campos essenciais no arquivo: /home/wilson/Maringa/fase_1_diagnostico/dados/dados_iniciais/Dicionário/em_pdf/Dic_Inf_Diário.txt
         variable        type       unit         categoria
0           Forno  Categórico  Data_base  chave_relacional
1  Potencia_Media    Numérico         kW  processo_termico

---

Campos essenciais no arquivo:

In [39]:
# Consolidar quantidade de campos essenciais por fonte e categoria
summary_rows = []
category_counts = []
for path, essentials in essential_fields.items():
    summary_rows.append({
        'arquivo': os.path.basename(path),
        'total_campos': len(dictionary_frames[path]),
        'campos_essenciais': len(essentials)
    })
    if not essentials.empty:
        category_counts.append(
            essentials.assign(arquivo=os.path.basename(path))
            [['arquivo', 'categoria']]
        )
essential_summary = pd.DataFrame(summary_rows)
print(essential_summary)
if category_counts:
    category_breakdown = pd.concat(category_counts)
    print("\nDistribuição por categoria:")
    print(category_breakdown.groupby(['arquivo', 'categoria']).size().unstack(fill_value=0))

                          arquivo  total_campos  campos_essenciais
0    Dic_Supervisorio F5 Hora.txt            23                  4
1              Dic_Inf_Diário.txt            42                  2
2                 Dic_Consumo.txt             5                  4
3                 Dic_Corrida.txt            33                  9
4         Dic_Supervisorio F4.txt           223                  1
5  Dic_Supervisorio F5 Minuto.txt            19                  1
6                Dic_eletrodo.txt             4                  1

Distribuição por categoria:
categoria                       chave_relacional  processo_termico  timestamp
arquivo                                                                      
Dic_Consumo.txt                                4                 0          0
Dic_Corrida.txt                                5                 3          1
Dic_Inf_Diário.txt                             1                 1          0
Dic_Supervisorio F4.txt                      