Antes de executar este notebook, configure um ambiente virtual e execute os comandos a seguir a partir da raíz do projeto:
```shell
$ pip install -r requirements.txt
$ pip install -e .
```

O local deste notebook é `notebooks/examples/extract_text_with_apache_tika.ipynb`.

In [1]:
from pathlib import Path
import os, re
from queridodiario_toolbox import Gazette
from queridodiario_toolbox.etl.text_extractor import create_text_extractor
from queridodiario_toolbox.process.edition_process import extract_and_validate_cnpj

In [2]:
ROOT = Path(os.path.abspath('..'))
print(f"Raíz do projeto: {ROOT}")
actual_gazette = os.path.join(ROOT, "examples/38004a4b724a24c1e3c746596acf04efb0c95a58.pdf")
print(f"Arquivo de diário: {actual_gazette}")

Raíz do projeto: /home/gcc/work/projects/querido-diario/toolbox
Arquivo de diário: /home/gcc/work/projects/querido-diario/toolbox/examples/38004a4b724a24c1e3c746596acf04efb0c95a58.pdf


Carrega extrator Apache Tika

In [3]:
config = {"apache_tika_jar": f'{ROOT}/tests/bin/tika-app-1.24.1.jar'}
apache_tika_text_extractor = create_text_extractor(config)

# Cria objeto de diário
gazette = Gazette(filepath=actual_gazette)

Extrai conteúdo textual e carrega no objeto de diário

In [4]:
apache_tika_text_extractor.extract_text(gazette)
apache_tika_text_extractor.load_content(gazette)
gazette.content

'\nSegunda-feira, 26 de Outubro de 2020 - Edição n° 136\n\nDiário Oficial do Município de Pratânia/SP\nEdição 136 - Página \n\n \n\n \n\n \n\nPODER EXECUTIVO 1 .................................................................................................................................... \nDECRETOS 1 ............................................................................................................................................ \nPORTARIAS RECURSOS HUMANOS 3 ................................................................................................... \nLICITAÇÕES E CONTRATOS 6 ................................................................................................................ \n\n\n\n \n\n \n \n\n \n\n \n\nRua Francisco Vieira da Maia, 10 - Fone (14) 3844-8200 Fax (14) 3844.8201 - CEP 18.660-000 \n\n \n\nDECRETO Nº 56 DE 26 DE OUTUBRO DE \n\n2020 \n\n \n\n“TRANSFERE O FERIADO DO DIA 28 DE OUTUBRO (DIA \n\nDO SERVIDOR PÚBLICO) NAS REPARTIÇÕES PÚBLICAS \n

Extrai metadados do arquivo

In [5]:
apache_tika_text_extractor.extract_metadata(gazette)
apache_tika_text_extractor.load_metadata(gazette)
gazette.metadata

{'Author': 'Prefeitura de Pratânia - SP',
 'Content-Length': '1081181',
 'Content-Type': 'application/pdf',
 'Creation-Date': '2020-10-26T17:58:44Z',
 'Last-Modified': '2020-10-26T17:59:53Z',
 'Last-Save-Date': '2020-10-26T17:59:53Z',
 'X-Parsed-By': ['org.apache.tika.parser.DefaultParser',
  'org.apache.tika.parser.pdf.PDFParser'],
 'access_permission:assemble_document': 'true',
 'access_permission:can_modify': 'true',
 'access_permission:can_print': 'true',
 'access_permission:can_print_degraded': 'true',
 'access_permission:extract_content': 'true',
 'access_permission:extract_for_accessibility': 'true',
 'access_permission:fill_in_form': 'true',
 'access_permission:modify_annotations': 'true',
 'created': '2020-10-26T17:58:44Z',
 'creator': 'Prefeitura de Pratânia - SP',
 'date': '2020-10-26T17:59:53Z',
 'dc:creator': 'Prefeitura de Pratânia - SP',
 'dc:format': 'application/pdf; version=1.4',
 'dc:title': 'Diário Oficial Eletrônico 136',
 'dcterms:created': '2020-10-26T17:58:44Z',

Extrai textos com formato de CNPJ filtra apenas os válidos

In [6]:
cnpjs = extract_and_validate_cnpj(gazette.content)
cnpjs

['01.576.782/0001-74',
 '01.576.782/0001-74',
 '01.576.782/0001-74',
 '05.169.025/0001-37']

Exemplo de contexto em volta de um CNPJ

In [7]:
re.search(r".{50}05\.169\.025\/0001\-37.{50}", gazette.content, re.DOTALL).group()

'RUÇÕES E SERVIÇOS DE LIMPEZA EIRELI - ME\nCNPJ Nº: 05.169.025/0001-37\nOBJETO: Contratação de empresa especializada para'