# **Extraindo as portarias do INEMA publicadas no DOE da Bahia**
Esse código foi utilizado para retirar o texto dos arquivos em pdf das edições publicadas entre janeiro de 2018 e novembro de 2021 do Diário Oficial do Estado (DOE) da Bahia. O objetivo é extrair esse texto e fazer uma limpeza inicial, que será finalizada em um editor de planilhas.

Os arquivos em pdf podem ser baixados no [site do Diário Oficial](https://dool.egba.ba.gov.br/), após cadastro.

### **Configurações iniciais**

In [None]:
# Antes de rodar o código: mover os arquivos pdf para a mesma pasta do código
# Instalação da biblioteca tika
pip install tika

In [None]:
from tika import parser #para analisar os arquivos
import re #para a limpeza inicial do texto

### **Criando listas para os arquivos do DOE de cada ano**

In [None]:
# Arquivos do DOE de 2018
doe_18 = ["doe_2018-01-03_completo.pdf",
        "doe_2018-01-04_completo.pdf",
        "doe_2018-01-05_completo.pdf",
        "doe_2018-01-06_completo.pdf",
        "doe_2018-01-09_completo.pdf",
        "doe_2018-01-10_completo.pdf",
        "doe_2018-01-11_completo.pdf",
        "doe_2018-01-12_completo.pdf",
        "doe_2018-01-13_completo.pdf",
        "doe_2018-01-16_completo.pdf",
        "doe_2018-01-17_completo.pdf",
        "doe_2018-01-18_completo.pdf",
        "doe_2018-01-19_completo.pdf",
        "doe_2018-01-20_completo.pdf",
        "doe_2018-01-23_completo.pdf",
        "doe_2018-01-24_completo.pdf",
        "doe_2018-01-25_completo.pdf",
        "doe_2018-01-26_completo.pdf",
        "doe_2018-01-27_completo.pdf",
        "doe_2018-01-30_completo.pdf",
        "doe_2018-01-31_completo.pdf",
        "doe_2018-02-01_completo.pdf",
        "doe_2018-02-02_completo.pdf",
        "doe_2018-02-03_completo.pdf",
        "doe_2018-02-06_completo.pdf",
        "doe_2018-02-07_completo.pdf",
        "doe_2018-02-08_completo.pdf",
        "doe_2018-02-09_completo.pdf",
        "doe_2018-02-16_completo.pdf",
        "doe_2018-02-17_completo.pdf",
        "doe_2018-02-20_completo.pdf",
        "doe_2018-02-21_completo.pdf",
        "doe_2018-02-22_completo.pdf",
        "doe_2018-02-23_completo.pdf",
        "doe_2018-02-24_completo.pdf",
        "doe_2018-02-27_completo.pdf",
        "doe_2018-02-28_suplemento_completo.pdf",
        "doe_2018-03-01_completo.pdf",
        "doe_2018-03-02_completo.pdf",
        "doe_2018-03-03_completo.pdf",
        "doe_2018-03-06_completo.pdf",
        "doe_2018-03-07_completo.pdf",
        "doe_2018-03-08_completo.pdf",
        "doe_2018-03-09_completo.pdf",
        "doe_2018-03-10_completo.pdf",
        "doe_2018-03-13_completo.pdf",
        "doe_2018-03-14_completo.pdf",
        "doe_2018-03-15_completo.pdf",
        "doe_2018-03-16_completo.pdf",
        "doe_2018-03-17_completo.pdf",
        "doe_2018-03-20_completo.pdf",
        "doe_2018-03-21_completo.pdf",
        "doe_2018-03-22_completo.pdf",
        "doe_2018-03-23_completo.pdf",
        "doe_2018-03-24_completo.pdf",
        "doe_2018-04-03_completo.pdf",
        "doe_2018-04-04_completo.pdf",
        "doe_2018-04-05_completo.pdf",
        "doe_2018-04-06_completo.pdf",
        "doe_2018-04-07_completo.pdf",
        "doe_2018-04-10_completo.pdf",
        "doe_2018-04-11_completo.pdf",
        "doe_2018-04-12_completo.pdf",
        "doe_2018-04-13_completo.pdf",
        "doe_2018-04-14_completo.pdf",
        "doe_2018-04-17_completo.pdf",
        "doe_2018-04-18_completo.pdf",
        "doe_2018-04-19_completo.pdf",
        "doe_2018-04-20_completo.pdf",
        "doe_2018-04-21_completo.pdf",
        "doe_2018-04-24_completo.pdf",
        "doe_2018-04-25_completo.pdf",
        "doe_2018-04-26_completo.pdf",
        "doe_2018-04-27_completo.pdf",
        "doe_2018-04-28_completo.pdf",
        "doe_2018-05-03_completo.pdf",
        "doe_2018-05-04_completo.pdf",
        "doe_2018-05-05_completo.pdf",
        "doe_2018-05-08_completo.pdf",
        "doe_2018-05-09_completo.pdf",
        "doe_2018-05-10_completo.pdf",
        "doe_2018-05-11_completo.pdf",
        "doe_2018-05-12_completo.pdf",
        "doe_2018-05-15_completo.pdf",
        "doe_2018-05-16_completo.pdf",
        "doe_2018-05-17_completo.pdf",
        "doe_2018-05-18_completo.pdf",
        "doe_2018-05-19_completo.pdf",
        "doe_2018-05-22_completo.pdf",
        "doe_2018-05-23_completo.pdf",
        "doe_2018-05-24_completo.pdf",
        "doe_2018-05-25_completo.pdf",
        "doe_2018-05-26_completo.pdf",
        "doe_2018-05-29_completo.pdf",
        "doe_2018-05-30_completo.pdf",
        "doe_2018-05-31_completo.pdf",
        "doe_2018-06-05_completo.pdf",
        "doe_2018-06-06_completo.pdf",
        "doe_2018-06-07_completo.pdf",
        "doe_2018-06-08_completo.pdf",
        "doe_2018-06-09_completo.pdf",
        "doe_2018-06-12_completo.pdf",
        "doe_2018-06-13_completo.pdf",
        "doe_2018-06-14_completo.pdf",
        "doe_2018-06-15_completo.pdf",
        "doe_2018-06-16_completo.pdf",
        "doe_2018-06-19_completo.pdf",
        "doe_2018-06-20_completo.pdf",
        "doe_2018-06-21_completo.pdf",
        "doe_2018-06-22_completo.pdf",
        "doe_2018-06-26_completo.pdf",
        "doe_2018-06-27_completo.pdf",
        "doe_2018-06-28_completo.pdf",
        "doe_2018-06-29_completo.pdf",
        "doe_2018-06-30_completo.pdf",
        "doe_2018-07-04_completo.pdf",
        "doe_2018-07-05_completo.pdf",
        "doe_2018-07-06_suplemento_completo.pdf",
        "doe_2018-07-07_completo.pdf",
        "doe_2018-07-10_completo.pdf",
        "doe_2018-07-11_completo.pdf",
        "doe_2018-07-12_completo.pdf",
        "doe_2018-07-13_completo.pdf",
        "doe_2018-07-14_completo.pdf",
        "doe_2018-07-17_completo.pdf",
        "doe_2018-07-18_completo.pdf",
        "doe_2018-07-19_completo.pdf",
        "doe_2018-07-20_completo.pdf",
        "doe_2018-07-21_completo.pdf",
        "doe_2018-07-24_completo.pdf",
        "doe_2018-07-25_completo.pdf",
        "doe_2018-07-26_completo.pdf",
        "doe_2018-07-27_completo.pdf",
        "doe_2018-07-28_completo.pdf",
        "doe_2018-07-31_completo.pdf",
        "doe_2018-08-01_completo.pdf",
        "doe_2018-08-02_completo.pdf",
        "doe_2018-08-03_completo.pdf",
        "doe_2018-08-04_completo.pdf",
        "doe_2018-08-07_completo.pdf",
        "doe_2018-08-08_completo.pdf",
        "doe_2018-08-09_completo.pdf",
        "doe_2018-08-10_completo.pdf",
        "doe_2018-08-11_completo.pdf",
        "doe_2018-08-14_completo.pdf",
        "doe_2018-08-15_completo.pdf",
        "doe_2018-08-16_completo.pdf",
        "doe_2018-08-17_completo.pdf",
        "doe_2018-08-18_completo.pdf",
        "doe_2018-08-21_completo.pdf",
        "doe_2018-08-22_completo.pdf",
        "doe_2018-08-23_completo.pdf",
        "doe_2018-08-24_completo.pdf",
        "doe_2018-08-25_completo.pdf",
        "doe_2018-08-28_completo.pdf",
        "doe_2018-08-29_completo.pdf",
        "doe_2018-08-30_completo.pdf",
        "doe_2018-08-31_completo.pdf",
        "doe_2018-09-01_completo.pdf",
        "doe_2018-09-04_pag_1.pdf",
        "doe_2018-09-05_completo.pdf",
        "doe_2018-09-06_completo.pdf",
        "doe_2018-09-07_completo.pdf",
        "doe_2018-09-11_completo.pdf",
        "doe_2018-09-12_completo.pdf",
        "doe_2018-09-13_completo.pdf",
        "doe_2018-09-14_completo.pdf",
        "doe_2018-09-15_completo.pdf",
        "doe_2018-09-18_completo.pdf",
        "doe_2018-09-19_completo.pdf",
        "doe_2018-09-20_completo.pdf",
        "doe_2018-09-21_completo.pdf",
        "doe_2018-09-22_completo.pdf",
        "doe_2018-09-25_completo.pdf",
        "doe_2018-09-26_completo.pdf",
        "doe_2018-09-27_completo.pdf",
        "doe_2018-09-28_completo.pdf",
        "doe_2018-09-29_completo.pdf",
        "doe_2018-10-02_completo.pdf",
        "doe_2018-10-03_completo.pdf",
        "doe_2018-10-04_completo.pdf",
        "doe_2018-10-05_completo.pdf",
        "doe_2018-10-06_completo.pdf",
        "doe_2018-10-09_completo.pdf",
        "doe_2018-10-10_completo.pdf",
        "doe_2018-10-11_completo.pdf",
        "doe_2018-10-12_completo.pdf",
        "doe_2018-10-16_completo.pdf",
        "doe_2018-10-17_completo.pdf",
        "doe_2018-10-18_completo.pdf",
        "doe_2018-10-19_completo.pdf",
        "doe_2018-10-20_completo.pdf",
        "doe_2018-10-23_completo.pdf",
        "doe_2018-10-24_completo.pdf",
        "doe_2018-10-25_completo.pdf",
        "doe_2018-10-26_completo.pdf",
        "doe_2018-10-27_completo.pdf",
        "doe_2018-10-30_completo.pdf",
        "doe_2018-10-31_completo.pdf",
        "doe_2018-11-01_completo.pdf",
        "doe_2018-11-02_completo.pdf",
        "doe_2018-11-06_completo.pdf",
        "doe_2018-11-07_suplemento_completo.pdf",
        "doe_2018-11-08_completo.pdf",
        "doe_2018-11-09_completo.pdf",
        "doe_2018-11-10_completo.pdf",
        "doe_2018-11-13_completo.pdf",
        "doe_2018-11-14_completo.pdf",
        "doe_2018-11-15_completo.pdf",
        "doe_2018-11-20_completo.pdf",
        "doe_2018-11-21_completo.pdf",
        "doe_2018-11-22_completo.pdf",
        "doe_2018-11-23_completo.pdf",
        "doe_2018-11-24_completo.pdf",
        "doe_2018-11-27_completo.pdf",
        "doe_2018-11-28_completo.pdf",
        "doe_2018-11-29_completo.pdf",
        "doe_2018-11-30_completo.pdf",
        "doe_2018-12-01_completo.pdf",
        "doe_2018-12-04_completo.pdf",
        "doe_2018-12-05_completo.pdf",
        "doe_2018-12-06_completo.pdf",
        "doe_2018-12-07_completo.pdf",
        "doe_2018-12-08_completo.pdf",
        "doe_2018-12-11_completo.pdf",
        "doe_2018-12-12_completo.pdf",
        "doe_2018-12-13_completo.pdf",
        "doe_2018-12-14_completo.pdf",
        "doe_2018-12-15_completo.pdf",
        "doe_2018-12-18_completo.pdf",
        "doe_2018-12-19_completo.pdf",
        "doe_2018-12-20_completo.pdf",
        "doe_2018-12-21_completo.pdf",
        "doe_2018-12-22_completo.pdf",
        "doe_2018-12-27_completo.pdf",
        "doe_2018-12-28_suplemento_completo.pdf",
        "doe_2018-12-29_completo.pdf"]

# Arquivos do DOE de 2019
doe_19 = ["doe_2019-01-03_completo.pdf",
        "doe_2019-01-04_completo.pdf",
        "doe_2019-01-05_completo.pdf",
        "doe_2019-01-08_completo.pdf",
        "doe_2019-01-09_completo.pdf",
        "doe_2019-01-10_completo.pdf",
        "doe_2019-01-11_completo.pdf",
        "doe_2019-01-12_completo.pdf",
        "doe_2019-01-15_completo.pdf",
        "doe_2019-01-16_completo.pdf",
        "doe_2019-01-17_completo.pdf",
        "doe_2019-01-18_completo.pdf",
        "doe_2019-01-19_completo.pdf",
        "doe_2019-01-22_completo.pdf",
        "doe_2019-01-23_completo.pdf",
        "doe_2019-01-24_completo.pdf",
        "doe_2019-01-25_suplemento_completo.pdf",
        "doe_2019-01-26_completo.pdf",
        "doe_2019-01-29_completo.pdf",
        "doe_2019-01-30_completo.pdf",
        "doe_2019-01-31_completo.pdf",
        "doe_2019-02-01_completo.pdf",
        "doe_2019-02-02_completo.pdf",
        "doe_2019-02-05_completo.pdf",
        "doe_2019-02-06_completo.pdf",
        "doe_2019-02-07_completo.pdf",
        "doe_2019-02-08_completo.pdf",
        "doe_2019-02-09_completo.pdf",
        "doe_2019-02-12_completo.pdf",
        "doe_2019-02-13_completo.pdf",
        "doe_2019-02-14_completo.pdf",
        "doe_2019-02-15_completo.pdf",
        "doe_2019-02-16_completo.pdf",
        "doe_2019-02-19_completo.pdf",
        "doe_2019-02-20_completo.pdf",
        "doe_2019-02-21_completo.pdf",
        "doe_2019-02-22_completo.pdf",
        "doe_2019-02-23_completo.pdf",
        "doe_2019-02-26_completo.pdf",
        "doe_2019-02-27_completo.pdf",
        "doe_2019-02-28_completo.pdf",
        "doe_2019-03-01_completo.pdf",
        "doe_2019-03-08_completo.pdf",
        "doe_2019-03-09_completo.pdf",
        "doe_2019-03-12_completo.pdf",
        "doe_2019-03-13_completo.pdf",
        "doe_2019-03-14_completo.pdf",
        "doe_2019-03-15_completo.pdf",
        "doe_2019-03-16_completo.pdf",
        "doe_2019-03-19_completo.pdf",
        "doe_2019-03-20_completo.pdf",
        "doe_2019-03-21_suplemento_completo.pdf",
        "doe_2019-03-22_completo.pdf",
        "doe_2019-03-23_completo.pdf",
        "doe_2019-03-26_completo.pdf",
        "doe_2019-03-27_completo.pdf",
        "doe_2019-03-28_completo.pdf",
        "doe_2019-03-29_completo.pdf",
        "doe_2019-03-30_completo.pdf",
        "doe_2019-04-02_completo.pdf",
        "doe_2019-04-03_completo.pdf",
        "doe_2019-04-04_completo.pdf",
        "doe_2019-04-05_completo.pdf",
        "doe_2019-04-06_completo.pdf",
        "doe_2019-04-09_completo.pdf",
        "doe_2019-04-10_completo.pdf",
        "doe_2019-04-11_completo.pdf",
        "doe_2019-04-12_completo.pdf",
        "doe_2019-04-13_completo.pdf",
        "doe_2019-04-16_completo.pdf",
        "doe_2019-04-17_completo.pdf",
        "doe_2019-04-18_completo.pdf",
        "doe_2019-04-19_completo.pdf",
        "doe_2019-04-23_completo.pdf",
        "doe_2019-04-24_completo.pdf",
        "doe_2019-04-25_completo.pdf",
        "doe_2019-04-26_completo.pdf",
        "doe_2019-04-27_completo.pdf",
        "doe_2019-04-30_completo.pdf",
        "doe_2019-05-01_completo.pdf",
        "doe_2019-05-03_completo.pdf",
        "doe_2019-05-04_completo.pdf",
        "doe_2019-05-07_completo.pdf",
        "doe_2019-05-08_completo.pdf",
        "doe_2019-05-09_completo.pdf",
        "doe_2019-05-11_completo.pdf",
        "doe_2019-05-14_completo.pdf",
        "doe_2019-05-15_completo.pdf",
        "doe_2019-05-16_completo.pdf",
        "doe_2019-05-17_completo.pdf",
        "doe_2019-05-18_completo.pdf",
        "doe_2019-05-21_completo.pdf",
        "doe_2019-05-22_completo.pdf",
        "doe_2019-05-23_completo.pdf",
        "doe_2019-05-24_completo.pdf",
        "doe_2019-05-25_completo.pdf",
        "doe_2019-05-28_completo.pdf",
        "doe_2019-05-29_completo.pdf",
        "doe_2019-05-30_completo.pdf",
        "doe_2019-05-31_completo.pdf",
        "doe_2019-06-01_completo.pdf",
        "doe_2019-06-04_completo.pdf",
        "doe_2019-06-05_completo.pdf",
        "doe_2019-06-06_completo.pdf",
        "doe_2019-06-07_completo.pdf",
        "doe_2019-06-08_completo.pdf",
        "doe_2019-06-11_completo.pdf",
        "doe_2019-06-12_completo.pdf",
        "doe_2019-06-13_completo.pdf",
        "doe_2019-06-14_completo.pdf",
        "doe_2019-06-15_completo.pdf",
        "doe_2019-06-18_completo.pdf",
        "doe_2019-06-19_completo.pdf",
        "doe_2019-06-20_suplemento_completo.pdf",
        "doe_2019-06-26_completo.pdf",
        "doe_2019-06-27_completo.pdf",
        "doe_2019-06-28_completo.pdf",
        "doe_2019-06-29_completo.pdf",
        "doe_2019-07-04_completo.pdf",
        "doe_2019-07-05_completo.pdf",
        "doe_2019-07-06_completo.pdf",
        "doe_2019-07-09_completo.pdf",
        "doe_2019-07-10_completo.pdf",
        "doe_2019-07-11_completo.pdf",
        "doe_2019-07-12_completo.pdf",
        "doe_2019-07-13_completo.pdf",
        "doe_2019-07-16_completo.pdf",
        "doe_2019-07-17_completo.pdf",
        "doe_2019-07-18_completo.pdf",
        "doe_2019-07-19_completo.pdf",
        "doe_2019-07-20_completo.pdf",
        "doe_2019-07-23_completo.pdf",
        "doe_2019-07-24_completo.pdf",
        "doe_2019-07-25_completo.pdf",
        "doe_2019-07-26_completo.pdf",
        "doe_2019-07-27_completo.pdf",
        "doe_2019-07-30_completo.pdf",
        "doe_2019-07-31_completo.pdf",
        "doe_2019-08-01_completo.pdf",
        "doe_2019-08-02_completo.pdf",
        "doe_2019-08-03_completo.pdf",
        "doe_2019-08-06_completo.pdf",
        "doe_2019-08-07_completo.pdf",
        "doe_2019-08-08_completo.pdf",
        "doe_2019-08-09_completo.pdf",
        "doe_2019-08-10_completo.pdf",
        "doe_2019-08-13_completo.pdf",
        "doe_2019-08-14_completo.pdf",
        "doe_2019-08-15_completo.pdf",
        "doe_2019-08-16_completo.pdf",
        "doe_2019-08-17_completo.pdf",
        "doe_2019-08-20_completo.pdf",
        "doe_2019-08-21_completo.pdf",
        "doe_2019-08-22_completo.pdf",
        "doe_2019-08-23_completo.pdf",
        "doe_2019-08-24_completo.pdf",
        "doe_2019-08-27_completo.pdf",
        "doe_2019-08-28_completo.pdf",
        "doe_2019-08-29_completo.pdf",
        "doe_2019-08-30_completo.pdf",
        "doe_2019-08-31_completo.pdf",
        "doe_2019-09-03_completo.pdf",
        "doe_2019-09-04_completo.pdf",
        "doe_2019-09-05_completo.pdf",
        "doe_2019-09-06_completo.pdf",
        "doe_2019-09-07_completo.pdf",
        "doe_2019-09-10_completo.pdf",
        "doe_2019-09-11_completo.pdf",
        "doe_2019-09-12_completo.pdf",
        "doe_2019-09-13_completo.pdf",
        "doe_2019-09-14_completo.pdf",
        "doe_2019-09-17_completo.pdf",
        "doe_2019-09-18_completo.pdf",
        "doe_2019-09-19_completo.pdf",
        "doe_2019-09-20_completo.pdf",
        "doe_2019-09-21_completo.pdf",
        "doe_2019-09-24_completo.pdf",
        "doe_2019-09-25_completo.pdf",
        "doe_2019-09-26_completo.pdf",
        "doe_2019-09-27_completo.pdf",
        "doe_2019-09-28_completo.pdf",
        "doe_2019-10-01_completo.pdf",
        "doe_2019-10-02_completo.pdf",
        "doe_2019-10-03_completo.pdf",
        "doe_2019-10-04_completo.pdf",
        "doe_2019-10-05_completo.pdf",
        "doe_2019-10-08_completo.pdf",
        "doe_2019-10-16_completo.pdf",
        "doe_2019-10-17_completo.pdf",
        "doe_2019-10-18_completo.pdf",
        "doe_2019-10-19_completo.pdf",
        "doe_2019-10-22_completo.pdf",
        "doe_2019-10-23_completo.pdf",
        "doe_2019-10-24_completo.pdf",
        "doe_2019-10-25_completo.pdf",
        "doe_2019-10-26_completo.pdf",
        "doe_2019-10-30_completo.pdf",
        "doe_2019-10-31_completo.pdf",
        "doe_2019-11-01_completo.pdf",
        "doe_2019-11-02_completo.pdf",
        "doe_2019-11-05_completo.pdf",
        "doe_2019-11-06_completo.pdf",
        "doe_2019-11-07_completo.pdf",
        "doe_2019-11-08_completo.pdf",
        "doe_2019-11-09_completo.pdf",
        "doe_2019-11-12_completo.pdf",
        "doe_2019-11-13_completo.pdf",
        "doe_2019-11-14_completo.pdf",
        "doe_2019-11-15_completo.pdf",
        "doe_2019-11-19_completo.pdf",
        "doe_2019-11-20_completo.pdf",
        "doe_2019-11-21_completo.pdf",
        "doe_2019-11-22_completo.pdf",
        "doe_2019-11-23_completo.pdf",
        "doe_2019-11-26_completo.pdf",
        "doe_2019-11-27_completo.pdf",
        "doe_2019-11-28_completo.pdf",
        "doe_2019-11-29_completo.pdf",
        "doe_2019-11-30_completo.pdf",
        "doe_2019-12-03_completo.pdf",
        "doe_2019-12-04_completo.pdf",
        "doe_2019-12-05_completo.pdf",
        "doe_2019-12-06_completo.pdf",
        "doe_2019-12-07_completo.pdf",
        "doe_2019-12-10_completo.pdf",
        "doe_2019-12-11_completo.pdf",
        "doe_2019-12-12_completo.pdf",
        "doe_2019-12-13_completo.pdf",
        "doe_2019-12-14_completo.pdf",
        "doe_2019-12-17_completo.pdf",
        "doe_2019-12-18_completo.pdf",
        "doe_2019-12-19_completo.pdf",
        "doe_2019-12-20_completo.pdf",
        "doe_2019-12-21_completo.pdf",
        "doe_2019-12-27_completo.pdf",
        "doe_2019-12-28_completo.pdf"]

# Arquivos do DOE de 2020
doe_20 = ["doe_2020-01-03_completo.pdf",
        "doe_2020-01-04_completo.pdf",
        "doe_2020-01-07_completo.pdf",
        "doe_2020-01-08_completo.pdf",
        "doe_2020-01-09_completo.pdf",
        "doe_2020-01-10_completo.pdf",
        "doe_2020-01-11_completo.pdf",
        "doe_2020-01-14_completo.pdf",
        "doe_2020-01-15_completo.pdf",
        "doe_2020-01-16_completo.pdf",
        "doe_2020-01-17_completo.pdf",
        "doe_2020-01-18_completo.pdf",
        "doe_2020-01-21_completo.pdf",
        "doe_2020-01-22_completo.pdf",
        "doe_2020-01-23_completo.pdf",
        "doe_2020-01-24_completo.pdf",
        "doe_2020-01-25_completo.pdf",
        "doe_2020-01-28_completo.pdf",
        "doe_2020-01-29_completo.pdf",
        "doe_2020-01-30_completo.pdf",
        "doe_2020-01-31_completo.pdf",
        "doe_2020-02-01_completo.pdf",
        "doe_2020-02-04_completo.pdf",
        "doe_2020-02-05_completo.pdf",
        "doe_2020-02-06_completo.pdf",
        "doe_2020-02-07_completo.pdf",
        "doe_2020-02-08_completo.pdf",
        "doe_2020-02-11_completo.pdf",
        "doe_2020-02-12_completo.pdf",
        "doe_2020-02-13_completo.pdf",
        "doe_2020-02-14_completo.pdf",
        "doe_2020-02-15_completo.pdf",
        "doe_2020-02-18_completo.pdf",
        "doe_2020-02-19_completo.pdf",
        "doe_2020-02-20_completo.pdf",
        "doe_2020-02-21_completo.pdf",
        "doe_2020-02-28_completo.pdf",
        "doe_2020-02-29_completo.pdf",
        "doe_2020-03-03_completo.pdf",
        "doe_2020-03-04_completo.pdf",
        "doe_2020-03-05_completo.pdf",
        "doe_2020-03-06_completo.pdf",
        "doe_2020-03-07_completo.pdf",
        "doe_2020-03-10_completo.pdf",
        "doe_2020-03-11_completo.pdf",
        "doe_2020-03-12_completo.pdf",
        "doe_2020-03-13_completo.pdf",
        "doe_2020-03-14_suplemento_completo.pdf",
        "doe_2020-03-17_completo.pdf",
        "doe_2020-03-18_completo.pdf",
        "doe_2020-03-19_completo.pdf",
        "doe_2020-03-20_completo.pdf",
        "doe_2020-03-21_suplemento_completo.pdf",
        "doe_2020-03-22_completo.pdf",
        "doe_2020-03-24_completo.pdf",
        "doe_2020-03-25_completo.pdf",
        "doe_2020-03-26_completo.pdf",
        "doe_2020-03-27_completo.pdf",
        "doe_2020-03-28_completo.pdf",
        "doe_2020-03-31_completo.pdf",
        "doe_2020-04-01_completo.pdf",
        "doe_2020-04-02_completo.pdf",
        "doe_2020-04-03_completo.pdf",
        "doe_2020-04-04_completo.pdf",
        "doe_2020-04-07_completo.pdf",
        "doe_2020-04-08_completo.pdf",
        "doe_2020-04-09_completo.pdf",
        "doe_2020-04-10_completo.pdf",
        "doe_2020-04-14_completo.pdf",
        "doe_2020-04-15_completo.pdf",
        "doe_2020-04-16_completo.pdf",
        "doe_2020-04-17_completo.pdf",
        "doe_2020-04-18_completo.pdf",
        "doe_2020-04-21_completo.pdf",
        "doe_2020-04-23_completo.pdf",
        "doe_2020-04-24_completo.pdf",
        "doe_2020-04-25_completo.pdf",
        "doe_2020-04-28_completo.pdf",
        "doe_2020-04-29_completo.pdf",
        "doe_2020-04-30_completo.pdf",
        "doe_2020-05-01_completo.pdf",
        "doe_2020-05-05_completo.pdf",
        "doe_2020-05-06_completo.pdf",
        "doe_2020-05-07_completo.pdf",
        "doe_2020-05-08_completo.pdf",
        "doe_2020-05-09_completo.pdf",
        "doe_2020-05-12_completo.pdf",
        "doe_2020-05-13_completo.pdf",
        "doe_2020-05-14_completo.pdf",
        "doe_2020-05-15_completo.pdf",
        "doe_2020-05-16_completo.pdf",
        "doe_2020-05-19_completo.pdf",
        "doe_2020-05-20_completo.pdf",
        "doe_2020-05-21_completo.pdf",
        "doe_2020-05-22_completo.pdf",
        "doe_2020-05-23_suplemento_completo.pdf",
        "doe_2020-05-26_suplemento_completo.pdf",
        "doe_2020-05-28_completo.pdf",
        "doe_2020-05-29_completo.pdf",
        "doe_2020-05-30_completo.pdf",
        "doe_2020-06-02_completo.pdf",
        "doe_2020-06-03_completo.pdf",
        "doe_2020-06-04_completo.pdf",
        "doe_2020-06-05_completo.pdf",
        "doe_2020-06-06_completo.pdf",
        "doe_2020-06-09_completo.pdf",
        "doe_2020-06-10_completo.pdf",
        "doe_2020-06-11_completo.pdf",
        "doe_2020-06-13_completo.pdf",
        "doe_2020-06-16_completo.pdf",
        "doe_2020-06-17_completo.pdf",
        "doe_2020-06-18_completo.pdf",
        "doe_2020-06-19_completo.pdf",
        "doe_2020-06-20_completo.pdf",
        "doe_2020-06-23_completo.pdf",
        "doe_2020-06-24_completo.pdf",
        "doe_2020-06-25_completo.pdf",
        "doe_2020-06-26_completo.pdf",
        "doe_2020-06-27_completo.pdf",
        "doe_2020-06-30_completo.pdf",
        "doe_2020-07-01_completo.pdf",
        "doe_2020-07-02_completo.pdf",
        "doe_2020-07-03_suplemento_completo.pdf",
        "doe_2020-07-04_completo.pdf",
        "doe_2020-07-07_completo.pdf",
        "doe_2020-07-08_completo.pdf",
        "doe_2020-07-09_completo.pdf",
        "doe_2020-07-10_completo.pdf",
        "doe_2020-07-11_suplemento_completo.pdf",
        "doe_2020-07-14_completo.pdf",
        "doe_2020-07-15_suplemento_completo.pdf",
        "doe_2020-07-16_completo.pdf",
        "doe_2020-07-17_completo.pdf",
        "doe_2020-07-18_completo.pdf",
        "doe_2020-07-19_completo.pdf",
        "doe_2020-07-21_completo.pdf",
        "doe_2020-07-22_completo.pdf",
        "doe_2020-07-23_completo.pdf",
        "doe_2020-07-24_completo.pdf",
        "doe_2020-07-25_suplemento_completo.pdf",
        "doe_2020-07-28_completo.pdf",
        "doe_2020-07-29_completo.pdf",
        "doe_2020-07-30_completo.pdf",
        "doe_2020-07-31_completo.pdf",
        "doe_2020-08-01_completo.pdf",
        "doe_2020-08-04_completo.pdf",
        "doe_2020-08-05_completo.pdf",
        "doe_2020-08-06_completo.pdf",
        "doe_2020-08-07_completo.pdf",
        "doe_2020-08-08_completo.pdf",
        "doe_2020-08-11_completo.pdf",
        "doe_2020-08-12_completo.pdf",
        "doe_2020-08-13_completo.pdf",
        "doe_2020-08-14_suplemento_completo.pdf",
        "doe_2020-08-15_completo.pdf",
        "doe_2020-08-18_completo.pdf",
        "doe_2020-08-19_completo.pdf",
        "doe_2020-08-20_completo.pdf",
        "doe_2020-08-21_completo.pdf",
        "doe_2020-08-22_completo.pdf",
        "doe_2020-08-25_completo.pdf",
        "doe_2020-08-26_completo.pdf",
        "doe_2020-08-27_completo.pdf",
        "doe_2020-08-28_completo.pdf",
        "doe_2020-08-29_completo.pdf",
        "doe_2020-09-01_completo.pdf",
        "doe_2020-09-02_completo.pdf",
        "doe_2020-09-03_completo (1).pdf",
        "doe_2020-09-03_completo.pdf",
        "doe_2020-09-04_completo.pdf",
        "doe_2020-09-05_completo.pdf",
        "doe_2020-09-09_completo.pdf",
        "doe_2020-09-10_completo.pdf",
        "doe_2020-09-11_completo.pdf",
        "doe_2020-09-12_completo.pdf",
        "doe_2020-09-14_suplemento_completo.pdf",
        "doe_2020-09-15_completo.pdf",
        "doe_2020-09-16_completo.pdf",
        "doe_2020-09-17_completo.pdf",
        "doe_2020-09-18_completo.pdf",
        "doe_2020-09-19_completo.pdf",
        "doe_2020-09-22_completo.pdf",
        "doe_2020-09-23_completo.pdf",
        "doe_2020-09-24_completo.pdf",
        "doe_2020-09-25_completo.pdf",
        "doe_2020-09-26_completo.pdf",
        "doe_2020-09-29_completo.pdf",
        "doe_2020-09-30_completo.pdf",
        "doe_2020-10-01_completo.pdf",
        "doe_2020-10-02_completo.pdf",
        "doe_2020-10-03_completo.pdf",
        "doe_2020-10-06_completo.pdf",
        "doe_2020-10-07_completo.pdf",
        "doe_2020-10-08_completo.pdf",
        "doe_2020-10-09_completo.pdf",
        "doe_2020-10-10_completo.pdf",
        "doe_2020-10-14_completo.pdf",
        "doe_2020-10-15_completo.pdf",
        "doe_2020-10-17_completo.pdf",
        "doe_2020-10-20_completo.pdf",
        "doe_2020-10-21_completo.pdf",
        "doe_2020-10-22_completo.pdf",
        "doe_2020-10-23_completo.pdf",
        "doe_2020-10-24_completo.pdf",
        "doe_2020-10-27_completo.pdf",
        "doe_2020-10-28_completo.pdf",
        "doe_2020-10-29_completo.pdf",
        "doe_2020-10-30_completo.pdf",
        "doe_2020-11-05_completo.pdf",
        "doe_2020-11-06_completo.pdf",
        "doe_2020-11-07_completo (1).pdf",
        "doe_2020-11-07_completo.pdf",
        "doe_2020-11-10_completo.pdf",
        "doe_2020-11-11_completo.pdf",
        "doe_2020-11-12_completo.pdf",
        "doe_2020-11-13_completo.pdf",
        "doe_2020-11-14_completo.pdf",
        "doe_2020-11-17_completo.pdf",
        "doe_2020-11-18_completo.pdf",
        "doe_2020-11-19_completo.pdf",
        "doe_2020-11-20_completo.pdf",
        "doe_2020-11-21_completo.pdf",
        "doe_2020-11-24_suplemento_completo.pdf",
        "doe_2020-11-25_completo.pdf",
        "doe_2020-11-26_completo.pdf",
        "doe_2020-11-27_completo.pdf",
        "doe_2020-11-28_completo.pdf",
        "doe_2020-12-01_completo.pdf",
        "doe_2020-12-02_completo.pdf",
        "doe_2020-12-03_completo.pdf",
        "doe_2020-12-04_completo.pdf",
        "doe_2020-12-05_completo.pdf",
        "doe_2020-12-08_completo.pdf",
        "doe_2020-12-09_completo.pdf",
        "doe_2020-12-10_completo.pdf",
        "doe_2020-12-11_completo.pdf",
        "doe_2020-12-12_completo.pdf",
        "doe_2020-12-15_completo.pdf",
        "doe_2020-12-16_suplemento_completo.pdf",
        "doe_2020-12-17_suplemento_completo.pdf",
        "doe_2020-12-18_completo.pdf",
        "doe_2020-12-19_completo.pdf",
        "doe_2020-12-22_completo.pdf",
        "doe_2020-12-23_completo.pdf",
        "doe_2020-12-24_completo.pdf",
        "doe_2020-12-29_completo.pdf",
        "doe_2020-12-30_completo.pdf",
        "doe_2020-12-31_completo.pdf"]

# Arquivos do DOE de 2021
doe_21 = ["doe_2021-01-05_completo.pdf",
        "doe_2021-01-06_completo.pdf",
        "doe_2021-01-07_completo.pdf",
        "doe_2021-01-08_completo.pdf",
        "doe_2021-01-09_completo.pdf",
        "doe_2021-01-12_completo.pdf",
        "doe_2021-01-13_completo.pdf",
        "doe_2021-01-14_completo.pdf",
        "doe_2021-01-15_completo.pdf",
        "doe_2021-01-16_completo.pdf",
        "doe_2021-01-19_completo.pdf",
        "doe_2021-01-20_completo.pdf",
        "doe_2021-01-21_completo.pdf",
        "doe_2021-01-22_completo.pdf",
        "doe_2021-01-23_completo.pdf",
        "doe_2021-01-26_completo.pdf",
        "doe_2021-01-27_completo.pdf",
        "doe_2021-01-28_completo.pdf",
        "doe_2021-01-29_completo.pdf",
        "doe_2021-01-30_completo.pdf",
        "doe_2021-02-02_completo.pdf",
        "doe_2021-02-03_completo.pdf",
        "doe_2021-02-04_completo.pdf",
        "doe_2021-02-05_suplemento_completo.pdf",
        "doe_2021-02-06_completo.pdf",
        "doe_2021-02-09_completo.pdf",
        "doe_2021-02-10_completo.pdf",
        "doe_2021-02-11_completo.pdf",
        "doe_2021-02-12_completo.pdf",
        "doe_2021-02-13_completo.pdf",
        "doe_2021-02-16_completo.pdf",
        "doe_2021-02-17_completo.pdf",
        "doe_2021-02-18_completo.pdf",
        "doe_2021-02-19_completo.pdf",
        "doe_2021-02-20_suplemento_completo.pdf",
        "doe_2021-02-23_completo.pdf",
        "doe_2021-02-24_completo.pdf",
        "doe_2021-02-25_suplemento_completo.pdf",
        "doe_2021-02-26_completo.pdf",
        "doe_2021-02-27_completo.pdf",
        "doe_2021-03-02_completo.pdf",
        "doe_2021-03-03_completo.pdf",
        "doe_2021-03-04_completo.pdf",
        "doe_2021-03-05_completo.pdf",
        "doe_2021-03-06_suplemento_completo.pdf",
        "doe_2021-03-09_suplemento_completo.pdf",
        "doe_2021-03-10_completo.pdf",
        "doe_2021-03-11_completo.pdf",
        "doe_2021-03-12_completo.pdf",
        "doe_2021-03-13_suplemento_completo.pdf",
        "doe_2021-03-16_completo.pdf",
        "doe_2021-03-17_completo.pdf",
        "doe_2021-03-18_completo.pdf",
        "doe_2021-03-19_completo.pdf",
        "doe_2021-03-20_suplemento_completo.pdf",
        "doe_2021-03-23_suplemento_completo.pdf",
        "doe_2021-03-24_suplemento_completo.pdf",
        "doe_2021-03-25_completo.pdf",
        "doe_2021-03-26_completo.pdf",
        "doe_2021-03-27_completo.pdf",
        "doe_2021-03-30_completo.pdf",
        "doe_2021-03-31_completo.pdf",
        "doe_2021-04-01_completo.pdf",
        "doe_2021-04-02_completo.pdf",
        "doe_2021-04-06_completo.pdf",
        "doe_2021-04-07_completo.pdf",
        "doe_2021-04-08_completo.pdf",
        "doe_2021-04-09_completo.pdf",
        "doe_2021-04-10_completo.pdf",
        "doe_2021-04-11_completo.pdf",
        "doe_2021-04-13_suplemento_completo.pdf",
        "doe_2021-04-14_completo.pdf",
        "doe_2021-04-15_completo.pdf",
        "doe_2021-04-16_completo.pdf",
        "doe_2021-04-17_completo.pdf",
        "doe_2021-04-18_completo.pdf",
        "doe_2021-04-20_completo.pdf",
        "doe_2021-04-21_completo.pdf",
        "doe_2021-04-23_completo.pdf",
        "doe_2021-04-24_completo.pdf",
        "doe_2021-04-25_completo.pdf",
        "doe_2021-04-27_completo.pdf",
        "doe_2021-04-28_completo.pdf",
        "doe_2021-04-29_completo.pdf",
        "doe_2021-04-30_completo.pdf",
        "doe_2021-05-01_completo.pdf",
        "doe_2021-05-02_completo.pdf",
        "doe_2021-05-04_completo.pdf",
        "doe_2021-05-05_completo.pdf",
        "doe_2021-05-06_completo.pdf",
        "doe_2021-05-07_completo.pdf",
        "doe_2021-05-08_completo.pdf",
        "doe_2021-05-09_completo.pdf",
        "doe_2021-05-11_completo.pdf",
        "doe_2021-05-12_completo.pdf",
        "doe_2021-05-13_completo.pdf",
        "doe_2021-05-14_completo.pdf",
        "doe_2021-05-15_completo.pdf",
        "doe_2021-05-16_completo.pdf",
        "doe_2021-05-18_completo.pdf",
        "doe_2021-05-19_completo.pdf",
        "doe_2021-05-20_completo.pdf",
        "doe_2021-05-21_completo.pdf",
        "doe_2021-05-22_completo.pdf",
        "doe_2021-05-23_completo.pdf",
        "doe_2021-05-25_completo.pdf",
        "doe_2021-05-26_completo.pdf",
        "doe_2021-05-27_completo.pdf",
        "doe_2021-05-28_completo.pdf",
        "doe_2021-05-29_suplemento_completo.pdf",
        "doe_2021-06-01_completo.pdf",
        "doe_2021-06-02_completo.pdf",
        "doe_2021-06-03_completo.pdf",
        "doe_2021-06-05_completo.pdf",
        "doe_2021-06-08_completo.pdf",
        "doe_2021-06-09_completo.pdf",
        "doe_2021-06-10_completo.pdf",
        "doe_2021-06-11_completo.pdf",
        "doe_2021-06-12_completo.pdf",
        "doe_2021-06-15_completo.pdf",
        "doe_2021-06-16_completo.pdf",
        "doe_2021-06-17_completo.pdf",
        "doe_2021-06-18_suplemento_completo.pdf",
        "doe_2021-06-19_completo.pdf",
        "doe_2021-06-22_completo.pdf",
        "doe_2021-06-23_completo.pdf",
        "doe_2021-06-24_completo.pdf",
        "doe_2021-06-26_completo.pdf",
        "doe_2021-06-29_completo.pdf",
        "doe_2021-06-30_completo.pdf",
        "doe_2021-07-01_completo.pdf",
        "doe_2021-07-02_suplemento_completo.pdf",
        "doe_2021-07-06_completo.pdf",
        "doe_2021-07-07_completo.pdf",
        "doe_2021-07-08_suplemento_completo.pdf",
        "doe_2021-07-09_completo.pdf",
        "doe_2021-07-10_completo.pdf",
        "doe_2021-07-13_completo.pdf",
        "doe_2021-07-14_completo.pdf",
        "doe_2021-07-15_completo.pdf",
        "doe_2021-07-16_completo.pdf",
        "doe_2021-07-17_completo.pdf",
        "doe_2021-07-20_completo.pdf",
        "doe_2021-07-21_completo.pdf",
        "doe_2021-07-22_completo.pdf",
        "doe_2021-07-23_completo.pdf",
        "doe_2021-07-24_completo.pdf",
        "doe_2021-07-27_completo.pdf",
        "doe_2021-07-28_completo.pdf",
        "doe_2021-07-29_completo.pdf",
        "doe_2021-07-30_completo.pdf",
        "doe_2021-07-31_completo.pdf",
        "doe_2021-08-03_completo.pdf",
        "doe_2021-08-04_completo.pdf",
        "doe_2021-08-05_completo.pdf",
        "doe_2021-08-06_completo.pdf",
        "doe_2021-08-07_completo.pdf",
        "doe_2021-08-10_completo.pdf",
        "doe_2021-08-11_completo.pdf",
        "doe_2021-08-12_completo.pdf",
        "doe_2021-08-13_completo.pdf",
        "doe_2021-08-14_completo.pdf",
        "doe_2021-08-17_completo (1).pdf",
        "doe_2021-08-18_completo.pdf",
        "doe_2021-08-19_completo.pdf",
        "doe_2021-08-20_completo.pdf",
        "doe_2021-08-21_completo.pdf",
        "doe_2021-08-24_completo.pdf",
        "doe_2021-08-25_completo.pdf",
        "doe_2021-08-26_completo.pdf",
        "doe_2021-08-27_completo.pdf",
        "doe_2021-08-28_completo.pdf",
        "doe_2021-08-31_completo.pdf",
        "doe_2021-09-01_completo.pdf",
        "doe_2021-09-02_completo.pdf",
        "doe_2021-09-03_completo.pdf",
        "doe_2021-09-04_completo.pdf",
        "doe_2021-09-07_completo.pdf",
        "doe_2021-09-09_completo.pdf",
        "doe_2021-09-10_completo.pdf",
        "doe_2021-09-11_suplemento_completo.pdf",
        "doe_2021-09-14_completo.pdf",
        "doe_2021-09-15_completo.pdf",
        "doe_2021-09-16_completo.pdf",
        "doe_2021-09-17_completo.pdf",
        "doe_2021-09-18_completo.pdf",
        "doe_2021-09-21_completo.pdf",
        "doe_2021-09-22_completo.pdf",
        "doe_2021-09-23_completo.pdf",
        "doe_2021-09-24_completo.pdf",
        "doe_2021-09-25_completo.pdf",
        "doe_2021-09-28_completo.pdf",
        "doe_2021-09-29_completo.pdf",
        "doe_2021-09-30_completo.pdf",
        "doe_2021-10-01_completo.pdf",
        "doe_2021-10-02_completo.pdf",
        "doe_2021-10-05_completo.pdf",
        "doe_2021-10-06_completo.pdf",
        "doe_2021-10-07_completo.pdf",
        "doe_2021-10-08_completo.pdf",
        "doe_2021-10-09_completo.pdf",
        "doe_2021-10-12_completo.pdf",
        "doe_2021-10-14_completo.pdf",
        "doe_2021-10-15_completo.pdf",
        "doe_2021-10-16_completo.pdf",
        "doe_2021-10-19_completo.pdf",
        "doe_2021-10-20_completo.pdf",
        "doe_2021-10-21_completo.pdf",
        "doe_2021-10-22_suplemento_completo.pdf",
        "doe_2021-10-23_completo.pdf",
        "doe_2021-10-26_completo.pdf",
        "doe_2021-10-27_completo.pdf",
        "doe_2021-10-28_completo.pdf",
        "doe_2021-10-29_completo.pdf",
        "doe_2021-10-30_completo.pdf",
        "doe_2021-11-04_completo.pdf",
        "doe_2021-11-05_completo.pdf",
        "doe_2021-11-06_completo.pdf",
        "doe_2021-11-09_completo.pdf",
        "doe_2021-11-10_completo.pdf",
        "doe_2021-11-11_suplemento_completo.pdf",
        "doe_2021-11-12_completo.pdf",
        "doe_2021-11-13_completo.pdf",
        "doe_2021-11-17_completo.pdf",
        "doe_2021-11-18_completo.pdf",
        "doe_2021-11-19_completo.pdf",
        "doe_2021-11-20_completo.pdf",
        "doe_2021-11-23_completo.pdf",
        "doe_2021-11-24_completo.pdf",
        "doe_2021-11-25_completo.pdf",
        "doe_2021-11-26_completo.pdf",
        "doe_2021-11-27_completo.pdf"]

In [None]:
len(doe_18)

232

In [None]:
len(doe_19)

236

In [None]:
len(doe_20)

249

In [None]:
len(doe_21)

232

### **Extraindo o texto e salvando em um arquivo txt**

O resultado (arquivos no formato .txt) estão no GitHub da Agência Pública.

In [None]:
with open("2018.txt", 'w', encoding='utf-8')  as arquivo:
    for i in doe_18:
        texto = parser.from_file(i)
        texto = texto['content']
        texto = re.sub("\n", " ", texto)
        texto = re.sub("PORTARIA", "\nPORTARIA ", texto)
        texto = texto.upper()
        print(texto, file=arquivo)

In [None]:
with open("2019.txt", 'w', encoding='utf-8')  as arquivo:
    for i in doe_19:
        texto = parser.from_file(i)
        texto = texto['content']
        texto = re.sub("\n", " ", texto)
        texto = re.sub("PORTARIA", "\nPORTARIA ", texto)
        texto = texto.upper()
        print(texto, file=arquivo)

In [None]:
with open("2020.txt", 'w', encoding='utf-8')  as arquivo:
    for i in doe_20:
        texto = parser.from_file(i)
        texto = texto['content']
        texto = re.sub("\n", " ", texto)
        texto = re.sub("PORTARIA", "\nPORTARIA ", texto)
        texto = texto.upper()
        print(texto, file=arquivo)

In [None]:
with open("2021.txt", 'w', encoding='utf-8')  as arquivo:
    for i in doe_21:
        texto = parser.from_file(i)
        texto = texto['content']
        texto = re.sub("\n", " ", texto)
        texto = re.sub("PORTARIA", "\nPORTARIA ", texto)
        texto = texto.upper()
        print(texto, file=arquivo)