# **ML - Introdução à Leitura e Estruturação de Dados**
**Autor:** [Anderson França](https://www.linkedin.com/in/anderson-m-franca/) | **Contato:** [github.com/andfranca](https://github.com/andfranca/estatistica-e-aprendizado-de-maquinas-ptbr)

<a href="https://creativecommons.org/licenses/by/4.0/deed.en"><img align="left" width="80" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc.png"/></a>


> ##### **"Se eu te entregar um parecer técnico em PDF com 10 páginas, você conseguiria transformá-lo em uma base de dados analisável em 10 minutos?"**

### **Documentos do dia-a-dia**

O que encontramos nos documentos textuais são:
- Texto desorganizado, com formatação complexa
- Tabelas embutidas, notas de rodapé, múltiplas colunas
- Linguagem ambígua e estrutura variável

Todos possuem formatos diferentes, mas problema parecidos


<table>
  <tr>
    <td align="center" valign="bottom">
        <img src="https://media4.giphy.com/media/v1.Y2lkPTc5MGI3NjExczluY2p1cjlua3VlNmVuNHdkZngzaWtyazN4NDluZmRodXl1cHV1OSZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/m2Q7FEc0bEr4I/giphy.gif" width="300px"><br>
        <em>Para humanos pode parecer uma tarefa simples</em>
    </td>
    <td align="center" valign="bottom">
        <img src="https://media4.giphy.com/media/v1.Y2lkPTc5MGI3NjExM3N5dWZ5MTByODd3Zm9vdXlhcXRpcWJnOG1yNjA3NXM4YmdyM2d6NiZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/vuP4lZB1bpTq2FY5WF/giphy.gif" width="400px"><br>
        <em>Para os algoritmos é uma tarefa extremamente complexa.</em>
    </td>
  </tr>
</table>

### **Dados Estruturados vs Texto Livre**

A maioria dos documentos contém informações importantes, mas em formato de texto livre. Isso é bem difícil de processar nos modelos de IA.

Para transformar esses conteúdos em dados utilizáveis, é preciso identificar, extrair e organizar os elementos relevantes em uma estrutura consistente e legível por máquina.

Esse processo é essencial para alimentar modelos estatísticos e de linguagem com qualidade e precisão.


| Tipo  | Exemplo |
|-------|-----------------|
| Estruturado | {"substância": "Parabeno", "nível": 0.3}|
| Texto Livre | “Foi identificado o uso de parabenos em concentração de 0,3% no produto…”|


### **O que precisamos extrair?**


<div><img src="https://drive.google.com/uc?export=view&id=1r5W5esx4G5Ev3kYRf50A6w6hny5EL18K" width="600" align="center"/></div>

Lembrando: 
> ## Garbage in, Garbage Out
Se a entrada é ruim, o resultado será ruim também





In [63]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

In [64]:
url = "https://www.gov.br/anvisa/pt-br/assuntos/noticias-anvisa/2025/confira-os-destaques-da-6a-reuniao-publica-da-dicol-de-2025"

In [65]:
resposta = requests.get(url)

soup = BeautifulSoup(resposta.text, "html.parser")
conteudo = soup.find_all("p")


for paragrafo in conteudo:
    texto = paragrafo.get_text(strip=True)
    if texto:
        print(texto)

Notícias
DIRETORIA COLEGIADA
Nesta quarta-feira (16/4), os diretores da Anvisa se reuniram para a 6ª Reunião Pública da Diretoria Colegiada (Dicol) de 2025, sob a condução do diretor-presidente substituto, Rômison Mota. Foram retirados de pauta, por ele, os itens 3.10 e 3.2.10.4 a 3.2.10.9. Além disso, foi solicitada a inclusão em pauta da proposta de abertura do processo administrativo de regulação referente à decisão que aprovou, em caráterad referendum(isto é, adotada provisoriamente), a Resolução da Diretoria Colegiada (RDC) 971/2025, que, por sua vez, alterou a RDC 947/2024 — a qual dispõe sobre os procedimentos de protocolo de documentos no âmbito da Agência.
Colgate e a redução de riscos
O diretor Daniel Pereira, por sua vez, pediu a retirada dos itens 3.3.3.1 e 3.3.12.1, e, no que se refere à retirada de pauta do item 4.3.4.1, que diz respeito àinterdição do creme dental Colgate Total Clean Mint por reações indesejáveis, fez algumas considerações. Em busca de prestigiar iniciat

# Ler arquivos em PDF

In [15]:
#pip install pdfplumber

In [13]:
import pdfplumber
import requests
import io

In [None]:
url = 'https://www.gov.br/anvisa/pt-br/assuntos/cosmeticos/catec/pareceres/parecer_13_2024_catec.pdf'

# Download do PDF
resposta = requests.get(url)

### Leitura de Página

In [14]:
with pdfplumber.open(io.BytesIO(resposta.content)) as pdf:
    texto_pag1 = pdf.pages[0].extract_text()
    print(texto_pag1)

PARECER Nº 13/2024/SEI/GGCOS/DIRE3/ANVISA
Processo nº 25351.903963/2022-21
Interessado: Gerência-Geral de Cosméticos e Saneantes (GGCOS)
Assunto: Avaliação de Segurança da Substância Monoetilenoglicol -
Nomenclatura Internacional de Ingrediente Cosmético (INCI):
Glycol (CAS 107-21-1)
Definição da segurança de uso
da substância
Monoetilenoglicol – INCI: Glycol
(CAS 107-21-1) em produtos de
higiene pessoal, cosméticos e
perfumes, especialmente em
produtos que entram em
contato com a mucosa bucal
1. Relatório
A Gerência de Hemo e Biovigilância e Vigilância Pós-
Uso de Alimentos, Cosméticos e Produtos Saneantes (GHBIO) da
Anvisa foi comunicada em 05/09/2022 pelo Ministério da
Agricultura, Pecuária e Abastecimento - MAPA, de investigação
envolvendo intoxicação e óbito de animais de companhia após
ingestão de petiscos próprios para alimentação animal que
apresentaram contaminação do ingrediente Propilenoglicol com
Etilenoglicol.
A Gerência de Inspeção e Fiscalização Sanitária de
Alimentos, S

# Leitura Completa

In [17]:
texto_completo = ""
with pdfplumber.open(io.BytesIO(resposta.content)) as pdf:
    for pagina in pdf.pages:
        texto_completo += pagina.extract_text() + "\n"

print(texto_completo[:1000])  # exibir os primeiros 1000 caracteres

PARECER Nº 13/2024/SEI/GGCOS/DIRE3/ANVISA
Processo nº 25351.903963/2022-21
Interessado: Gerência-Geral de Cosméticos e Saneantes (GGCOS)
Assunto: Avaliação de Segurança da Substância Monoetilenoglicol -
Nomenclatura Internacional de Ingrediente Cosmético (INCI):
Glycol (CAS 107-21-1)
Definição da segurança de uso
da substância
Monoetilenoglicol – INCI: Glycol
(CAS 107-21-1) em produtos de
higiene pessoal, cosméticos e
perfumes, especialmente em
produtos que entram em
contato com a mucosa bucal
1. Relatório
A Gerência de Hemo e Biovigilância e Vigilância Pós-
Uso de Alimentos, Cosméticos e Produtos Saneantes (GHBIO) da
Anvisa foi comunicada em 05/09/2022 pelo Ministério da
Agricultura, Pecuária e Abastecimento - MAPA, de investigação
envolvendo intoxicação e óbito de animais de companhia após
ingestão de petiscos próprios para alimentação animal que
apresentaram contaminação do ingrediente Propilenoglicol com
Etilenoglicol.
A Gerência de Inspeção e Fiscalização Sanitária de
Alimentos, S

```

pagina.width         # largura da página
pagina.height        # altura da página
pagina.chars         # lista com cada caractere, posição e fonte
pagina.extract_text()   # texto da página
pagina.extract_table()  # tabela, se houver

```

#### Verificar se alguma palavra ocorre no documento

In [19]:
# Verifica se a palavra 'conclusão' aparece no texto
print("conclusão" in texto_completo.lower())

True


In [18]:
# Encontra a posição onde 'conclusão' aparece
indice = texto_completo.lower().find("conclusão")
print(f"Encontrado na posição: {indice}")

Encontrado na posição: 10987


In [20]:
# Mostra os 500 caracteres após a palavra encontrada
print(texto_completo[indice:indice + 500])

Conclusão
Etileno glicóis de baixo peso molecular, como o glycol
e o dietilenoglicol apresentam um perfil de toxicidade aguda
bem estabelecido em humanos, com um histórico de mortes
associadas em decorrência de acidose metabólica e falha renal
aguda, principalmente após exposição por via oral em casos de
envenenamentos. Essas substâncias podem estar presentes em
produtos cosméticos como contaminantes de ingredientes como
a glicerina e polietileno glicóis que são amplamente utilizados
em formulaç
