# NLP: buscando entidades em documentos

## 01. Identificando entidades básicas

### Leitura dos textos

In [1]:
import zipfile

In [2]:
with zipfile.ZipFile('./texts.zip', 'r') as zip:
    print(zip.namelist())

['ADI2TJDFT.txt', 'adi3767.txt', 'Ag10000170733596001.txt', 'Ag10105170208398001.txt', 'AgAIRR11889820145030011.txt', 'AgCr10582160008758001.txt', 'AgRgSTJ1.txt', 'AgRgSTJ2.txt', 'AgRgTSE1.txt', 'AgRgTSE3.txt', 'AIAgRAgI6193ARAGUARIMG.txt', 'airr801422012.txt', 'AIRR3999520145020086.txt', 'AIRR15708820115050222.txt', 'AP00000794920137060006.txt', 'AP00001415620157010201.txt', 'AP00001441420167030203.txt', 'AP771420167080008PA.txt', 'CP32320177080008PA.txt', 'DespSEPLAGDF.txt', 'ED1STM.txt', 'ED1TJAC.txt', 'EDAgRgTSE2.txt', 'EDEDARR208420135040232.txt', 'EDRR1TST.txt', 'EEDRR9715120105020002.txt', 'ERR731004520105130003.txt', 'HC110260SP.txt', 'HC151914AgRES.txt', 'HC340624SP.txt', 'HC418951PR.txt', 'HC70000845920187000000.txt', 'lei11340.txt', 'Lei11788.txt', 'LoaDF2018.txt', 'Pet128TSE5.txt', 'Port77DF.txt', 'Rcl3495STJ.txt', 'REE5908TSE4.txt', 'REsp1583083RS.txt', 'RR474820145230056.txt', 'RR942006420095040028.txt', 'RR2574407120025020372.txt', 'TCU4687.txt', 'TSTRR16037920105200001.

In [3]:
with zipfile.ZipFile('./texts.zip', 'r') as zip:
    print(*zip.namelist(), sep='\n')

ADI2TJDFT.txt
adi3767.txt
Ag10000170733596001.txt
Ag10105170208398001.txt
AgAIRR11889820145030011.txt
AgCr10582160008758001.txt
AgRgSTJ1.txt
AgRgSTJ2.txt
AgRgTSE1.txt
AgRgTSE3.txt
AIAgRAgI6193ARAGUARIMG.txt
airr801422012.txt
AIRR3999520145020086.txt
AIRR15708820115050222.txt
AP00000794920137060006.txt
AP00001415620157010201.txt
AP00001441420167030203.txt
AP771420167080008PA.txt
CP32320177080008PA.txt
DespSEPLAGDF.txt
ED1STM.txt
ED1TJAC.txt
EDAgRgTSE2.txt
EDEDARR208420135040232.txt
EDRR1TST.txt
EEDRR9715120105020002.txt
ERR731004520105130003.txt
HC110260SP.txt
HC151914AgRES.txt
HC340624SP.txt
HC418951PR.txt
HC70000845920187000000.txt
lei11340.txt
Lei11788.txt
LoaDF2018.txt
Pet128TSE5.txt
Port77DF.txt
Rcl3495STJ.txt
REE5908TSE4.txt
REsp1583083RS.txt
RR474820145230056.txt
RR942006420095040028.txt
RR2574407120025020372.txt
TCU4687.txt
TSTRR16037920105200001.txt
AC1TCU.txt
AC1TJAC.txt
AC1TJMG.txt
AC2.txt
ACORDAOTCU25052016.txt


In [4]:
with zipfile.ZipFile('./texts.zip', 'r') as zip:
    with zip.open('ADI2TJDFT.txt') as arquivo:
        texto = arquivo.read().decode('utf-8')

In [5]:
texto[:300]

'Órgão\t:\tConselho Especial\nClasse\t:\tADI  Ação Direta de Inconstitucionalidade\nN. Processo\t:\t2010002019357-4\nRequerente(s)\t:\tPROCURADORA-GERAL DE JUSTIÇA DO DISTRITO FEDERAL E TERRITÓRIOS\nRequerido(s)\t:\tPRESIDENTE DA CÂMARA LEGISLATIVA DO DISTRITO FEDERAL E OUTRO(S)\nRelator \t:\tDesembargador LÉCIO RESE'

### Parar saber mais: o que é reconhecimento de entidades nomeadas

O Reconhecimento de Entidades Nomeadas (NER, do inglês **Named Entity Recognition**) é uma técnica de processamento de linguagem natural que identifica e classifica automaticamente informações específicas dentro de um texto. Essas informações são chamadas de "entidades" e geralmente correspondem a nomes de pessoas, locais, organizações, datas, quantidades ou alguma outra classificação.

Por exemplo, em uma frase como "João nasceu em 10/09/1900 em Florianópolis", o NER pode identificar "João" como uma pessoa, "10/09/1900" como uma data e "Florianópolis" como um local.

#### Como funciona o NER?

O NER trabalha em duas etapas principais:

1. **Detecção de Entidades**: a primeira etapa é encontrar palavras ou grupos de palavras que representam possíveis entidades. Isso envolve dividir o texto em partes menores, coo frases ou palavras, um processo chamado de **tokenização**.
2. **Classificação das Entidades**: após identificar os possíveis candidatos, o NER classifica cada entidade em categorias predefinidas, como pessoa, local, organização, etc. Isso pode ser feito usando técnicas de aprendizado de máquina, que treinam modelos em grandes conjuntos de dados rotulados, ou usando regras manuais pré-definidas.

#### Principais Aplicações do NER

1. **Motores de Busca**

Motores de busca, como Google e Bing, utilizam NER para entender as intenções de busca dos usuários. Quando alguém pesquisa por "hotéis em Nova York", o NER identifica "hotéis" como um tipo de serviço e "Nova York" como uma localização, ajudando o motor de busca a apresentar resultados mais relevantes.

2. **Análise de Sentimento e Monitoramento de Mídias Sociais**

Empresas usam NER para monitorar menções de suas marcas em redes sociais e na web. Por exemplo, se uma companhia quer saber quantas vezes foi mencionada e qual o contexto dessas menções, o NER pode identificar o nome da empresa e analisar os comentários relacionados para detectar sentimentos positivos ou negativos.

3. **Sistemas de Atendimento ao Cliente**

Em chats e assistentes virtuais, o NER pode ajudar a identificar informações relevantes fornecidas pelo usuário, como nomes de produtos, datas e locais, para melhorar a precisão das respostas. Isso faz com que os sistemas de atendimento sejam mais eficientes e personalizados.

4. **Extração de Informações Médicas**

No setor de saúde, o NER pode ser usado para extrair informações importantes de prontuários médicos, como nomes de medicamentos, sintomas, diagnósticos e datas. Isso ajuda os profissionais de saúde a analisar grandes volumes de dados de forma mais rápida e precisa.

5. **Análise de Documentos Legais**

Advogados utilizam NER para identificar automaticamente cláusulas, datas e nomes de partes em contratos e documentos legais. Isso reduz o tempo necessário para revisar documentos e aumenta a precisão das análises.

O Reconhecimento de Entidades Nomeadas é uma ferramenta poderosa, com aplicações em diversas áreas. Ao identificar e classificar automaticamente informações específicas em textos, o NER facilita a análise de dados e torna o processamento de grandes volumes de informação mais eficiente.

### Reconhecendo as entidades no texto

In [6]:
# !.venv/bin/python -m spacy download pt_core_news_sm

In [7]:
import spacy
import pt_core_news_sm

modelo_ner = pt_core_news_sm.load()

In [8]:
doc = modelo_ner(texto)

for entidade in doc.ents:
    print(f"{entidade.text} → {entidade.label_}")

Órgão → LOC
Conselho Especial
Classe → ORG
ADI → ORG
Ação Direta de Inconstitucionalidade
N. Processo → ORG
Requerente(s → LOC
JUSTIÇA → PER
DISTRITO FEDERAL → LOC
TERRITÓRIOS
Requerido(s → LOC
DISTRITO FEDERAL → LOC
OUTRO(S → MISC
Relator → LOC
LEIS DISTRITAIS → MISC
COMPLEMENTAR DISTRITAL → PER
INCONSTITUCIONALIDADE FORMAL → MISC
ORGÂNICA → MISC
DISTRITO FEDERAL → LOC
ÁREA PÚBLICA → PER
GOVERNADOR → ORG
DISTRITO FEDERAL → LOC
VÍCIO FORMAL → ORG
Decreto → PER
Portaria → MISC
Instituto Brasileiro do Patrimônio Cultural  IBPC → LOC
Instituto do Patrimônio Histórico e Artístico Nacional  IPHAN → LOC
Governador do Distrito Federal → LOC
Distrito Federal → LOC
ACÓRDÃO	
 → LOC
Acordam os Desembargadores do Conselho Especial do Tribunal de Justiça do Distrito Federal → MISC
Territórios LÉCIO → ORG
RESENDE  Relator → LOC
JOÃO MAIORISI   → MISC
Vogal → ORG
Vogal → LOC
DÁCIO VIEIRA  Vogal → LOC
SÉRGIO BITTENCOURT → ORG
Vogal → ORG
LECIR → ORG
Vogal → ORG
CARMELITA BRASIL → ORG
Vogal → ORG
Vogal

In [9]:
import pandas as pd

In [10]:
entidades = []
labels = []

for entidade in doc.ents:
    entidades.append(entidade.text)
    labels.append(entidade.label_)

In [11]:
pd.DataFrame({'Entidade': entidades, 'Label': labels})

Unnamed: 0,Entidade,Label
0,Órgão,LOC
1,Conselho Especial\nClasse,ORG
2,ADI,ORG
3,Ação Direta de Inconstitucionalidade\nN. Processo,ORG
4,Requerente(s,LOC
...,...,...
867,Poder Executivo,MISC
868,PROCEDENTE,LOC
869,Leis Distritais,LOC
870,Lei Complementar,MISC


### Visualizando as entidades no texto

In [12]:
modelo_ner.get_pipe('ner').labels

('LOC', 'MISC', 'ORG', 'PER')

In [13]:
print('LOC', spacy.explain('LOC'))
print('MISC', spacy.explain('MISC'))
print('ORG', spacy.explain('ORG'))
print('PER', spacy.explain('PER'))

LOC Non-GPE locations, mountain ranges, bodies of water
MISC Miscellaneous entities, e.g. events, nationalities, products or works of art
ORG Companies, agencies, institutions, etc.
PER Named person or family.


In [14]:
from IPython.display import display
from spacy import displacy

displacy.render(doc, style='ent')

In [15]:
# !.venv/bin/python -m spacy download en_core_web_sm

In [16]:
import en_core_web_sm

modelo_ner_ing = spacy.load('en_core_web_sm')
modelo_ner_ing.get_pipe('ner').labels

('CARDINAL',
 'DATE',
 'EVENT',
 'FAC',
 'GPE',
 'LANGUAGE',
 'LAW',
 'LOC',
 'MONEY',
 'NORP',
 'ORDINAL',
 'ORG',
 'PERCENT',
 'PERSON',
 'PRODUCT',
 'QUANTITY',
 'TIME',
 'WORK_OF_ART')

## 02. Preparando os dados para treinamento

### Tokenizando os dados

In [17]:
dados = []

with zipfile.ZipFile('./texts.zip') as zip:
    for nome_arquivo in zip.namelist():
        with zip.open(nome_arquivo) as arquivo:
            conteudo = arquivo.read().decode('utf-8')
            palavras = conteudo.split()
            for palavra in palavras:
                dados.append([nome_arquivo, palavra])

tabela_palavras = pd.DataFrame(dados, columns=['arquivo', 'palavra'])

In [18]:
tabela_palavras

Unnamed: 0,arquivo,palavra
0,ADI2TJDFT.txt,Órgão
1,ADI2TJDFT.txt,:
2,ADI2TJDFT.txt,Conselho
3,ADI2TJDFT.txt,Especial
4,ADI2TJDFT.txt,Classe
...,...,...
193487,ACORDAOTCU25052016.txt,Ministro-Substituto
193488,ACORDAOTCU25052016.txt,AUGUSTO
193489,ACORDAOTCU25052016.txt,SHERMAN
193490,ACORDAOTCU25052016.txt,CAVALCANTI


In [19]:
tabela_palavras.to_csv('palavras.csv', index=False, sep='\t')

### Rotulando os dados no formato IOB (*Inside*, *Outside*, *Beginning*)

In [20]:
tabela_palavras = pd.read_csv('./palavras_IOB.tsv', sep='\t')

In [21]:
tabela_palavras

Unnamed: 0,arquivo,palavra,label
0,TCU4687.txt,GRUPO,O
1,TCU4687.txt,I,O
2,TCU4687.txt,CLASSE,O
3,TCU4687.txt,II,O
4,TCU4687.txt,2ª,B-ORGANIZACAO
...,...,...,...
229272,RR2574407120025020372.txt,de,O
229273,RR2574407120025020372.txt,Chaves,O
229274,RR2574407120025020372.txt,Públicas,O
229275,RR2574407120025020372.txt,Brasileira,O


In [22]:
tabela_palavras['label'].unique()

array(['O', 'B-ORGANIZACAO', 'I-ORGANIZACAO', 'B-JURISPRUDENCIA',
       'I-JURISPRUDENCIA', 'B-PESSOA', 'I-PESSOA', 'B-LEGISLACAO',
       'I-LEGISLACAO', 'B-TEMPO', 'B-LOCAL', 'I-LOCAL', 'I-TEMPO'],
      dtype=object)

### Para saber mais: formato IOB

O formato IOB (Inside-Outside-Beginning) é amplamente utilizado para rotular sequências de texto em tarefas de NLP, principalmente em tarefas de reconhecimento de entidades nomeadas (NER). Este formato ajuda a identificar palavras ou frases que pertencem a categorias específicas, como nomes de pessoas, organizações, locais e datas.

Esse formato é um esquema de rotulação que classifica as palavras de uma sequência de texto em três categorias:

- **B- (Beginning)**: indica o início de uma entidade. É usado para marcar a primeira palavra de uma entidade nomeada.
- **I- (Inside)**: indica que a palavra faz parte de uma entidade, mas não é a primeira palavra. Todas as palavras subsequentes que ainda pertencem à mesma entidade são marcadas com "I".
- **O (Outside)**: indica que a palavra não faz parte de nenhuma entidade nomeada. É utilizada para palavras que não pertencem a nenhuma categoria específica de interesse.

#### Exemplo de uso

Vamos usar um exemplo simples para entender como essas etiquetas são aplicadas. Considere a frase "João Miranda é instrutor na Alura".

Podemos rotular as entidades "João Miranda" (Pessoa) e "Alura" (Organização) usando o formato IOB:

| Palavra   | Rótulo        |
| :-------- | :------------ |
| João      | B-PESSOA      |
| Miranda   | I-PESSOA      |
| é         | O             |
| instrutor | O             |
| na        | O             |
| Alura     | B-ORGANIZACAO |

Neste exemplo:
- "João" é rotulado como **B-PESSOA**, indicando o início de uma entidade do tipo "Pessoa".
- "Miranda" é rotulado como **I-PESSOA**, pois faz parte da mesma entidade "Pessoa" que começou com "João".
- "Alura " é rotulado como B-ORGANIZACAO, indicando o início de uma entidade do tipo "Organização".
- As palavras "é", "instrutor", "na" são rotuladas como O, já que não pertencem a nenhuma entidade de interesse. Caso fosse interessante no projeto, a palavra instrutor poderia fazer parte de um rótulo, como por exemplo "Cargo".

#### Vantagens do formato IOB

1. **Simplicidade**: é fácil de entender e aplicar. Cada palavra recebe um rótulo que indica claramente se pertence a uma entidade e, em caso positivo, se é o início ou parte de uma entidade.
2. **Versatilidade**: pode ser utilizado para diferentes tipos de entidades, bastando adaptar os rótulos (por exemplo, B-PESSOA, I-PESSOA, B-LOCAL, I-LOCAL, B-CARGO, I-CARGO).
3. **Facilidade de treinamento**: é um formato muito utilizado em modelos de aprendizado de máquina para NLP, pois fornece informações ricas e estruturadas sobre as entidades no texto.

#### Limitações do formato IOB

Embora seja amplamente utilizado, o formato IOB tem algumas limitações:
- **Confusão em casos ambíguos**: em algumas situações, pode ser difícil decidir onde começa e termina uma entidade, especialmente em textos complexos.
- **Depende de segmentação prévia**: para utilizar o formato IOB, é necessário que o texto esteja devidamente tokenizado (dividido em palavras ou subpalavras).

#### Alternativas ao formato IOB

Existem variações do formato IOB, como o **IOB2** e o **BIOES**:
- **IOB2**: semelhante ao IOB, mas todos os rótulos de entidade começam com "B-" independentemente de serem a primeira palavra de uma entidade.
- **BIOES**: adiciona dois rótulos adicionais: "E-" (End), que indica a última palavra de uma entidade, e "S-" (Single), que marca uma entidade que consiste em uma única palavra.

Caso queira saber mais a respeito, acesse o artigo:
- [Artigo Reconhecimento de Entidades Nomeadas](https://cs229.stanford.edu/proj2005/KrishnanGanapathy-NamedEntityRecognition.pdf)

### Transformando dados para o formato spacy

Formato Spacy:

```tupla = ('texto', {'entities': [(10, 17, 'ORGANIZACAO'), (25, 40, 'PESSOA')]})```

In [24]:
grupo_arquivos = tabela_palavras.groupby('arquivo')

In [31]:
grupo_arquivos.get_group('ADI2TJDFT.txt')

Unnamed: 0,arquivo,palavra,label
46105,ADI2TJDFT.txt,Órgão,O
46106,ADI2TJDFT.txt,:,O
46107,ADI2TJDFT.txt,Conselho,B-ORGANIZACAO
46108,ADI2TJDFT.txt,Especial,I-ORGANIZACAO
46109,ADI2TJDFT.txt,Classe,O
...,...,...,...
55911,ADI2TJDFT.txt,a,O
55912,ADI2TJDFT.txt,ação,O
55913,ADI2TJDFT.txt,",",O
55914,ADI2TJDFT.txt,maioria,O


In [32]:
tabela_agrupada = grupo_arquivos.get_group('ADI2TJDFT.txt')[['palavra', 'label']].values
conteudo = ''
anotacoes = {'entities': []}
inicio_palavra = 0
fim_palavra = 0

for texto, label in tabela_agrupada:
    texto = str(texto)
    tamanho_texto = len(texto) + 1

    inicio_palavra = fim_palavra
    fim_palavra = inicio_palavra + tamanho_texto

    if label != 'O':
        anotacao = (inicio_palavra, fim_palavra - 1, label)
        anotacoes['entities'].append(anotacao)

    conteudo = conteudo + texto + ' '

In [33]:
conteudo

"Órgão : Conselho Especial Classe : ADI Ação Direta de Inconstitucionalidade N . Processo : 2010002019357-4 Requerente ( s ) : PROCURADORA-GERAL DE JUSTIÇA DO DISTRITO FEDERAL E TERRITÓRIOS Requerido ( s ) : PRESIDENTE DA CÂMARA LEGISLATIVA DO DISTRITO FEDERAL E OUTRO ( S ) Relator : Desembargador LÉCIO RESENDE EMENTA AÇÃO DIRETA DE INCONSTITUCIONALIDADE . LEIS DISTRITAIS N.º 747/1994 E 2018/1998 . LEI COMPLEMENTAR DISTRITAL N.º 380/2001 . INCONSTITUCIONALIDADE FORMAL . LEI ORGÂNICA DO DISTRITO FEDERAL . OCUPAÇÃO DE ÁREA PÚBLICA . COMPETÊNCIA PRIVATIVA DO GOVERNADOR DO DISTRITO FEDERAL . AÇÃO JULGADA PROCEDENTE EM RAZÃO DO VÍCIO FORMAL . Tanto o Decreto n.º 10.829/87 , quanto a Portaria n.º 314/92 , do Instituto Brasileiro do Patrimônio Cultural IBPC , hoje Instituto do Patrimônio Histórico e Artístico Nacional IPHAN , conferem ao Governador do Distrito Federal competência privativa para iniciar o processo legislativo , quando se tratar o tema de uso e ocupação do solo em todo o territ

In [35]:
anotacoes

{'entities': [(8, 16, 'B-ORGANIZACAO'),
  (17, 25, 'I-ORGANIZACAO'),
  (91, 106, 'B-JURISPRUDENCIA'),
  (158, 166, 'B-LOCAL'),
  (167, 174, 'I-LOCAL'),
  (221, 227, 'B-ORGANIZACAO'),
  (228, 239, 'I-ORGANIZACAO'),
  (240, 242, 'I-ORGANIZACAO'),
  (243, 251, 'I-ORGANIZACAO'),
  (252, 259, 'I-ORGANIZACAO'),
  (298, 303, 'B-PESSOA'),
  (304, 311, 'I-PESSOA'),
  (358, 362, 'B-LEGISLACAO'),
  (363, 373, 'I-LEGISLACAO'),
  (374, 377, 'I-LEGISLACAO'),
  (378, 386, 'I-LEGISLACAO'),
  (389, 398, 'B-LEGISLACAO'),
  (401, 404, 'B-LEGISLACAO'),
  (405, 417, 'I-LEGISLACAO'),
  (418, 427, 'I-LEGISLACAO'),
  (428, 431, 'I-LEGISLACAO'),
  (432, 440, 'I-LEGISLACAO'),
  (474, 477, 'B-LEGISLACAO'),
  (478, 486, 'I-LEGISLACAO'),
  (487, 489, 'I-LEGISLACAO'),
  (490, 498, 'I-LEGISLACAO'),
  (499, 506, 'I-LEGISLACAO'),
  (575, 583, 'B-LOCAL'),
  (584, 591, 'I-LOCAL'),
  (653, 660, 'B-LEGISLACAO'),
  (661, 664, 'I-LEGISLACAO'),
  (665, 674, 'I-LEGISLACAO'),
  (686, 694, 'B-LEGISLACAO'),
  (695, 698, 'I-LEGIS

In [36]:
conteudo.find('Conselho Especial')

8

In [37]:
conteudo.find('Conselho Especial') + len('Conselho Especial')

25

### Transformando todos os dados

In [39]:
arquivos = grupo_arquivos.groups.keys()

In [40]:
arquivos

dict_keys(['AC1TCU.txt', 'AC1TJAC.txt', 'AC1TJMG.txt', 'AC2.txt', 'ACORDAOTCU25052016.txt', 'ADI2TJDFT.txt', 'AIAgRAgI6193ARAGUARIMG.txt', 'AIRR15708820115050222.txt', 'AIRR3999520145020086.txt', 'AP00000794920137060006.txt', 'AP00001415620157010201.txt', 'AP00001441420167030203.txt', 'AP771420167080008PA.txt', 'Ag10000170733596001.txt', 'Ag10105170208398001.txt', 'AgAIRR11889820145030011.txt', 'AgCr10582160008758001.txt', 'AgRgSTJ1.txt', 'AgRgSTJ2.txt', 'AgRgTSE1.txt', 'AgRgTSE3.txt', 'CP32320177080008PA.txt', 'DespSEPLAGDF.txt', 'ED1STM.txt', 'ED1TJAC.txt', 'EDAgRgTSE2.txt', 'EDEDARR208420135040232.txt', 'EDRR1TST.txt', 'EEDRR9715120105020002.txt', 'ERR731004520105130003.txt', 'HC110260SP.txt', 'HC151914AgRES.txt', 'HC340624SP.txt', 'HC418951PR.txt', 'HC70000845920187000000.txt', 'Lei11788.txt', 'LoaDF2018.txt', 'Pet128TSE5.txt', 'Port77DF.txt', 'REE5908TSE4.txt', 'REsp1583083RS.txt', 'RR2574407120025020372.txt', 'RR474820145230056.txt', 'RR942006420095040028.txt', 'Rcl3495STJ.txt', 

In [44]:
documentos = []
for arquivo in arquivos:
    tabela_agrupada = grupo_arquivos.get_group(arquivo)[['palavra', 'label']].values
    conteudo = ''
    anotacoes = {'entities': []}
    inicio_palavra = 0
    fim_palavra = 0

    for texto, label in tabela_agrupada:
        texto = str(texto)
        tamanho_texto = len(texto) + 1

        inicio_palavra = fim_palavra
        fim_palavra = inicio_palavra + tamanho_texto

        if label != 'O':
            anotacao = (inicio_palavra, fim_palavra - 1, label)
            anotacoes['entities'].append(anotacao)

        conteudo = conteudo + texto + ' '

    documento = (conteudo, anotacoes)
    documentos.append(documento)

In [45]:
documentos[0]

('Número do Acórdão ACÓRDÃO 2924/2017 - PLENÁRIO Relator BRUNO DANTAS Processo 021.074/2016-0 Tipo de processo DENÚNCIA ( DEN ) Data da sessão 12/12/2017 Número da ata 26/2017 Interessado / Responsável / Recorrente 3 . Denunciante/Responsáveis/Interessados : 3.1 . Denunciante : Identidade preservada ( art . 55 , caput , da Lei 8.443/1992 ) . 3.2 . Responsável : André Luiz Moreira da Silva ( 074.166.407-09 ) . 3.3 . Interessado : CSTrans Serviços de Transportes Ltda. ( 13.265.187/0001-05 ) . Entidade Comando da Aeronáutica - Grupamento de Apoio de Brasília . Representante do Ministério Público não atuou . Unidade Técnica Secretaria de Controle Externo de Aquisições Logísticas ( Selog ) . Representante Legal 8.1 . Mauro Santos Silva ( 054.218.307-21 ) e outros , representando Comando da Aeronáutica - Grupamento de Apoio de Brasília . 8.2 . Ivana Ferreira Castro Lobo Barbosa ( 718.698.321-91 ) , representando CSTrans Serviços de Transportes Ltda . Assunto Denúncia sobre irregularidades em

## 03. Criando função para treinamento do modelo

### Separando dados de treino e validação

In [46]:
import random

In [47]:
random.shuffle(documentos)

In [48]:
len(documentos)

50

In [49]:
dados_treino = documentos[:40]
dados_validacao = documentos[40:]

In [50]:
len(dados_treino)

40

### Construindo a função de treinamento

[Modelos spacy](https://spacy.io/models/pt)

In [54]:
def treinar_modelo_ner(
    dados_treino: list[tuple[str, dict[str, tuple[int, int, str]]]],
    dados_validacao: list[tuple[str, dict[str, tuple[int, int, str]]]],
    epocas: int
):
    modelo = spacy.load('pt_core_news_sm')

    if 'ner' not in modelo.pipe_names:
        ner = modelo.create_pipe('ner')
        modelo.add_pipe(ner, last=True)
    else:
        ner = modelo.get_pipe('ner')

    for _, anotacoes in dados_treino:
       for ent in anotacoes.get('entities'):
           ner.add_label(ent[2])

    outros_pipelines = [pipeline for pipeline in modelo.pipe_names if pipeline != 'ner']

    with modelo.disable_pipes(*outros_pipelines):
        spacy.util.fix_random_seed()
        otimizador = modelo.create_optimizer()

### Finalizando a função de treinamento

In [57]:
from tqdm import tqdm
from spacy.training import Example

In [60]:
def treinar_modelo_ner(
    dados_treino: list[tuple[str, dict[str, tuple[int, int, str]]]],
    dados_validacao: list[tuple[str, dict[str, tuple[int, int, str]]]],
    epocas: int
):
    modelo = spacy.load('pt_core_news_sm')

    if 'ner' not in modelo.pipe_names:
        ner = modelo.create_pipe('ner')
        modelo.add_pipe(ner, last=True)
    else:
        ner = modelo.get_pipe('ner')

    for _, anotacoes in dados_treino:
        for ent in anotacoes.get('entities'):
            ner.add_label(ent[2])

    outros_pipelines = [pipeline for pipeline in modelo.pipe_names if pipeline != 'ner']

    with modelo.disable_pipes(*outros_pipelines):
        spacy.util.fix_random_seed()
        otimizador = modelo.create_optimizer()

        for epoca in tqdm(range(epocas), desc='Treinando o modelo'):
            random.seed(10)
            random.shuffle(dados_treino)
            losses = {'ner': 0.0}

            for textos, anotacoes in dados_treino:
                exemplo = Example.from_dict(modelo.make_doc(textos), anotacoes)

                modelo.update([exemplo], drop=0.2, sgd=otimizador, losses=losses)

            print(f"\nÉpoca {epoca + 1} - Loss médio de treino: {losses['ner'] / len(dados_treino)}")

            val_losses = {'ner': 0.0}
            exemplos = []

            for textos, anotacoes in dados_validacao:
                exemplo = Example.from_dict(modelo.make_doc(textos), anotacoes)
                exemplos.append(exemplo)

            for exemplo in exemplos:
                modelo.update([exemplo], sgd=None, drop=0, losses=val_losses)

            print(f"Época {epoca + 1} - Loss médio de validação: {val_losses['ner'] / len(dados_validacao)}")

    return modelo

### Para saber mais: uso de modelos pré-treinados em NLP

No desenvolvimento de aplicações de processamento de linguagem natural (NLP), o uso de modelos pré-treinados pode economizar muito tempo e melhorar a eficiência. O **SpaCy** é uma biblioteca poderosa para NLP que oferece modelos pré-treinados para vários idiomas, permitindo tarefas como tokenização, lematização, reconhecimento de entidades nomeadas (NER) e análise de dependência sintática.

#### Por que usar modelos pré-treinados?

Modelos pré-treinados, como o "pt_core_news_sm" usado no SpaCy, já passaram por um treinamento com grandes conjuntos de dados de textos, como notícias e livros. Isso significa que o modelo já tem conhecimento linguístico básico e pode realizar tarefas de NLP sem precisar ser treinado do zero. Algumas vantagens incluem:

1. **Economia de tempo**: treinar um modelo do zero exige muitos dados e tempo de processamento, enquanto os modelos pré-treinados já tem uma base pronta para uso.
2. **Maior precisão**: os modelos pré-treinados são ajustados com grandes volumes de dados, resultando em uma compreensão melhor das nuances do idioma.
3. **Fácil customização**: embora os modelos pré-treinados possam ser usados como estão, é possível ajustá-los para tarefas específicas (como NER em documentos jurídicos), adicionando novas entidades ou ajustando os parâmetros.

#### Personalizando um modelo com SpaCy

Apesar dos modelos pré-treinados serem úteis, pode ser necessário adaptá-los para domínios específicos. Por exemplo, no caso do reconhecimento de entidades jurídicas, é possível adicionar entidades em documentos legais.

O ajuste fino do modelo é realizado adicionando exemplos anotados ao conjunto de dados de treinamento e ajustando os parâmetros de atualização do modelo. Esse processo, chamado de **fine-tuning**, permite que o modelo aprenda novas informações sem perder os conhecimentos adquiridos anteriormente.

## 04. Aplicando o modelo NER

### Treinando e salvando o modelo

In [61]:
modelo_ner = treinar_modelo_ner(dados_treino, dados_validacao, 30)

Treinando o modelo:   0%|                                                                                                               | 0/30 [00:00<?, ?it/s]


Época 1 - Loss médio de treino: 1032.9600578205511


Treinando o modelo:   3%|███▍                                                                                                   | 1/30 [00:19<09:26, 19.53s/it]

Época 1 - Loss médio de validação: 847.3997027244501

Época 2 - Loss médio de treino: 691.3961379075932


Treinando o modelo:   7%|██████▊                                                                                                | 2/30 [00:38<08:52, 19.02s/it]

Época 2 - Loss médio de validação: 547.070226521073

Época 3 - Loss médio de treino: 466.27601135854354


Treinando o modelo:  10%|██████████▎                                                                                            | 3/30 [00:56<08:22, 18.61s/it]

Época 3 - Loss médio de validação: 374.4989572449669

Época 4 - Loss médio de treino: 350.44885287633855


Treinando o modelo:  13%|█████████████▋                                                                                         | 4/30 [01:14<07:59, 18.45s/it]

Época 4 - Loss médio de validação: 279.78036677684383

Época 5 - Loss médio de treino: 278.326946402408


Treinando o modelo:  17%|█████████████████▏                                                                                     | 5/30 [01:30<07:21, 17.68s/it]

Época 5 - Loss médio de validação: 206.05745378244183

Época 6 - Loss médio de treino: 241.37967142247072


Treinando o modelo:  20%|████████████████████▌                                                                                  | 6/30 [01:47<06:57, 17.39s/it]

Época 6 - Loss médio de validação: 214.2059732101293

Época 7 - Loss médio de treino: 216.10697250563936


Treinando o modelo:  23%|████████████████████████                                                                               | 7/30 [02:04<06:34, 17.13s/it]

Época 7 - Loss médio de validação: 119.08291360433607

Época 8 - Loss médio de treino: 184.4688862480285


Treinando o modelo:  27%|███████████████████████████▍                                                                           | 8/30 [02:21<06:15, 17.05s/it]

Época 8 - Loss médio de validação: 96.19955896042475

Época 9 - Loss médio de treino: 164.39699301846252


Treinando o modelo:  30%|██████████████████████████████▉                                                                        | 9/30 [02:39<06:03, 17.31s/it]

Época 9 - Loss médio de validação: 64.54575531230246

Época 10 - Loss médio de treino: 148.1734654295572


Treinando o modelo:  33%|██████████████████████████████████                                                                    | 10/30 [02:56<05:49, 17.49s/it]

Época 10 - Loss médio de validação: 49.331393405576165

Época 11 - Loss médio de treino: 128.7897507841448


Treinando o modelo:  37%|█████████████████████████████████████▍                                                                | 11/30 [03:14<05:32, 17.50s/it]

Época 11 - Loss médio de validação: 43.46501353829292

Época 12 - Loss médio de treino: 119.57970694722664


Treinando o modelo:  40%|████████████████████████████████████████▊                                                             | 12/30 [03:31<05:12, 17.38s/it]

Época 12 - Loss médio de validação: 40.036209231517766

Época 13 - Loss médio de treino: 116.468213610864


Treinando o modelo:  43%|████████████████████████████████████████████▏                                                         | 13/30 [03:48<04:51, 17.14s/it]

Época 13 - Loss médio de validação: 35.763619911963126

Época 14 - Loss médio de treino: 108.87343157655678


Treinando o modelo:  47%|███████████████████████████████████████████████▌                                                      | 14/30 [04:04<04:32, 17.00s/it]

Época 14 - Loss médio de validação: 29.09200864799821

Época 15 - Loss médio de treino: 98.57768885678908


Treinando o modelo:  50%|███████████████████████████████████████████████████                                                   | 15/30 [04:21<04:12, 16.81s/it]

Época 15 - Loss médio de validação: 25.417925787206595

Época 16 - Loss médio de treino: 91.31237966740598


Treinando o modelo:  53%|██████████████████████████████████████████████████████▍                                               | 16/30 [04:38<03:55, 16.82s/it]

Época 16 - Loss médio de validação: 28.74017786816383

Época 17 - Loss médio de treino: 81.59111755810389


Treinando o modelo:  57%|█████████████████████████████████████████████████████████▊                                            | 17/30 [04:55<03:40, 16.93s/it]

Época 17 - Loss médio de validação: 23.929912515740032

Época 18 - Loss médio de treino: 81.07325180926651


Treinando o modelo:  60%|█████████████████████████████████████████████████████████████▏                                        | 18/30 [05:13<03:27, 17.26s/it]

Época 18 - Loss médio de validação: 35.46162928808405

Época 19 - Loss médio de treino: 81.59968635700025


Treinando o modelo:  63%|████████████████████████████████████████████████████████████████▌                                     | 19/30 [05:31<03:12, 17.54s/it]

Época 19 - Loss médio de validação: 21.03848828835386

Época 20 - Loss médio de treino: 72.38389013939745


Treinando o modelo:  67%|████████████████████████████████████████████████████████████████████                                  | 20/30 [05:49<02:57, 17.73s/it]

Época 20 - Loss médio de validação: 22.520985633889868

Época 21 - Loss médio de treino: 70.85032829715762


Treinando o modelo:  70%|███████████████████████████████████████████████████████████████████████▍                              | 21/30 [06:07<02:40, 17.78s/it]

Época 21 - Loss médio de validação: 19.496981499248022

Época 22 - Loss médio de treino: 67.28137189824396


Treinando o modelo:  73%|██████████████████████████████████████████████████████████████████████████▊                           | 22/30 [06:25<02:23, 17.89s/it]

Época 22 - Loss médio de validação: 18.170270934755514

Época 23 - Loss médio de treino: 60.89232637331825


Treinando o modelo:  77%|██████████████████████████████████████████████████████████████████████████████▏                       | 23/30 [06:43<02:05, 18.00s/it]

Época 23 - Loss médio de validação: 20.41816653242264

Época 24 - Loss médio de treino: 64.11236046281086


Treinando o modelo:  80%|█████████████████████████████████████████████████████████████████████████████████▌                    | 24/30 [07:02<01:49, 18.28s/it]

Época 24 - Loss médio de validação: 18.095915101181657

Época 25 - Loss médio de treino: 58.34124380460131


Treinando o modelo:  83%|█████████████████████████████████████████████████████████████████████████████████████                 | 25/30 [07:21<01:31, 18.31s/it]

Época 25 - Loss médio de validação: 21.505957279650026

Época 26 - Loss médio de treino: 55.08513699646926


Treinando o modelo:  87%|████████████████████████████████████████████████████████████████████████████████████████▍             | 26/30 [07:39<01:13, 18.42s/it]

Época 26 - Loss médio de validação: 14.72487862256421

Época 27 - Loss médio de treino: 54.76883228055401


Treinando o modelo:  90%|███████████████████████████████████████████████████████████████████████████████████████████▊          | 27/30 [07:57<00:54, 18.29s/it]

Época 27 - Loss médio de validação: 16.177918029371295

Época 28 - Loss médio de treino: 52.08370468958553


Treinando o modelo:  93%|███████████████████████████████████████████████████████████████████████████████████████████████▏      | 28/30 [08:15<00:35, 17.94s/it]

Época 28 - Loss médio de validação: 12.254261998359654

Época 29 - Loss médio de treino: 49.25513868482316


Treinando o modelo:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████▌   | 29/30 [08:32<00:17, 17.81s/it]

Época 29 - Loss médio de validação: 14.473525796027719

Época 30 - Loss médio de treino: 43.00978043418301


Treinando o modelo: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████| 30/30 [08:49<00:00, 17.65s/it]

Época 30 - Loss médio de validação: 15.80515208194674





In [62]:
# modelo_ner.to_disk('./modelo/')

In [63]:
# !zip -r ./modelo.zip modelo/

  adding: modelo/ (stored 0%)
  adding: modelo/senter/ (stored 0%)
  adding: modelo/senter/cfg (stored 0%)
  adding: modelo/senter/model (deflated 10%)
  adding: modelo/config.cfg (deflated 74%)
  adding: modelo/ner/ (stored 0%)
  adding: modelo/ner/cfg (deflated 33%)
  adding: modelo/ner/moves (deflated 80%)
  adding: modelo/ner/model (deflated 7%)
  adding: modelo/vocab/ (stored 0%)
  adding: modelo/vocab/key2row (stored 0%)
  adding: modelo/vocab/vectors (deflated 45%)
  adding: modelo/vocab/strings.json (deflated 78%)
  adding: modelo/vocab/lookups.bin (stored 0%)
  adding: modelo/vocab/vectors.cfg (stored 0%)
  adding: modelo/attribute_ruler/ (stored 0%)
  adding: modelo/attribute_ruler/patterns (deflated 76%)
  adding: modelo/tokenizer (deflated 84%)
  adding: modelo/parser/ (stored 0%)
  adding: modelo/parser/cfg (deflated 32%)
  adding: modelo/parser/moves (deflated 52%)
  adding: modelo/parser/model (deflated 7%)
  adding: modelo/tok2vec/ (stored 0%)
  adding: modelo/tok2vec/c

### Carregando e testando o modelo

In [66]:
# !unzip modelo.zip

In [65]:
modelo_ner = spacy.load('modelo')

In [67]:
doc = modelo_ner('João nasceu no dia 10/04/2010 em Florianópolis')

In [68]:
for entidade in doc.ents:
    print(f"{entidade.text} → {entidade.label_}")

João → B-PESSOA
10/04/2010 → B-TEMPO
Florianópolis → B-LOCAL


In [69]:
displacy.render(doc, style='ent')

In [89]:
with open('20150110436469APC.txt', encoding='utf-8') as arquivo:
    texto = arquivo.read()

# texto = ftfy.fix_text(texto)

In [91]:
print(texto)

E M E N T A
Poder Judiciário da União
TRIBUNAL DE JUSTIÇA DO DISTRITO FEDERAL E TERRITÓRIOS Fls. _____
Órgão : 8ª TURMA CÍVEL
Classe : APELAÇÃO CÍVEL
N. Processo : 20150110436469APC
(0012843-03.2015.8.07.0001)
Apelante(s) : BRASILIA CURSOS E CONCURSOS LTDA
GRANCURSOS ESCOLA PARA
CONCURSOS PUBLICOS LTDA
Apelado(s) : ALISSON SILVA BATISTA DE MORAES
Relatora : Desembargadora NÍDIA CORRÊA LIMA
Acórdão N. : 1082726
CIVIL E PROCESSUAL CIVIL. AÇÃO MONITÓRIA. CITAÇÃO
REALIZADA APÓS O DECURSO DO PRAZO
PRESCRICIONAL. PRESCRIÇÃO DA PRETENSÃO
MONITÓRIA. RECONHECIMENTO. MANUTENÇÃO DA
SENTENÇA.
1. Nos termos da Súmula nº 503 do colendo Superior Tribunal
de Justiça, "O prazo para ajuizamento de ação monitória em
face do emitente de cheque sem força executiva é quinquenal,
a contar do dia seguinte à data de emissão estampada na
cártula".
2. Evidenciado que a citação somente foi aperfeiçoada após o
decurso do prazo prescricional, tem-se por correta a extinção
da demanda monitória, com resolução do méri

In [84]:
doc = modelo_ner(texto)

displacy.render(doc, style='ent')

### Para saber mais: exportação de modelo após o treinamento

A exportação de um modelo de machine learning após o treinamento é uma etapa essencial para garantir que ele possa ser utilizado fora do ambiente de desenvolvimento. Esse processo não apenas facilita a aplicação prática do modelo, mas também assegura a integridade e a replicabilidade dos resultados obtidos durante o treinamento.

#### Como funciona a exportação de modelos?

1. **Salvar o Modelo**: a função `to_disk()` é um método padrão em bibliotecas como SpaCy que permite salvar o modelo em um diretório específico. Isso não armazena apenas os pesos e as configurações do modelo, mas também sua arquitetura e metadados necessários para a reabilitação. Além disso, é recomendável incluir documentação sobre as versões de bibliotecas utilizadas e as configurações de treinamento.
2. **Carregando o Modelo**: o carregamento do modelo exportado em ambientes diferentes é feito utilizando bibliotecas específicas, como SpaCy. Com o comando `spacy.load()`, os desenvolvedores podem integrar o modelo rapidamente em suas aplicações, promovendo uma transição suave do ambiente de desenvolvimento para a produção. Além disso, ao carregar o modelo, é importante considerar a compatibilidade entre as versões das bibliotecas utilizadas durante o treinamento e o ambiente de produção.
3. **Testando a Integração**: após a exportação e o carregamento, realizar testes é fundamental parar garantir que o modelo funcione conforme esperado em novos dados. Testes devem incluir a avaliação do desempenho em um conjunto de dados de validação e a comparação com os resultados esperados. É recomendado também monitorar o desempenho do modelo em tempo real quando ele estiver em produção, para identificar possíveis desvios ou degradações na precisão com o passar do tempo.

Para mais informações sobre a exportação e o uso de modelos NLP, confira o seguinte link:

[Como salvar e carregar modelos no SpaCy](https://spacy.io/usage/saving-loading)

### Alterando a visualização das cores

Cores:
- Azul: #f0f8ff
- Vermelho: #fa8072
- Verde: #98fb98
- Roxo: #dda0dd
- Amarelo: #f0e68c
- Rosa: #ffb6c1
- Cinza: #d3d3d3

In [85]:
rotulos = list(modelo_ner.get_pipe('ner').labels)
rotulos

['B-JURISPRUDENCIA',
 'B-LEGISLACAO',
 'B-LOCAL',
 'B-ORGANIZACAO',
 'B-PESSOA',
 'B-TEMPO',
 'I-JURISPRUDENCIA',
 'I-LEGISLACAO',
 'I-LOCAL',
 'I-ORGANIZACAO',
 'I-PESSOA',
 'I-TEMPO',
 'LOC',
 'MISC',
 'ORG',
 'PER']

In [86]:
cores = {
    'B-JURISPRUDENCIA': '#f0f8ff',
    'B-LEGISLACAO': '#fa8072',
    'B-LOCAL': '#98fb98',
    'B-ORGANIZACAO': '#dda0dd',
    'B-PESSOA': '#f0e68c',
    'B-TEMPO': '#ffb6c1',
    'I-JURISPRUDENCIA': '#f0f8ff',
    'I-LEGISLACAO': '#fa8072',
    'I-LOCAL': '#98fb98',
    'I-ORGANIZACAO': '#dda0dd',
    'I-PESSOA': '#f0e68c',
    'I-TEMPO': '#ffb6c1',
    'LOC': '#d3d3d3',
    'MISC': '#d3d3d3',
    'ORG': '#d3d3d3',
    'PER': '#d3d3d3'
}

opcoes = {'ents': rotulos, 'colors': cores}
spacy.displacy.render(doc, style='ent', options=opcoes)

### Para saber mais: explorando os pipelines do SpaCy

O SpaCy oferece uma variedade de pipelines que permitem realizar diversas tarefas linguísticas. Apesar do reconhecimento de entidades nomeadas (NER) ser uma das funcionalidades mais conhecidas, o SpaCy também oferece outros pipelines poderosos que podem ser utilizados em diferentes aplicações. Vamos explorar alguns deles e ver suas principais características.

#### Tokenização

A tokenização é o processo de dividir um texto em suas partes constituintes, chamadas de tokens. O SpaCy fornece um tokenizador altamente eficiente que considera as regras de divisão de palavras, como pontuação e espaços. A tokenização é uma etapa fundamental em muitas tarefas de NLP, pois permite a análise detalhada de textos.

Exemplo de uso:
```
nlp = spacy.load('pt_core_news_sm')
doc = nlp(texto)
for token in doc:
    print(token.text)
```

#### Lematização

A lematização é o processo de reduzir uma palavra à sua forma base ou raiz. Por exemplo, as palavras "correr", "correndo", e "correu" podem ser reduzidas à forma base "correr". O SpaCy possui uma funcionalidade de lematização embutida que facilita a normalização de palavras, tornando-as mais uniformes para análise. Essa tarefa é útil para o processamento de texto para qualquer tipo de aplicação NLP.

Exemplo de uso:
```
nlp = spacy.load('pt_core_news_sm')
doc = nlp(texto)
for token in doc:
    print(token.text, token.lemma_)
```

#### Classificação de Texto

A classificação de texto é uma tarefa que envolve atribuir uma ou mais categorias a um texto com base em seu conteúdo. O SpaCy oferece suporte para criar e treinar modelos de classificação de texto personalizados. Isso é especialmente útil para categorizar documentos, como notícias, e-mails ou comentários em redes sociais.

Exemplo de uso:
```
from spacy.pipeline.textcat import Config

config = Config().from_str("""
[model]
@model = 'textcat'
""")
text_classifier = nlp.create_pipe('textcat', config=config)
text_classifier.add_label('Positivo')
text_classifier.add_label('Negativo')
nlp.add_pipe(text_classifier)
```

#### Análise Sintática (*Dependency Parsing*)

A análise sintática, ou *dependency parsing*, é uma tarefa que envolve a identificação das relações gramaticais entre as palavras de uma frase. O modelo de análise sintática do SpaCy utiliza um gráfico de dependências para representar a estrutura da frase, permitindo entender como as palavras se conectam entre si. Isso é útil em aplicações como:
- Extração de informações
- Análise de sentimentos
- Geração de linguagem natural

Exemplo de uso:
```
import spacy

nlp = spacy.load('pt_core_news_sm')
doc = nlp(texto)
for token in doc:
    print(token.text, token.dep_, token.head.text)
```

## 05. Criando uma aplicação

### Usando o Streamlit para reconhecer entidades

Vide `app.py`

### Para saber mais: simplificando a criação de aplicações com Streamlit

O **Streamlit** é uma biblioteca do Python que facilita a criação de aplicações web interativas para visualização de dados e machine learning. Seu principal atrativo é a simplicidade, permitindo a construção de interfaces gráficas usando apenas código Python, sem a necessidade de conhecimentos em front-end. Ele detecta automaticamente mudanças no código e atualiza a interface web em tempo real, o que facilita a experimentação e o desenvolvimento.

#### Principais Métodos Disponíveis no Streamlit

O Streamlit oferece uma variedade de métodos que facilitam a criação de aplicações interativas em Python. Abaixo estão listados alguns dos principais métodos disponíveis, com uma breve explicação e exemplos de suas funções.

- **Título**: exibe um título na aplicação. Função: `st.title('Título')`
- **Texto**: exibe um texto na interface. Função: `st.write('Texto exibido na aplicação')`
- **Botão**: permite confirmar alguma execução do aplicativo. Função: `st.button('Nome do Botão')`
- **Caixa de seleção**: exibe uam opção de marcer ou desmarcar, retornando o estado (marcado ou desmarcado). Função: `st.checkbox('Texto da Caixa de Seleção')`
- **Slider**: permite selecionar um valor numérico dentro de um intervalo definido. Função: `st.slider('Texto do Slider', valor_minimo, valor_maximo)`
- **Campo de texto**: possibilita a entrada de texto por parte do usuário. Função: `st.text_input('Texto de Entrada')`
- **Seleção de opções**: cria uma lista suspensa para o usuário escolher uma opção. Função: `st.selectbox('Texto da Seleção', ['Opção 1', 'Opção 2', 'Opção 3'])`
- **Multi-seleção**: permite que o usuário selecione múltiplas opções. Função: `st.multiselect('Texto da Multiseleção', ['Opção 1', 'Opção 2', 'Opção 3'])`
- **Imagem**: exibe uma imagem na interface. Função: `st.image('caminho/para/imagem.jpg')`
- **Gráfico de barras**: exibe um gráfico de barras a partir de um DataFrame ou array. Função: `st.bar_chart(dados)`
- **Arquivo para upload**: possibilita que o usuário carregue arquivos para a aplicação. Função: `st.file_uploader('Texto de Upload', type=['csv', 'txt', 'pdf'])`

#### Vantagens e Limitações

Vantagens:
- Facilide de uso: não requer habilidades em desevonvimento web.
- Rápida prototipagem: ideal para criar protótipos de visualização e dashboards interativos.
- Atualização em tempo real: a interface é atualizada automaticamente quando o código é modificado.
- Integração com bibliotecas populares: funciona bem com bibliotecas de machine learning e visualização de dados.

Limitações:
- Customização limitada: em comparação com frameworks tradicionais, como Flask ou Django, o Streamlit tem menos opções de personalização visual.
- Desempenho: aplicações muito complexas ou com muitos dados podem apresentar lentidão.

Para aprender maais sobre as funcionalidades do Streamlit, confira a [documentação da biblioteca](https://streamlit.io/).

## Para ir mais a fundo

[SpaCy, documentação oficial](https://spacy.io/usage)

[Artigo sobre reconhecimento de entidades nomeadas, Towards Data Science](https://towardsdatascience.com/how-to-create-a-custom-ner-in-spacy-3-5-c9942aab3c91)