# **Aula 07** - Descoberta de Conhecimentos em Textos.

### Exemplo 01 - NER com SpaCy

In [None]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m47.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

nlp = spacy.load("pt_core_news_sm")

texto = "Elon Musk, CEO da Tesla, visitou o Brasil em maio de 2022 para discutir investimentos de R$ 5 bilhões."

doc = nlp(texto)

for entidade in doc.ents:
  print(f"{entidade.text} - {entidade.label_}")

Elon Musk - LOC
Tesla - ORG
Brasil - LOC
R$ - MISC


### Exemplo 02 - NER com NLTK

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk

nltk.download('punkt_tab')
nltk.download('maxent_ne_chunker_tab')
nltk.download('words')
nltk.download('averaged_perceptron_tagger_eng')

texto = "Barack Obama foi presidente dos Estados Unidos e ganhou o prêmio Nobel da Paz"

tokens = word_tokenize(texto)
tags = pos_tag(tokens)

entidades  = ne_chunk(tags)

print(entidades)

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker_tab.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


(S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  presidente/NN
  dos/NN
  (PERSON Estados/NNP Unidos/NNP)
  e/NN
  ganhou/NN
  o/NN
  prêmio/NN
  Nobel/NNP
  da/NN
  Paz/NN)


### Exemplo 03 - Extração de Informações com Expressões Regulares

In [None]:
import re

texto = "O pagamento deve ser realizado até 30 de junho de 2025"

padrao = r"\d{1,2} de [a-zA-Z]+ de \d{4}"
datas = re.findall(padrao, texto)

print(datas)

['30 de junho de 2025']


### Exemplo 04 - Extração de informações com Regras heurísticas e Dicionários

In [None]:
profissoes = ["engenheiro", "cientista de dados", "médico", "advogado"]

texto = "João é engenheiro de software e trablaha na Tesla."

for profissao in profissoes:
  if profissao in texto:
    print(f"Profissão identificada: {profissao}")

Profissão identificada: engenheiro


### Exemplo 05 - Mineração de Textos com Frequência de Palavras e N-gramas

In [None]:
import nltk
from nltk.util import ngrams
from collections import Counter

texto = "Mineração de Texto envolve análise de palavras, palavras importantes e padrões."
palavras = nltk.word_tokenize(texto.lower())

frequencia = Counter(palavras)
print(frequencia.most_common(5))

bigrams = list(ngrams(palavras, 2))
print(bigrams)

[('de', 2), ('palavras', 2), ('mineração', 1), ('texto', 1), ('envolve', 1)]
[('mineração', 'de'), ('de', 'texto'), ('texto', 'envolve'), ('envolve', 'análise'), ('análise', 'de'), ('de', 'palavras'), ('palavras', ','), (',', 'palavras'), ('palavras', 'importantes'), ('importantes', 'e'), ('e', 'padrões'), ('padrões', '.')]


### Exemplo 06 - Mineração de Texto

In [None]:
#!pip install gensim
!pip install --force-reinstall gensim

Collecting gensim
  Downloading gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.6/60.6 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting smart-open>=1.8.1 (from gensim)
  Downloading smart_open-7.1.0-py3-none-any.whl.metadata (24 kB)
Collecting wrapt (from smart-open>=1.8.1->gensim)
  Downloading wrapt-1.17.2-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.4 kB)
Downloading gensim-4.3.3-cp31

In [None]:
from gensim import corpora, models

documentos = [["mineração", "textos", "dados"],
              ["inteligência", "artificial", "aprendizado"],
              ["dados", "aprendizado", "estatística"]]

dicionario = corpora.Dictionary(documentos)
corpus = [dicionario.doc2bow(texto) for texto in documentos]

lda_modelo = models.LdaModel(corpus, num_topics=2, id2word=dicionario)
print(lda_modelo.print_topics())



[(0, '0.235*"aprendizado" + 0.168*"artificial" + 0.166*"inteligência" + 0.128*"dados" + 0.112*"estatística" + 0.098*"textos" + 0.092*"mineração"'), (1, '0.245*"dados" + 0.157*"mineração" + 0.152*"textos" + 0.141*"aprendizado" + 0.138*"estatística" + 0.085*"inteligência" + 0.083*"artificial"')]
