# Aula 07 - Descoberta de conhecimento

## Exemplo 01. NER com spaCy

In [None]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m58.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

nlp = spacy.load("pt_core_news_sm")

texto = "Steve Jobs, CEO da Apple, visitou o Brasil em maio de 2009 para discutir investimentos de R$ 5 bilhoes."

doc = nlp(texto)

for entidade in doc.ents:
  print(f"{entidade.text} - {entidade.label_}")

Steve Jobs - PER
Apple - ORG
Brasil - LOC
R$ - MISC


## Exemplo 02. NER com NLTK

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk

#nltk.download('punkt_tab')
#nltk.download('maxent_ne_chunker_tab')
#nltk.download('words')
#nltk.download('averaged_perceptron_tagger_eng')

texto = "Barack Obama foi presidente dos Estados Unidos e ganhou o Premio Nobel da Paz."

# Tokenizaçao e POS tagging
tokens = word_tokenize(texto)
tags = pos_tag(tokens)

# Identificaçao de entidades
entidades = ne_chunk(tags)

print(entidades)

(S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  presidente/NN
  dos/NN
  (PERSON Estados/NNP Unidos/NNP)
  e/NN
  ganhou/NN
  o/NN
  Premio/NNP
  Nobel/NNP
  da/NN
  Paz/NNP
  ./.)


## Exemplo 03. Extração de informações com expressões regulares

In [None]:
import re

texto = "O pagamento deve ser feito ate 30 de junho de 2025."

padrao = r"\d{1,2} de [a-zA-Z]+ de \d{4}"
datas = re.findall(padrao, texto)

print(datas)

['30 de junho de 2025']


## Exemplo 04. Extração de informação com regras heurísticas e dicionários

In [None]:
profissoes = ["engenheiro", "cientista de dados", "medico", "advogado"]

texto = "Joao e engenheiro de software e trabalha no Google."

for profissao in profissoes:
  if profissao in texto:
    print(f"Profissao identificada: {profissao}")

Profissao identificada: engenheiro


## Exemplo 05. Mineração de textos com frequência de palavras e N-gramas

In [None]:
import nltk
from nltk.util import ngrams
from collections import Counter

texto = "Mineracao de textos envolve analise de palavras, palavras importantes e padroes."
palavras = nltk.word_tokenize(texto.lower())

frequencia = Counter (palavras)
print(frequencia.most_common(5))

bigrams = list(ngrams(palavras, 2))
print(bigrams)

[('de', 2), ('palavras', 2), ('mineracao', 1), ('textos', 1), ('envolve', 1)]
[('mineracao', 'de'), ('de', 'textos'), ('textos', 'envolve'), ('envolve', 'analise'), ('analise', 'de'), ('de', 'palavras'), ('palavras', ','), (',', 'palavras'), ('palavras', 'importantes'), ('importantes', 'e'), ('e', 'padroes'), ('padroes', '.')]


## Exemplo 06. Mineração de texto

In [None]:
#!pip install gensim
!pip install --force-reinstall gensim

Collecting gensim
  Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
Collecting smart-open>=1.8.1 (from gensim)
  Using cached smart_open-7.1.0-py3-none-any.whl.metadata (24 kB)
Collecting wrapt (from smart-open>=1.8.1->gensim)
  Using cached wrapt-1.17.2-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.4 kB)
Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (

In [None]:
from gensim import corpora, models

documentos = [["mineração", "textos", "dados"],
["inteligência", "artificial", "aprendizado"],
["dados", "aprendizado", "estatistica"]]

dicionario = corpora.Dictionary(documentos)
corpus = [dicionario.doc2bow(texto) for texto in documentos]

lda_modelo = models.LdaModel(corpus, num_topics=2, id2word=dicionario)
print(lda_modelo.print_topics())



[(0, '0.217*"dados" + 0.163*"mineração" + 0.162*"textos" + 0.128*"estatistica" + 0.118*"aprendizado" + 0.107*"artificial" + 0.105*"inteligência"'), (1, '0.244*"aprendizado" + 0.163*"dados" + 0.141*"inteligência" + 0.139*"artificial" + 0.123*"estatistica" + 0.095*"textos" + 0.095*"mineração"')]
