<a href="https://colab.research.google.com/github/Thayane25/PLN/blob/main/Aula_07_Descobertas_de_Conhecimentos_em_Textos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Aula 7 - Descoberta de Conhecimento em textos
###O objetivo é entender os conceitos de Descoberta de Conhecimento em Textos  e aplicar técnicas como a Identificação de Entidades Nomeadas para extrair informações relevantes. Além disso, busca-se explorar métodos de extração de informações e mineração de textos para gerar insights a partir de grandes volumes de dados textuais.

Exemplo 1 - NER com Spacy

In [1]:
# Instala a biblioteca spaCy, que é usada para Processamento de Linguagem Natural (NLP)
!pip install spacy

# Baixa o modelo pequeno (sm - small) de português para o spaCy
# Esse modelo é mais leve e rápido, ideal para tarefas simples
!python -m spacy download pt_core_news_sm

# Baixa o modelo médio (md - medium) de português
# Ele oferece um equilíbrio entre velocidade e precisão
!python -m spacy download pt_core_news_md

# Baixa o modelo grande (lg - large) de português
# Esse modelo é mais completo e preciso, mas ocupa mais memória
!python -m spacy download pt_core_news_lg


Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m52.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
Collecting pt-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_md-3.8.0/pt_core_news_md-3.8.0-py3-none-any.whl (42.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m 

In [2]:
import spacy

# Carrega o modelo em PT
nlp = spacy.load("pt_core_news_lg")

#Texto de exemplo
texto = "Elon Musk, CEO da Tesla, visitou o Brasil em maio de 2022 para discutir investimentos em R$ 5 bilhões."

#Processa o texto
doc = nlp(texto)

#Imprime as entidades identificadas
for entidade in doc.ents:
  print(f"{entidade.text} - {entidade.label_}")

Elon Musk - PER
CEO da Tesla - PER
Brasil - LOC


Exemplo 02 - NER com NLTK

In [3]:
import nltk
from nltk.tokenize import word_tokenize
from nltk import pos_tag
from nltk.chunk import ne_chunk

#Baixa pacotes necessários
nltk.download('punkt_tab')
nltk.download('maxent_ne_chunker_tab')
nltk.download('words')
nltk.download('averaged_perceptron_tagger_eng')

#Texto de exemplo
texto = "Barack Obama foi o presidente dos Estados Unidos e ganhou o Premio Nobel da Paz."

#Tokenização e POS Tagging
tokens = word_tokenize(texto)
print(tokens)
tags = pos_tag(tokens)
print(tags)

#Identificaçãp de entidades
entidades = ne_chunk(tags)

#Exibir as entidades reconhecidas

print(entidades)

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker_tab.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


['Barack', 'Obama', 'foi', 'o', 'presidente', 'dos', 'Estados', 'Unidos', 'e', 'ganhou', 'o', 'Premio', 'Nobel', 'da', 'Paz', '.']
[('Barack', 'NNP'), ('Obama', 'NNP'), ('foi', 'NN'), ('o', 'NN'), ('presidente', 'NN'), ('dos', 'NN'), ('Estados', 'NNP'), ('Unidos', 'NNP'), ('e', 'NN'), ('ganhou', 'NN'), ('o', 'NN'), ('Premio', 'NNP'), ('Nobel', 'NNP'), ('da', 'NN'), ('Paz', 'NNP'), ('.', '.')]
(S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  o/NN
  presidente/NN
  dos/NN
  (PERSON Estados/NNP Unidos/NNP)
  e/NN
  ganhou/NN
  o/NN
  Premio/NNP
  Nobel/NNP
  da/NN
  Paz/NNP
  ./.)


Exemplo 03 - Extração de Informações com Expressões Regulares

In [4]:
# Importa a biblioteca 're', que serve para trabalhar com expressões regulares em Python
import re

# Texto de exemplo
texto = "O pagamento deve ser feito até 25 de maio de 2025."

padrao = r"\d{1,2} de [a-zA-Z]+ de \d{4}"

# Usa a função 'findall' para buscar todas as ocorrências no texto que seguem o padrão definido
datas = re.findall(padrao, texto)

# Imprime a lista de datas encontradas (nesse caso, só uma)
print(datas)


['25 de maio de 2025']


Exemplo 04 - Extração de informação com Regras herísticas e Dicionários

In [5]:
# Lista com algumas profissões para serem buscadas no texto
profissoes = ["engenheiro", "cientista de dados", "médico", "advogado"]

# Texto de exemplo
texto = "Pedro é engenheiro de software e trabalha no Google."

# Percorre cada profissão da lista
for profissao in profissoes:
    # Verifica se a profissão atual está presente dentro do texto
    if profissao in texto:
        # Se encontrar, imprime a profissão detectada
        print(f"Profissão encontrada: {profissao}")


Profissão encontrada: engenheiro


Exemplo 05 - Mineração de textos com frequência de palavras e N-gramas

In [6]:
import nltk
from nltk.util import ngrams
from collections import Counter

texto = "O bobo é capaz de ficar sentado, quase sem se mexer por duas horas. Se perguntando por que não faz alguma coisa, responde: Estou fazendo. Estou pensando."
palavras = nltk.word_tokenize(texto.lower())

frequencia = Counter(palavras)
print(frequencia.most_common(5))

bigramas = list(ngrams(palavras, 2))
print(bigramas)

[('.', 3), (',', 2), ('se', 2), ('por', 2), ('estou', 2)]
[('o', 'bobo'), ('bobo', 'é'), ('é', 'capaz'), ('capaz', 'de'), ('de', 'ficar'), ('ficar', 'sentado'), ('sentado', ','), (',', 'quase'), ('quase', 'sem'), ('sem', 'se'), ('se', 'mexer'), ('mexer', 'por'), ('por', 'duas'), ('duas', 'horas'), ('horas', '.'), ('.', 'se'), ('se', 'perguntando'), ('perguntando', 'por'), ('por', 'que'), ('que', 'não'), ('não', 'faz'), ('faz', 'alguma'), ('alguma', 'coisa'), ('coisa', ','), (',', 'responde'), ('responde', ':'), (':', 'estou'), ('estou', 'fazendo'), ('fazendo', '.'), ('.', 'estou'), ('estou', 'pensando'), ('pensando', '.')]


Exemplo 06 - Mineração de texto

In [10]:
!pip install --force-reinstall gensim


Collecting gensim
  Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
Collecting smart-open>=1.8.1 (from gensim)
  Using cached smart_open-7.1.0-py3-none-any.whl.metadata (24 kB)
Collecting wrapt (from smart-open>=1.8.1->gensim)
  Using cached wrapt-1.17.2-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.4 kB)
Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (

In [1]:
from gensim import corpora, models

documentos = [["mineração", "textos", "dados"],
              ["inteligência", "artificial", "aprendizado"],
              ["dados", "aprendizado", "máquina"]]

dicionario = corpora.Dictionary(documentos)
corpus = [dicionario.doc2bow(documento) for documento in documentos]

lda_modelo = models.LdaModel(corpus, num_topics=4, id2word=dicionario)

print(lda_modelo.print_topics())



[(0, '0.262*"aprendizado" + 0.259*"artificial" + 0.259*"inteligência" + 0.057*"dados" + 0.055*"máquina" + 0.055*"mineração" + 0.055*"textos"'), (1, '0.146*"aprendizado" + 0.145*"dados" + 0.142*"mineração" + 0.142*"máquina" + 0.141*"artificial" + 0.141*"textos" + 0.141*"inteligência"'), (2, '0.148*"inteligência" + 0.146*"dados" + 0.145*"aprendizado" + 0.144*"artificial" + 0.139*"textos" + 0.139*"mineração" + 0.139*"máquina"'), (3, '0.288*"dados" + 0.162*"aprendizado" + 0.161*"textos" + 0.161*"máquina" + 0.161*"mineração" + 0.034*"artificial" + 0.033*"inteligência"')]
