<a href="https://colab.research.google.com/github/gucardos/PLN_6sem/blob/main/Aula07_PLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#<b>Aula 07 </b>- Descoberta de conhecimento em textos
* ### Compreender os conceitos de Descoberta de conhecimento em Textos (Knowledge Discovery in Texts - KDT)
* ### Aplicar técnicas de Identificação de Entidades Nomeadas (NER) para extrair informações relevantes de textos.
* ### Explorar métodos de extração de informações e mineração de textos para obter insights valiosos de grandes volumes de dados textuais

## Exemplo 01 - NER com spacy

In [None]:
!pip install spacy
!python -m spacy download pt_core_news_lg

Collecting pt-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.8.0/pt_core_news_lg-3.8.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

# Carrega o modelo de Português
nlp = spacy.load("pt_core_news_lg")

# Texto de Exemplo
texto = "Elon Musk, CEO da Tesla, visitou o Brasil em maio de 2022 para discutir investimentos de R$ 5 bilhões."

# Processa o texto
doc = nlp(texto)

# Imprime as entidades identificadas
for entidade in doc.ents:
    print(f"Entidade: {entidade.text}, Tipo: {entidade.label_}")


Entidade: Elon Musk, Tipo: PER
Entidade: CEO da Tesla, Tipo: PER
Entidade: Brasil, Tipo: LOC


## Exemplo 02 - NER com NLTK

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk

# Baixar pacotes necessários
nltk.download('punkt_tab')
nltk.download('maxent_ne_chunker_tab')
nltk.download('words')
nltk.download('averaged_perceptron_tagger_eng')

# Texto de Exemplo
texto = "Barack Obama foi o presidente dos Estados Unidos e ganhou o Prêmio Nobel da Paz"

# Tokenização e POS tagging
tokens = word_tokenize(texto)
print(tokens)
tags = pos_tag(tokens)
print(tags)

# Identificação de entidades
entidades = ne_chunk(tags)

# Exibir as entidades reconhecidas
print(entidades)

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker_tab is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


['Barack', 'Obama', 'foi', 'o', 'presidente', 'dos', 'Estados', 'Unidos', 'e', 'ganhou', 'o', 'Prêmio', 'Nobel', 'da', 'Paz']
[('Barack', 'NNP'), ('Obama', 'NNP'), ('foi', 'NN'), ('o', 'NN'), ('presidente', 'NN'), ('dos', 'NN'), ('Estados', 'NNP'), ('Unidos', 'NNP'), ('e', 'NN'), ('ganhou', 'NN'), ('o', 'NN'), ('Prêmio', 'NNP'), ('Nobel', 'NNP'), ('da', 'NN'), ('Paz', 'NN')]
(S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  o/NN
  presidente/NN
  dos/NN
  (PERSON Estados/NNP Unidos/NNP)
  e/NN
  ganhou/NN
  o/NN
  (PERSON Prêmio/NNP Nobel/NNP)
  da/NN
  Paz/NN)


## Exemplo 03 - Extração de Informações com Expressões Regulares

In [None]:
import re

texto = "O pagamento deve ser feito até 30 de janeiro de 2025. O corinthians foi campeão paulista no dia 27 de marco de 2025 ."
print(texto)

# Expressão Regular para encontrar datas
padrao = r"\d{1,2} de [a-zA-Z]+ de \d{4}"
datas = re.findall(padrao, texto)

print(datas)

O pagamento deve ser feito até 30 de janeiro de 2025. O corinthians foi campeão paulista no dia 27 de marco de 2025 .
['30 de janeiro de 2025', '27 de marco de 2025']


## Exemplo 04 - Extração de informação com Regras heurísticas e Dicionários

In [None]:
profissoes = ["engenheiro","cientista de dados", "médico", "advogado", "docente"]

texto = "João é engenheiro de software e trabalha na Tesla. Rodolfo é docente e trabalha na Fatec."

for profissao in profissoes:
  if profissao in texto:
    print(f"Profissão encontrada: {profissao}")

Profissão encontrada: engenheiro
Profissão encontrada: docente


## Exemplo 05 - Mineração de Textos com frequência de Palavras e N-gramas

In [None]:
import nltk
from nltk.util import ngrams
from collections import Counter

texto = "Mineração de textos envolve análise de palavras, palavras importantes e padrões."
palavras = nltk.word_tokenize(texto.lower())

frequencia = Counter(palavras)
print(frequencia.most_common(5)) # Top 5 palavras mais frequentes

bigrams = list(ngrams(palavras, 2))
print(bigrams)

[('de', 2), ('palavras', 2), ('mineração', 1), ('textos', 1), ('envolve', 1)]
[('mineração', 'de'), ('de', 'textos'), ('textos', 'envolve'), ('envolve', 'análise'), ('análise', 'de'), ('de', 'palavras'), ('palavras', ','), (',', 'palavras'), ('palavras', 'importantes'), ('importantes', 'e'), ('e', 'padrões'), ('padrões', '.')]


## Exemplo 06 - Mineração de Texto

In [None]:
#!pip install gensim
!pip install --force-reinstall gensim

Collecting gensim
  Downloading gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.6/60.6 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting smart-open>=1.8.1 (from gensim)
  Downloading smart_open-7.1.0-py3-none-any.whl.metadata (24 kB)
Collecting wrapt (from smart-open>=1.8.1->gensim)
  Downloading wrapt-1.17.2-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.4 kB)
Downloading gensim-4.3.3-cp31

In [None]:
from gensim import corpora, models

# Texto de exemplo
documentos = [["mineração", "textos",  "dados"],
              ["inteligência", "artificial", "aprendizado"],
              ["dados", "aprendizado", "estatística"]]

# Criar dicionário e corpus
dicionario = corpora.Dictionary(documentos)
corpus = [dicionario.doc2bow(texto) for texto in documentos]

# Aplicar LDA
lda_modelo = models.LdaModel(corpus, num_topics=2, id2word=dicionario)
print(lda_modelo.print_topics())



[(0, '0.220*"dados" + 0.196*"aprendizado" + 0.150*"estatística" + 0.117*"textos" + 0.112*"mineração" + 0.110*"artificial" + 0.095*"inteligência"'), (1, '0.177*"aprendizado" + 0.161*"inteligência" + 0.148*"dados" + 0.143*"artificial" + 0.141*"mineração" + 0.134*"textos" + 0.095*"estatística"')]
