# Exemplo 01 - NER com spaCy

In [2]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m48.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [3]:
import spacy

# Carregando o modelo em português
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo
texto = "Elon Musk, CEO da Tesla, visitou o Brasil em maio de 2022 para discutir investimentos de R$ 5 bilhões."

# Processando o texto
doc = nlp(texto)

# Imprimindo as entidades identificadas
for entidade in doc.ents:
    print(f"{entidade.text} - {entidade.label_}")

Elon Musk - LOC
Tesla - ORG
Brasil - LOC
R$ - MISC


# Exemplo 02 - NER com NLTK

In [7]:
# Importando as bibliotecas necessárias para o reconhecimento de entidades nomeadas (NER)
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk

# Baixando os pacotes necessários do NLTK
nltk.download('punkt_tab')  # Tokenização
nltk.download('maxent_ne_chunker_tab')  # Modelo para reconhecimento de entidades
nltk.download('words')  # Dicionário de palavras
nltk.download('averaged_perceptron_tagger_eng')  # Etiquetador de POS

# Texto para análise de exemplo
texto = "Barack Obama foi presidente dos Estados Unidos e ganhou o Prêmio Nobel da Paz."

# Tokenizando o texto e identificando os rótulos de partes do discurso (POS)
tokens = word_tokenize(texto)  # Dividir o texto em palavras
tags = pos_tag(tokens)  # Identificar os rótulos POS

# Identificando as entidades nomeadas no texto
entidades = ne_chunk(tags)  # Classificar e rotular entidades nomeadas

# Exibindo as entidades reconhecidas
print(entidades)

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker_tab.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


(S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  presidente/NN
  dos/NN
  (PERSON Estados/NNP Unidos/NNP)
  e/NN
  ganhou/NN
  o/NN
  (PERSON Prêmio/NNP Nobel/NNP)
  da/NN
  Paz/NNP
  ./.)


# Exemplo 03 - Extração de Informações com Expressões Regulares

In [8]:
# Importando a biblioteca de expressões regulares
import re

# Texto de exemplo contendo uma data
texto = "O pagamento deve ser feito até 30 de junho de 2025."

# Criando uma expressão regular para identificar datas no formato específico
padrao = r"\d{1,2} de [a-zA-Z]+ de \d{4}"
datas = re.findall(padrao, texto)

# Imprimindo a(s) data(s) identificada(s)
print(datas)

['30 de junho de 2025']


# Exemplo 04 - Extração de Informações com Regras heurísticas e Dicionários

In [9]:
# Criando uma lista com possíveis profissões
profissoes = ["engenheiro", "cientista de dados", "médico", "advogado"]

# Texto de exemplo contendo informações sobre a profissão de uma pessoa
texto = "João é engenheiro de software e trabalha na Tesla."

# Verificando se alguma das profissões listadas está presente no texto
for profissao in profissoes:
    if profissao in texto:
        print(f"Profissão identificada: {profissao}")

# Exemplo de saída esperada:
# Profissão identificada: engenheiro

Profissão identificada: engenheiro


# Exemplo 05 - Mineração de Textos com Frequência de Palavras e N-gramas

In [10]:
# Importando a biblioteca necessária
import nltk
from nltk.util import ngrams
from collections import Counter

# Texto de exemplo para análise
texto = "Mineração de textos envolve análise de palavras, palavras importantes e padrões."

# Tokenizando o texto (transformando em palavras e padronizando para letras minúsculas)
palavras = nltk.word_tokenize(texto.lower())

# Calculando as palavras mais frequentes
frequencia = Counter(palavras)
print(frequencia.most_common(5))  # Mostrando as 5 palavras mais frequentes

# Gerando bigramas (duplas de palavras consecutivas)
bigrams = list(ngrams(palavras, 2))
print(bigrams)  # Exibindo os bigramas gerados

[('de', 2), ('palavras', 2), ('mineração', 1), ('textos', 1), ('envolve', 1)]
[('mineração', 'de'), ('de', 'textos'), ('textos', 'envolve'), ('envolve', 'análise'), ('análise', 'de'), ('de', 'palavras'), ('palavras', ','), (',', 'palavras'), ('palavras', 'importantes'), ('importantes', 'e'), ('e', 'padrões'), ('padrões', '.')]


# Exemplo 6 - Mineração de Texto

In [13]:
# Instalando o Gensim
!pip install --upgrade --force-reinstall numpy
!pip install --upgrade --force-reinstall gensim


Collecting numpy
  Downloading numpy-2.2.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (62 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/62.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.0/62.0 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-2.2.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.4/16.4 MB[0m [31m75.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: numpy
  Attempting uninstall: numpy
    Found existing installation: numpy 1.26.4
    Uninstalling numpy-1.26.4:
      Successfully uninstalled numpy-1.26.4
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
gensim 4.3.3 requires numpy<2.0,>=1.18.5, but you have 

In [1]:
# Importando os módulos necessários do Gensim
from gensim import corpora, models

# Dados de exemplo para análise de documentos
documentos = [["mineração", "textos", "dados"],
              ["inteligência", "artificial", "aprendizado"],
              ["dados", "aprendizado", "estatística"]]

# Criando o dicionário e o corpus para modelagem
dicionario = corpora.Dictionary(documentos)
corpus = [dicionario.doc2bow(texto) for texto in documentos]

# Aplicando o modelo LDA (Latent Dirichlet Allocation)
lda_modelo = models.LdaModel(corpus, num_topics=2, id2word=dicionario)
print(lda_modelo.print_topics())

# Observação: Pode ser necessário aumentar o número de iterações para melhorar a convergência



[(0, '0.210*"dados" + 0.180*"mineração" + 0.180*"textos" + 0.142*"aprendizado" + 0.100*"inteligência" + 0.098*"estatística" + 0.092*"artificial"'), (1, '0.228*"aprendizado" + 0.168*"dados" + 0.154*"artificial" + 0.149*"estatística" + 0.147*"inteligência" + 0.077*"textos" + 0.077*"mineração"')]
