# Exemplo 01 - NER com Spacy 

In [1]:
import spacy

#Carrega o modelo de português
nlp = spacy.load('pt_core_news_sm')

#Texto de exemplo 
texto = "Elon musk, CEO da Tesla, visitou o Brasil em 2022 para discutir investimentos de 5 bilhões."

#processa o texto 
doc = nlp(texto)

#imprime as entidades identificadas 
for entidade in doc.ents:
    print(f"{entidade.text} - {entidade.label_}")


Elon - PER
Tesla - ORG
Brasil - LOC


# Exemplo 02 - NER com NLTK

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk

#baixar os pacotes necessários
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger_eng')
nltk.download('maxent_ne_chunker_tab')
nltk.download('words')

#texto de exemplo 
texto ="Barack Obama foi presidente dos Estados Unidos e ganhou o prêmio nobel da paz."

#tokenização e POS tagging 
tokens = word_tokenize(texto)
tags = pos_tag(tokens)

#identificação da entidades 
entidades = ne_chunk(tags)

# exibir as entidades reconhecidas 
print(entidade)


[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\rfs_e\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\rfs_e\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     C:\Users\rfs_e\AppData\Roaming\nltk_data...
[nltk_data]   Package maxent_ne_chunker_tab is already up-to-date!
[nltk_data] Downloading package words to
[nltk_data]     C:\Users\rfs_e\AppData\Roaming\nltk_data...
[nltk_data]   Package words is already up-to-date!


Brasil


# Exemplo 03 - Extração de informações com Expressões regulares 

In [2]:
import re 

texto = "O pagamento deve ser feito até 30 de junho de 2025."

# Expressão regular para encontrar datas 
padrao = r"\d{1,2} de [a-zA-Z]+ de \d{4}"
datas = re.findall(padrao, texto)

print(datas)

['30 de junho de 2025']


# Exempo 04 - Extração de informações com regras heurist´cas e dicionários 

In [14]:
profissoes = ["engenheiro","cientista de dados", "médico", "advogado"]

texto = "O joão e engenheiro de software e trabalha na Tesla e Maoel é médico"

for profissao in profissoes:
    if profissao in texto:
        print(f"profissão identificada: {profissao}")


profissão identificada: engenheiro
profissão identificada: médico


# Exemplo 05 - Mineração de textos com frequência de palavras e N-gramas 

In [16]:
import nltk
from nltk.util import ngrams
from collections import Counter

texto= "Mineração de textos envolve análise de palavras, palavras importantes e padrões."
palavras = nltk.word_tokenize(texto)

frequencia = Counter(palavras)
print(frequencia.most_common(5)) # top 5 palavras mais frequentes

bigrams = list(ngrams(palavras,2))
print(bigrams) # bigramas


[('de', 2), ('palavras', 2), ('Mineração', 1), ('textos', 1), ('envolve', 1)]
[('Mineração', 'de'), ('de', 'textos'), ('textos', 'envolve'), ('envolve', 'análise'), ('análise', 'de'), ('de', 'palavras'), ('palavras', ','), (',', 'palavras'), ('palavras', 'importantes'), ('importantes', 'e'), ('e', 'padrões'), ('padrões', '.')]


# Exemplo 06 - Mineração de texto 

In [3]:
from gensim import corpora, models

#texto de exemplo 
documentos = [ ["mineração","textos","dados"],
["inteligência","artificial","aprendzado"],
["dados","aprendizado","estatística"]]

#criar dicionário e corpus 
dicionario = corpora.Dictionary(documentos)
corpus = [dicionario.doc2bow(doc) for doc in documentos]

#aplicar LDA
lda_modelo = models.LdaModel(corpus=corpus, id2word=dicionario, num_topics = 2)
print(lda_modelo.print_topics())

[(0, '0.172*"artificial" + 0.167*"inteligência" + 0.163*"aprendzado" + 0.119*"dados" + 0.104*"estatística" + 0.101*"aprendizado" + 0.089*"mineração" + 0.085*"textos"'), (1, '0.222*"dados" + 0.144*"textos" + 0.140*"mineração" + 0.131*"aprendizado" + 0.128*"estatística" + 0.081*"aprendzado" + 0.078*"inteligência" + 0.074*"artificial"')]


In [None]:
import nltk 
from nltk.corpus import machado 

nltk.download('machado')


import zipfile 

caminho_do_zip = '.......'
arquivo_zip = zipfile.ZipFile(caminho_do_zip,'r')
arquivo_zip = printdir()

#extrair o conteudo para poder analisar 
import os 

pasta_destino = '....'
os.makedir(pasta_destino, exist_ok = True)
arquivo_zip.extractall(pasta_destino)

print(f"Arquivo {caminho_do_zip} extraído com sucesso na pasta {pasta_destino}")

# Passo 2 - etiquetação morfológica (POS Tagging)

In [None]:
nlp = spacy.load('pt_core_news_md')

doc = nlp("Vamos estudar processamento de linguagem natural")

etiq = [(x.orth_,x.pos_) for x in doc]
print(etiq)

#funcão dos arquivos para serem utilizados 
from funcoes import ler 

#obtenção dos caminhos das obras
obra = []
for i in range(1,6)
	obras.append('....'+ str(1) + '.txt')

for i in range(1,6)
	obras.append('....'+ str(1) + '.txt')
obras

import statistic as stat

cont_adv = []

for obra in obras:
	print(obra)
	s = ler(obra)
	
	doc = nlp(s)
	etiq = [(x.orth_,x.pos_) for x in doc]
	adv = [(ort,pos) for (ort,pos) in etiq if pos == "ADV"]
	cont_adv.append(len(adv)/len(etiq))

rom_m = stat.mean(cont_adv[:4])
rom_dp = stat.stdev(cont_adv[:4])
cron_m = stat.mean(cont_adv[5:])
nron_dp = stat.stdev(cont_adv[5:])

## Geração do gráfico para demonstração dos resultados 


In [None]:
import matplotlib.pyplot as plt 

tipo_obra = ["Romance","Cronicas"]
x = [0,1]
y = [rom_m,con_m]
dp = [rom_dp,cron_dp]

plt.bar(x,y,yerr = dp)
plt.xticks(x, tipo_obra)
plt.ylabel('Percentual médio do advérbio')
plt.title('avérbios de obras de mMachado de Assis')

plt.show()