<a href="https://colab.research.google.com/github/MonRaes/Processamento-de-Linguagem-Natural/blob/main/Aula_7_DestrinchamentoTextos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Aula 07** - Análise Quantitativa de Corpus
- Apresentar noções básicas sobre o que é e como se usa um corpus de dados linguísticos
- Criar estruturas simples para limpeza e análise de corpora
- Usar técnicas de mineração de dados e extração da informação, como cálculos de relevância de palavras
- Além de implementar esses métodos em Python, levantar elementos que permitam discutir criticamente os resultados obtidos

In [2]:
import nltk
from nltk.corpus import machado
nltk.download('machado')

[nltk_data] Downloading package machado to /root/nltk_data...


True

In [3]:
import zipfile
caminho_zip = '/root/nltk_data/corpora/machado.zip'

arquivo_zip = zipfile.ZipFile(caminho_zip,'r')

arquivo_zip.printdir()

File Name                                             Modified             Size
machado/                                       2009-11-07 17:15:34            0
machado/CONTENTS                               2009-11-07 17:01:42         7414
machado/contos/                                2009-11-07 00:29:12            0
machado/contos/macn001.txt                     2009-11-07 00:27:08       325777
machado/contos/macn002.txt                     2009-11-07 00:27:08       263696
machado/contos/macn003.txt                     2009-11-07 00:27:10       319473
machado/contos/macn004.txt                     2009-11-07 00:27:10       294593
machado/contos/macn005.txt                     2009-11-07 00:27:10       253555
machado/contos/macn006.txt                     2009-11-07 00:27:10       130664
machado/contos/macn007.txt                     2009-11-07 00:27:12       169880
machado/contos/macn008.txt                     2009-11-07 00:27:12         3936
machado/contos/macn009.txt              

In [4]:
import os
pasta_destino = '/root/nltk_data/corpora/'

os.makedirs(pasta_destino,exist_ok=True)

arquivo_zip.extractall(pasta_destino)

print(f"Arquivo {caminho_zip} extraído com sucesso na pasta {pasta_destino}.")

Arquivo /root/nltk_data/corpora/machado.zip extraído com sucesso na pasta /root/nltk_data/corpora/.


### Exemplo 01 - NER com Spacy

In [5]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Collecting numpy>=1.19.0 (from spacy)
  Downloading numpy-2.2.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.0/62.0 kB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
Downloading numpy-2.2.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.4/16.4 MB[0m [31m78.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: numpy
  Attempting uninstall: numpy
    Found existing installation: numpy 1.26.4
    Uninstalling numpy-1.26.4:
      Successfully uninstalled numpy-1.26.4
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
gensim 4.3.3 requires numpy<2.0,>=1.18.5, but you have numpy 2.2.4 which is incompatible.
tensorflow 2.18.0 requires numpy<2.1.0,>=1.26.0, but you have nu

In [1]:
import spacy

# Carrega o modelo em português
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo
texto = "Um noticiário de algo muito importante da Monique da NHK no Brasil"

# Processa o texto
doc = nlp(texto)

# Imprime as entidades identificadas
for entidade in doc.ents:
    print(f"{entidade.text} - {entidade.label_}")

etiq = [(x.orth_,x.pos_) for x in doc]

print(etiq)

Monique da NHK - MISC
Brasil - LOC
[('Um', 'DET'), ('noticiário', 'NOUN'), ('de', 'ADP'), ('algo', 'PRON'), ('muito', 'ADV'), ('importante', 'ADJ'), ('da', 'ADP'), ('Monique', 'PROPN'), ('da', 'ADP'), ('NHK', 'PROPN'), ('no', 'ADP'), ('Brasil', 'PROPN')]


### Exemplo 02 - NER com NLTK

In [7]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk

# Baixar pacotes necessários
nltk.download('punkt_tab')
nltk.download('maxent_ne_chunker_tab')
nltk.download('words')
nltk.download('averaged_perceptron_tagger_eng')

# Texto de exemplo
texto = "Eu fui ao mercado junto do Don-Lee"

# Tokenização e POS tagging
tokens = word_tokenize(texto)
tags = pos_tag(tokens)

# Identificação de entidades
entidades = ne_chunk(tags)

# Exibir as entidades reconhecidas
print(entidades)


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker_tab is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


(S (GPE Eu/NNP) fui/NN ao/NN mercado/NN junto/NN do/VBP Don-Lee/NNP)


### Exemplo 03 - Extração de Informações com Expressões Regulares

In [8]:
import re

texto = "O pagamento deve ser feito até dia 28 de cada mês, nete mês será Abril de 2025"

# Expressão regular para encontrar datas
padrao = r"\d{1,2} de [a-zA-Z]+ de \d{4}"
datas = re.findall(padrao,texto)

print(datas)

[]


### Exemplo 04 - Extração de informação com Regras Heurísticas e Dicionários

In [9]:
profissoes = ["engenheiro","cientista de dados","médico","advogado"]

texto = "João é advogado de software e trabalha na Tesla."

for profissao in profissoes:
  if profissao in texto:
    print(f"Profissão identificada: {profissao}")

Profissão identificada: advogado


### Exemplo 05 - Mineração de Textos com Frequência de Palavras e N-Gramas

In [10]:
import nltk
from nltk.util import ngrams
from collections import Counter

texto = "Mineração de textos envolve análise de palavras, palavras importantes e padrões"
palavras = nltk.word_tokenize(texto.lower())

frequencia = Counter(palavras)
print(frequencia.most_common(5)) # Top 5 palavras mais frequentes

bigrams = list(ngrams(palavras,2))
print(bigrams)

[('de', 2), ('palavras', 2), ('mineração', 1), ('textos', 1), ('envolve', 1)]
[('mineração', 'de'), ('de', 'textos'), ('textos', 'envolve'), ('envolve', 'análise'), ('análise', 'de'), ('de', 'palavras'), ('palavras', ','), (',', 'palavras'), ('palavras', 'importantes'), ('importantes', 'e'), ('e', 'padrões')]


### Exemplo 06 - Mineração de Texto

In [11]:
#!pip install gensim
!pip install --force-reinstall gensim

Collecting gensim
  Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
Collecting smart-open>=1.8.1 (from gensim)
  Using cached smart_open-7.1.0-py3-none-any.whl.metadata (24 kB)
Collecting wrapt (from smart-open>=1.8.1->gensim)
  Using cached wrapt-1.17.2-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.4 kB)
Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (

In [12]:
from gensim import corpora, models

# Texto de exemplo
documentos = [["mineração","textos","dados"],
              ["inteligência","artificial","aprendizado"],
              ["dados","aprendizado","estatísticas"]]

# Criar dicionários e corpus
dicionario = corpora.Dictionary(documentos)
corpus = [dicionario.doc2bow(texto) for texto in documentos]

# Aplicar LDA
lda_modelo = models.LdaModel(corpus,num_topics=2,id2word=dicionario)
print(lda_modelo.print_topics())




[(0, '0.240*"aprendizado" + 0.172*"dados" + 0.153*"estatísticas" + 0.144*"artificial" + 0.141*"inteligência" + 0.076*"textos" + 0.074*"mineração"'), (1, '0.207*"dados" + 0.189*"mineração" + 0.186*"textos" + 0.122*"aprendizado" + 0.105*"inteligência" + 0.101*"artificial" + 0.090*"estatísticas"')]
