<a href="https://colab.research.google.com/github/matheus-haruki/Processamento-de-Linguagem-Natural/blob/main/Projeto_3_An%C3%A1lise_de_Relev%C3%A2ncia_de_Termos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Projeto #3 de PLN
Análise de relevância de termos

Objetivo do notebook:

O objetivo do notebook é identificar os termos mais relevantes em textos literários utilizando a métrica TF-IDF (Term Frequency-Inverse Document Frequency), a partir de obras de Machado de Assis disponíveis no corpus da biblioteca NLTK. A análise permite destacar as palavras mais significativas em cada documento (ou obra), desconsiderando aquelas comuns e pouco informativas.

Técnicas de PLN (Processamento de Linguagem Natural) implementadas:

- Leitura de corpus literário com NLTK: Download e extração de arquivos de texto das obras de Machado de Assis.

- Pré-processamento de texto: Leitura dos arquivos, limpeza (remoção de pontuações, normalização para minúsculas, remoção de símbolos), e tokenização simples (split por espaço).

- Cálculo de métricas estatísticas de termos:

 - TF (Term Frequency): Frequência de um termo dentro de um documento.

 - DF (Document Frequency): Número de documentos onde o termo aparece.

 - IDF (Inverse Document Frequency): Medida que reduz o peso de termos comuns.

 - TF-IDF: Combinação de TF e IDF para identificar os termos mais relevantes.

- Rankeamento de termos por relevância: Seleção dos 10 termos mais importantes em um documento, com base no valor TF-IDF.

#1. Carregamento do arquivo

In [3]:
# Importação das bilbiotecas e módulos
import nltk
import zipfile
import os
from nltk.corpus import machado

# Download do corpus
nltk.download('machado')

# Extração dos arquivos do corpus
caminho_do_zip = '/root/nltk_data/corpora/machado.zip'
pasta_destino = '/root/nltk_data/corpora/'
os.makedirs(pasta_destino, exist_ok=True)

# Cria a pasta de destino caso não houver
arquivo_zip = zipfile.ZipFile(caminho_do_zip, 'r')
arquivo_zip.extractall(pasta_destino)

print(f"Arquivo {caminho_do_zip} extraído com sucesso na pasta {pasta_destino}.")


[nltk_data] Downloading package machado to /root/nltk_data...
[nltk_data]   Package machado is already up-to-date!


Arquivo /root/nltk_data/corpora/machado.zip extraído com sucesso na pasta /root/nltk_data/corpora/.


#2. Limpeza e preparação do arquivo

In [4]:
# Função para leitura dos arquivos a serem utilizados
def ler(nome_arquivo):
    arquivo = open(nome_arquivo, 'r', encoding='ISO-8859-1') #
    conteudo_arq = arquivo.read()
    arquivo.close()
    return conteudo_arq

In [6]:
# Função limpeza de textos em lista
def limpar(lista):
    lixo = '.,;:?!“”"ˆ`´^~^()[]{}[]()[]/\|@#$%¨&*-_'
    quase_limpo = [x.strip(lixo).lower() for x in lista]
    return [x for x in quase_limpo if x.isalpha() or '-' not in x]


In [7]:
# Obtenção dos caminhos dos arquivos para serem analisado
obras = []

for i in range(1,10):
    obras.append('/root/nltk_data/corpora/machado/romance/marm0'+str(i)+'.txt')

colecao = []

for obra in obras:
    print(obra)
    texto = ler(obra)
    palavras = limpar(texto.lower().split())
    colecao.append(palavras)


/root/nltk_data/corpora/machado/romance/marm01.txt
/root/nltk_data/corpora/machado/romance/marm02.txt
/root/nltk_data/corpora/machado/romance/marm03.txt
/root/nltk_data/corpora/machado/romance/marm04.txt
/root/nltk_data/corpora/machado/romance/marm05.txt
/root/nltk_data/corpora/machado/romance/marm06.txt
/root/nltk_data/corpora/machado/romance/marm07.txt
/root/nltk_data/corpora/machado/romance/marm08.txt
/root/nltk_data/corpora/machado/romance/marm09.txt


#3. Criação dos cálculos

In [8]:
import math

def tf(termo, doc):
    return colecao[doc].count(termo)

def df(termo):
    return len([d for d in colecao if termo in d])

def idf(termo):
    return math.log10(len(colecao) / df(termo))

def tf_idf(termo, doc):
    return tf(termo, doc) * idf(termo)


#4. Experimentação dos cálculos

In [9]:
df('que')


9

In [10]:
df('luva')


5

In [11]:
tf_idf('luva', 2)


0.25527250510330607

In [12]:
tf_idf('latim', 1)


0.05115252244738129

In [13]:
def relevantes(doc):
    lista_total = [(tf_idf(p, doc), p) for p in set(colecao[doc])]
    return sorted(lista_total, reverse=True)[:10]


In [16]:
mr = relevantes(1)



In [19]:
mr

[(276.7303277374042, 'guiomar'),
 (164.12971162356388, 'estevão'),
 (148.82387047522744, '\x97'),
 (94.71581449742484, 'alves'),
 (87.79031086841789, 'oswald'),
 (86.83606835897857, 'mrs'),
 (60.748763781106966, 'jorge'),
 (43.65159837266534, 'baronesa'),
 (24.810305245422448, 'inglesa'),
 (9.144975192854812, 'afilhada')]