# Projeto 03 - Análise de Relevância de Termos

## Primeira Etapa - Carregamento do arquivo

In [1]:
import nltk
import zipfile
import os
from nltk.corpus import machado

nltk.download('machado')

caminho_do_zip = '/root/nltk_data/corpora/machado.zip'
pasta_destino = '/root/nltk_data/corpora'
os.makedirs(pasta_destino, exist_ok=True)

arquivo_zip = zipfile.ZipFile(caminho_do_zip, 'r')
arquivo_zip.extractall(pasta_destino)

print(f"Arquivo {caminho_do_zip} extraído com sucesso na pasta {pasta_destino}.")

[nltk_data] Downloading package machado to /root/nltk_data...


Arquivo /root/nltk_data/corpora/machado.zip extraído com sucesso na pasta /root/nltk_data/corpora.


## Segunda Etapa - Limpeza e preparação do arquivo

In [2]:
def ler(nome_arquivo):
  arquivo = open(nome_arquivo,'r', encoding='ISO-8859-1')
  conteudo_arq = arquivo.read()
  arquivo.close()
  return conteudo_arq

In [3]:
def limpar(lista):
  lixo = '.,:;?!"`()[]{}/\|@#$%"&*-'
  quase_limpo = [x.strip(lixo).lower() for x in lista]
  return [x for x in quase_limpo if x.isalpha() or '-' not in x]


In [4]:
obras = []

for i in range(1, 10):
  obras.append('/root/nltk_data/corpora/machado/romance/marm0' + str(i) + '.txt')

colecao = []

for obra in obras:
  print(obra)
  texto = ler(obra)
  palavras = limpar(texto.lower().split())
  colecao.append(palavras)

/root/nltk_data/corpora/machado/romance/marm01.txt
/root/nltk_data/corpora/machado/romance/marm02.txt
/root/nltk_data/corpora/machado/romance/marm03.txt
/root/nltk_data/corpora/machado/romance/marm04.txt
/root/nltk_data/corpora/machado/romance/marm05.txt
/root/nltk_data/corpora/machado/romance/marm06.txt
/root/nltk_data/corpora/machado/romance/marm07.txt
/root/nltk_data/corpora/machado/romance/marm08.txt
/root/nltk_data/corpora/machado/romance/marm09.txt


## Terceira Etapa - Criação dos cálculos

In [5]:
import math

def tf(termo, doc):
  return colecao[doc].count(termo)

def df (termo):
  return len([d for d in colecao if termo in d])

def idf(termo):
  return math.log10(len(colecao) / df(termo))

def tf_idf(termo, doc):
  return tf(termo, doc) * idf(termo)

## Quarta Etapa - Experimentação dos cálculos

In [6]:
df('luva')

5

In [7]:
tf_idf('luva', 2)

0.25527250510330607

In [8]:
def relevantes(doc):
  lista_total = [(tf_idf(p, doc), p) for p in set(colecao[doc])]

  return sorted(lista_total, reverse=True)[:10]

In [9]:
mr = relevantes(1)

mr

[(276.7303277374042, 'guiomar'),
 (164.12971162356388, 'estevão'),
 (148.82387047522744, '\x97'),
 (94.71581449742484, 'alves'),
 (87.79031086841789, 'oswald'),
 (86.83606835897857, 'mrs'),
 (60.748763781106966, 'jorge'),
 (43.65159837266534, 'baronesa'),
 (24.810305245422448, 'inglesa'),
 (9.144975192854812, 'afilhada')]