# Projeto 03 - Analise de relevância de termos

##Primeira etapa - Carregamento de arquivos

In [1]:
import nltk
import os
import zipfile
from nltk.corpus import machado

nltk.download('machado')

caminho_do_zip = '/root/nltk_data/corpora/machado.zip'
pasta_destino = '/root/nltk_data/corpora/'
os.makedirs(pasta_destino, exist_ok=True)

arquivo_zip = zipfile.ZipFile(caminho_do_zip, 'r')
arquivo_zip.extractall(pasta_destino)

print(f"Arquivo {caminho_do_zip} extraido com sucesso na pasta {pasta_destino}")

[nltk_data] Downloading package machado to /root/nltk_data...


Arquivo /root/nltk_data/corpora/machado.zip extraido com sucesso na pasta /root/nltk_data/corpora/


##Segunda etapa - limpeza e preparação do arquivo

In [6]:
def ler(nome_arquivo):
  arquivo = open(nome_arquivo,'r', encoding='ISO-8859-1')
  conteudo_arq = arquivo.read()
  arquivo.close()
  return conteudo_arq

In [7]:
def limpar(lista):
  lixo = ',.;:?!"`´^~()[]{}\/|@#$%¨&*-'
  quase_limpo = [x.strip(lixo).lower() for x in lista]
  return [x for x  in quase_limpo if x.isalpha() or '-' not in x]

In [8]:
obras = []

for i in range(1,10):
  obras.append('/root/nltk_data/corpora/machado/cronica/macr0' + str(i) + '.txt')

colecao = []

for obra in obras:
  print(obra)
  texto = ler(obra)
  palavras = limpar(texto.lower().split())
  colecao.append(palavras)

/root/nltk_data/corpora/machado/cronica/macr01.txt
/root/nltk_data/corpora/machado/cronica/macr02.txt
/root/nltk_data/corpora/machado/cronica/macr03.txt
/root/nltk_data/corpora/machado/cronica/macr04.txt
/root/nltk_data/corpora/machado/cronica/macr05.txt
/root/nltk_data/corpora/machado/cronica/macr06.txt
/root/nltk_data/corpora/machado/cronica/macr07.txt
/root/nltk_data/corpora/machado/cronica/macr08.txt
/root/nltk_data/corpora/machado/cronica/macr09.txt


## Terceira etapa - Criação dos calculos

In [9]:
import math
def tf(termo,doc):
  return colecao[doc].count(termo)

def df(termo):
  return len([d for d in colecao if termo in d])

def idf(termo):
  return math.log10(len(colecao)/df(termo))

def tf_idf(termo,doc):
  return tf(termo,doc) * idf(termo)

## Ultima etapa - Experimentação de cálculos

In [10]:
df('que')

9

In [11]:
df('luva')

1

In [12]:
tf_idf('luva', 2)

0.0

In [13]:
tf_idf('latim', 1)

0.3521825181113625

In [14]:
def relevantes(doc):
  lista_total = [(tf_idf(p, doc), p) for p in set(colecao[doc])]

  return sorted(lista_total, reverse=True)[:10]

In [15]:
mr = relevantes(1)

In [16]:
mr

[(27.822418930797635, 'ex'),
 (17.613802852128117, 'excia'),
 (16.33031284438359, '1864'),
 (14.313637641589873, 'ablativo'),
 (13.359395132150548, 'ilustrada'),
 (12.442469514457763, 'semana'),
 (11.450910113271899, 'suplicante'),
 (11.104612734180844, 'moleque'),
 (10.496667603832574, 'ilmo'),
 (9.798187706630156, '§')]