# Projeto 03 - Análise de relevância de termos

 Projeto para relevância de palavras
*   Cálculo de frequência com frequência inversa
*   A maneira comum de calcularmos a relevância de palavras é por frequência absoluta
- Quantidade de vezes que a palavra aparece e dividir pelo total de palavras do texto: palavra / total de palavras
- Uma outra forma de calcular o quanto ela aparece em diversos textos (documentos)
- Se um vocábulo aparece em muitos documentos signfica que ele não tem relevância para um assunto específico e sim para uso geral (palavras vazias)
- Uma palavra que é usada em poucos documentos, mostra que sua relevancia está associada a poucos assuntos
- A relevancia de uma palavra está associado com o uso em poucos documentos


## Primeira etapa - Carregamento do arquivo

In [None]:
# Importação das bibliotecas e módulos

import nltk
import zipfile
import os
from nltk.corpus import machado

# download dos corpus

nltk.download('machado')

# extração dos arquivos dos corpus

caminho_do_zip = '/root/nltk_data/corpora/machado.zip'
pasta_destino = '/root/nltk_data/corpora/'

os.makedirs(pasta_destino, exist_ok=True)

arquivo_zip = zipfile.ZipFile(caminho_do_zip, 'r')
arquivo_zip.extractall(pasta_destino)

print(f'Arquivo {caminho_do_zip} extraido com sucesso na pasta {pasta_destino}. ')

[nltk_data] Downloading package machado to /root/nltk_data...


Arquivo /root/nltk_data/corpora/machado.zip extraido com sucesso na pasta /root/nltk_data/corpora/. 


## Segunda etapa - limpeza e preparação do arquivo

In [None]:
# Função para leitura dos arquivos a serem utilizados

def ler(nome_arquivo):
  arquivo = open(nome_arquivo, 'r', encoding='ISO-8859-1')
  conteudo_arq = arquivo.read()
  arquivo.close()
  return conteudo_arq


In [None]:
# Função limpeza de textos em lista

def limpar(lista):
  lixo = '.,:;?!"´`^~()[]{}/\|@#$%¨&*-'
  quase_limpo = [x.strip(lixo).lower() for x in lista]
  return [x for x in quase_limpo if x.isalpha() or '-' not in x]


In [None]:
# Obtenção dos caminhos dos arquivos para serem analisados

obras = []

for i in range(1, 10):
  obras.append('/root/nltk_data/corpora/machado/romance/marm0'+str(i) + '.txt')

colecao = []

for obra in obras:
  print(obra)
  texto = ler(obra)
  palavras = limpar(texto.lower().split())
  colecao.append(palavras)




/root/nltk_data/corpora/machado/romance/marm01.txt
/root/nltk_data/corpora/machado/romance/marm02.txt
/root/nltk_data/corpora/machado/romance/marm03.txt
/root/nltk_data/corpora/machado/romance/marm04.txt
/root/nltk_data/corpora/machado/romance/marm05.txt
/root/nltk_data/corpora/machado/romance/marm06.txt
/root/nltk_data/corpora/machado/romance/marm07.txt
/root/nltk_data/corpora/machado/romance/marm08.txt
/root/nltk_data/corpora/machado/romance/marm09.txt


## Terceira etapa - Criação dos calculos

In [None]:
import math

# Calcula a frequência do termo (TF - Term Frequency) no documento.
# Conta quantas vezes o 'termo' aparece no documento identificado por 'doc'.
def tf(termo, doc):
  return colecao[doc].count(termo)

# Calcula o número de documentos da coleção que contêm o termo (DF - Document Frequency).
def df(termo):
  return len([d for d in colecao if termo in d])

# Calcula o inverso da frequência de documentos (IDF - Inverse Document Frequency).
# Usa logaritmo para penalizar termos comuns em muitos documentos.
def idf(termo):
  return math.log10(len(colecao)/df(termo))

# Calcula o peso TF-IDF, que é o produto do TF pelo IDF.
# Esse valor indica a importância do termo no documento, considerando a coleção como um todo.
def tf_idf(termo, doc):
  return tf(termo, doc) * idf(termo)




## Ultima etapa - Experimentação dos calculos

In [None]:
df('que')

9

In [None]:
df('luva')

5

In [None]:
tf_idf('luva', 2)

0.25527250510330607

In [None]:
tf_idf('latim', 1)

0.05115252244738129

In [None]:
def relevantes(doc):
  lista_total = [(tf_idf(p, doc),p) for p in set(colecao[doc])]

  return sorted(lista_total, reverse=True)[:10]



In [None]:
  mr = relevantes(1)

In [None]:
mr

[(276.7303277374042, 'guiomar'),
 (164.12971162356388, 'estevão'),
 (148.82387047522744, '\x97'),
 (94.71581449742484, 'alves'),
 (87.79031086841789, 'oswald'),
 (86.83606835897857, 'mrs'),
 (60.748763781106966, 'jorge'),
 (43.65159837266534, 'baronesa'),
 (24.810305245422448, 'inglesa'),
 (9.144975192854812, 'afilhada')]