<a href="https://colab.research.google.com/github/gucardos/PLN_6sem/blob/main/PRJ_03_PLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <b>Projeto 03</b> - Análise de relevância de termos

## Primeira etapa - Carregamento do arquivo

In [None]:
# importação das bibliotecas e módulos
import zipfile
import os
import nltk
from nltk.corpus import machado

# baixando no drive a corpora de machado de assis
nltk.download('machado')

# Extraindo arquivos dos corpus
caminho_do_zip = '/root/nltk_data/corpora/machado.zip'
pasta_destino = '/root/nltk_data/corpora/'
os.makedirs(pasta_destino, exist_ok=True)
  # cria a pasta de destino caso não exista

arquivo_zip = zipfile.ZipFile(caminho_do_zip, 'r')
arquivo_zip.extractall(pasta_destino)

print(f"Arquivo {caminho_do_zip} descompactado em: {pasta_destino}")

[nltk_data] Downloading package machado to /root/nltk_data...


Arquivo /root/nltk_data/corpora/machado.zip descompactado em: /root/nltk_data/corpora/


## Segunda etapa - Limpeza e preparação do arquivo

In [None]:
# Função para a leitura dos arquivos a serem utilizados
def ler(nome_arquivo):
  arquivo = open(nome_arquivo, 'r', encoding='ISO-8859-1')
  conteudo_arq = arquivo.read()
  arquivo.close()
  return conteudo_arq

In [None]:
# Função limpeza de textos em lista
def limpar(lista):
  lixo = '.,:;?!"´`^~()[]{}/\|@#$%¨&*-'
  quase_limpo = [x.strip(lixo).lower() for x in lista]
  return [x for x in quase_limpo if x.isalpha() or '-' not in x]

In [None]:
# Obtenção dos arquivos para serem analisados
obras = []

for i in range(1,10):
  obras.append('/root/nltk_data/corpora/machado/romance/marm0' + str(i) + '.txt')

colecao = []

for obra in obras:
  print(obra)
  texto = ler(obra)
  palavras = limpar(texto.lower().split())
  colecao.append(palavras)
  # colecao [texto 1, texto 2, texto 3, texto 4, texto 5, texto 6, texto 7, texto 8, texto 9]

/root/nltk_data/corpora/machado/romance/marm01.txt
/root/nltk_data/corpora/machado/romance/marm02.txt
/root/nltk_data/corpora/machado/romance/marm03.txt
/root/nltk_data/corpora/machado/romance/marm04.txt
/root/nltk_data/corpora/machado/romance/marm05.txt
/root/nltk_data/corpora/machado/romance/marm06.txt
/root/nltk_data/corpora/machado/romance/marm07.txt
/root/nltk_data/corpora/machado/romance/marm08.txt
/root/nltk_data/corpora/machado/romance/marm09.txt


## Terceira etapa - Criação dos calculos

In [None]:
import math
def tf(termo,doc):
  return colecao[doc].count(termo)

def df(termo):
  return len([d for d in colecao if termo in d])

def idf(termo):
  return math.log10(len(colecao)/df(termo))

def tf_idf(termo,doc):
  return tf(termo,doc)*idf(termo)

## Quarta etapa - Experimentação dos cálculos

In [None]:
df('que')

9

In [None]:
df('luva')

5

In [None]:
tf_idf('luva',2)

0.25527250510330607

In [None]:
tf_idf('latim',1)

0.05115252244738129

In [None]:
def relevantes(doc):
  lista_total = [(tf_idf(p,doc),p) for p in set(colecao[doc])]

  return sorted(lista_total,reverse=True)[:10]

In [None]:
mr = relevantes(1)

In [None]:
mr

[(276.7303277374042, 'guiomar'),
 (164.12971162356388, 'estevão'),
 (148.82387047522744, '\x97'),
 (94.71581449742484, 'alves'),
 (87.79031086841789, 'oswald'),
 (86.83606835897857, 'mrs'),
 (60.748763781106966, 'jorge'),
 (43.65159837266534, 'baronesa'),
 (24.810305245422448, 'inglesa'),
 (9.144975192854812, 'afilhada')]