# **Projeto 01** - Análise de Relevância de termos

## Primeira etapa - Carregamento do Arquivo

In [1]:
import nltk
from nltk.corpus import machado

nltk.download('machado')

[nltk_data] Downloading package machado to /root/nltk_data...


True

In [2]:
import zipfile
import os

caminho_do_zip = '/root/nltk_data/corpora/machado.zip'
pasta_destino = '/root/nltk_data/corpora/'

arquivo_zip = zipfile.ZipFile(caminho_do_zip, 'r')

os.makedirs(pasta_destino, exist_ok=True)

arquivo_zip.extractall(pasta_destino)

print(f'Arquivos extraídos para {pasta_destino}')
arquivo_zip.close()

Arquivos extraídos para /root/nltk_data/corpora/


## Segunda etapa - limpeza e preparação do arquivo

In [3]:
# Função para leitura dos arquivos a serem utilizados
def ler(nome_arquivo):
    arquivo = open(nome_arquivo, 'r', encoding='ISO-8859-1')
    conteudo_arq = arquivo.read()
    arquivo.close()
    return conteudo_arq

In [4]:
# Função para limpeza de textos em lista
def limpar(lista):
    lixo = '..,:;?!``^^()[]{}/\\|@#$%¨&*-'
    quase_limpo = [x.strip(lixo).lower() for x in lista]
    return [x for x in quase_limpo if x.isalpha() or '-' not in x]

In [5]:
# Obtenção dos caminhos dos arquivos para serem analisados
obras = []
for i in range(1, 10):
    obras.append('/root/nltk_data/corpora/machado/romance/marm0' + str(i) + '.txt')

colecao = []
for obra in obras:
    print(obra)
    texto = ler(obra)
    palavras = limpar(texto.lower().split())
    colecao.append(palavras)

/root/nltk_data/corpora/machado/romance/marm01.txt
/root/nltk_data/corpora/machado/romance/marm02.txt
/root/nltk_data/corpora/machado/romance/marm03.txt
/root/nltk_data/corpora/machado/romance/marm04.txt
/root/nltk_data/corpora/machado/romance/marm05.txt
/root/nltk_data/corpora/machado/romance/marm06.txt
/root/nltk_data/corpora/machado/romance/marm07.txt
/root/nltk_data/corpora/machado/romance/marm08.txt
/root/nltk_data/corpora/machado/romance/marm09.txt


## Terceira etapa - Criação dos cálculos

In [7]:
import math

def tf(termo, doc):
    return colecao[doc].count(termo)

def df(termo):
    return len([d for d in colecao if termo in d])

def idf(termo):
    return math.log10(len(colecao)/df(termo))

def tf_idf(termo, doc):
    return tf(termo, doc) * idf(termo)


## Última etapa - Experimentação dos cálculos

In [8]:
df('que')

9

In [9]:
df('luva')

5

In [10]:
tf_idf('latim', 1)

0.05115252244738129

In [11]:
def relevantes(doc):
  lista_total = [(tf_idf(p,doc),p) for p in set(colecao[doc])]

  return sorted(lista_total, reverse=True)[:10]

In [12]:
mr = relevantes(1)

In [13]:
mr

[(275.77608522796487, 'guiomar'),
 (164.12971162356388, 'estevão'),
 (148.82387047522744, '\x97'),
 (94.71581449742484, 'alves'),
 (87.79031086841789, 'oswald'),
 (86.83606835897857, 'mrs'),
 (60.09555126733162, 'jorge'),
 (43.65159837266534, 'baronesa'),
 (24.810305245422448, 'inglesa'),
 (9.144975192854812, 'afilhada')]