# Busca de √çndice e Consulta de documento

**Autor:** Davi J. Leite Santos  
**Vers√£o:** 0.0.3  
**Data:** 25 de Abril de 2024  
**Localiza√ß√£o:** Ribeir√£o das Neves, Minas Gerais - Brasil  

## Contato
- üè† **Endere√ßo:** Ribeir√£o das Neves, Minas Gerais - Brasil
- üìß **Email:** davi.jls@outlook.com
- üåê **LinkedIn:** davi-j-leite-santos
- üåê **Website:** davijls.com.br

## Principais Compet√™ncias
- **Ciberseguran√ßa**
- **Seguran√ßa da Informa√ß√£o**
- **Opera√ß√µes de TI**

# sobre o codigo

Este c√≥digo √© uma extens√£o avan√ßada para a cria√ß√£o, manipula√ß√£o e pesquisa de um √≠ndice invertido, incluindo recursos de pr√©-processamento de texto, como remo√ß√£o de stopwords, normaliza√ß√£o de caracteres, tokeniza√ß√£o e aplica√ß√£o de stemming em portugu√™s. Ele est√° integrado com opera√ß√µes de leitura e escrita JSON, e a implementa√ß√£o √© orientada para uma an√°lise de texto eficiente e recupera√ß√£o de documentos.

### Componentes Principais do C√≥digo

#### 1. Prepara√ß√£o e Depend√™ncias
- Importa√ß√µes de m√≥dulos essenciais como `json`, `re` (para express√µes regulares), `nltk` (biblioteca de processamento de linguagem natural), `os` (para manipula√ß√£o de sistema de arquivos) e `time` (para medi√ß√£o de desempenho).
- Download de recursos do NLTK necess√°rios para o processamento de texto, incluindo stopwords em portugu√™s e o stemmer `RSLPStemmer`.

#### 2. Limpe leitura e escrita de dados JSON
- **load_json** e **save_json**: Fun√ß√µes para carregar e salvar dados em formato JSON, garantindo que a codifica√ß√£o seja adequada para suportar caracteres especiais em UTF-8.

#### 3. Limpeza e An√°lise L√©xica
- **clean_text**: Remove caracteres especiais e stopwords, al√©m de converter o texto para min√∫sculas, preparando-o para uma an√°lise mais eficaz.
- **lexical_analysis_and_stemming**: Aplica tokeniza√ß√£o, limpe you palavras desnecess√°rias e realiza stemming, transformando palavras em suas formas raiz para reduzir a complexidade do √≠ndice.

#### 4. Transforma√ß√£o e Indexa√ß√£o
- **apply_lexical_analysis_and_stemming**: Transforma vocabul√°rios e √≠ndices existentes com as opera√ß√µes de an√°lise l√©xica e stemming para criar vers√µes mais compactas e eficientes.
- **process_data_with_lexical_analysis_and_stemming**: Processa os dados lendo o √≠ndice geral e o vocabul√°rio, aplicando as transforma√ß√µes e salvando os novos √≠ndices.

#### 5. Funcionalidades de Busca
- **search_query**: Realiza uma busca efetiva utilizando o √≠ndice e vocabul√°rio processados para encontrar documentos que contenham termos espec√≠ficos, mostrando como palavras processadas podem ser rapidamente mapeadas aos documentos originais.

#### 6. Avalia√ß√£o de Desempenho
- **measure_performance**: Avalia o desempenho do sistema medindo o tempo de resposta para consultas e o tamanho dos arquivos de √≠ndice e vocabul√°rio, permitindo uma avalia√ß√£o objetiva da efici√™ncia das otimiza√ß√µes implementadas.

### Implementa√ß√£o e Uso

O c√≥digo √© cuidadosamente projetado para ser robusto e eficiente, utilizando pr√°ticas de codifica√ß√£o que garantem a integridade dos dados e a facilidade de manuten√ß√£o. Ele oferece uma solu√ß√£o completa para a manipula√ß√£o de grandes conjuntos de dados de texto em portugu√™s, ideal para aplica√ß√µes que requerem indexa√ß√£o e recupera√ß√£o de informa√ß√µes textuais r√°pidas e precisas.

Este sistema √© especialmente √∫til em contextos onde a precis√£o lexical e a rapidez na recupera√ß√£o de informa√ß√µes s√£o cruciais, como em motores de busca ou sistemas de gerenciamento de documentos digitais.

# ----------------------------------------------------------------

In [21]:
import json
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
import os
import time

# Baixar recursos do NLTK
nltk.download("rslp")
nltk.download("punkt")
nltk.download("stopwords")

# Inicializar o Stemmer para portugu√™s
stemmer = RSLPStemmer()
stop_words = set(stopwords.words("portuguese"))


[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\davim\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\davim\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\davim\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# Limpeza dos dados

Nessa etapa ser√£o excluidas as stopworlds e transformadas os dados em UTF8 e retiradas os caracteres especias

In [15]:
def load_json(file_path):
    with open(file_path, "r", encoding="utf-8") as f:
        return json.load(f)


def save_json(data, file_path):
    with open(file_path, "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=4)


def clean_text(text):
    text = re.sub(r"[^\w\s]", " ", text)  # Remove caracteres especiais
    text = text.lower()  # Converte para min√∫sculas
    tokens = text.split()
    tokens = [word for word in tokens if word not in stop_words]  # Remove stopwords
    return " ".join(tokens)


def lexical_analysis_and_stemming(text):
    # Limpa o texto
    cleaned_text = clean_text(text)
    # Tokeniza o texto em palavras
    tokens = nltk.word_tokenize(cleaned_text, language="portuguese")
    # Remove stopwords e aplica stemming em cada token
    stemmed_tokens = [
        stemmer.stem(token) for token in tokens if token not in stop_words
    ]
    return stemmed_tokens


def apply_lexical_analysis_and_stemming(vocab, index):
    stemmed_vocab = {}
    stemmed_index = {}

    for word, word_id in vocab.items():
        # An√°lise l√©xica e stemming
        stemmed_word = " ".join(lexical_analysis_and_stemming(word))
        if stemmed_word not in stemmed_vocab:
            stemmed_vocab[stemmed_word] = word_id
        stemmed_word_id = stemmed_vocab[stemmed_word]

        if str(word_id) in index:
            for doc_id, positions in index[str(word_id)].items():
                if stemmed_word_id not in stemmed_index:
                    stemmed_index[stemmed_word_id] = {}
                if doc_id not in stemmed_index[stemmed_word_id]:
                    stemmed_index[stemmed_word_id][doc_id] = positions
                else:
                    if isinstance(stemmed_index[stemmed_word_id][doc_id], list):
                        stemmed_index[stemmed_word_id][doc_id].extend(positions)
                    else:
                        stemmed_index[stemmed_word_id][doc_id] = list(positions)

    return stemmed_vocab, stemmed_index


# Fun√ß√£o principal para carregar, processar e salvar os dados com an√°lise l√©xica e stemming
def process_data_with_lexical_analysis_and_stemming(
    index_geral_file, vocab_geral_file, cleaned_index_file, cleaned_vocab_file
):
    # Carregar os arquivos
    index_geral = load_json(index_geral_file)
    vocab_geral = load_json(vocab_geral_file)

    # Aplicar an√°lise l√©xica e stemming em vocabul√°rio e √≠ndice
    stemmed_vocab, stemmed_index = apply_lexical_analysis_and_stemming(
        vocab_geral, index_geral
    )

    # Salvar os dados processados
    save_json(stemmed_index, cleaned_index_file)
    save_json(stemmed_vocab, cleaned_vocab_file)


# Fun√ß√£o para realizar a pesquisa
def search_query(query, vocab_geral_file, index_geral_file, sites_dir):
    # Carregar vocabul√°rio e √≠ndice geral
    vocab_geral = load_json(vocab_geral_file)
    index_geral = load_json(index_geral_file)

    # Processar a query
    query_terms = lexical_analysis_and_stemming(query.lower())

    # Obter IDs das palavras da query
    word_ids = []
    for term in query_terms:
        if term in vocab_geral:
            word_ids.append(vocab_geral[term])

    # Recuperar documentos correspondentes
    document_ids = set()
    for word_id in word_ids:
        if str(word_id) in index_geral:
            document_ids.update(index_geral[str(word_id)].keys())

    # Converter IDs dos documentos para nomes dos arquivos
    files = sorted(os.listdir(sites_dir))
    result_files = []
    for doc_id in document_ids:
        try:
            result_files.append(files[int(doc_id)])
        except (ValueError, IndexError):
            continue

    return result_files


In [11]:
# Defina os caminhos dos arquivos
index_geral_file = "index_geral.json"
vocab_geral_file = "vocab_geral.json"
cleaned_index_file = "cleaned_index_geral.json"
cleaned_vocab_file = "cleaned_vocab_geral.json"


In [12]:
# Processar os dados com an√°lise l√©xica e stemming
process_data_with_lexical_analysis_and_stemming(
    index_geral_file, vocab_geral_file, cleaned_index_file, cleaned_vocab_file
)


In [13]:
# Exemplos de uso:
sites_dir = "../Motor_de_busca-WebCrawler/sites_visitados/"
query = "noticia"


In [16]:
result_files = search_query(query, cleaned_vocab_file, cleaned_index_file, sites_dir)


In [17]:
for result in result_files:
    print(result)


# Verifica√ß√£o

Instalando a biblioteca para fazer a analise L√©xica e stemming

In [18]:
# Fun√ß√£o para carregar o √≠ndice e vocabul√°rio
def load_data(index_file, vocab_file):
    with open(index_file, "r", encoding="utf-8") as f:
        index = json.load(f)
    with open(vocab_file, "r", encoding="utf-8") as f:
        vocab = json.load(f)
    return index, vocab


# Fun√ß√£o para buscar termos no √≠ndice
def search_term(index, vocab, term):
    cleaned_term = clean_text(term)
    stemmed_term = stemmer.stem(cleaned_term)
    if stemmed_term in vocab:
        word_id = vocab[stemmed_term]
        if str(word_id) in index:
            return index[str(word_id)]
    return {}


# Fun√ß√£o para medir o tempo de pesquisa e o espa√ßo de indexa√ß√£o
def measure_performance(index_file, vocab_file, search_terms, output_file):
    index, vocab = load_data(index_file, vocab_file)

    # Medir tempo de pesquisa
    search_times = []
    for term in search_terms:
        start_time = time.time()
        search_term(index, vocab, term)
        end_time = time.time()
        search_times.append(end_time - start_time)

    avg_search_time = sum(search_times) / len(search_times)

    # Medir tamanho dos arquivos
    index_size = os.path.getsize(index_file)
    vocab_size = os.path.getsize(vocab_file)
    total_size = index_size + vocab_size

    # Escrever resultados em um arquivo de texto
    with open(output_file, "w", encoding="utf-8") as f:
        f.write(f"Tempo m√©dio de pesquisa: {avg_search_time:.6f} segundos\n")
        f.write(f"Tamanho do arquivo de √≠ndice: {index_size} bytes\n")
        f.write(f"Tamanho do arquivo de vocabul√°rio: {vocab_size} bytes\n")
        f.write(f"Tamanho total dos arquivos: {total_size} bytes\n")


In [19]:
# Definir os caminhos dos novos arquivos
cleaned_index_geral_file = "cleaned_index_geral.json"
cleaned_vocab_geral_file = "cleaned_vocab_geral.json"
output_file = "performance_metrics.txt"

# Definir termos de pesquisa para teste
search_terms = ["educa√ß√£o", "linguagem", "noticia", "ideia", "politica"]


In [22]:
# Medir desempenho e salvar resultados
measure_performance(
    cleaned_index_geral_file, cleaned_vocab_geral_file, search_terms, output_file
)
