# Recuperação de Informação

## Título da Prática: Recuperação de Informação em Textos

### Objetivos

- Implementar técnicas de recuperação de informação.
- Utilizar a distância de Levenshtein para recuperação de informação.
- Utilizar o modelo bag-of-words para recuperação de informação.

### Materiais, Métodos e Ferramentas

- Ambiente de desenvolvimento com Python.
- Bibliotecas: NLTK, sklearn, numpy para processamento de linguagem natural e cálculos.
- Conjuntos de Dados: Textos diversos para análise prática.

## Atividade Prática

Nesta atividade, você implementará técnicas de recuperação de informação utilizando distância de Levenshtein e modelo bag-of-words. De forma geral, são 3 grandes etapas no desenvolvimento do código, são elas:

1. **Segmentação do Texto e Tokenização:**
   - Faça download usando o NLTK dos pacotes: `punkt` e `stopwords`.
   - Implemente os textos de exemplo, sendo um o texto e o outro a query.

   **Texto:** 
   “A crescente quantidade de dados textuais gerada diariamente tem impulsionado a importância do processamento de linguagem natural (PLN) e das técnicas de recuperação de informação (RI). Com o objetivo de extrair informações relevantes de grandes volumes de dados, a RI utiliza métodos avançados para encontrar e classificar documentos que atendam a consultas específicas dos usuários. A distância de Levenshtein e o modelo bag-of-words são duas abordagens distintas, mas eficazes, para medir a similaridade entre textos e consultas. A distância de Levenshtein calcula o número mínimo de operações necessárias para transformar uma string em outra, enquanto o modelo bag-of-words representa os textos como vetores de frequência de palavras, permitindo a comparação baseada na similaridade vetorial. Essas técnicas são fundamentais para melhorar a precisão dos sistemas de busca e a relevância dos resultados apresentados aos usuários.”

   **Query:** 
   “importância do processamento de linguagem natural”.

2. **Implementação de Recuperação de Informação Utilizando Distância de Levenshtein:**
   - Implemente a função `ri_levenshtein` para calcular a distância de Levenshtein entre a consulta e os documentos.
   - Imprima no terminal o resultado com as distâncias.

3. **Implementação de Recuperação de Informação Utilizando Bag-of-Words:**
   - Implemente a função `ri_bag_of_words` para calcular a similaridade entre a consulta e os documentos usando o modelo bag-of-words.
   - Imprima no terminal as similaridades calculadas.

Após finalizar a atividade, disponibilize o resultado para avaliação (via plataforma ou documento .doc ou .pdf).


In [10]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.metrics import edit_distance
from collections import Counter
import numpy as np

In [11]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\cacoc\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\cacoc\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [12]:
texto = """
A crescente quantidade de dados textuais gerada diariamente tem impulsionado a importância do processamento de linguagem natural (PLN) e das técnicas de recuperação de informação (RI). 
Com o objetivo de extrair informações relevantes de grandes volumes de dados, a RI utiliza métodos avançados para encontrar e classificar documentos que atendam a consultas específicas dos usuários. 
A distância de Levenshtein e o modelo bag-of-words são duas abordagens distintas, mas eficazes, para medir a similaridade entre textos e consultas. 
A distância de Levenshtein calcula o número mínimo de operações necessárias para transformar uma string em outra, enquanto o modelo bag-of-words representa os textos como vetores de frequência de palavras, permitindo a comparação baseada na similaridade vetorial. 
Essas técnicas são fundamentais para melhorar a precisão dos sistemas de busca e a relevância dos resultados apresentados aos usuários.
"""

query = "importância do processamento de linguagem natural"

## 1. Segmentação do Texto e Tokenização

In [13]:
stop_words = set(stopwords.words('portuguese'))
tokens_texto = word_tokenize(texto.lower())
tokens_query = word_tokenize(query.lower())

tokens_texto_sem_stopwords = [token for token in tokens_texto if token.isalpha() and token not in stop_words]
tokens_query_sem_stopwords = [token for token in tokens_query if token.isalpha() and token not in stop_words]

print("Tokens do Texto:", tokens_texto_sem_stopwords)
print("Tokens da Query:", tokens_query_sem_stopwords)

Tokens do Texto: ['crescente', 'quantidade', 'dados', 'textuais', 'gerada', 'diariamente', 'impulsionado', 'importância', 'processamento', 'linguagem', 'natural', 'pln', 'técnicas', 'recuperação', 'informação', 'ri', 'objetivo', 'extrair', 'informações', 'relevantes', 'grandes', 'volumes', 'dados', 'ri', 'utiliza', 'métodos', 'avançados', 'encontrar', 'classificar', 'documentos', 'atendam', 'consultas', 'específicas', 'usuários', 'distância', 'levenshtein', 'modelo', 'duas', 'abordagens', 'distintas', 'eficazes', 'medir', 'similaridade', 'textos', 'consultas', 'distância', 'levenshtein', 'calcula', 'número', 'mínimo', 'operações', 'necessárias', 'transformar', 'string', 'outra', 'enquanto', 'modelo', 'representa', 'textos', 'vetores', 'frequência', 'palavras', 'permitindo', 'comparação', 'baseada', 'similaridade', 'vetorial', 'técnicas', 'fundamentais', 'melhorar', 'precisão', 'sistemas', 'busca', 'relevância', 'resultados', 'apresentados', 'usuários']
Tokens da Query: ['importância', 

## 2. Implementação de Recuperação de Informação Utilizando Distância de Levenshtein

In [14]:
def ri_levenshtein(query, documento):
    return edit_distance(query, documento)

In [15]:
distancias = {}
for token in tokens_texto_sem_stopwords:
    distancias[token] = ri_levenshtein(query, token)

In [16]:
print("\nDistâncias de Levenshtein:")
for token, distancia in distancias.items():
    print(f"Token: {token}, Distância: {distancia}")


Distâncias de Levenshtein:
Token: crescente, Distância: 41
Token: quantidade, Distância: 43
Token: dados, Distância: 45
Token: textuais, Distância: 44
Token: gerada, Distância: 45
Token: diariamente, Distância: 40
Token: impulsionado, Distância: 42
Token: importância, Distância: 38
Token: processamento, Distância: 36
Token: linguagem, Distância: 40
Token: natural, Distância: 42
Token: pln, Distância: 46
Token: técnicas, Distância: 44
Token: recuperação, Distância: 43
Token: informação, Distância: 43
Token: ri, Distância: 47
Token: objetivo, Distância: 45
Token: extrair, Distância: 44
Token: informações, Distância: 43
Token: relevantes, Distância: 43
Token: grandes, Distância: 44
Token: volumes, Distância: 45
Token: utiliza, Distância: 44
Token: métodos, Distância: 44
Token: avançados, Distância: 44
Token: encontrar, Distância: 42
Token: classificar, Distância: 42
Token: documentos, Distância: 41
Token: atendam, Distância: 43
Token: consultas, Distância: 43
Token: específicas, Distânci

## 3. Implementação de Recuperação de Informação Utilizando Bag-of-Words

In [17]:
def ri_bag_of_words(query_tokens, documento_tokens):
    # Contar as palavras na query e no documento
    counter_query = Counter(query_tokens)
    counter_documento = Counter(documento_tokens)

    # Calcular a similaridade como o número de palavras em comum
    similaridade = sum((counter_query & counter_documento).values())
    return similaridade

In [18]:
similaridades = {}
for token in tokens_texto_sem_stopwords:
    similaridades[token] = ri_bag_of_words(tokens_query_sem_stopwords, [token])

In [19]:
print("\nSimilaridades Bag-of-Words:")
for token, similaridade in similaridades.items():
    print(f"Token: {token}, Similaridade: {similaridade}")


Similaridades Bag-of-Words:
Token: crescente, Similaridade: 0
Token: quantidade, Similaridade: 0
Token: dados, Similaridade: 0
Token: textuais, Similaridade: 0
Token: gerada, Similaridade: 0
Token: diariamente, Similaridade: 0
Token: impulsionado, Similaridade: 0
Token: importância, Similaridade: 1
Token: processamento, Similaridade: 1
Token: linguagem, Similaridade: 1
Token: natural, Similaridade: 1
Token: pln, Similaridade: 0
Token: técnicas, Similaridade: 0
Token: recuperação, Similaridade: 0
Token: informação, Similaridade: 0
Token: ri, Similaridade: 0
Token: objetivo, Similaridade: 0
Token: extrair, Similaridade: 0
Token: informações, Similaridade: 0
Token: relevantes, Similaridade: 0
Token: grandes, Similaridade: 0
Token: volumes, Similaridade: 0
Token: utiliza, Similaridade: 0
Token: métodos, Similaridade: 0
Token: avançados, Similaridade: 0
Token: encontrar, Similaridade: 0
Token: classificar, Similaridade: 0
Token: documentos, Similaridade: 0
Token: atendam, Similaridade: 0
T