### Importando Bibliotecas

In [1]:
! python -m spacy download pt_core_news_sm &> /dev/null

In [2]:
import glob
import re
import os
import unicodedata
import math

import nltk
from nltk.corpus        import stopwords
from nltk.tokenize      import word_tokenize
from nltk.stem.snowball import SnowballStemmer

from tabulate import tabulate

import spacy
import pt_core_news_sm

nlp = spacy.load("pt_core_news_sm")
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

### Conectando ao Google Drive


In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### Importando os documentos



In [4]:
def read_file(directory: str) -> str:
    file = open(directory, 'r')
    text = file.read()

    return text

In [5]:
print(read_file('/content/drive/MyDrive/Information retrieval/data/estrutura de dados [AV - 2](3 - GABARITO).txt'))

Algoritmos e Estrutura de Dados - Arvores

Considere as seguintes assertivas sobre árvores binárias de busca e suas variantes:

I. Em árvores AVL, a altura máxima é garantida em O(log n), onde n é o número de elementos na árvore.
II. Árvores 2-3 são uma variação de árvores binárias de busca que permitem mais de dois filhos por nó.
III. Em árvores B, a profundidade de busca é sempre O(log n), independentemente da distribuição dos dados.
IV. Árvores de busca binária balanceadas como as AVL e as árvores rubro-negras garantem que a altura da árvore seja O(log n) no pior caso.

Alternativas:

A. Todas as assertivas estão corretas.
B. Todas as assertivas estão incorretas.
C. Apenas a assertiva I está correta.
D. Apenas as assertivas II e III estão corretas.
E. Apenas as assertivas III e IV estão corretas.


### Tratamento dos dados

##### Removendo acentuação

In [6]:
def remove_accents(text: str) -> str:
    nfkd = unicodedata.normalize('NFKD', text)

    filtered_text = ''.join([c for c in nfkd if not unicodedata.combining(c)])

    return filtered_text

In [7]:
print('Remoção de acentos: Análise ->', remove_accents('Análise'))

Remoção de acentos: Análise -> Analise


##### Removendo caracteres especiais

In [8]:
def remove_special_characters(text: str) -> str:
    regex = re.compile(r'[^a-zA-Z0-9\s]')

    filtered_text = re.sub(regex, '', text)

    return filtered_text

In [9]:
print('Remoção de caracteres especiais: Guarda-chuva ->', remove_special_characters('Guarda-chuva'))

Remoção de caracteres especiais: Guarda-chuva -> Guardachuva


##### Convertendo para minúsculas

In [10]:
def convert_to_lowercase(text: str) -> str:
    return text.casefold()

In [11]:
print('Conversão para minúsculas: Estrutura de Dados ->', convert_to_lowercase('Estrutura de Dados'))

Conversão para minúsculas: Estrutura de Dados -> estrutura de dados


##### Removendo *Stopwords*

In [12]:
def remove_stopwords(token: list[str]) -> list[str]:
    stop_words = stopwords.words('portuguese')

    filtered_token = [word for word in token if word not in stop_words]

    return filtered_token

In [13]:
print('Remoção de Stopwords: Todas aquelas pessoas -> ', remove_stopwords(['todas', 'aquelas', 'pessoas']))

Remoção de Stopwords: Todas aquelas pessoas ->  ['todas', 'pessoas']


##### Aplicando a derivação de palavras

In [14]:
def lemmatization_words(token: list[str]) -> list[str]:
    terms = nlp(" ".join(token))

    lemmatized_tokens = [term.lemma_ for term in terms]

    return lemmatized_tokens

In [15]:
print('Aplicação da lematização:', lemmatization_words(['amigo', 'amigos', 'amigas']))

Aplicação da lematização: ['amigo', 'amigo', 'amiga']


In [16]:
def finding_unique_words_and_freq(dictionary : dict, token : list):
    for term in set(token):
        if term in dictionary.keys():
            dictionary[term] += token.count(term)
        else:
            dictionary[term] = token.count(term)

    return dictionary

#### Aplicando as funções nos documentos

In [17]:
def pre_processing(folder: str, document_token: dict, vocabulary: set) -> tuple:
    files = sorted(glob.glob(folder))

    for file in files:
        text = read_file(file)

        text = remove_accents(text)
        text = remove_special_characters(text)
        text = convert_to_lowercase(text)

        token = word_tokenize(text)
        token = remove_stopwords(token)
        token = lemmatization_words(token)

        vocabulary.update(token)

        document_token[os.path.basename(file)] = token

    return document_token, sorted(vocabulary)

In [18]:
folder = '/content/drive/MyDrive/Information retrieval/data/*'

document_token, vocabulary = pre_processing(folder, {}, set())

In [19]:
print('estrutura de dados [AV - 3](2 - GABARITO).txt:', document_token['estrutura de dados [AV - 3](2 - GABARITO).txt'])

estrutura de dados [AV - 3](2 - GABARITO).txt: ['algoritmos', 'estrutura', 'dar', 'arvor', 'considere', 'arvorir', 'rubronegrar', 'estrutura', 'dar', 'frequentemente', 'usar', 'implementar', 'arvor', 'busca', 'balancear', 'arvor', 'possuir', 'propriedade', 'unico', 'garantir', 'desempenho', 'eficiente', 'operacoes', 'insercao', 'exclusao', 'pesquisa', 'sobre', 'caracteristica', 'arvor', 'rubronegra', 'seguinte', 'afirmacoes', 'correta', 'alternativo', 'propriedade', 'balanceamento', 'arvore', 'rubronegra', 'manter', 'balanceamento', 'garantir', 'altura', 'qualquer', 'maximo', 'dois', 'vez', 'altura', 'curto', 'b', 'cor', 'arvore', 'rubronegrar', 'todo', 'vermelho', 'dever', 'ter', 'filho', 'preto', 'manter', 'assim', 'estrutura', 'balanceado', 'c', 'numerar', 'filho', 'arvor', 'rubronegro', 'sao', 'arvor', 'binaria', 'onde', 'cada', 'poder', 'ter', 'maximo', 'dois', 'filho', 'garantir', 'estrutura', 'ordenar', 'd', 'invariante', 'caminho', 'preto', 'arvore', 'rubronegrar', 'caminho', '

In [20]:
print('Vocabulário:', vocabulary)

Vocabulário: ['0', '0010010010', '002', '010', '0110110110', '012', '012157913', '020', '0pessoas10', '1', '10', '100', '10000', '1001001001', '101', '11', '1101101101', '12', '12c', '13', '130121579', '13452', '139510716', '14352', '15', '15423', '15432', '17', '19', '1fn', '1n', '2', '20', '20000', '20999', '23', '234', '24', '25', '2a', '2fn', '3', '30', '32', '35', '396', '398', '3fn', '4', '40', '5', '6', '7', '8', '81', '839', '9', '951071613', '975211013', '98', '99', 'A2', 'Abstract', 'Agregacao', 'Assinale', 'Autonomoustransaction', 'Avl', 'Bubble', 'Campos', 'Ccodproduto', 'Chaves', 'Classe', 'Classes', 'Cnpj', 'Codproduto', 'Colocao', 'Compilacao', 'Definicao', 'Escola', 'Escritos', 'Estado', 'Estados', 'Estrela', 'Fault', 'Fifo', 'Forint', 'From', 'Geral', 'Grafo', 'Grafos', 'Gravacao', 'Gsignalconnect', 'Gtkcontainer', 'Gtkcontaineradd', 'Gtkinit', 'Gtklabelnew', 'Gtkmainquit', 'Gtkwindgetshowall', 'Heuristicas', 'Insercao', 'Keya2', 'L5', 'Lista', 'Long', 'Loop', 'Main', 

### Cálculo da frequência



###### Preparação para o cálculo da frequência

In [21]:
class Node:
    def __init__(self, name: str, frequency: int):
        self.frequency = frequency
        self.name      = name
        self.next      = None

    def __str__(self):
        return f'[Documento: {self.name}, Frequência: {self.frequency}]'

class LinkedList:
    def __init__(self):
        self.head = None

    def print_list(self) -> None:
        current_node = self.head

        while current_node:
            print(current_node, end = " -> ")
            current_node = current_node.next

        print("[ ]")

    def get_document_list(self) -> list[Node]:
        array = []
        node = self.head

        while node:
            array.append(node)
            node = node.next

        return array

    def append_document(self, name : str, frequency : int) -> None:
        new_node = Node(name, frequency)

        if self.head is None:
            self.head = new_node
            return

        last_node = self.head

        while last_node.next:
            last_node = last_node.next

        last_node.next = new_node

###### Geração da matriz de termo-frequência

In [22]:
def calculate_term_frequency(term_frequency: dict) -> dict:
    for name, token in document_token.items():
        for term in set(token):
            frequency = 1 + math.log2(token.count(term))

            term_frequency[term].append_document(name, frequency)

    return term_frequency

In [23]:
def normalize_TF(term_frequency: dict) -> dict:
    document_term_frequency = {}

    for term, posting in term_frequency.items():
        for node in posting.get_document_list():
            if node.name not in document_term_frequency:
                document_term_frequency[node.name] = []

            document_term_frequency[node.name].append(node.frequency)

    max_term_frequencies = {name: max(frequencies) for name, frequencies in document_term_frequency.items()}

    for term, posting in term_frequency.items():
        for node in posting.get_document_list():
            max_frequency = max_term_frequencies[node.name]

            if max_frequency > 0:
                node.frequency /= max_frequency

    return term_frequency

In [24]:
print('Exemplo de termo-frequência [schedule]:')

term_frequency = calculate_term_frequency({term: LinkedList() for term in vocabulary})
term_frequency = normalize_TF(term_frequency)

for document in term_frequency['schedule'].get_document_list():
    print(document)

Exemplo de termo-frequência [schedule]:
[Documento: banco de dados [PL-SQL - 3](2).txt, Frequência: 0.6020599913279624]
[Documento: banco de dados [PT - 3](2).txt, Frequência: 0.27894294565112987]


###### Geração da matriz de Frequência Inversa de Documento. $\text{IDF}_{i} =  \log_2 \frac {N} {n{i}}$

In [25]:
def calculate_IDF(term_frequency: dict, collection_size: int, inverse_data_frequency: dict) -> dict:
    for term, posting in term_frequency.items():
        posting_size = len(posting.get_document_list())

        term_idf = math.log2(collection_size / posting_size)

        inverse_data_frequency[term] = term_idf

    return inverse_data_frequency

In [26]:
def normalize_IDF(inverse_data_frequency: dict) -> dict:
    max_idf = max(inverse_data_frequency.values())

    for term, idf in inverse_data_frequency.items():
        inverse_data_frequency[term] = idf / max_idf

    return inverse_data_frequency

In [27]:
print('Exemplo de frequência inversa de documento:')

inverse_data_frequency = calculate_IDF(term_frequency, len(document_token), {})
inverse_data_frequency = normalize_IDF(inverse_data_frequency)

print('árvore:', inverse_data_frequency['arvore'])

Exemplo de frequência inversa de documento:
árvore: 0.48153310957614376


##### Geração da matriz de TF-IDF

In [28]:
def calculate_TF_IDF(term_frequency: dict, inverse_data_frequency: dict) -> dict:
    tf_idf = {term: LinkedList() for term in vocabulary}

    for term, posting in term_frequency.items():
        for node in posting.get_document_list():
            tf_idf[term].append_document(node.name, node.frequency * inverse_data_frequency[term])

    return tf_idf

In [29]:
print('Exemplo de TF-IDF:')

tf_idf = calculate_TF_IDF(term_frequency, inverse_data_frequency)

for document in tf_idf['schedule'].get_document_list():
    print(document)

Exemplo de TF-IDF:
[Documento: banco de dados [PL-SQL - 3](2).txt, Frequência: 0.511828934332715]
[Documento: banco de dados [PT - 3](2).txt, Frequência: 0.23713761530198416]


### Cálculo da similaridade

### Operadores

In [30]:
def intersection_dicts(dict1, dict2):
    intersection = {}

    for key, value in dict2.items():
        if key in dict1:
            intersection[key] = value

    return intersection

###### Operador OR

In [31]:
def operator_OR(doc1: str, doc2: str) -> dict:
    vector1 = {}
    vector2 = {}

    answer  = 0

    for term, posting in tf_idf.items():
        for node in posting.get_document_list():
            if node.name == doc1:
                vector1[term] = node.frequency
            if node.name == doc2:
                vector2[term] = node.frequency

    intersection = intersection_dicts(vector1, vector2)

    for term, frequency in intersection.items():
        answer += math.pow(frequency, 2)

    return math.sqrt(answer / len(intersection)) if len(intersection) > 0 else 0

query = 'estrutura de dados [AV - 2](3 - GABARITO).txt'

similarity = {}

for documento in document_token.keys():
    similarity[documento] = operator_OR(query, documento)

print(tabulate(sorted(similarity.items(), key=lambda item: item[1], reverse=True), headers=['Documento', 'Similaridade']))

Documento                                          Similaridade
-----------------------------------------------  --------------
grafos [AL - 3](2).txt                               0.348362
estrutura de dados [AV - 2](2 - GABARITO).txt        0.31574
estrutura de dados [AV - 2](4 - GABARITO).txt        0.311105
programacao orientada a objetos [CB - 1](1).txt      0.266251
grafos [AL - 3](1).txt                               0.259868
estrutura de dados [AV - 3](2 - GABARITO).txt        0.259266
estrutura de dados [AV - 2](5 - GABARITO).txt        0.245316
banco de dados [CB- 2](1).txt                        0.243762
estrutura de dados [AV - 2](3 - GABARITO).txt        0.236438
banco de dados [PL-SQL - 3](1).txt                   0.233814
programacao orientada a objetos [CB - 2](5).txt      0.231782
programacao orientada a objetos [CB - 3](4).txt      0.218515
banco de dados [MR - 3](3).txt                       0.211961
programacao orientada a objetos [CB - 1](4).txt      0.211055
progr

In [32]:
def operator_AND(doc1: str, doc2: str) -> dict:
    vector1 = {}
    vector2 = {}

    answer  = 0

    for term, posting in tf_idf.items():
        for node in posting.get_document_list():
            if node.name == doc1:
                vector1[term] = node.frequency
            if node.name == doc2:
                vector2[term] = node.frequency

    intersection = intersection_dicts(vector1, vector2)

    for term, frequency in intersection.items():
        answer += math.pow(1 - frequency, 2)

    return math.sqrt(answer / len(intersection)) if len(intersection) > 0 else 0

query = 'estrutura de dados [AV - 2](3 - GABARITO).txt'

similarity = {}

for documento in document_token.keys():
    similarity[documento] = operator_AND(query, documento)

print(tabulate(sorted(similarity.items(), key=lambda item: item[1], reverse=True), headers=['Documento', 'Similaridade']))

Documento                                          Similaridade
-----------------------------------------------  --------------
introducao a programacao [CB - 2](3).txt               0.996776
introducao a programacao [CB - 2](2).txt               0.99435
grafos [CB - 2](4).txt                                 0.993347
introducao a programacao [CB - 1](5).txt               0.992719
introducao a programacao [CB - 1](6).txt               0.992273
introducao a programacao [CB - 1](3).txt               0.992161
introducao a programacao [PT- 2](2).txt                0.992161
grafos [CB - 1](1).txt                                 0.989093
grafos [CB - 1](3).txt                                 0.989093
grafos [CB - 3](3).txt                                 0.989093
programacao orientada a objetos [CB - 2](3).txt        0.989093
introducao a programacao [CB - 1](7).txt               0.988281
banco de dados [CB - 3](2).txt                         0.987878
banco de dados [MR - 3](2).txt           