### Importando Bibliotecas

In [None]:
! python -m spacy download pt_core_news_sm

In [None]:
import glob
import re
import os
import unicodedata
import math

import nltk
from nltk.corpus        import stopwords
from nltk.tokenize      import word_tokenize
from nltk.stem.snowball import SnowballStemmer

from tabulate import tabulate

import spacy
import pt_core_news_sm

nlp = spacy.load("pt_core_news_sm")
nltk.download('stopwords')
nltk.download('punkt')

### Conectando ao Google Drive


In [None]:
from google.colab import drive
drive.mount('/content/drive')

### Importando os documentos



In [None]:
def read_file(directory: str) -> str:
    file = open(directory, 'r')
    text = file.read()

    return text

In [None]:
print(read_file('/content/drive/MyDrive/Information retrieval/data/estrutura de dados [AV - 2](3 - GABARITO).txt'))

Algoritmos e Estrutura de Dados - Arvores

Considere as seguintes assertivas sobre árvores binárias de busca e suas variantes:

I. Em árvores AVL, a altura máxima é garantida em O(log n), onde n é o número de elementos na árvore.
II. Árvores 2-3 são uma variação de árvores binárias de busca que permitem mais de dois filhos por nó.
III. Em árvores B, a profundidade de busca é sempre O(log n), independentemente da distribuição dos dados.
IV. Árvores de busca binária balanceadas como as AVL e as árvores rubro-negras garantem que a altura da árvore seja O(log n) no pior caso.

Alternativas:

A. Todas as assertivas estão corretas.
B. Todas as assertivas estão incorretas.
C. Apenas a assertiva I está correta.
D. Apenas as assertivas II e III estão corretas.
E. Apenas as assertivas III e IV estão corretas.


### Tratamento dos dados

##### Removendo acentuação

In [None]:
def remove_accents(text: str) -> str:
    nfkd = unicodedata.normalize('NFKD', text)

    filtered_text = ''.join([c for c in nfkd if not unicodedata.combining(c)])

    return filtered_text

In [None]:
print('Remoção de acentos: Análise ->', remove_accents('Análise'))

Remoção de acentos: Análise -> Analise


##### Removendo caracteres especiais

In [None]:
def remove_special_characters(text: str) -> str:
    regex = re.compile(r'[^a-zA-Z0-9\s]')

    filtered_text = re.sub(regex, '', text)

    return filtered_text

In [None]:
print('Remoção de caracteres especiais: Guarda-chuva ->', remove_special_characters('Guarda-chuva'))

Remoção de caracteres especiais: Guarda-chuva -> Guardachuva


##### Convertendo para minúsculas

In [None]:
def convert_to_lowercase(text: str) -> str:
    return text.casefold()

In [None]:
print('Conversão para minúsculas: Estrutura de Dados ->', convert_to_lowercase('Estrutura de Dados'))

Conversão para minúsculas: Estrutura de Dados -> estrutura de dados


##### Removendo *Stopwords*

In [None]:
def remove_stopwords(token: list[str]) -> list[str]:
    stop_words = stopwords.words('portuguese')

    filtered_token = [word for word in token if word not in stop_words]

    return filtered_token

In [None]:
print('Remoção de Stopwords: Todas aquelas pessoas -> ', remove_stopwords(['todas', 'aquelas', 'pessoas']))

Remoção de Stopwords: Todas aquelas pessoas ->  ['todas', 'pessoas']


##### Aplicando a derivação de palavras

In [None]:
def lemmatization_words(token: list[str]) -> list[str]:
    terms = nlp(" ".join(token))

    lemmatized_tokens = [term.lemma_ for term in terms]

    return lemmatized_tokens

In [None]:
print('Aplicação da lematização:', lemmatization_words(['amigo', 'amigos', 'amigas']))

Aplicação da lematização: ['amigo', 'amigo', 'amiga']


#### Aplicando as funções nos documentos

In [None]:
def pre_processing(folder: str, document_token: dict, vocabulary: set) -> tuple:
    files = sorted(glob.glob(folder))

    for file in files:
        text = read_file(file)

        text = remove_accents(text)
        text = remove_special_characters(text)
        text = convert_to_lowercase(text)

        token = word_tokenize(text)
        token = remove_stopwords(token)
        token = lemmatization_words(token)

        vocabulary.update(token)

        document_token[os.path.basename(file)] = token

    return document_token, vocabulary

In [None]:
folder = '/content/drive/MyDrive/Information retrieval/data/*'

document_token, vocabulary = pre_processing(folder, {}, set())

In [None]:
print('banco de dados [AR - 2](2).txt:', document_token['estrutura de dados [AV - 2](3 - GABARITO).txt'])

banco de dados [AR - 2](2).txt: ['algoritmos', 'estrutura', 'dar', 'arvor', 'considerar', 'seguinte', 'assertivo', 'sobre', 'arvor', 'binaria', 'buscar', 'variante', 'i', 'arvor', 'Avl', 'altura', 'maxima', 'garantir', 'olog', 'n', 'onde', 'n', 'numero', 'elemento', 'arvorir', 'ii', 'arvor', '23', 'sao', 'variacao', 'arvor', 'binaria', 'buscar', 'permitir', 'dois', 'filho', 'iii', 'arvor', 'b', 'profundidade', 'busco', 'sempre', 'olog', 'n', 'independentemente', 'distribuicao', 'dar', 'iv', 'arvor', 'busca', 'binar', 'balancear', 'avl', 'arvor', 'rubronegra', 'garantir', 'altura', 'arvorir', 'olog', 'n', 'mau', 'caso', 'alternativo', 'todo', 'assertiva', 'estao', 'correta', 'b', 'todo', 'assertiva', 'estao', 'incorreta', 'c', 'apenas', 'assertivo', 'i', 'correto', 'd', 'apenas', 'assertiva', 'ii', 'iii', 'estao', 'correta', 'apenas', 'assertivo', 'iii', 'iv', 'estao', 'correta']


In [None]:
print('Vocabulário:', sorted(vocabulary))

Vocabulário: ['0', '0010010010', '002', '010', '0110110110', '012', '012157913', '020', '0pessoas10', '1', '10', '100', '10000', '1001001001', '101', '11', '1101101101', '12', '12c', '13', '130121579', '13452', '139510716', '14352', '15', '15423', '15432', '17', '19', '1fn', '1n', '2', '20', '20000', '20999', '23', '234', '24', '25', '2a', '2fn', '3', '30', '32', '35', '396', '398', '3fn', '4', '40', '5', '6', '7', '8', '81', '839', '9', '951071613', '975211013', '98', '99', 'A2', 'Abstract', 'Agregacao', 'Assinale', 'Autonomoustransaction', 'Avl', 'Bubble', 'Campos', 'Ccodproduto', 'Chaves', 'Classe', 'Classes', 'Cnpj', 'Codproduto', 'Colocao', 'Compilacao', 'Definicao', 'Escola', 'Escritos', 'Estado', 'Estados', 'Estrela', 'Fault', 'Fifo', 'Forint', 'From', 'Geral', 'Grafo', 'Grafos', 'Gravacao', 'Gsignalconnect', 'Gtkcontainer', 'Gtkcontaineradd', 'Gtkinit', 'Gtklabelnew', 'Gtkmainquit', 'Gtkwindgetshowall', 'Heuristicas', 'Insercao', 'Keya2', 'L5', 'Lista', 'Long', 'Loop', 'Main', 

### Cálculo do TF-IDF



###### Preparação para o cálculo de TF-IDF

In [None]:
class Node:
    def __init__(self, name: str, frequency: int):
        self.frequency = frequency
        self.name      = name
        self.next      = None

    def __str__(self):
        return f'[Documento: {self.name}, Frequência: {self.frequency}]'

class LinkedList:
    def __init__(self):
        self.head = None

    def print_list(self) -> None:
        current_node = self.head

        while current_node:
            print(current_node, end = " -> ")
            current_node = current_node.next

        print("[ ]")

    def get_document_list(self) -> list[Node]:
        array = []
        node = self.head

        while node:
            array.append(node)
            node = node.next

        return array

    def append_document(self, name : str, frequency : int) -> None:
        new_node = Node(name, frequency)

        if self.head is None:
            self.head = new_node
            return

        last_node = self.head

        while last_node.next:
            last_node = last_node.next

        last_node.next = new_node

###### Geração da matriz de termo-frequência: $\text{TF}_{ij} = 1 + \log_2 F_{ij}$

In [None]:
def calculate_term_frequency(term_frequency: dict) -> dict:
    for name, token in document_token.items():
        for term in set(token):
            frequency = 1 + math.log2(token.count(term))

            term_frequency[term].append_document(name, frequency)

    return term_frequency

In [None]:
print('Exemplo de termo-frequência [arvore]:')

term_frequency = calculate_term_frequency({term: LinkedList() for term in vocabulary})

for document in term_frequency['arvore'].get_document_list():
    print(document)

Exemplo de termo-frequência [arvore]:
[Documento: banco de dados [MR - 2](10).txt, Frequência: 1.0]
[Documento: estrutura de dados [AV - 2](1 - GABARITO).txt, Frequência: 3.321928094887362]
[Documento: estrutura de dados [AV - 2](2 - GABARITO).txt, Frequência: 3.0]
[Documento: estrutura de dados [AV - 2](4 - GABARITO).txt, Frequência: 3.0]
[Documento: estrutura de dados [AV - 2](5 - GABARITO).txt, Frequência: 1.0]
[Documento: estrutura de dados [AV - 3](1 - GABARITO).txt, Frequência: 2.584962500721156]
[Documento: estrutura de dados [AV - 3](2 - GABARITO).txt, Frequência: 2.584962500721156]
[Documento: estrutura de dados [CA - 2](1 - GABARITO).txt, Frequência: 2.584962500721156]
[Documento: estrutura de dados [CA - 2](2 - GABARITO).txt, Frequência: 3.0]
[Documento: estrutura de dados [MO - 1](1 - GABARITO).txt, Frequência: 3.321928094887362]
[Documento: grafos [CB - 3](1).txt, Frequência: 3.0]


###### Geração da matriz de Frequência Inversa de Documento. $\text{IDF}_{i} =  \log_2 \frac {N} {n{i}}$

In [None]:
def calculate_IDF(term_frequency: dict, colletion_size: int, inverse_data_frequency: dict) -> dict:
    for term, posting in term_frequency.items():
        posting_size = len(posting.get_document_list())

        term_idf = math.log2(colletion_size / posting_size)

        inverse_data_frequency[term] = term_idf

    return inverse_data_frequency

In [None]:
print('Exemplo de frequência inversa de documento:')

inverse_data_frequency = calculate_IDF(term_frequency, len(document_token), {})

print('árvore:', inverse_data_frequency['arvore'])

Exemplo de frequência inversa de documento:
árvore: 3.2129937233341983


##### Geração da matriz de TF-IDF

In [None]:
def calculate_TF_IDF(term_frequency: dict, inverse_data_frequency: dict) -> dict:
    tf_idf = {term: LinkedList() for term in vocabulary}

    for term, posting in term_frequency.items():
        for node in posting.get_document_list():
            tf_idf[term].append_document(node.name, node.frequency * inverse_data_frequency[term])

    return tf_idf

In [None]:
print('Exemplo de TF-IDF:')

tf_idf = calculate_TF_IDF(term_frequency, inverse_data_frequency)

for document in tf_idf['arvore'].get_document_list():
    print(document)

Exemplo de TF-IDF:
[Documento: banco de dados [MR - 2](10).txt, Frequência: 3.2129937233341983]
[Documento: estrutura de dados [AV - 2](1 - GABARITO).txt, Frequência: 10.673334118240625]
[Documento: estrutura de dados [AV - 2](2 - GABARITO).txt, Frequência: 9.638981170002594]
[Documento: estrutura de dados [AV - 2](4 - GABARITO).txt, Frequência: 9.638981170002594]
[Documento: estrutura de dados [AV - 2](5 - GABARITO).txt, Frequência: 3.2129937233341983]
[Documento: estrutura de dados [AV - 3](1 - GABARITO).txt, Frequência: 8.305468289871348]
[Documento: estrutura de dados [AV - 3](2 - GABARITO).txt, Frequência: 8.305468289871348]
[Documento: estrutura de dados [CA - 2](1 - GABARITO).txt, Frequência: 8.305468289871348]
[Documento: estrutura de dados [CA - 2](2 - GABARITO).txt, Frequência: 9.638981170002594]
[Documento: estrutura de dados [MO - 1](1 - GABARITO).txt, Frequência: 10.673334118240625]
[Documento: grafos [CB - 3](1).txt, Frequência: 9.638981170002594]


### Cálculo de similaridade

###### Normalização

In [None]:
def normalize_vectors(tf_idf: dict) -> dict:
    document_norms = {}

    for term, posting in tf_idf.items():
        for node in posting.get_document_list():
            if node.name not in document_norms:
                document_norms[node.name] = 0

            document_norms[node.name] += node.frequency ** 2

    for name in document_norms:
        document_norms[name] = math.sqrt(document_norms[name])

    for term, posting in tf_idf.items():
        for node in posting.get_document_list():
            node.frequency /= document_norms[node.name]

    return document_norms

In [None]:
print('Norma de cada documento: ')

document_norms = normalize_vectors(tf_idf)
print(document_norms)

Norma de cada documento: 
{'estrutura de dados [AV - 3](1 - GABARITO).txt': 54.22186517693103, 'banco de dados [AR - 2](1).txt': 98.99936882666121, 'banco de dados [AR - 2](2).txt': 31.58146319632911, 'banco de dados [MR - 1](4).txt': 24.500785270453747, 'banco de dados [MR - 1](5).txt': 74.58442573913024, 'banco de dados [MR - 1](6).txt': 72.07879755416496, 'banco de dados [MR - 1](7).txt': 39.47274323658513, 'banco de dados [MR - 2](10).txt': 31.232472772097957, 'banco de dados [MR - 2](11).txt': 39.37426663142, 'banco de dados [MR - 2](8).txt': 70.17169620989254, 'banco de dados [MR - 2](9).txt': 71.6705861682143, 'banco de dados [MR - 3](1).txt': 41.52409920285135, 'banco de dados [MR - 3](2).txt': 53.56263130216006, 'banco de dados [MR - 3](3).txt': 41.01711260830103, 'grafos [AL - 3](3).txt': 72.15282036733427, 'programacao orientada a objetos [CB - 3](2).txt': 26.228037386218663, 'banco de dados [PL-SQL - 3](2).txt': 63.06271574438295, 'banco de dados [PT - 3](2).txt': 71.735295

##### Similaridade entre dois documentos

In [None]:
def calculate_cosine_similarity(doc1, doc2):
    vector1 = {}
    vector2 = {}

    for term, posting in tf_idf.items():
        for node in posting.get_document_list():
            if node.name == doc1:
                vector1[term] = node.frequency
            if node.name == doc2:
                vector2[term] = node.frequency

    dot_product = 0

    for term in vector1:
        if term in vector2:
            dot_product += vector1[term] * vector2[term]

    return dot_product

doc1 = 'estrutura de dados [AV - 2](3 - GABARITO).txt'

similarity = {}

for documento in document_token.keys():
    similarity[documento] = calculate_cosine_similarity(doc1, documento)

In [None]:
sorted_similarity = dict(sorted(similarity.items(), key=lambda item: item[1], reverse=True))

table = []
for key, value in sorted_similarity.items():
    table.append([key, f"{value}"])

print(tabulate(table, headers=["Arquivo", "Similaridade"], tablefmt="grid"))

+-------------------------------------------------+----------------+
| Arquivo                                         |   Similaridade |
| estrutura de dados [AV - 2](3 - GABARITO).txt   |    1           |
+-------------------------------------------------+----------------+
| estrutura de dados [AV - 2](5 - GABARITO).txt   |    0.822031    |
+-------------------------------------------------+----------------+
| estrutura de dados [AV - 2](2 - GABARITO).txt   |    0.537482    |
+-------------------------------------------------+----------------+
| estrutura de dados [AV - 2](4 - GABARITO).txt   |    0.505891    |
+-------------------------------------------------+----------------+
| estrutura de dados [AV - 3](2 - GABARITO).txt   |    0.289712    |
+-------------------------------------------------+----------------+
| programacao orientada a objetos [CB - 1](1).txt |    0.243173    |
+-------------------------------------------------+----------------+
| estrutura de dados [AV - 2](1 - 