### Importando Bibliotecas

In [452]:
! python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.7.0
  Using cached https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [453]:
import glob
import re
import os
import unicodedata
import math

import nltk
from nltk.corpus        import stopwords
from nltk.tokenize      import word_tokenize
from nltk.stem.snowball import SnowballStemmer

import spacy
import pt_core_news_sm

nlp = spacy.load("pt_core_news_sm")
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

### Conectando ao Google Drive


In [454]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


### Importando os documentos



In [455]:
def read_file(directory: str) -> str:
    file = open(directory, 'r')
    text = file.read()

    # index = text.find("Alternativas")

    # if index != -1:
    #     return text[:index].strip()
    # return text.strip()

    return text

In [456]:
print(read_file('/content/drive/MyDrive/Information retrieval/data/estrutura de dados [AV - 2](3 - GABARITO).txt'))

Algoritmos e Estrutura de Dados - Arvores

Considere as seguintes assertivas sobre árvores binárias de busca e suas variantes:

I. Em árvores AVL, a altura máxima é garantida em O(log n), onde n é o número de elementos na árvore.
II. Árvores 2-3 são uma variação de árvores binárias de busca que permitem mais de dois filhos por nó.
III. Em árvores B, a profundidade de busca é sempre O(log n), independentemente da distribuição dos dados.
IV. Árvores de busca binária balanceadas como as AVL e as árvores rubro-negras garantem que a altura da árvore seja O(log n) no pior caso.

Escolha a alternativa correta:

A. Todas as assertivas estão corretas.
B. Todas as assertivas estão incorretas.
C. Apenas a assertiva I está correta.
D. Apenas as assertivas II e III estão corretas.
E. Apenas as assertivas III e IV estão corretas.


### Tratamento dos dados

##### Removendo acentuação

In [457]:
def remove_accents(text: str) -> str:
    nfkd = unicodedata.normalize('NFKD', text)

    filtered_text = ''.join([c for c in nfkd if not unicodedata.combining(c)])

    return filtered_text

In [458]:
print('Remoção de acentos: Análise ->', remove_accents('Análise'))

Remoção de acentos: Análise -> Analise


##### Removendo caracteres especiais

In [459]:
def remove_special_characters(text: str) -> str:
    regex = re.compile(r'[^a-zA-Z0-9\s]')

    filtered_text = re.sub(regex, '', text)

    return filtered_text

In [460]:
print('Remoção de caracteres especiais: Guarda-chuva ->', remove_special_characters('Guarda-chuva'))

Remoção de caracteres especiais: Guarda-chuva -> Guardachuva


##### Removendo *Stopwords*

In [461]:
def remove_stopwords(token: list[str]) -> list[str]:
    stop_words = stopwords.words('portuguese')

    filtered_token = [word for word in token if word not in stop_words]

    return filtered_token

In [462]:
print('Remoção de Stopwords: Todas aquelas pessoas -> ', remove_stopwords(['todas', 'aquelas', 'pessoas']))

Remoção de Stopwords: Todas aquelas pessoas ->  ['todas', 'pessoas']


##### Aplicando a derivação de palavras

In [463]:
def lemmatization_words(token: list[str]) -> list[str]:
    terms = nlp(" ".join(token))

    lemmatized_tokens = [term.lemma_ for term in terms]

    return lemmatized_tokens

In [464]:
print('Aplicação da lematização:', lemmatization_words(['amigo', 'amigos', 'amigas']))

Aplicação da lematização: ['amigo', 'amigo', 'amiga']


#### Aplicando as funções nos documentos

In [465]:
def pre_processing(folder: str, document_token: dict, vocabulary: set) -> tuple:
    files = sorted(glob.glob(folder))

    for file in files:
        text = read_file(file)

        text = remove_accents(text)
        text = remove_special_characters(text)

        token = word_tokenize(text)
        token = remove_stopwords(token)
        token = lemmatization_words(token)

        vocabulary.update(token)

        document_token[os.path.basename(file)] = token

    return document_token, vocabulary

In [466]:
folder = '/content/drive/MyDrive/Information retrieval/data/*'

document_token, vocabulary = pre_processing(folder, {}, set())

In [467]:
print('banco de dados [AR - 2](2).txt:', document_token['banco de dados [AR - 2](2).txt'])

banco de dados [AR - 2](2).txt: ['banco', 'Dados', 'algebra', 'relacional', 'o', 'Algebra', 'Relacional', 'possuir', 'vario', 'operador', 'binario', 'dentre', 'operador', 'listar', 'abaixo', 'unico', 'NAO', 'binario', 'Alternativas', 'o', 'divisao', 'B', 'projecao', 'C', 'juncao', 'natural', 'D', 'juncao', 'externo', 'esquerdo', 'e', 'produto', 'cartesiano']


In [468]:
print('Vocabulário:', sorted(vocabulary))

Vocabulário: ['0', '0010010010', '002', '010', '0110110110', '012', '012157913', '020', '038jpg', '039jpg', '040jpg', '041jpg', '042jpg', '0pessoas10', '1', '10', '100', '10000', '1001001001', '101', '11', '1101101101', '12', '12c', '13', '130121579', '13452', '139510716', '14352', '15', '15423', '15432', '17', '19', '1FN', '1n', '2', '20', '20000', '2023', '2024', '20999', '23', '24', '25', '2FN', '2a', '3', '30', '32', '35', '396', '398', '3FN', '4', '40', '5', '6', '7', '8', '81', '839', '9', '951071613', '975211013', '98', '99', 'A', 'A1', 'A2', 'AND', 'APENAS', 'AS', 'AUTONOMOUSTRANSACTION', 'AVL', 'Abstracao', 'Abstract', 'Abstrair', 'Acelerando', 'AcelerandoPassear', 'Acessibilidade', 'AdelsonVelskii', 'Admitem', 'Advanced', 'Agregacao', 'Agrupar', 'Alem', 'Algebra', 'Algoritmos', 'Alimentar', 'Alternativas', 'Analise', 'Analista', 'Ano', 'Apenas', 'Aplicacao', 'Arvore', 'Arvores', 'Assinale', 'Assinalea', 'Assumindo', 'AutomovelVeiculo', 'B', 'B1', 'B2', 'B3', 'BPMN', 'BTREE', 

### Cálculo do TF-IDF



###### Preparação para o cálculo de TF-IDF

In [469]:
class Node:
    def __init__(self, name: str, frequency: int):
        self.frequency = frequency
        self.name      = name
        self.next      = None

    def __str__(self):
        return f'[Documento: {self.name}, Frequência: {self.frequency}]'

class LinkedList:
    def __init__(self):
        self.head = None

    def print_list(self) -> None:
        current_node = self.head

        while current_node:
            print(current_node, end = " -> ")
            current_node = current_node.next

        print("[ ]")

    def get_document_list(self) -> list[Node]:
        array = []
        node = self.head

        while node:
            array.append(node)
            node = node.next

        return array

    def append_document(self, name : str, frequency : int) -> None:
        new_node = Node(name, frequency)

        if self.head is None:
            self.head = new_node
            return

        last_node = self.head

        while last_node.next:
            last_node = last_node.next

        last_node.next = new_node

###### Geração da matriz de termo-frequência: $\text{TF}_{ij} = 1 + \log_2 F_{ij}$

In [470]:
def calculate_term_frequency(term_frequency: dict) -> dict:
    for name, token in document_token.items():
        for term in set(token):
            frequency = 1 + math.log2(token.count(term))

            term_frequency[term].append_document(name, frequency)

    return term_frequency

In [471]:
print('Exemplo de termo-frequência [schedule]:')

term_frequency = calculate_term_frequency({term: LinkedList() for term in vocabulary})

for document in term_frequency['schedule'].get_document_list():
    print(document)

Exemplo de termo-frequência [schedule]:
[Documento: banco de dados [PL-SQL - 3](2).txt, Frequência: 2.0]
[Documento: banco de dados [PT - 3](2).txt, Frequência: 1.0]


###### Geração da matriz de Frequência Inversa de Documento. $\text{IDF}_{i} =  \log_2 \frac {N} {n{i}}$

In [472]:
def calculate_IDF(term_frequency: dict, colletion_size: int, inverse_data_frequency: dict) -> dict:
    for term, posting in term_frequency.items():
        posting_size = len(posting.get_document_list())

        term_idf = math.log2(colletion_size / posting_size)

        inverse_data_frequency[term] = term_idf

    return inverse_data_frequency

In [473]:
print('Exemplo de frequência inversa de documento:')

inverse_data_frequency = calculate_IDF(term_frequency, 101, {})

print('schedule:', inverse_data_frequency['schedule'])

Exemplo de frequência inversa de documento:
schedule: 5.658211482751795


##### Geração da matriz de TF-IDF

In [474]:
def calculate_TF_IDF(term_frequency: dict, inverse_data_frequency: dict) -> dict:
    tf_idf = {term: LinkedList() for term in vocabulary}

    for term, posting in term_frequency.items():
        for node in posting.get_document_list():
            tf_idf[term].append_document(node.name, node.frequency * inverse_data_frequency[term])

    return tf_idf

In [475]:
print('Exemplo de TF-IDF:')

tf_idf = calculate_TF_IDF(term_frequency, inverse_data_frequency)

for document in tf_idf['schedule'].get_document_list():
    print(document)

Exemplo de TF-IDF:
[Documento: banco de dados [PL-SQL - 3](2).txt, Frequência: 11.31642296550359]
[Documento: banco de dados [PT - 3](2).txt, Frequência: 5.658211482751795]


### Cálculo de similaridade

###### Normalização

In [476]:
def normalize_vectors(tf_idf: dict) -> dict:
    document_norms = {}

    # Calculo da norma
    for term, posting in tf_idf.items():
        for node in posting.get_document_list():
            if node.name not in document_norms:
                document_norms[node.name] = 0

            document_norms[node.name] += node.frequency ** 2

    for name in document_norms:
        document_norms[name] = math.sqrt(document_norms[name])

    # Divisão do termo pela norma
    for term, posting in tf_idf.items():
        for node in posting.get_document_list():
            node.frequency /= document_norms[node.name]

    return document_norms

In [477]:
print('Norma de cada documento: ')

document_norms = normalize_vectors(tf_idf)
print(document_norms)

Norma de cada documento: 
{'introducao a programacao [BB - 3](1).txt': 66.57535142308782, 'introducao a programacao [CB - 1](3).txt': 25.664911662461854, 'banco de dados [AR - 2](1).txt': 99.67177280807265, 'estrutura de dados [CB - 3](2 - GABARITO).txt': 58.198623949013204, 'introducao a programacao [CL- 3](1).txt': 47.575539658185605, 'grafos [CB - 2](2).txt': 52.803250522256384, 'estrutura de dados [MB - 2](1).txt': 67.48872783909773, 'estrutura de dados [MO - 1](4).txt': 59.058253285703195, 'grafos [CA - 3](1).txt': 26.497559468766408, 'grafos [CA - 3](2).txt': 25.001442577414046, 'grafos [CB - 1](2).txt': 25.079925745113698, 'grafos [CB - 2](4).txt': 55.08402501029105, 'introducao a programacao [CB - 1](7).txt': 26.79523031311188, 'introducao a programacao [CB - 3](1).txt': 52.249812138999516, 'introducao a programacao [CL - 3](2).txt': 56.59565066367739, 'banco de dados [MR - 2](8).txt': 71.21322855751586, 'banco de dados [MR - 3](1).txt': 43.15830605261829, 'banco de dados [MR -

##### Similaridade entre dois documentos

In [478]:
def calculate_cosine_similarity(doc1, doc2):
    vector1 = {}
    vector2 = {}

    for term, posting in tf_idf.items():
        for node in posting.get_document_list():
            if node.name == doc1:
                vector1[term] = node.frequency
            if node.name == doc2:
                vector2[term] = node.frequency

    dot_product = 0

    for term in vector1:
        if term in vector2:
            dot_product += vector1[term] * vector2[term]

    return dot_product

# Exemplo de uso
doc1 = 'estrutura de dados [AV - 2](3 - GABARITO).txt'

similarity = {}

for documento in document_token.keys():
    similarity[documento] = calculate_cosine_similarity(doc1, documento)

In [479]:
dict(sorted(similarity.items(), key=lambda item: item[1], reverse=True))

{'estrutura de dados [AV - 2](3 - GABARITO).txt': 1.0000000000000007,
 'estrutura de dados [AV - 2](4 - GABARITO).txt': 0.5531921045772443,
 'estrutura de dados [CB - 3](2 - GABARITO).txt': 0.32236434508704126,
 'estrutura de dados [AV - 2](1 - GABARITO).txt': 0.2438359391947934,
 'programacao orientada a objetos [CB - 1](1).txt': 0.19352635489917375,
 'estrutura de dados [CB - 3](1 - GABARITO).txt': 0.1273094749860528,
 'estrutura de dados [CA - 2](1).txt': 0.12589544293695543,
 'banco de dados [CB- 2](1).txt': 0.11921009338458627,
 'banco de dados [PL-SQL - 3](1).txt': 0.10883500664471377,
 'programacao orientada a objetos [CB - 3](4).txt': 0.1084811614370495,
 'programacao orientada a objetos [CB - 2](7).txt': 0.10648237407259055,
 'banco de dados [MR - 3](3).txt': 0.09794807278405915,
 'programacao orientada a objetos [CB - 2](5).txt': 0.09231992223793364,
 'grafos [AL - 3](3).txt': 0.08963875363099022,
 'grafos [AL - 3](2).txt': 0.08775073417177665,
 'estrutura de dados [CA - 1](1