# Conceitos

# Exercício Proposto

Modelo Vetorial

Dada a coleção cedida pelo docente, faça um programa Python que:

1. Retira stopwords, dígitos, espaços adicionais, hífens, pontuação, tokeniza cada texto (documento).

2. Gerar o vocabulário dos documentos da coleção (palavras simples).

3. Para cada documento da coleção gerar o vetor com pesos tf-idf para cada termo do documento, existente no vocabulário. Esse vetor contém todos os termos do vocabulário.

4. Ler a consulta do teclado como uma lista de termos, gerar o vetor de pesos tf-idf da consulta, de acordo com o vocabulário.

5. Ranquear em ordem decrescente (maior para o menor) os documentos, pontuados no cálculo de similaridade do vetor de documento com o vetor de consulta.

6. Observe que todos os vetores têm o mesmo tamanho, e a posição de cada elemento de um vetor corresponde a um termo do vocabulário com seu peso tf-idf para um documento ou a consulta.

![fluxo](https://i.postimg.cc/bJfWt8TQ/Untitled-2024-06-18-1502.png)

In [None]:
!pip install -U Unidecode
!pip install -U pandas==2.2.2
!pip install -U nltk
!pip install -U scikit-learn
!pip install -U matplotlib
!pip install -U seaborn

In [None]:
# Importing

https://github.com/johanessevero/pre_processamento_texto_python/blob/main/pre_processamento_texto_python.ipynb
https://www.youtube.com/watch?v=yJ1djbHCQGU
https://www.youtube.com/watch?v=hGivAiw9ytY

In [43]:
from google.colab import drive
import pandas as pd
import time
import nltk
import re
import os
import glob

from concurrent.futures import ThreadPoolExecutor  # Para execução assíncrona e paralela usando um pool de threads
from nltk.corpus import stopwords  # Lista de palavras comuns a serem ignoradas em NLP
from string import punctuation  # Conjunto de caracteres de pontuação padrão
from nltk.tokenize import word_tokenize
from nltk.text import Text
import string
from unidecode import unidecode  # Converte caracteres Unicode para ASCII simples, removendo acentos
from collections import Counter  # Conta a frequência de elementos em uma lista ou texto
from tqdm import tqdm  # Adiciona uma barra de progresso visual para loops e iterações

In [83]:
nltk.download('stopwords')
nltk.download('punkt_tab')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [84]:
print(stopwords.words('portuguese'))

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

In [None]:
# Loading Data

In [45]:
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [87]:
def carregar_arquivos(diretorio: str) -> list:

    arquivos_conteudo = []

    if os.path.isdir(diretorio):
        for arquivo in glob.glob(os.path.join(diretorio, '*.txt')):
            try:
                with open(arquivo, 'r', encoding='utf-8') as txt:
                    arquivos_conteudo.append(txt.read().lower())
            except Exception as e:
                print(f"Erro ao ler o arquivo {arquivo}: {e}")
    else:
        print(f"O diretório {diretorio} não existe.")

    return arquivos_conteudo

def tokenize_texto(text):
    if isinstance(text, list):
        text = ' '.join(text)
    elif not isinstance(text, str):
        text = str(text)



    text_no_punctuation = text_clean.translate(str.maketrans("", "", string.punctuation))
    nao_alphanumerico = re.compile(r'[^\w\s\-\']')
    text_clean = re.sub(r'[^\w\s]', '', text)
    digitos = re.compile(r'\d')
    mult_espacos = re.compile(r'\s+')
    break_lines = re.compile(r'[\r\n]+')

    extra_stopwords = ['v', 'ja', 'b', 'ce', 'and', 'of', 'in', 'u']
    stop_words = set(stopwords.words('portuguese') +
                     stopwords.words('english') +
                     stopwords.words('spanish') +
                     extra_stopwords).union(set(punctuation))

    cl = break_lines.sub(' ', text)
    cl = nao_alphanumerico.sub(' ', cl)
    cl = digitos.sub('', cl)
    cl = mult_espacos.sub(' ', cl)
    cl = cl.lower().strip()
    cl = unidecode(cl)

    tokens = word_tokenize(cl)

    filtered_sentence = [w for w in tokens if not w.lower() in stop_words]
    filtered_sentence = []

    for w in tokens:
        if w not in stop_words:
            filtered_sentence.append(w)

    return filtered_sentence

In [88]:
path_EdFisica_txt = "/content/drive/MyDrive/DAI-PROJETO/Corpus/EdFisica_txt/"
raw_edfisica = carregar_arquivos(path_EdFisica_txt)
text = tokenize_texto(raw_edfisica)
print(text)

['institute', 'physical', 'education', 'sports', 'federal', 'university', 'ceara', 'fortaleza', 'brazil', 'program', 'physiotherapy', 'functioning', 'federal', 'university', 'ceara', 'fortaleza', 'brazil', 'federal', 'institute', 'education', 'science', 'technology', 'itapipoca', 'itapipoca', 'brazil', 'federal', 'university', 'pernambuco', 'vitoria', 'santo', 'antao', 'pe', 'brazil', 'associacao', "d'eficiencia", 'superando', 'limites', 'fortaleza', 'brazil', 'gracie', 'barra', 'arizona', 'phoenix', 'united', 'states', 'america', 'federal', 'university', 'triangulo', 'mineiro', 'uberaba', 'mg', 'brazil', 'comparative', 'analysis', 'amputee', 'soccer', 'players', 'coach', 'perception', 'intensity', 'training', 'https', 'doi', 'org', 'issn', 'mario', 'antonio', 'moura', 'simim', 'alexandre', 'igor', 'araripe', 'medeiros', 'andre', 'igor', 'fonteles', 'saulo', 'fernandes', 'melo', 'oliveira', 'edilson', 'moreira', 'sousa', 'junior', 'felipe', 'nogueira', 'catunda', 'bruno', 'victor', 'co

In [14]:
# Caminho dos repositórios
path_EdFisica_txt = "/content/drive/MyDrive/DAI-PROJETO/Corpus/EdFisica_txt/"
path_Geografia_txt = "/content/drive/MyDrive/DAI-PROJETO/Corpus/Geografia_txt/"
path_Historia_txt = "/content/drive/MyDrive/DAI-PROJETO/Corpus/Historia_txt/"
path_Linguistica_txt = "/content/drive/MyDrive/DAI-PROJETO/Corpus/Linguistica_txt/"

# Carga de dados
raw_edfisica = carregar_arquivos(path_EdFisica_txt)
raw_geografia = carregar_arquivos(path_Geografia_txt)
raw_historia = carregar_arquivos(path_Historia_txt)
raw_linguistica = carregar_arquivos(path_Linguistica_txt)

In [None]:


def processamento(texts):
    inicio = time.time()

    with ThreadPoolExecutor(max_workers=4) as executor:
        resultados = list(tqdm(executor.map(lambda text:
        tokenize_texto(text), texts),
        total=len(texts), ncols=100))

    vocabulario = set()

    for tokens in resultados:
        vocabulario.update(tokens)

    fim = time.time()

    tempo = fim - inicio

    print(f"Tempo total de processamento: {tempo:.2f} segundos")
    print(f"Total de palavras únicas no vocabulário: {len(vocabulario)}")

    return vocabulario

In [None]:
# Dados limpos e adaptados
bronze_EdFisica_txt = processamento(raw_edfisica)
bronze_Geografia_txt = processamento(raw_geografia)
bronze_Historia_txt = processamento(raw_historia)
bronze_Linguistica_txt = processamento(raw_linguistica)

100%|████████████████████████████████████████████████████████████| 21/21 [00:00<00:00, 22344.09it/s]


Tempo total de processamento: 0.19 segundos
Total de palavras únicas no vocabulário: 13290


100%|██████████████████████████████████████████████████████████████| 27/27 [00:00<00:00, 935.63it/s]


Tempo total de processamento: 0.25 segundos
Total de palavras únicas no vocabulário: 14389


100%|███████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 122461.43it/s]


Tempo total de processamento: 0.28 segundos
Total de palavras únicas no vocabulário: 19278


100%|█████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 8938.31it/s]

Tempo total de processamento: 0.33 segundos
Total de palavras únicas no vocabulário: 19706





In [None]:
print(bronze_EdFisica_txt)

2. Gerar o vocabulário dos documentos da coleção (palavras simples).

- GERADO NA FUNÇÃO 'processamento', onde pode ser verificado na célular anterior, o código de gerar o vocabulário a partir dos textos

3. Para cada documento da coleção gerar o vetor com pesos tf-idf para cada termo do documento, existente no vocabulário. Esse vetor contém todos os termos do vocabulário.

In [None]:
# Cria conjuntos para cada arquivo e faz a união
setDicionarios = set(bronze_EdFisica_txt).union(
    set(bronze_Geografia_txt),
    set(bronze_Historia_txt),
    set(bronze_Linguistica_txt)
)

# Conta o total de palavras únicas
total_palavras_unicas = len(setDicionarios)

print("Total de palavras únicas:", total_palavras_unicas)

Total de palavras únicas: 43324


In [None]:
print(setDicionarios)

{'regimes', 'gen', 'edufu', 'modulacao', 'buscado', 'respaldando', 'quintou', 'neira', 'estadia', 'bichinha', 'alrededor', 'dezessete', 'participativas', 'limitado', 'imaginados', 'tapar', 'prolongamen', 'permitidos', 'comprovar', 'concourse', 'poeticas', 'eac', 'linterieur', 'endogeno', 'wide', 'resul', 'twentieth', 'pesquisador', 'decs', 'lencol', 'segue', 'existen', 'fischer', 'sartorelli', 'casalegno', 'desesperado', 'gemina', 'proporciones', 'vigorar', 'aplicaram', 'valorizala', 'provisoes', 'raca', 'trabajar', 'berger', 'angelina', 'ppgeo', 'requalificar', 'empenhado', 'acoplamientos', 'desafio', 'conjectural', 'beholder', 'timetrial', 'relativiza', 'palmares', 'gupta', 'medieval', 'experien', 'interpretativos', 'mudado', 'supportive', 'gramatica', 'nainr', 'conserven', 'rule', 'jiang', 'agravamento', 'jatene', 'kit', 'lancet', 'naonegros', 'apresentarei', 'adquira', 'tradu', 'eur', 'temem', 'nhecimento', 'alienacaoseparacao', 'dr', 'cubos', 'feridas', 'formaram', 'potential', 'c

In [None]:
# Criar dicionários para cada conjunto de palavras
DictEdFisica = dict.fromkeys(setDicionarios, 0)
DictGeografia = dict.fromkeys(setDicionarios, 0)
DictHistoria = dict.fromkeys(setDicionarios, 0)
DictLinguistica = dict.fromkeys(setDicionarios, 0)

In [None]:
for word in bronze_EdFisica_txt:
    DictEdFisica[word]+=1

for word in bronze_Geografia_txt:
    DictGeografia[word]+=1

for word in bronze_Historia_txt:
    DictHistoria[word]+=1

for word in bronze_Linguistica_txt:
    DictLinguistica[word]+=1

In [None]:
print(DictLinguistica)

In [None]:
def computeTF(wordDict, bronze):
    tfDict = {}
    bowCount = len(bronze)
    for word, count in wordDict.items():
        tfDict[word] = count/float(bowCount)
    return tfDict

def computeIDF(docList):
    import math
    idfDict = {}
    N = len(docList)

    idfDict = dict.fromkeys(docList[0].keys(), 0)

    for doc in docList:
        for word, val in doc.items():
            if val > 0:
                idfDict[word] += 1

    for word, val in idfDict.items():
        idfDict[word] = math.log10(N / float(val))

    return idfDict

def computeTFIDF(tfBow, idfs):
    tfidf = {}
    for word, val in tfBow.items():
        tfidf[word] = val*idfs[word]
    return tfidf

In [None]:
tfEdFisica = computeTF(DictEdFisica, bronze_EdFisica_txt)
tfGeografia = computeTF(DictGeografia, bronze_Geografia_txt)
tfHistoria = computeTF(DictHistoria, bronze_Historia_txt)
tfLinguistica = computeTF(DictLinguistica, bronze_Linguistica_txt)

In [None]:
idfs = computeIDF([DictEdFisica, DictGeografia, DictHistoria, DictLinguistica])

In [None]:
tfidfEdFisica = computeTFIDF(tfEdFisica, idfs)
tfidfGeografia = computeTFIDF(tfGeografia, idfs)
tfidfHistoria = computeTFIDF(tfHistoria, idfs)
tfidfLinguistica= computeTFIDF(tfLinguistica, idfs)

In [None]:
import pandas as pd
data = pd.DataFrame([tfidfEdFisica, tfidfGeografia, tfidfHistoria, tfidfLinguistica])
data

Unnamed: 0,regimes,gen,edufu,modulacao,buscado,respaldando,quintou,neira,estadia,bichinha,...,interferiam,tambara,estuarine,invisibilizado,alirio,magnifico,marciais,learning,destruicao,cartesiana
0,9e-06,4.5e-05,0.0,0.0,0.0,0.0,0.0,0.0,4.5e-05,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,4.5e-05,9e-06,0.0,0.0
1,9e-06,0.0,0.0,0.0,4.2e-05,0.0,0.0,0.0,0.0,0.0,...,0.0,4.2e-05,4.2e-05,0.0,4.2e-05,0.0,0.0,0.0,0.0,0.0
2,6e-06,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.1e-05,...,3.1e-05,0.0,0.0,3.1e-05,0.0,3.1e-05,0.0,6e-06,0.0,3.1e-05
3,0.0,0.0,3.1e-05,3.1e-05,0.0,3.1e-05,3.1e-05,3.1e-05,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,6e-06,0.0,0.0


4. Ler a consulta do teclado como uma lista de termos, gerar o vetor de pesos tf-idf da consulta, de acordo com o vocabulário.

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

"""
cosine_similarity em scikit-learn:

Valor 1: Se a similaridade de cosseno é 1, os vetores são idênticos em direção (o ângulo entre eles é 0°).
Isso indica uma alta similaridade.
Valor 0: Se a similaridade de cosseno é 0, os vetores são ortogonais (o ângulo entre eles é 90°).
Isso indica que não há similaridade.
"""

def processar_consulta(consulta, vocabulario, idfs):
    # Usa a função de tokenização para a consulta
    consulta_tokens = processamento([consulta])

    # Cria um dicionário para a consulta
    dict_consulta = dict.fromkeys(vocabulario, 0)

    for token in consulta_tokens:
        if token in dict_consulta:
            dict_consulta[token] += 1

    # Calcula TF para a consulta
    tf_consulta = computeTF(dict_consulta, consulta_tokens)

    # Calcula TF-IDF para a consulta
    tfidf_consulta = computeTFIDF(tf_consulta, idfs)

    return tfidf_consulta

def calcular_similaridade(vetor_consulta, vetores_documentos, vocabulario):

    # Converte os dicionários em arrays numpy, alinhados pelo vocabulário
    vetor_consulta_array = np.array([vetor_consulta.get(word, 0) for word in vocabulario])
    vetores_documentos_array = np.array([[doc.get(word, 0) for word in vocabulario] for doc in vetores_documentos])

    """
    Os vetores são construídos usando a mesma ordem de termos definida pelo vocabulario.
    Isso significa que, para cada termo no vocabulário, obtemos seu valor TF-IDF no vetor da consulta ou dos documentos.
    Se um termo não estiver presente em um documento ou na consulta, seu valor TF-IDF será 0 (vetor_consulta.get(word, 0) e doc.get(word, 0)).
    """

    # Calcula a similaridade de cosseno
    similaridades = cosine_similarity([vetor_consulta_array], vetores_documentos_array)[0]

    return similaridades

def buscar_documentos(consulta, vocabulario, idfs, documentos):
    # Processa a consulta
    vetor_consulta = processar_consulta(consulta, vocabulario, idfs)

    # Calcula as similaridades
    similaridades = calcular_similaridade(vetor_consulta, documentos, vocabulario)

    # Cria uma lista de tuplas (índice do documento, similaridade)
    resultados = list(enumerate(similaridades))

    # Ordena os resultados por similaridade em ordem decrescente
    resultados_ordenados = sorted(resultados, key=lambda x: x[1], reverse=True)

    return resultados_ordenados

consulta = input("Digite sua consulta: ")

vocabulario = setDicionarios
documentos = [tfidfEdFisica, tfidfGeografia, tfidfHistoria, tfidfLinguistica]
nomes_documentos = ["Educação Física", "Geografia", "História", "Linguística"]

resultados = buscar_documentos(consulta, vocabulario, idfs, documentos)

print("\nResultados da busca:")

for indice, similaridade in resultados:
    if similaridade > 0:
        print(f"{nomes_documentos[indice]}: {similaridade:.4f}")


Digite sua consulta:  difundiram a burguesia sofisticada com o seu produto


100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 8507.72it/s]

Tempo total de processamento: 0.00 segundos
Total de palavras únicas no vocabulário: 4

Resultados da busca:
Geografia: 0.0102
Educação Física: 0.0085
História: 0.0016





5. Ranquear em ordem decrescente (maior para o menor) os documentos, pontuados no cálculo de similaridade do vetor de documento com o vetor de consulta.

In [None]:
# Reposta no exemplo anterior

6. Observe que todos os vetores têm o mesmo tamanho, e a posição de cada elemento de um vetor corresponde a um termo do vocabulário com seu peso tf-idf para um documento ou a consulta.

No código, esse alinhamento é feito no (setDicionarios) seja a referência para todos os vetores TF-IDF. Para cada documento e para a consulta, gerando um vetor onde cada posição representa o peso TF-IDF do termo correspondente no vocabulário.