Limpieza de datos y generacion de n-gramas

In [None]:
# Importamos las librerías necesarias
import os  
import re  
from collections import Counter  
from nltk.util import ngrams  # Para generar n-gramas (pares o grupos de palabras consecutivas)

# Ruta donde se encuentran los documentos generados
directorio_documentos = '../documentos/documentos_generados'

# Función para limpiar y tokenizar texto
def limpiar_y_tokenizar(texto):
    """
    Esta función toma un texto como entrada y realiza los siguientes pasos:
    1. Convierte todo el texto a minúsculas para evitar diferencias entre palabras como "Hola" y "hola".
    2. Elimina signos de puntuación utilizando regex.
    3. Divide el texto en palabras individuales (tokens) separadas por espacios.
    """
    texto = texto.lower()
    # Eliminar signos de puntuación (todo lo que no sea letras, números o espacios)
    texto = re.sub(r'[^\w\s]', '', texto)
    # Dividir el texto en palabras (tokens)
    tokens = texto.split()
    return tokens  # Devolvemos la lista de palabras

# Función para generar n-gramas
def generar_ngrams(tokens, n=2):
    """
    Esta función genera n-gramas a partir de una lista de palabras (tokens).
    Un n-grama es una secuencia de 'n' palabras consecutivas.
    Por ejemplo:
    - Para n=2 (bi-gramas): ['hola', 'mundo'] -> [('hola', 'mundo')]
    """
    return list(ngrams(tokens, n))  # Usamos la función ngrams de nltk para generar los n-gramas

# Procesar todos los documentos de texto
for archivo in os.listdir(directorio_documentos):  
    # Construimos la ruta completa del archivo
    ruta_archivo = os.path.join(directorio_documentos, archivo) #agregamos el nombre del archivo a la ruta
    
    with open(ruta_archivo, 'r', encoding='utf-8') as f:
        texto = f.read()
        
        # Limpieza y tokenización del texto
        tokens = limpiar_y_tokenizar(texto)
        
        # Generar bi-gramas (pares de palabras consecutivas)
        bigramas = generar_ngrams(tokens, 2)
        

Creacion de tabla hash

In [4]:
# Crear una tabla hash para almacenar los n-gramas
tabla_hash = {}

# Función para agregar n-gramas a la tabla hash
def agregar_a_tabla_hash(ngrams, tabla_hash):
    for ngram in ngrams:
        if ngram in tabla_hash:
            tabla_hash[ngram] += 1
        else:
            tabla_hash[ngram] = 1

# Procesar todos los documentos y almacenar los n-gramas en la tabla hash
for archivo in os.listdir(directorio_documentos):
    ruta_archivo = os.path.join(directorio_documentos, archivo)
    with open(ruta_archivo, 'r', encoding='utf-8') as f:
        texto = f.read()
        # Limpieza y tokenización
        tokens = limpiar_y_tokenizar(texto)
        # Generar bi-gramas y tri-gramas
        bigramas = generar_ngrams(tokens, 2)
        # Agregar n-gramas a la tabla hash
        agregar_a_tabla_hash(bigramas, tabla_hash)

# Mostrar los n-gramas almacenados en la tabla hash
print("Tabla Hash de n-gramas:")
for ngram, frecuencia in tabla_hash.items():
    print(f"{ngram}: {frecuencia}")

Tabla Hash de n-gramas:
('codigo', 'algoritmo'): 20
('algoritmo', 'documento'): 26
('documento', 'texto'): 22
('texto', 'codigo'): 21
('codigo', 'mundo'): 13
('mundo', 'mundo'): 13
('mundo', 'python'): 18
('python', 'hola'): 28
('hola', 'mundo'): 22
('python', 'inteligente'): 23
('inteligente', 'documento'): 24
('documento', 'inteligente'): 27
('inteligente', 'inteligente'): 23
('documento', 'aprendizaje'): 20
('aprendizaje', 'inteligente'): 17
('documento', 'programar'): 25
('programar', 'hola'): 21
('hola', 'python'): 29
('hola', 'programar'): 19
('hola', 'hola'): 26
('hola', 'texto'): 22
('texto', 'python'): 17
('python', 'codigo'): 22
('algoritmo', 'codigo'): 20
('codigo', 'inteligente'): 16
('inteligente', 'python'): 22
('python', 'programar'): 10
('programar', 'inteligente'): 26
('inteligente', 'aprendizaje'): 21
('aprendizaje', 'python'): 23
('inteligente', 'codigo'): 22
('inteligente', 'algoritmo'): 17
('codigo', 'texto'): 17
('texto', 'texto'): 14
('texto', 'documento'): 19
('

In [9]:
# Función para calcular la Similitud de Jaccard
def calcular_similitud_jaccard(ngrams_doc1, ngrams_doc2):
    # Convertir los n-gramas a conjuntos
    conjunto1 = set(ngrams_doc1)
    conjunto2 = set(ngrams_doc2)
    # Calcular la intersección y la unión
    interseccion = len(conjunto1.intersection(conjunto2))
    union = len(conjunto1.union(conjunto2))
    # Retornar la similitud de Jaccard
    return interseccion / union if union != 0 else 0

# Comparar documentos en el directorio y almacenar similitudes
documentos = os.listdir(directorio_documentos)
similitudes = []

for i in range(len(documentos)):
    for j in range(i + 1, len(documentos)):
        # Leer y procesar el primer documento
        ruta_doc1 = os.path.join(directorio_documentos, documentos[i])
        with open(ruta_doc1, 'r', encoding='utf-8') as f1:
            texto1 = f1.read()
            tokens1 = limpiar_y_tokenizar(texto1)
            ngrams_doc1 = generar_ngrams(tokens1, 2)  # Cambiar a 3 para tri-gramas

        # Leer y procesar el segundo documento
        ruta_doc2 = os.path.join(directorio_documentos, documentos[j])
        with open(ruta_doc2, 'r', encoding='utf-8') as f2:
            texto2 = f2.read()
            tokens2 = limpiar_y_tokenizar(texto2)
            ngrams_doc2 = generar_ngrams(tokens2, 2)  # Cambiar a 3 para tri-gramas

        # Calcular la similitud de Jaccard
        similitud = calcular_similitud_jaccard(ngrams_doc1, ngrams_doc2)
        similitudes.append((documentos[i], documentos[j], similitud))

# Ordenar las similitudes de mayor a menor
similitudes.sort(key=lambda x: x[2], reverse=True)




In [8]:
# Algoritmo Merge Sort para ordenar las similitudes
def merge_sort(similitudes):
    if len(similitudes) <= 1:
        return similitudes

    # Dividir la lista en dos mitades
    mid = len(similitudes) // 2
    izquierda = merge_sort(similitudes[:mid])
    derecha = merge_sort(similitudes[mid:])

    # Combinar las mitades ordenadas
    return merge(izquierda, derecha)

def merge(izquierda, derecha):
    resultado = []
    i = j = 0

    # Comparar y combinar las dos listas
    while i < len(izquierda) and j < len(derecha):
        if izquierda[i][2] > derecha[j][2]:  # Ordenar por similitud (índice 2)
            resultado.append(izquierda[i])
            i += 1
        else:
            resultado.append(derecha[j])
            j += 1

    # Agregar los elementos restantes
    resultado.extend(izquierda[i:])
    resultado.extend(derecha[j:])
    return resultado

# Ordenar las similitudes usando Merge Sort
similitudes_ordenadas = merge_sort(similitudes)

# Mostrar los N documentos más similares
N = 5  # Cambia este valor para mostrar más o menos resultados
print(f"Top {N} documentos más similares:")
for doc1, doc2, similitud in similitudes_ordenadas[:N]:
    print(f"{doc1} y {doc2}: {similitud:.2f}")

Top 5 documentos más similares:
documento_10.txt y documento_9.txt: 0.62
documento_19.txt y documento_3.txt: 0.59
documento_3.txt y documento_4.txt: 0.59
documento_10.txt y documento_19.txt: 0.59
documento_4.txt y documento_9.txt: 0.59
