Programa para el conteo de terminos del documento y cuanta información tiene el termino.

In [16]:
import requests
import math

def obtener_contenido_documento(url):

    try:
        response = requests.get(url)
        response.raise_for_status()
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"Error al acceder a la URL {url}: {e}")
        return None

def crear_matriz_terminos(texto):

    documentos = texto.strip().split('\n')
    todos_terminos = set()
    for documento in documentos:
        for palabra in documento.split():
            todos_terminos.add(palabra.lower())

    # 1. Crear la matriz
    num_terminos = len(todos_terminos)
    num_documentos = len(documentos)
    matriz = [[0] * num_documentos for _ in range(num_terminos)]  #

    # 2. Llenar la matriz
    lista_terminos = sorted(list(todos_terminos))
    for i, termino in enumerate(lista_terminos):
        for j, documento in enumerate(documentos):
            if termino in documento.lower().split():
                matriz[i][j] = 1

    return lista_terminos, matriz

def calcular_idf(terminos, matriz):

    num_documentos = len(matriz[0])
    idf_valores = {}
    for i, termino in enumerate(terminos):
        # Contar en cuántos documentos aparece el término
        num_docs_con_termino = sum(matriz[i])
        # Calcular IDF
        idf_valores[termino] = math.log(num_documentos / (num_docs_con_termino + 1))
    return idf_valores

def mostrar_matriz(terminos, matriz, idf_valores):# Muestra la matriz



    print(" ||          Matriz Término-Documento          || \n")


    max_len_term = max(len(term) for term in terminos)
    encabezado = "Término".ljust(max_len_term + 2) + "\t|\t" + "\t|\t".join(f"Doc {i+1}" for i in range(len(matriz[0]))) + "\t| IDF"
    print(encabezado)
    print("--" * len(encabezado))


    for i, termino in enumerate(terminos):
        fila_str = "\t|\t".join(str(val).center(3) for val in matriz[i])
        idf_str = f"{idf_valores[termino]:.2f}"
        print(f"{termino.ljust(max_len_term + 2)}\t|\t{fila_str}\t|\t{idf_str.center(4)}")

#Enlace del documento en el repositorio
if __name__ == "__main__":
    url = "https://raw.githubusercontent.com/ivan-carrera/ir25a/main/data/01_corpus_turismo.txt"
    contenido = obtener_contenido_documento(url)

    if contenido:
        terminos, matriz = crear_matriz_terminos(contenido)
        idf_valores = calcular_idf(terminos, matriz)
        mostrar_matriz(terminos, matriz, idf_valores)

 ||          Matriz Término-Documento          || 

Término         	|	Doc 1	|	Doc 2	|	Doc 3	|	Doc 4	|	Doc 5	|	Doc 6	|	Doc 7	|	Doc 8	|	Doc 9	|	Doc 10	|	Doc 11	|	Doc 12	|	Doc 13	|	Doc 14	|	Doc 15	|	Doc 16	| IDF
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
2000,           	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 1 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	2.08
a               	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 1 	|	 1 	|	 0 	|	 1 	|	 0 	|	 0 	|	 1 	|	 0 	|	 0 	|	 0 	|	1.16
agua            	|	 0 	|	 0 	|	 0 	|	 1 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	2.08
alrededor       	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	 1 	|	 0 	|	 0 	|	 0 	|	 0 	|	 0 	|	