## NOMBRE: Andrés Jiménez
## FECHA: 05-05-2025

# Ejercicio 2: Modelo Vectorial y TF-IDF

## Objetivo de la práctica

- Comprender el modelo vectorial como base para representar documentos y consultas.
- Calcular la matriz TF-IDF para el corpus `data/01_corpus_turismo_500.txt`

In [38]:
import math
from collections import defaultdict
import string

def limpiar_palabra(palabra):
    return ''.join(c for c in palabra.lower() if c.isalnum())

def procesar_documentos(corpus):
    lista_documentos = []
    conjunto_terminos = set()

    for documentos_corpus in corpus:
        with open(documentos_corpus, 'r', encoding='utf-8') as archivo:
            for linea in archivo:
                palabras = linea.strip().split()
                palabras_limpias = [
                    limpiar_palabra(p) for p in palabras if limpiar_palabra(p)
                ]
                lista_documentos.append(palabras_limpias)
                conjunto_terminos.update(palabras_limpias)

    lista_terminos = sorted(conjunto_terminos)
    return lista_terminos, lista_documentos

def construir_matriz_frecuencia(terminos, documentos):
    matriz_tf = []
    for documento in documentos:
        frecuencia = {termino: 0 for termino in terminos}
        for palabra in documento:
            if palabra in frecuencia:
                frecuencia[palabra] += 1
        matriz_tf.append(frecuencia)
    return matriz_tf

def calcular_idf(terminos, documentos):
    total_docs = len(documentos)
    df = {termino: 0 for termino in terminos}

    for termino in terminos:
        for doc in documentos:
            if termino in doc:
                df[termino] += 1

    idf = {
        termino: math.log10(total_docs / df[termino]) if df[termino] > 0 else 0.0
        for termino in terminos
    }
    return idf

def imprimir_matriz(terminos, documentos, matriz_tf, idf, max_docs=18):
    print(f"\n Total de documentos cargados: {len(documentos)}")
    print(f" Mostrando los primeros {min(len(documentos), max_docs)} documentos.")
    print(f" Términos únicos (incluyendo stopwords): {len(terminos)}")

    ancho_col = max(len(termino) for termino in terminos) + 2
    encabezado = "Término".ljust(ancho_col) + " | " + " | ".join([f"Doc{i+1}".center(5) for i in range(min(len(documentos), max_docs))]) + " | IDF"
    print("\n" + encabezado)
    print("-" * len(encabezado))

    for termino in terminos:
        fila = termino.ljust(ancho_col) + " | "
        fila += " | ".join(f"{matriz_tf[i][termino]:^5}" for i in range(min(len(documentos), max_docs)))
        fila += f" | {idf[termino]:.4f}"
        print(fila)

if __name__ == "__main__":
    rutas_corpus = [
        '/kaggle/input/corpus-500/01_corpus_turismo_500.txt'
    ]

    terminos, documentos = procesar_documentos(rutas_corpus)
    matriz_tf = construir_matriz_frecuencia(terminos, documentos)
    idf = calcular_idf(terminos, documentos)

    imprimir_matriz(terminos, documentos, matriz_tf, idf, max_docs=18)



 Total de documentos cargados: 500
 Mostrando los primeros 18 documentos.
 Términos únicos (incluyendo stopwords): 118

Término         |  Doc1 |  Doc2 |  Doc3 |  Doc4 |  Doc5 |  Doc6 |  Doc7 |  Doc8 |  Doc9 | Doc10 | Doc11 | Doc12 | Doc13 | Doc14 | Doc15 | Doc16 | Doc17 | Doc18 | IDF
---------------------------------------------------------------------------------------------------------------------------------------------------------------------
2000            |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   1   |   0   |   1   |   0   |   0   |   0   | 1.1805
a               |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   1   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   | 1.1308
agua            |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   |   0   | 1.1938
amazonía        |   0   |   0   |   0   