# Ejercicio 2: Modelo Vectorial y TF-IDF

## Objetivo de la práctica

- Comprender el modelo vectorial como base para representar documentos y consultas.
- Calcular la matriz TF-IDF para el corpus `data/01_corpus_turismo_500.txt`

In [18]:
import math
import unicodedata

def restricciones(palabra):
    palabra = ''.join(c for c in unicodedata.normalize('NFD', palabra)
                      if unicodedata.category(c) != 'Mn')  
    palabra = ''.join(c for c in palabra.lower() if c.isalnum())  
    return palabra

def procesar_corpus(archivo):
    corpus = []
    vocabulario = set()

    with open(archivo, 'r', encoding='utf-8') as f:
        for linea in f:
            palabras = [restricciones(p) for p in linea.strip().split() if restricciones(p)]
            corpus.append(palabras)
            vocabulario.update(palabras)

    diccionario = sorted(vocabulario)
    return corpus, diccionario

def matriz_termino_documento(corpus, diccionario):
    matriz = []

    for doc in corpus:
        fila = []
        for termino in diccionario:
            conteo = 0
            for palabra in doc:
                if palabra == termino:
                    conteo += 1
            fila.append(conteo)
        matriz.append(fila)

    N = len(corpus)
    idf = []
    for termino in diccionario:
        dft = sum(1 for doc in corpus if termino in doc)
        valor_idf = math.log10(N / dft) if dft else 0.0
        idf.append(round(valor_idf, 4))

    return matriz, idf

if __name__ == "__main__":
    archivo = '/kaggle/input/data-turismo/01_corpus_turismo.txt'
    corpus, diccionario = procesar_corpus(archivo)
    matriz_td, idf = matriz_termino_documento(corpus, diccionario)

    print(f"\nEl corpus tiene: {len(corpus)}, documentos")
    print(f"La cantidad de términos únicos son: {len(diccionario)}")

    print("\nMATRIZ TÉRMINO-DOCUMENTO")
    print("Término".ljust(20) + " | " + " | ".join([f"Doc{i+1}" for i in range(len(corpus))]) + " | IDF")
    print("-" * (22 + 8 * len(corpus) + 6))

    for i, termino in enumerate(diccionario):
        fila = termino.ljust(20) + " | "
        fila += " | ".join([str(matriz_td[doc_i][i]) for doc_i in range(len(corpus))])
        fila += f" | {idf[i]:.4f}"
        print(fila)



El corpus tiene: 16, documentos
La cantidad de términos únicos son: 145

MATRIZ TÉRMINO-DOCUMENTO
Término              | Doc1 | Doc2 | Doc3 | Doc4 | Doc5 | Doc6 | Doc7 | Doc8 | Doc9 | Doc10 | Doc11 | Doc12 | Doc13 | Doc14 | Doc15 | Doc16 | IDF
------------------------------------------------------------------------------------------------------------------------------------------------------------
2000                 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1.2041
a                    | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 0 | 3 | 0 | 0 | 0 | 0.6021
agua                 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1.2041
alrededor            | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1.2041
altitud              | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1.2041
amazonia             | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1.2041
andes                | 0 | 0 | 0 |