# Ejercicio 2: Modelo Vectorial y TF-IDF

## Objetivo de la práctica

- Comprender el modelo vectorial como base para representar documentos y consultas.
- Calcular la matriz TF-IDF para el corpus `data/01_corpus_turismo_500.txt`

In [None]:
import math
import unicodedata

def restricciones(palabra):
    palabra = ''.join(c for c in unicodedata.normalize('NFD', palabra)
                      if unicodedata.category(c) != 'Mn')  
    palabra = ''.join(c for c in palabra.lower() if c.isalnum())  
    return palabra

def procesar_corpus(archivo):
    corpus = []
    vocabulario = set()

    with open(archivo, 'r', encoding='utf-8') as f:
        for linea in f:
            palabras = [restricciones(p) for p in linea.strip().split() if restricciones(p)]
            corpus.append(palabras)
            vocabulario.update(palabras)

    diccionario = sorted(vocabulario)
    return corpus, diccionario

def matriz_termino_documento(corpus, diccionario):
    matriz = []

    for doc in corpus:
        fila = []
        for termino in diccionario:
            conteo = 0
            for palabra in doc:
                if palabra == termino:
                    conteo += 1
            fila.append(conteo)
        matriz.append(fila)

    N = len(corpus)
    idf = []
    for termino in diccionario:
        dft = sum(1 for doc in corpus if termino in doc)
        valor_idf = math.log10(N / dft) if dft else 0.0
        idf.append(round(valor_idf, 4))

    return matriz, idf

if __name__ == "__main__":
    archivo = '/kaggle/input/dataset-500/01_corpus_turismo_500 (1).txt'
    corpus, diccionario = procesar_corpus(archivo)
    matriz_td, idf = matriz_termino_documento(corpus, diccionario)

    print(f"\nEl corpus tiene: {len(corpus)}, documentos")
    print(f"La cantidad de términos únicos son: {len(diccionario)}")

    print("\nMATRIZ TÉRMINO-DOCUMENTO")
    print("Término".ljust(20) + " | " + " | ".join([f"Doc{i+1}" for i in range(len(corpus))]) + " | IDF")
    print("-" * (22 + 8 * len(corpus) + 6))

    for i, termino in enumerate(diccionario):
        fila = termino.ljust(20) + " | "
        fila += " | ".join([str(matriz_td[doc_i][i]) for doc_i in range(len(corpus))])
        fila += f" | {idf[i]:.4f}"
        print(fila)



El corpus tiene: 500, documentos
La cantidad de términos únicos son: 118

MATRIZ TÉRMINO-DOCUMENTO
Término              | Doc1 | Doc2 | Doc3 | Doc4 | Doc5 | Doc6 | Doc7 | Doc8 | Doc9 | Doc10 | Doc11 | Doc12 | Doc13 | Doc14 | Doc15 | Doc16 | Doc17 | Doc18 | Doc19 | Doc20 | Doc21 | Doc22 | Doc23 | Doc24 | Doc25 | Doc26 | Doc27 | Doc28 | Doc29 | Doc30 | Doc31 | Doc32 | Doc33 | Doc34 | Doc35 | Doc36 | Doc37 | Doc38 | Doc39 | Doc40 | Doc41 | Doc42 | Doc43 | Doc44 | Doc45 | Doc46 | Doc47 | Doc48 | Doc49 | Doc50 | Doc51 | Doc52 | Doc53 | Doc54 | Doc55 | Doc56 | Doc57 | Doc58 | Doc59 | Doc60 | Doc61 | Doc62 | Doc63 | Doc64 | Doc65 | Doc66 | Doc67 | Doc68 | Doc69 | Doc70 | Doc71 | Doc72 | Doc73 | Doc74 | Doc75 | Doc76 | Doc77 | Doc78 | Doc79 | Doc80 | Doc81 | Doc82 | Doc83 | Doc84 | Doc85 | Doc86 | Doc87 | Doc88 | Doc89 | Doc90 | Doc91 | Doc92 | Doc93 | Doc94 | Doc95 | Doc96 | Doc97 | Doc98 | Doc99 | Doc100 | Doc101 | Doc102 | Doc103 | Doc104 | Doc105 | Doc106 | Doc107 | Doc108 | Doc109 | Doc1