
# Nombre: Darlin Anacicha    Curso: GR1CC

## Objetivo de la práctica

- Comprender el modelo vectorial como base para representar documentos y consultas.
- Calcular la matriz TF-IDF para el corpus data/01_corpus_turismo_500.txt

In [3]:
import numpy as np
import pandas as pd

# Leer el corpus
path = "/kaggle/input/01-corpus-turismo-500-txt/data/01_corpus_turismo_500.txt"
with open(path, "r", encoding="utf-8") as f:
    texto = f.read()

# Generar vocabulario
vocabulario = list(set(texto.lower().replace("\n", " ").replace(".", "").replace(",", "").split()))
print("Tamaño del vocabulario:", len(vocabulario))

# Separar documentos por línea
corpus = texto.split('\n')
print("Cantidad de documentos:", len(corpus))


# Calcular TF (frecuencia de término)
def get_tf(doc):
    vec = []

    for word in vocabulario:
        count = doc.lower().replace(".", "").replace(",", "").split().count(word)
        vec.append(count)
    return np.array(vec)

# Matriz TF
doc_tf = []
for doc in corpus:
    doc_tf.append(get_tf(doc))
doc_tf = np.array(doc_tf)

print("Matriz TF lista. Dimensiones:", doc_tf.shape)



# Calcular IDF (inverso de frecuencia de documento)
from math import log

N = len(corpus)  # número total de documentos

# Número de documentos que contienen cada palabra
df = np.sum(doc_tf > 0, axis=0)

# Cálculo del IDF
idf = np.log(N / (df + 1))


print("Vector IDF listo. Longitud:", len(idf))


# Calcular TF-IDF
tfidf = doc_tf * idf

print("Matriz TF-IDF calculada. Dimensiones:", tfidf.shape)



# Mostrar resultados
print("\nEjemplo TF del primer documento:\n", doc_tf[0])
print("\nEjemplo IDF de las primeras 10 palabras:\n", idf[:10])
print("\nEjemplo TF-IDF del primer documento:\n", tfidf[0])


# Mostrar matriz TF-IDF como tabla

df_tfidf = pd.DataFrame(tfidf, columns=vocabulario)
print("\nMatriz TF-IDF completa:\n")
print(df_tfidf)



Tamaño del vocabulario: 118
Cantidad de documentos: 501
Matriz TF lista. Dimensiones: (501, 118)
Vector IDF listo. Longitud: 118
Matriz TF-IDF calculada. Dimensiones: (501, 118)

Ejemplo TF del primer documento:
 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
 0 0 0 0 0 0 0]

Ejemplo IDF de las primeras 10 palabras:
 [2.69024558 2.69024558 2.34540509 2.60568819 2.34540509 1.64189512
 1.64189512 3.38339276 2.69024558 1.37241901]

Ejemplo TF-IDF del primer documento:
 [0.         0.         0.         0.         0.         0.
 0.         0.         2.69024558 0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         2.20927292 0.         0.         0.         