# Ejercicio 2: Modelo Vectorial y TF-IDF
**Nombre:** Nelson Casa

## Objetivo de la práctica

- Comprender el modelo vectorial como base para representar documentos y consultas.
- Calcular la matriz TF-IDF para el corpus `data/01_corpus_turismo_500.txt`

## Procedimiento

### 1. Cargar el corpus

In [6]:
# Cargamos el archivo del corpus (asegurándonos que la ruta exista en tu entorno Jupyter)
with open("/content/01_corpus_turismo_500.txt", "r", encoding="utf-8") as file:
    corpus = file.readlines()

print("Número de documentos en el corpus:", len(corpus))
print("Ejemplo de documento:\n", corpus[0][:200])


Número de documentos en el corpus: 500
Ejemplo de documento:
 Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.



### 2. Preprocesamiento del texto
Convertir todo a minúsculas, eliminar signos de puntuación y tokenizar palabra por palabra.


In [7]:
import string

def limpiar_texto(texto):
    texto = texto.lower()
    texto = ''.join([c for c in texto if c.isalpha() or c.isspace()])
    return texto

documentos_limpios = [limpiar_texto(doc) for doc in corpus]
tokens_por_doc = [doc.split() for doc in documentos_limpios]

print("\nEjemplo de tokens del primer documento:")
print(tokens_por_doc[0][:20])


Ejemplo de tokens del primer documento:
['otavalo', 'es', 'conocido', 'por', 'su', 'mercado', 'indígena', 'y', 'su', 'artesanía', 'perfecto', 'para', 'rafting']


### 3. Construir el diccionario de términos
El diccionario estará formado solo por las palabras del corpus (sin usar listas externas).

In [8]:
diccionario = sorted(list(set([palabra for doc in tokens_por_doc for palabra in doc])))
print("\nTamaño del diccionario:", len(diccionario))
print("Primeras 20 palabras del diccionario:\n", diccionario[:20])


Tamaño del diccionario: 117
Primeras 20 palabras del diccionario:
 ['a', 'agua', 'amazonía', 'arquitectura', 'artesanía', 'atrae', 'atraen', 'auténtico', 'aventura', 'aves', 'avistamiento', 'baños', 'biodiversidad', 'cajas', 'caminatas', 'canopy', 'centro', 'colonial', 'color', 'como']


### 4. Cálculo de TF (Term Frequency)
La frecuencia de término mide cuántas veces aparece una palabra en un documento.

In [9]:
import numpy as np

def calcular_tf(documento, diccionario):
    tf = np.zeros(len(diccionario))
    for palabra in documento:
        if palabra in diccionario:
            idx = diccionario.index(palabra)
            tf[idx] += 1
    return tf

tf_matrix = np.array([calcular_tf(doc, diccionario) for doc in tokens_por_doc])

print("\nMatriz TF creada con forma:", tf_matrix.shape)
print("Ejemplo TF del primer documento (primeras 10 posiciones):")
print(tf_matrix[0][:10])


Matriz TF creada con forma: (500, 117)
Ejemplo TF del primer documento (primeras 10 posiciones):
[0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]


### 5. Cálculo de IDF (Inverse Document Frequency)
IDF mide la importancia de una palabra en el conjunto de documentos.

In [10]:
def calcular_idf(tf_matrix):
    N = tf_matrix.shape[0]
    df = np.sum(tf_matrix > 0, axis=0)
    idf = np.log10(N / (df + 1)) + 1
    return idf

idf = calcular_idf(tf_matrix)

print("\nIDF calculado. Ejemplo de primeros 10 valores:")
print(idf[:10])


IDF calculado. Ejemplo de primeros 10 valores:
[2.11918641 2.18045606 2.25181197 2.15490196 2.16749109 2.25181197
 2.16749109 2.55284197 2.18045606 2.04575749]


### 6. Cálculo de la matriz TF-IDF
Multiplicamos TF por IDF para obtener la ponderación final de cada término por documento.

In [11]:
tfidf_matrix = tf_matrix * idf

print("\nMatriz TF-IDF creada con forma:", tfidf_matrix.shape)


Matriz TF-IDF creada con forma: (500, 117)


### 7. Resultados
Mostramos las primeras filas y columnas de la matriz TF-IDF en formato tabular.


In [12]:
import pandas as pd

df_tfidf = pd.DataFrame(tfidf_matrix, columns=diccionario)
print("\nVista parcial de la matriz TF-IDF:")
display(df_tfidf.iloc[:5, :10])


Vista parcial de la matriz TF-IDF:


Unnamed: 0,a,agua,amazonía,arquitectura,artesanía,atrae,atraen,auténtico,aventura,aves
0,0.0,0.0,0.0,0.0,2.167491,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,2.251812,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


## Conclusión
En esta práctica se construyó manualmente la matriz TF-IDF a partir de un corpus real.
Se aplicaron los conceptos del modelo vectorial para representar documentos como vectores de pesos.
Cada peso refleja la relevancia de un término en un documento considerando su frecuencia y su rareza global.