# Ejercicio 2: Modelo Vectorial y TF-IDF

## Objetivo de la práctica

- Comprender el modelo vectorial como base para representar documentos y consultas.
- Calcular la matriz TF-IDF para el corpus `data/01_corpus_turismo_500.txt`

1. Primero leemos  el corpus 

In [1]:
ruta = r'C:\Users\DELL\Downloads\Septimo2025\RI\RI_C\Unidades\Unidad 2\01_corpus_turismo_500.txt' 
with open(ruta, 'r', encoding='utf-8') as archivo:
    contenido = archivo.read()

In [2]:
vocabulario = list(set(contenido.lower().replace('\n',' ').replace('.','').replace(',','').split()))
vocabulario

['auténtico',
 'ecuatoriana',
 'muchos',
 'spondylus',
 'patrimonio',
 'de',
 'ideal',
 'gastronomía',
 '2000',
 'playas',
 'longevidad',
 'próximo',
 'durante',
 'del',
 'conecta',
 'quilotoa',
 'deslumbra',
 'ofrece',
 'una',
 'rafting',
 'turismo',
 'conocido',
 'tiene',
 'se',
 'espectacular',
 'disfrutan',
 'color',
 'interesados',
 'es',
 'artesanía',
 'tranquilo',
 'popular',
 'agua',
 'naturaleza',
 'caminatas',
 'su',
 'y',
 'quito',
 'histórico',
 'cotopaxi',
 'famosas',
 'experiencia',
 'feriados',
 'deportes',
 'aves',
 'ecuador',
 'ruta',
 'perfecto',
 'senderismo',
 'visitan',
 'atraen',
 'destino',
 'atrae',
 'arquitectura',
 'un',
 'megadiverso',
 'la',
 'increíble',
 'a',
 'cajas',
 'guayaquil',
 'surf',
 'surfistas',
 'lagunas',
 'nocturna',
 'en',
 'canopy',
 'el',
 'fiestas',
 'vilcabamba',
 'volcán',
 'invita',
 'vida',
 'ecológico',
 'islas',
 'mercado',
 'biodiversidad',
 'mindo',
 'humanidad',
 'galápagos',
 'feriado',
 'famoso',
 'única',
 'cuenca',
 'lugar',
 

In [3]:
len(vocabulario)

118

In [4]:
corpus = contenido.split('\n')
corpus

['Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.',
 'La Laguna Quilotoa destaca por su color turquesa',
 'Vilcabamba atrae visitantes interesados en longevidad y naturaleza Una experiencia inolvidable.',
 'Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para surf.',
 'Ecuador es un país megadiverso, ideal para el turismo ecológico',
 'Los turistas disfrutan las fiestas y gastronomía típica local Perfecto para avistamiento de aves.',
 'Otavalo es conocido por su mercado indígena y su artesanía Una experiencia inolvidable.',
 'El volcán Cotopaxi es un destino de senderismo popular',
 'El Parque Nacional Cajas invita a caminatas entre lagunas Ideal para el próximo feriado.',
 'Mindo es famoso por el avistamiento de aves Ideal para el próximo feriado.',
 'Cuenca deslumbra con su arquitectura colonial y gastronomía Una experiencia inolvidable.',
 'Las Islas Galápagos atraen visitantes por su biodiversidad única Ideal para el próximo fer

In [5]:
len(corpus)

501

Frecuencia Determinada(TF)

In [6]:
def tf(contenido):
    tf_vec= []
    for i in vocabulario:
        contador = contenido.lower().split().count(i)
        tf_vec.append(contador)
    return tf_vec

In [7]:
print(corpus[0])
print()

tf_vec = tf(corpus[0])
print(f"{'Vocabulario':<20} {'TF'}")

for palabra, conteo in zip(vocabulario, tf_vec):
    print(f"{palabra:<20} {conteo}")

Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.

Vocabulario          TF
auténtico            0
ecuatoriana          0
muchos               0
spondylus            0
patrimonio           0
de                   0
ideal                0
gastronomía          0
2000                 0
playas               0
longevidad           0
próximo              0
durante              0
del                  0
conecta              0
quilotoa             0
deslumbra            0
ofrece               0
una                  0
rafting              0
turismo              0
conocido             1
tiene                0
se                   0
espectacular         0
disfrutan            0
color                0
interesados          0
es                   1
artesanía            1
tranquilo            0
popular              0
agua                 0
naturaleza           0
caminatas            0
su                   2
y                    1
quito                0
histórico          

Frecuencia Inversa de Documentos (IDF)

In [8]:
import math

def idf(corpus,vocabulario):
    N = len(corpus)
    idf_vec = [] 
    
    for i in vocabulario:
        contador_idf =  sum(1 for d in corpus if i in d.lower().split())
        f_idf = math.log((N)/(1+contador_idf))
        idf_vec.append(f_idf)
    return idf_vec

In [9]:
idf_vector = idf(corpus, vocabulario)

print(f"{'Vocabulario':<20} {'IDF'}")
for palabra, valor_idf in zip(vocabulario, idf_vector):
    print(f"{palabra:<20} {valor_idf:.4f}")

Vocabulario          IDF
auténtico            3.5775
ecuatoriana          2.8844
muchos               2.8844
spondylus            2.3454
patrimonio           3.1721
de                   1.2127
ideal                1.2538
gastronomía          2.0119
2000                 2.6902
playas               2.3454
longevidad           2.8844
próximo              1.4375
durante              2.2093
del                  2.3454
conecta              2.3454
quilotoa             2.7201
deslumbra            2.6613
ofrece               2.7201
una                  1.6419
rafting              2.7201
turismo              2.6057
conocido             2.6902
tiene                3.1721
se                   2.8844
espectacular         3.1721
disfrutan            2.7201
color                2.7201
interesados          2.8844
es                   1.4291
artesanía            2.6902
tranquilo            3.3834
popular              2.8844
agua                 2.7201
naturaleza           2.8844
caminatas            2.

Generación de la matriz TF-IDF

In [10]:
import numpy as np


In [11]:
#Construccion matriz de frecuencias de términos (TF)
tf_m = np.array([tf(texto) for texto in corpus]) 
tf_m

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], shape=(501, 118))

In [12]:
# Construyendo matriz de frecuencias inversas de documentos (IDF)
idf_vector = np.array(idf(corpus, vocabulario))  
idf_vector

array([3.57754877, 2.88440159, 2.88440159, 2.34540509, 3.17208366,
       1.2126598 , 1.25376147, 2.01191348, 2.69024558, 2.34540509,
       2.88440159, 1.43748261, 2.20927292, 2.34540509, 2.34540509,
       2.72009854, 2.66125804, 2.72009854, 1.64189512, 2.72009854,
       2.60568819, 2.69024558, 3.17208366, 2.88440159, 3.17208366,
       2.72009854, 2.72009854, 2.88440159, 1.42911436, 2.69024558,
       3.38339276, 2.88440159, 2.72009854, 2.88440159, 2.57901994,
       1.10461831, 1.14143229, 3.17208366, 3.17208366, 2.88440159,
       2.34540509, 1.64189512, 2.88440159, 2.72009854, 3.03855227,
       2.60568819, 2.34540509, 1.60148558, 2.88440159, 2.88440159,
       2.69024558, 2.88440159, 2.88440159, 2.66125804, 1.12900977,
       6.2166061 , 1.37241901, 3.73169945, 2.57901994, 2.57901994,
       2.69024558, 6.2166061 , 2.88440159, 2.57901994, 2.69024558,
       2.88440159, 6.2166061 , 0.82297855, 2.72009854, 2.88440159,
       2.88440159, 2.57901994, 2.69024558, 2.60568819, 2.69024

In [14]:
print(corpus[0])
print()

tfidf_m = tf_m * idf_vector
for palabra, valor in zip(vocabulario, tfidf_m[0]):
    print(f"{palabra:<20} {valor:.4f}")

Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.

auténtico            0.0000
ecuatoriana          0.0000
muchos               0.0000
spondylus            0.0000
patrimonio           0.0000
de                   0.0000
ideal                0.0000
gastronomía          0.0000
2000                 0.0000
playas               0.0000
longevidad           0.0000
próximo              0.0000
durante              0.0000
del                  0.0000
conecta              0.0000
quilotoa             0.0000
deslumbra            0.0000
ofrece               0.0000
una                  0.0000
rafting              0.0000
turismo              0.0000
conocido             2.6902
tiene                0.0000
se                   0.0000
espectacular         0.0000
disfrutan            0.0000
color                0.0000
interesados          0.0000
es                   1.4291
artesanía            2.6902
tranquilo            0.0000
popular              0.0000
agua                 