# Ejercicio 2: Modelo Vectorial y TF-IDF

## Objetivo de la práctica

- Comprender el modelo vectorial como base para representar documentos y consultas.
- Calcular la matriz TF-IDF para el corpus `data/01_corpus_turismo_500.txt`

1. Primero leemos  el corpus 

In [3]:
ruta = r'C:\Users\DELL\Downloads\Septimo2025\RI\RI_C\Unidades\Unidad 2\01_corpus_turismo_500.txt' 
with open(ruta, 'r', encoding='utf-8') as archivo:
    contenido = archivo.read()

In [4]:
vocabulario = list(set(contenido.lower().replace('\n',' ').replace('.','').replace(',','').split()))
vocabulario

['famoso',
 'avistamiento',
 'nacional',
 'caminatas',
 'deslumbra',
 'feriado',
 'turismo',
 'aventura',
 'naturaleza',
 'humanidad',
 'para',
 'en',
 'increíble',
 'ecológico',
 'patrimonio',
 'por',
 'surfistas',
 'su',
 'conocido',
 'mindo',
 'es',
 'gastronomía',
 'se',
 'local',
 'quilotoa',
 'artesanía',
 'quito',
 'galápagos',
 'islas',
 'auténtico',
 'entre',
 'longevidad',
 'nocturna',
 'indígena',
 'rafting',
 'conecta',
 'sorprendente',
 'fiestas',
 'montañita',
 'amazonía',
 'tiene',
 'visitar',
 'perfecto',
 'color',
 '2000',
 'país',
 'megadiverso',
 'disfrutan',
 'con',
 'otavalo',
 'lagunas',
 'a',
 'senderismo',
 'biodiversidad',
 'muchos',
 'única',
 'deportes',
 'espectacular',
 'playas',
 'cajas',
 'famosas',
 'santa',
 'los',
 'vilcabamba',
 'del',
 'canopy',
 'de',
 'cotopaxi',
 'ecuador',
 'turistas',
 'guayaquil',
 'mercado',
 'histórico',
 'arquitectura',
 'laguna',
 'un',
 'atraen',
 'visitantes',
 'la',
 'cuenca',
 'lugar',
 'volcán',
 'llena',
 'invita',
 '

In [5]:
len(vocabulario)

118

In [6]:
corpus = contenido.split('\n')
corpus

['Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.',
 'La Laguna Quilotoa destaca por su color turquesa',
 'Vilcabamba atrae visitantes interesados en longevidad y naturaleza Una experiencia inolvidable.',
 'Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para surf.',
 'Ecuador es un país megadiverso, ideal para el turismo ecológico',
 'Los turistas disfrutan las fiestas y gastronomía típica local Perfecto para avistamiento de aves.',
 'Otavalo es conocido por su mercado indígena y su artesanía Una experiencia inolvidable.',
 'El volcán Cotopaxi es un destino de senderismo popular',
 'El Parque Nacional Cajas invita a caminatas entre lagunas Ideal para el próximo feriado.',
 'Mindo es famoso por el avistamiento de aves Ideal para el próximo feriado.',
 'Cuenca deslumbra con su arquitectura colonial y gastronomía Una experiencia inolvidable.',
 'Las Islas Galápagos atraen visitantes por su biodiversidad única Ideal para el próximo fer

In [7]:
len(corpus)

501

Frecuencia Determinada(TF)

In [8]:
def tf(contenido):
    tf_vec= []
    for i in vocabulario:
        contador = contenido.lower().split().count(i)
        tf_vec.append(contador)
    return tf_vec

In [9]:
print(corpus[0])
print()

tf_vec = tf(corpus[0])
print(f"{'Vocabulario':<20} {'TF'}")

for palabra, conteo in zip(vocabulario, tf_vec):
    print(f"{palabra:<20} {conteo}")

Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.

Vocabulario          TF
famoso               0
avistamiento         0
nacional             0
caminatas            0
deslumbra            0
feriado              0
turismo              0
aventura             0
naturaleza           0
humanidad            0
para                 1
en                   0
increíble            0
ecológico            0
patrimonio           0
por                  1
surfistas            0
su                   2
conocido             1
mindo                0
es                   1
gastronomía          0
se                   0
local                0
quilotoa             0
artesanía            1
quito                0
galápagos            0
islas                0
auténtico            0
entre                0
longevidad           0
nocturna             0
indígena             1
rafting              0
conecta              0
sorprendente         0
fiestas              0
montañita          

Frecuencia Inversa de Documentos (IDF)

In [10]:
import math

def idf(corpus,vocabulario):
    N = len(corpus)
    idf_vec = [] 
    
    for i in vocabulario:
        contador_idf =  sum(1 for d in corpus if i in d.lower().split())
        f_idf = math.log((N)/(1+contador_idf))
        idf_vec.append(f_idf)
    return idf_vec

In [11]:
idf_vector = idf(corpus, vocabulario)

print(f"{'Vocabulario':<20} {'IDF'}")
for palabra, valor_idf in zip(vocabulario, idf_vector):
    print(f"{palabra:<20} {valor_idf:.4f}")

Vocabulario          IDF
famoso               2.5530
avistamiento         2.4099
nacional             2.5790
caminatas            2.5790
deslumbra            2.6613
feriado              6.2166
turismo              2.6057
aventura             2.7201
naturaleza           2.8844
humanidad            3.1721
para                 0.4359
en                   2.8844
increíble            3.7317
ecológico            2.6057
patrimonio           3.1721
por                  1.4126
surfistas            2.8844
su                   1.1046
conocido             2.6902
mindo                3.0386
es                   1.4291
gastronomía          2.0119
se                   2.8844
local                2.7201
quilotoa             2.7201
artesanía            2.6902
quito                3.1721
galápagos            2.6902
islas                2.6902
auténtico            3.5775
entre                2.5790
longevidad           2.8844
nocturna             2.6902
indígena             2.6902
rafting              2.

Generación de la matriz TF-IDF

In [12]:
import numpy as np
