## Ejercicio 2: Modelo Vectorial y TF - DF
### Objetivo de la práctica
* Comprender el modelo vectorial como base para representar documentos y consultas.
* Calcular la matriz TF-IDF para el corpus data/01_corpus_turismo_500.txt


In [6]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

#Primero lees el corpus que esta en 01_corpus_turismo_500.txt
ruta = '/kaggle/input/corpus/01_corpus_turismo_500.txt'
with open(ruta,'r', encoding ='utf-8') as f:
    text =f.read()

# la variable text tiene todo el corpus
text

'Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.\nLa Laguna Quilotoa destaca por su color turquesa\nVilcabamba atrae visitantes interesados en longevidad y naturaleza Una experiencia inolvidable.\nQuito tiene un centro histórico Patrimonio de la Humanidad Perfecto para surf.\nEcuador es un país megadiverso, ideal para el turismo ecológico\nLos turistas disfrutan las fiestas y gastronomía típica local Perfecto para avistamiento de aves.\nOtavalo es conocido por su mercado indígena y su artesanía Una experiencia inolvidable.\nEl volcán Cotopaxi es un destino de senderismo popular\nEl Parque Nacional Cajas invita a caminatas entre lagunas Ideal para el próximo feriado.\nMindo es famoso por el avistamiento de aves Ideal para el próximo feriado.\nCuenca deslumbra con su arquitectura colonial y gastronomía Una experiencia inolvidable.\nLas Islas Galápagos atraen visitantes por su biodiversidad única Ideal para el próximo feriado.\nGuayaquil sorprende con su 

In [8]:
print(f"Total de documentos {len(text)}")

vocab = list(set(text.lower().replace('\n',' ').replace('.','').replace(',','').split()))
vocab

Total de documentos 41346


['muchos',
 'ecuador',
 'cotopaxi',
 'feriados',
 'famosas',
 'santa',
 'longevidad',
 'ecológico',
 'es',
 'gastronomía',
 'caminatas',
 'lagunas',
 'visitar',
 'playas',
 'canopy',
 'histórico',
 'quito',
 'colonial',
 'humanidad',
 'en',
 'como',
 'tiene',
 'de',
 'disfrutan',
 'del',
 'parque',
 'sorprendente',
 'durante',
 'centro',
 'conecta',
 'la',
 'otavalo',
 'ideal',
 'lugar',
 'visitan',
 'increíble',
 'agua',
 'inolvidable',
 'llena',
 'guayaquil',
 'arquitectura',
 'ruta',
 'invita',
 'se',
 'a',
 'sorprende',
 'montañita',
 'para',
 'país',
 'feriado',
 'spondylus',
 'indígena',
 'interesados',
 'con',
 'ofrece',
 'experiencia',
 'patrimonio',
 'espectacular',
 'rafting',
 'nacional',
 'turquesa',
 'típica',
 'baños',
 'atraen',
 'aves',
 'un',
 'volcán',
 'una',
 'y',
 'deportes',
 'famoso',
 'auténtico',
 'surfistas',
 'laguna',
 'quilotoa',
 'mindo',
 'los',
 'aventura',
 'vilcabamba',
 'destino',
 'las',
 'vida',
 'tranquilo',
 'malecón',
 'turistas',
 'galápagos',
 

In [26]:
print("Muestra tamaño del vocabulario - Cuantas palabras unicas hay")
len(vocab)

Muestra tamaño del vocabulario - Cuantas palabras unicas hay


118

In [27]:
print("Muestra indice donde esta la palabra 'otavalo' dentro del vocabulario")
vocab.index('otavalo')

Muestra indice donde esta la palabra otavalo dentro del vocabulario


31

In [28]:
print("Divide corpu usando saltos de linea creando una lista de elementos")
corpus = text.split('\n')
corpus

Divide corpu usando saltos de linea creando una lista de elementos


['Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.',
 'La Laguna Quilotoa destaca por su color turquesa',
 'Vilcabamba atrae visitantes interesados en longevidad y naturaleza Una experiencia inolvidable.',
 'Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para surf.',
 'Ecuador es un país megadiverso, ideal para el turismo ecológico',
 'Los turistas disfrutan las fiestas y gastronomía típica local Perfecto para avistamiento de aves.',
 'Otavalo es conocido por su mercado indígena y su artesanía Una experiencia inolvidable.',
 'El volcán Cotopaxi es un destino de senderismo popular',
 'El Parque Nacional Cajas invita a caminatas entre lagunas Ideal para el próximo feriado.',
 'Mindo es famoso por el avistamiento de aves Ideal para el próximo feriado.',
 'Cuenca deslumbra con su arquitectura colonial y gastronomía Una experiencia inolvidable.',
 'Las Islas Galápagos atraen visitantes por su biodiversidad única Ideal para el próximo fer

In [30]:
print ("Muestra el primer documento:")
doc = corpus[0]
doc

Muestra el primer documento


'Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.'

In [31]:
print("Toma primer documento del corpus y cuenta cuantos caracteres 'a' tiene:")
doc = corpus[0]
doc.count('a')

Toma primer documento del corpus y cuenta cuantos caracteres 'a' tiene


10

## Construccion del vector TF


In [36]:
# necsito un vector me dice cuantas veces tiene una palabra, primera posicion del vector me dice cuantas veces tiene esa palabra y asi 118 vece

def get_tf(doc):
    vec= []
    for word in vocab:
        count = doc.lower().replace('.','').replace(',','').split().count(word)
        vec.append(count)
    return np.array(vec)

## Calculo de IDF

In [37]:
def get_idf(corpus, vocab):
    N = len(corpus)  # Número total de documentos
    idf_vector = []
    
    for word in vocab:
        # Cuántos documentos contienen la palabra
        doc_count = sum(1 for doc in corpus if word in doc.lower())
        # Fórmula IDF
        idf = np.log(N / (doc_count + 1))  # +1 para evitar división por cero
        idf_vector.append(idf)
    
    return np.array(idf_vector)

## Cálculo de TF-IDF completo

In [38]:
def get_tfidf(doc, corpus, vocab):
    tf_vector = get_tf(doc)
    idf_vector = get_idf(corpus, vocab)
    tfidf_vector = tf_vector * idf_vector
    return tfidf_vector

## Matriz TF-IDF para todo el corpus

In [39]:
# Crear matriz TF-IDF completa
tfidf_matrix = []
for doc in corpus:
    tfidf_vector = get_tfidf(doc, corpus, vocab)
    tfidf_matrix.append(tfidf_vector)

tfidf_matrix = np.array(tfidf_matrix)
print(f"Matriz TF-IDF: {tfidf_matrix.shape}")  # (500 documentos x tamaño_vocabulario)

Matriz TF-IDF: (501, 118)
