# Ejercicio 2: Modelo Vectorial y TF-IDF

## Objetivo de la práctica

- Comprender el modelo vectorial como base para representar documentos y consultas.
- Calcular la matriz TF-IDF para el corpus `data/01_corpus_turismo_500.txt`

Primero leemos el corpus que está en el archivo 01_corpus_turismo_500.txt

In [1]:
ruta = "/kaggle/input/corpusturismo/01_corpus_turismo_500.txt"

with open(ruta, "r", encoding="utf-8") as f:
    texto = f.read()

In [2]:
# la variable texto contiene todo el código
texto

'Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.\nLa Laguna Quilotoa destaca por su color turquesa\nVilcabamba atrae visitantes interesados en longevidad y naturaleza Una experiencia inolvidable.\nQuito tiene un centro histórico Patrimonio de la Humanidad Perfecto para surf.\nEcuador es un país megadiverso, ideal para el turismo ecológico\nLos turistas disfrutan las fiestas y gastronomía típica local Perfecto para avistamiento de aves.\nOtavalo es conocido por su mercado indígena y su artesanía Una experiencia inolvidable.\nEl volcán Cotopaxi es un destino de senderismo popular\nEl Parque Nacional Cajas invita a caminatas entre lagunas Ideal para el próximo feriado.\nMindo es famoso por el avistamiento de aves Ideal para el próximo feriado.\nCuenca deslumbra con su arquitectura colonial y gastronomía Una experiencia inolvidable.\nLas Islas Galápagos atraen visitantes por su biodiversidad única Ideal para el próximo feriado.\nGuayaquil sorprende con su 

Vocab es el vocabulario de la lista del pablabras del corpus

In [3]:
vocab = set(texto.lower().replace('\n', ' ').replace('.', '').replace(',', '').split())
vocab


{'2000',
 'a',
 'agua',
 'amazonía',
 'arquitectura',
 'artesanía',
 'atrae',
 'atraen',
 'auténtico',
 'aventura',
 'aves',
 'avistamiento',
 'baños',
 'biodiversidad',
 'cajas',
 'caminatas',
 'canopy',
 'centro',
 'colonial',
 'color',
 'como',
 'con',
 'conecta',
 'conocido',
 'cotopaxi',
 'cuenca',
 'de',
 'del',
 'deportes',
 'deslumbra',
 'destaca',
 'destino',
 'disfrutan',
 'durante',
 'ecológico',
 'ecuador',
 'ecuatoriana',
 'el',
 'en',
 'entre',
 'es',
 'espectacular',
 'experiencia',
 'famosas',
 'famoso',
 'feriado',
 'feriados',
 'fiestas',
 'galápagos',
 'gastronomía',
 'guayaquil',
 'histórico',
 'humanidad',
 'ideal',
 'increíble',
 'indígena',
 'inolvidable',
 'interesados',
 'invita',
 'islas',
 'la',
 'laguna',
 'lagunas',
 'las',
 'llena',
 'local',
 'longevidad',
 'los',
 'lugar',
 'malecón',
 'megadiverso',
 'mercado',
 'mindo',
 'montañita',
 'muchos',
 'nacional',
 'naturaleza',
 'nocturna',
 'ofrece',
 'otavalo',
 'para',
 'parque',
 'patrimonio',
 'país',
 

In [4]:
len(vocab)

118

Ahora se va a generar el Corpus

In [5]:
corpus = texto.split('\n')
corpus

['Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.',
 'La Laguna Quilotoa destaca por su color turquesa',
 'Vilcabamba atrae visitantes interesados en longevidad y naturaleza Una experiencia inolvidable.',
 'Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para surf.',
 'Ecuador es un país megadiverso, ideal para el turismo ecológico',
 'Los turistas disfrutan las fiestas y gastronomía típica local Perfecto para avistamiento de aves.',
 'Otavalo es conocido por su mercado indígena y su artesanía Una experiencia inolvidable.',
 'El volcán Cotopaxi es un destino de senderismo popular',
 'El Parque Nacional Cajas invita a caminatas entre lagunas Ideal para el próximo feriado.',
 'Mindo es famoso por el avistamiento de aves Ideal para el próximo feriado.',
 'Cuenca deslumbra con su arquitectura colonial y gastronomía Una experiencia inolvidable.',
 'Las Islas Galápagos atraen visitantes por su biodiversidad única Ideal para el próximo fer

In [6]:
import numpy as np
def get_dft(doc):
    vec = []
    for word in vocab:
        cont = doc.lower().replace('.', '').replace(',', '').split().count(word)
        vec.append(cont)
    return np.array(vec)

In [7]:
print(get_dft(corpus[0]))

[0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0
 2 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
 1 0 0 0 0 0 0]


In [8]:
corpus_vec = []
for doc in corpus:
    doc_vec = get_dft(doc)
    corpus_vec.append(doc_vec)

In [9]:
dft = np.sum(corpus_vec, axis = 0)
dft

array([ 27,  33,  20,  36,  32,  36,  44, 118,  44,  92,  16,  27,  34,
        27,  27,  33,  34,  33,  32,  36,  47,  20,  33,  27,  36,  27,
       119,  32,  54,  37, 159,  33,  20,  27,  34,  44,  23,  54,  47,
       182,  32,  32,  32,  33,  33,  27, 126,  32,  33, 100,  23,  40,
        32,  79,  32,  96,  32,  17,  59,  37, 346,  65,  33,  20,  33,
        34,  27, 175,  37,  47,  20, 121,  13,  20, 198,  37,  15,  27,
        33,  47,  27,  32,  33,  37, 268,  27,  27,  33,  37,  96,  32,
        27,  74,  47,  96,  36,  20,  66,  37,  27, 154,  11,  32,  27,
        92,  32,  37,  33,  67,  27,  27,  33,  32,  47,  60,  32,  33,
       145])

In [10]:
idf = np.log(np.divide(118, dft))
idf

array([ 1.47484776,  1.27417706,  1.77495235,  1.18716569,  1.30494872,
        1.18716569,  0.98649499,  0.        ,  0.98649499,  0.24889605,
        1.9980959 ,  1.47484776,  1.2443241 ,  1.47484776,  1.47484776,
        1.27417706,  1.2443241 ,  1.27417706,  1.30494872,  1.18716569,
        0.92053702,  1.77495235,  1.27417706,  1.47484776,  1.18716569,
        1.47484776, -0.00843887,  1.30494872,  0.78170058,  1.15976671,
       -0.29821958,  1.27417706,  1.77495235,  1.47484776,  1.2443241 ,
        0.98649499,  1.63519041,  0.78170058,  0.92053702, -0.43332206,
        1.30494872,  1.30494872,  1.30494872,  1.27417706,  1.27417706,
        1.47484776, -0.06559728,  1.30494872,  1.27417706,  0.16551444,
        1.63519041,  1.08180517,  1.30494872,  0.40123677,  1.30494872,
        0.20633643,  1.30494872,  1.93747128,  0.69314718,  1.15976671,
       -1.07575415,  0.59629735,  1.27417706,  1.77495235,  1.27417706,
        1.2443241 ,  1.47484776, -0.39410135,  1.15976671,  0.92