# Búsquedas indexadas

## 1. Importación de los datos
Usamos open para leer los datos de un archivo de texto

In [2]:
import pandas as pd

with open("/kaggle/input/yeah-omg/01_corpus_turismo_500.txt", "r", encoding="utf-8") as file:
    data = file.read()

## 2. Generación del corpus

Conjunto extenso y ordenado de datos o textos.

In [4]:
corpus = data.split("\n")
corpus

['Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.',
 'La Laguna Quilotoa destaca por su color turquesa',
 'Vilcabamba atrae visitantes interesados en longevidad y naturaleza Una experiencia inolvidable.',
 'Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para surf.',
 'Ecuador es un país megadiverso, ideal para el turismo ecológico',
 'Los turistas disfrutan las fiestas y gastronomía típica local Perfecto para avistamiento de aves.',
 'Otavalo es conocido por su mercado indígena y su artesanía Una experiencia inolvidable.',
 'El volcán Cotopaxi es un destino de senderismo popular',
 'El Parque Nacional Cajas invita a caminatas entre lagunas Ideal para el próximo feriado.',
 'Mindo es famoso por el avistamiento de aves Ideal para el próximo feriado.',
 'Cuenca deslumbra con su arquitectura colonial y gastronomía Una experiencia inolvidable.',
 'Las Islas Galápagos atraen visitantes por su biodiversidad única Ideal para el próximo fer

In [10]:
corpus[1]

'La Laguna Quilotoa destaca por su color turquesa'

## 3. Generación del diccionario de palabras

El diccionario de palabras o comúnmente llamado "vocabulario" es el consultorio para encontrar todas las palabras existentes en muchos documentos.

In [8]:
vocab = set(data.lower().replace(".", "").replace(",", "").replace("\n", " ").split())
vocab

{'2000',
 'a',
 'agua',
 'amazonía',
 'arquitectura',
 'artesanía',
 'atrae',
 'atraen',
 'auténtico',
 'aventura',
 'aves',
 'avistamiento',
 'baños',
 'biodiversidad',
 'cajas',
 'caminatas',
 'canopy',
 'centro',
 'colonial',
 'color',
 'como',
 'con',
 'conecta',
 'conocido',
 'cotopaxi',
 'cuenca',
 'de',
 'del',
 'deportes',
 'deslumbra',
 'destaca',
 'destino',
 'disfrutan',
 'durante',
 'ecológico',
 'ecuador',
 'ecuatoriana',
 'el',
 'en',
 'entre',
 'es',
 'espectacular',
 'experiencia',
 'famosas',
 'famoso',
 'feriado',
 'feriados',
 'fiestas',
 'galápagos',
 'gastronomía',
 'guayaquil',
 'histórico',
 'humanidad',
 'ideal',
 'increíble',
 'indígena',
 'inolvidable',
 'interesados',
 'invita',
 'islas',
 'la',
 'laguna',
 'lagunas',
 'las',
 'llena',
 'local',
 'longevidad',
 'los',
 'lugar',
 'malecón',
 'megadiverso',
 'mercado',
 'mindo',
 'montañita',
 'muchos',
 'nacional',
 'naturaleza',
 'nocturna',
 'ofrece',
 'otavalo',
 'para',
 'parque',
 'patrimonio',
 'país',
 

In [9]:
len(vocab)

118

Antes de generar nuestro índice vectorizado, es necesario introducir el concepto de TF-IDF

## 4. TF-IDF (Term Frequency-Inverse Document Frecuency)

 Es una técnica estadística para medir la importancia de una palabra en un documento dentro de una colección de documentos.

 ### 4.1. TF (Term Frequency)

 Mide cuántas veces aparece una palabra en un documento específico.

 $$tf = \frac{num veces que aparece la palabra}{num total de palabras en el doc}$$

In [17]:
import numpy as np

def get_tf(doc, vocab):
    vec = []
    clean_doc = doc.replace(".", "").replace(",", "").split()
    
    for word in vocab:
        cont = clean_doc.count(word)
        vec.append(cont)
        
    return np.array(vec)

Podemos realizar un ejemplo con un documento del corpus:

In [18]:
X = get_tf(corpus[0], vocab)
X

array([1, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0])

### 4.2. Frecuencias / Vector indexado del Corpus

Calculemos la frecuencia de cada término iterando por cada documento


In [48]:
corpus_vec = []

for doc in corpus:
    corpus_vec.append(get_tf(doc, vocab))

tf = np.array(corpus_vec)

### 4.3. IDF (Inversed-Document Frequency)

Mide qué tan única es una palabra en toda la colección de documentos.

$$ idf = \log{(\frac{1 + num de documentos}{frecuencia del documento} + 1)}$$

In [44]:
def get_idf(num_docs, corpus_vec):
    df = np.sum(corpus_vec, axis=0)
    return np.log(np.divide(num_docs + 1, df + 1) + 1)

In [49]:
idf = get_idf(len(corpus), tf)
idf

array([1.64544835, 2.67879766, 2.49778631, 1.23802069, 3.08724738,
       6.22059017, 2.78575919, 1.85596191, 1.25920306, 2.49778631,
       2.78575919, 2.75777364, 3.60704944, 2.75777364, 2.13918781,
       2.75777364, 3.75731662, 2.78575919, 2.75777364, 2.78575919,
       2.75777364, 3.21505903, 2.31523205, 1.94250299, 6.22059017,
       2.78575919, 2.22240576, 2.75777364, 6.22059017, 6.22059017,
       2.9406725 , 2.65398298, 6.22059017, 6.22059017, 6.22059017,
       3.47738652, 6.22059017, 2.78575919, 2.58353725, 2.9406725 ,
       2.75777364, 1.63212932, 3.41869054, 2.78575919, 2.78575919,
       2.67879766, 2.73065003, 6.22059017, 2.9406725 , 2.67879766,
       2.49778631, 1.98444381, 6.22059017, 2.43871727, 2.9406725 ,
       2.65398298, 2.78575919, 2.9406725 , 6.22059017, 1.31993269,
       6.22059017, 3.21505903, 2.43871727, 2.9406725 , 2.12612866,
       2.9406725 , 2.73065003, 6.22059017, 2.78575919, 2.67879766,
       2.75777364, 2.65398298, 2.9406725 , 3.21505903, 2.75777

In [46]:
def get_tf_idf(tf, idf):
    return tf * idf

In [50]:
tf_idf = get_tf_idf(tf, idf)
tf_idf

array([[1.64544835, 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]])