# Búsqueda de texto completo
Autor: Eric S. Tellez <eric.tellez@infotec.mx> <br/>

Tal vez la tarea más emblemática de la Recuperación de Información es la búsqueda de _texto completo_.
El problema consiste en dado un corpus grande de documentos, preprocesarlo para crear una estructura de búsqueda que permita resolver consultas de manera eficiente. Una consulta es un texto corto que específica lo que se desea encontrar en la colección. En particular, es un ejemplo de lo que se desea. Esto lleva a que la estructura de búsqueda resuelve búsquedas por similitud.

La similitud, es entonces un tema central, pero para medirla lo primero es tener una representación de los datos que capture las propiedades deseadas (que serán después evaluadas para medir la similitud). La manera más tradicional de hacerlo, es el uso de un modelo basado en bolsa de palabras (BOW). En dicho modelo, el texto es preprocesado, toquenizado y vectorizado.

- El preprocesamiento incluye tratamientos tan simples como eliminar símbolos no deseados, eliminiación de variantes léxicas, reducción a raíces o lemas, corrección de ortografía, eliminiación de palabras comunes (stop words). 
- El toquenizado es el proceso donde el texto es partido, en frases u oraciones, y finalmente en palabras y símbolos que son unidades completas. En este punto también es posible realizar normalizaciones, así como también realizar limpieza basada en estadísticas de los términos.
- El vectorizado utiliza el vocabulario de una colección $\{t_i\}$ para generar una matriz de la colección, i.e., un vector por documento.

Al proceso de modelar una colección mediante un vocabulario y luego ser capaces de generar una representación manejable por una computadora se le llama _modelo de lenguaje_.

## Problema de búsqueda
Una vez que se genero el modelo de lenguaje y que fue usado para vectorizar una colección $X$, la idea es ser capaces de resolver consultas $Q$, i.e., encontrar un subconjunto de $X$ que mejor se apegue a una especificación $q \in Q$. Las consultas deben ser codificadas de la misma forma, para generar un vector con ellas. Entonces el problema se transforma en encontrar los elementos más parecidos, que dada la representación, es conveniente usar el coseno entre vectores:

$$ \cos(u, q) = \frac{ \sum_i {u_i \cdot q_i}}{\sqrt{\sum_i u_i^2} \cdot \sqrt{\sum_i q_i^2}} $$

Así mismo, $d(u, q) = \arccos(\cos(u, q))$ sería el ángulo entre ambos vectores, que además es una métrica. El problema entonces se transforma en encontrar los vecinos más cercanos en la colección, esto es, si deseamos $k$ resultados de una consulta, estaríamos deseando encontrar aquel subconjunto $knn$ de la colección tal que $\sum_{v \in knn} d(v, q)$ sea mínimo comparado con todo subconjunto de tamaño $k$ de la colección de documentos.

## Velocidad de consultas
Para mejorar la solución de consultas, es posible crear una estructura de datos que simplifique el proceso de encontrar el subconjunto $knn$. En este problema, con una representación basada en bolsa de palabras, la estructura más adecuada es el _índice invertido.


# Índice invertido

Un índice invertido es una representación dispersa de la matriz $W_{m,n}$ formada por $m$ componentes y $n$ documentos, i.e., cada celda $w_{t,i}$ es el peso asignado para el término $t$ que ocurre en el documento $i$. Por construcción, esta matriz tiene una gran cantidad de ceros, por lo que $W$ es altamente dispersa (pocos términos ocurren en un documento).

$$ W \left \{
\begin{array}{rrrr rrrr rr}
                & \vec x_1& \vec x_2&       & \vec x_n \\
t_1 \rightarrow & w_{1,1} & w_{1,2} & \dots & w_{1,n} \\
t_2 \rightarrow & w_{2,1} & w_{2,2} &       & w_{2,n} \\
                & \vdots  &         & \ddots&         \\
t_m \rightarrow & w_{m,1} & w_{m,2} &       & w_{m,n} \\
\end{array}
\right .
$$

La representación es entonces por fila, a manera de lista de adjacencia; esto es, cada fila $t$ es representada por las tuplas $(i, w_{t,i})$, esto es, un índice invertido es la siguiente estructura $W^*$

$$ W^* \left \{
\begin{array}{rrr}
t_1 & \rightarrow & \{(i, w_{1, i})\} \\
t_2 & \rightarrow & \{(i, w_{2, i})\} \\
\vdots & \vdots   &  \hfill \vdots \hfill \\
t_m & \rightarrow & \{(i, w_{m, i})\} \\
\end{array}
\right .
$$

la tupla es usada siempre y cuando $w > 0$. Las tuplas suelen ordenarse por su identificador de columna, pero también puede usarse el peso según convenga. A las filas suele llamarseles listas de posteo (_posting lists_). Los requerimientos de una matriz densa son altísimos para representaciones de texto de alta dimensión, representar las matrices de manera dispersa simplifica el manejo de la memoría, y como se verá a continuación, también influye enormemente en los tiempos de procesamiento.

### Búsqueda mediante un índice invertido

La solución na\"ive de una obtener los $k$ documentos más similares es evaluar todos los vectores $\vec{x}_i$, i.e., columnas de $W$, y determinar aquellos más similares, i.e., minimizar $d(\vec{x}_i, q)$.

El índice invertido $W^*$ contiene la información necesaria para realizar esta operación de manera eficiente. Primeramente, es necesario analizar la expresión de $\cos$. El denominador $\sqrt{\sum_i u_i^2} \cdot \sqrt{\sum_i q_i^2}$, en sus partes es estático para cada vector, por lo que se puede preprocesar y no calcular de manera explícita para cada evaluación de $\cos$. Con respecto al numerador corresponde al producto punto entre $\vec{u}$ y $\vec{q}$, $\sum_i u_i \cdot q_i$. Dicho esto, solo es necesario calcular los productos diferentes de cero; así pues, la evaluación eficiente de $\cos$ corresponde con una evaluación eficiente de la intersección de las componentes diferentes de cero. Los algoritmos como SvS, BY o BK, pueden ser de gran ayuda para este cálculo. Note que aunque que los pesos con valor cero no se representan en $W^*$, dicho índice representa información por fila, lo cual no permite hacer operaciones eficientes entre $q$ y los vectores columna $\vec x$ individuales.


Afortunadamente, la evaluación se puede hacer eficiente para todo el conjunto de posibles candidatos (aquellos donde el producto punto contra $q$ sea diferente de cero). Para esto, se toman las componentes diferentes de cero en $q$, se toman las listas de adyacencia de $W^*$ y se procede a unirlas de manera eficiente. El conjunto de identificadores de documento resultado de esta unión será aquel que debe ser evaluado para obtener el conjunto de documentos similares. 
Si uno toma la intersección, que puede ser más veloz de calcular, entonces podrían perderse documentos relavantes; es posible también mandar el problema a un punto intermedio, es decir al problema de $t$-thresholds, donde se recupera un conjunto donde cada uno de los miembros aparece en al menos $t$ listas.
La manera más eficiente, sin embargo, es realizar optimizaciones por filtrado de pesos o mejorando los esquemas de pesado; la idea general entonces es desaparecer entradas de $W*$ de tal forma que la unión sea siempre pequeña. La adecuada optimización de un índice invertido puede hacerlo escalable a niveles realmente impresionantes.

Los algoritmos de BK pueden ser utilizados para calcular la unión y t-threasholds, así como los algoritmos de mezcla clásicos (_merge_). Es posible unir la operación de unión con la operación de producto punto por vector usando los algoritmos adecuados.

- <https://github.com/sadit/InvertedFiles.jl/blob/main/src/invfilesearch.jl>
- <https://github.com/sadit/InvertedFiles.jl/blob/main/src/winvfilesearch.jl>
- <https://github.com/sadit/Intersections.jl/blob/main/src/merge.jl>

# Medidas de calidad (scores)
La medición de la calidad en un sistema de búsqueda es fundamental para obtener un sistema de RI adecuado. La idea básica es que un algoritmo recupere la información adecuada para solventar los requerimientos de las consultas hechas por usuarios. Dicho de otra forma, si se piden $k$ documentos relacionados a una consulta $q$, se medirá que porcentaje de esos $k$ son relevantes para el usuario.
La evaluación de relevancia de un documento es hecha previamente por _usuarios expertos_ en el dominio del corpus y las consultas. A esta función de relevancia se le llama $\textsf{recall}$.

$$ \textsf{recall}(\text{doc. recuperados}, \text{doc. esperados}) = \frac{\left| \text{doc. recuperados} \cap \text{doc esperados} \right|}{\left|\text{doc. esperados}\right|} $$

Note que no se espera precisamente que cada conjunto de resultados sea de tamaño idéntico, aunque esta será la norma en nuestro curso. Para obtener una estadística fiable, la relevancia será promediada para obtener la calidad del modelo o algoritmo ante un conjunto de consultas. Llamaremos $\textsf{macrorecall}$ al promedio de los recalls varias consultas.

$$ \textsf{macrorecall}(R, G) = \frac{1}{|G|} \sum_i \textsf{recall}(R_i, G_i)$$

El conjunto $R$ es el conjunto de resultados recuperados para un conjunto de consultas, mientras que $G$ es un conjunto especial de resultados que suele llamarse _gold standard_, que sería esa el conjunto de resultados fiables obtenidos a través de la evaluación de expertos humanos.

Es costoso y tardado construir un _gold standard_ para una tarea de recuperación de información, y más aún, para conjuntos de datos grandes. Es por eso que en este curso, evaluaremos la bondad de los modelos usados para la representación de los datos mediante el uso de tareas de clasificación. En ese sentido la relación entre velocidad y calidad que se muestran no deberán tomarse más que de manera informativa ya que no puede ligarse a un sistema de búsqueda en grandes colecciones de documentos.

En términos de clasificación se usará un modelo basado en vecinos cercanos ya que son naturalmente implementados con las máquinas de búsqueda. Pero se aconseja el uso de otros clasificadores en tareas de clasificación.

A lo largo del resto del curso, siempre que sea fácil se utilizarán particiones separadas entre entramiento y prueba. Como no es nuestro objetivo la clasificación efectiva, si no hay particiones dedicadas, se utilizará una muestra aleatoria del corpus, lo cual puede introducir prejuicios sobre los resultados. Nuestro objetivo es medir la diferencia entre modelos de búsqueda, y debería ser suficiente con los resultados que se obtendrán, a sabiendas que para tareas de clasificación no aplicará esta metodología.

### Clasificación de texto
La clasificación de texto es una tarea de recuperación de información que será solo tocada ligeramente en este curso, ya que esta fuera del alcance del mismo. Sin embargo, se usará en una de sus formas más sencillas para evaluación de la calidad de los modelos, como ya se menciono. El problema de clasificación consiste en aprender una función $\phi(texto) \rightarrow etiqueta$ apartir de un conjunto de un corpus etiquetado tal que para cada texto $t_i$ en el corpus, existe una $y_i$ que es la etiqueta de $t_i$, de tal forma que al usar un texto nunca antes visto $\phi(texto')$ la función sea capaz de calcular una etiqueta. La función $\phi$ basada en recuperar los $k$ vecinos cercanos ($knn$) sobre el corpus de entrenamiento y resolver con la etiqueta más popular entre los $knn$.

Hay diferentes tipos de _scores_ que se utilizan, entre ellos el _accuracy_, _precision_, y _recall_, que es un simil de nuestra función de recall. También se suele tener en cuenta combinaciones de estos como _score_ $F_1$, que es la media armónica entre _precision_ y _recall_. Las funciones de _accuracy_, _precision_ y _recall_ se definen con respecto al número de clases (diferentes etiquetas consideradas) y las funciones básicas TP (true positives), TN (true negatives), FP (false positives), FN (false negatives) <https://en.wikipedia.org/wiki/Precision_and_recall>. Dichas funciones son bien conocidas y usaremos las funciones implementadas en paquetes dedicados enfocando en nuestro objetivo de uso de la búsqueda para medir la calidad de un modelo.


## Modelos que toman en cuenta a los usuarios de manera personalizada
Los requerimientos entre usuarios podrían asumirse diferentes, en ese caso, el problema cambiará su forma precisa ya que ahora se deberá cumplir que el resultado de una consulta sea relevante para un usuario específico, que deberá ser modelado de alguna manera para poder generalizarlo. Esta consideración esta fuera del alcance de este curso.

# Ejemplo

El siguiente es un ejemplo de como cambia el desempeño usando una evaluación exhaustiva, un índice invertido y una pequeña optimización basada en modificación de pesos. 

In [1]:
using Pkg
Pkg.activate(".")

!isfile("Manifest.toml") && Pkg.add([
    PackageSpec(name="SimilaritySearch", version="0.9"),
    PackageSpec(name="TextSearch", version="0.12"),
    PackageSpec(name="KNearestCenters", version="0.7"),
    PackageSpec(name="InvertedFiles", version="0.4"),
    PackageSpec(name="CodecZlib", version="0.7"),
    PackageSpec(name="JSON", version="0.21"),
    PackageSpec(name="HypertextLiteral", version="0.9")
])

using TextSearch, InvertedFiles, SimilaritySearch, KNearestCenters, TextSearch, CodecZlib, StatsBase, JSON, LinearAlgebra, HypertextLiteral


[32m[1m  Activating[22m[39m project at `~/IR-2022/Unidades`


In [2]:
]status

[32m[1m      Status[22m[39m `~/IR-2022/Unidades/Project.toml`
 [90m [944b1d66] [39mCodecZlib v0.7.0
 [90m [ac1192a8] [39mHypertextLiteral v0.9.4
 [90m [b20bd276] [39mInvertedFiles v0.4.1 `../../Research/InvertedFiles.jl`
 [90m [682c06a0] [39mJSON v0.21.3
 [90m [4dca28ae] [39mKNearestCenters v0.7.1
 [90m [8ef0a80b] [39mLanguages v0.4.3
 [90m [eb30cadb] [39mMLDatasets v0.7.3
 [90m [053f045d] [39mSimilaritySearch v0.9.4 `../../Research/SimilaritySearch.jl`
 [90m [fb8f903a] [39mSnowball v0.1.0
 [90m [2913bbd2] [39mStatsBase v0.33.18
 [90m [7f6f6c8a] [39mTextSearch v0.12.5 `../../Research/TextSearch.jl`


### Función de clasificación para medir calidad de un modelo

In [3]:
function knn(index, labels, q, k)
    res = KnnResult(k)
    search(index, q, res)
    mode(labels[idview(res)])
end

function mymode(c, labels, f)
    n = length(c)
    empty!(f)
    for id in c
        id == 0 && break  # searchbatch stores zeros at the end of the result when the result set is smaller than the required one
        l = labels[id]
        f[l] = get(f, l, 0) + 1
    end
    
    if length(f) == 0
        rand(labels)
    else
        argmax(last, f) |> first
    end
end

function knn(I, labels)
    f = Dict{eltype(labels), Int}()
    [mymode(c, labels, f) for c in eachcol(I)]
end

function scores(gold, pred)
    s = classification_scores(gold, pred)
    (macrof1=s.macrof1, macrorecall=s.macrorecall, accuracy=s.accuracy)
end

scores (generic function with 1 method)

## Funciones para leer y modelar el corpus

In [4]:
function parse_corpus(corpusfile)
    corpus, labels = String[], String[]
    open(corpusfile) do f
        for line in eachline(GzipDecompressorStream(f))
            r = JSON.parse(line)
            push!(labels, r["klass"])
            push!(corpus, r["text"])    
        end
    end
    
    corpus, labels
end

function text_model_and_vectors(
        corpus;
        textconfig=TextConfig(group_usr=true, group_url=true, del_diac=true, lc=true, group_num=true, nlist=[1], qlist=[]),
        model=VectorModel(IdfWeighting(), TfWeighting(), textconfig, corpus)
    )
    vectors = vectorize_corpus(model, textconfig, corpus)
    for v in vectors
        normalize!(v)
    end

    (; textconfig, model, vectors)
end

function create_dataset(corpusfile)
    corpus, labels = parse_corpus(corpusfile)
    (; labels, corpus, text_model_and_vectors(corpus)...)
end

create_dataset (generic function with 1 method)

In [5]:
display(@htl "<h1>Cargando el corpus (descargado en U1.ipynb)</h1>")
dbfile = "../data/emo50k.json.gz"
D = create_dataset(dbfile)
@show unique(D.labels), D.model

(unique(D.labels), D.model) = (["😰", "😥", "😊", "😏", "♡", "💔", "🙂", "😋", "😌", "🌚", "👌", "😪", "😤", "🙃", "🤤", "😴", "😢", "😅", "😑", "😠", "😂", "😜", "🤓", "💙", "😀", "🤗", "🤣", "😒", "✨", "😐", "😞", "😁", "😱", "👏", "😫", "😍", "❤", "😣", "🙊", "🙏", "🙄", "🤭", "💜", "🤔", "😬", "👀", "😉", "😈", "😡", "😳", "🙈", "😻", "😔", "😓", "💕", "🎶", "😭", "😕", "♥", "💖", "😎", "😘", "😃", "😩"], {VectorModel global_weighting=IdfWeighting(), local_weighting=TfWeighting(), train-voc=45374, train-n=50000, maxoccs=93991})


(["😰", "😥", "😊", "😏", "♡", "💔", "🙂", "😋", "😌", "🌚"  …  "💕", "🎶", "😭", "😕", "♥", "💖", "😎", "😘", "😃", "😩"], {VectorModel global_weighting=IdfWeighting(), local_weighting=TfWeighting(), train-voc=45374, train-n=50000, maxoccs=93991})

# Creando los diferentes métodos de búsqueda

In [6]:
# índice invertido
invfile = WeightedInvertedFile(length(D.model.voc))
append!(invfile, VectorDatabase(D.vectors))

## indice invertido con filtros al vocabulario
fmodel = filter_tokens(D.model) do t
    7 <= t.ndocs <= 1000  # filtrando los tokens que ocurren en entre 7 y 1000 documentos
end

## usando el modelo reducido de tokens
fD = text_model_and_vectors(D.corpus, textconfig=D.textconfig, model=fmodel)

finvfile = WeightedInvertedFile(length(fD.model.voc))
append!(finvfile, VectorDatabase(fD.vectors))

{WeightedInvertedFile vocsize=5408, n=50000}

In [7]:
display(@htl "The token filters can operate on any valid field of voc (passed as the named tuple <em>t</em>)")

dump(typeof(D.model.voc))

Vocabulary <: Any
  token::Vector{String}
  occs::Vector{Int32}
  ndocs::Vector{Int32}
  weight::Vector{Float32}
  token2id::Dict{String, UInt32}
  corpuslen::Int64


In [8]:
Qi = unique(rand(1:length(D.vectors), 1000))
Qlabels = D.labels[Qi]
Q = VectorDatabase(D.vectors[Qi])
fQ = VectorDatabase(fD.vectors[Qi]) # son espacios diferentes al ser generados por modelos diferentes
typeof(Qi), typeof(Q), size(Qi)

(Vector{Int64}, VectorDatabase{Vector{Dict{UInt32, Float32}}}, (992,))

In [9]:
# evaluación exhaustiva
brute = ExhaustiveSearch(; db=D.vectors, dist=NormalizedCosineDistance())
nothing

## La siguiente celda se debe correr 2 veces para remover el costo de compilación

In [10]:
GC.enable(false)
@time I, _ = searchbatch(invfile, Q, 7)
@time B, _ = searchbatch(brute, Q, 7)
@time fI, _ = searchbatch(finvfile, fQ, 7)
GC.enable(true)

  1.074409 seconds (2.15 M allocations: 153.711 MiB, 84.38% compilation time)
  0.740200 seconds (525.27 k allocations: 27.616 MiB, 33.43% compilation time)
  0.014803 seconds (8 allocations: 54.562 KiB)


false

In [11]:
# La diferencia de costos puede ser importante
# por lo que es también necesario saber el impacto con respecto a la calidad perdida
# Recuerde que esta es una evaluación estocástica
let 
    @info scores(Qlabels, knn(B, D.labels))
    @info scores(Qlabels, knn(I, D.labels))
    @info scores(Qlabels, knn(fI, D.labels))
end

┌ Info: (macrof1 = 0.25526458596380447, macrorecall = 0.2839123666820394, accuracy = 0.2903225806451613)
└ @ Main In[11]:5
┌ Info: (macrof1 = 0.25526458596380447, macrorecall = 0.2839123666820394, accuracy = 0.2903225806451613)
└ @ Main In[11]:6
┌ Info: (macrof1 = 0.22456100684915367, macrorecall = 0.2459333551419359, accuracy = 0.2530241935483871)
└ @ Main In[11]:7


# Sobre los resultados
Lo primero que puede observarse en los resultados es que no son tan buenos como podría desearse; recuerde que nuestro objetivo esta en la búsqueda. También se debe tener en cuenta que esta lejos de una solución aleatoria, ya que son 64 etiquetas. Se puede ver como se multiplica la velocidad varias veces con una calidad muy semejante. En lo posterior, veremos como estos números variarán usando diferentes técnicas.


Finalmente, es necesario remarcar que búsqueda el objetivo es dar a los usuarios información de útilidad, y esto suele evaluarse con _gold standards_ generados por humanos. La cantidad de información será mucho mayor que en tareas de clasificación, y muchas veces, la velocidad es primordia, y si los usuarios encuentran de utilidad los resultados se puede decir que el modelo es efectivo.


# Actividades

- ¿Qué es el recall?
- ¿Qué es macro-recall?
- Explique el porque de las mejoras en tiempo. Use análisis de algoritmos para este ejercicio.
- Implemente un índice invertido que sea capaz de mejorar los tiempos de búsqueda tal y como se muestra en este ejercicio. Para el procesamiento del texto y toquenizado use librerias/paquetes externos.
- Reporte mediante un notebook de Jupyter su implementación, use uno de los conjuntos de datos para ejemplificar su uso y medir los desempeños.

# Bibliografía
- [SMR2008] Schütze, H., Manning, C. D., & Raghavan, P. (2008). Introduction to information retrieval (Vol. 39, pp. 234-65). Cambridge: Cambridge University Press.
- [BYN1999] Baeza-Yates, R., & Ribeiro-Neto, B. (1999). Modern information retrieval (Vol. 463). New York: ACM press.