# B√∫squeda sem√°ntica
Autor: Eric S. Tellez <eric.tellez@infotec.mx>


# Language models
En los word embeddings, cada palabra del vocabulario tiene asignado un vector denso de manera est√°tica, fruto de su sem√°ntica basada en la hip√≥tesis distribucional. Los modelos de lenguaje van m√°s all√°, intentando no solo tener en cuenta una palabra para el vector, si no que el vector mismo es dependiente del contexto, por lo cual puede desambiguar de manera natural palabras id√©nticas (hom√≥nimos) usando dicha informaci√≥n contextual. Adicionalmente, capturan informaci√≥n relevante de grandes corpus de texto, aportando muchas veces informaci√≥n de un mundo (i.e., si se entrenan usando la wikipedia, tendr√°n informaci√≥n relavante de multiples dominios).

La punta de lanza de los modelos de lenguaje es el aprendizaje profundo, y m√°s precisamente, con el uso de _transformers_. Uno de los modelos de lenguaje m√°s utilizado es BERT [@VSPU2017]. La persona interesada m√°s sobre ellos <https://huggingface.co/>. 
Cuando la informaci√≥n esta poco espec√≠ficada, las palabras adecuadas podr√≠an ser dificiles de tener o limitar. En estos casos, la representaciones sem√°nticas que permiten buscar _lo que se desea_ por medio de conceptos nos acerca m√°s a la posibilidad de obtener informaci√≥n √∫til.

En lo que resta de este notebook se estar√°n viendo como usar los modelos, y m√°s precisamente los embeddings para realizar tareas de recuperaci√≥n de informaci√≥n.


In [1]:
using Pkg
Pkg.activate(".")


[32m[1m  Activating[22m[39m project at `~/Cursos/IR-2024/Unidades`


In [2]:
using SimilaritySearch, LinearAlgebra, HypertextLiteral, CodecZlib, JSON, Random, StatsBase, DataFrames
using Downloads: download
using Transformers
using Transformers.TextEncoders
using Transformers.HuggingFace

In [3]:
textencoder, bertmodel = hgf"dccuchile/bert-base-spanish-wwm-cased"

(BertTextEncoder(
‚îú‚îÄ TextTokenizer(MatchTokenization(WordPieceTokenization(bert_cased_tokenizer, WordPiece(vocab_size = 31002, unk = [UNK], max_char = 100)), 5 patterns)),
‚îú‚îÄ vocab = Vocab{String, SizedArray}(size = 31002, unk = [UNK], unki = 4),
‚îú‚îÄ startsym = [CLS],
‚îú‚îÄ endsym = [SEP],
‚îú‚îÄ padsym = [PAD],
‚îú‚îÄ trunc = 512,
‚îî‚îÄ process = Pipelines:
  ‚ï∞‚îÄ target[token] := TextEncodeBase.nestedcall(string_getvalue, source)
  ‚ï∞‚îÄ target[token] := Transformers.TextEncoders.grouping_sentence(target.token)
  ‚ï∞‚îÄ target[(token, segment)] := SequenceTemplate{String}([CLS]:<type=1> Input[1]:<type=1> [SEP]:<type=1> (Input[2]:<type=2> [SEP]:<type=2>)...)(target.token)
  ‚ï∞‚îÄ target[attention_mask] := (NeuralAttentionlib.LengthMask ‚àò Transformers.TextEncoders.getlengths(512))(target.token)
  ‚ï∞‚îÄ target[token] := TextEncodeBase.trunc_and_pad(512, [PAD], tail, tail)(target.token)
  ‚ï∞‚îÄ target[token] := TextEncodeBase.nested2batch(target.token)
  ‚ï∞‚îÄ targe

In [34]:
function encode_text_(bertmodel, e)
    s = bertmodel(e)
    p = vec(s.pooled)
    normalize!(p)
end

function encode_text(textencoder, bertmodel, text::AbstractString)
    e = encode(textencoder, text)
    encode_text_(bertmodel, e)
end

function encode_text(textencoder, bertmodel, text::AbstractVector)
    length(text) == 2 || throw(ArgumentError("the model supports a sentence and a pair of sentences"))
    e = encode(textencoder, [text])
    encode_text_(bertmodel, e)
end

function encode_corpus(textencoder, bertmodel, corpus::AbstractVector)
    # we avoid using the Bert / Beto API directly to reduce memory consumption
    # nonetheless, it will make use of more dynamic allocations
    n = length(corpus)
    E = Matrix{Float32}(undef, 768, n)
    for (i, text) in enumerate(corpus)
        if rand() < 0.1
            @info i, text
        end
        E[:, i] .= encode_text(textencoder, bertmodel, text)
    end

    E
end

function create_index(db, recall)
    dist = NormalizedCosineDistance()
    index = SearchGraph(; dist, db, verbose=false)
    index!(index; callbacks=SearchGraphCallbacks(MinRecall(recall)))
    optimize!(index, MinRecall(recall))
    index
end

create_index (generic function with 1 method)

In [33]:
encode_text(textencoder, bertmodel, ["¬øCu√°ntos zapatos tiene Mar√≠a?", "que pasa con el elefante", "cuantos zapatos tiene Maria", "santa maria de los buenos aires"])

768-element Vector{Float32}:
 -0.014974176
 -0.03792605
  0.002626905
  0.050325755
 -0.048552472
 -0.029904956
  0.04216009
 -0.078885645
 -0.026764376
 -0.029372465
  0.02667069
 -0.002202712
  0.03841882
  ‚ãÆ
 -0.0727948
 -0.01639543
 -0.061481655
  0.006171282
 -0.04631392
  0.0053181024
 -0.0091918195
  0.016311778
  0.046157602
  0.022465635
  0.0061214804
 -0.02674574

In [35]:
display(@htl "<h1>Cargando el corpus</h1>")

include("read_datasets.jl")

D, Q = DataFrame.(read_news())
DataFrame(D), DataFrame(Q)
#@show Set(unique(D.labels)) == Set(unique(Q.labels))


([1m30244√ó2 DataFrame[0m
[1m   Row [0m‚îÇ[1m corpus                            [0m[1m labels          [0m
       ‚îÇ[90m String                            [0m[90m String          [0m
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
     1 ‚îÇ RT @SanGonAzc: @RadioIndeMexico ‚Ä¶  AdriDelgadoRuiz
     2 ‚îÇ ‚ÄúEl periodismo serio y responsab‚Ä¶  AdriDelgadoRuiz
     3 ‚îÇ "...S√≠ esperamos que se aumente ‚Ä¶  AdriDelgadoRuiz
     4 ‚îÇ RT @Univ_Cultura: Encuentran sis‚Ä¶  El_Universal_Mx
     5 ‚îÇ Los tacos son grandes embajadore‚Ä¶  CNNEE
     6 ‚îÇ Esta es la lista de pa√≠ses a los‚Ä¶  NTN24
     7 ‚îÇ Por desgracia, esta tendencia im‚Ä¶  UniNoticias
     8 ‚îÇ La embajadora de Ucrania en Esta‚Ä¶  TelemundoNews
     9 ‚îÇ Dos Bocas alista motores | La re‚Ä¶  SinEmbargoMX
    10 ‚îÇ Analizamos el papel de las mujer‚Ä¶  Reforma
    11 ‚îÇ Ignas

In [None]:
@time C = encode_corpus(textencoder, bertmodel, D.corpus)

[36m[1m[ [22m[39m[36m[1mInfo: [22m[39m(25, "#Hilo ü™° #Revive una #trilog√≠a sobre el momento pol√≠tico hist√≥rico de 1988 con nuestros #documentales (en ingl√©s): #C√ÅRDENAS OPPORTUNITY. POWER. DESOLATION ‚ñ∂Ô∏è https://t.co/iRN0kyqZU1 | #MAQU√çO REVELLION. SEDUCTION. TRAGEDY ‚ñ∂Ô∏è https://t.co/ovA7VsxkEd https://t.co/HQx3NJqUI0")
[36m[1m[ [22m[39m[36m[1mInfo: [22m[39m(29, "#Opini√≥n | ¬øC√≥mo pudieron tantas personas entrar a M√©xico y desplazarse luego hasta la frontera con EU? La respuesta es obvia: con la ayuda de organizaciones criminales especializadas en el contrabando de migrantes, dice @ruizhealy.\nhttps://t.co/a8yBxdJJom https://t.co/dFlEyQRJoo")
[36m[1m[ [22m[39m[36m[1mInfo: [22m[39m(31, "Tiger Woods anuncia que jugar√° otro torneo a pesar de los malos resultados en el Masters de Augusta\nhttps://t.co/FmN1kqYxJU")
[36m[1m[ [22m[39m[36m[1mInfo: [22m[39m(33, "‚ÄúSoy saxofonista no violinista‚Äù: Mar√≠a Elena atacada con √°cido corrige a Sergi

In [None]:
C

### Se crea el √≠ndice m√©trico

In [None]:
@time index = create_index(MatrixDatabase(C), 0.95)

### B√∫squeda de todos los vecinos cercanos en el vocabulario, observe la conveniencia del uso de un √≠ndice

Entre m√°s sean las consultas m√°s se ve la bondad (~42k consultas)

In [None]:
let k = 11
    Qvectors = MatrixDatabase(vectorize_corpus_as_prototypes(Q.corpus, E, T))
    t1 = @elapsed I, _ = searchbatch(index, Qvectors, k)
    # WARNING: Don't run the following line, it takes too much time
    ex = ExhaustiveSearch(; db=index.db, dist=index.dist)
    t2 = @elapsed gI, _ = searchbatch(ex, Qvectors, k)
    r = macrorecall(gI, I)
    n = size(I, 2)
    labels = String.(D.labels)
    s1 = scores(Q.labels, knn(I, labels))
    s2 = scores(Q.labels, knn(gI, labels))
    
    @htl """
    <div>(brute vs indexed) macro-recall: $r, n: $n</div>
    <div>searchgraph search time: $t1, scores: $s1</div>
    <div>brute force search time: $t2, scores: $s2</div>
    """
end

### B√∫squeda y presentaci√≥n de los resultados

In [None]:
function search_and_display(index, qtext, k, D, E, T)
    res = KnnResult(k)
    q = zeros(Float32, size(E.X, 1))
    vectorize_as_prototype!(q, qtext, E, T)
    @time search(index, q, res)
    
    L = []
    for (j, (id, d)) in enumerate(res)
        push!(L, @htl "<tr><td>$j</td><td>$id</td><td>$(round(d, digits=3))</td> <td>$(D.labels[id])</td><td> $(D.corpus[id])</td> </tr>")
    end

    display(@htl """<h2>resultados for "$qtext"</h2>
    <table>
    <th>  <td>id</td> <td>dist</td> <td>user</td> </td>message<td> </th>
        $L
    </table>
    """)
end


In [None]:

display(@htl "<h1>Ejemplos de b√∫squeda</h1>")
search_and_display(index, "el gobierno de andres manuel lopez", 7, D, E, T)
search_and_display(index, "trafico de drogas", 7, D, E, T)
search_and_display(index, "covid corona virus", 7, D, E, T)


In [None]:
display(@htl "<h1>Ejemplos de b√∫squeda (mensajes aleatorios)</h1>")

for i in 1:3
    for qid in rand(1:length(D.corpus))
        search_and_display(index, D.corpus[qid], 7, D, E, T)
    end
end

# Actividades
- Reproduzca el ejercicio de este notebook, use embeddings para espa√±ol, cambi√© los ejemplos. Se sugiere el uso de <https://ingeotec.github.io/regional-spanish-models/> donde encontrar√° modelos fastText regionalizados del espa√±ol, pero puede usar otros embeddings.
- ¬øQu√© piensa de las diferencias de tama√±o entre los documentos y las consultas? esto como afecta a la representaci√≥n sem√°ntica.
- ¬øCu√°l ser√≠a el s√≠mil de bigramas y trigramas para este esquema de representaci√≥n sem√°ntica? Implementelo.
- Implemente su b√∫squeda sem√°ntica. Si usa Julia considere `SimilaritySearch.jl` y si usa Python considere `faiss`.
- Reporte su notebook y anote sus soluciones a las preguntas planteadas. Reporte los resultados de sus implementaciones, compare contra las alternativas presentadas en este reporte. Discuta sus resultados. Finalice el reporte  con reflexiones sobre el uso de nubes de puntos en lugar de bolsas de palabras tradicionales. Anot√© sus conclusiones.

# Bibliograf√≠a
- [KSKW2015] Kusner, M., Sun, Y., Kolkin, N., & Weinberger, K. (2015, June). From word embeddings to document distances. In International conference on machine learning (pp. 957-966). PMLR.
- [PW2009] Pele, O., & Werman, M. (2009, September). Fast and robust earth mover's distances. In 2009 IEEE 12th international conference on computer vision (pp. 460-467). IEEE.
- [VSPU2017] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
