# Representaci√≥n sem√°ntica y b√∫squeda
Autor: Eric S. Tellez <eric.tellez@infotec.mx>

## Usando la nube de puntos

La representaci√≥n de nube de puntos puede usarse directamente sin realizar prototipos, sin embargo, es posible que dada su complejidad, dimensi√≥n intrinseca, tenga poca utilidad en grandes volumenes de informaci√≥n. Por ejemplo, es posible utilizar la distancia de [Hausdorff](https://en.wikipedia.org/wiki/Hausdorff_distance); que entre dos nubes de puntos (documentos para este caso) esta definida como sigue:

$$ H_d(U, V) = \max \left\{ \max_{u \in U} \min_{x \in V} d(u, x), \max_{v \in V} \min_{x \in U} d(v, x) \right\} $$

Donde $\textsf{nn}$ encuentra el vecino cercano del primer argumento en el segundo. Podemos ver la intuici√≥n de esta distancia, analizando las partes de la expresi√≥n. 
La diferencia entre ambos conjuntos se representa con el m√°ximo de las distancias m√≠nimas. Note que esta parte es id√©ntica a resolver una b√∫squeda de vecinos cercanos. La parte m√°s externa de la expresi√≥n se repite para los dos conjuntos para preservar la sim√©tria de la funci√≥n.

De la misma forma, es posible obtener variaciones de inter√©s como considerar todas las distancias cercanas en lugar de solo las m√°ximas, lo cual puede reducir formas caprichosas de _outlayers_.

$$ H^+_d(U, V) = \frac{1}{2|U|} \sum_{u \in U} \min_{x \in V} d(u, x) + \frac{1}{2|V|}\sum_{v \in V} \min_{x \in U} d(v, x) $$

La informaci√≥n local de una representaci√≥n de bolsa de palabras tambi√©n puede ser aprovechada, por ejemplo, a√±adiendo informaci√≥n de $\textsf{tp}$

$$ H^\textsf{pt}_d(U, V) = \max \left\{
        \max_{u \in U} \left\{\textsf{pt}(u, U) \min_{x \in V} d(u, x)\right\},
        \max_{v \in V} \left\{\textsf{pt}(v, V) \min_{x \in U} d(v, x)\right\}
     \right\} $$

# Notas adicionales
La versi√≥n de $H^\textsf{pt}_d$ que usa la probabilidad de t√©rmino $\textsf{pt}$ es similar a la aproximaci√≥n 2 listada en [@KSKW2015]. Los prototipos son similares a la aproximaci√≥n 1 del mismo art√≠culo. En el art√≠culo se presenta la funci√≥n de distancia _word mover's distance_ (WMD) que es una adecuaci√≥n de la Earths mover's distance (EMD) [PW2009]. EMD es la soluci√≥n √≥ptima a un problema de transportaci√≥n, la WMD es la adaptaci√≥n teniendo en cuenta embeddings de palabras.

# Ejemplo


In [1]:
using Pkg
Pkg.activate(".")
!isfile("Manifest.toml") && Pkg.add([
    PackageSpec(name="SimilaritySearch", version="0.9"),
    PackageSpec(name="TextSearch", version="0.13"),
    PackageSpec(name="Plots"),
    PackageSpec(name="KNearestCenters"),
    PackageSpec(name="HypertextLiteral"),
    PackageSpec(name="CSV"),
    PackageSpec(name="DataFrames"),
    PackageSpec(name="Word2Vec"),
    PackageSpec(name="Embeddings"),
])

using SimilaritySearch, TextSearch, Plots, Word2Vec, KNearestCenters, LinearAlgebra, HypertextLiteral, CSV, DataFrames, Base64, Random
using Embeddings: load_embeddings, FastText_Text
using Downloads: download

[32m[1m  Activating[22m[39m project at `~/IR-2022/Unidades`


In [2]:
]status

[32m[1m      Status[22m[39m `~/IR-2022/Unidades/Project.toml`
 [90m [944b1d66] [39mCodecZlib v0.7.0
 [90m [ac1192a8] [39mHypertextLiteral v0.9.4
 [90m [b20bd276] [39mInvertedFiles v0.4.2 `../../Research/InvertedFiles.jl`
 [90m [682c06a0] [39mJSON v0.21.3
 [90m [4dca28ae] [39mKNearestCenters v0.7.1
 [90m [8ef0a80b] [39mLanguages v0.4.3
 [90m [eb30cadb] [39mMLDatasets v0.7.3
 [90m [053f045d] [39mSimilaritySearch v0.9.4 `../../Research/SimilaritySearch.jl`
 [90m [fb8f903a] [39mSnowball v0.1.0
 [90m [2913bbd2] [39mStatsBase v0.33.18
 [90m [7f6f6c8a] [39mTextSearch v0.13.0 `../../Research/TextSearch.jl`
 [90m [c64b6f0f] [39mWord2Vec v0.5.3


In [3]:
function word2vec_embeddings(textconfig, corpus, embfile; dim=32, w2vtmp=tempfile(pwd()))
    isfile(embfile) && return
    tcorpus = tokenize_corpus(textconfig, corpus)
    voc = Vocabulary(textconfig, tcorpus)
    fvoc = filter_tokens(voc) do t
        5 <= t.ndocs <= 2000
    end
    valid = Set(fvoc.token)

    open(w2vtmp, "w") do f
        for tokens in tcorpus
            tokens = filter!(t -> t in valid, tokens)
            if length(tokens) > 7 # minimum number of tokens in a message
                println(f, join(tokens, ' '))
            end
        end
    end

    word2vec(w2vtmp, embfile, size=dim, iter=15, threads=Threads.nthreads()-1)
end


word2vec_embeddings (generic function with 1 method)

In [4]:
textconfig = TextConfig(; nlist=[1], qlist=[], slist=[], lc=true,
    group_usr=true, group_url=true, group_num=true, del_diac=true, del_punc=true)

filename = "../data/spanish-news-in-twitter.csv"
embfile = filename * ".w2v.vec"
@time D = CSV.read(filename, DataFrame; delim=',', missingstring="XXXX")
@time D[:, :text] = String.(base64decode.(D.text))
rm(embfile)
word2vec_embeddings(textconfig, D.text, embfile; dim=64, w2vtmp=joinpath(pwd(), "w2v.tmp"))
E = load_embeddings(FastText_Text, embfile)


 12.754743 seconds (19.95 M allocations: 1.540 GiB, 4.16% gc time, 99.52% compilation time)
  0.411904 seconds (1.72 M allocations: 125.889 MiB, 8.06% gc time, 71.98% compilation time)
Starting training using file /home/sadit/IR-2022/Unidades/w2v.tmp
Vocab size: 12135
Words in train file: 442523


Embeddings.EmbeddingTable{Matrix{Float32}, Vector{String}}(Float32[0.006254 -0.001177 ‚Ä¶ -0.005999 0.006102; 0.006905 0.001611 ‚Ä¶ 0.007287 0.005898; ‚Ä¶ ; -0.003277 0.001377 ‚Ä¶ 0.001926 -0.005139; 0.003372 0.002838 ‚Ä¶ 0.000214 0.003586], ["</s>", "ha", "sus", "presidente", "contra", "anos", "fue", "tras", "pero", "gobierno"  ‚Ä¶  "#ondasdelpodcast", "ü§¢", "#premiosortegaygasset", "infiel", "indigenista", "contenedores", "#cerocahui", "chueco", "yrma", "lydya"])

In [5]:
T = let corpus=D.text
    voc = Vocabulary(textconfig, corpus; thesaurus=E.vocab)
    model = VectorModel(BinaryGlobalWeighting(), TpWeighting(), voc)
    (; textconfig, model, voc)
end

(textconfig = TextConfig(true, false, true, true, true, true, false, true, Int8[], Int8[1], Skipgram[], IdentityTokenTransformation()), model = {VectorModel global_weighting=BinaryGlobalWeighting(), local_weighting=TpWeighting(), train-voc=12135, train-n=41999, maxoccs=1987}, voc = Vocabulary(["</s>", "ha", "sus", "presidente", "contra", "anos", "fue", "tras", "pero", "gobierno"  ‚Ä¶  "#ondasdelpodcast", "ü§¢", "#premiosortegaygasset", "infiel", "indigenista", "contenedores", "#cerocahui", "chueco", "yrma", "lydya"], Int32[0, 1987, 1953, 1926, 1954, 1956, 1614, 1411, 1361, 1359  ‚Ä¶  5, 6, 5, 5, 6, 6, 5, 5, 6, 6], Int32[0, 1987, 1953, 1926, 1954, 1956, 1614, 1411, 1361, 1359  ‚Ä¶  5, 6, 5, 5, 6, 6, 5, 5, 6, 6], Dict{String, UInt32}("focos" => 0x0000225f, "#videos" => 0x00001754, "libertad" => 0x000001be, "ayudas" => 0x00000f6f, "henry" => 0x00001fb4, "islamico" => 0x0000163b, "directivos" => 0x00001625, "soporte" => 0x000013bb, "astronautas" => 0x00002584, "advirtieron" => 0x0000234f‚

In [6]:
cloud(text, E, T) = vectorize(T.model, T.textconfig, text; normalize=false)
cloud_corpus(corpus, E, T) = vectorize_corpus(T.model, T.textconfig, corpus; normalize=false)

cloud_corpus (generic function with 1 method)

In [7]:
struct AWMD <: SemiMetric
    X::MatrixDatabase
    results::Vector{KnnResult}
    dcos::NormalizedCosineDistance
end

AWMD(X) = AWMD(X, [KnnResult(1) for _ in 1:Threads.nthreads()], NormalizedCosineDistance())

const PI_2 = convert(Float32, pi / 2)


@inline function nn_(X, res, dcos, u, V)
    res = reuse!(res)

    for (vid, _) in V
        push!(res, vid, evaluate(dcos, u, X[vid]))
    end
    
    minimum(res)
end

function onesidewmd(X, res, dcos, U, V)
    d::Float32 = zero(Float32)
    @fastmath for (uid, w) in U
        if !haskey(V, uid) # evaluates to zero
            d = max(d, w * nn_(X, res, dcos, X[uid], V))
        end
    end
    
    d
end

function SimilaritySearch.evaluate(wmd::AWMD, U::T, V::T) where T
    length(U) == 1 && haskey(U, 0) && return PI_2
    length(V) == 1 && haskey(V, 0) && return PI_2
    res = wmd.results[Threads.threadid()]
    dcos = wmd.dcos

    max(onesidewmd(wmd.X, res, dcos, U, V), onesidewmd(wmd.X, res, dcos, V, U))
end


In [8]:
db = VectorDatabase(cloud_corpus(D.text, E, T))
for c in eachcol(E.embeddings)
    normalize!(c)
end

dist = AWMD(MatrixDatabase(E.embeddings))

AWMD(MatrixDatabase{Matrix{Float32}}(Float32[0.17953031 -0.033541206 ‚Ä¶ -0.16976508 0.16736586; 0.19821823 0.045908995 ‚Ä¶ 0.20621407 0.16177055; ‚Ä¶ ; -0.09407112 0.039240647 ‚Ä¶ 0.05450368 -0.14095266; 0.09679824 0.08087506 ‚Ä¶ 0.006055964 0.09835693]), KnnResult[KnnResult(Int32[], Float32[], 1)], NormalizedCosineDistance())

In [9]:
#=recall = 0.8
index = SearchGraph(; dist, db, verbose=true)
#index!(index; callbacks=SearchGraphCallbacks(MinRecall(recall)))
index!(index)
optimize!(index, MinRecall(recall))
=#

In [10]:
index = ParallelExhaustiveSearch(; db, dist);

In [11]:
Threads.nthreads()

1

In [12]:
#@time res, _ = search(ex, db[111], KnnResult(10))
#=@time res, _ = search(ex, cloud("covid en M√©xico", E, T), KnnResult(10))

for (id_, dist_) in res
    display(@htl """<div style="padding: 0.5em;">
        <span style="width: 25%; margin: 0.25em;"> $(id_ => round(dist_; digits=3))</span>
        <span style="background-color: rgb(120, 60, 60); margin: 0.2em;">$(D.text[id_])</span>
    </div>""")
end
=#

### B√∫squeda y presentaci√≥n de los resultados

In [13]:
function search_and_display(index, qtext, k, D, E, T)
    res = KnnResult(k)
    q = cloud(qtext, E, T)
    @time search(index, q, res)
    
    L = []
    for (j, (id, d)) in enumerate(res)
        push!(L, @htl "<tr><td>$j</td><td>$id</td><td>$(round(d, digits=3))</td> <td>$(D.screen_name[id])</td><td> $(D.text[id])</td> </tr>")
    end

    display(@htl """<h2>resultados para "$qtext"</h2>
    <table>
    <th>  <td>id</td> <td>dist</td> <td>user</td> </td>message<td> </th>
        $L
    </table>
    """)
end


search_and_display (generic function with 1 method)

In [14]:

display(@htl "<h1>Ejemplos de b√∫squeda</h1>")
search_and_display(index, "el gobierno de andres manuel lopez", 7, D, E, T)
search_and_display(index, "trafico de drogas", 7, D, E, T)
search_and_display(index, "calentamiento global", 7, D, E, T)
search_and_display(index, "covid corona virus", 7, D, E, T)


  0.982184 seconds (1.98 M allocations: 196.451 MiB, 7.43% gc time, 70.39% compilation time)


0,1,2,3,4
1,30139,0.06,EFEnoticias,"El presidente de M√©xico, Andr√©s Manuel L√≥pez Obrador, celebr√≥ la aprobaci√≥n de la reforma que permite a los funcionarios p√∫blicos manifestarse sobre el proceso de consulta de revocaci√≥n de mandato, a celebrarse el 10 de abril. https://t.co/CR4WSfihEO"
2,16524,0.072,azucenau,"La jefa de gobierno de la Ciudad de M√©xico, Claudia Sheinbaum, asegur√≥ que ella y el presidente de la Rep√∫blica, Andr√©s Manuel L√≥pez Obrador, ‚Äúsomos parte del mismo movimiento‚Äù, y que jam√°s ser√° l√≠der de oposici√≥n, pues ‚Äúsomos parte de la Cuarta Transformaci√≥n‚Äù. https://t.co/FYoh0GuROr"
3,41283,0.087,Reforma,"El Presidente Andr√©s Manuel L√≥pez Obrador propuso al Gobierno de #NuevoLeon acordar con empresarios que produzcan menos, usen menos #agua, y que as√≠ vaya m√°s l√≠quido a la gente. https://t.co/9kW1cPZBmj"
4,4111,0.101,PedroFerriz,RT @CentralFM_: #CentralFmEquilibrio Estados Unidos urgi√≥ al Gobierno de Andr√©s Manuel L√≥pez Obrador a reanudar la autorizaci√≥n de import‚Ä¶
5,9801,0.133,JoseCardenas1,RT @JoseCardenas1: Sigue minuto a minuto el 3er informe de gobierno del presidente Andr√©s Manuel L√≥pez Obrador (@lopezobrador_ )üëâ https://t‚Ä¶
6,20826,0.164,El_Universal_Mx,RT @ElUniversal_SLP: #Ent√©rate El gobernador Ricardo Gallardo Cardona pidi√≥ al presidente Andr√©s Manuel L√≥pez Obrador apoyo para reforzar l‚Ä¶
7,35523,0.164,JoseCardenas1,"El Presidente Andr√©s Manuel L√≥pez Obrador arrib√≥ esta tarde al Aeropuerto de La Habana, Cuba, para comenzar su gira de trabajo y sostener encuentros con el mandatario de la isla, Miguel D√≠az-Canel https://t.co/GiBHboPAIG"


  0.200157 seconds (166.64 k allocations: 3.814 MiB)


0,1,2,3,4
1,1361,0.041,epigmenioibarra,"29 JoseE 30 JoseLuisL 31 Jhosivani 32 JulioCesarL El GIEI solicit√≥ investigar el tr√°fico de drogas escondidas en autobuses como probable motivo del ataque a los normalistas, ya que un quinto autob√∫s que apareci√≥ quemado fue omitido en la investigaci√≥n oficial. #Ayotzinapa80Meses https://t.co/jbAcSdIuPI"
2,2113,0.041,epigmenioibarra,"29 JoseE 30 JoseLuisL 31 Jhosivani 32 JulioCesarL El GIEI solicit√≥ investigar el tr√°fico de drogas escondidas en autobuses como probable motivo del ataque a los normalistas, ya que un quinto autob√∫s que apareci√≥ quemado fue omitido en la investigaci√≥n oficial. #Ayotzinapa80Meses https://t.co/BNAdU3bp0n"
3,3780,0.041,epigmenioibarra,"29 JoseE 30 JoseLuisL 31 Jhosivani 32 JulioCesarL El GIEI solicit√≥ investigar el tr√°fico de drogas escondidas en autobuses como probable motivo del ataque a los normalistas, ya que un quinto autob√∫s que apareci√≥ quemado fue omitido en la investigaci√≥n oficial. #Ayotzinapa80Meses https://t.co/cR2d88sSeF"
4,4164,0.041,epigmenioibarra,"29 JoseE 30 JoseLuisL 31 Jhosivani 32 JulioCesarL El GIEI solicit√≥ investigar el tr√°fico de drogas escondidas en autobuses como probable motivo del ataque a los normalistas, ya que un quinto autob√∫s que apareci√≥ quemado fue omitido en la investigaci√≥n oficial. #Ayotzinapa81Meses https://t.co/jOhSMS35Z5"
5,5391,0.041,epigmenioibarra,"29 JoseE 30 JoseLuisL 31 Jhosivani 32 JulioCesarL El GIEI solicit√≥ investigar el tr√°fico de drogas escondidas en autobuses como probable motivo del ataque a los normalistas, ya que un quinto autob√∫s que apareci√≥ quemado fue omitido en la investigaci√≥n oficial. #Ayotzinapa81Meses https://t.co/cxi6tlCTMA"
6,5645,0.041,epigmenioibarra,"29 JoseE 30 JoseLuisL 31 Jhosivani 32 JulioCesarL El GIEI solicit√≥ investigar el tr√°fico de drogas escondidas en autobuses como probable motivo del ataque a los normalistas, ya que un quinto autob√∫s que apareci√≥ quemado fue omitido en la investigaci√≥n oficial. #Ayotzinapa81Meses https://t.co/V6gw7dw6ZX"
7,18648,0.041,epigmenioibarra,"29 JoseE 30 JoseLuisL 31 Jhosivani 32 JulioCesarL El GIEI solicit√≥ investigar el tr√°fico de drogas escondidas en autobuses como probable motivo del ataque a los normalistas, ya que un quinto autob√∫s que apareci√≥ quemado fue omitido en la investigaci√≥n oficial. #Ayotzinapa85meses https://t.co/KH0xDLkhWz"


  0.224001 seconds (166.64 k allocations: 3.814 MiB)


0,1,2,3,4
1,17410,0.047,TelemundoNews,"El acuerdo incluye promesas clave, entre ellas la de reducir la energ√≠a del carb√≥n y las subvenciones a los combustibles f√≥siles, pero muchos cr√≠ticos dicen que no ofrece suficiente apoyo a las naciones en desarrollo afectadas por el calentamiento global. https://t.co/foBCgxRNVT"
2,7442,0.051,patriciajaniot,"El calentamiento global es m√°s r√°pido y grave de lo pensado. Unos diez a√±os antes de lo estimado, se puede alcanzar el umbral de un incremento de la temperatura en 34.7 ¬∞F (1.5 ¬∫C), con riesgos de desastres ""sin precedentes"" para la humanidad https://t.co/iQVOG3eVyZ"
3,10955,0.051,EFEnoticias,"El papa Francisco lleg√≥ hoy a Budapest, donde celebrar√° este domingo la misa de clausura del Congreso Eucar√≠stico Internacional y se reunir√° con los l√≠deres del pa√≠s centroeuropeo, para despu√©s continuar su visita de tres d√≠as a Eslovaquia. https://t.co/SE0e5IK4h7"
4,11613,0.061,EFEnoticias,"El Reino Unido presion√≥ al resto de Gobiernos para que anuncien m√°s medidas contra el calentamiento global, apenas cinco semanas antes de la pr√≥xima cumbre del clima (COP26) que acoger√° su pa√≠s. https://t.co/bmKjR0hXRm"
5,10963,0.063,SinEmbargoMX,"#Opini√≥n | Ana Ortega de @THL_Latino ""El consumo de carne o lo que no se habla del calentamiento global"" Si no adoptamos una postura m√°s firme ante el calentamiento global, el panorama de M√©xico est√° a punto de ponerse sombr√≠o https://t.co/HL8v7EBp2x https://t.co/k8Az8hDr5y"
6,7766,0.073,CNNEE,"‚ñ∂ Todav√≠a podemos mitigar el da√±o al planeta por el calentamiento global si exigimos pol√≠ticas p√∫blicas a gobiernos, dicen expertas. https://t.co/7eoc24sboY"
7,7410,0.103,AFPespanol,"#√öLTIMAHORA El calentamiento global llegar√° a +1,5 ¬∞C hacia 2030, 10 a√±os antes de lo previsto (ONU) #AFP https://t.co/KJT1ESxU2S"


  0.203944 seconds (166.64 k allocations: 3.814 MiB)


0,1,2,3,4
1,18569,0.051,EFEnoticias,"La Comisi√≥n Europea (CE) propuso este jueves limitar a 9 meses la validez del certificado digital covid y seguir respetando las medidas destinadas a frenar la propagaci√≥n del virus, incluido el uso de las mascarillas, ante el aumento de los contagios. https://t.co/RswfZ609kt"
2,25138,0.051,galvanochoa,Debe ser duro admitir que el primer gobernador de Morena es un infractor. Pas√≥ por encima de la ley para intentar quedarse en el gobierno m√°s all√° de los dos a√±os para los que fue elegido y est√° relacionado con el asesinato de Lourdes Maldonado üëâüèº https://t.co/cNrm71fiUF https://t.co/VilyLvZXOg
3,17234,0.053,EFEnoticias,"Catalu√±a vuelve a entrar en la zona de riesgo alto de rebrote de la pandemia, con un EPG por encima de los 100 puntos. Se descarta recuperar las restricciones de aforo y horarios aunque s√≠ ampliar el uso del certificado covid. https://t.co/Z2aY8v42HD"
4,17815,0.062,EFEnoticias,"El presidente de la Xunta, Alberto N√∫√±ez Feij√≥o, ha avanzado este jueves que la comunidad estudia volver a pedir el certificado covid en la hosteler√≠a y tambi√©n en otras actividades que se celebren en interiores. https://t.co/QI3Hg5vIxG"
5,24265,0.067,dw_espanol,"""Mi #boda no se realizar√°"", confirm√≥ #JacindaArdern a periodistas el s√°bado, despu√©s de anunciar las nuevas #restricciones contra el #Coronavirus que incluyen un tope de 100 personas con vacunaci√≥n completa en los eventos. (gs) https://t.co/b3gTYyUM0F"
6,6114,0.068,EFEnoticias,"Diecinueve municipios del Cantabria han escalado este martes al nivel 3 de alerta covid (alto), lo que obligar√° al cierre del interior de sus establecimientos de hosteler√≠a a partir del jueves. https://t.co/EcDB3VmJuu"
7,9060,0.083,MarioBeteta,"""Todos estamos con la idea de que la inflaci√≥n va a ser temporal y pasajera. A mi me preocupa que la recuperaci√≥n es totalmente dispareja a causa del COVID y no sabemos si todos se van a recuperar al mismo tiempo, viene la escasez de productos... """


In [15]:
display(@htl "<h1>Ejemplos de b√∫squeda (mensajes aleatorios)</h1>")

for i in 1:3
    for qid in rand(1:length(D.text))
        search_and_display(index, D.text[qid], 7, D, E, T)
    end
end

  0.558570 seconds (166.64 k allocations: 3.814 MiB)


0,1,2,3,4
1,28909,0.0,Reforma,"La dramaturga Estela Le√±ero 'libera' a cinco mujeres presas del machismo; sucede en ""Mujeres en fuga"", una serie de radiomon√≥logos que se transmiten a partir de este lunes en @radioUANL. https://t.co/Ka3D4LZU4d"
2,26641,0.066,Milenio,"‚ñ∂Ô∏è 'El Mijis' cumple 14 d√≠as desaparecido; aunque hay algunas pistas, siguen sin tener certeza de d√≥nde podr√≠a estar En #LaMa√±anera, la activista Frida Guerrera ley√≥ una carta al Presidente enviada por la esposa del exdiputado üì∫ La historia con @azucenau #AzucenaALas10 https://t.co/EeIx7ST67S"
3,29367,0.066,Milenio,"#Pol√≠ticaCero | Si una celebridad como Sasha, con todas las herramientas monetarias y legales, guarda silencio durante 35 a√±os, pensemos en mujeres que sufrieron la misma situaci√≥n pero desprovistas de informaci√≥n y apoyos üéô La columna de @jairocalixto https://t.co/TzUAcbNUC2"
4,34187,0.067,azucenau,"#Relevante | La @FiscaliaCDMX lleva a proceso a tres mujeres, por su posible participaci√≥n en robo agravado calificado y da√±o a la propiedad doloso en pandilla. Son las mujeres que fueron detenidas tras la recuperaci√≥n del inmueble de la #CNDH https://t.co/sk29DlBFHl"
5,29201,0.068,azucenau,"#AzucenaALas10 | En #Atlixco, #Puebla, 10 personas fueron ejecutadas, siete hombres y tres mujeres, presuntamente, seg√∫n la fiscal√≠a del estado, se trat√≥ a un ajuste de cuentas entre narcomenudistas https://t.co/uhMFqLewPW"
6,28618,0.068,El_Universal_Mx,"Las autoridades capitalinas instalaron vallas met√°licas frente a la Catedral Metropolitana, localizada a un costado de Palacio Nacional, debido a la pr√≥xima marcha que se realizar√° con motivo del D√≠a Internacional de las Mujeres #Video @Alberx666 https://t.co/0XERzbTfdu"
7,6151,0.068,AdriDelgadoRuiz,"No se pierdan la entrevista #Exclusiva que vamos a tener en #ElDedoEnLaLlaga con @LorenaCuellar, gobernadora electa de #Tlaxcala, quien nos hablar√° de sus primeras acciones de gobierno con perspectiva de g√©nero @PartidoMorenaMx 3PM por la 98.5FM #ElHerladoRadio @heraldodemexico https://t.co/NkzgEYWxsT"


  0.526811 seconds (166.64 k allocations: 3.814 MiB)


0,1,2,3,4
1,13894,0.0,TelemundoNews,üá®üá¥ Se salv√≥ de milagro: un soldado colombiano se lanz√≥ desde un helic√≥ptero y su paraca√≠das no se abri√≥ https://t.co/yIMwtGi4JO
2,1098,0.077,teleSURtv,En el marco de las tensiones que vive #China üá®üá≥ con #EEUU üá∫üá∏ en diversos √°mbitos la Asamblea Popular Nacional #China üá®üá≥ aprob√≥ una ley que protege a compa√±√≠as nacionales de las sanciones unilaterales de gobiernos extranjeros. https://t.co/V7GkFLJzmm
3,11866,0.077,Reforma,¬°Fueron una pesadilla! Marco Asensio anot√≥ un hat-trick y Karim Benzema un doblete en la goleada del Real Madrid 6-1 ante Mallorca. El conjunto de Ancelotti se mantiene como l√≠der del campeonato. https://t.co/4QaMZyEeCk
4,28271,0.077,UniNoticias,"üá∫üá∏ #SOTU22: El tuit de Biden antes de su discurso. ""Amigos, voy a dar mi primer discurso sobre el Estado de la Uni√≥n esta noche. Hablar√© sobre el progreso que hemos logrado juntos durante el √∫ltimo a√±o y mi visi√≥n para construir una Am√©rica mejor"".  M√°süëâhttps://t.co/4NA7gkcDzz"
5,33842,0.078,dw_espanol,"El 51% de la poblaci√≥n quiere que Canad√°üá®üá¶ deje de ser #monarqu√≠a, mientras que 26% quiere mantenerla, seg√∫n el Instituto Angus Reid Adem√°s, 50% de quienes participaron dijo que la familia real brit√°nicaüá¨üáß no tiene ning√∫n papel relevante en #Canad√° (ama) https://t.co/HKdMbTXAPO"
6,30859,0.078,el_pais,"Putin se compara con J. K. Rowling ante el intento, dice, de ""cancelar"" a la cultura rusa"", pero la escritora de Harry Potter rechaza ser puesta como ejemplo por el presidente ruso de la ""cultura de la cancelaci√≥n occidental"" https://t.co/VabgzYgi18 https://t.co/wxTEcBgrAc"
7,6291,0.078,teleSURtv,"El primer encuentro en materia nuclear‚öõÔ∏è entre #EEUUüá∫üá∏y #Rusiaüá∑üá∫ mantenido en Ginebra, #Suizaüá®üá≠tuvo la finalidad de alcanzar en el futuro un ambiente de estabilidad alrededor del mundo y de reducir los riesgos, de acuerdo con fuentes de ambas canciller√≠as https://t.co/1SherLjw2D"


  0.561001 seconds (166.64 k allocations: 3.814 MiB)


0,1,2,3,4
1,22273,0.0,Reforma,.@Sergeluna_S acus√≥ a @lorenzocordovav de mentir por afirmar que denuncias penales contra los 6 consejeros del #INE fueron por pensar diferente https://t.co/UBsAmSq9bo
2,7615,0.07,Milenio,‚ñ∂ El gobierno de M√©xico finalmente se puso las pilas para bajar la violencia en el pa√≠s y opt√≥ por la v√≠a legal: puso una demanda civil contra los fabricantes de armas de Estados Unidos ¬øQu√© significa esto para ambos pa√≠ses? @paobarquet nos explica #EnCorto https://t.co/AZgJLmwyTI
3,7832,0.07,Milenio,‚ñ∂ El gobierno de M√©xico finalmente se puso las pilas para bajar la violencia en el pa√≠s y opt√≥ por la v√≠a legal: puso una demanda civil contra los fabricantes de armas de Estados Unidos ¬øQu√© significa esto para ambos pa√≠ses? @paobarquet ‚Äãnos explica #EnCorto https://t.co/dakOd6NjKl
4,38079,0.07,el_pais,"üî¥ Villarejo, sobre Rajoy: ‚ÄúHay que controlar a Correa, tiene informaci√≥n del Barbas‚Äù. El comisario hizo de agente doble en el ‚Äòcaso G√ºrtel‚Äô para proteger a la vez al PP y al cabecilla de la red corrupta https://t.co/ArTirqhGpm"
5,22714,0.071,el_pais,"Alemania quiere acelerar el ritmo de la vacunaci√≥n de refuerzo y restringir lo m√°s posible los contactos, pero sin cerrar bares y restaurantes. Solo podr√°n acceder a ellos los vacunados que tengan la tercera dosis o que presenten un test negativo del d√≠a https://t.co/Q1srBseSYG"
6,38971,0.071,SinEmbargoMX,"Morena arrasa en 4 a√±os | El partido del Presidente logr√≥ consolidarse como la principal fuerza pol√≠tica de M√©xico y luego de la jornada electoral de este domingo qued√≥ con el poder de 20 entidades, seguido del PAN que tiene bajo su control cinco estados https://t.co/61hfaW1kCJ https://t.co/ZhoVC6EMOA"
7,27750,0.071,Milenio,"‚ñ∂Ô∏è Rusia inici√≥ el despliegue militar contra Ucrania que ya ha dejado m√°s de 130 muertos durante el primer d√≠a: ¬øc√≥mo empez√≥ todo? Talya Iscan, internacionalista, nos explica üì∫ La entrevista en #MILENIOTelevisi√≥n https://t.co/CCPvCfN1JE"


# Actividades
- Reproduzca el ejercicio de este notebook, use embeddings para espa√±ol, cambi√© los ejemplos. Se sugiere el uso de <https://ingeotec.github.io/regional-spanish-models/> donde encontrar√° modelos fastText regionalizados del espa√±ol, pero puede usar otros embeddings.
- ¬øQu√© piensa de las diferencias de tama√±o entre los documentos y las consultas? esto como afecta a la representaci√≥n sem√°ntica.
- ¬øCu√°l ser√≠a el s√≠mil de bigramas y trigramas para este esquema de representaci√≥n sem√°ntica? Implementelo.
- Defina $H^\textsf{pt}_d$, donde $pt$ es la probabilidad de ocurrencia de t√©rmino.
- Defina $H^\textsf{TF}_d$, donde $TF$ es la frecuencia de t√©rmino normalizada.
- Implemente $H^\textsf{TF}_d$ y $H^\textsf{pt}_d$ de manera secuencial y con un √≠ndice m√©trico. Si usa Julia considere `SimilaritySearch.jl` y si usa Python considere `faiss`.
- Reporte su notebook y anote sus soluciones a las preguntas planteadas. El reporte deber√° contener un ensayo de [@KSKW2015] como introducci√≥n. Reporte los resultados de sus implementaciones, compare contra las alternativas presentadas en este reporte. Discuta sus resultados. Finalice el reporte  con reflexiones sobre el uso de nubes de puntos en lugar de bolsas de palabras tradicionales. Anot√© sus conclusiones.

# Bibliograf√≠a
- [KSKW2015] Kusner, M., Sun, Y., Kolkin, N., & Weinberger, K. (2015, June). From word embeddings to document distances. In International conference on machine learning (pp. 957-966). PMLR.
- [PW2009] Pele, O., & Werman, M. (2009, September). Fast and robust earth mover's distances. In 2009 IEEE 12th international conference on computer vision (pp. 460-467). IEEE.
