# Representaci√≥n sem√°ntica y b√∫squeda
Autor: Eric S. Tellez <eric.tellez@infotec.mx>

Cuando la informaci√≥n esta poco espec√≠ficada, las palabras adecuadas podr√≠an ser dificiles de tener o limitar. En estos casos, la representaciones sem√°nticas que permiten buscar _lo que se desea_ por medio de conceptos nos acerca m√°s a la posibilidad de obtener informaci√≥n √∫til.

Como anteriormente se presento, una de las representaciones sem√°nticas m√°s aceptadas son aquellas basadas en word embeddings. Recordando, estas son representaciones vectoriales de cada palabra, donde la sem√°ntica se asocia con la estructura en un espacio m√©trico, i.e., cercano en la m√©trica significa similar sem√°nticamente.

# Representaci√≥n sem√°ntica de documentos basada en _word embeddings_
Un documento puede verse como una bolsa de palabras, como en el modelado tradicional, pero en lugar de usar los t√©rminos como s√≠mbolos se pueden usar los vectores sem√°nticos. El como usar esta nube de puntos multidimensional para obtener una representaci√≥n computacionalmente manejable y a la vez eficaz, es un tema que ha llevado al desarrollo de modelos cada vez m√°s complejos, como pueden ser los grandes modelos de lenguaje. 

La manera forma m√°s directa de definir una representaci√≥n sem√°ntica de documentos es el uso de centroides, esto es, un vector de la misma dimensi√≥n que sumariza a un conjunto de vectores usando su media geom√©trica. De manera m√°s precisa, sea $E$ una matrix $m \times n$ de embeddings del vocabulario, i.e., considerando un vocabulario de tama√±o $n$ y dimensi√≥n $m$.
Sea $D_{m,\ell}$ la submatriz de $E$ que contiene los $\ell$ vectores del documento $\textsf{doc}$. El prototipo $\vec{d}$ de $D$ esta definido de la siguiente forma:

\begin{equation}
\vec{d} = \frac{1}{\ell} \sum_{i=1}^\ell D_i
\end{equation}


Donde $D_i$ es el i-√©simo vector columna de $D$. Dado que se usa el coseno como similitud, tambi√©n es factible el c√°lculo como la suma vectorial normalizada, esto es,

$$ \vec{d} = \frac{\sum_{i=1}^\ell D_i}{\lVert \sum_{i=1}^\ell D_i \rVert}$$

Tambi√©n es posible a√±adir informaci√≥n local basada en la representaci√≥n de bolsa de plabras. Por ejemplo, realizar una suma pesada usando el peso de las palabras mediante la frecuencia normalizada de t√©rmino (TF) o la probabilidad de t√©rmino $pt$, ver unidad 3 para m√°s informaci√≥n.

$$\vec{d} = \sum_{i=1}^{\ell} \textsf{TF}(t_i, \textsf{doc}) \cdot D_i$$

Donde $t_i$ es el $i$-√©simo t√©rmino de $\textsf{doc}$. Note que el orden no se captura y solo es necesario para la notaci√≥n.

## Usando la nube de puntos

La representaci√≥n de nube de puntos puede usarse directamente sin realizar prototipos, sin embargo, es posible que dada su complejidad, dimensi√≥n intrinseca, tenga poca utilidad en grandes volumenes de informaci√≥n. Por ejemplo, es posible utilizar la distancia de [Hausdorff](https://en.wikipedia.org/wiki/Hausdorff_distance); que entre dos nubes de puntos (documentos para este caso) esta definida como sigue:

$$ H_d(U, V) = \max \left\{ \max_{u \in U} \min_{x \in V} d(u, x), \max_{v \in V} \min_{x \in U} d(v, x) \right\} $$

Donde $\textsf{nn}$ encuentra el vecino cercano del primer argumento en el segundo. Podemos ver la intuici√≥n de esta distancia, analizando las partes de la expresi√≥n. 
La diferencia entre ambos conjuntos se representa con el m√°ximo de las distancias m√≠nimas. Note que esta parte es id√©ntica a resolver una b√∫squeda de vecinos cercanos. La parte m√°s externa de la expresi√≥n se repite para los dos conjuntos para preservar la sim√©tria de la funci√≥n.

De la misma forma, es posible obtener variaciones de inter√©s como considerar todas las distancias cercanas en lugar de solo las m√°ximas, lo cual puede reducir formas caprichosas de _outlayers_.

$$ H^+_d(U, V) = \max \left\{ \sum_{u \in U} \min_{x \in V} d(u, x), \sum_{v \in V} \min_{x \in U} d(v, x) \right\}$$

La informaci√≥n local de una representaci√≥n de bolsa de palabras tambi√©n puede ser aprovechada, por ejemplo, a√±adiendo informaci√≥n de $\textsf{TF}$

$$ H^\textsf{TF}_d(U, V) = \max \left\{ \sum_{u \in U} {\textsf{TF}(u, U) \min_{x \in V} d(u, x)}, \sum_{v \in V} {\textsf{TF}(v, V) \min_{x \in U} d(v, x)} \right\} $$

# Notas adicionales
La versi√≥n de $H_d$ que usa la probabilidad de t√©rmino $\textsf{pt}$ es similar a la aproximaci√≥n 2 listada en [@KSKW2015]. Los prototipos son similares a la aproximaci√≥n 1 del mismo art√≠culo. En el art√≠culo se presenta la funci√≥n de distancia _word mover's distance_ (WMD) que es una adecuaci√≥n de la Earths mover's distance (EMD) [PW2009]. EMD es la soluci√≥n √≥ptima a un problema de transportaci√≥n, la WMD es la adaptaci√≥n teniendo en cuenta embeddings de palabras.

# Ejemplo


In [1]:

using Pkg
Pkg.activate(".")
!isfile("Manifest.toml") && Pkg.add([
    PackageSpec(name="SimilaritySearch", version="0.9"),
    PackageSpec(name="TextSearch", version="0.12"),
    PackageSpec(name="Plots"),
    PackageSpec(name="KNearestCenters"),
    PackageSpec(name="HypertextLiteral"),
    PackageSpec(name="CSV"),
    PackageSpec(name="DataFrames"),
    PackageSpec(name="Embeddings", version="0.4")
])

using SimilaritySearch, TextSearch, Plots, KNearestCenters, LinearAlgebra, Embeddings, HypertextLiteral, CSV, DataFrames, Base64, Random
using Downloads: download

[32m[1m  Activating[22m[39m project at `~/IR-2022/Unidades`


In [2]:
]status

[32m[1m      Status[22m[39m `~/IR-2022/Unidades/Project.toml`
 [90m [944b1d66] [39mCodecZlib v0.7.0
 [90m [ac1192a8] [39mHypertextLiteral v0.9.4
 [90m [b20bd276] [39mInvertedFiles v0.4.1 `../../Research/InvertedFiles.jl`
 [90m [682c06a0] [39mJSON v0.21.3
 [90m [4dca28ae] [39mKNearestCenters v0.7.1
 [90m [8ef0a80b] [39mLanguages v0.4.3
 [90m [eb30cadb] [39mMLDatasets v0.7.3
 [90m [053f045d] [39mSimilaritySearch v0.9.4 `../../Research/SimilaritySearch.jl`
 [90m [fb8f903a] [39mSnowball v0.1.0
 [90m [2913bbd2] [39mStatsBase v0.33.18
 [90m [7f6f6c8a] [39mTextSearch v0.12.5 `../../Research/TextSearch.jl`


In [3]:
function knn(index, labels, q, k)
    res = KnnResult(k)
    search(index, q, res)
    mode(labels[idview(res)])
end

function mymode(c, labels, f)
    n = length(c)
    empty!(f)
    for id in c
        id == 0 && break  # searchbatch stores zeros at the end of the result when the result set is smaller than the required one
        l = labels[id]
        f[l] = get(f, l, 0) + 1
    end
    
    if length(f) == 0
        rand(labels)
    else
        argmax(last, f) |> first
    end
end

function knn(I, labels)
    f = Dict{eltype(labels), Int}()
    [mymode(c, labels, f) for c in eachcol(I)]
end

function scores(gold, pred)
    s = classification_scores(gold, pred)
    (macrof1=s.macrof1, macrorecall=s.macrorecall, accuracy=s.accuracy)
end

scores (generic function with 1 method)

In [4]:
struct ValidVocabulary{DictType} <: AbstractTokenTransformation
    valid::DictType
end

TextSearch.transform_unigram(S::ValidVocabulary, tok) = haskey(S.valid, tok) ? tok : nothing

function text_model_and_vectors(
        corpus, vocab;
        localweighting=TpWeighting(),
        globalweighting=BinaryGlobalWeighting(),
        nlist=[1],
        qlist=[],
        slist=[],
        group_usr=true,
        group_url=true,
        group_num=true,
        del_diac=true,
        lc=true
    )

    voc = Vocabulary(length(corpus))
    for v in vocab
       push!(voc, v)
    end
    
    tt = ValidVocabulary(voc.token2id)
    textconfig = TextConfig(; group_usr, group_url, del_diac, lc, group_num, nlist, qlist, slist, tt)
    tokenize_and_append!(voc, textconfig, corpus)
    model = VectorModel(globalweighting, localweighting, voc)
    (; textconfig, model, voc)
end


text_model_and_vectors (generic function with 1 method)

In [5]:
function embeddings()
    embfile = "../data/MX.vec"
    !isfile(embfile) && download("http://geo.ingeotec.mx/~sadit/regional-spanish-models/MX.vec", embfile)
    emb = load_embeddings(FastText_Text, embfile)  # you can change with any of the available embeddings in `Embeddings`
    for c in eachcol(emb.embeddings)
        normalize!(c)
    end
    
    (; X=emb.embeddings, vocab=emb.vocab)
end

function vectorize_as_prototype!(c, text, E, T)
    x = vectorize(T.model, T.textconfig, text; normalize=false)
    if length(x) == 1 && haskey(x, 0)
        #@warn "empty vector $(Int(i)) selecting a random vector for it " # $(corpus[i])
        rand!(c)
    else
        for (id, weight) in x
            id == 0 && continue
             c .= c .+ weight .* view(E.X, :, id)
        end
    end
    
    normalize!(c)
end

function vectorize_corpus_as_prototypes(corpus, E, T)
    dim = size(E.X, 1)
    n = length(corpus)
    C = zeros(Float32, dim, n)
    # Threads.@threads
    for i in 1:n
        vectorize_as_prototype!(view(C, :, i), corpus[i], E, T)
    end
    
    C
end

function create_index(db)
    dist = NormalizedCosineDistance()
    index = SearchGraph(; dist, db, verbose=false)
    index!(index; callbacks=SearchGraphCallbacks(MinRecall(0.9)))
    optimize!(index, MinRecall(0.9))
    index
end

create_index (generic function with 1 method)

In [6]:
E = embeddings()
D = CSV.read("../data/spanish-news-in-twitter.csv", DataFrame; delim=',')
D[:, :text] = String.(base64decode.(D.text))
dropmissing!(D)
T = text_model_and_vectors(D.text, E.vocab)

(textconfig = TextConfig(true, false, false, true, true, true, false, true, Int8[], Int8[1], Skipgram[], ValidVocabulary{Dict{String, UInt32}}(Dict{String, UInt32}("alaann" => 0x0005f201, "coprolito" => 0x0005f0e5, "alissonrojas" => 0x00018ff1, "copeamos" => 0x0004490d, "inhiben" => 0x00015522, "btardes" => 0x00028895, "guardalo" => 0x00004561, "kokis" => 0x00030576, "sentando" => 0x000087bd, "salvaguarde" => 0x00028f60‚Ä¶))), model = {VectorModel global_weighting=BinaryGlobalWeighting(), local_weighting=TpWeighting(), train-voc=438136, train-n=41998, maxoccs=59524}, voc = Vocabulary(["</s>", "_usr", "que", "de", ",", ".", "y", "a", "la", "no"  ‚Ä¶  "tannehil", "movelike", "peliblanca", "cristianzav", "rqq", "preguntartee", "sutedes", "venciendolo", "eviscerado", "fectivo"], Int32[0, 25844, 20315, 59524, 31605, 21433, 17403, 20211, 34402, 6002  ‚Ä¶  0, 0, 0, 0, 0, 0, 0, 0, 0, 0], Int32[0, 25844, 20315, 59524, 31605, 21433, 17403, 20211, 34402, 6002  ‚Ä¶  0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 

In [7]:
Threads.nthreads()

64

In [8]:
@time C = vectorize_corpus_as_prototypes(D.text, E, T)

  2.292803 seconds (4.46 M allocations: 389.881 MiB, 23.21% compilation time)


300√ó41998 Matrix{Float32}:
 -0.0339036   -0.0428609   -0.0670109    ‚Ä¶  -0.0374637   -0.0475409
  0.0265874    0.0223019    0.00263203       0.0131571    0.018139
 -0.0370614    0.00167701  -0.0378757       -0.0102305    0.0157182
  0.0181526    0.0105444   -0.0240541       -0.0646235    0.0214401
  0.0134366    0.0189434    0.0366603       -0.0527604   -0.00279745
 -0.0213551   -0.0188397    0.0460011    ‚Ä¶   0.0460707    0.0460432
  0.0239996   -0.018044    -0.000361117     -0.00433237   0.0459184
  0.0195599    0.0119689    0.00421374       0.0138044   -0.0359088
  0.0655299    0.0465704    0.110764         0.0814923    0.0444924
 -0.00386314   0.0205548   -0.0155296        0.0353385   -0.00603773
  0.0261242    0.0328563    0.0815982    ‚Ä¶   0.0578312    0.0652253
 -0.0106883    0.0192735    0.0482066        0.00723559   0.106062
  0.0287057    0.0271132    0.0213498        0.0690113    0.0219228
  ‚ãÆ                                      ‚ã±               
 -0.0379055   -0.060

### Se crea el √≠ndice m√©trico

In [9]:
@time index = create_index(MatrixDatabase(C))

  7.269850 seconds (12.16 M allocations: 1.251 GiB, 9.08% gc time, 83.60% compilation time)


SearchGraph{NormalizedCosineDistance, MatrixDatabase{Matrix{Float32}}, BeamSearch}
  dist: NormalizedCosineDistance NormalizedCosineDistance()
  db: MatrixDatabase{Matrix{Float32}}
  links: Array{Vector{Int32}}((41998,))
  locks: Array{Base.Threads.SpinLock}((41998,))
  hints: Array{Int32}((104,)) Int32[5, 19, 20, 153, 263, 289, 343, 357, 399, 429  ‚Ä¶  2985, 3015, 3035, 3108, 3114, 3126, 3147, 3148, 3182, 3213]
  search_algo: BeamSearch
  verbose: Bool false


### B√∫squeda de todos los vecinos cercanos en el vocabulario, observe la conveniencia del uso de un √≠ndice

Entre m√°s sean las consultas m√°s se ve la bondad (~42k consultas)

In [16]:
let k = 32
    t1 = @elapsed I, _ = allknn(index, k)
    # WARNING: Don't run the following line, it takes too much time
    t2 = @elapsed gI, _ = allknn(ExhaustiveSearch(; db=index.db, dist=index.dist), k)
    r = macrorecall(gI, I)
    n = size(I, 2)
    labels = String.(D.screen_name)
    s1 = scores(labels, knn(I, labels))
    s2 = scores(labels, knn(gI, labels))
    
    @htl """
    <div>macro-recall: $r, n: $n</div>
    <div>searchgraph search time: $t1, scores: $s1</div>
    <div>brute force search time: $t2, scores: $s2</div>
    """
end

‚îå Info: precision is zero for label 'fabriziomejia'; #classes=67 
‚îî @ KNearestCenters /home/sadit/.julia/packages/KNearestCenters/katlq/src/scores.jl:163
‚îå Info: precision is zero for label 'lydiacachosi'; #classes=67 
‚îî @ KNearestCenters /home/sadit/.julia/packages/KNearestCenters/katlq/src/scores.jl:163
‚îå Info: precision is zero for label 'brozoxmiswebs'; #classes=67 
‚îî @ KNearestCenters /home/sadit/.julia/packages/KNearestCenters/katlq/src/scores.jl:163
‚îå Info: precision is zero for label 'patriciajaniot'; #classes=67 
‚îî @ KNearestCenters /home/sadit/.julia/packages/KNearestCenters/katlq/src/scores.jl:163
‚îå Info: precision is zero for label 'laoctava_tv'; #classes=67 
‚îî @ KNearestCenters /home/sadit/.julia/packages/KNearestCenters/katlq/src/scores.jl:163
‚îå Info: precision is zero for label 'jrisco'; #classes=67 
‚îî @ KNearestCenters /home/sadit/.julia/packages/KNearestCenters/katlq/src/scores.jl:163
‚îå Info: precision is zero for label 'JorgeGCastaneda'; #cla

### B√∫squeda y presentaci√≥n de los resultados

In [11]:
function search_and_display(index, qtext, k, D, E, T)
    res = KnnResult(k)
    q = zeros(Float32, size(E.X, 1))
    vectorize_as_prototype!(q, qtext, E, T)
    @time search(index, q, res)
    
    L = []
    for (j, (id, d)) in enumerate(res)
        push!(L, @htl "<tr><td>$j</td><td>$id</td><td>$(round(d, digits=3))</td> <td>$(D.screen_name[id])</td><td> $(D.text[id])</td> </tr>")
    end

    display(@htl """<h2>resultados for "$qtext"</h2>
    <table>
    <th>  <td>id</td> <td>dist</td> <td>user</td> </td>message<td> </th>
        $L
    </table>
    """)
end


search_and_display (generic function with 1 method)

In [17]:

display(@htl "<h1>Ejemplos de b√∫squeda</h1>")
search_and_display(index, "el gobierno de andres manuel lopez", 7, D, E, T)
search_and_display(index, "trafico de drogas", 7, D, E, T)
search_and_display(index, "covid corona virus", 7, D, E, T)


  0.000193 seconds


0,1,2,3,4
1,26294,0.113,Radio_Formula,El presidente Andr√©s Manuel L√≥pez Obrador exhibi√≥ el supuesto sueldo de Loret de Mola... con un documento con errores ortogr√°ficos. https://t.co/nx4bDFfw8p
2,40773,0.114,El_Universal_Mx,Sigue lo m√°s relevante de la conferencia del presidente Andr√©s Manuel L√≥pez Obrador ‚¨áÔ∏è https://t.co/pA4oo1iCbU
3,41633,0.116,PaolaRojas,"RT @nmas: El presidente de M√©xico, Andr√©s Manuel L√≥pez Obrador, habl√≥ en su conferencia ma√±anera sobre el presunto cobro de derecho de piso‚Ä¶"
4,21912,0.122,CNNEE,As√≠ pens√≥ un plan B el presidente de M√©xico Andr√©s Manuel L√≥pez Obrador para organizar la consulta de revocaci√≥n de mandato. https://t.co/GaAeHdjhAG
5,40400,0.125,RicardoAlemanMx,RT @ContrapesoC: El expresidente Vicente Fox se lanz√≥ contra el presidente Andr√©s Manuel L√≥pez Obrador por sus declaraciones y por la inseg‚Ä¶
6,8834,0.126,azucenau,Informa @RicardoAnayaC que ha sido citado en el Reclusorio Norte por lo que acusa persecuci√≥n de parte del presidente Andr√©s Manuel L√≥pez Obrador
7,24541,0.127,azucenau,"#ALMOMENTO | Por segundo d√≠a consecutivo, el presidente Andr√©s Manuel L√≥pez Obrador sali√≥ esta tarde de Palacio Nacional. https://t.co/tdBqBYhhuc"


  0.000467 seconds


0,1,2,3,4
1,24023,0.245,LaRazon_mx,#SSPC: Red de tr√°fico de migrantes es ubicada en #Guanajuato y #Tamaulipas https://t.co/2TdiV3G2Zf https://t.co/hctIUWIx7G
2,27494,0.267,CiroGomezL,"Mil 500 elementos de la @SEMAR_mx llegaron al AICM para tomar el control de la seguridad. Los marinos realizar√°n tareas de vigilancia, inspecci√≥n, apoyo y control para evitar el tr√°fico de armas, drogas, divisas, mercanc√≠a ilegal y hasta el tr√°fico de personas: https://t.co/85QYwB26l8"
3,29416,0.28,El_Universal_Mx,RT @ElUniversal_SLP: #Ent√©rate ‚õîÔ∏è Los trabajos de repavimentaci√≥n de la carretera 57 provocan filas kilom√©tricas de veh√≠culos desde tempran‚Ä¶
4,29985,0.285,EFEnoticias,"Un centenar de profesores mantienen cortado esta ma√±ana el tr√°fico en la Ronda Litoral, a la altura de la Vila Ol√≠mpica de Barcelona, lo que est√° causando grandes retenciones de tr√°fico en esta v√≠a en el tercer d√≠a de huelga de la ense√±anza. https://t.co/jIsziPxkn7"
5,41311,0.286,Reforma,#Ent√©rate Intentos de asalto y poca infraestructura carretera en el Estado de M√©xico obstaculiza el reparto de ayuda del Banco de Alimentos Poniente https://t.co/MPpkMmpRX8
6,36859,0.287,El_Universal_Mx,"De acuerdo con datos de la Administraci√≥n de Control de Drogas (DEA) de Estados Unidos, en la versi√≥n original, el fentanilo es considerado de 30 a 50 veces m√°s potente que la hero√≠na https://t.co/9mWdq9W8PA https://t.co/bqchRWkYvZ"
7,32937,0.288,Radio_Formula,"Un taxi fue de los veh√≠culos afectados por el accidente de tr√°nsito en Tlalpan, Ciudad de M√©xico. https://t.co/pJaNrYlRRH"


  0.000613 seconds


0,1,2,3,4
1,37493,0.462,abc_es,Primeros datos de la eficacia de dos antivirales frente al virus de la viruela del simio https://t.co/TdBHvIIT3w
2,31766,0.468,AristeguiOnline,Molnupiravir elimina el virus SARS-CoV-2 activamente infeccioso al tercer d√≠a de comenzar la terapia: estudio https://t.co/93yBkWlj3G
3,24558,0.476,El_Universal_Mx,Es el primer deceso registrado en la entidad por esa variante del virus SARS-CoV-2 https://t.co/3FlnzSNpbk
4,16409,0.477,bbcmundo,El alentador efecto de la vacuna contra el virus del papiloma humano (VPH) en la reducci√≥n del c√°ncer de cuello uterino https://t.co/rQV9L9Q9F4
5,38127,0.482,SinEmbargoMX,F√°rmacos contra enfermedad inflamatoria intestinal proteger√≠an de la COVID grave https://t.co/b7yXzIGahI https://t.co/nGZVBpX9Xi
6,38229,0.492,Adela_Micha,RT @LaSagaOficial: El infect√≥logo Carlos Aguirre habla sobre los virus que se han asociado a la hepatitis aguda infantil ‚ÄúUno se llama ad‚Ä¶
7,11175,0.495,PublimetroMX,Desde 2018 se han detectado tres brotes del virus Nipah; 70% de los contagiados mueren https://t.co/ck7YVHYHtV


In [13]:

display(@htl "<h1>Ejemplos de b√∫squeda (mensajes aleatorios)</h1>")
for i in 1:3
    for qid in rand(1:length(D.text))
        search_and_display(index, D.text[qid], 7, D, E, T)
    end
end

  0.000355 seconds


0,1,2,3,4
1,21443,-0.0,AdriDelgadoRuiz,"‚ÄúEl presidente @lopezobrador_ ha marcado muy claro su desd√©n por la intelectualidad, pero por la que no lo acompa√±a‚Äù: Revive la #Entrevista al periodista @ricardomraphael #ElDedoEnLaLlaga @heraldodemexico #HeraldoTV https://t.co/hVsZwrZYrj https://t.co/uc8SbYsqiB"
2,3176,0.06,MarioBeteta,"@carloselizondom @Radio_Formula El columnista @carloselizondom se dice preocupado por la hegemon√≠a que ha ganado la CFE con el actual gobierno, pues no la ve ""capaz de atender todas las necesidades del suministro de la energ√≠a el√©ctrica""."
3,21871,0.061,RicardoAlemanMx,"No, querido @Amadoelquelolea ! El tal @DrLorenzoMeyer ya es parte de la cloaca en que @lopezobrador_ convirti√≥ la politica y el poder! Y es que, como dijo un cl√°sico: ""lo doctor no quita lo pendejo!"" Abrazo!!! https://t.co/wyPW77uzih"
4,19427,0.061,Radio_Formula,#Opini√≥n | @RicardoMonrealA est√° decidido y el presidente lo sabe. La Presidencia la decidir√° el mejor candidato y en eso Monreal los aventaja por ser el √∫nico que va por la libre. Escribe @lopezdoriga. https://t.co/4tN9JMYdrl https://t.co/rSwnie43FI
5,35822,0.061,SinEmbargoMX,"RT @SinEmbargoTV: #Opini√≥n | ""La oposici√≥n no levanta"" por @alvaro_delgado ‚ÄúEl problema m√°s serio que enfrenta la oposici√≥n, sin embargo,‚Ä¶"
6,22363,0.062,Milenio,"#Pol√≠ticaCero | ‚ÄúPeor est√° el ChikiliQuadri que, adem√°s del comunismo, tambi√©n le declar√≥ la guerra al reguet√≥n, lo cual solo ha conseguido que repunte el perreo‚Äù üéô Lee y escucha la columna de @JairoCalixto https://t.co/Ud7jyNsJ7W https://t.co/kHz93VdTd8"
7,34833,0.062,RicardoAlemanMx,"Imaginan lo que habr√≠a dicho @lopezobrador_ si @EPN , @FelipeCalderon o @VicenteFoxQue hubiesen dicho lo que hoy dijo üëá el dictador L√≥pez? Pero claro, la mafia lopista calla! Vamos a seguir ganando por ‚Äúpaliza‚Äù en 2024: AMLO https://t.co/eLzIqHRP2q v√≠a @ricardoalemanmx"


  0.000247 seconds


0,1,2,3,4
1,31049,0.0,El_Universal_Mx,"RT @de_ultima: #KristenStewart es llamada la rebeli√≥n de la moda, llega a la red carpet de los #Oscars en pantal√≥n corto de @CHANEL #Oscars‚Ä¶"
2,10004,0.057,el_pais,RT @elpaissemanal: Es la reinventora de la novela de amor decimon√≥nica en la era de la hiperconectividad. La escritora superventas de los m‚Ä¶
3,16785,0.066,teleSURtv,"La @UNESCO_es anunci√≥ la #incorporaci√≥n de la ciudad oriental #SantiagodeCuba a la Red de #CiudadesCreativas, por su #aportemusical, una de las categor√≠as reconocidasüëâhttps://t.co/XWdapowvLi"
4,7748,0.066,azucenau,RT @FiscaliaCDMX: El d√≠a de hoy se hace historia; la justicia por encima de la pol√≠tica. Gracias a la decisi√≥n de las y los @Mx_Diputados p‚Ä¶
5,32615,0.068,El_Universal_Mx,"""Es estar sumando a la polarizaci√≥n"", considera @LuisCardenasMx sobre el mensaje de la playera de @mario_delgado en conferencia por la #Revocaci√≥nDeMandato https://t.co/nqVxwzyxcN https://t.co/uShp8tRTOU"
6,38782,0.07,epigmenioibarra,"RT @AliciaMonicaOT: Es tiempo de forma parte de la historia. Vamos que no quede duda, a votar en favor de la transformaci√≥n"
7,22733,0.07,julioastillero,"RT @reforma2006: no se pierdan a las 7 de la noche por @Canal22 la repetici√≥n de la ""mesa del mas all√°"" con @anafrancismor ,@HoracioFranco‚Ä¶"


  0.000307 seconds


0,1,2,3,4
1,5056,0.0,El_Universal_Mx,RT @ElUniversalOax: #Ent√©rate üë®üèª‚Äçüíª Un doodle de Google es una alteraci√≥n temporal del logotipo en la p√°gina principal de Google que pretend‚Ä¶
2,26658,0.113,galvanochoa,RT @pictoline: Mucho ojo üëÄ: la historia de c√≥mo un guardia arruin√≥ una pintura de la era sovi√©tica... en su primer d√≠a de trabajo üñãüôÉ ¬øCu√°l‚Ä¶
3,7284,0.118,El_Universal_Mx,RT @ElUniversal_SLP: #Ent√©rate üö¶ El cambio de semaforizaci√≥n se debe a una alta incidencia de transmisi√≥n del virus SARS-CoV-2 en la entida‚Ä¶
4,10189,0.119,El_Universal_Mx,RT @ElUniversal_SLP: #LoM√°sLe√≠do üåé Google Earth Engine cre√≥ un timelapse de la capital potosina y su Zona Metropolitana https://t.co/El5Sf‚Ä¶
5,4141,0.119,El_Universal_Mx,RT @UniversalPuebla: üì∂ No es tu internet. Falla la p√°gina de la @SEPGobPue para consultar el modelo h√≠brido de clases. https://t.co/T1Xs13‚Ä¶
6,19087,0.121,El_Universal_Mx,"RT @De10mx: #Covid üò∑üá≤üáΩ Un especialista de la UNAM afirm√≥ que es ‚Äúpr√°cticamente imposible‚Äù evitar que √≥micron, la nueva variante de Covid, l‚Ä¶"
7,14057,0.121,teleSURtv,"Linkedin: Env√≠a datos de #telemetr√≠a a #Microsoft, los cuales se difunden con cualquier proveedor de an√°lisis con el que la 'app' se haya conectadoüìµ Mensajer√≠a de Google: Comparte marcas de tiempo de cada interacci√≥n del usuario con Google Analytics, adem√°s de cada mensajeüì± https://t.co/n1d7a2dkW6"


# Actividades
- Reproduzca el ejercicio de este notebook, use embeddings para espa√±ol, cambi√© los ejemplos. Se sugiere el uso de <https://ingeotec.github.io/regional-spanish-models/> donde encontrar√° modelos fastText regionalizados del espa√±ol, pero puede usar otros embeddings.
- ¬øCu√°l ser√≠a el s√≠mil de bigramas y trigramas para este esquema de representaci√≥n sem√°ntica? Implementelo.
- Defina $H^{pt}_d$, donde $pt$ es la probabilidad de ocurrencia de t√©rmino.- Defina $H^{pt}_d$, donde $pt$ es la probabilidad de ocurrencia de t√©rmino.
- Implemente $H^\textsf{TF}_d$ y $H^\textsf{pt}_d$ de manera secuencial y con un √≠ndice m√©trico. Si usa Julia considere `SimilaritySearch.jl` y si usa Python considere `faiss`.
- Reporte su notebook y anote sus soluciones a las preguntas planteadas. El reporte deber√° contener un ensayo de [@KSKW2015] como introducci√≥n. Reporte los resultados de sus implementaciones, compare contra las alternativas presentadas en este reporte. Discuta sus resultados. Finalice el reporte  con reflexiones sobre el uso de nubes de puntos en lugar de bolsas de palabras tradicionales. Anot√© sus conclusiones.

# Bibliograf√≠a
- [KSKW2015] Kusner, M., Sun, Y., Kolkin, N., & Weinberger, K. (2015, June). From word embeddings to document distances. In International conference on machine learning (pp. 957-966). PMLR.
- [PW2009] Pele, O., & Werman, M. (2009, September). Fast and robust earth mover's distances. In 2009 IEEE 12th international conference on computer vision (pp. 460-467). IEEE.
