# Implementación del método de Random Projections para el corpus generado por los artículos del 2016 del New York Times

A continuación se implementará el método propuesto en este [paper](./random-indexing-dr-explained.pdf).

La idea es generar la matriz $M'_{p*m}$ a partir de la matriz $M_{p*n}$ y la matriz de proyecciones $R_{n*m}$.
Donde:

* p = cantidad de documentos
* n = cantidad de palabras en el vocabulario
* m = cantidad de tópicos

La matriz $M$ contiene una fila por documento y una columna por cáda término dentro del vocabulario.
El elemento $M_{i,j}$ contendrá una medida de la cantidad de veces que aparece el término $j$ en el documento $i$. Para nuestro caso, esa medida será el tfidf. La matriz $M$ es sparsa ya que para un documento en particular, la gran mayoría de las palabras no aparecerá.

La matriz $M'$ contiene una fila por documento y una columna por cada tópico. El elemento $M'_{i,j}$ contiene una medida de cuánto aporta el tópico $j$ a la construcción del documento $i$.

El método propuesto por el paper consta en:

1) Construcción de la matriz $M_{p*n}$ a partir del corpus generado por los artículos del New York Times del 2016. Esto se hará en un script de Python aparte para no ensuciar con código secundario esta notebook.

2) Generación de la matriz de proyección $R$. Mas adelante se dará un detalle de la generación de esta matriz.

3) Cálculo de la matriz $M'$ como la proyección definida por $R$ de la matriz $M$ en el espacio de menor dimensión.

Una vez calculada esta transformación, podremos hacer el siguiente análisis:

1) Tomar un palabra en particular del vocabulario (como un documento en el espacio de dimensión n cuyas componentes son todas cero salvo la componente que representa la palabra elegida que vale uno), transformarla con R y recuperar los k documentos vecinos.

2) Tomar varias palabras del vocabulario (mismo procedimiento que el anterior, pero con más componentes en uno), transformarlas con R y recuperar los k documentos vecinos a este vector en el espacio de dimensión reducida.

3) Tomar documentos de referencia de $M'$ y buscar sus k documentos mas cercanos en el espacio de dimensión reducida.

Para cada punto definido anteriormente, se puede hacer una evaluación cualitativa de los resultados. ** Discutir un mecanismo de evaluación cuantitativo.**

# Construcción de la matriz $M$

Para construir la matriz $M$ se utilizarán los artículos extraídos en esta [notebook](./Corpus que se utilizará para la comparación de métodos.ipynb).

Primero se cargarán los artículos y luego se construirá la matriz $M$ utilizando el paquete tfidf de sklearn.

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
import json
from time import time
with open('articulos_2016_procesados.json') as f:
    data = json.load(f)
articulos=list(data.values())
ids=list(data.keys())
tfidf_vectorizer = TfidfVectorizer(max_df=1., min_df=1)
t0 = time()
tfidf = tfidf_vectorizer.fit_transform(articulos)
print("done in %0.3fs." % (time() - t0))

done in 11.538s.


In [2]:
from scipy.sparse import csc_matrix
type(tfidf)

scipy.sparse.csr.csr_matrix

## Generación de la matriz de proyección R

Según lo visto en el paper de referencia [1], los elementos $r_{i,j}$ de la matriz R se calculan como:

$$ r_{i,j} = \sqrt{s}\left\{ \begin{array}{rcl}
1 & \text{con probabilidad} & \frac{1}{2s} \\ 
0 & \text{con probabilidad} & 1-\frac{1}{s} \\
-1 & \text{con probabilidad} & \frac{1}{2s}
\end{array}\right.$$

In [3]:
import numpy as np
from scipy import spatial
from sklearn.random_projection import SparseRandomProjection
p=tfidf.shape[0]
m=200
n=tfidf.shape[1]
density=1/np.sqrt(n)
density=1/3
rp=SparseRandomProjection(n_components=m, density=density)
rp.fit(tfidf)

SparseRandomProjection(dense_output=False, density=0.3333333333333333,
            eps=0.1, n_components=200, random_state=None)

- Complejidad de cada algoritmo

In [4]:
M_prime=rp.fit_transform(tfidf)

In [5]:
M_prime_red=M_prime[0:20000,:]
M_prime_red.toarray()

array([[ 0.04699172, -0.11409095,  0.00911592, ..., -0.0140842 ,
        -0.09089084,  0.11274915],
       [ 0.        , -0.03091132, -0.03441577, ..., -0.13255409,
         0.06539983,  0.        ],
       [ 0.05691476,  0.00738216,  0.13429103, ..., -0.1265184 ,
         0.01790621,  0.0587265 ],
       ...,
       [-0.03426382, -0.07286436,  0.06760118, ...,  0.09087937,
        -0.04912492,  0.02439062],
       [ 0.04005887,  0.04617345, -0.06609145, ..., -0.10333421,
        -0.02867846,  0.01816517],
       [-0.04892534, -0.08428316,  0.06705924, ...,  0.05497759,
        -0.05994674,  0.04573344]])

In [6]:
tree = spatial.KDTree(M_prime_red.toarray())

In [7]:
M_prime_ns=M_prime.toarray()

In [49]:
import time
from pymongo import MongoClient
client = MongoClient()
db = client.nyt
collection=db["caratulas"]
max_dist=10000
for i in range(20000):
    res=tree.query(M_prime_ns[i],k=2)
    if res[0][1]<0.9 and res[0][1]>0.8:
        max_dist=res[0][1]
        print("\n\nSe encontró parecido entre los documentos {} y {}, con una distancia de {}:\n\n".format(i,res[1][1],max_dist))
        cursor=collection.find( {"_id":ids[i]})
        print(cursor[0]["lead_paragraph"])
        print("-----------------------------------------------------------------------------------------")
        cursor=collection.find( {"_id":ids[res[1][1]]})
        print(cursor[0]["lead_paragraph"])



Se encontró parecido entre los documentos 1 y 18764, con una distancia de 0.8960834531413441:


Packaging art by the decade isn’t realistic; art doesn’t come in squared-off units.
-----------------------------------------------------------------------------------------



Se encontró parecido entre los documentos 27 y 1945, con una distancia de 0.8124946885981067:


PASADENA, Calif. - It has been a trying season for Ohio State quarterback Terrelle Pryor.
-----------------------------------------------------------------------------------------
PASADENA, Calif. - The Ohio State sophomore quarterback Terrelle Pryor was nonchalant when asked about his performance Friday that earned him most valuable offensive player of the game honors in eighth-ranked Ohio State's 26-17 Rose Bowl victory against No. 7 Oregon.


Se encontró parecido entre los documentos 29 y 466, con una distancia de 0.8044751670066198:


This week: Katie Roiphe on sex and the American male novelist; Lorraine Adams on pos

KeyboardInterrupt: 

In [43]:
ids[89]

'5247670038f0d8198973e419'

In [44]:
ids[1262]

'4fd28efa8eb7c8105d865d87'