### **B√∫squeda y Miner√≠a de Informaci√≥n 2022-23**
### Universidad Aut√≥noma de Madrid, Escuela Polit√©cnica Superior
### Grado en Ingenier√≠a Inform√°tica, 4¬∫ curso
# **Implementaci√≥n de un motor de b√∫squeda**

Fechas:

* Comienzo: martes 7 / jueves 9 de febrero
* Entrega: martes 21 / jueves 23 de febrero (14:00)

# Introducci√≥n

## Autores

Guillermo Mart√≠n-Coello Juarez & Daniel Varela Sanchez

## Objetivos

Los objetivos de esta pr√°ctica son:

* La iniciaci√≥n a la implementaci√≥n de un motor de b√∫squeda.
*	Una primera comprensi√≥n de los elementos b√°sicos necesarios para implementar un motor completo.
*	La iniciaci√≥n al uso de la librer√≠a [Whoosh](https://whoosh.readthedocs.io/en/latest/intro.html) en Python para la creaci√≥n y utilizaci√≥n de √≠ndices, funcionalidades de b√∫squeda en texto.
*	La iniciaci√≥n a la implementaci√≥n de una funci√≥n de r√°nking sencilla.

Los documentos que se indexar√°n en esta pr√°ctica, y sobre los que se realizar√°n consultas de b√∫squeda ser√°n documentos HTML, que deber√°n ser tratados para extraer y procesar el texto contenido en ellos. 

La pr√°ctica plantea como punto de partida una peque√±a API general sencilla (y cuyo uso se puede ver en un programa de prueba que se encuentra al final del enunciado), que pueda implementarse de diferentes maneras, como as√≠ se har√° en esta pr√°ctica y las siguientes. A modo de toma de contacto y arranque de la asignatura, en esta primera pr√°ctica se completar√° una implementaci√≥n de la API utilizando Whoosh, con lo que resultar√° bastante trivial la soluci√≥n (en cuanto a la cantidad de c√≥digo a escribir). En la siguiente pr√°ctica el estudiante desarrollar√° sus propias implementaciones, sustituyendo el uso de Whoosh que vamos a hacer en esta primera pr√°ctica.

En t√©rminos de operaciones propias de un motor de b√∫squeda, en esta pr√°ctica el estudiante se encargar√° fundamentalmente de:

a) En el proceso de indexaci√≥n: recorrer los documentos de texto de una colecci√≥n dada, eliminar del contenido posibles marcas tales como html, y enviar el texto a indexar por parte de Whoosh. 

b) En el proceso de responder consultas: implementar una primera versi√≥n sencilla de una o dos funciones de r√°nking en el modelo vectorial, junto con alguna peque√±a estructura auxiliar.

## Material proporcionado

Se proporcionan (bien en el curso de Moodle o dentro de este documento):

*	Varias clases e interfaces Python (mayormente incompletas) a lo largo de este *notebook*, desde las que el estudiante partir√° para completar c√≥digo e integrar√° con ellas las suyas propias. 
La celda de prueba *al final de este notebook* implementa un programa que deber√° funcionar con el c√≥digo a implementar por el estudiante. Adem√°s, se proporciona a continuaci√≥n una celda con c√≥digo ejemplo que ilustra las funciones m√°s √∫tiles de la API de Whoosh.
*	Una peque√±a colecci√≥n <ins>docs1k.zip</ins> con aproximadamente 1.000 documentos HTML, y un peque√±o fichero <ins>urls.txt</ins>. Ambas representan colecciones de prueba para depurar las implementaciones y comprobar su correcci√≥n.
*	Un documento de texto <ins>output.txt</ins> con la salida est√°ndar que deber√° producir la ejecuci√≥n de la celda de prueba (salvo los tiempos de ejecuci√≥n que pueden cambiar, aunque la tendencia en cuanto a qu√© m√©todos tardan m√°s o menos deber√≠a cumplirse).

## Ejemplo API Whoosh

En la siguiente celda de c√≥digo se incluyen varios ejemplos para comprobar c√≥mo usar la API de la librer√≠a *Whoosh*.

In [10]:
# Whoosh API
import whoosh
from whoosh.fields import Schema, TEXT, ID
from whoosh.formats import Format
from whoosh.qparser import QueryParser
from urllib.request import urlopen
from bs4 import BeautifulSoup
import os, os.path
import shutil

Document = Schema(
        path=ID(stored=True),
        content=TEXT(vector=Format))

def whooshexample_buildindex(dir, urls):
    if os.path.exists(dir): shutil.rmtree(dir)
    os.makedirs(dir)
    writer = whoosh.index.create_in(dir, Document).writer()
    for url in urls:
        writer.add_document(path=url, content=BeautifulSoup(urlopen(url).read(), "lxml").text)
    writer.commit()

def whooshexample_search(dir, query):
    index = whoosh.index.open_dir(dir)
    searcher = index.searcher()
    qparser = QueryParser("content", schema=index.schema)
    print("Search results for '", query, "'")
    for docid, score in searcher.search(qparser.parse(query)).items():
        print(score, "\t", index.reader().stored_fields(docid)['path'])
    print()

def whooshexample_examine(dir, term, docid, n):
    reader = whoosh.index.open_dir(dir).reader()
    print("Total nr. of documents in the collection:", reader.doc_count())
    print("Total frequency of '", term, "':", reader.frequency("content", term))
    print("Nr. documents containing '", term, "':", reader.doc_frequency("content", term))
    for p in reader.postings("content", term).items_as("frequency") if reader.doc_frequency("content", term) > 0 else []:
        print("\tFrequency of '", term, "' in document", p[0], ":", p[1])
    raw_vec = reader.vector(docid, "content")
    raw_vec.skip_to(term)
    if raw_vec.id() == term:
        print("Frequency of '", raw_vec.id(), "' in document", docid, reader.stored_fields(docid)['path'], ":", raw_vec.value_as("frequency"))
    else:
        print("Term '", term, "' not found in document", docid)
    print("Top", n, "most frequent terms in document", docid, reader.stored_fields(docid)['path']) 
    vec = reader.vector(docid, "content").items_as("frequency")
    for p in sorted(vec, key=lambda x: x[1], reverse=True)[0:n]:
        print("\t", p)
    print()

urls = ["https://en.wikipedia.org/wiki/Simpson's_paradox", 
        "https://en.wikipedia.org/wiki/Bias",
        "https://en.wikipedia.org/wiki/Entropy"]

dir = "index/whoosh/example/urls"

whooshexample_buildindex(dir, urls)
whooshexample_search(dir, "probability")
whooshexample_examine(dir, "probability", 0, 5)

URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:997)>

## Calificaci√≥n

Esta pr√°ctica se calificar√° con una puntuaci√≥n de 0 a 10 atendiendo a las puntuaciones individuales de ejercicios y apartados dadas en el enunciado.  

El peso de la nota de esta pr√°ctica en la calificaci√≥n final de pr√°cticas es del **20%**.

La calificaci√≥n se basar√° en a) el **n√∫mero** de ejercicios realizados y b) la **calidad** de los mismos. 
La puntuaci√≥n que se indica en cada apartado es orientativa, en principio se aplicar√° tal cual se refleja pero podr√° matizarse por criterios de buen sentido si se da el caso.

Para dar por v√°lida la realizaci√≥n de un ejercicio, el c√≥digo deber√° funcionar (a la primera) **sin ninguna modificaci√≥n**. El profesor comprobar√° este aspecto ejecutando la celda de prueba as√≠ como otras pruebas adicionales.

## Entrega

La entrega consistir√° en un √∫nico fichero tipo *notebook* donde se incluir√°n todas las **implementaciones** solicitadas en cada ejercicio, as√≠ como una explicaci√≥n de cada uno a modo de **memoria**. Si se necesita entregar alg√∫n fichero adicional (por ejemplo, im√°genes) se puede subir un fichero ZIP a la tarea correspondiente de Moodle. En cualquiera de los dos casos, el nombre del fichero a subir ser√° **bmi-p1-XX**, donde XX debe sustituirse por el n√∫mero de pareja (01, 02, ..., 10, ...).

En concreto, se debe documentar:

- Qu√© version(es) del modelo vectorial se ha(n) implementado en el ejercicio 2.
- C√≥mo se ha conseguido colocar un documento en la primera posici√≥n de r√°nking, para cada buscador implementado en el ejercicio 2.
- El trabajo realizado en el ejercicio 3. 
- Y cualquier otro aspecto que el estudiante considere oportuno destacar.


## Indicaciones

Se podr√°n definir clases adicionales a las que se indican en el enunciado, por ejemplo, para reutilizar c√≥digo. Y el estudiante podr√° utilizar o no el software que se le proporciona, con la siguiente limitaci√≥n: 

*	No deber√° editarse el c√≥digo proporcionado m√°s all√° de donde se indica expl√≠citamente.
*	**La celda de prueba deber√° ejecutar** correctamente sin ninguna modificaci√≥n.

# Ejercicio 1: Implementaci√≥n basada en Whoosh

Implementar las clases y m√≥dulos necesarios para que la celda de prueba funcione. Se deja al estudiante deducir alguna de las relaciones jer√°rquicas entre las clases Python.

## Ejercicio 1.1: Indexaci√≥n (3.5pt)

Definir las siguientes clases:

* Index: clase general (no depende de Whoosh) y que encapsule los m√©todos necesarios para que funcione la celda de prueba que se encuentra al final del enunciado.
* Builder: clase general (no depende de Whoosh) que permite construir un √≠ndice (a trav√©s del m√©todo Builder.build()), tal y como se llama desde la celda de prueba entregada.
* WhooshIndex: clase que cumpla con la interfaz definida en *Index* usando la librer√≠a de whoosh.
* WhooshBuilder: clase que cumpla con la interfaz definida en *Builder* pero que use internamente la librer√≠a de whoosh.

La entrada para construir el √≠ndice (m√©todo Builder.build()) podr√° ser, tal y como se puede ver en el programa de prueba al final de este notebook, a) un fichero de texto con direcciones Web (una por l√≠nea); b) una carpeta del disco (se indexar√°n todos los ficheros de la carpeta, sin entrar en subcarpetas); o c) un archivo zip que contiene archivos comprimidos a indexar. Para simplificar, supondremos que el contenido a indexar es siempre HTML.

In [1]:
import whoosh
from whoosh.fields import Schema, TEXT, ID
from whoosh.formats import Format
from whoosh.qparser import QueryParser
from zipfile import ZipFile
from urllib.request import urlopen
from bs4 import BeautifulSoup
import ssl


# A schema in Whoosh is the set of possible fields in a document in the search space. 
# We just define a simple 'Document' schema, with a path (a URL or local pathname)
# and a content.
Document = Schema(
        path=ID(stored=True),
        content=TEXT(vector=Format))

class WhooshBuilder():
    """
    Whoosh Builder:
    Class to build a Whoosh index from a collection of documents.
    The collection can be a directory of files, a zip file, or a text file with a list of URLs.

    @param index_path : str
        Path to the index directory.
    @attribute index_path : str
        Path to the index directory.
    @attribute writer : whoosh.index.Writer
        Whoosh index writer.
    """
    index_path = None
    writer = None
    
    def __init__(self, index_path):
        self.index_path = index_path
        

    def build(self, collections):
        """
        build(collections)
            - Build the index from a collection of documents.
            - The collection can be a directory of files, a zip file, or a text file with a list of URLs.
        @param collections: path to the collection.
        """
        ctx = ssl.create_default_context()
        ctx.check_hostname = False
        ctx.verify_mode = ssl.CERT_NONE
        if os.path.exists(self.index_path): shutil.rmtree(self.index_path)
        os.makedirs(self.index_path)

        self.writer = whoosh.index.create_in(self.index_path, Document).writer()
        if os.path.isdir(collections):
            for path in sorted(os.listdir(collections)):
                fn=os.path.join(collections, path)
                if os.path.isfile(fn):
                    with open(fn, 'r') as f:
                        self.writer.add_document(path=fn, content=f.read())

        elif collections.endswith(".txt"):
            with open(collections) as f:
                    content = f.readlines()
                    for l in content:
                        l = l.strip()
                        self.writer.add_document(path=l, content=BeautifulSoup(urlopen(l, context=ctx).read(), "html.parser").text)

        elif collections.endswith(".zip"):
            for l in ZipFile(collections, "r").namelist():
                    self.writer.add_document(path=l, content=BeautifulSoup(ZipFile(collections, "r").read(l), "html.parser").text)
        return

    def commit(self):
        """
        commit()
            - Commit the index.
        """
        self.writer.commit()

class WhooshIndex():
    """
    Whoosh Index:
    Class to access a Whoosh index.
    
    @param dir : str
        Path to the index directory.
    @attribute index : whoosh.index.Index
        Whoosh index.
    @attribute reader : whoosh.index.Reader
        Whoosh index reader.
    @attribute path : str
        Path to the index directory.
    """
    reader = None
    index = None
    path = ""

    def __init__(self, dir) -> None:
        self.index = whoosh.index.open_dir(dir)
        self.reader = self.index.reader()
        self.path=dir

    def ndocs(self):
        """
        ndocs()
            - Return the number of documents in the index.
        """
        return self.reader.doc_count()

    def all_terms(self):
        """
        all_terms()
            - Return a list of all terms in the index.
        """
        return list(self.reader.field_terms("content"))

    def all_terms_with_freq(self):
        """
        all_terms_with_freq()
            - Return a list of all terms in the index with their frequency.
        """
        res=[]
        for i in self.all_terms():
            res.append((i, self.total_freq(i)))
        return res

    def total_freq(self, term):
        """
        total_freq(term)
            - Return the total frequency of a term in the index.
        @param term: term to search
        """
        return self.reader.frequency("content", term)

    def doc_path(self, doc_id):
        """
        doc_path(doc_id)
            - Return the path of a document given its id.
            @param doc_id: id of the document
        """
        return self.reader.stored_fields(doc_id)['path']

    def term_freq(self, term, doc_id):
        """
        term_freq(term, doc_id)
            - Return the frequency of a term in a document given its id.
            @param term: term to search
            @param doc_id: id of the document
        """
        for p in self.reader.postings("content", term).items_as("frequency") if self.reader.doc_frequency("content", term) > 0 else []:
            if doc_id == p[0]:
                return p[1]
        return 0

    def doc_freq(self, term):
        """
        doc_freq(term)
            - Return the document frequency of a term in the index.
            @param term: term to search
        """
        return self.reader.doc_frequency("content", term)

    def doc_terms_with_freq(self, doc_id):
        """
        doc_terms_with_freq(doc_id)
            - Return a list of terms in a document given its id.
            @param doc_id: id of the document
        """
        freqs = []
        for term in self.reader.vector_as("frequency", doc_id, "content"):
            freqs.append((term[0], term[1]))
        return freqs
    

### Explicaci√≥n/documentaci√≥n

En este ejercicio se crean las clases 'WhooshBuilder' y 'WhooshIndex' las cuales implementan la funcionalidad de la creacion de un √≠ndice y la gesti√≥n del mismo respectivemente. Para afrontar este ejercicio nos hemos basado en el c√≥digo de ejemplo proporcionado al principio de este documento, y para saber que m√©todos se requer√≠an en cada una de las clases hemos ido siguiendo el c√≥digo de prueba al final del documento e identificado cada uno de los m√©todos que se necesitaban. A posteriori, tambi√©n hemos a√±adido algumna funci√≥n que nos pod√≠a ser √∫til a parte de las expl√≠citamente indicadas en el c√≥digo de prueba (como es el caso de doc_terms_with_freq en Index). 


**WhooshBuilder**

El constructor de esta clase simplemente guardaba el index_path para su posterior uso. La mayor parte de la funcionalidad de esta clase reside en el m√©todo build. El m√©todo build crea un √≠ndice de b√∫squeda utilizando la biblioteca Whoosh. Toma una lista de colecciones como argumento y luego lee cada archivo en la lista y agrega sus contenidos al √≠ndice. El √≠ndice se crea en la ruta especificada en la variable self.index_path.

Si la lista de colecciones es un directorio, la funci√≥n recorre cada archivo en el directorio y agrega sus contenidos al √≠ndice. Si la lista de colecciones es un archivo de texto (.txt), la funci√≥n lee cada l√≠nea del archivo de texto y utiliza la biblioteca BeautifulSoup para extraer el contenido HTML de cada URL y agregarlo al √≠ndice. Si la lista de colecciones es un archivo ZIP (.zip), la funci√≥n lee cada archivo dentro del archivo ZIP y agrega sus contenidos al √≠ndice.

Finalmente ncontramos el m√©todo commit el cual simplemente hace que los documentos agregados est√©n disponibles para la b√∫squeda. Esta funci√≥n confirma los cambios y escribe los documentos agregados en el √≠ndice en el disco. 


**WhooshIndex**

La clase WhooshIndex se utiliza para realizar diferentes operaciones de b√∫squeda y an√°lisis de texto sobre un √≠ndice Whoosh. Cada uno de los m√©todos es autodescriptivo por su nombre y simplemente sustituye operaciones b√°sicas sobre un Indice Whoosh. 


Decidimos eliminar las clases abstractas Index y Builder ya que no tenian uso al estar definidas inmediatamente despues. 


## Ejercicio 1.2: B√∫squeda (2pt)

Implementar la clase WhooshSearcher como subclase de Searcher.

In [2]:
import math
import re

def from_query_to_terms(text):
    return re.findall(r"[^\W\d_]+|\d+", text.lower())

In [3]:
class WhooshSearcher():
    """
    Whoosh Searcher.
    Class to search a Whoosh index.
    
    @param index_path : str
        Path to the index directory.
    @attribute index : whoosh.index.Index
        Whoosh index.
    @attribute searcher : whoosh.searching.Searcher
        Whoosh searcher.
    @attribute qparser : whoosh.qparser.QueryParser
        Whoosh query parser.
    """
    index = None
    searcher = None
    qparser = None

    def __init__(self, index_path):
        self.index = whoosh.index.open_dir(index_path)
        self.searcher = self.index.searcher()
        self.qparser = QueryParser("content", schema=self.index.schema)

    def search(self, query, cutoff):
        """
        search(query, cutoff)
            - Search the index for a query.
        @param query: query to search
        @param cutoff: number of results to return
        @return: list of tuples (path, score)
        """
        result = []
        search_results = list(self.searcher.search(self.qparser.parse(query)).items())[:cutoff]

        for docid, score in search_results:
            result.append((self.index.reader().stored_fields(docid)['path'], score))
        return result
        


### Explicaci√≥n/documentaci√≥n

La clase WhooshSearcher encapsula un buscador "Searcher" orientado a obtener resultados sobre el √≠ndice que obtiene como argumento.
Para cumplir su prop√≥sito hace uso de la librer√≠a whoosh, para abrir y leer el √≠ndice. Adem√°s del constructor, la clase WhooshSearcher
contiene un m√©todo search. √âste m√©todo devuelve los N documentos del √≠ndice que m√°s puntuaci√≥n obtienen, estando la puntuaci√≥n directamente
relacionada con las apariciones y frecuencia de los t√©rminos introducidos como "query" en el argumento 1, siendo N el argumento 2.
Ya que utilizamos las funciones implementadas con la librer√≠a whoosh, no podemos ver de manera directa el c√≥digo que se utiliza para obtener los
scores.

# Ejercicio 2: Modelo vectorial

Implementar dos modelos de r√°nking propios, basados en el modelo vectorial.

## Ejercicio 2.1: Producto escalar (2.5pt)

Implementar un modelo vectorial propio que utilice el producto escalar (sin dividir por las normas de los vectores) como funci√≥n de r√°nking, por medio de la clase VSMDotProductSearcher, como subclase de Searcher.

Este modelo har√° uso de la clase Index y se podr√° probar con la implementaci√≥n WhooshIndex (puedes ver un ejemplo de esto en la celda de prueba).

Adem√°s, la clase VSMDotProductSearcher ser√° intercambiable con WhooshSearcher, como se puede ver en la celda de prueba, donde la funci√≥n test_search utiliza una implementaci√≥n u otra sin distinci√≥n.

In [4]:
from whoosh.searching import Searcher



def tf(freq):
    """
    tf(freq)
        - Return the term frequency.
    @param freq: term frequency
    """
    return 1 + math.log2(freq) if freq > 0 else 0


def idf(df, n):
    """
    idf(df, n)
        - Return the inverse document frequency.
    @param df: document frequency
    @param n: number of documents
    """
    return math.log2((n + 1) / (df + 0.5))



class VSMDotProductSearcher():
    """
    VSM Dot Product Searcher
    Class to search a Whoosh index using the VSM model with the dot product.

    @param index_path : str
        - Path to the index directory.
    """
    def __init__(self, index):
        self.index = index

    def search(self, query, cutoff):
        """
        search(query, cutoff)
            - Search the index for a query.
        @param query: query to search
        @param cutoff: number of results to return
        @return: list of tuples (path, score)
        """
        docs=[]
        terms = from_query_to_terms(query)
        for doc_id in range(self.index.ndocs()):
            score=0
            for term in terms:
                score += tf(self.index.term_freq(term, doc_id)) * idf(self.index.doc_freq(term), self.index.ndocs())
            if score > 0:
                docs.append([self.index.doc_path(doc_id), score])
        docs.sort(key=lambda x: x[1], reverse=True)
        return docs[0:cutoff]

### Explicaci√≥n/documentaci√≥n

La clase VSMDotProductSearcher es una subclase de Searcher que implementa un modelo vectorial de b√∫squeda utilizando el producto escalar sin dividir por las normas de los vectores. Esto se logra mediante el c√°lculo de la puntuaci√≥n de cada documento en funci√≥n de la frecuencia del t√©rmino en el documento y la frecuencia del t√©rmino en el √≠ndice. Para cada documento en el √≠ndice, se calcula su puntuaci√≥n sumando las puntuaciones de todos los t√©rminos en la consulta que aparecen en el documento. Si la puntuaci√≥n del documento es mayor que cero, se agrega a la lista de resultados.

La funci√≥n tf calcula la frecuencia de t√©rmino ajustada (tf) para un t√©rmino en un documento. La funci√≥n idf calcula el factor de ponderaci√≥n inverso del documento (idf) para un t√©rmino en el √≠ndice. La suma de los valores tf y idf para cada t√©rmino se utiliza para calcular la puntuaci√≥n de un documento.

La funci√≥n search toma una consulta y un l√≠mite superior de resultados, y devuelve una lista de los documentos m√°s relevantes ordenados por puntuaci√≥n decreciente. La consulta se divide en t√©rminos y se busca la puntuaci√≥n de cada documento en funci√≥n de los t√©rminos en la consulta. Los resultados se devuelven como una lista de pares de documentos y puntuaciones.

Esta implementaci√≥n es justificable porque el producto escalar es una medida com√∫n de similitud en espacios vectoriales, y no dividir por las normas de los vectores puede simplificar los c√°lculos y no afectar significativamente la calidad de los resultados. Adem√°s, la implementaci√≥n utiliza las funciones tf e idf est√°ndar en el procesamiento de lenguaje natural, lo que mejora la precisi√≥n de los resultados. En general, la implementaci√≥n de VSMDotProductSearcher es una forma razonable y eficiente de realizar b√∫squedas en un √≠ndice de Whoosh.

### Ejercicio

A√±adir a mano un documento a la colecci√≥n docs1k.zip de manera que aparezca el primero para la consulta ‚Äúobama family tree‚Äù para este buscador. Documentar c√≥mo se ha conseguido y por qu√© resulta as√≠.

### Soluci√≥n

Para obtener el score con producto escalar multiplicamos la frecuencia de los t√©rminos en el documento por la funci√≥n idf, siendo esta "log2((n + 1) / (df + 0.5))".
Para obtener un score lo m√°s grande posible, por lo tanto, hay dos relaciones que podemos modificar.
Por un lado podemos aumentar la frecuencia de cada t√©rmino (respecto del documento), que modifica directamente el valor del score.
Por otro lado, necesitamos que la funci√≥n idf devuelva el valor m√°s alto posible. Como el n√∫mero de documentos es constante, lo m√°s optimo es que (df + 0.5) sea
lo menor posible, siendo df la frecuencia total de los t√©rminos en b√∫squeda.
Por lo tanto, para obtener el mejor resultado posible hay que conseguir un balance entre la frecuencia de los t√©rminos por documento y la frecuencia de los t√©rminos en relaci√≥n al resto de documentos del √≠ndice. Como la funci√≥n idf escala de forma logar√≠tmica, y en cambio, la cantidad de apariciones de cada t√©rmino escala de forma lineal, hemos decidido utilizar un documento con la query utilizada ("obama family tree") repetida un gran n√∫mero de veces.

## Ejercicio 2.2: Coseno (2pt)

Refinar la implementaci√≥n del modelo para que calcule el coseno, definiendo para ello una clase VSMCosineSearcher. Para ello se necesitar√° extender Builder (o WhooshBuilder) con el c√°lculo de los m√≥dulos de los vectores, que deber√°n almacenarse en un fichero, en la carpeta de √≠ndice junto a los ficheros que genera cada √≠ndice. 

Pensad en qu√© parte del dise√±o interesa hacer esto, en concreto, qu√© clase y en qu√© momento tendr√≠a que calcular, devolver y/o almacenar estos m√≥dulos.

In [5]:
class VSMCosineSearcher():
    """
    VSMCosineSearcher
    Class to search a Whoosh index using the VSM with cosine similarity.
    
    @param index : WhooshSearcher
        - Whoosh index
    @attribute index : WhooshSearcher
        - Whoosh index
    @attribute modules : list
        - List of modules of the documents in the index
    """
    index = None
    modules = []

    def __init__(self, index):
        self.index = index
        self.modules = []
        for doc_id in range(index.ndocs()):
            div, divd, divq = 0, 0, 0
            for vec in index.doc_terms_with_freq(doc_id):
                divd = (tf(vec[1])) ** 2 
                divq = (idf(index.doc_freq(vec[0]), index.ndocs())) ** 2
                div += divd*divq
            div=math.sqrt(div)
            self.modules.append(div)




    def search(self, query, cutoff):
        """
        search(query, cutoff)
            - Search the index for a query.
        @param query: query to search
        @param cutoff: number of results to return
        @return: list of tuples (path, score)
        """
        docs=[]
        terms = from_query_to_terms(query)
        for doc_id in range(self.index.ndocs()):
            score=0
            for term in terms:
                score += ((tf(self.index.term_freq(term, doc_id)) * idf(self.index.doc_freq(term), self.index.ndocs())) / self.modules[doc_id])
            if score > 0:
                docs.append([self.index.doc_path(doc_id), score])
        docs.sort(key=lambda x: x[1], reverse=True)
        return docs[0:cutoff]


### Explicaci√≥n/documentaci√≥n

En esta nueva implementaci√≥n, se ha refinado el modelo vectorial anterior para que calcule el coseno en lugar del producto escalar como funci√≥n de ranking, lo que puede proporcionar resultados m√°s precisos. Para ello, se ha creado la clase VSMCosineSearcher, que extiende la clase Searcher para permitir la b√∫squeda en el √≠ndice.

La parte m√°s importante de esta nueva implementaci√≥n es el c√°lculo de los m√≥dulos de los vectores. Los m√≥dulos se calculan en el constructor de VSMCosineSearcher y se almacenan en una lista llamada modules. Para calcular el m√≥dulo de un vector, se utiliza la f√≥rmula:


cos = sum(tf(w) * idf(w))/ sqrt(sum(tf(w)^2 * idf(w)^2))
donde ùë°ùëì mide la ‚Äúimportancia‚Äù de los t√©rminos en los documentos e ùëñùëëùëì mide el poder de discriminaci√≥n del t√©rmino

Al inicializar el buscador guardamos la parte de abajo del algortimo, sqrt(sum(tf(w)^2 * idf(w)^2)). Esto nos ayuda a tener parte de la funci√≥n ya realizada a la hora de satisfacer cada b√∫squeda.

Cada vez que se utiliza el m√©todo "search" de la clase, ejecuta el resto de la f√≥rmula, sumando el score de los t√©rminos dependientes de la query

Finalmente, se ordenan los resultados por score en orden descendente y se devuelve un m√°ximo de cutoff resultados.

En cuanto al almacenamiento de los m√≥dulos, se ha decidido que se almacenen en un fichero en la carpeta del √≠ndice, junto con los ficheros que genera cada √≠ndice. Para ello, se debe extender la clase Builder o WhooshBuilder para que calcule y almacene los m√≥dulos en el momento en que se crea el √≠ndice.

### Ejercicio

A√±adir a mano un documento a la colecci√≥n docs1k.zip de manera que aparezca el primero para la consulta ‚Äúobama family tree‚Äù para este buscador. Documentar c√≥mo se ha conseguido y por qu√© resulta as√≠.

### Soluci√≥n

Para obtener el mismo resultado para la b√∫squeda de "obama family tree" con este nuevo CosineSearcher, la implementaci√≥n que debemos seguir es similar a la utilizada para el modelo de producto escalar, ya que a pesar de que la f√≥rmula que utilizamos para obtener el score varien, las dependencias se mantienen, estando relacionado directamente con la frecuencia de los elementos de la query por documento. Por ello, igualmente, hemos utilizado un nuevo documento llenandolo de una gran repetici√≥n de los t√©rminos de la b√∫squeda para obtener el mayor score posible.

# Ejercicio 3: Estad√≠sticas de frecuencias (1pt)

Utilizando las funcionalidades de la clase Index, implementar una funci√≥n term_stats que calcule a) las frecuencias totales en la colecci√≥n de los t√©rminos, ordenadas de mayor a menor, y b) el n√∫mero de documentos que contiene cada t√©rmino, igualmente de mayor a menor. Visualizar las estad√≠sticas obtenidas en dos gr√°ficas en escala log-log (dos gr√°ficas por cada colecci√≥n, seis gr√°ficas en total), que se mostrar√°n en el cuaderno entregado.

De esta forma, podr√°s comprobar si las estad√≠sticas de la colecci√≥n siguen alg√∫n tipo de comportamiento esperado (como la conocida [Ley de Zipf](https://es.wikipedia.org/wiki/Ley_de_Zipf)).

In [6]:
import matplotlib.pyplot as plt

def get_file_name(path):
    dir_name, file_name = os.path.split(path)

    match = re.match(r'^(.*)\.(.*?)$', file_name)
    if match:
        return match.group(1)
    else:
        return file_name

def term_stats(index):
    # las frecuencias totales en la colecci√≥n de los t√©rminos, ordenadas de mayor a menor,
    freqs = sorted(index.all_terms_with_freq(), key=lambda x: x[1], reverse=True)
    # Visualizar las estad√≠sticas obtenidas en dos gr√°ficas en escala log-log
    plt.loglog([x[1] for x in freqs])
    plt.xlabel("Term")
    plt.ylabel("Frequency")
    plt.title("Total term frequency on : "+get_file_name(index.path))
    plt.grid(True)
    plt.savefig("term_frequency_"+get_file_name(index.path)+".png")
    plt.clf()
    # el n√∫mero de documentos que contiene cada t√©rmino, igualmente de mayor a menor.
    docs_per_term = sorted([(term, index.doc_freq(term)) for term in index.all_terms()], key=lambda x: x[1], reverse=True)
    plt.loglog([x[1] for x in docs_per_term])
    plt.xlabel("Term")
    plt.ylabel("Documents")
    plt.title("Number of documents per term on : "+get_file_name(index.path))
    plt.grid(True)
    plt.savefig("documents_per_term_"+get_file_name(index.path)+".png")
    plt.clf()

### Explicaci√≥n/documentaci√≥n
Para obtener los diferentes plots, en el c√≥digo al final del documento hemos a√±adido una linea justo despu√©s de la creaci√≥n del Indice que llamaba a esta funcion. Esta funci√≥n simplemente genera dos tipos de gr√°ficos para cada una de las colecciones. Una gr√°fica muestra el numero de documentos en los que aparece cada t√©rmino ordenado de mayor numero de apariciones a menor (documents_per_term_XXX.png) y la otra gr√°fica muestra  la frecuencia de cada uno de los t√©rminos enla colecci√≥n. 

Es importante destacar que cuanto mayor numero de datos se recogen mas se parece la grafica resultante a la ley de Zipf la cual sigue la siguiente funci√≥n P~1/n¬™.


### Im√°genes de los plots:
![Alt text](plots/documents_per_term_toy.png)
![Alt text](plots/term_frequency_toy.png)
![Alt text](plots/documents_per_term_urls.png)
![Alt text](plots/term_frequency_urls.png)
![Alt text](plots/documents_per_term_docs.png)
![Alt text](plots/term_frequency_docs.png)


# Celda de prueba

Descarga los ficheros del curso de Moodle y coloca sus contenidos en una carpeta *collections* en el mismo directorio que este *notebook*. El fichero *toy.zip* hay que descomprimirlo para indexar la carpeta que contiene.

In [9]:
import os
import shutil
import time

def clear (index_path: str):
    if os.path.exists(index_path): shutil.rmtree(index_path)
    else: print("Creating " + index_path)
    os.makedirs(index_path)

def test_collection(collection_paths: list, index_path: str, word: str, query: str):
    start_time = time.time()
    print("=================================================================")
    print("Testing indices and search on " + str(len(collection_paths)) + " collections")

    # Let's create the folder if it did not exist
    # and delete the index if it did
    clear(index_path)

    # We now test building an index
    test_build(WhooshBuilder(index_path), collection_paths)

    # We now inspect the index
    index = WhooshIndex(index_path)
    test_read(index, word)

    print("------------------------------")
    print("Checking search results")
    test_search(WhooshSearcher(index_path), query, 5)
    test_search(VSMDotProductSearcher(WhooshIndex(index_path)), query, 5)
    test_search(VSMCosineSearcher(WhooshIndex(index_path)), query, 5)

def test_build(builder, collections: list):
    stamp = time.time()
    print("Building index with", type(builder))
    for collection in collections:
        print("Collection:", collection)
        # This function should index the received collection and add it to the index
        builder.build(collection)
    # When we commit, the information in the index becomes persistent
    # we can also save any extra information we may need
    # (and that cannot be computed until the entire collection is scanned/indexed)
    builder.commit()
    print("Done (", time.time() - stamp, "seconds )")
    print()

def test_read(index, word):
    stamp = time.time()
    print("Reading index with", type(index))
    print("Collection size:", index.ndocs())
    print("Vocabulary size:", len(index.all_terms()))
    terms = index.all_terms_with_freq()
    terms.sort(key=lambda tup: tup[1], reverse=True)
    print("  Top 5 most frequent terms:")
    for term in terms[0:5]:
        print("\t" + term[0] + "\t" + str(term[1]) + "=" + str(index.total_freq(term)))
    print()
    # More tests
    doc_id = 0
    print()
    print("  Frequency of word \"" + word + "\" in document " + str(doc_id) + " - " + index.doc_path(doc_id) + ": " + str(index.term_freq(word, doc_id)))
    print("  Total frequency of word \"" + word + "\" in the collection: " + str(index.total_freq(word)) + " occurrences over " + str(index.doc_freq(word)) + " documents")
    print("  Docs containing the word'" + word + "':", index.doc_freq(word))
    print("Done (", time.time() - stamp, "seconds )")
    print()


def test_search (engine, query, cutoff):
    stamp = time.time()
    print("  " + engine.__class__.__name__ + " for query '" + query + "'")
    for path, score in engine.search(query, cutoff):
        print(score, "\t", path)
    print()
    print("Done (", time.time() - stamp, "seconds )")
    print()


index_root_dir = "./index/"
collections_root_dir = "./collections/"
test_collection ([collections_root_dir + "toy/"], index_root_dir + "toy", "cc", "aa dd")
test_collection ([collections_root_dir + "urls.txt"], index_root_dir + "urls", "wikipedia", "information probability")
test_collection ([collections_root_dir + "docs1k.zip"], index_root_dir + "docs", "seat", "obama family tree")
test_collection ([collections_root_dir + "toy/", collections_root_dir + "urls.txt", collections_root_dir + "docs1k.zip"], index_root_dir + "all_together", "seat", "obama family tree")

Testing indices and search on 1 collections
Building index with <class '__main__.WhooshBuilder'>
Collection: ./collections/toy/
Done ( 0.026472091674804688 seconds )

Reading index with <class '__main__.WhooshIndex'>
Collection size: 4
Vocabulary size: 39
  Top 5 most frequent terms:
	aa	9.0=9.0
	bb	5.0=5.0
	sleep	5.0=5.0
	cc	3.0=3.0
	die	2.0=2.0


  Frequency of word "cc" in document 0 - ./collections/toy/d1.txt: 2
  Total frequency of word "cc" in the collection: 3.0 occurrences over 2 documents
  Docs containing the word'cc': 2
Done ( 0.0013790130615234375 seconds )

------------------------------
Checking search results
  WhooshSearcher for query 'aa dd'

Done ( 0.0009815692901611328 seconds )

  VSMDotProductSearcher for query 'aa dd'
4.0 	 ./collections/toy/d1.txt
1.7369655941662063 	 ./collections/toy/d2.txt
1.0 	 ./collections/toy/d3.txt

Done ( 0.0009028911590576172 seconds )

  VSMCosineSearcher for query 'aa dd'
1.0 	 ./collections/toy/d2.txt
0.7427813527082074 	 ./collectio

### Salida obtenida por el estudiante