# Estructuras de Datos - Universidad Nacional de Tres de Febrero 
# Trabajo Práctico Nº 2 - Indexador de Noticias

### Lottero Bruno - Leg. 18434

### Dependencias
- configparser
- requests
- beautifulsoup4
- lxml
- bitarray
- pystemmer
- BTrees

Se pueden instalar con: pip3 install -r requirements

### A continuación se describen las clases y decisiones de diseño más importantes

## NewsReader.py
#### Esta clase contiene los métodos para leer y almacenar los artículos
#### Contiene métodos para:
- Crear los directorios/archivos xml destino si no existen
- Recolectar y almacenar los artículos según los medios/canales indicados en la configuración

### Decisiones de diseño:
- Para evitar almacenar noticias en un canal, se verifica por xpath que no exista previamente en el mismo archivo XML
- Se utilizó el paquete requests para hacer las peticiones HTTP correspondientes

### Por ejemplo
Leemos la configuración para tests

In [2]:
import configparser

config = configparser.ConfigParser()
config.read('tests/config.ini', encoding='utf-8')

['tests/config.ini']

También definimos una función callback para que nos imprima mensajes por consola (más adelante se explica en más detalle)

In [3]:
def print_callback(message, *args):
    """
    Función callback para recibir mensajes e imprimir un texto adecuado por consola
    """
    messages = {
        "DLERR": "No se pudo descargar el XML de %s",
        "PARSEERR": "No se pudo parsear el XML de %s",
        "NEWARTICLE": "Agregado %s - %s - %s",
        "BADFORMAT": "Mal formato de título o fecha, salteando...",
        "WAITING": "Esperando %s segundos para reiniciar descargas",
        "CANINTERR": "Si lo desea presione CTRL+C para cancelar y volver al menú principal",
        "BLKNE": "El archivo intermedio %s no existe, salteando...",
        "INDERR": "No se puede indexar el artículo con título %s",
        "XMLNF": "No existe el archivo XML %s",
        "MERGEOK": "Construcción del índice invertido finalizada"
    }
    print(messages.get(message) % args)

Construímos NewsReader

In [4]:
from NewsReader import NewsReader

news_reader = NewsReader(config, callback=print_callback)
news_reader.collect_news()

Agregado TELAM - política - Peña encabezó en la Antártida el acto del 50 aniversario de la creación de la Base Marambio
Agregado TELAM - política - Para el Financial Times, &quot;la victoria de Alberto Fernández agita la diplomacia argentina&quot;
Agregado TELAM - política - Finocchiaro: &quot;Vamos a hacer una transición ordenada&quot;
Agregado TELAM - política - El Gobierno asegura que deja &quot;10 mil millones de reservas, contra cero&quot; del kirchnerismo
Agregado TELAM - política - En México, destacan la &quot;calidad extraordinaria&quot; de la visita de Alberto Fernández
Agregado TELAM - política - Para Bielsa la institucionalidad &quot;frenó el desborde de las calles&quot;
Agregado TELAM - política - &quot;Habrá que tomar medidas de fondo para solucionar las restricciones cambiarias&quot;, dijo Trotta
Agregado TELAM - política - Pilotos de APLA se manifestaron por la situación de Avian y Andes
Agregado TELAM - política - Alberto Fernández dará una conferencia en el antiguo col

Luego de esto deberíamos tener en tests/TELAM/ los xml de economía y política

## Index.py
#### Es la clase que representa al índice invertido
#### Contiene métodos para:
- Procesar los cuerpos de noticias como bloques (cada medio es un bloque)
- Combinar los índices intermedios en un solo índice

### Decisiones de diseño:
- El formato de los índices intermedios consiste en palabras de longitud variable:
    - 4 bytes de term_id + 4 bytes para indicar tamaño de doc_list + n bytes de doc_list
- El formato de la lista de apariciones final consiste solamente en concatenar cada uno de los doc_list de los intermedios, ya que la metadada se encuentra en el diccionario almacenado con pickle
- En todos los casos las palabras son big endian
- Para hacer el merge en lineas generales:
 - Se coloca un manejador de archivo en una lista por cada bloque intermedio
 - Se hace push de la primer palabra de cada archivo en un min heap
     - Mientras el heap no esté vacío
         - min = Hacer pop del heap
         - next = Leer siguiente palabra a min (para facilitar, min tiene una referencia al manejador de archivo)
         - Si next no está vacío, pushear a heap
         - Si min.term_id coincide con el anterior, acumular los resultados, sinó escribir en disco
- Se utilizó PyStemmer como stemmer
- Para interpretar algunas etiquetas XML se utilizó BeautifulSoup4

In [5]:
from Index import Index

index = Index(config, callback=print_callback)
index.process_blocks()
index.merge_blocks()

El archivo intermedio ./tests/TELAM/TELAM.ii.part no existe, salteando...
Construcción del índice invertido finalizada


Luego de eso, deberíamos tener en tests/ tres archivos .dict (pickle) y un index.ii (lista de documentos)

## Search.py
#### Esta clase contiene los métodos para hacer búsquedas
#### Contiene métodos para:
- Buscar en el índice invertido con o sin wildcards

### Decisiones de diseño:
- Para buscar una palabra sin wildcard, se decidió que la mejor forma es buscar de forma literal por la raíz usando el stemmer
- Se utilizó el paquete BTrees para los árboles B
- Si buscamos por un literal (sin wildcards) al tener los términos afectados por el stemming, siempre se busca de manera exacta por su raíz, por ejemplo, si se busca "gato", internamente se va a buscar "gat"

In [13]:
from Search import Search

search = Search(config["DEFAULT"]["output"])
resultados = search.search_in_ii(["españ*", "argentina"])
print("Resultados de españ*")
print(resultados['españ*'])
print("Resultados de argentina")
print(resultados['argentina'])

Resultados de españ*
None
Resultados de argentina
['TELAM-economía-Aprueban financiamiento por US$ 300 millones-Mon, 04 Nov 2019 09:29:00 -0300', 'TELAM-política-Alberto Fernández dará una conferencia en el antiguo colegio San Idelfonso-Tue, 05 Nov 2019 10:59:00 -0300', 'TELAM-política-Alberto Fernández se reunió con López Obrador y dijo que recibió un &quot;apoyo categórico&quot;-Mon, 04 Nov 2019 21:18:00 -0300', 'TELAM-política-La OIT conmemorará en diciembre los 50 años de su presencia en la Argentina-Mon, 04 Nov 2019 19:27:00 -0300', 'TELAM-economía-Destacan la importancia de las marcas registradas en la economía argentina-Tue, 05 Nov 2019 16:38:00 -0300', 'TELAM-economía-Crecieron 43% los subsidios al sector energético en enero-septiembre-Tue, 05 Nov 2019 13:42:00 -0300', 'TELAM-economía-El superávit comercial de la Argentina con Brasil alcanzó los U$S 290 millones en octubre-Tue, 05 Nov 2019 12:12:00 -0300', 'TELAM-economía-El descuento promedio de esta edición de cyberofertas es

## Compresión de la lista de apariciones

Consiste en dos cosas:
- Guardar en lugar de los doc_id donde aparece el término, solo el doc_id mas chico, y luego los saltos
- Utilizar como mínimo 1 Byte para representar el doc_id:
    - El bit mas significativo se utiliza para definir la terminación del número
    - Si 7 bits no fuesen suficientes se utilizan varios varios Bytes, y en el último Byte se coloca 1 en el MSB

### Decisiones de diseño
Se utilizó el paquete bitarray para manipular los valores como arreglos booleanos

### Resultados de la compresión
Los resultados obtenidos con la compresión son muy significativos, a partír de nuestro set de noticias recolectadas (280 MB) la lista de apariciones sin comprimir pesa unos 66.2 MB, que con la compresión se reducen a 10.1 MB, casi un %84 de reducción de espacio.