# Módulo `crawler.py`
La clase `Crawler` representa el robot que busca recursivamente los enlaces en las páginas dentro de la frontera de dominios asignada.
## Constructor
Para crear un `Cawler` es necesario un lista de `dominios` que
compongan su frontera y un `control` al que le pase la páginas
que deben ser procesadas, un nombre del archivo de `log` donde
persistirá sus actividades y un tiempo mínimo `tmin` de milisegundos
entre peticiones de página a un mismo servidor web.

In [9]:
%cd -q ..
from buscador.crawler import Crawler
from buscador.inverted_index import Control
mi_crawler = Crawler(Control(),["http://www.google.com"],"log.txt",1000)

## Método `iniciar()`
Es el método que inicia la labor del `Crawler` o la continúa después de haber sido detenido. 
Puesto el trabajo del `Crawler` puede extenderse en el tiempo, maneja la posibilidad de 
suspender su ejecución presionando `<CONTROL>-C`.

    mi_crawler.iniciar()

## Métodos `direccion_en_frontera()` y `direccion_no_procesada()`
Éstos son métodos de funcionalidad interna al `Crawler` y tienen por función devolver un valor booleano indicando si
las direcciones que se pasan por parámetro pertenecen a la frontera determinada por los `dominios` y si la dirección ya ha sido visitada y procesado su contenido por el `Control`

In [10]:
mi_crawler.direccion_en_frontera("http://www.google.com")

True

In [11]:
mi_crawler.direccion_no_procesada("http://www.google.com")

True

## Métodos `__getstate__()` y `__setstate__()`
Éstos métodos son parte del protocolo del módulo standar `pickle` a los efectos de persistir el `Crawler` en caso de salir de la aplicación.

In [12]:
import pickle
with open("crawler.bin", "wb") as archivo:
    pickle.dump(mi_crawler,archivo)
del mi_crawler

In [13]:
with open("crawler.bin", "rb") as archivo:
    mi_crawler = pickle.load(archivo)
print(*mi_crawler.dominios, sep="\n")

http://www.google.com


## Método `__salir__()`
Éste método se utiliza como manejador de la señal del sistema `SIGINT` para retener el control y suspender el funcionamiento del `Crawler`