# Web crawling

El web crawling consiste en extraer los enlaces de una página web e ir recorriéndolos para descubrir el contenido de la web. Los enlaces pueden ser a otros sitios web o pertenecer a un mismo sitio web. En este ejercicio, vamos a implementar un crawler para extraer el contenido de la web https://books.toscrape.com/. Para ello, deberás completar los métodos de la clase WebCrawler.

Para trabajar con las URLs que encontremos en las páginas, usaremos la función "urljoin(url_base, url_nueva)" que lo que hace es ver si url_nueva es absoluta o relativa. Si es absoluta, devuelve esa misma URL, pero si es relativa, la concatena a la url_base.

In [None]:
# Primero, cargaremos los paquetes necesarios
from bs4 import BeautifulSoup as Soup
import os
import re
import pip._vendor.requests as requests
import csv
import pandas as pd
from urllib.parse import urljoin

In [None]:
class WebCrawler:
    def __init__(self, base_url, output_dir="output"):
        self.base_url = base_url
        self.output_dir = output_dir
        # usamos un diccionario porque queremos poder comprobar rápidamente si una URL ya se ha descargado y a la vez
        # poder recorrer el diccionario en el orden en el que hemos insertado los elementos (el diccionario de Python
        # mantiene el orden de inserción). Insertaremos las URLs como la clave, y pondremos '' como valor asociado.
        self.urls = {base_url: ""}
        
        # Crear el directorio de salida si no existe
        if not os.path.exists(self.output_dir):
            os.mkdir(self.output_dir)
    
    def sanitize_text(self, text):
        """Limpia el texto para eliminar caracteres no permitidos en nombres de archivo y convertir las mayúsculas en minúsculas
        Args:
            text : Texto que se quiere limpiar.
            
        Return:
            clean_text : Texto limpio.
        """
        
        clean_text = re.sub(r'\s+', ' ', text)  # sustituye cualquier secuencia de espacios y tabuladores por un espacio solamente
        clean_text = re.sub(r'[\\/*?:"<>|]', "-", clean_text)  # sustituye los caracteres \/*?:"<>| por un guión -
        clean_text = clean_text.lower()

        return clean_text

    def download_page(self, url):
        """Descarga el contenido HTML de una página
        Args:
            url : url de la web.
            
        Return:
            req.text : texto html de la página.
        """
        ## BEGIN YOUR CODE
        
        ## END YOUR CODE
        return req.text

    def save_content(self, url, content):
        """Guarda el contenido de texto de la página en un archivo. ¡OJO! Solo el contenido de texto, no las etiquetas del HTML
        Args:
            url : url de la web.
            content: texto extraído del objeto BeautifulSoup con el contenido de la web.
        """
        ## BEGIN YOUR CODE
        
        ## END YOUR CODE

    def crawl(self):
        """Realiza el proceso de crawling en el sitio web"""

        i = 0
        while i < len(self.urls.keys()):

        ## BEGIN YOUR CODE
            
        ## END YOUR CODE

            i += 1

    def extract_links(self, soup, current_url):
        """Extrae enlaces de una página y los agrega a la lista de URLs (self.urls) si son nuevos
        Args:
            soup : objeto BeautifulSoup con el contenido de la web.
            current_url: url de la que se está extrayendo la información.
        """
        ## BEGIN YOUR CODE
        
        ## END YOUR CODE

    def run(self):
        """Método principal para iniciar el proceso de crawling"""
        print("Iniciando crawling...")
        self.crawl()
        print("Crawling completado.")
        print(f"URLs encontradas: {len(self.urls.keys())}")




Ejecuta ahora el scraper para recorrer la web y descargar su contenido. OJO, puede tardar unos minutos, así que puedes ver el directorio "output" y comprobar si van descargándose las webs.

In [None]:
crawler = WebCrawler("https://books.toscrape.com/")
crawler.run()
print(crawler.urls)

Salida:
```
Iniciando crawling...
Crawling completado.
URLs encontradas: 1195
{'https://books.toscrape.com/': '', 'https://books.toscrape.com/index.html': '', 'https://books.toscrape.com/catalogue/category/books_1/index.html': '' ...
```

El total de URLs encontradas debe ser de 1195.

### Cerrando el círculo: Obtención del índice invertido del sitio web books.toscrape

Ahora que sabemos cómo se realiza el proceso de obtención de la información de documentos web, vamos a construir su índice invertido para poder buscar información. Vemos así cómo hemos conseguido implementar todos los procesos de un sistema de recuperación de información mediante cada una de las prácticas.

A continuación, se deberán leer los documentos para extraer el vocabulario y calcular la frecuencia de término según se realizó en la primera práctica de la asignatura. **Esto nos permitirá comprobar que hemos leido correctamente las páginas web**. Para ello, copia las celdas correspondientes y modifícalas según sea necesario. Al final muestra el número de términos que contiene la colección, el tamaño del vocabulario y los 10 términos más frecuentes con su conteo.

In [None]:
## BEGIN YOUR CODE
        
## END YOUR CODE


```
Número de términos en la colección: 444877

444877

Tamaño del vocabulario : 35462

Los 10 términos más frecuentes son:

  to: 18380

  the: 18220

  in: 15913

  and: 12193

  stock: 11284

  of: 10940

  a: 9668

  add: 9560

  basket: 9304
  
  ...: 6065
```

Una vez extraído el vocabulario y la frecuencia de término, construye ahora el índice invertido de los documentos copiando de la práctica 1 el código correspondiente y modificando lo que sea necesario. Vamos a usar el índice sencillo que hicimos al comienzo que simplemente es un diccionario de términos la posting list de documentos donde aparece cada término. Puedes usar todas las celdas que necesites.

In [None]:
## BEGIN YOUR CODE
        
## END YOUR CODE

In [None]:
sorted_inverted_index = dict(sorted(inverted_index.items()))  # suponemos que el índice invertido se llama inverted_index

print(sorted_inverted_index)

Salida (¡OJO! es tan larga que se puede quedar colgado VSCode si la metemos entera en una celda de markdown):

```
{'!': [286], '!!': [492], '#01-#05': [1186], '#1': [1, 11, 21, 82, 85, 86, 97, 294, 297, 317, 319, 322, 323, 370, 373, 382, 385, 386, 520, 55
...
 '\ufeffintroduction': [1024], '\ufeffwritten': [1024]}

 ```




Buscamos ahora la lista de postings para el término "dagger" y obtenemos los nombres de documento correspondientes.

In [None]:
posting_list = inverted_index['dagger']  
posting_list

In [None]:
def retrieve_docnames(filenames, docids):
   
    return [filenames[i] for i in list(docids)]
    
    
retrieve_docnames(file_paths,posting_list)   # suponemos que file_paths contiene una lista con las rutas a los documentos ordenados según docid

```
['output\\https---books.toscrape.com-catalogue-category-books-fantasy_19-page-2.html',

 'output\\https---books.toscrape.com-catalogue-category-books-romance_8-index.html',

 'output\\https---books.toscrape.com-catalogue-category-books-romance_8-page-1.html',

 'output\\https---books.toscrape.com-catalogue-category-books_1-page-33.html',

 'output\\https---books.toscrape.com-catalogue-category-books_1-page-35.html',

 'output\\https---books.toscrape.com-catalogue-changing-the-game-play-by-play-2_317-index.html',

 'output\\https---books.toscrape.com-catalogue-dark-lover-black-dagger-brotherhood-1_319-index.html',

 'output\\https---books.toscrape.com-catalogue-grey-fifty-shades-4_592-index.html',

 'output\\https---books.toscrape.com-catalogue-harry-potter-and-the-chamber-of-secrets-harry-potter-2_325-index.html',

 'output\\https---books.toscrape.com-catalogue-harry-potter-and-the-half-blood-prince-harry-potter-6_326-index.html',

 'output\\https---books.toscrape.com-catalogue-harry-potter-and-the-order-of-the-phoenix-harry-potter-5_327-index.html',

 'output\\https---books.toscrape.com-catalogue-i-had-a-nice-time-and-other-lies-how-to-find-love-sht-like-that_814-index.html',

 'output\\https---books.toscrape.com-catalogue-keep-me-posted_594-index.html',

 'output\\https---books.toscrape.com-catalogue-meternity_478-index.html',

 'output\\https---books.toscrape.com-catalogue-page-33.html',

 'output\\https---books.toscrape.com-catalogue-page-35.html',

 'output\\https---books.toscrape.com-catalogue-paper-and-fire-the-great-library-2_339-index.html',

 'output\\https---books.toscrape.com-catalogue-soldier-talon-3_222-index.html',

 'output\\https---books.toscrape.com-catalogue-the-beast-black-dagger-brotherhood-14_342-index.html',

 'output\\https---books.toscrape.com-catalogue-the-rose-the-dagger-the-wrath-and-the-dawn-2_278-index.html',
 
 'output\\https---books.toscrape.com-catalogue-will-you-wont-you-want-me_644-index.html']
 ```

### Ejercicio extra de solución más abierta:

Haz ahora web scrapping para obtener un diccionario que contenga la siguiente información de cada libro que pertenezca a una lista de categorías: título, precio, disponibilidad, URL de la imagen, rating y URL del producto. Luego, almacena la información en un archivo CSV por categoría cuyo nombre tendrá el formato `categoria_numerolibros_books.csv` (p. ej. fiction_10_books.csv) y cuya primera línea contendrá los nombres de las columnas.

Ayudas:

- Ten en cuenta la estructura de las urls de los libros de una categoría. Por ejemplo, los de la categoría "fiction_10" tienen la siguiente URL: https://books.toscrape.com/catalogue/category/books/fiction_10/index.html
- Mira cómo se recorren las páginas dentro de una categoría: https://books.toscrape.com/catalogue/category/books/nonfiction_13/index.html
https://books.toscrape.com/catalogue/category/books/nonfiction_13/page-2.html
...
https://books.toscrape.com/catalogue/category/books/nonfiction_13/page-7.html -> provoca 404 Not Found
para eso puedes comprobar el atributo "status_code" de la respuesta de request.get(URL)


In [None]:
## BEGIN YOUR CODE
        
## END YOUR CODE