### Instalando las dependencias ...

Durante la clase se estarán utilizando las siguientes bibliotecas:
- `requests` permite enviar solicitudes HTTP fácilmente.
- `beautifulsoup4` facilita la extracción de información sintáctica de páginas web analizando el HTML.
  
Compruebe que tenga las bibliotecas o instálelas.

In [None]:
!pip install beautifulsoup4 requests

# Laboratorio #7: Web Crawling y Web Scraping

Web crawling y Web scraping son dos términos relacionados pero distintos en el ámbito de la extracción de datos en la Web. 

**Web Crawling** (Rastreo web):
- Proceso automatizado de explorar la Web y recopilar información de diversas páginas web.
- Los programas son conocidos como "arañas" o "rastreadores web" y navegan por la web siguiendo enlaces de una página a otra.
- Tiene como objetivo principal indexar el contenido de la web para los motores de búsqueda, de forma que los motores de búsqueda puedan recopilar datos sobre páginas web y actualizar sus índices.
- Es un proceso más amplio que el scraping porque se enfoca en recorrer y descubrir nuevas páginas, en lugar de extraer datos específicos de las páginas.
  
**Web Scraping** (Extracción web):
- Proceso de extracción de datos específicos de páginas web.
- Se utiliza para recopilar información estructurada de una página web como: texto, imágenes, enlaces, precios de productos, documentos, enlaces, etc.
- A diferencia del rastreo web, este se centra en extraer información de páginas web específicas.
- Se utiliza en una variedad de casos de uso como la recopilación de datos para análisis, la monitorización de precios en línea, la investigación de mercado, entre otros.

Esta clase se enfocará en esos dos temas. Para ello tiene la siguiente problemática:
> Los profesores de la asignatura de SRI han decidido fundar una Mipyme para vender peluches de Pokemon porque se han percatado que MatCom es un nicho sin explotar. Como es un negocio emergente, se ha decido comprar los peluches en Inglaterra. Los precios de los peluches de Pokemon fluctúan en el mercado y se requiere recopilar datos para confeccionar estadísticas para asegurar y maximizar las ganancias de los profesores. 
>
> 
### Ejercicio #1:
Construya una tabla con los datos de cada Pokemon. Puede tomar la información de `https://scrapeme.live/shop/`. De cada peluche se quiere recuperar: nombre del Pokemon, precio en libras esterlinas, descripción, url donde está alojada una foto del Pokemon, url de donde se tomaron los datos.
Recuerde que la empresa es nueva por lo que tiene pocos recursos. Por tanto, es requerimiento:
- no visitar una página visitada anteriormente.
- no consultar páginas web fuera de la tienda.
- proceso solo se activará de forma manual.


In [None]:
from os.path import join
import csv

import requests
from bs4 import BeautifulSoup

### Pista #1:
Culmine de implementar la clase `MyQueue`, la cual definirá una política de ordenación de las URLs.

*¿Qué es la política de ordenación de URL?*

*¿Qué le aporta al crawler?*

In [None]:
class MyQueue:
    
    def __init__(self):
        """
        Initialize a new instance
        
        """
        raise Exception('Not Implemented')
        
    def pop(self):
        """
        Gets and returns an element

        Return:
            - t
            
        """
        raise Exception('Not Implemented')
        
    def add(self, elem):
        """
        Adds an element to the queue

        Arg:
            - elem (t) : Element to add.
            
        """
        raise Exception('Not Implemented')
            
    def __len__(self):
        """
        Returns the number of items stored

        Return:
            - int
            
        """
        return len(self._queue)

Función de regalo para almacenar datos en un fichero CSV. Luego de culminarse la clase, los profesores aprovecharán los datos recopilados para comenzar la inversión. 
# 😈💰

In [None]:
def write_to_csv(data, path='.', file_name='pokemon-products'):
    """
    Write data to a CSV file

    Arg:
        - products (list<dict>) : List of dictionaries. It is assumed that each dictionary has the same keys.

    """
    with open(join(path, file_name + '.csv'), 'w', newline='', encoding='utf-8') as csv_file:
        writer = csv.writer(csv_file)

        # Escribir encabezados (suponiendo que todos los productos tienen las mismas claves)
        if products:
            writer.writerow(products[0].keys())

        # Escribir los valores de los productos en el archivo CSV
        for product in products:
            writer.writerow(product.values())

In [None]:
# Lista para almacenar los datos extraídos de los productos de Pokemon
products = []

# URL base de la página web a scrapear
base_url = 'https://scrapeme.live/shop/'

# Inicialización de una cola para almacenar las URLs a visitar
urls = MyQueue()
urls.add('https://scrapeme.live/shop/') # Agregar la primera URL a la cola: conjunto semilla

La celda siguiente es para que implemente el proceso de recaudación de datos.

### Pista #2.x
1. Utilice la clase `MyQueue` para almacenar los hipervínculos extraídos de cada sitio web y extraer la página web a visitar.
   
2. La función `requests.get/1` dada una url, obtiene todo el código HTML de la página. Para obtener ese código basta consultarle la propiedad `content` a lo que retorna.
   
3. Utilizando `BeautifulSoup(contenido_html, 'html.parser')` obtienes un objeto cómodo para consultar el eodigo HTML cutilizando etiquetas y clases específicas.
   
4. Para obtener los enlaces de la página web puede hacer `soup.select('a[href]')`. De cada elemento que devuelva ese método, si desea manejar directamente el hipervínculo, indexe el objeto en `'href'`.
   
5. Para obtener el nombre del Pokemon puede hacer `soup.find('h1', class_='product_title entry-title').text`. 
   
6. Para obtener el precio del peluche puede hacer `soup.find('p', class_='price').text.strip()`.
   
7. Para obtener la descripción del juguete puede hacer `soup.find('div', class_='woocommerce-product-details__short-description').text.strip()`.
    
8.  Para obtener la imagen del Pokemon puede hacer `soup.select_one('.wp-post-image')['src']`.


### Pista #3:
Se recomienda:
- Discutir el flujo del proceso antes de implementarlo.
- Detener el proceso cuando `products` tenga 10 elementos porque la Mipyme aun no ha dado recompensas y los directivos no pagarán el uso de los datos móviles particulares.

In [None]:
raise Exception('Not Implemented')

In [None]:
# Escribir los productos extraídos en un archivo CSV
write_to_csv(products)

### Ejercicio #2:
a) ¿Cómo modificar el algoritmo para implementar la política de amabilidad? ¿Qué regla(s) implementarías?

b) ¿Tiene sentido implementar alguna política de revisitado? De ser positiva la respuesta, ¿cuál sería?

c) ¿La solución propuesta le otorga prioridad a las URLs para visitarlas?

d) ¿La solución propuesta contempla una demora entre cada pedido o consulta? De ser negativa la respuesta y teniendo en cuenta que eso implica que una carga excesiva para el servidos y puede bloquear el IP del proceso en el cual se ejecuta el crawler, ¿qué puede hacer para controlar esto?

e) ¿Existe algún mecanismo para extraer la información en un menor tiempo? ¿Qué problemas pueden crearse?

f) ¿El crawler es persistente y robusto?

Existe herramientas que permiten hacer estos procesos. Estas son:
- ZenRows: 
  - API integral de rastreo y raspado. 
  - Ofrece proxies rotativos, geolocalización, renderizado de JavaScript y bypass antibloqueo avanzado.
- Scrapy: 
  - Opción de biblioteca de rastreo en Python, muy poderosa para principiantes. 
  - Proporciona un marco de alto nivel para crear rastreadores escalables y eficientes.
- Selenium: 
  - Biblioteca popular de navegador para rastreo y raspado web. 
  - A diferencia de BeautifulSoup, puede interactuar con páginas web en un navegador como lo harían los usuarios humanos.
  - Está implementada para disímiles lenguajes de programación.