# Búsqueda y Recopilación de Datos (Parte 1)

![Web Scraping](http://unadocenade.com/wp-content/uploads/2012/09/cavalls-de-valltorta.jpg)

Bienvenidos a la primera parte de nuestro viaje al mundo del web scraping. El web scraping, también conocido como recolección web o extracción de datos web, es una técnica utilizada para extraer datos de sitios web. Este proceso implica obtener la página web y luego extraer datos de ella.

## ¿Por Qué Aprender Web Scraping?
Entender cómo raspar datos de la web es una habilidad valiosa para cualquier profesional de datos. En la era digital, los datos son el nuevo oro, y el web scraping es el equipo de minería. Aquí está el porqué es esencial:

- **Disponibilidad de Datos**: Internet es una vasta fuente de datos para todo tipo de análisis, desde tendencias del mercado hasta investigación académica.
- **Automatización**: El web scraping puede automatizar el proceso de recopilación de datos, ahorrando tiempo y esfuerzo.
- **Ventaja Competitiva**: En muchos campos, tener datos oportunos y relevantes puede ser un cambio de juego.

## Aplicaciones en el Mundo Real
- **Investigación de Mercado**: Analizar competidores, entender sentimientos de los clientes e identificar tendencias del mercado.
- **Comparación de Precios**: Agregar datos de precios de varios sitios web para comparación de compras.
- **Análisis de Redes Sociales**: Recopilar datos de redes sociales para análisis de sentimientos o detección de tendencias.

## Consideraciones Éticas en el Web Scraping

El web scraping, aunque es una técnica poderosa para la extracción de datos, viene con responsabilidades éticas y legales significativas. Como futuros científicos de datos y raspadores web, es crucial navegar este paisaje con una comprensión profunda y respeto por estas consideraciones.

### Respetando las Políticas de los Sitios Web y las Leyes

- **Adherencia a los Términos de Servicio**: Cada sitio web tiene su propio conjunto de reglas, generalmente delineadas en sus Términos de Servicio (ToS). Es importante leer y entender estas reglas antes de raspar, ya que violarlas puede tener implicaciones legales.

- **Siguiendo las Leyes de Derechos de Autor**: Los datos que raspa a menudo están protegidos por derechos de autor. Asegúrese de que su uso de los datos raspados cumpla con las leyes de derechos de autor y respete los derechos de propiedad intelectual.

- **Preocupaciones de Privacidad**: Tenga en cuenta los datos personales. Raspar y usar información personal sin consentimiento puede violar las leyes de privacidad y los estándares éticos.

### Ejemplo: Entendiendo el `robots.txt` de Google

El archivo `robots.txt` de Google es un excelente ejemplo de cómo los sitios web comunican sus políticas de raspado. Accesible en [Google's robots.txt](https://www.google.com/robots.txt), este archivo proporciona directivas a los rastreadores web sobre qué páginas pueden o no pueden raspar.

#### Implicaciones del `robots.txt` de Google

- **Acceso Selectivo**: Google permite que ciertas partes de su sitio sean rastreadas mientras restringe otras. Por ejemplo, generalmente se prohíbe rastrear las páginas de resultados de búsqueda.

- **Naturaleza Dinámica**: El contenido de los archivos `robots.txt` puede cambiar, reflejando la postura evolutiva del sitio web sobre el web scraping. Se necesitan chequeos regulares para cumplir.

- **Respetando los Límites**: Incluso si un archivo `robots.txt` permite el raspado de algunas páginas, no significa automáticamente que todas las actividades de raspado sean legal o éticamente aceptables. Es una guía, no un permiso general.

# 1. Introducción a la Búsqueda de Datos en la Era Digital

## La Evolución de la Obtención de Datos

En este curso, nos centramos en los datos como nuestro elemento fundamental. Tradicionalmente, los datos se han obtenido de formatos estructurados como hojas de cálculo de experimentos científicos o registros en bases de datos relacionales dentro de las organizaciones. Pero con la revolución digital, particularmente el advenimiento de internet, nuestro enfoque para la recopilación de datos debe evolucionar. Internet es un vasto reservorio de datos no estructurados, presentando tanto desafíos como oportunidades para la recuperación y análisis de datos.

## Entendiendo el Paisaje de los Datos Web

Al buscar datos en internet, es esencial considerar primero cómo el sitio web en cuestión proporciona acceso a sus datos. Muchos sitios web a gran escala como Google, Facebook y Twitter ofrecen una **Interfaz de Programación de Aplicaciones (API)**. Las API están diseñadas para facilitar el acceso fácil a los datos de un sitio web en un formato estructurado, simplificando el proceso de extracción de datos.

### El Papel de las API

- **APIs como Herramienta Primaria**: Una API actúa como un puente entre el buscador de datos y la base de datos del sitio web, permitiendo una recuperación de datos simplificada.
- **Limitaciones**: Sin embargo, no todos los sitios web proporcionan una API. Además, incluso cuando una API está disponible, puede no conceder acceso a todos los datos que un usuario podría necesitar.

### La Necesidad del Web Scraping

En casos donde una API está ausente o es insuficiente, recurrimos al **web scraping**. El web scraping implica extraer datos brutos directamente del frontend de un sitio web - esencialmente, la misma información presentada a los usuarios en sus navegadores web.

#### Sumergiéndose en el Scraping

- **Tratando con Datos No Estructurados**: El scraping nos obliga a interactuar con datos no estructurados, necesitando técnicas de codificación personalizadas y análisis de datos.
- **Consideraciones Legales y Éticas**: Es crucial abordar el web scraping con conciencia de las implicaciones legales y éticas, respetando las políticas del sitio web y la privacidad del usuario.


<img style="border-radius:20px;" src="./files/big_picture.jpg">

### Comenzando Nuestro Viaje

Nuestro primer paso práctico en este viaje será explorar cómo conectarnos a internet y recuperar una página web básica. Comenzaremos utilizando el módulo `urllib.request` de Python, una herramienta poderosa para interactuar con URLs y manejar solicitudes web.

Únete a nosotros mientras nos embarcamos en este emocionante viaje para dominar el arte de la búsqueda de datos en la era digital, donde navegaremos por las complejidades de las API, el web scraping y las consideraciones éticas que vienen con ellas.

In [9]:
# Import the 'urlopen' function from the 'urllib.request' module.
# This function is used for opening URLs, which is the first step in web scraping.
from urllib.request import urlopen

# Use the 'urlopen' function to open the URL 'http://www.google.com/'.
# The function returns a response object which can be used to read the content of the page.
# Here, 'source' is a variable that holds the response object from the URL.
source = urlopen("http://www.google.com/")

# Print the response object.
# This command does not print the content of the webpage.
# Instead, it prints a representation of the response object, 
# which includes information like the URL, HTTP response status, headers, etc.
print(source)

<http.client.HTTPResponse object at 0x000001FFC97A3C10>


Este fragmento de código demuestra el uso básico de la función `urlopen` para acceder a una página web. Sin embargo, es importante notar que `print(source)` no mostrará el contenido HTML de la página web, sino la representación del objeto de respuesta HTTP. Para ver el contenido real de la página, necesitarías leer del objeto `source` usando métodos como `source.read()`.

# Explorando el Contenido Recuperado por `urlopen`

Tras abrir una URL utilizando la función `urlopen` del módulo `urllib.request`, típicamente queremos acceder al contenido real de la página web. Aquí es donde `source.read()` entra en juego.

## Entendiendo `source.read()`

Cuando llamas a `urlopen`, devuelve un objeto HTTPResponse. Este objeto, que hemos nombrado `source` en nuestro ejemplo, contiene varios datos y metadatos sobre la página web. Para extraer el contenido HTML real de la página, utilizamos el método `read` en este objeto.

### ¿Qué Hace `source.read()`?

- **Recupera el Contenido de la Página Web**: `source.read()` lee el contenido completo de la página web a la que apunta la URL. Este contenido suele estar en formato HTML, que es el lenguaje estándar para crear páginas web.

- **Formato Binario**: Los datos recuperados están en formato binario. Para trabajar con ellos como una cadena en Python, podrías necesitar decodificarlos usando un método como `.decode('utf-8')`.

- **Operación de Única Vez**: Es importante notar que puedes leer el contenido de la respuesta solo una vez. Después de ejecutar `source.read()`, el objeto de respuesta no retiene el contenido de una forma legible. Si necesitas acceder al contenido de nuevo, debes reabrir la URL.

Aquí tienes un ejemplo simple para ilustrar esto:

In [None]:
#Let us check what is in
something = source.read()
print(something)

In [None]:
# Check type
type(something)

# Ejercicios de Calentamiento

¡Manos a la obra con algunos ejercicios iniciales para calentar con el web scraping!

## Ejercicios

1. **Verificación de Contenido en Python.org**: ¿Contiene [https://www.python.org](https://www.python.org) la palabra `Python`?  
   _Pista: Puedes usar la palabra clave `in` para verificar._

2. **Búsqueda de Imagen en Google.com**: ¿Contiene [http://google.com](http://google.com) una imagen?  
   _Pista: Busca la etiqueta `<img>`._

3. **Primeros Caracteres de Python.org**: ¿Cuáles son los primeros diez caracteres de [https://www.python.org](https://www.python.org)?

4. **Verificación de Palabra Clave en Pyladies.com**: ¿Está la palabra 'python' en [https://pyladies.com](https://pyladies.com)?

In [None]:
# EX1: Check if 'Python' is in the content of http://www.python.org/

# Import the urlopen function from the urllib.request module
# This function is used to open a URL and retrieve its contents
from urllib.request import urlopen

# Use the urlopen function to access the webpage at http://www.python.org/
# The function returns an HTTPResponse object which is stored in the variable 'source'
source = urlopen("http://www.python.org/")

# Read the content of the response object using the read() method
# The read() method retrieves the content of the webpage in binary format
# The binary content is then decoded to a string using the 'latin-1' encoding
# The decoded string is stored in the variable 'something'
something = source.read().decode('latin-1')

# Check if the word "Python" is in the decoded string
# This is done using the 'in' keyword, which checks for the presence of a substring in a string
# The result is a boolean value: True if "Python" is found, False otherwise
"Python" in something

# Note: The choice of 'latin-1' for decoding might not always be appropriate
# It's often better to use 'utf-8', which is a more common encoding for webpages
# For example: something = source.read().decode('utf-8')

In [None]:
# EX2: Check if 'https://www.google.com/' contains an image tag ("<img>")

# Import the urlopen function from the urllib.request module.
# This function is used to open a URL and retrieve its contents.
from urllib.request import urlopen

# Use the urlopen function to open the webpage at 'https://www.google.com/'.
# The function returns an HTTPResponse object, which we store in the variable 'source'.
source = urlopen("https://www.google.com/")

# Read the content of the response object using the read() method.
# The read() method retrieves the content of the webpage in binary format.
# After reading, the content is in bytes, which is not human-readable.
# We then decode this binary content into a string using the 'latin-1' encoding.
# The resulting string, which contains the HTML of the page, is stored in 'something'.
something = source.read().decode('latin-1')

# Check if the string "img" is in the decoded HTML content.
# This is a simple way to check if there is an <img> tag in the HTML,
# as "img" is part of the standard HTML tag for images.
# The result will be True if "img" is found (indicating the presence of an image),
# and False if not.
"img" in something

# Note: Decoding with 'latin-1' might not be suitable for all websites,
# especially if the website uses a different character set.
# 'utf-8' is a more commonly used encoding and is often a better choice.
# For instance: something = source.read().decode('utf-8')

In [None]:
# Now is your turn for EX3 and EX4

# Usando `urlopen` vs. `Request` en Web Scraping

Al realizar tareas de web scraping en Python, tienes la opción de usar la función `urlopen` del módulo `urllib.request` o el objeto `Request` en combinación con `urlopen`. Aquí explicaremos por qué podrías elegir un enfoque sobre el otro.

## Usando `urlopen` Directamente

**Ventajas**:

- **Simplicidad**: Es una forma directa de acceder a una página web y recuperar su contenido sin la necesidad de objetos adicionales o personalización.
  
- **Comportamiento Predeterminado**: `urlopen` utiliza la configuración predeterminada para la solicitud HTTP, lo cual es adecuado para muchos casos de uso comunes.

- **Conveniencia**: Para tareas simples de web scraping, proporciona una solución concisa y legible.

## Usando `Request` con `urlopen`

**Ventajas**:

- **Personalización**: Puedes establecer encabezados personalizados, utilizar diferentes métodos HTTP (por ejemplo, POST, PUT) y configurar opciones avanzadas como manejar redirecciones, cookies y tiempos de espera.

- **Control Detallado**: Ofrece mayor flexibilidad para manejar escenarios complejos.

En resumen, la elección entre usar `urlopen` directamente y crear un objeto `Request` depende de la complejidad de tu tarea de web scraping. Para tareas simples como obtener el contenido de una página web, `urlopen` a menudo es suficiente y más sencillo. Sin embargo, si necesitas personalizar encabezados, usar métodos HTTP que no sean GET, o manejar escenarios avanzados, crear un objeto `Request` permite un control detallado sobre tus solicitudes HTTP.

In [None]:
# Solution exercise 4
# import urllib
# url ='https://www.pyladies.com'
# req = urllib.request.Request(url, headers = {'User-Agent': 'Magic Browser'})
# con = urllib.request.urlopen(req)
# html = con.read().decode()

# 'Python' in html

# Crawling y Scraping: Revelando los Secretos de la Web

El rastreo y el scraping son dos técnicas fundamentales en el mundo de la adquisición de datos web. Forman la columna vertebral de muchas aplicaciones basadas en datos y son habilidades cruciales para analistas de datos y desarrolladores web.

## Crawling/Rastreo: Navegando por la Web

El rastreo, a menudo referido como crawling o scraping web, es el proceso de navegar sistemáticamente por la World Wide Web para recuperar páginas web. Piénsalo como un robot web o araña, incansablemente atravesando internet para descubrir e indexar contenido web. Esta técnica está en el corazón de motores de búsqueda como Google y Bing.

### ¿Por Qué Rastreamos?

El rastreo sirve varios propósitos importantes:

- **Indexación**: Permite a los motores de búsqueda indexar y catalogar páginas web, haciéndolas buscables por los usuarios.
  
- **Descubrimiento de Enlaces**: Los rastreadores extraen enlaces de páginas web, ayudando a construir una vasta red de recursos web interconectados. Esta estructura de enlaces es crucial para comprender la arquitectura de la web.
  
- **Recuperación de Datos**: Los rastreadores pueden raspar o extraer datos de páginas web, pero su objetivo principal es descubrir y navegar a otras páginas web.

## Scraping: Recolectando Datos

El scraping es el proceso de extraer datos o información específica de una sola página web. A diferencia del rastreo, que se centra en navegar por la web, el scraping se enfoca en una sola página web para recolectar datos valiosos.

### Casos de Uso del Scraping

El scraping se usa para una variedad de propósitos, tales como:

- **Extracción de Datos**: Nos permite extraer datos estructurados como precios de productos, titulares de noticias o información del mercado de valores de sitios web.

- **Monitoreo de Contenido**: El scraping se puede emplear para rastrear cambios en el contenido de páginas web específicas, como monitorear cambios de precios en sitios de comercio electrónico o seguir actualizaciones de noticias.

- **Análisis Competitivo**: Las empresas a menudo usan el scraping para recopilar datos sobre competidores, como estrategias de precios o listados de productos.

- **Investigación y Análisis**: Analistas de datos e investigadores usan el scraping para recopilar datos para estudios, informes y perspectivas basadas en datos.

## Sinergia entre Rastreo y Scraping

En la práctica, el rastreo y el scraping a menudo trabajan juntos. Los rastreadores recorren la web para encontrar nuevas páginas, y una vez que alcanzan una página de interés, se aplican técnicas de scraping para extraer datos valiosos. Esta sinergia es lo que potencia motores de búsqueda, agregadores de noticias y aplicaciones basadas en datos en internet.

## Conclusión

Entender los conceptos de rastreo y scraping es esencial para cualquiera que busque trabajar con datos web. Ya sea que desees construir un motor de búsqueda, reunir investigación de mercado o simplemente automatizar la recolección de datos, estas técnicas son tu puerta de entrada para desbloquear la riqueza de información disponible en la web.

**PROYECTO DE CALENTAMIENTO: Construyendo una Sencilla Araña Web**

En este proyecto de calentamiento, nos adentraremos en el mundo de las arañas web o rastreadores. Estos son programas especializados diseñados para explorar sistemáticamente la World Wide Web, recuperando páginas web y sus contenidos. Las arañas web juegan un papel crucial en varias aplicaciones, incluyendo la indexación de páginas web para motores de búsqueda, extracción de datos de sitios web y más. En este proyecto, nos centraremos en construir una araña web básica.

---

**Visión General del Proyecto:**

Una araña web, también conocida como rastreador web, es esencialmente un agente digital que navega por el vasto paisaje de internet. Su misión primaria es:

- Explorar la web siguiendo enlaces de una página web a otra.
- Recuperar contenido de páginas web.
- Almacenar datos valiosos para análisis u otros propósitos.

Piensa en ello como un explorador robótico, incansablemente recorriendo la web para recopilar información. En nuestro proyecto, apuntamos a crear una versión simplificada de tal araña web.

**Tareas Clave:**

1. **Identificando Enlaces**: El desafío inicial para nuestro rastreador es identificar qué enlaces debe seguir y explorar más a fondo. Considera cómo instruirías a la araña para localizar y rastrear estos enlaces dentro de una página web.

2. **Creando la Clase Spider**: Para dar vida a nuestra araña, comenzaremos creando una clase en Python adecuadamente llamada "Spider". Esta clase servirá como el motor central de nuestro rastreador web, y su constructor aceptará tres parámetros cruciales:
   - `starting_url`: La URL inicial desde la cual nuestra araña emprende su viaje.
   - `crawl_domain`: Una restricción de dominio para asegurar que solo se consideren enlaces relevantes para el rastreo.
   - `max_iter`: Un límite en el número máximo de elementos web que la araña recopilará.

3. **Método Principal: Spider.run()**: Para poner en movimiento nuestra araña, implementaremos un método llamado `run` dentro de la clase Spider. Este método orquestará las acciones de la araña, y es aquí donde delinearemos las funcionalidades básicas o bloques de construcción que empoderan a nuestro rastreador.

A través de este proyecto, ganarás experiencia práctica en la creación de una araña web simplificada, proporcionando una comprensión fundamental de las técnicas de rastreo web.

### Flujo de Trabajo del Proyecto de Scraping/Crawling Web

El scraping y crawling web involucran una serie de pasos para acceder, recuperar y procesar datos web de manera eficiente y responsable. El flujo de trabajo típico para tal proyecto incluye las siguientes etapas:

1. **Acceder a la Web (`Acceder web`)**:
   - El paso inicial es acceder a los sitios web objetivo(s) de los cuales se necesita raspar datos.
   - Esto implica enviar una solicitud HTTP y recibir la respuesta del servidor web.

2. **Descargar Contenido Web (`Bajar web`)**:
   - Una vez concedido el acceso, el siguiente paso es descargar el contenido de la página web.
   - Esto puede incluir HTML, CSS, JavaScript y archivos multimedia que componen la página web.

3. **Buscar Enlaces (`Buscar enlaces`)**:
   - Este paso implica analizar el contenido web descargado en busca de hipervínculos.
   - Los hipervínculos se identifican por la etiqueta HTML `<a href="...">` y son punteros a otras páginas web.

4. **Almacenar Contenido Web (`Almacenar web`)**:
   - El contenido web recuperado se almacena localmente para su procesamiento.
   - Este almacenamiento puede ser en forma de archivos crudos o formatos más estructurados como bases de datos.

5. **Almacenar Enlaces Extraídos (`Almacenar enlaces`)**:
   - Los hipervínculos extraídos también se almacenan.
   - Esto forma la base del proceso de rastreo, donde cada enlace se puede seguir para recuperar más contenido.

6. **Verificar la Calidad de los Enlaces (`Verificar enlaces de saldo`)**:
   - No todos los enlaces pueden ser relevantes o funcionales.
   - Este paso asegura que los enlaces almacenados sean válidos y conduzcan al contenido necesario.

In [None]:
# Importing necessary libraries
from urllib.request import urlopen  # For opening URLs
from urllib.error import HTTPError  # To handle HTTP errors
import time  # To implement delays if needed

In [22]:
# Function to extract links from HTML content
def getLinks(html, max_links=10):
    url = []  # List to store the extracted URLs
    cursor = 0  # Cursor to track position in HTML content
    nlinks = 0  # Counter for number of links extracted

    # Loop to extract links until the maximum is reached or no more links are found
    while (cursor >= 0 and nlinks < max_links):
        start_link = html.find("a href", cursor)  # Find the start of a link
        if start_link == -1:  # If no more links are found, return the list of URLs
            return url
        start_quote = html.find('"', start_link)  # Find the opening quote of the URL
        end_quote = html.find('"', start_quote + 1)  # Find the closing quote of the URL
        url.append(html[start_quote + 1: end_quote])  # Extract and append the URL to the list
        cursor = end_quote + 1  # Move the cursor past this URL
        nlinks += 1  # Increment the link counter

    return url  # Return the list of URLs

# Example usage:
# Suppose you have some HTML content stored in a variable `html_content`
# You would call the function like this:
# links = getLinks(html_content)
# This would return a list of URLs extracted from `html_content`

# Expected Output:
# The output will be a list containing up to `max_links` number of URLs extracted from the given HTML content.
# If the HTML content has fewer than `max_links` URLs, all found URLs will be included in the list.

In [26]:
# Define the Spider class for web crawling
class Spider:
    # Initializer or constructor for the Spider class
    def __init__(self, starting_url, crawl_domain, max_iter):
        self.crawl_domain = crawl_domain  # The domain within which the spider will crawl
        self.max_iter = max_iter  # The maximum number of pages to crawl
        self.links_to_crawl = [starting_url]  # Queue of links to crawl
        self.links_visited = []  # List to keep track of visited links
        self.collection = []  # List to store the collected data

    # Method to retrieve HTML content from a URL
    def retrieveHtml(self):
        try:
            # Open the URL and read the response
            socket = urlopen(self.url)
            # Decode the response using 'latin-1' encoding
            self.html = socket.read().decode('latin-1')
            return 0  # Return 0 if successful
        except HTTPError as e:
            # If an HTTP error occurs, print the error and return -1
            print(f"HTTP Error encountered: {e}")
            return -1

    # Main method to control the crawling process
    def run(self):
        # Continue to crawl while there are links to crawl and the max_iter is not reached
        while self.links_to_crawl and len(self.collection) < self.max_iter:
            # Get the next link to crawl
            self.url = self.links_to_crawl.pop(0)
            print(f"Currently crawling: {self.url}")
            # Add the link to the list of visited links
            self.links_visited.append(self.url)
            # If HTML retrieval is successful, store the HTML and find new links
            if self.retrieveHtml() >= 0:
                self.storeHtml()
                self.retrieveAndValidateLinks()

    # Method to retrieve and validate links in the HTML content
    def retrieveAndValidateLinks(self):
        # Get a list of links from the current HTML content
        items = getLinks(self.html)
        # Temporary list to store valid links
        tmpList = []

        # Iterate over the found links
        for item in items:
            item = item.strip('"')  # Remove any extra quotes
        
            # Check if the link is an absolute URL that contains the crawl domain
            if self.crawl_domain in item and item.startswith('http'):
                tmpList.append(item)
            # Handle relative links
            elif item.startswith('/'):
                # Construct the full URL using the crawl domain and relative link
                tmpList.append('https://' + self.crawl_domain + item)
            # Handle potential relative links without a leading slash (assuming they are not absolute URLs)
            elif not item.startswith('http'):
                # Construct the full URL assuming it is a relative link
                tmpList.append('https://' + self.crawl_domain + '/' + item)

        # Add valid, unvisited links to the crawl queue
        for item in tmpList:
            if item not in self.links_visited and item not in self.links_to_crawl:
                self.links_to_crawl.append(item)
                print(f'Adding to crawl queue: {item}')


    # Method to store HTML content and associated metadata
    def storeHtml(self):
        # Create a dictionary to represent the document
        doc = {
            'url': self.url,  # URL of the page
            'date': time.strftime("%d/%m/%Y"),  # Current date
            'html': self.html  # HTML content of the page
        }
        # Add the document to the collection
        self.collection.append(doc)
        print(f"Stored HTML from: {self.url}")

# Example usage of the Spider class:
# Initialize the spider with the starting URL, domain to crawl, and the maximum number of iterations.
# my_spider = Spider("http://www.example.com", "example.com", 20)

# Start the crawling process.
# my_spider.run()

# After running, my_spider.collection will contain up to 20 pages' HTML from 'example.com'.
# Each page's data includes the URL, the date when it was scraped, and the HTML content.


# Resumen de la Clase Spider para Rastreo Web

La clase `Spider` está diseñada para el proceso de rastreo web, que explora sistemáticamente la web para recopilar datos. A continuación, se presenta un resumen de sus funcionalidades clave:

## Inicialización
- La clase se inicializa con un `starting_url`, el dominio dentro del cual se rastreará (`crawl_domain`), y un número máximo de páginas a rastrear (`max_iter`).

## Proceso de Rastreo
- La araña mantiene una cola de enlaces (`links_to_crawl`) para visitar y una lista de enlaces ya visitados (`links_visited`).
- El método `run` procesa cada enlace en la cola, continuando hasta que la cola esté vacía o se alcance el límite de `max_iter`.

## Recuperación de Contenido HTML
- El método `retrieveHtml` abre cada enlace, lee su contenido y lo decodifica en un formato de cadena. Maneja casos de éxito y error durante este proceso.

## Extracción y Validación de Enlaces
- `retrieveAndValidateLinks` extrae nuevos enlaces del HTML de la página actual, los valida (asegurándose de que pertenezcan al dominio especificado) y agrega enlaces válidos y no visitados a la cola de rastreo.

## Almacenamiento de Datos
- El método `storeHtml` guarda el contenido HTML de cada página visitada, junto con la URL de la página y la fecha actual, en una colección para análisis o procesamiento posterior.

Esta clase permite la recopilación automatizada de datos de una serie de páginas web dentro de un dominio específico, gestionando eficientemente el descubrimiento de nuevas páginas para visitar basado en los enlaces de cada página.

Validemos el rastreador con el siguiente código:

In [None]:
# Assuming the Spider class is defined as before with getLinks function properly defined

# Example usage of the Spider class:

# Instantiate the Spider with the starting URL, the domain to crawl within, and the maximum number of iterations.
# The crawl domain is typically the base domain from which the crawler should not deviate.
spider = Spider('https://books.toscrape.com/', 'books.toscrape.com', 20)

# Start the crawling process.
spider.run()

# After running, `spider.collection` will contain the HTML content of up to 20 pages from 'ironhack.com'.
# Each entry in the collection will include the URL, the date when it was scraped, and the HTML content.

In [None]:
#How many elements does our colletion have?
len(spider.collection)

In [None]:
spider.collection[0]

In [None]:
#Enumerate the urls retreived
[spider.collection[i]['url'] for i in range(len(spider.collection))]

# Desafío para Pequeñas Empresas: Extracción de Datos de Productos de una Tienda en Línea Ficticia

## Objetivo
Tu tarea es realizar un análisis de productos recopilando datos de una tienda en línea simulada, como "Fake Store API" (https://fakestoreapi.com/). Este sitio web está diseñado para prácticas y ofrece un entorno seguro para el web scraping.

## Pasos
1. **Recopilación de Datos**:
   - Utiliza la clase `Spider` para rastrear el sitio web de "Fake Store API".
   - Recopila datos sobre productos, incluyendo nombres, categorías, precios y descripciones.

2. **Almacenamiento de Datos**:
   - Almacena los datos raspados en un formato estructurado, como un archivo CSV o una base de datos.

3. **Análisis**:
   - Analiza los datos recopilados para entender la distribución de productos a través de diferentes categorías, rangos de precios y otras métricas relevantes.

4. **Informe**:
   - Prepara un informe que resuma tus hallazgos, incluyendo perspectivas sobre tendencias de productos, estrategias de precios y popularidad de categorías.

## Tareas para los Estudiantes
- Trabajar en parejas para planificar y ejecutar el proceso de web scraping.
- Asegurar que se sigan prácticas éticas de scraping, incluyendo el adherirse a las directrices de `robots.txt` y limitar la tasa de solicitudes.
- Realizar un análisis exhaustivo de los datos recopilados y colaborar para crear un informe comprensivo.
- Presentar tus hallazgos en clase, destacando las perspectivas clave y las metodologías utilizadas.

## Resultado Esperado
Obtener experiencia práctica en web scraping, análisis de datos y presentación de hallazgos en un contexto empresarial. Este proyecto también mejorará tu comprensión de la dinámica del mercado de venta al por menor en línea.

In [None]:
# Tu codigo aquí

## 2. Uso de APIs para la Recuperación de Datos

### Entendiendo el Panorama General

Al tratar de recuperar datos específicos de un sitio web, es crucial primero verificar si el sitio ofrece una interfaz programática para consultar datos. Estas interfaces, conocidas como Interfaces de Programación de Aplicaciones (APIs), proporcionan una forma más eficiente y estructurada de acceder a los datos en comparación con el web scraping.

### La Ventaja de las APIs

Las APIs, especialmente las APIs RESTful, ofrecen un método bien definido para interactuar con servicios web. Están construidas sobre un conjunto de reglas y estándares que permiten la recuperación de datos de manera predecible y sencilla. Esto es lo que caracteriza a una API RESTful:

- **URI Base**: Cada API RESTful tiene un Identificador de Recursos Uniforme (URI) base, que sirve como punto de entrada para la API. Por ejemplo, `http://ejemplo.com/recursos/` podría ser un URI base.

- **Tipo de Medio de Internet**: Las APIs RESTful a menudo devuelven datos en un formato específico, como JSON (Notación de Objetos de JavaScript), que se utiliza ampliamente debido a su simplicidad y legibilidad. Sin embargo, otros formatos como XML, Atom o incluso imágenes pueden ser utilizados.

- **Métodos HTTP Estándar**: Estas APIs aprovechan los métodos HTTP estándar para operaciones:
    - `GET`: Recuperar datos del servidor (por ejemplo, una lista de productos).
    - `PUT`: Actualizar datos existentes o crear nuevos datos si no existen, y es una operación idempotente (repetir la solicitud resulta en el mismo estado).
    - `POST`: Crear nuevos datos o actualizar datos existentes (no idempotente).
    - `DELETE`: Eliminar datos.

- **Enlaces de Hipertexto para Estado y Navegación**: Las APIs RESTful a menudo usan enlaces de hipertexto (URLs) para representar el estado actual de una aplicación o para navegar entre recursos relacionados.

### Uso de APIs con Autenticación

Muchas APIs RESTful requieren autenticación por razones de seguridad. Esto generalmente se hace enviando un token o clave con tu solicitud de API, lo cual verifica tu identidad y autoriza tu acceso a la API. El proceso para obtener y usar tokens de autenticación varía entre APIs, por lo que es esencial referirse a la documentación específica de la API para obtener orientación.

### Resumen

Aprovechar las APIs para la recuperación de datos no solo se alinea con las prácticas web éticas sino que también asegura una forma más estable y eficiente de acceder a los datos. Cuando una API está disponible, generalmente es el método preferido sobre el web scraping.

## Ejemplo: Obtener Datos del Clima Usando la API de OpenWeatherMap en Python

Este ejemplo demuestra cómo usar la API de OpenWeatherMap para obtener datos meteorológicos actuales para una ciudad específica usando Python.

### Prerrequisitos
- Una clave API de OpenWeatherMap.
- La biblioteca `requests` de Python instalada. (Instalar a través de `pip install requests` si es necesario.)

### Pasos a Seguir
1. **Registrarse para la API de OpenWeatherMap**:
   - Regístrate para obtener una cuenta en [OpenWeatherMap](https://openweathermap.org/api).
   - Obtén tu clave API gratuita (nota que podría haber un retraso de activación).

2. **Script de Python para la Recuperación de Datos Meteorológicos**:
   - El script utiliza la biblioteca `requests` para realizar una llamada API.
   - Reemplaza `'TU_CLAVE_API'` con tu clave API de OpenWeatherMap real.
   - Reemplaza `'NOMBRE_CIUDAD'` con el nombre de tu ciudad deseada.

In [None]:
import requests

def get_weather(api_key, city):
    base_url = "http://api.openweathermap.org/data/2.5/weather?"
    city_name = city
    complete_url = f"{base_url}appid={api_key}&q={city_name}"
    response = requests.get(complete_url)
    return response.json()

# Replace 'YOUR_API_KEY' with your actual API key and 'CITY_NAME' with your city
api_key = 'YOUR_API_KEY'
city_name = 'CITY_NAME'
weather_data = get_weather(api_key, city_name)

print(f"Weather in {city_name}:")
print(weather_data)

### Expected Output
The script will output the current weather data in JSON format, which includes temperature, humidity, weather description, etc.

### Note
- Ensure you replace `'YOUR_API_KEY'` and `'CITY_NAME'` with your actual API key and desired city.
- The OpenWeatherMap API provides data in various formats and details. You might want to explore their documentation for more specific use cases.


# Desafío: Analizando Tendencias de Hashtags en Instagram con Instaloader

## Objetivo
Aprovechar `Instaloader`, una biblioteca de Python, para descargar publicaciones asociadas con un hashtag específico en Instagram. Analiza los datos recopilados para identificar tendencias, contenido popular y compromiso del usuario.

## Pasos

### 1. Instalar Instaloader
- Asegúrate de que Python esté instalado en tu sistema.
- Instala `Instaloader` usando pip: `pip install instaloader`

### 2. Recolección de Datos
- Elige un hashtag relevante para un tema de interés (por ejemplo, #naturaleza, #viaje, #comida).
- Usa `Instaloader` para descargar publicaciones etiquetadas con el hashtag elegido. Considera limitaciones como el número de publicaciones para evitar sobrecargar la API.

```python
import instaloader

L = instaloader.Instaloader()
posts = instaloader.Hashtag.from_name(L.context, 'TU_HASHTAG').get_posts()

for post in posts:
    # Agrega código para procesar y almacenar detalles de la publicación
```
### 3. Análisis de Datos
Analiza los datos descargados para:
- Tendencias populares en el hashtag.
- Temas o sujetos comunes en imágenes o subtítulos.
- Niveles de compromiso del usuario (me gusta, comentarios).

### 4. Reporte
- Compila tus hallazgos en un informe.
- Incluye representaciones visuales (gráficos, nubes de palabras) para ilustrar las tendencias clave.

### Notas Importantes
- Respeta los términos de servicio de Instagram y las directrices éticas en el scraping de datos.
- Ten en cuenta la privacidad y el consentimiento, especialmente con el contenido generado por el usuario.
- El alcance de la recolección de datos debe ser limitado para fines educativos.

### Resultado Esperado
Este desafío tiene como objetivo proporcionar experiencia práctica con Instaloader, desarrollar habilidades de análisis de datos y ofrecer perspectivas sobre tendencias en redes sociales y comportamiento del usuario.

In [None]:
# Tu codigo aquí