<a href="https://colab.research.google.com/github/cam2149/Extraction_Storage/blob/main/WebScraping_Practica_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


<font color="red">*Para iniciar, cree su propia copia de este notebook. File> Save a Copy in Drive*</font>


---
<font color="green">
Ten en cuenta los siguientes pasos:
1.    

1.   Ve al menú "Archivo" en la esquina superior izquierda de la interfaz de Colab.
2.   Selecciona la opción "Guardar una copia en Drive" del menú desplegable. Esto creará una copia del cuaderno en tu propia cuenta de Google Drive.
3. Google Colab abrirá automáticamente la nueva copia del cuaderno, y verás que ahora está ubicado en tu Google Drive en la carpeta "Colab Notebooks".
4. Puedes editar y ejecutar esta copia del cuaderno como desees, y todos los cambios que hagas se guardarán en tu propia cuenta de Google Drive.

</font>

#Web Scraping Práctica 1
**Página Books**

A continuación realizaremos la primer práctica de Web Scraping: Extracción de Datos en la Web, sobre un sitio de prueba de Web Scraping.

**1. Preparar  Colab**


In [None]:
# Collab trae estas librerías por defecto
!pip install requests
!pip install beautifulsoup4



**2. Importar la librerias**
* **Requests**: Esta librería permite realizar peticiones usando cualquiera de los métodos (get, post, put, delete, patch), envío de parámetros y modificaciones de las cabeceras.

* **BeautifulSoup o bs4**: es una librería que se utiliza para extraer datos de htmls y xml, esta librería nos facilitará el trabajo a la hora de extraer la información.

In [None]:
# Importar las librerías necesarias
import requests
from bs4 import BeautifulSoup

**3. Página Web objetivo**

Para nuestra práctica usaremos a la URL de un sitio web de demostración que está diseñado para practicar web scraping. No es un sitio comercial real, sino que es una plataforma creada para que desarrolladores y personas interesadas en aprender a realizar web scraping puedan hacerlo sin infringir políticas de uso de sitios web comerciales.
```
https://books.toscrape.com
```
***Características del sitio:***

*Catálogo de libros*: El sitio muestra una colección de libros con sus títulos, precios, categorías, clasificaciones y descripciones, simulando una tienda en línea de venta de libros.

*Práctica segura para scraping*: Como está diseñado para este propósito, puedes realizar scraping de sus páginas sin preocuparte por restricciones legales, ya que no tiene las mismas limitaciones que un sitio comercial real.

*Estructura HTML sencilla*: El sitio tiene una estructura HTML relativamente simple y es ideal para aprender cómo extraer datos como:
* Títulos de libros.
* Precios.
* Disponibilidad.
* Valoraciones (estrellas).



In [None]:
# Nuestra página objetivo
url_objetivo = "https://books.toscrape.com/"


**4. Obtener un request de la URL objetivo y comprobación de la respuesta**


```
site = requests.get(url_objetivo)

```
`requests.get(url_objetivo)`: Se envía una solicitud HTTP GET a la URL especificada (url_objetivo) para descargar el contenido de la página web.
La variable `site` contiene la respuesta del servidor, incluyendo el código de estado (status code) y el contenido de la página en formato HTML.

`if site.status_code == 200`: El código verifica si la solicitud fue exitosa. Un status_code 200 significa que la página fue encontrada correctamente (OK) y se puede proceder a trabajar con su contenido.
Si el código no fuera 200 (por ejemplo, un 404 o 500), significaría que hubo un error y no tendría sentido continuar con el scraping.



In [None]:
# Obtener un requests de la URL objetivo
site = requests.get(url_objetivo)

# Si el Status Code es OK!
if site.status_code == 200:
  # Hacer al Site un soup
  soup = BeautifulSoup(site.text)



**5. Convertir el contenido HTML en un objeto BautifulSoup**


```
soup = BeautifulSoup(site.text)

```

`BeautifulSoup(site.text)`: Convierte el contenido HTML obtenido (contenido de la página) en un objeto BeautifulSoup.

`site.text`: Es el contenido de la página en formato texto (el HTML).
`BeautifulSoup` permite analizar el contenido HTML y facilita el acceso a sus etiquetas y atributos.

**6. Obtener todas las etiquetas de enlace '< a >' en la web:**


```
tags = soup('a')

```

`soup('a')`: Busca todas las etiquetas < a > en el documento HTML. Las etiquetas < a > son usadas para crear enlaces (hipervínculos) en HTML.
Esta línea guarda una lista de todas las etiquetas < a > en la variable tags.

**7. Recorrer con un ciclo para imprimir el contenido de los enlaces:**


```
for tag in tags:
    print(tag.get('href'))
```


`for tag in tags:` Recorre cada etiqueta < a > (enlace) encontrada en el sitio.

`tag.get('href')`: Obtiene el valor del atributo href de cada etiqueta < a >. Este atributo contiene la URL a la que apunta el enlace.

`print(tag.get('href'))`: Imprime la URL del enlace en la consola. Si un enlace no tiene el atributo href, tag.get('href') devolverá None.

In [None]:

  # Obtener todas las etiquetas de enlace que hay en la web
  tags = soup('a')

  # Recorrer con un ciclo para imprimir el contenido
  for tag in tags:
      print(tag.get('href'))



In [None]:
  # Prueba la siguiente línea. Qué imprime?
  for tag in tags:
      print(tag.get_text())

**Actividad:**

Ahora que ya comprendiste el código, prueba imprimiendo otros elementos de este sitio.

Ej. `<title>, <h1>,  <div>`

Ingresa al sitio https://books.toscrape.com/ y con Ctrl+U puedes ver el contenido HTML de la página.

**Manejo de Excepciones:**

A continuación un ejemplo de manejo de excepciones de la Pag 8 de la lectura Your First Web Scraper.


In [None]:
#Ej manejo de excepciones Pag 8 de la lectura Your First Web Scraper

from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
try :
  html = urlopen ( 'https://books.toscrape.com/')
except HTTPError as e:
  print (e)
except URLError as e:
  print ( 'The server could not be found!')
# return null, break, or do some other "Plan B"
else :
# program continues. Note: If you return or break in the
# exception catch, you do not need to use the "else" statement
  print('Good job!')

**Consideraciones**:


*   Asegúrate de respetar el archivo robots.txt del sitio web que estás scrapeando, ya que podría tener directivas que limiten o prohíban el scraping.
*   Muchos sitios web tienen medidas de protección contra scraping, como bloqueos basados en la frecuencia de solicitudes o CAPTCHAs.





