
# **Web scraping con Python**



# **Hoja de ruta**

## 1. Pedidos HTTP con **Requests**
## 2. Uso basico de **APIs**
## 3. Web Scraping con **Beautiful Soup**






# **1. Pedidos HTTP con Requests**


Cuando trabajas con requests en Python para scrapear datos, estás interactuando con el servidor mediante las solicitudes HTTP (HTTP requests). Estas solicitudes permiten obtener, enviar, modificar o borrar datos según el tipo de petición que realices. A continuación, te explico los principales métodos que puedes usar con el módulo requests, enfocados en la tarea de scraping.


---

Principales tipos de solicitudes HTTP

## **1.1 GET:**


*   Usado para obtener datos de un servidor.
*   Es el más común para scrapear datos de una página web.
*   No modifica datos en el servidor, solo los recupera.



In [2]:
import requests
import json

In [3]:
# Hacemos un pedido a la página de wikipedia
URL = 'https://es.wikipedia.org/'

# Guardamos el objeto que nos devuelve
respuesta = requests.get(URL)

# print(f'Tipo de Objeto: {type(respuesta)} \n')
# print(f'Código de estado: {respuesta.status_code} \n')
print(f'Data: {respuesta.text} \n')

Data: <!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-disabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-toc-not-available" lang="es" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clien

## **1.2 Headers**

A menudo, los servidores usan encabezados (headers) y cookies para identificar a los usuarios y controlar el acceso. Puedes añadir estos datos en tus solicitudes.

El objeto `Response` de `requests` tiene los siguientes elementos principales:

* `.text`
* `.content`
* `.json()`
* `.status_code`

Los **headers** son metadatos adicionales que el cliente (en este caso, tu script) envía al servidor para proporcionar información sobre sí mismo o sobre la solicitud.
Los headers son importantes para:

*   Evitar bloqueos por parte del servidor.
*   Simular un navegador para que el servidor no detecte tu script como un bot.

In [4]:
URL = 'https://scrapepark.org/courses/spanish/'

headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0',
    "Accept-Language": "en-US,en;q=0.9"
}
respuesta = requests.get(URL, headers=headers)
print(respuesta.text)  # Muestra el contenido de la página web

<!DOCTYPE html>
<html lang="es">

  <head>
    <!-- Basic -->
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <!-- Mobile Metas -->
    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">
    <!-- Site Metas -->
    <meta name="keywords" content="">
    <meta name="description" content="">
    <meta name="author" content="">
    <link rel="shortcut icon" href="images/favicon.svg" type="">
    <title>ScrapePark.org</title>
    <!-- bootstrap core css -->
    <link rel="stylesheet" type="text/css" href="css/bootstrap.css">
    <!-- font awesome style -->
    <link href="css/font-awesome.min.css" rel="stylesheet">
    <!-- Custom styles for this template -->
    <link href="css/style.css" rel="stylesheet">
    <!-- responsive style -->
    <link href="css/responsive.css" rel="stylesheet">
  </head>

  <body>
    <div class="hero-area">
      <!-- header section strats -->
      <header class="header-section">
    

In [5]:
respuesta.text

'<!DOCTYPE html>\r\n<html lang="es">\r\n\r\n  <head>\r\n    <!-- Basic -->\r\n    <meta charset="utf-8">\r\n    <meta http-equiv="X-UA-Compatible" content="IE=edge">\r\n    <!-- Mobile Metas -->\r\n    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\r\n    <!-- Site Metas -->\r\n    <meta name="keywords" content="">\r\n    <meta name="description" content="">\r\n    <meta name="author" content="">\r\n    <link rel="shortcut icon" href="images/favicon.svg" type="">\r\n    <title>ScrapePark.org</title>\r\n    <!-- bootstrap core css -->\r\n    <link rel="stylesheet" type="text/css" href="css/bootstrap.css">\r\n    <!-- font awesome style -->\r\n    <link href="css/font-awesome.min.css" rel="stylesheet">\r\n    <!-- Custom styles for this template -->\r\n    <link href="css/style.css" rel="stylesheet">\r\n    <!-- responsive style -->\r\n    <link href="css/responsive.css" rel="stylesheet">\r\n  </head>\r\n\r\n  <body>\r\n    <div class="hero-area">\

Veamoslo en la práctica utilizando la siguiente web: http://httpbin.org/headers (útil para testear pedidos HTTP).


In [6]:
URL = 'http://httpbin.org/headers'
resp = requests.get(URL)

print('Respuesta sin headers:')
print(resp.text)

Respuesta sin headers:
{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.32.3", 
    "X-Amzn-Trace-Id": "Root=1-6788ea1f-1a5ec40865c032bd3eeefd3a"
  }
}



In [7]:
print('Respuesta con headers:')
nuestros_headers = {
    'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
    }
resp_con_headers = requests.get(URL, headers = nuestros_headers)
print(resp_con_headers.text)

Respuesta con headers:
{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-6788ea21-0b560e9252764c7f40a0a803"
  }
}



# **2. Uso basico de APIs**

### 2.1 Uso de API de manera directa

[Sunset and sunrise times API](https://sunrise-sunset.org/api)

**Sirve para obtener la hora del amanecer y el ocaso de un determinado día**

*Parámetros:*


*  **lat** (float): Latitud en grados decimales(Obligatorio)
*  **lng** (float): Longitud en grados decimales (obligatorio)
*  **date** (string): Fecha en formato AAAA-MM-DD (opcional, por defecto usa el día actual)

*Estructura de la query:*

`https://api.sunrise-sunset.org/json?`

`lat=36.7201600`

`&`

`lng=-4.4203400`

`&`

`date=2021-07-26`

In [8]:
# Definimos los parametros de nuestra query
latitud = 36.7383043
longitud = -4.5524951
fecha = '2024-01-08' # AAAA-MM-DD

In [9]:
# Hacemos el pedido y guardamos la respuesta en una nueva variable
respuesta_sunset = requests.get(f'https://api.sunrise-sunset.org/json?lat={latitud}&lng={longitud}&date={fecha}')

In [10]:
type(respuesta_sunset)

requests.models.Response

In [11]:
# Para des-serializar el objeto (que era tipo 'HTTPResponse') y cargarlo como json
datos_sunset = respuesta_sunset.json()
print(datos_sunset)


{'results': {'sunrise': '7:29:38 AM', 'sunset': '5:19:45 PM', 'solar_noon': '12:24:42 PM', 'day_length': '09:50:07', 'civil_twilight_begin': '7:02:36 AM', 'civil_twilight_end': '5:46:47 PM', 'nautical_twilight_begin': '6:30:29 AM', 'nautical_twilight_end': '6:18:54 PM', 'astronomical_twilight_begin': '5:59:11 AM', 'astronomical_twilight_end': '6:50:12 PM'}, 'status': 'OK', 'tzid': 'UTC'}


In [12]:
print(type(datos_sunset))
print(datos_sunset.keys())

<class 'dict'>
dict_keys(['results', 'status', 'tzid'])


In [None]:
# Evaluamos el status del pedido
sunset_status = datos_sunset['status']
print(f'Status: {sunset_status}')

Status: OK


In [13]:
datos_sunset['results']['sunset']

'5:19:45 PM'

In [14]:
# Podemos ver su contenido ya que es son diccionarios anidados:
sunset = datos_sunset['results']['sunset']
print(f'El {fecha} el sol se ocultó a las {sunset} (UTC)')

El 2024-01-08 el sol se ocultó a las 5:19:45 PM (UTC)


In [15]:
# tambien podriamos iterar sobre sus claves
print("Iterando data_sunset['results']:")
for elemento in datos_sunset['results']:
  print(elemento)

Iterando data_sunset['results']:
sunrise
sunset
solar_noon
day_length
civil_twilight_begin
civil_twilight_end
nautical_twilight_begin
nautical_twilight_end
astronomical_twilight_begin
astronomical_twilight_end


### **2.2 Uso de API por medio de una librería: Wikipedia**

Wikipedia-API es un *wrapper* de Python fácil de usar para la API de Wikipedia. Admite la extracción de textos, secciones, enlaces, categorías, traducciones, etc.

Repositorio: https://github.com/martin-majlis/Wikipedia-API

Documentación: https://wikipedia-api.readthedocs.io/en/latest/README.html






In [16]:
# Instalamos el paquete porque no viene con Colab
!pip3 install --force-reinstall -v  "wikipedia-api==0.5.8"

Using pip 24.3.1 from C:\Users\alfre\AppData\Local\Programs\Python\Python311\Lib\site-packages\pip (python 3.11)
Collecting wikipedia-api==0.5.8
  Obtaining dependency information for wikipedia-api==0.5.8 from https://files.pythonhosted.org/packages/59/41/1bfbebe5574ee39603f677d3534e4ff9ca3683a97388bd7e92c7fba081e1/Wikipedia_API-0.5.8-py3-none-any.whl.metadata
  Downloading Wikipedia_API-0.5.8-py3-none-any.whl.metadata (22 kB)
Collecting requests (from wikipedia-api==0.5.8)
  Obtaining dependency information for requests from https://files.pythonhosted.org/packages/f9/9b/335f9764261e915ed497fcdeb11df5dfd6f7bf257d4a6a2a686d80da4d54/requests-2.32.3-py3-none-any.whl.metadata
  Using cached requests-2.32.3-py3-none-any.whl.metadata (4.6 kB)
Collecting charset-normalizer<4,>=2 (from requests->wikipedia-api==0.5.8)
  Obtaining dependency information for charset-normalizer<4,>=2 from https://files.pythonhosted.org/packages/1e/ab/45b180e175de4402dcf7547e4fb617283bae54ce35c27930a6f35b6bef15/cha

  You can safely remove it manually.


In [17]:
# Ahora si podemos importarlo
import wikipediaapi

# Chequear versión
print(wikipediaapi.__version__)

(0, 5, 8)


In [18]:
# Instanciamos la clase wikipediaapi y utilizamos el metodo Wikipedia con el parametro de idioma
IDIOMA = 'es'
wiki_wiki = wikipediaapi.Wikipedia(IDIOMA)

# Usamos el metodo page y hacemos un pedido con una palabra clave
PALABRA_CLAVE = 'accenture'
wikipedia_programacion = wiki_wiki.page(PALABRA_CLAVE)

print(f'wikipedia_accenture es un objeto de tipo: \n \n{type(wikipedia_programacion)}')

wikipedia_accenture es un objeto de tipo: 
 
<class 'wikipediaapi.WikipediaPage'>


In [19]:
# Resumen
print(wikipedia_programacion.title)
print(' ')
print(wikipedia_programacion.summary)

accenture
 
Accenture Limited es una empresa multinacional de consultoría estratégica, servicios tecnológicos y externalización (outsourcing). Fue constituida en Hamilton, Bermudas, aunque el día 26 de mayo de 2009 se anunció la aprobación por parte del comité ejecutivo del traslado de su domicilio social a Irlanda. La revista Fortune la incluyó en su lista de las 500 mayores empresas en nivel de ingresos,[2]​ cuenta con más de 730.000 empleados en 120 países, en octubre de 2015 empleaba solo en España a unos 10 000 profesionales.[3]​ En el año fiscal finalizado el 31 de agosto de 2010, la compañía declaró unos ingresos netos de 23.090 millones de dólares estadounidenses.[4]​


In [20]:
# Url completa
print(wikipedia_programacion.fullurl)

https://es.wikipedia.org/wiki/Accenture


# **3. BeautifulSoup**

**Beautiful Soup** es una popular biblioteca de Python utilizada para analizar (parsear) documentos HTML y XML, facilitando la extracción de datos estructurados desde páginas web.

Diseñada para integrarse con bibliotecas como requests, permite a los desarrolladores realizar web scraping de manera eficiente, navegando a través de etiquetas y atributos de HTML como si fueran nodos en un árbol.

Con su enfoque simple y poderoso, es ideal para buscar, filtrar y manipular contenido en páginas estáticas, convirtiéndose en una herramienta imprescindible en proyectos de minería de datos, investigación o automatización web.

Documentación oficial: https://beautiful-soup-4.readthedocs.io/en/latest/

## **Generalidades**

Vamos a practicar con https://scrapepark.org/spanish/


In [22]:
from bs4 import BeautifulSoup
import requests

In [23]:
# Versiones
import bs4 # Solo para el chequeo
print("Versión de BeautifulSoup:",bs4.__version__)
print("Versión de requests:", requests.__version__)

Versión de BeautifulSoup: 4.12.3
Versión de requests: 2.32.3


In [None]:
# En caso de no tener la versión que se usa en este curso
!pip3 install beautifulsoup4==4.11.2
!pip3 install requests==2.27.1

Collecting requests==2.27.1
  Downloading requests-2.27.1-py2.py3-none-any.whl (63 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m63.1/63.1 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting urllib3<1.27,>=1.21.1 (from requests==2.27.1)
  Downloading urllib3-1.26.18-py2.py3-none-any.whl (143 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m143.8/143.8 kB[0m [31m7.2 MB/s[0m eta [36m0:00:00[0m
Collecting charset-normalizer~=2.0.0 (from requests==2.27.1)
  Downloading charset_normalizer-2.0.12-py3-none-any.whl (39 kB)
Installing collected packages: urllib3, charset-normalizer, requests
  Attempting uninstall: urllib3
    Found existing installation: urllib3 2.0.7
    Uninstalling urllib3-2.0.7:
      Successfully uninstalled urllib3-2.0.7
  Attempting uninstall: charset-normalizer
    Found existing installation: charset-normalizer 3.3.2
    Uninstalling charset-normalizer-3.3.2:
      Successfully uninstalled charset-normalizer-3.3

In [24]:
# Empezamos el scraping

# 1. Obtener el HTML
URL_BASE = 'https://elfarodeceuta.es/convocan-concurso-direcciones-seis-centros-educativos/'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser")

Toma el HTML descargado (html_obtenido) y lo analiza (“parsea”).

Esto organiza el HTML como un árbol estructurado que permite acceder y manipular los elementos HTML más fácilmente.

In [25]:
type(soup)
print(soup)


<!DOCTYPE html>

<!--[if lt IE 7]> <html class="no-js lt-ie9 lt-ie8 lt-ie7" lang="es"> <![endif]-->
<!--[if IE 7]>    <html class="no-js lt-ie9 lt-ie8" lang="es"> <![endif]-->
<!--[if IE 8]>    <html class="no-js lt-ie9" lang="es"> <![endif]-->
<!--[if IE 9]>    <html class="no-js lt-ie10" lang="es"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js" lang="es"> <!--<![endif]-->
<head>
<!-- Google tag (gtag.js) INDIVIDUAL -->
<script async="" src="https://www.googletagmanager.com/gtag/js?id=G-7MR21LQ3S8"></script>
<script>
  window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());

  gtag('config', 'G-7MR21LQ3S8');
</script>
<!-- Google tag (gtag.js) AGREGADO -->
<script async="" src="https://www.googletagmanager.com/gtag/js?id=G-8542YFL3C1"></script>
<script>
  window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());

  gtag('config', 'G-8542YFL3C1');
</script>
<met

## **El método `find()`**

Nos permite quedarnos con la información asociada a una etiqueta de HTML

In [26]:
primer_h2 = soup.find('h2')
print(primer_h2)

<h2 class="jeg_post_subtitle">La relación de vacantes incluye los CEIP Príncipe Felipe, Reina Sofía, Ramón y Cajal y Vicente Aleixandre; el IES Almina y la Escuela de Arte</h2>


In [27]:
# Solo el texto
print(primer_h2.text)

# equivalente a:
# print(soup.h2.text)

La relación de vacantes incluye los CEIP Príncipe Felipe, Reina Sofía, Ramón y Cajal y Vicente Aleixandre; el IES Almina y la Escuela de Arte


## **El método `find_all()`**

Busca **TODOS** los elementos de la página con esa etiqueta y devuelve una "lista" que los contiene (en realidad devuelve un objeto de la clase *bs4.element.ResultSet*).

In [28]:
h2_todos = soup.find_all('h2')
print(h2_todos)

[<h2 class="jeg_post_subtitle">La relación de vacantes incluye los CEIP Príncipe Felipe, Reina Sofía, Ramón y Cajal y Vicente Aleixandre; el IES Almina y la Escuela de Arte</h2>, <h2>Presentación de un proyecto de dirección</h2>]


In [29]:
# ARGUMENTOS
# Si usamos el parametro limit = 1, emulamos al metodo find
h2_uno_solo = soup.find_all('h2',limit=1)
print(h2_uno_solo)

[<h2 class="jeg_post_subtitle">La relación de vacantes incluye los CEIP Príncipe Felipe, Reina Sofía, Ramón y Cajal y Vicente Aleixandre; el IES Almina y la Escuela de Arte</h2>]


In [30]:
# Podemos iterar sobre el objeto
for seccion in h2_todos:
  print(seccion.text)

La relación de vacantes incluye los CEIP Príncipe Felipe, Reina Sofía, Ramón y Cajal y Vicente Aleixandre; el IES Almina y la Escuela de Arte
Presentación de un proyecto de dirección


In [31]:
# get_text() para más funcionalidades
for seccion in h2_todos:
  print(seccion.get_text(strip=True))

La relación de vacantes incluye los CEIP Príncipe Felipe, Reina Sofía, Ramón y Cajal y Vicente Aleixandre; el IES Almina y la Escuela de Arte
Presentación de un proyecto de dirección


## **Utilizando atributos de las etiquetas**



In [32]:
# Clase
divs = soup.find_all('div', class_ = "heading-container heading-center")

for div in divs:
  print(div)
  print(" ")

In [33]:
# Todas las etiquetas que tengan el atributo "src"
src_todos = soup.find_all(src=True)

for elemento in src_todos:
  if elemento['src'].endswith(".jpg"):
    print(elemento)


In [34]:
#@title Ejercicio: Bajar todas las imagenes!

url_imagenes = []

for i, imagen in enumerate(src_todos):

  if imagen['src'].endswith('.png'):

    print(imagen['src'])
    r = requests.get(f"https://elfarodeceuta.es/chicos-doble-probabilidad-repetir-curso-chicas/{imagen['src']}")

    with open(f'imagen_{i}.png', 'wb') as f:
      f.write(r.content)

https://elfarodeceuta.es/wp-content/uploads/2018/05/cabecera-ceuta-azul-x2.png
https://elfarodeceuta.es/wp-content/uploads/2018/05/cabecera-ceuta-blanca-x1.png
https://elfarodeceuta.es/wp-content/themes/jnews/assets/img/jeg-empty.png
https://elfarodeceuta.es/wp-content/themes/jnews/assets/img/jeg-empty.png
https://elfarodeceuta.es/wp-content/themes/jnews/assets/img/jeg-empty.png
https://elfarodeceuta.es/wp-content/themes/jnews/assets/img/jeg-empty.png


## **Tablas**

In [35]:
soup.find_all('iframe')[0]['src']

IndexError: list index out of range

In [36]:
# Información de tablas

URL_BASE = 'https://scrapepark.org/spanish/'
URL_TABLA = soup.find_all('iframe')[0]['src']

request_tabla = requests.get(f'{URL_BASE}/{URL_TABLA}')

html_tabla = request_tabla.text
soup_tabla = BeautifulSoup(html_tabla, "html.parser")
soup_tabla.find('table')

productos_faltantes = soup_tabla.find_all(['th', 'td'], attrs={'style':'color: red;'})
productos_faltantes = [talle.text for talle in productos_faltantes]

print(productos_faltantes)

IndexError: list index out of range

In [37]:
divs = soup.find_all('div', class_='detail-box')
productos = []
precios = []

for div in divs:
  if (div.h6 is not None) and ('Patineta' in div.h5.text):
    producto = div.h5.get_text(strip=True)
    precio = div.h6.get_text(strip=True).replace('$', '')
    # Se puede agregar filtros
    print(f'producto: {producto:<20} | precio: {precio}')
    productos.append(producto)
    precios.append(precio)

In [38]:
precios

[]

In [39]:
productos

[]

## **Cambios que dependen de la URL**

In [40]:
URL_BASE = "https://scrapepark.org/courses/spanish/contact"

for i in range(1,3):
  URL_FINAL = f"{URL_BASE}{i}"
  print(URL_FINAL)
  r = requests.get(URL_FINAL)
  soup = BeautifulSoup(r.text, "html.parser")
  print(soup.h5.text)

https://scrapepark.org/courses/spanish/contact1
Texto que cambia entre páginas en contacto 1 :)
https://scrapepark.org/courses/spanish/contact2
Texto que cambia entre páginas en contacto 2 :)


## **Datos que no sabemos en que parte de la página se encuentran**

In [41]:
# Expresiones regulares
import re

# 1. Obtener el HTML
URL_BASE = 'https://scrapepark.org/courses/spanish'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser")

telefonos = soup.find_all(string=re.compile("\d+-\d+-\d+"))
telefonos

[' 4-444-4444']

## **Moviéndonos por el árbol**

Para saber más: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree

In [42]:
copyrights = soup.find_all(string=re.compile("©"))
copyrights[0]

'© 2022 '

In [43]:
primer_copyright = copyrights[0]
primer_copyright.parent

<p>© 2022 <span>Todos los derechos reservados</span>.
        <a href="https://html.design/" rel="noopener noreferrer" target="_blank">Creado con Free Html Templates</a>.
      </p>

In [44]:
# # Otro ejemplo con elementos al mismo nivel
menu = soup.find(string=re.compile("MENÚ"))
# menu.parent
menu.parent.find_next_siblings()

[<ul>
 <li><a href="#">Inicio</a></li>
 <li><a href="#">Acerca</a></li>
 <li><a href="#">Servicios</a></li>
 <li><a href="#">Testimonios</a></li>
 <li><a href="#">Contacto</a></li>
 </ul>]

## **Comentario sobre excepciones**
https://docs.python.org/es/3/tutorial/errors.html

In [45]:
strings_a_buscar = ["MENÚ", "©", "carpincho", "Patineta"]

for string in strings_a_buscar:
  try:
    resultado = soup.find(string=re.compile(string))
    print(resultado.text)
  except AttributeError:
    print(f"El string '{string}' no fue encontrado")

MENÚ
© 2022 
El string 'carpincho' no fue encontrado

                  Patineta Nueva 1
                


## **Almacenamiento de los datos**

In [46]:
productos.insert(0, "productos")
precios.insert(0, "precios")
# datos = dict(zip(productos, precios))

In [47]:
datos = dict(zip(productos, precios))

In [48]:
datos.items()

dict_items([('productos', 'precios')])

In [49]:
import csv

with open('datos.csv','w') as f:
    w = csv.writer(f)
    w.writerows(datos.items())

**BONUS!**
Algunos ejercicios para seguir practicando:

1. Las patinetas que salgan menos que $68
2. Las patinetas que en su nombre tengan un numero mayor a 3
3. Traer cualquier texto de la pagina que tenga la palabra descuento u oferta.
5. Generar un archivo .csv con dos columnas: Una conteniendo el nombre del cliente y otra su testimonio.