

# **Web scraping con Python**




### 1. Pedidos HTTP con Requests
### 2. Uso basico de APIs
### 3. Web Scraping con Beautiful Soup






# **Pedidos HTTP con requests**


In [1]:
# Importamos librerias 
import requests #<--Para hacer solicitudes HTTP a servidores web
import json     #<--Para trabajar con datos en format JSON

In [2]:
# Hacemos un pedido a la página de wikipedia
URL = 'https://es.wikipedia.org/'

# Guardamos el objeto
respuesta = requests.get(URL)

# print(f'Tipo de Objeto: {type(respuesta)} \n')
# print(f'Código de estado: {respuesta.status_code} \n')
print(f'Data: {respuesta.text} \n')


Data: <!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled vector-feature-custom-font-size-clientpref-disabled vector-feature-client-preferences-disabled vector-feature-typography-survey-disabled vector-toc-not-available" lang="es" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-featu

## **Headers**

El objeto `Response` de `requests` tiene los siguientes elementos principales:

* `.text`
* `.content`
* `.json()`
* `.status_code`

In [3]:
URL = 'https://scrapepark.org/courses/spanish/' #<--Almacenamos la variable

headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'
} #<--'User-Agent' simula que la solicitud proviene de un navegador Firefox en una máquina Ubuntu, para evitar restricciones o bloqueos ante solicitudes
respuesta = requests.get(URL, headers=headers) #<--Se realiza solicitud HTTP a la URL

In [5]:
print(respuesta.text) #<--Se accede al contenido de la variable 'respuesta'

<!DOCTYPE html>
<html lang="es">

  <head>
    <!-- Basic -->
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <!-- Mobile Metas -->
    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">
    <!-- Site Metas -->
    <meta name="keywords" content="">
    <meta name="description" content="">
    <meta name="author" content="">
    <link rel="shortcut icon" href="images/favicon.svg" type="">
    <title>ScrapePark.org</title>
    <!-- bootstrap core css -->
    <link rel="stylesheet" type="text/css" href="css/bootstrap.css">
    <!-- font awesome style -->
    <link href="css/font-awesome.min.css" rel="stylesheet">
    <!-- Custom styles for this template -->
    <link href="css/style.css" rel="stylesheet">
    <!-- responsive style -->
    <link href="css/responsive.css" rel="stylesheet">
  </head>

  <body>
    <div class="hero-area">
      <!-- header section strats -->
      <header class="header-section">
    

Web: http://httpbin.org/headers (útil para testear pedidos HTTP).


In [6]:
URL = 'http://httpbin.org/headers'
resp = requests.get(URL)

print('Respuesta sin headers:')
print(resp.text)

Respuesta sin headers:
{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.27.1", 
    "X-Amzn-Trace-Id": "Root=1-6539c612-6235acc41805a2727bf18d0e"
  }
}



In [7]:
print('Respuesta con headers:')
nuestros_headers = {
    'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
    }
resp_con_headers = requests.get(URL, headers = nuestros_headers)
print(resp_con_headers.text)

Respuesta con headers:
{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-6539c615-0f2bec4e49cc2fd205ac24f3"
  }
}



La diferencia clave aquí es que estás proporcionando un encabezado personalizado en la solicitud (headers=nuestros_headers). Al hacerlo, puedes influir en la forma en que el servidor responde. En este caso, el servidor podría proporcionar una respuesta diferente o mostrar información específica en función del encabezado personalizado que has proporcionado.

# **Uso basico de APIs de manera directa**

[Sunset and sunrise times API](https://sunrise-sunset.org/api)

**Sirve para obtener la hora del amanecer y el ocaso de un determinado día**

*Parámetros:*


*  **lat** (float): Latitud en grados decimales(Obligatorio)
*  **lng** (float): Longitud en grados decimales (obligatorio)
*  **date** (string): Fecha en formato AAAA-MM-DD (opcional, por defecto usa el día actual)

*Estructura de la query:*

`https://api.sunrise-sunset.org/json?`

`lat=36.7201600`

`&`

`lng=-4.4203400`

`&`

`date=2021-07-26`

In [8]:
# Parámetros del Query
latitud = -34.6
longitud = -58.4
fecha = '1816-07-09'

In [9]:
# Realización de la consuita y se guarda en una nueva variable
respuesta_sunset = requests.get(f'https://api.sunrise-sunset.org/json?lat={latitud}&lng={longitud}&date={fecha}')

In [10]:
type(respuesta_sunset)

requests.models.Response

In [11]:
# Cargar el objeto como json
datos_sunset = respuesta_sunset.json()
print(datos_sunset)

{'results': {'sunrise': '10:58:20 AM', 'sunset': '8:58:27 PM', 'solar_noon': '3:58:24 PM', 'day_length': '10:00:07', 'civil_twilight_begin': '10:32:04 AM', 'civil_twilight_end': '9:24:44 PM', 'nautical_twilight_begin': '10:00:49 AM', 'nautical_twilight_end': '9:55:58 PM', 'astronomical_twilight_begin': '9:30:19 AM', 'astronomical_twilight_end': '10:26:29 PM'}, 'status': 'OK'}


In [12]:
type(datos_sunset)
datos_sunset.keys() #<--Imprimimos las llaves del diccionario

dict_keys(['results', 'status'])

In [13]:
# Status de la consulta
sunset_status = datos_sunset['status'] #<--Accedemos al valor de la llave 'status'
print(f'Status: {sunset_status}')

Status: OK


In [14]:
datos_sunset['results']['sunset'] #<--Accedemos al valor dentro del diccionario 'sunset' que a su vez esta dentro del diccionario 'results'

'8:58:27 PM'

In [15]:
# Ver su contenido ya que es son diccionarios anidados:
sunset = datos_sunset['results']['sunset']
print(f'El {fecha} el sol se ocultó a las {sunset} (UTC)')

El 1816-07-09 el sol se ocultó a las 8:58:27 PM (UTC)


In [16]:
# Iterar sobre sus claves
print("Iterando data_sunset['results']:")
for elemento in datos_sunset['results']:
  print(elemento)

Iterando data_sunset['results']:
sunrise
sunset
solar_noon
day_length
civil_twilight_begin
civil_twilight_end
nautical_twilight_begin
nautical_twilight_end
astronomical_twilight_begin
astronomical_twilight_end


### **Uso de API por medio de una librería: Wikipedia**

Wikipedia-API es un *wrapper* (empaquetados) de Python fácil de usar para la API de Wikipedia. Admite la extracción de textos, secciones, enlaces, categorías, traducciones, etc.



In [17]:
# Instalación del paquete

!pip3 install --force-reinstall -v  "wikipedia-api==0.5.8"

Using pip 22.2.2 from C:\Users\gmend\anaconda3\lib\site-packages\pip (python 3.9)
Collecting wikipedia-api==0.5.8
  Using cached Wikipedia_API-0.5.8-py3-none-any.whl (13 kB)
Collecting requests
  Using cached requests-2.31.0-py3-none-any.whl (62 kB)
Collecting charset-normalizer<4,>=2
  Using cached charset_normalizer-3.3.1-cp39-cp39-win_amd64.whl (98 kB)
Collecting certifi>=2017.4.17
  Using cached certifi-2023.7.22-py3-none-any.whl (158 kB)
Collecting urllib3<3,>=1.21.1
  Using cached urllib3-2.0.7-py3-none-any.whl (124 kB)
Collecting idna<4,>=2.5
  Using cached idna-3.4-py3-none-any.whl (61 kB)
Installing collected packages: urllib3, idna, charset-normalizer, certifi, requests, wikipedia-api
  Attempting uninstall: urllib3
    Found existing installation: urllib3 1.26.18
    Uninstalling urllib3-1.26.18:
      Removing file or directory c:\users\gmend\anaconda3\lib\site-packages\urllib3-1.26.18.dist-info\
      Removing file or directory c:\users\gmend\anaconda3\lib\site-packages\ur

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
conda-repo-cli 1.0.27 requires clyent==1.2.1, but you have clyent 1.2.2 which is incompatible.
conda-repo-cli 1.0.27 requires nbformat==5.4.0, but you have nbformat 5.5.0 which is incompatible.
conda-repo-cli 1.0.27 requires requests==2.28.1, but you have requests 2.31.0 which is incompatible.
botocore 1.27.28 requires urllib3<1.27,>=1.25.4, but you have urllib3 2.0.7 which is incompatible.


In [18]:
import wikipediaapi

# Versión
print(wikipediaapi.__version__)

(0, 5, 8)


In [None]:
# Url
#print(wikipedia_programacion.fullurl())

In [19]:
# Instanciamos la clase wikipediaapi y utilizamos del metodo Wikipedia con el parametro de idioma
IDIOMA = 'es'
wiki_wiki = wikipediaapi.Wikipedia(IDIOMA) #<--Se le pasa el idioma deseado como argumento

# Metodo 'page' para y hacemos un pedido con una palabra clave
PALABRA_CLAVE = 'programación'
wikipedia_programacion = wiki_wiki.page(PALABRA_CLAVE)

print(f'wikipedia_programacion es un objeto de tipo: \n \n{type(wikipedia_programacion)}')

wikipedia_programacion es un objeto de tipo: 
 
<class 'wikipediaapi.WikipediaPage'>


In [20]:
# Resumen
print(wikipedia_programacion.title) #<--Obtenemos el título de la página
print(' ')
print(wikipedia_programacion.summary) #<--Obtenemos el extracto de la página

programación
 
La programación es el proceso de crear un conjunto de instrucciones que le dicen a una computadora como realizar algún tipo de tarea. Pero no solo la acción de escribir un código para que la computadora o el software lo ejecute. Incluye, además, todas las tareas necesarias para que el código funcione correctamente y cumpla el objetivo para el cual se escribió.[1]​ 
En la actualidad, la noción de programación se encuentra muy asociada a la creación de aplicaciones de informática y videojuegos. En este sentido, es el proceso por el cual una persona desarrolla un programa, valiéndose de una herramienta que le permita escribir el código (el cual puede estar en uno o varios lenguajes, como C++, Java y Python, entre muchos otros) y de otra que sea capaz de “traducirlo” a lo que se conoce como lenguaje de máquina, que puede "comprender" el microprocesador.[2]​


# **BeautifulSoup**


URL para la práctica  https://scrapepark.org/spanish/


In [21]:
from bs4 import BeautifulSoup #<--Importamos la clase 'BeautifulSoup' del módulo 'bs4' para manipular HTML y XML en Python
import requests

In [22]:
# Versiones
import bs4
print("Versión de BeautifulSoup:",bs4.__version__)
print("Versión de requests:", requests.__version__)

Versión de BeautifulSoup: 4.11.2
Versión de requests: 2.27.1


In [None]:
# Instalación de la versión que será necesaria
#!pip3 install beautifulsoup4==4.11.2
#!pip3 install requests==2.27.1

In [23]:
#Scraping

# 1. Obtener el HTML
URL_BASE = 'https://scrapepark.org/courses/spanish/'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser") #<-- se utiliza "html.parser", que es un analizador capaz de estructurar el HTML

In [24]:
type(soup)

bs4.BeautifulSoup

## **El método `find()`**

Nos permite quedarnos con la información asociada a una etiqueta de HTML

In [25]:
primer_h2 = soup.find('h2')
print(primer_h2)

<h2>¿Por qué comprar con nosotros?</h2>


In [26]:
# Solo el texto
print(primer_h2.text)


¿Por qué comprar con nosotros?


## **El método `find_all()`**

Busca **TODOS** los elementos de la página con esa etiqueta y devuelve una "lista" que los contiene (en realidad devuelve un objeto de la clase *bs4.element.ResultSet*).

In [27]:
h2_todos = soup.find_all('h2')
print(h2_todos)

[<h2>¿Por qué comprar con nosotros?</h2>, <h2>
                  #Novedades
                </h2>, <h2>
            Nuestros <span>productos</span>
</h2>, <h2>
            Testimonios de clientes
          </h2>, <h2 class="heading-container">
          Tabla de precios
        </h2>]


In [28]:
# ARGUMENTOS
# Si usamos el parametro limit = 1, emulamos al metodo find
h2_uno_solo = soup.find_all('h2',limit=1)
print(h2_uno_solo)

[<h2>¿Por qué comprar con nosotros?</h2>]


In [29]:
# Iterar sobre el objeto
for seccion in h2_todos:
  print(seccion.text)

¿Por qué comprar con nosotros?

                  #Novedades
                

            Nuestros productos


            Testimonios de clientes
          

          Tabla de precios
        


In [30]:
# get_text() para más funcionalidades
for seccion in h2_todos:
  print(seccion.get_text(strip=True)) #<--'strip=True' se utiliza para eliminar el espacio al principio y al final del texto

¿Por qué comprar con nosotros?
#Novedades
Nuestrosproductos
Testimonios de clientes
Tabla de precios


#*Utilizando atributos de las etiquetas*



In [31]:
# Clase
divs = soup.find_all('div', class_ = "heading-container heading-center") #<--Para buscar todos los elementos '<div>' que tiene la clase CSS "heading-container heading-center"

for div in divs:
  print(div)
  print(" ") #<--Se agrega una línea en blanco

<div class="heading-container heading-center" id="acerca">
<h2>¿Por qué comprar con nosotros?</h2>
</div>
 
<div class="heading-container heading-center" id="productos">
<h2>
            Nuestros <span>productos</span>
</h2>
</div>
 
<div class="heading-container heading-center">
<h3>Suscríbete para obtener descuentos y ofertas</h3>
</div>
 
<div class="heading-container heading-center">
<h2>
            Testimonios de clientes
          </h2>
</div>
 


In [32]:
# Todas las etiquetas que tengan el atributo "src"
src_todos = soup.find_all(src=True) #<--Creamos lista de elementos que contengan atributo 'src' 

for elemento in src_todos:
  if elemento['src'].endswith(".jpg"): #<--Validamos si es un archivo de imagen (formato '.jpg')
    print(elemento)


<img alt="Parque de patinaje" src="images/slider-bg.jpg"/>
<img alt="Patineta 2" src="images/p2.jpg"/>


In [33]:
#@title Ejercicio: Bajar todas las imagenes!

url_imagenes = [] #<--Se crea lista vacia para almacenar las imagenes que cumplan ciertos criterios

for i, imagen in enumerate(src_todos): #<--Se usa 'enumerate' para obtener tanto el indice 'i' como el elemento 'imagen'

  if imagen['src'].endswith('png'): #<--Si el atributo 'src' es una imagen

    print(imagen['src']) #<--Imprime la URL de la imagen en la consola
    r = requests.get(f"https://scrapepark.org/courses/spanish/{imagen['src']}") #<--Se hace solicitud HTTP y se descarga la imagen desde la URL completa

    with open(f'imagen_{i}.png', 'wb') as f: #<--Se usa 'with' para abrir un archvo en modo de escritura binaria 'wb' con un nombre de archivo que incluye el índice 'i'
      f.write(r.content) #<--Esto descarga y guarda la imagen en el sistema de archivos local.

images/arrival-bg-store.png
images/p1.png
images/p3.png
images/p4.png
images/p5.png
images/p6.png
images/p7.png
images/p8.png
images/p9.png
images/p10.png
images/p11.png
images/p12.png
images/client-one.png
images/client-two.png
images/client-three.png
./images/freecodecamp-logo.png


## **Tablas**

In [34]:
soup.find_all('iframe')[0]['src'] #<--se utiliza el método 'find_all()' en soup para buscar todas las etiquetas '<iframe>' en el documento
                                  #<--se utiliza '[0]' para acceder al primer elemento de esa lista
                                  #<--se utiliza '[src]' para acceder al valor del atributo "src" de esa etiqueta

'table.html'

In [35]:
# Información de tablas

URL_BASE = 'https://scrapepark.org/courses/spanish'
URL_TABLA = soup.find_all('iframe')[0]['src']

request_tabla = requests.get(f'{URL_BASE}/{URL_TABLA}') #<--Se realiza una solicitud HTTP a la URL completa

html_tabla = request_tabla.text #<--Se obtiene el contenido de la respuesta HTTP como una cadena de texto
soup_tabla = BeautifulSoup(html_tabla, "html.parser") #<--Se crea una nueva instancia de BeautifulSoup llamada soup_tabla para analizar el contenido descargado de la URL
soup_tabla.find('table') #<--Esto se hace para encontrar una tabla dentro del contenido descargado

productos_faltantes = soup_tabla.find_all(['th', 'td'], attrs={'style':'color: red;'}) #<--Estas etiquetas corresponden a elementos de la tabla que se muestran en rojo
productos_faltantes = [talle.text for talle in productos_faltantes] #<--Se itera a través de la lista de etiquetas que se encontraron y se obtiene el texto contenido

print(productos_faltantes)

['Longboard', '$80', '$85', '$90', '$62', '$150']


In [36]:
divs = soup.find_all('div', class_='detail-box') #<--para buscar todas las etiquetas <div> que tienen la clase CSS "detail-box"
productos = []
precios = []

for div in divs:
  if (div.h6 is not None) and ('Patineta' in div.h5.text): #<-- Se verifica si el elemento <h6> existe y si el texto en el elemento <h5> contiene la palabra "Patineta"
    producto = div.h5.get_text(strip=True) #<--para obtener el texto contenido en el elemento <h5>, eliminando cualquier espacio en blanco adicional
    precio = div.h6.get_text(strip=True).replace('$', '') #<-- se utiliza el método replace('$', '') para eliminar el signo de dólar y obtener el valor del precio
    # Se puede agregar filtros
    print(f'producto: {producto:<16} | precio: {precio}') #<--Los valores se formatean para que el nombre del producto ocupe un ancho máximo de 16 caracteres
    productos.append(producto) #<--Los nombres de productos y sus precios se agregan a las listas
    precios.append(precio)

producto: Patineta Nueva 1 | precio: 75
producto: Patineta Usada 2 | precio: 80
producto: Patineta Nueva 3 | precio: 68
producto: Patineta Usada 4 | precio: 70
producto: Patineta Nueva 5 | precio: 75
producto: Patineta Nueva 6 | precio: 58
producto: Patineta Nueva 7 | precio: 80
producto: Patineta Nueva 8 | precio: 35
producto: Patineta Nueva 9 | precio: 165
producto: Patineta Usada 10 | precio: 54
producto: Patineta Usada 11 | precio: 99
producto: Patineta Nueva 12 | precio: 110


In [37]:
precios

['75', '80', '68', '70', '75', '58', '80', '35', '165', '54', '99', '110']

In [38]:
productos

['Patineta Nueva 1',
 'Patineta Usada 2',
 'Patineta Nueva 3',
 'Patineta Usada 4',
 'Patineta Nueva 5',
 'Patineta Nueva 6',
 'Patineta Nueva 7',
 'Patineta Nueva 8',
 'Patineta Nueva 9',
 'Patineta Usada 10',
 'Patineta Usada 11',
 'Patineta Nueva 12']

## **Cambios que dependen de la URL**

In [39]:
URL_BASE = "https://scrapepark.org/courses/spanish/contact"

for i in range(1,3): #<--Se itera a través de un rango de números desde 1 hasta 2 (no incluyendo 3)
  URL_FINAL = f"{URL_BASE}{i}" #<--se construye una URL completa concatenando la URL base con el valor actual de 'i'
  print(URL_FINAL)
  r = requests.get(URL_FINAL) #<--para realizar una solicitud HTTP y descargar el contenido de la página web desde la URL completa
  soup = BeautifulSoup(r.text, "html.parser")#<--para analizar el contenido HTML descargado
  print(soup.h5.text)#<--para encontrar y acceder al texto contenido en la etiqueta <h5> del documento HTML analizado.

https://scrapepark.org/courses/spanish/contact1
Texto que cambia entre páginas en contacto 1 :)
https://scrapepark.org/courses/spanish/contact2
Texto que cambia entre páginas en contacto 2 :)


## **Datos que no sabemos en que parte de la página se encuentran**

In [40]:

import re #<--módulo de expresiones regulares en Python

# 1. Obtener el HTML
URL_BASE = 'https://scrapepark.org/courses/spanish'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser")

telefonos = soup.find_all(string=re.compile("\d+-\d+-\d+")) #<--para buscar todas las cadenas de texto que coinciden la expresión regular "\d+-\d+-\d+".
telefonos                                                   ## '\d' coincide con cualquier dígito (0-9)
                                                            ## '-' coincide con el carácter de guion literal
                                                            ## '\d+' significa uno o más dígitos

[' 4-444-4444']

In [41]:
#Moviendonos por el árbol

copyrights = soup.find_all(string=re.compile("©")) #<-- Para buscar todas las cadenas de texto en el documento HTML que coinciden con la expresión regular "©"
copyrights[0]

'© 2022 '

In [42]:
primer_copyright = copyrights[0]
primer_copyright.parent #<--se utiliza el atributo 'parent' para acceder al elemento padre del texto que contiene el símbolo de derechos de autor

<p>© 2022 <span>Todos los derechos reservados</span>.
        <a href="https://html.design/" rel="noopener noreferrer" target="_blank">Creado con Free Html Templates</a>.
      </p>

In [43]:
# # Otro ejemplo con elementos al mismo nivel
menu = soup.find(string=re.compile("MENÚ"))
# menu.parent
menu.parent.find_next_siblings() #<--se utiliza el método find_next_siblings() para encontrar y acceder a los elementos hermanos que están al mismo nivel que el elemento padre

[<ul>
 <li><a href="#">Inicio</a></li>
 <li><a href="#">Acerca</a></li>
 <li><a href="#">Servicios</a></li>
 <li><a href="#">Testimonios</a></li>
 <li><a href="#">Contacto</a></li>
 </ul>]

## **Almacenamiento de los datos**

In [44]:
productos.insert(0, "productos") #<--se inserta la cadena "productos" en la posición 0 de la lista 'productos'
precios.insert(0, "precios") #<--se inserta la cadena "precios" en la posición 0 de la lista 'precios'

In [45]:
datos = dict(zip(productos, precios)) #<--se crea un diccionario 'datos' utilizando 'zip()' para combinar las listas 'productos' y 'precios' en un formato de clave-valor

In [46]:
datos.items() #<--se utiliza para obtener una vista iterable de los pares clave-valor en el diccionario

dict_items([('productos', 'precios'), ('Patineta Nueva 1', '75'), ('Patineta Usada 2', '80'), ('Patineta Nueva 3', '68'), ('Patineta Usada 4', '70'), ('Patineta Nueva 5', '75'), ('Patineta Nueva 6', '58'), ('Patineta Nueva 7', '80'), ('Patineta Nueva 8', '35'), ('Patineta Nueva 9', '165'), ('Patineta Usada 10', '54'), ('Patineta Usada 11', '99'), ('Patineta Nueva 12', '110')])

In [47]:
datos.keys()

dict_keys(['productos', 'Patineta Nueva 1', 'Patineta Usada 2', 'Patineta Nueva 3', 'Patineta Usada 4', 'Patineta Nueva 5', 'Patineta Nueva 6', 'Patineta Nueva 7', 'Patineta Nueva 8', 'Patineta Nueva 9', 'Patineta Usada 10', 'Patineta Usada 11', 'Patineta Nueva 12'])

In [48]:
datos.values()

dict_values(['precios', '75', '80', '68', '70', '75', '58', '80', '35', '165', '54', '99', '110'])

In [49]:
import csv

# Abre el archivo CSV en modo de escritura
with open('datos.csv', 'w', newline='') as csvfile:
    # Crea un objeto escritor de CSV
    csvwriter = csv.writer(csvfile)

    # Escribe la cabecera (opcional)
    #cabecera = ['Producto', 'Precio']
    #csvwriter.writerow(cabecera)

    # Escribe los datos desde el diccionario
    for producto, precio in datos.items():
        csvwriter.writerow([producto, precio])

print('Datos guardados en "datos.csv"')

Datos guardados en "datos.csv"


Biblografía
https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers
https://github.com/martin-majlis
https://scrapepark.org/spanish/
https://beautiful-soup-4.readthedocs.io/en/latest/

