<a href="https://colab.research.google.com/github/robertguro/mcd/blob/main/web_scraping_freeCodeCamp_tarea_semana_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center>
<img src="https://d33wubrfki0l68.cloudfront.net/774b60156d8f103170dc66f3ad10310941114653/da262/img/fcc_secondary_large.svg" width="600" height="auto"/>

# **Web scraping con Python**

## *Material complementario del curso dictado por [Gustavo Juantorena](https://github.com/GEJ1) para **freeCodecamp** en español.*

### **Link a la web de práctica: https://scrapepark.org/courses/spanish/**


<center>

### **Importante**: Los cambios que hagan en este cuaderno de Colab no se guardarán, lo ideal sería que hagan una copia del mismo en sus respectivas cuentas de Google Drive de la siguiente manera:

### *Archivo > Guardar una copia en drive*


# **Hoja de ruta**

## 1. Pedidos HTTP con **Requests**
## 2. Uso basico de **APIs**
## 3. Web Scraping con **Beautiful Soup**






# **Pedidos HTTP con requests**


In [1]:
import requests
import json

In [2]:
# Hacemos un pedido a la página de wikipedia
URL = 'https://es.wikipedia.org/'

# Guardamos el objeto que nos devuelve
respuesta = requests.get(URL)

# print(f'Tipo de Objeto: {type(respuesta)} \n')
# print(f'Código de estado: {respuesta.status_code} \n')
print(f'Data: {respuesta.text} \n')

Data: <!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-client-prefs-pinned-disabled vector-feature-night-mode-disabled skin-night-mode-clientpref-0 vector-toc-not-available" lang="es" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned

## **Headers**

Una serie de datos que acompañan al pedido. Para saber más: https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers


El objeto `Response` de `requests` tiene los siguientes elementos principales:

* `.text`
* `.content`
* `.json()`
* `.status_code`

In [3]:
URL = 'https://scrapepark.org/courses/spanish/'

headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'
}
respuesta = requests.get(URL, headers=headers)

In [4]:
respuesta.text

'<!DOCTYPE html>\r\n<html lang="es">\r\n\r\n  <head>\r\n    <!-- Basic -->\r\n    <meta charset="utf-8">\r\n    <meta http-equiv="X-UA-Compatible" content="IE=edge">\r\n    <!-- Mobile Metas -->\r\n    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\r\n    <!-- Site Metas -->\r\n    <meta name="keywords" content="">\r\n    <meta name="description" content="">\r\n    <meta name="author" content="">\r\n    <link rel="shortcut icon" href="images/favicon.svg" type="">\r\n    <title>ScrapePark.org</title>\r\n    <!-- bootstrap core css -->\r\n    <link rel="stylesheet" type="text/css" href="css/bootstrap.css">\r\n    <!-- font awesome style -->\r\n    <link href="css/font-awesome.min.css" rel="stylesheet">\r\n    <!-- Custom styles for this template -->\r\n    <link href="css/style.css" rel="stylesheet">\r\n    <!-- responsive style -->\r\n    <link href="css/responsive.css" rel="stylesheet">\r\n  </head>\r\n\r\n  <body>\r\n    <div class="hero-area">\

Veamoslo en la práctica utilizando la siguiente web: http://httpbin.org/headers (útil para testear pedidos HTTP).


In [5]:
URL = 'http://httpbin.org/headers'
resp = requests.get(URL)

print('Respuesta sin headers:')
print(resp.text)

Respuesta sin headers:
{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.31.0", 
    "X-Amzn-Trace-Id": "Root=1-65dcf745-5b686a86387eed22552bbe8f"
  }
}



In [6]:
print('Respuesta con headers:')
nuestros_headers = {
    'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
    }
resp_con_headers = requests.get(URL, headers = nuestros_headers)
print(resp_con_headers.text)

Respuesta con headers:
{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-65dcf745-35a0de9b7fd82ede30298b26"
  }
}



# **Uso basico de APIs**

### Uso de API de manera directa

[Sunset and sunrise times API](https://sunrise-sunset.org/api)

**Sirve para obtener la hora del amanecer y el ocaso de un determinado día**

*Parámetros:*


*  **lat** (float): Latitud en grados decimales(Obligatorio)
*  **lng** (float): Longitud en grados decimales (obligatorio)
*  **date** (string): Fecha en formato AAAA-MM-DD (opcional, por defecto usa el día actual)

*Estructura de la query:*

`https://api.sunrise-sunset.org/json?`

`lat=36.7201600`

`&`

`lng=-4.4203400`

`&`

`date=2021-07-26`

In [7]:
# Definimos los parametros de nuestra query
latitud = -34.6
longitud = -58.4
fecha = '1816-07-09' # AAAA-MM-DD

In [8]:
# Hacemos el pedido y guardamos la respuesta en una nueva variable
respuesta_sunset = requests.get(f'https://api.sunrise-sunset.org/json?lat={latitud}&lng={longitud}&date={fecha}')

In [9]:
type(respuesta_sunset)

In [10]:
# Para des-serializar el objeto (que era tipo 'HTTPResponse') y cargarlo como json
datos_sunset = respuesta_sunset.json()
print(datos_sunset)


{'results': {'sunrise': '10:58:20 AM', 'sunset': '8:58:27 PM', 'solar_noon': '3:58:24 PM', 'day_length': '10:00:07', 'civil_twilight_begin': '10:32:04 AM', 'civil_twilight_end': '9:24:44 PM', 'nautical_twilight_begin': '10:00:49 AM', 'nautical_twilight_end': '9:55:58 PM', 'astronomical_twilight_begin': '9:30:19 AM', 'astronomical_twilight_end': '10:26:29 PM'}, 'status': 'OK', 'tzid': 'UTC'}


In [11]:
type(datos_sunset)
datos_sunset.keys()

dict_keys(['results', 'status', 'tzid'])

In [12]:
# Evaluamos el status del pedido
sunset_status = datos_sunset['status']
print(f'Status: {sunset_status}')

Status: OK


In [13]:
datos_sunset['results']['sunset']

'8:58:27 PM'

In [14]:
# Podemos ver su contenido ya que es son diccionarios anidados:
sunset = datos_sunset['results']['sunset']
print(f'El {fecha} el sol se ocultó a las {sunset} (UTC)')

El 1816-07-09 el sol se ocultó a las 8:58:27 PM (UTC)


In [15]:
# tambien podriamos iterar sobre sus claves
print("Iterando data_sunset['results']:")
for elemento in datos_sunset['results']:
  print(elemento)

Iterando data_sunset['results']:
sunrise
sunset
solar_noon
day_length
civil_twilight_begin
civil_twilight_end
nautical_twilight_begin
nautical_twilight_end
astronomical_twilight_begin
astronomical_twilight_end


### **Uso de API por medio de una librería: Wikipedia**

Wikipedia-API es un *wrapper* de Python fácil de usar para la API de Wikipedia. Admite la extracción de textos, secciones, enlaces, categorías, traducciones, etc.

Repositorio: https://github.com/martin-majlis/Wikipedia-API

Documentación: https://wikipedia-api.readthedocs.io/en/latest/README.html






In [16]:
# Instalamos el paquete porque no viene con Colab
!pip3 install --force-reinstall -v  "wikipedia-api==0.5.8"

Using pip 23.1.2 from /usr/local/lib/python3.10/dist-packages/pip (python 3.10)
Collecting wikipedia-api==0.5.8
  Downloading Wikipedia_API-0.5.8-py3-none-any.whl (13 kB)
Collecting requests (from wikipedia-api==0.5.8)
  Downloading requests-2.31.0-py3-none-any.whl (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.6/62.6 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting charset-normalizer<4,>=2 (from requests->wikipedia-api==0.5.8)
  Downloading charset_normalizer-3.3.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (142 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m142.1/142.1 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting idna<4,>=2.5 (from requests->wikipedia-api==0.5.8)
  Downloading idna-3.6-py3-none-any.whl (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.6/61.6 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting urllib3<3,>=1.21.1 (from requests->wikipedia

In [17]:
# Ahora si podemos importarlo
import wikipediaapi

# Chequear versión
print(wikipediaapi.__version__)

(0, 5, 8)


In [18]:
# Instanciamos la clase wikipediaapi y utilizamos el metodo Wikipedia con el parametro de idioma
IDIOMA = 'es'
wiki_wiki = wikipediaapi.Wikipedia(IDIOMA)

# Usamos el metodo page para y hacemos un pedido con una palabra clave
PALABRA_CLAVE = 'programación'
wikipedia_programacion = wiki_wiki.page(PALABRA_CLAVE)

print(f'wikipedia_programacion es un objeto de tipo: \n \n{type(wikipedia_programacion)}')

wikipedia_programacion es un objeto de tipo: 
 
<class 'wikipediaapi.WikipediaPage'>


In [19]:
# Resumen
print(wikipedia_programacion.title)
print(' ')
print(wikipedia_programacion.summary)

programación
 
La programación es el proceso de crear un conjunto de instrucciones que le dicen a una computadora como realizar algún tipo de tarea. Pero no solo la acción de escribir un código para que la computadora o el software lo ejecute. Incluye, además, todas las tareas necesarias para que el código funcione correctamente y cumpla el objetivo para el cual se escribió.[1]​
En la actualidad, la noción de programación se encuentra muy asociada a la creación de aplicaciones de informática y videojuegos. En este sentido, es el proceso por el cual una persona desarrolla un programa, valiéndose de una herramienta que le permita escribir el código (el cual puede estar en uno o varios lenguajes, como C++, Java y Python, entre muchos otros) y de otra que sea capaz de “traducirlo” a lo que se conoce como lenguaje de máquina, que puede "comprender" el microprocesador.[2]​


In [20]:
# Url completa
print(wikipedia_programacion.fullurl)

https://es.wikipedia.org/wiki/Programaci%C3%B3n


# **BeautifulSoup**
Documentación oficial: https://beautiful-soup-4.readthedocs.io/en/latest/

## **Generalidades**

Vamos a practicar con https://scrapepark.org/spanish/


In [21]:
from bs4 import BeautifulSoup
import requests

In [22]:
# Versiones
import bs4 # Solo para el chequeo
print("Versión de BeautifulSoup:",bs4.__version__)
print("Versión de requests:", requests.__version__)

Versión de BeautifulSoup: 4.12.3
Versión de requests: 2.31.0


In [23]:
# En caso de no tener la versión que se usa en este curso
!pip3 install beautifulsoup4==4.11.2
!pip3 install requests==2.27.1

Collecting beautifulsoup4==4.11.2
  Downloading beautifulsoup4-4.11.2-py3-none-any.whl (129 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/129.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━[0m [32m122.9/129.4 kB[0m [31m3.6 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m129.4/129.4 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: beautifulsoup4
  Attempting uninstall: beautifulsoup4
    Found existing installation: beautifulsoup4 4.12.3
    Uninstalling beautifulsoup4-4.12.3:
      Successfully uninstalled beautifulsoup4-4.12.3
Successfully installed beautifulsoup4-4.11.2


Collecting requests==2.27.1
  Downloading requests-2.27.1-py2.py3-none-any.whl (63 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m63.1/63.1 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting urllib3<1.27,>=1.21.1 (from requests==2.27.1)
  Downloading urllib3-1.26.18-py2.py3-none-any.whl (143 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m143.8/143.8 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
Collecting charset-normalizer~=2.0.0 (from requests==2.27.1)
  Downloading charset_normalizer-2.0.12-py3-none-any.whl (39 kB)
Installing collected packages: urllib3, charset-normalizer, requests
  Attempting uninstall: urllib3
    Found existing installation: urllib3 2.2.1
    Uninstalling urllib3-2.2.1:
      Successfully uninstalled urllib3-2.2.1
  Attempting uninstall: charset-normalizer
    Found existing installation: charset-normalizer 3.3.2
    Uninstalling charset-normalizer-3.3.2:
      Successfully uninstalled charset-normalizer-3.3

In [24]:
# Empezamos el scraping

# 1. Obtener el HTML
URL_BASE = 'https://scrapepark.org/courses/spanish/'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser")

In [25]:
type(soup)

## **El método `find()`**

Nos permite quedarnos con la información asociada a una etiqueta de HTML

In [26]:
primer_h2 = soup.find('h2')
print(primer_h2)

<h2>¿Por qué comprar con nosotros?</h2>


In [27]:
# Solo el texto
print(primer_h2.text)

# equivalente a:
# print(soup.h2.text)

¿Por qué comprar con nosotros?


## **El método `find_all()`**

Busca **TODOS** los elementos de la página con esa etiqueta y devuelve una "lista" que los contiene (en realidad devuelve un objeto de la clase *bs4.element.ResultSet*).

In [28]:
h2_todos = soup.find_all('h2')
print(h2_todos)

[<h2>¿Por qué comprar con nosotros?</h2>, <h2>
                  #Novedades
                </h2>, <h2>
            Nuestros <span>productos</span>
</h2>, <h2>
            Testimonios de clientes
          </h2>, <h2 class="heading-container">
          Tabla de precios
        </h2>]


In [29]:
# ARGUMENTOS
# Si usamos el parametro limit = 1, emulamos al metodo find
h2_uno_solo = soup.find_all('h2',limit=1)
print(h2_uno_solo)

[<h2>¿Por qué comprar con nosotros?</h2>]


In [30]:
# Podemos iterar sobre el objeto
for seccion in h2_todos:
  print(seccion.text)

¿Por qué comprar con nosotros?

                  #Novedades
                

            Nuestros productos


            Testimonios de clientes
          

          Tabla de precios
        


In [31]:
# get_text() para más funcionalidades
for seccion in h2_todos:
  print(seccion.get_text(strip=True))

¿Por qué comprar con nosotros?
#Novedades
Nuestrosproductos
Testimonios de clientes
Tabla de precios


## **Utilizando atributos de las etiquetas**



In [32]:
# Clase
divs = soup.find_all('div', class_ = "heading-container heading-center")

for div in divs:
  print(div)
  print(" ")

<div class="heading-container heading-center" id="acerca">
<h2>¿Por qué comprar con nosotros?</h2>
</div>
 
<div class="heading-container heading-center" id="productos">
<h2>
            Nuestros <span>productos</span>
</h2>
</div>
 
<div class="heading-container heading-center">
<h3>Suscríbete para obtener descuentos y ofertas</h3>
</div>
 
<div class="heading-container heading-center">
<h2>
            Testimonios de clientes
          </h2>
</div>
 


In [33]:
# Todas las etiquetas que tengan el atributo "src"
src_todos = soup.find_all(src=True)

for elemento in src_todos:
  if elemento['src'].endswith(".jpg"):
    print(elemento)


<img alt="Parque de patinaje" src="images/slider-bg.jpg"/>
<img alt="Patineta 2" src="images/p2.jpg"/>


In [34]:
#@title Ejercicio: Bajar todas las imagenes!

url_imagenes = []

for i, imagen in enumerate(src_todos):

  if imagen['src'].endswith('png'):

    print(imagen['src'])
    r = requests.get(f"https://scrapepark.org/courses/spanish/{imagen['src']}")

    with open(f'imagen_{i}.png', 'wb') as f:
      f.write(r.content)

images/arrival-bg-store.png
images/p1.png
images/p3.png
images/p4.png
images/p5.png
images/p6.png
images/p7.png
images/p8.png
images/p9.png
images/p10.png
images/p11.png
images/p12.png
images/client-one.png
images/client-two.png
images/client-three.png
./images/freecodecamp-logo.png


## **Tablas**

In [35]:
soup.find_all('iframe')[0]['src']

'table.html'

In [36]:
# Información de tablas

URL_BASE = 'https://scrapepark.org/courses/spanish'
URL_TABLA = soup.find_all('iframe')[0]['src']

request_tabla = requests.get(f'{URL_BASE}/{URL_TABLA}')

html_tabla = request_tabla.text
soup_tabla = BeautifulSoup(html_tabla, "html.parser")
soup_tabla.find('table')

productos_faltantes = soup_tabla.find_all(['th', 'td'], attrs={'style':'color: red;'})
productos_faltantes = [talle.text for talle in productos_faltantes]

print(productos_faltantes)

['Longboard', '$80', '$85', '$90', '$62', '$150']


In [37]:
divs = soup.find_all('div', class_='detail-box')
productos = []
precios = []

for div in divs:
  if (div.h6 is not None) and ('Patineta' in div.h5.text):
    producto = div.h5.get_text(strip=True)
    precio = div.h6.get_text(strip=True).replace('$', '')
    # Se puede agregar filtros
    print(f'producto: {producto:<16} | precio: {precio}')
    productos.append(producto)
    precios.append(precio)

producto: Patineta Nueva 1 | precio: 75
producto: Patineta Usada 2 | precio: 80
producto: Patineta Nueva 3 | precio: 68
producto: Patineta Usada 4 | precio: 70
producto: Patineta Nueva 5 | precio: 75
producto: Patineta Nueva 6 | precio: 58
producto: Patineta Nueva 7 | precio: 80
producto: Patineta Nueva 8 | precio: 35
producto: Patineta Nueva 9 | precio: 165
producto: Patineta Usada 10 | precio: 54
producto: Patineta Usada 11 | precio: 99
producto: Patineta Nueva 12 | precio: 110


In [38]:
precios

['75', '80', '68', '70', '75', '58', '80', '35', '165', '54', '99', '110']

In [39]:
productos

['Patineta Nueva 1',
 'Patineta Usada 2',
 'Patineta Nueva 3',
 'Patineta Usada 4',
 'Patineta Nueva 5',
 'Patineta Nueva 6',
 'Patineta Nueva 7',
 'Patineta Nueva 8',
 'Patineta Nueva 9',
 'Patineta Usada 10',
 'Patineta Usada 11',
 'Patineta Nueva 12']

## **Cambios que dependen de la URL**

In [40]:
URL_BASE = "https://scrapepark.org/courses/spanish/contact"

for i in range(1,3):
  URL_FINAL = f"{URL_BASE}{i}"
  print(URL_FINAL)
  r = requests.get(URL_FINAL)
  soup = BeautifulSoup(r.text, "html.parser")
  print(soup.h5.text)

https://scrapepark.org/courses/spanish/contact1
Texto que cambia entre páginas en contacto 1 :)
https://scrapepark.org/courses/spanish/contact2
Texto que cambia entre páginas en contacto 2 :)


## **Datos que no sabemos en que parte de la página se encuentran**

In [41]:
# Expresiones regulares
import re

# 1. Obtener el HTML
URL_BASE = 'https://scrapepark.org/courses/spanish'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser")

telefonos = soup.find_all(string=re.compile("\d+-\d+-\d+"))
telefonos

[' 4-444-4444']

## **Moviéndonos por el árbol**

Para saber más: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree

In [42]:
copyrights = soup.find_all(string=re.compile("©"))
copyrights[0]

'© 2022 '

In [43]:
primer_copyright = copyrights[0]
primer_copyright.parent

<p>© 2022 <span>Todos los derechos reservados</span>.
        <a href="https://html.design/" rel="noopener noreferrer" target="_blank">Creado con Free Html Templates</a>.
      </p>

In [44]:
# # Otro ejemplo con elementos al mismo nivel
menu = soup.find(string=re.compile("MENÚ"))
# menu.parent
menu.parent.find_next_siblings()

[<ul>
 <li><a href="#">Inicio</a></li>
 <li><a href="#">Acerca</a></li>
 <li><a href="#">Servicios</a></li>
 <li><a href="#">Testimonios</a></li>
 <li><a href="#">Contacto</a></li>
 </ul>]

## **Comentario sobre excepciones**
https://docs.python.org/es/3/tutorial/errors.html

In [45]:
strings_a_buscar = ["MENÚ", "©", "carpincho", "Patineta"]

for string in strings_a_buscar:
  try:
    resultado = soup.find(string=re.compile(string))
    print(resultado.text)
  except AttributeError:
    print(f"El string '{string}' no fue encontrado")

MENÚ
© 2022 
El string 'carpincho' no fue encontrado

                  Patineta Nueva 1
                


## **Almacenamiento de los datos**

In [46]:
productos.insert(0, "productos")
precios.insert(0, "precios")
# datos = dict(zip(productos, precios))

In [47]:
datos = dict(zip(productos, precios))

In [48]:
datos.items()

dict_items([('productos', 'precios'), ('Patineta Nueva 1', '75'), ('Patineta Usada 2', '80'), ('Patineta Nueva 3', '68'), ('Patineta Usada 4', '70'), ('Patineta Nueva 5', '75'), ('Patineta Nueva 6', '58'), ('Patineta Nueva 7', '80'), ('Patineta Nueva 8', '35'), ('Patineta Nueva 9', '165'), ('Patineta Usada 10', '54'), ('Patineta Usada 11', '99'), ('Patineta Nueva 12', '110')])

In [49]:
import csv

with open('datos.csv','w') as f:
    w = csv.writer(f)
    w.writerows(datos.items())

**BONUS!**
Algunos ejercicios para seguir practicando:

1. Las patinetas que salgan menos que $68
2. Las patinetas que en su nombre tengan un numero mayor a 3
3. Traer cualquier texto de la pagina que tenga la palabra descuento u oferta.
5. Generar un archivo .csv con dos columnas: Una conteniendo el nombre del cliente y otra su testimonio.

# **Ejercicio 4**

In [50]:
divs = soup.find_all('div', class_='carousel-item')
clientes = []
testimonios = []

In [51]:
for div in divs:
  if (div.h5 is not None) and (div.p is not None):
    cliente = div.h5.get_text(strip=True)
    testimonio = div.p.get_text(strip=True)
    print(f'cliente: {cliente:<10} | testimonio: {testimonio}')
    clientes.append(cliente)
    testimonios.append(testimonio)

cliente: Cliente 1  | testimonio: Los productos me encantaron y los precios son muy buenos. Lo recomiendo.
cliente: Cliente 2  | testimonio: ¡La calidad y variedad de patinetas es impresionante! Definitivamente volveré a comprar.
cliente: Cliente 3  | testimonio: Estoy muy conforme. Hay muchas patinetas y los diseños son fantásticos.


In [52]:
clientes.insert(0, "clientes")
testimonios.insert(0, "testimonios")

In [53]:
data = dict(zip(clientes, testimonios))

In [54]:
data.items()

dict_items([('clientes', 'testimonios'), ('Cliente 1', 'Los productos me encantaron y los precios son muy buenos. Lo recomiendo.'), ('Cliente 2', '¡La calidad y variedad de patinetas es impresionante! Definitivamente volveré a comprar.'), ('Cliente 3', 'Estoy muy conforme. Hay muchas patinetas y los diseños son fantásticos.')])

In [55]:
import csv

with open('datos_cli.csv','w') as f:
    w = csv.writer(f)
    w.writerows(data.items())