# **Web scraping con Python**

## *Material complementario del curso dictado por [Gustavo Juantorena](https://github.com/GEJ1) para **freeCodecamp** en español.*

### **Link a la web de práctica: https://scrapepark.org/courses/spanish/**

Práctica realizada por Jerónimo Bedoya

# **Hoja de ruta**

## 1. Pedidos HTTP con **Requests**
## 2. Uso basico de **APIs**
## 3. Web Scraping con **Beautiful Soup**




# **Pedidos HTTP con requests**


In [2]:
import requests
import json

In [3]:
# Hacemos un pedido a la página de wikipedia
URL = 'https://es.wikipedia.org/'

# Guardamos el objeto que nos devuelve

response = requests.get(URL)

print(f'Tipo de Objeto: {type(response)} \n')
print(f'Código de estado: {response.status_code} \n') #Exitoso
print(f'Data: {response.text} \n')

Tipo de Objeto: <class 'requests.models.Response'> 

Código de estado: 200 

Data: <!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-typography-survey-disabled vector-toc-not-available" lang="es" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pin

# **Uso basico de APIs con Python**

### Uso de API de manera directa

[Sunset and sunrise times API](https://sunrise-sunset.org/api)

**Sirve para obtener la hora del amanecer y el ocaso de un determinado día**

*Parámetros:*


*  **lat** (float): Latitud en grados decimales(Obligatorio)
*  **lng** (float): Longitud en grados decimales (obligatorio)
*  **date** (string): Fecha en formato AAAA-MM-DD (opcional, por defecto usa el día actual)

*Estructura de la query:*

`https://api.sunrise-sunset.org/json?`

`lat=36.7201600`

`&`

`lng=-4.4203400`

`&`

`date=2023-11-22`

In [4]:
# Definimos los parametros de nuestra query
latitud = -34.6
longitud = -58.4
fecha = '2023-11-22' # AAAA-MM-DD

In [5]:
# Hacemos el pedido y guardamos la respuesta en una nueva variable
response_sunset = requests.get(f'https://api.sunrise-sunset.org/json?lat={latitud}%lng={longitud}%date={fecha}')

In [6]:
print(f'Tipo de Objeto: {type(response_sunset)} \n')
print(f'Código de estado: {response_sunset.status_code} \n') #Exitoso

Tipo de Objeto: <class 'requests.models.Response'> 

Código de estado: 200 



In [7]:
# Para des-serializar el objeto (que era tipo 'HTTPResponse') y cargarlo como json
datos_sunset = response_sunset.json()
print(datos_sunset)

{'results': {'sunrise': '4:40:42 AM', 'sunset': '6:52:29 PM', 'solar_noon': '11:46:36 AM', 'day_length': '14:11:47', 'civil_twilight_begin': '4:13:44 AM', 'civil_twilight_end': '7:19:27 PM', 'nautical_twilight_begin': '3:39:01 AM', 'nautical_twilight_end': '7:54:10 PM', 'astronomical_twilight_begin': '3:01:33 AM', 'astronomical_twilight_end': '8:31:38 PM'}, 'status': 'OK'}


In [8]:
print(type(datos_sunset))
datos_sunset.keys()

<class 'dict'>


dict_keys(['results', 'status'])

In [9]:
# Evaluamos el status del pedido
sunset_status = datos_sunset['status']
print(f'Status: {sunset_status}')

Status: OK


In [10]:
datos_sunset['results']['sunset']

'6:52:29 PM'

In [11]:
# Podemos ver su contenido ya que  son diccionarios anidados:
sunset = datos_sunset['results']['sunset']
print(f'El {fecha} el sol se ocultó a las {sunset} (UTC)')

El 2023-11-22 el sol se ocultó a las 6:52:29 PM (UTC)


In [12]:
# tambien podriamos iterar sobre sus claves
print("Iterando data_sunset['results']:")
for elemento in datos_sunset['results']:
  print(elemento)

Iterando data_sunset['results']:
sunrise
sunset
solar_noon
day_length
civil_twilight_begin
civil_twilight_end
nautical_twilight_begin
nautical_twilight_end
astronomical_twilight_begin
astronomical_twilight_end


### **Uso de API por medio de una librería: Wikipedia**

Wikipedia-API es un *wrapper* de Python fácil de usar para la API de Wikipedia. Admite la extracción de textos, secciones, enlaces, categorías, traducciones, etc.

Repositorio: https://github.com/martin-majlis/Wikipedia-API

Documentación: https://wikipedia-api.readthedocs.io/en/latest/README.html






In [13]:
# Instalamos el paquete porque no viene con Colab
!pip3 install --force-reinstall -v  "wikipedia-api==0.5.8"

Using pip 23.1.2 from /usr/local/lib/python3.10/dist-packages/pip (python 3.10)
Collecting wikipedia-api==0.5.8
  Downloading Wikipedia_API-0.5.8-py3-none-any.whl (13 kB)
Collecting requests (from wikipedia-api==0.5.8)
  Downloading requests-2.31.0-py3-none-any.whl (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.6/62.6 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting charset-normalizer<4,>=2 (from requests->wikipedia-api==0.5.8)
  Downloading charset_normalizer-3.3.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (142 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m142.1/142.1 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting idna<4,>=2.5 (from requests->wikipedia-api==0.5.8)
  Downloading idna-3.5-py3-none-any.whl (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.6/61.6 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting urllib3<3,>=1.21.1 (from requests->wikipedia

In [14]:
# Ahora si podemos importarlo
import wikipediaapi

# Chequear versión
print(wikipediaapi.__version__)

(0, 5, 8)


In [15]:
# Instanciamos la clase wikipediaapi y utilizamos el metodo Wikipedia con el parametro de idioma
IDIOMA = 'es'
wiki_wiki = wikipediaapi.Wikipedia(IDIOMA)

# Usamos el metodo page para y hacemos un pedido con una palabra clave
PALABRA_CLAVE = 'programación'
wikipedia_programacion = wiki_wiki.page(PALABRA_CLAVE)

print(f'wikipedia_programacion es un objeto de tipo: \n \n{type(wikipedia_programacion)}')

wikipedia_programacion es un objeto de tipo: 
 
<class 'wikipediaapi.WikipediaPage'>


In [16]:
# Resumen
print(wikipedia_programacion.title)
print(' ')
print(wikipedia_programacion.summary)
print(' ')
print(wikipedia_programacion.text)
print(wikipedia_programacion.sections)

programación
 
La programación es el proceso de crear un conjunto de instrucciones que le dicen a una computadora como realizar algún tipo de tarea. Pero no solo la acción de escribir un código para que la computadora o el software lo ejecute. Incluye, además, todas las tareas necesarias para que el código funcione correctamente y cumpla el objetivo para el cual se escribió.[1]​
En la actualidad, la noción de programación se encuentra muy asociada a la creación de aplicaciones de informática y videojuegos. En este sentido, es el proceso por el cual una persona desarrolla un programa, valiéndose de una herramienta que le permita escribir el código (el cual puede estar en uno o varios lenguajes, como C++, Java y Python, entre muchos otros) y de otra que sea capaz de “traducirlo” a lo que se conoce como lenguaje de máquina, que puede "comprender" el microprocesador.[2]​
 
La programación es el proceso de crear un conjunto de instrucciones que le dicen a una computadora como realizar algún

In [17]:
def print_categories(page):
        categories = wikipedia_programacion.categories
        for title in sorted(categories.keys()):
            print("%s: %s" % (title, categories[title]))


print("Categories")
print_categories(wikipedia_programacion)

Categories
Categoría:Programación: Categoría:Programación (id: ??, ns: 14)
Categoría:Wikipedia:Artículos con identificadores AAT: Categoría:Wikipedia:Artículos con identificadores AAT (id: ??, ns: 14)
Categoría:Wikipedia:Artículos con identificadores BNE: Categoría:Wikipedia:Artículos con identificadores BNE (id: ??, ns: 14)
Categoría:Wikipedia:Artículos con identificadores BNF: Categoría:Wikipedia:Artículos con identificadores BNF (id: ??, ns: 14)
Categoría:Wikipedia:Artículos con identificadores GND: Categoría:Wikipedia:Artículos con identificadores GND (id: ??, ns: 14)
Categoría:Wikipedia:Artículos con identificadores LCCN: Categoría:Wikipedia:Artículos con identificadores LCCN (id: ??, ns: 14)
Categoría:Wikipedia:Artículos que necesitan referencias adicionales: Categoría:Wikipedia:Artículos que necesitan referencias adicionales (id: ??, ns: 14)
Categoría:Wikipedia:Páginas con referencias con parámetros obsoletos: Categoría:Wikipedia:Páginas con referencias con parámetros obsoletos 

In [18]:
# Url completa
print(wikipedia_programacion.fullurl)

https://es.wikipedia.org/wiki/Programaci%C3%B3n


# **BeautifulSoup**
Documentación oficial: https://beautiful-soup-4.readthedocs.io/en/latest/


## **Generalidades**

Vamos a practicar con https://scrapepark.org/spanish/


In [19]:
from bs4 import BeautifulSoup
import requests

In [20]:
# Versiones
import bs4 # Solo para el chequeo
print("Versión de BeautifulSoup:",bs4.__version__)
print("Versión de requests:", requests.__version__)

Versión de BeautifulSoup: 4.11.2
Versión de requests: 2.31.0


In [21]:
# Empezamos el scraping

# 1. Obtener el HTML
URL_BASE = 'https://scrapepark.org/courses/spanish/'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser")
print(type(soup))

<class 'bs4.BeautifulSoup'>


## **El método `find()`**

Nos permite quedarnos con la información asociada a una etiqueta de HTML

In [22]:
primer_h2 = soup.find('h2')
print(primer_h2)

<h2>¿Por qué comprar con nosotros?</h2>


In [23]:
# Solo el texto
print(primer_h2.text)

# equivalente a:
print(soup.h2.text)

¿Por qué comprar con nosotros?
¿Por qué comprar con nosotros?


## **El método `find_all()`**

Busca **TODOS** los elementos de la página con esa etiqueta y devuelve una "lista" que los contiene (en realidad devuelve un objeto de la clase *bs4.element.ResultSet*).

In [24]:
h2_todos = soup.find_all('h2')
print(h2_todos)

[<h2>¿Por qué comprar con nosotros?</h2>, <h2>
                  #Novedades
                </h2>, <h2>
            Nuestros <span>productos</span>
</h2>, <h2>
            Testimonios de clientes
          </h2>, <h2 class="heading-container">
          Tabla de precios
        </h2>]


In [25]:
# ARGUMENTOS
# Si usamos el parametro limit = 1, emulamos al metodo find
h2_uno_solo = soup.find_all('h2',limit=1)
print(h2_uno_solo)

[<h2>¿Por qué comprar con nosotros?</h2>]


In [26]:
# Podemos iterar sobre el objeto
for seccion in h2_todos:
  print(seccion.text)

¿Por qué comprar con nosotros?

                  #Novedades
                

            Nuestros productos


            Testimonios de clientes
          

          Tabla de precios
        


In [27]:
# get_text() para más funcionalidades
for seccion in h2_todos:
  print(seccion.get_text(strip=True))

¿Por qué comprar con nosotros?
#Novedades
Nuestrosproductos
Testimonios de clientes
Tabla de precios


## **Utilizando atributos de las etiquetas**

In [28]:
divs = soup.find_all('div', class_= "heading-container heading-center")

for div in divs:
  print(div.get_text(strip=True))

print(' ')

for div in divs:
  print(div.text)

¿Por qué comprar con nosotros?
Nuestrosproductos
Suscríbete para obtener descuentos y ofertas
Testimonios de clientes
 

¿Por qué comprar con nosotros?



            Nuestros productos



Suscríbete para obtener descuentos y ofertas



            Testimonios de clientes
          



In [29]:
# Todas las etiquetas que tengan el atributo "src"
src_todos = soup.find_all(src=True)
print(src_todos)
print(' ')
for elemento in src_todos:
  if elemento['src'].endswith(".js"):
    print(elemento)


[<img alt="Logo de ScrapePark.org" src="images/logo.svg" width="250"/>, <img alt="Parque de patinaje" src="images/slider-bg.jpg"/>, <img alt="Variedad de patinetas en la tienda" src="images/arrival-bg-store.png"/>, <img alt="Patineta 1" src="images/p1.png"/>, <img alt="Patineta 2" src="images/p2.jpg"/>, <img alt="Patineta 3" src="images/p3.png"/>, <img alt="Patineta 4" src="images/p4.png"/>, <img alt="Patineta 5" src="images/p5.png"/>, <img alt="Patineta 6" src="images/p6.png"/>, <img alt="Patineta 7" src="images/p7.png"/>, <img alt="Patineta 8" src="images/p8.png"/>, <img alt="Patineta 9" src="images/p9.png"/>, <img alt="Patineta 10" src="images/p10.png"/>, <img alt="Patineta 11" src="images/p11.png"/>, <img alt="Patineta 12" src="images/p12.png"/>, <img alt="Cliente 1" src="images/client-one.png"/>, <img alt="Cliente 2" src="images/client-two.png"/>, <img alt="Cliente 3" src="images/client-three.png"/>, <iframe src="table.html" title="table_iframe"></iframe>, <img alt="#" src="images

## Ejercicio: Bajar todas las imagenes!

In [30]:
url_imagenes = []
for i, imagen in enumerate(src_todos):
  if imagen['src'].endswith('png'):
    print(imagen['src'])

    r = requests.get(f" https://scrapepark.org/courses/spanish/{imagen['src']}")
    print(r)
    with open(f'imagen_{i}.png', 'wb') as f: #Descarga las imagenes
      f.write(r.content)

images/arrival-bg-store.png
<Response [200]>
images/p1.png
<Response [200]>
images/p3.png
<Response [200]>
images/p4.png
<Response [200]>
images/p5.png
<Response [200]>
images/p6.png
<Response [200]>
images/p7.png
<Response [200]>
images/p8.png
<Response [200]>
images/p9.png
<Response [200]>
images/p10.png
<Response [200]>
images/p11.png
<Response [200]>
images/p12.png
<Response [200]>
images/client-one.png
<Response [200]>
images/client-two.png
<Response [200]>
images/client-three.png
<Response [200]>
./images/freecodecamp-logo.png
<Response [200]>


In [31]:
soup.find_all('iframe')[0]['src']

'table.html'

In [33]:
# Información de tablas

URL_BASE = 'https://scrapepark.org/courses/spanish'
URL_TABLA = soup.find_all('iframe')[0]['src']

request_tabla = requests.get(f'{URL_BASE}/{URL_TABLA}')

html_tabla = request_tabla.text
soup_tabla = BeautifulSoup(html_tabla, "html.parser")
soup_tabla.find('table')

productos_faltantes = soup_tabla.find_all(['th', 'td'], attrs={'style':'color: red;'})
productos_faltantes = [talle.text for talle in productos_faltantes]

print(productos_faltantes)

['Longboard', '$80', '$85', '$90', '$62', '$150']


In [42]:
divs = soup.find_all('div', class_='detail-box')
productos = []
precios = []

for div in divs:
  if (div.h6 is not None) and ('Patineta' in div.h5.text):
    producto = div.h5.get_text(strip=True)
    precio = div.h6.get_text(strip=True).replace('$', '')
    # Se puede agregar filtros
    print(f'producto: {producto:<16} | precio: {precio}')
    productos.append(producto)
    precios.append(precio)
print(precios)
print(productos)

producto: Patineta Nueva 1 | precio: 75
producto: Patineta Usada 2 | precio: 80
producto: Patineta Nueva 3 | precio: 68
producto: Patineta Usada 4 | precio: 70
producto: Patineta Nueva 5 | precio: 75
producto: Patineta Nueva 6 | precio: 58
producto: Patineta Nueva 7 | precio: 80
producto: Patineta Nueva 8 | precio: 35
producto: Patineta Nueva 9 | precio: 165
producto: Patineta Usada 10 | precio: 54
producto: Patineta Usada 11 | precio: 99
producto: Patineta Nueva 12 | precio: 110
['75', '80', '68', '70', '75', '58', '80', '35', '165', '54', '99', '110']
['Patineta Nueva 1', 'Patineta Usada 2', 'Patineta Nueva 3', 'Patineta Usada 4', 'Patineta Nueva 5', 'Patineta Nueva 6', 'Patineta Nueva 7', 'Patineta Nueva 8', 'Patineta Nueva 9', 'Patineta Usada 10', 'Patineta Usada 11', 'Patineta Nueva 12']


In [47]:
URL_BASE = "https://scrapepark.org/courses/spanish/contact"

for i in range(1,3):
  URL_FINAL = f"{URL_BASE}{i}"
  print(URL_FINAL)
  r = requests.get(URL_FINAL)
  soup = BeautifulSoup(r.text, "html.parser")
  print(soup.h5.text)

https://scrapepark.org/courses/spanish/contact1
Texto que cambia entre páginas en contacto 1 :)
https://scrapepark.org/courses/spanish/contact2
Texto que cambia entre páginas en contacto 2 :)


## **Datos que no sabemos en que parte de la página se encuentran**

In [48]:
# Expresiones regulares
import re

# 1. Obtener el HTML
URL_BASE = 'https://scrapepark.org/courses/spanish'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser")

telefonos = soup.find_all(string=re.compile("\d+-\d+-\d+")) # Expresion regular para obtener el numero de contacto de la pagina
telefonos

[' 4-444-4444']

## **Moviéndonos por el árbol**

Para saber más: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree

In [49]:
copyrights = soup.find_all(string=re.compile("©")) #Encontrar donde hayan simbolos de copyrigth
copyrights[0]

'© 2022 '

In [50]:
primer_copyright = copyrights[0]
primer_copyright.parent #Componente padre de donde esta el simbolo

<p>© 2022 <span>Todos los derechos reservados</span>.
        <a href="https://html.design/" rel="noopener noreferrer" target="_blank">Creado con Free Html Templates</a>.
      </p>

In [58]:
# # Otro ejemplo con elementos al mismo nivel
menu = soup.find(string=re.compile("MENÚ"))
print(menu.parent) #Componente padre del componente donde esta la palabra menu
print(' ')
print(menu.parent.parent) #Componente padre del padre del componente donde esta la palabra menu
print(' ')
menu.parent.find_next_siblings() #Componente al mismo nivel del componente donde esta menu

<h3 class="menu">MENÚ</h3>
 
<div class="widget-menu">
<h3 class="menu">MENÚ</h3>
<ul>
<li><a href="#">Inicio</a></li>
<li><a href="#">Acerca</a></li>
<li><a href="#">Servicios</a></li>
<li><a href="#">Testimonios</a></li>
<li><a href="#">Contacto</a></li>
</ul>
</div>
 


[<ul>
 <li><a href="#">Inicio</a></li>
 <li><a href="#">Acerca</a></li>
 <li><a href="#">Servicios</a></li>
 <li><a href="#">Testimonios</a></li>
 <li><a href="#">Contacto</a></li>
 </ul>]

## **Comentario sobre excepciones**
https://docs.python.org/es/3/tutorial/errors.html

In [59]:
strings_a_buscar = ["MENÚ", "©", "carpincho", "Patineta"]

for string in strings_a_buscar:
  try:
    resultado = soup.find(string=re.compile(string))
    print(resultado.text)
  except AttributeError:
    print(f"El string '{string}' no fue encontrado")


MENÚ
© 2022 
El string 'carpincho' no fue encontrado

                  Patineta Nueva 1
                


## **Almacenamiento de los datos**

In [63]:
productos.insert(0, "productos")
precios.insert(0, "precios")
# datos = dict(zip(productos, precios))

In [66]:
precios

['precios',
 '75',
 '80',
 '68',
 '70',
 '75',
 '58',
 '80',
 '35',
 '165',
 '54',
 '99',
 '110']

In [67]:
productos

['productos',
 'Patineta Nueva 1',
 'Patineta Usada 2',
 'Patineta Nueva 3',
 'Patineta Usada 4',
 'Patineta Nueva 5',
 'Patineta Nueva 6',
 'Patineta Nueva 7',
 'Patineta Nueva 8',
 'Patineta Nueva 9',
 'Patineta Usada 10',
 'Patineta Usada 11',
 'Patineta Nueva 12']

In [68]:
datos = dict(zip(productos, precios))

In [69]:
datos.items()

dict_items([('productos', 'precios'), ('Patineta Nueva 1', '75'), ('Patineta Usada 2', '80'), ('Patineta Nueva 3', '68'), ('Patineta Usada 4', '70'), ('Patineta Nueva 5', '75'), ('Patineta Nueva 6', '58'), ('Patineta Nueva 7', '80'), ('Patineta Nueva 8', '35'), ('Patineta Nueva 9', '165'), ('Patineta Usada 10', '54'), ('Patineta Usada 11', '99'), ('Patineta Nueva 12', '110')])

In [70]:
import csv

with open('datos.csv','w') as f:
    w = csv.writer(f)
    w.writerows(datos.items())

In [73]:
import pandas as pd

productos.remove("productos")
precios.remove("precios")

df = pd.DataFrame()

df['Productos'] = productos
df['Precios'] = precios
print(df)

            Productos Precios
0    Patineta Nueva 1      75
1    Patineta Usada 2      80
2    Patineta Nueva 3      68
3    Patineta Usada 4      70
4    Patineta Nueva 5      75
5    Patineta Nueva 6      58
6    Patineta Nueva 7      80
7    Patineta Nueva 8      35
8    Patineta Nueva 9     165
9   Patineta Usada 10      54
10  Patineta Usada 11      99
11  Patineta Nueva 12     110


Algunos ejercicios para seguir practicando:

1. Las patinetas que salgan menos que $68
2. Las patinetas que en su nombre tengan un numero mayor a 3
3. Traer cualquier texto de la pagina que tenga la palabra descuento u oferta.
5. Generar un archivo .csv con dos columnas: Una conteniendo el nombre del cliente y otra su testimonio.

Las patinetas que salgan menos que $68

In [87]:
divs = soup.find_all('div', class_='detail-box')

for div in divs:
  if (div.h6 is not None) and ('Patineta' in div.h5.text):
    producto = div.h5.get_text(strip=True)
    precio = div.h6.get_text(strip=True).replace('$', '')
    if int(precio) < 68:
       print("Producto:",producto, "Precio: ",precio,"$")

Producto: Patineta Nueva 6 Precio:  58 $
Producto: Patineta Nueva 8 Precio:  35 $
Producto: Patineta Usada 10 Precio:  54 $


Las patinetas que en su nombre tengan un numero mayor a 3

In [113]:
divs = soup.find_all('div', class_='detail-box')
for div in divs:
  try:
    if (div.h5 is not None) and ('Patineta' in div.h5.text):
        producto = div.h5.get_text(strip=True)
        if re.search("[4-9]", producto):
          print(producto)
  except AttributeError as e:
    print(e)

Patineta Usada 4
Patineta Nueva 5
Patineta Nueva 6
Patineta Nueva 7
Patineta Nueva 8
Patineta Nueva 9


Traer cualquier texto de la pagina que tenga la palabra descuento u oferta.

In [120]:
strings_a_buscar = ["descuento", "oferta"]
URL_BASE = 'https://scrapepark.org/courses/spanish'
pedido_obtenido = requests.get(URL_BASE)
html_obtenido = pedido_obtenido.text

# 2. "Parsear" ese HTML
soup = BeautifulSoup(html_obtenido, "html.parser")


for string in strings_a_buscar:
  try:
    resultado = soup.find(string=re.compile(string))
    print(resultado.text)
  except AttributeError:
    print(f"El string '{string}' no fue encontrado")

Suscríbete para obtener descuentos y ofertas

                        Aprovechá nuestras ofertas.
                      


Generar un archivo .csv con dos columnas: Una conteniendo el nombre del cliente y otra su testimonio.

In [123]:
divs = soup.find_all('div', class_='detail-box')
clientes = []
testimonios = []
for div in divs:
  if (div.h5 is not None) and ('Cliente' in div.h5.text) and (div.p is not None):
    cliente = div.h5.get_text(strip=True)
    testimonio = div.p.get_text(strip=True)
    clientes.append(cliente)
    testimonios.append(testimonio)
print(clientes)
print(testimonios)

['Cliente 1', 'Cliente 2', 'Cliente 3']
['Los productos me encantaron y los precios son muy buenos. Lo recomiendo.', '¡La calidad y variedad de patinetas es impresionante! Definitivamente volveré a comprar.', 'Estoy muy conforme. Hay muchas patinetas y los diseños son fantásticos.']


In [124]:
clientes.insert(0, "clientes")
testimonios.insert(0, "testimonios")
datosClientesTestimonios = dict(zip(clientes, testimonios))

In [125]:
datosClientesTestimonios.items()

dict_items([('clientes', 'testimonios'), ('Cliente 1', 'Los productos me encantaron y los precios son muy buenos. Lo recomiendo.'), ('Cliente 2', '¡La calidad y variedad de patinetas es impresionante! Definitivamente volveré a comprar.'), ('Cliente 3', 'Estoy muy conforme. Hay muchas patinetas y los diseños son fantásticos.')])

In [127]:
import csv

with open('datosClientesTestimonios.csv','w') as f:
    w = csv.writer(f)
    w.writerows(datosClientesTestimonios.items())