# Beautiful Soup: Crear un Web Scraper con Python

![WebScraping](webscraping.jpg)

# 1. Introducción

El **web scraping** es una técnica que permite extraer datos e información de una web. Este tutorial es una guía de inicio al web scraping con Python, utilizando para ello la librería Beautiful Soup.

Antes de comenzar, quiero resaltar que si quieres realizar web scraping, *debes ser justo y actuar de forma legal* y según las políticas que rijan cada una de las páginas de las que pretendas extraer información.

Lejos de lo que te puedas imaginar y de que pienses que el web scraping es cosa de hackers, lo cierto es que el web scraping permite, por ejemplo, llevar a cabo un análisis SEO de una web, comprobar enlaces rotos, generar el sitemap de una página, vigilar a la competencia o estar al tanto de cambios en una web. Esta técnica también puede utilizarse en las primeras fases de un proyecto de Big Data o Machine Learning, en los que datos e información juegan un papel importantísimo.

Así que, ¿estás preparad@ para aprender web scraping con Python?

# 2. Qué es Beautiful Soup

`Beautiful Soup` es una librería Python que permite extraer información de contenido en formato HTML o XML. Para usarla, es necesario especificar un **parser**, que es responsable de transformar un documento HTML o XML en un árbol complejo de objetos Python. Esto permite, por ejemplo, que podamos interactuar con los elementos de una página web como si estuviésemos utilizando las herramientas del desarrollador de un navegador.

A la hora de extraer información de una web, uno de los parsers más utilizado es el parser HTML de `lxml`. Precisamente, será el que utilicemos en este tutorial.

A continuación, te muestro cómo instalar tanto la librería `Beautiful Soup` como el parser `lxml` utilizando el gestor de paquetes pip.

In [2]:
# Para instalar Beautiful Soup, ejecuta el siguiente comando:
!pip install beautifulsoup4

# Para instalar el parser lxml, ejecuta el siguiente comando:
!pip install lxml



You are using pip version 19.0.3, however version 22.0.4 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


Collecting lxml
  Downloading https://files.pythonhosted.org/packages/cf/1d/163933bd0addc7a8cd46850fb7857efd5e617047ebe726972763d7ca7d60/lxml-4.8.0-cp37-cp37m-win_amd64.whl (3.6MB)
Installing collected packages: lxml
Successfully installed lxml-4.8.0


You are using pip version 19.0.3, however version 22.0.4 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


# 3. Pasos para hacer web scraping en Python con Beautiful Soup

Estos son los pasos generales cuando abordamos este tipo de proyectos:
1. **Identificar los elementos de la página de los que extraer la información**: Las páginas web son documentos estructurados formados por una jerarquía de elementos. El primer paso para extraer información es identificar correctamente el elemento o elementos que contienen la información deseada. Para ello, lo más fácil es abrir la página en un navegador e inspeccionar el elemento. Esto se consigue haciendo clic con el botón derecho sobre el elemento en cuestión y pulsando sobre la opción Inspeccionar o Inspeccionar elemento (depende del navegador). Quédate con toda la información disponible asociada al elemento (como la etiqueta, o los atributos id y/o class) ya que, posteriormente, te hará falta para utilizarla en Beautiful Soup.

2. **Descargar el contenido de la página**: Para ello, utiliza la librería `requests`. El contenido de la respuesta, el que contiene la página en HTML, será el que pasemos posteriormente a `Beautiful Soup` para generar el árbol de elementos y poder hacer consultas al mismo.

3. **Crear la «sopa»**: El contenido de la página obtenido en el paso anterior será el que utilicemos para crear la «sopa», esto es, **el árbol de objetos Python que representan al documento HTML**. Para ello, hay que crear un objeto de tipo `BeautifulSoup`, al cuál se le pasa el texto en formato HTML y el identificador del parser a utilizar:

        import requests
        from bs4 import BeautifulSoup
        r = requests.get('http://unapagina.xyz')
        soup = BeautifulSoup(r.text, 'lxml')

4. **Buscar los elementos en la «sopa» y obtener la información deseada**: El último paso es hacer una búsqueda en el árbol y obtener los objetos que contienen la información y datos que necesitamos.

# 4. Métodos BeautifulSoup

In [1]:
from bs4 import BeautifulSoup

# Suponemos que esta pagina de ejemplo la hemos descargado con una request
contenido = """
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo</p>
    <p>Este es el segundo párrafo</p>
    <div id="innerDiv">
        <div class="links">
            <a href="https://pagina1.xyz/">Enlace 1</a>
            <a href="https://pagina2.xyz/">Enlace 2</a>
        </div>
        <div class="right">
            <div class="links">
                <a href="https://pagina3.xyz/">Enlace 3</a>
                <a href="https://pagina4.xyz/">Enlace 4</a>
            </div>
        </div>
    </div>
    <div id="footer">
        <!-- El footer -->
        <p>Este párrafo está en el footer</p>
        <div class="links footer-links">
            <a href="https://pagina5.xyz/">Enlace 5</a>
        </div>
    </div>
</div>
</body>
</html>
"""
soup = BeautifulSoup(contenido, 'lxml')

In [3]:
type(soup)

bs4.BeautifulSoup

In [5]:
type(soup.h1)

bs4.element.Tag

### 4.1 Objetos Tag y NavigableString

Tenemos principalmente 2 tipos de objeto `BeautifulSoup`:
- **Tag**: Este objeto se corresponde con una etiqueta HTML o XML. Por ejemplo, dado el objeto soup, podemos acceder al objeto (tag) que representa al título de la página usando la etiqueta title.

In [6]:
soup.title

<title>Página de prueba</title>

Dado un objeto de tipo Tag, podemos acceder a sus atributos tratando al objeto como si fuera un diccionario. Además, se puede acceder a ese diccionario por medio del atributo attrs:

In [27]:
div_main = soup.div
print(div_main)
print("\n")

print("ID Attribute:")
print(div_main["id"])
print("\n")

print("Attributes:")
print(div_main.attrs)

<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>
</div>
<div id="footer">
<!-- El footer -->
<p>Este párrafo está en el footer</p>
<div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>
</div>
</div>


ID Attribute:
main


Attributes:
{'id': 'main', 'class': ['full-width']}


- **NavigableString**: Un objeto de este tipo representa a la cadena de texto que hay contenida en una etiqueta. Se accede por medio de la propiedad string.

In [8]:
primer_parrafo = soup.p
print(primer_parrafo, type(primer_parrafo))

texto = primer_parrafo.string
print(texto, type(texto))

type(texto)

<p>Este es el primer párrafo</p> <class 'bs4.element.Tag'>
Este es el primer párrafo <class 'bs4.element.NavigableString'>


bs4.element.NavigableString

### 4.2 Navegar a través de los elementos de Beautiful Soup

#### Hijos

- El atributo **contents**: Devuelve una lista con todos los hijos de primer nivel de un objeto.
- Atributo **descendants**: Este atributo devuelve un iterador que permite recorrer todos los hijos de un objeto. No importa el nivel de anidamiento.

In [9]:
print(soup.div.div.prettify())

<div id="innerDiv">
 <div class="links">
  <a href="https://pagina1.xyz/">
   Enlace 1
  </a>
  <a href="https://pagina2.xyz/">
   Enlace 2
  </a>
 </div>
 <div class="right">
  <div class="links">
   <a href="https://pagina3.xyz/">
    Enlace 3
   </a>
   <a href="https://pagina4.xyz/">
    Enlace 4
   </a>
  </div>
 </div>
</div>



In [11]:
inner_div = soup.div.div
# contents
hijos = inner_div.contents
print(type(hijos))
print("\n")
for child in hijos:
    if child.name:  # Ignoramos los saltos de línea
        print(f'{child.name}:\n {child.prettify()}')
        print("\n")

<class 'list'>


div:
 <div class="links">
 <a href="https://pagina1.xyz/">
  Enlace 1
 </a>
 <a href="https://pagina2.xyz/">
  Enlace 2
 </a>
</div>



div:
 <div class="right">
 <div class="links">
  <a href="https://pagina3.xyz/">
   Enlace 3
  </a>
  <a href="https://pagina4.xyz/">
   Enlace 4
  </a>
 </div>
</div>





In [12]:
# descendants
hijos = inner_div.descendants
print(hijos)
print("\n")
for child in hijos:
    if child.name:
        print(f'{child.name}:\n {child}')
        print("\n")

<generator object Tag.descendants at 0x000002767FB83448>


div:
 <div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>


a:
 <a href="https://pagina1.xyz/">Enlace 1</a>


a:
 <a href="https://pagina2.xyz/">Enlace 2</a>


div:
 <div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>


div:
 <div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>


a:
 <a href="https://pagina3.xyz/">Enlace 3</a>


a:
 <a href="https://pagina4.xyz/">Enlace 4</a>




#### Padres

Además de a los hijos, es posible navegar hacia arriba en el árbol accediendo a los objetos padre de un elemento. Para ello, puedes usar las propiedades parent y parents:

- **parent** referencia al objeto padre de un elemento (Tag o NavigableString).
- **parents** es un generador que permite recorrer recursivamente todos los elementos padre de uno dado.

In [49]:
inner_div.parent

<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>
</div>
<div id="footer">
<!-- El footer -->
<p>Este párrafo está en el footer</p>
<div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>
</div>
</div>

#### Find y Findall

Beautiful Soup pone a nuestra disposición diferentes métodos para buscar elementos en el árbol. Sin embargo, dos de los principales son `find_all()` y `find()`.

Ambos métodos trabajan de forma similar. Básicamente, buscan entre los descendientes de un objeto de tipo `Tag` y recuperan todos aquellos que cumplan una serie de filtros.

El filtro más básico consiste en pasar el nombre de la etiqueta a buscar como primer argumento de la función (parámetro name).

Imagina que quieres recuperar todos los enlaces (etiqueta \<a\>) que hay en el texto HTML del ejemplo. Se podría hacer del siguiente modo:

In [50]:
enlaces = soup.find_all('a')
for enlace in enlaces:
        print(enlace)

<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
<a href="https://pagina5.xyz/">Enlace 5</a>


Además del nombre de la etiqueta, puedes especificar parámetros con nombre. Si estos no coinciden con los nombres de los parámetros de la función, serán tratados como atributos de la etiqueta entre los que filtrar.

Por ejemplo, si quisieras encontrar el bloque `div` con `id="footer"`, podrías aplicar el siguiente filtro:

In [51]:
footer = soup.find_all(id='footer')
print(footer)

[<div id="footer">
<!-- El footer -->
<p>Este párrafo está en el footer</p>
<div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>
</div>]


In [52]:
links_divs = soup.find_all('div', class_="links")
print(links_divs)

[<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>, <div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>, <div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>]


In [14]:
sublinks_divs = soup.find_all('div', class_="footer-links")
print(sublinks_divs)

[<div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>]


Si sabemos que aparece una única vez, podemos usar el método `find`, que directamente nos muestra la primera aparición. Es equivalente a fijar `limit=1`en el método `findall`.

In [53]:
soup.find('title')

<title>Página de prueba</title>

In [16]:
soup.find_all('div', limit=1)

[<div class="full-width" id="main">
 <h1>El título de la página</h1>
 <p>Este es el primer párrafo</p>
 <p>Este es el segundo párrafo</p>
 <div id="innerDiv">
 <div class="links">
 <a href="https://pagina1.xyz/">Enlace 1</a>
 <a href="https://pagina2.xyz/">Enlace 2</a>
 </div>
 <div class="right">
 <div class="links">
 <a href="https://pagina3.xyz/">Enlace 3</a>
 <a href="https://pagina4.xyz/">Enlace 4</a>
 </div>
 </div>
 </div>
 <div id="footer">
 <!-- El footer -->
 <p>Este párrafo está en el footer</p>
 <div class="links footer-links">
 <a href="https://pagina5.xyz/">Enlace 5</a>
 </div>
 </div>
 </div>]

In [15]:
soup.find('div')

<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
<div class="right">
<div class="links">
<a href="https://pagina3.xyz/">Enlace 3</a>
<a href="https://pagina4.xyz/">Enlace 4</a>
</div>
</div>
</div>
<div id="footer">
<!-- El footer -->
<p>Este párrafo está en el footer</p>
<div class="links footer-links">
<a href="https://pagina5.xyz/">Enlace 5</a>
</div>
</div>
</div>

# Ejemplo: Web de posts de trabajo (ficticio)

El sitio web [Real Python](https://realpython.com/) nos ofrece un sitio web ficticio en el que hay ofertas de trabajo relacionadas con programación en Python. 

Seguimos los 4 pasos ya mencionados:
1. Identificar los elementos de la página de los que extraer la información
2. Descargar el contenido de la página
3. Crear la «sopa»
4. Buscar los elementos en la «sopa» y obtener la información deseada

Inspección:
* En la página principal, los puestos de trabajo están en tarjetas con el tag `div` y `class="card-content"`.
* El botón *Apply* lleva a una nueva web por lo que contiene un hipervínculo.
* El botón *Learn* lleva a la web de real python.


In [17]:
import requests
# from bs4 import BeautifulSoup

URL = "https://realpython.github.io/fake-jobs/"
page = requests.get(URL)

soup = BeautifulSoup(page.content, "html.parser")

In [19]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <title>
   Fake Python
  </title>
  <link href="https://cdn.jsdelivr.net/npm/bulma@0.9.2/css/bulma.min.css" rel="stylesheet"/>
 </head>
 <body>
  <section class="section">
   <div class="container mb-5">
    <h1 class="title is-1">
     Fake Python
    </h1>
    <p class="subtitle is-3">
     Fake Jobs for Your Web Scraping Journey
    </p>
   </div>
   <div class="container">
    <div class="columns is-multiline" id="ResultsContainer">
     <div class="column is-half">
      <div class="card">
       <div class="card-content">
        <div class="media">
         <div class="media-left">
          <figure class="image is-48x48">
           <img alt="Real Python Logo" src="https://files.realpython.com/media/real-python-logo-thumbnail.7f0db70c2ed2.jpg?__no_cf_polish=1"/>
          </figure>
         </div>
         <div class="media-content">
          <h2 c

Vemos que todos los puestos de trabajo están en un objeto indexado como `ResultsContainer`.

In [32]:
results = soup.find(id="ResultsContainer")
results

<div class="columns is-multiline" id="ResultsContainer">
<div class="column is-half">
<div class="card">
<div class="card-content">
<div class="media">
<div class="media-left">
<figure class="image is-48x48">
<img alt="Real Python Logo" src="https://files.realpython.com/media/real-python-logo-thumbnail.7f0db70c2ed2.jpg?__no_cf_polish=1"/>
</figure>
</div>
<div class="media-content">
<h2 class="title is-5">Senior Python Developer</h2>
<h3 class="subtitle is-6 company">Payne, Roberts and Davis</h3>
</div>
</div>
<div class="content">
<p class="location">
        Stewartbury, AA
      </p>
<p class="is-small has-text-grey">
<time datetime="2021-04-08">2021-04-08</time>
</p>
</div>
<footer class="card-footer">
<a class="card-footer-item" href="https://www.realpython.com" target="_blank">Learn</a>
<a class="card-footer-item" href="https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html" target="_blank">Apply</a>
</footer>
</div>
</div>
</div>
<div class="column is-half">


Con la función `prettify`se introducen tabulaciones que permiten visibilizar mejor el árbol

In [34]:
print(results.prettify())

<div class="columns is-multiline" id="ResultsContainer">
 <div class="column is-half">
  <div class="card">
   <div class="card-content">
    <div class="media">
     <div class="media-left">
      <figure class="image is-48x48">
       <img alt="Real Python Logo" src="https://files.realpython.com/media/real-python-logo-thumbnail.7f0db70c2ed2.jpg?__no_cf_polish=1"/>
      </figure>
     </div>
     <div class="media-content">
      <h2 class="title is-5">
       Senior Python Developer
      </h2>
      <h3 class="subtitle is-6 company">
       Payne, Roberts and Davis
      </h3>
     </div>
    </div>
    <div class="content">
     <p class="location">
      Stewartbury, AA
     </p>
     <p class="is-small has-text-grey">
      <time datetime="2021-04-08">
       2021-04-08
      </time>
     </p>
    </div>
    <footer class="card-footer">
     <a class="card-footer-item" href="https://www.realpython.com" target="_blank">
      Learn
     </a>
     <a class="card-footer-item" href=

Dentro de dichos contenedores, en `card-content` tenemos las distintas ofertas.

In [35]:
job_elements = results.find_all("div", class_="card-content")
print(job_elements[0].prettify())

<div class="card-content">
 <div class="media">
  <div class="media-left">
   <figure class="image is-48x48">
    <img alt="Real Python Logo" src="https://files.realpython.com/media/real-python-logo-thumbnail.7f0db70c2ed2.jpg?__no_cf_polish=1"/>
   </figure>
  </div>
  <div class="media-content">
   <h2 class="title is-5">
    Senior Python Developer
   </h2>
   <h3 class="subtitle is-6 company">
    Payne, Roberts and Davis
   </h3>
  </div>
 </div>
 <div class="content">
  <p class="location">
   Stewartbury, AA
  </p>
  <p class="is-small has-text-grey">
   <time datetime="2021-04-08">
    2021-04-08
   </time>
  </p>
 </div>
 <footer class="card-footer">
  <a class="card-footer-item" href="https://www.realpython.com" target="_blank">
   Learn
  </a>
  <a class="card-footer-item" href="https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html" target="_blank">
   Apply
  </a>
 </footer>
</div>



Dentro de ellas, podemos quedarnos con las cosas que nos interesan, como el título, la ubicación y el nombre de la compañía.

In [36]:
for job_element in job_elements:
    title_element = job_element.find("h2", class_="title")
    company_element = job_element.find("h3", class_="company")
    location_element = job_element.find("p", class_="location")
    print(title_element)
    print(company_element)
    print(location_element)
    print()

<h2 class="title is-5">Senior Python Developer</h2>
<h3 class="subtitle is-6 company">Payne, Roberts and Davis</h3>
<p class="location">
        Stewartbury, AA
      </p>

<h2 class="title is-5">Energy engineer</h2>
<h3 class="subtitle is-6 company">Vasquez-Davidson</h3>
<p class="location">
        Christopherville, AA
      </p>

<h2 class="title is-5">Legal executive</h2>
<h3 class="subtitle is-6 company">Jackson, Chambers and Levy</h3>
<p class="location">
        Port Ericaburgh, AA
      </p>

<h2 class="title is-5">Fitness centre manager</h2>
<h3 class="subtitle is-6 company">Savage-Bradley</h3>
<p class="location">
        East Seanview, AP
      </p>

<h2 class="title is-5">Product manager</h2>
<h3 class="subtitle is-6 company">Ramirez Inc</h3>
<p class="location">
        North Jamieview, AP
      </p>

<h2 class="title is-5">Medical technical officer</h2>
<h3 class="subtitle is-6 company">Rogers-Yates</h3>
<p class="location">
        Davidville, AP
      </p>

<h2 class="t

Para mejorar la legibilidad de la info, aplicamos el atributo `.text`y un `.strip` que nos elimina espacios al principio y al final de los strings.

In [38]:
title_element.string.strip()

'Ship broker'

In [39]:
for job_element in job_elements:
    title_element = job_element.find("h2", class_="title")
    company_element = job_element.find("h3", class_="company")
    location_element = job_element.find("p", class_="location")
    print(title_element.text.strip())
    print(company_element.text.strip())
    print(location_element.text.strip())
    print()

Senior Python Developer
Payne, Roberts and Davis
Stewartbury, AA

Energy engineer
Vasquez-Davidson
Christopherville, AA

Legal executive
Jackson, Chambers and Levy
Port Ericaburgh, AA

Fitness centre manager
Savage-Bradley
East Seanview, AP

Product manager
Ramirez Inc
North Jamieview, AP

Medical technical officer
Rogers-Yates
Davidville, AP

Physiological scientist
Kramer-Klein
South Christopher, AE

Textile designer
Meyers-Johnson
Port Jonathan, AE

Television floor manager
Hughes-Williams
Osbornetown, AE

Waste management officer
Jones, Williams and Villa
Scotttown, AP

Software Engineer (Python)
Garcia PLC
Ericberg, AE

Interpreter
Gregory and Sons
Ramireztown, AE

Architect
Clark, Garcia and Sosa
Figueroaview, AA

Meteorologist
Bush PLC
Kelseystad, AA

Audiological scientist
Salazar-Meyers
Williamsburgh, AE

English as a second language teacher
Parker, Murphy and Brooks
Mitchellburgh, AE

Surgeon
Cruz-Brown
West Jessicabury, AA

Equities trader
Macdonald-Ferguson
Maloneshire, AE


Tenemos la opción de filtrar aquello que contiene una palabra en concreta dentro de un Tag. Podemos usar strings o funciones aplicadas sobre strings. Por ejemplo, no es lo mismo buscar que el título sea extactamente `"Python"` o que contenga la palabra.

In [72]:
python_jobs = results.find_all("h2", string="Python")
len(python_jobs)

0

In [40]:
def python_jobs(text):
    return "python" in text.lower()

python_jobs = results.find_all("h2", string=python_jobs)

for job in python_jobs:
    print(job.text, end="\n\n")

Senior Python Developer

Software Engineer (Python)

Python Programmer (Entry-Level)

Python Programmer (Entry-Level)

Software Developer (Python)

Python Developer

Back-End Web Developer (Python, Django)

Back-End Web Developer (Python, Django)

Python Programmer (Entry-Level)

Software Developer (Python)



In [74]:
python_jobs = results.find_all(
    "h2", string=lambda text: "python" in text.lower()
)

for job in python_jobs:
    print(job.text, end="\n\n")

Senior Python Developer

Software Engineer (Python)

Python Programmer (Entry-Level)

Python Programmer (Entry-Level)

Software Developer (Python)

Python Developer

Back-End Web Developer (Python, Django)

Back-End Web Developer (Python, Django)

Python Programmer (Entry-Level)

Software Developer (Python)



In [41]:
python_jobs

[<h2 class="title is-5">Senior Python Developer</h2>,
 <h2 class="title is-5">Software Engineer (Python)</h2>,
 <h2 class="title is-5">Python Programmer (Entry-Level)</h2>,
 <h2 class="title is-5">Python Programmer (Entry-Level)</h2>,
 <h2 class="title is-5">Software Developer (Python)</h2>,
 <h2 class="title is-5">Python Developer</h2>,
 <h2 class="title is-5">Back-End Web Developer (Python, Django)</h2>,
 <h2 class="title is-5">Back-End Web Developer (Python, Django)</h2>,
 <h2 class="title is-5">Python Programmer (Entry-Level)</h2>,
 <h2 class="title is-5">Software Developer (Python)</h2>]

In [45]:
python_jobs[0].parent.parent.parent

<div class="card-content">
<div class="media">
<div class="media-left">
<figure class="image is-48x48">
<img alt="Real Python Logo" src="https://files.realpython.com/media/real-python-logo-thumbnail.7f0db70c2ed2.jpg?__no_cf_polish=1"/>
</figure>
</div>
<div class="media-content">
<h2 class="title is-5">Senior Python Developer</h2>
<h3 class="subtitle is-6 company">Payne, Roberts and Davis</h3>
</div>
</div>
<div class="content">
<p class="location">
        Stewartbury, AA
      </p>
<p class="is-small has-text-grey">
<time datetime="2021-04-08">2021-04-08</time>
</p>
</div>
<footer class="card-footer">
<a class="card-footer-item" href="https://www.realpython.com" target="_blank">Learn</a>
<a class="card-footer-item" href="https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html" target="_blank">Apply</a>
</footer>
</div>

Una vez localizados los trabajos que contienen la palabra clave, extraigamos el objeto que lo contiene yendo a sus parents hasta encontrar los `card-content`.

In [49]:
python_job_elements = [
    h2_element.parent.parent.parent for h2_element in python_jobs
]

for job in python_job_elements:
    print(f'{job.h2.text} ({job.time["datetime"]}):\n {job.prettify()}', end="\n\n")

Senior Python Developer (2021-04-08):
 <div class="card-content">
 <div class="media">
  <div class="media-left">
   <figure class="image is-48x48">
    <img alt="Real Python Logo" src="https://files.realpython.com/media/real-python-logo-thumbnail.7f0db70c2ed2.jpg?__no_cf_polish=1"/>
   </figure>
  </div>
  <div class="media-content">
   <h2 class="title is-5">
    Senior Python Developer
   </h2>
   <h3 class="subtitle is-6 company">
    Payne, Roberts and Davis
   </h3>
  </div>
 </div>
 <div class="content">
  <p class="location">
   Stewartbury, AA
  </p>
  <p class="is-small has-text-grey">
   <time datetime="2021-04-08">
    2021-04-08
   </time>
  </p>
 </div>
 <footer class="card-footer">
  <a class="card-footer-item" href="https://www.realpython.com" target="_blank">
   Learn
  </a>
  <a class="card-footer-item" href="https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html" target="_blank">
   Apply
  </a>
 </footer>
</div>


Software Engineer (Python) (2021

In [54]:
links

[<a class="card-footer-item" href="https://www.realpython.com" target="_blank">Learn</a>,
 <a class="card-footer-item" href="https://realpython.github.io/fake-jobs/jobs/software-developer-python-90.html" target="_blank">Apply</a>]

In [51]:
for job_element in python_job_elements:
    # -- snip --
    links = job_element.find_all("a")
    for link in links:
        link_url = link["href"]
        print(f"Apply here: {link_url}\n")

Apply here: https://www.realpython.com

Apply here: https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html

Apply here: https://www.realpython.com

Apply here: https://realpython.github.io/fake-jobs/jobs/software-engineer-python-10.html

Apply here: https://www.realpython.com

Apply here: https://realpython.github.io/fake-jobs/jobs/python-programmer-entry-level-20.html

Apply here: https://www.realpython.com

Apply here: https://realpython.github.io/fake-jobs/jobs/python-programmer-entry-level-30.html

Apply here: https://www.realpython.com

Apply here: https://realpython.github.io/fake-jobs/jobs/software-developer-python-40.html

Apply here: https://www.realpython.com

Apply here: https://realpython.github.io/fake-jobs/jobs/python-developer-50.html

Apply here: https://www.realpython.com

Apply here: https://realpython.github.io/fake-jobs/jobs/back-end-web-developer-python-django-60.html

Apply here: https://www.realpython.com

Apply here: https://realpython.github

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio web scrapping</h3>

      
<ol>
    <li>Quédate sólo con los enlaces de aplicación y descarta los de Learn</li>
    <li>Imprime por pantalla {Nombre del trabajo}: {url}</li>
    <li>Accede a la primera URL e inspecciona lo que tiene</li>
</ol>
         
 </td></tr>
</table>

In [71]:
# for job_element in python_job_elements:
#     # -- snip --
#     links = job_element.find_all("a")
#     for link in links:
#         if "appl" in link.string.lower():
#             link_url = link["href"]
#             print(f"Apply here: {link_url}\n")

# for job_element in python_job_elements:
#     # -- snip --
#     links = job_element.find_all("a")
#     hrefs = links[1]["href"]
#     print(f"Apply here: {hrefs}\n")

for job_element in python_job_elements:
    # -- snip --
    links = job_element.find_all("footer")
    print(links[0].contents[3]["href"], end="\n\n")


https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html

https://realpython.github.io/fake-jobs/jobs/software-engineer-python-10.html

https://realpython.github.io/fake-jobs/jobs/python-programmer-entry-level-20.html

https://realpython.github.io/fake-jobs/jobs/python-programmer-entry-level-30.html

https://realpython.github.io/fake-jobs/jobs/software-developer-python-40.html

https://realpython.github.io/fake-jobs/jobs/python-developer-50.html

https://realpython.github.io/fake-jobs/jobs/back-end-web-developer-python-django-60.html

https://realpython.github.io/fake-jobs/jobs/back-end-web-developer-python-django-70.html

https://realpython.github.io/fake-jobs/jobs/python-programmer-entry-level-80.html

https://realpython.github.io/fake-jobs/jobs/software-developer-python-90.html



In [76]:
for job_element in python_job_elements:
    # -- snip --
    links = job_element.find_all("a")
    hrefs = links[1]["href"]
    name = job_element.h2.text
    print(f"{name}: {hrefs}\n")

Senior Python Developer: https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html

Software Engineer (Python): https://realpython.github.io/fake-jobs/jobs/software-engineer-python-10.html

Python Programmer (Entry-Level): https://realpython.github.io/fake-jobs/jobs/python-programmer-entry-level-20.html

Python Programmer (Entry-Level): https://realpython.github.io/fake-jobs/jobs/python-programmer-entry-level-30.html

Software Developer (Python): https://realpython.github.io/fake-jobs/jobs/software-developer-python-40.html

Python Developer: https://realpython.github.io/fake-jobs/jobs/python-developer-50.html

Back-End Web Developer (Python, Django): https://realpython.github.io/fake-jobs/jobs/back-end-web-developer-python-django-60.html

Back-End Web Developer (Python, Django): https://realpython.github.io/fake-jobs/jobs/back-end-web-developer-python-django-70.html

Python Programmer (Entry-Level): https://realpython.github.io/fake-jobs/jobs/python-programmer-entry-le

In [78]:
def visit_web(url):
    soup = BeautifulSoup(requests.get(url).content, parser='lxml')
    return soup

In [101]:
for job_element in python_job_elements:
    # -- snip --
    links = job_element.find_all("a")
    hrefs = links[1]["href"]
    name = job_element.h2.text
    print(f"{name}: {hrefs}\n")

    sub_soup = visit_web(hrefs)

    try:
        print("Description: {}".format(sub_soup.find_all("p")[1].text))
    except IndexError:
        print("DESCRIPCIÓN NO DISPONIBLE")
    
    print("\n\n")

Senior Python Developer: https://realpython.github.io/fake-jobs/jobs/senior-python-developer-0.html

Description: Professional asset web application environmentally friendly detail-oriented asset. Coordinate educational dashboard agile employ growth opportunity. Company programs CSS explore role. Html educational grit web application. Oversea SCRUM talented support. Web Application fast-growing communities inclusive programs job CSS. Css discussions growth opportunity explore open-minded oversee. Css Python environmentally friendly collaborate inclusive role. Django no experience oversee dashboard environmentally friendly willing to learn programs. Programs open-minded programs asset.



Software Engineer (Python): https://realpython.github.io/fake-jobs/jobs/software-engineer-python-10.html

Description: Collaborate discussions responsible tech growth opportunity dashboard. Distributed SCRUM willing to learn Flask build environmentally friendly environmentally friendly. Python distribu