In [1]:
# Importamos las librerías que vamos a necesitar
from bs4 import BeautifulSoup
import requests

In [2]:
with open('html/simple.html', 'r') as html_file:
    soup = BeautifulSoup(html_file, 'lxml') # Aquí especificamos el parser.

print(soup)

<!DOCTYPE html>
<html class="no-js" lang="">
<head>
<title>Test - A Sample Website</title>
<meta charset="utf-8"/>
<link href="css/normalize.css" rel="stylesheet"/>
<link href="css/main.css" rel="stylesheet"/>
</head>
<body>
<h1 id="site_title">Test Website</h1>
<hr/>
<div class="article">
<h2><a href="article_1.html">Article 1 Headline</a></h2>
<p>This is a summary of article 1</p>
</div>
<hr/>
<div class="article">
<h2><a href="article_2.html">Article 2 Headline</a></h2>
<p>This is a summary of article 2</p>
</div>
<hr/>
<div class="footer">
<p>Footer Information</p>
</div>
<script src="js/vendor/modernizr-3.5.0.min.js"></script>
<script src="js/plugins.js"></script>
<script src="js/main.js"></script>
</body>
</html>


Como podemos ver, es muy complicado leer las distintas etiquetas que hay en nuestro archivo html simplemente a través de la creación del objeto soup. Para mostrar la jerarquía de indentaciones tal y como la vemos en el archivo simple.html, podemos utilizar la función `prettify()`

In [3]:
print(soup.prettify())

<!DOCTYPE html>
<html class="no-js" lang="">
 <head>
  <title>
   Test - A Sample Website
  </title>
  <meta charset="utf-8"/>
  <link href="css/normalize.css" rel="stylesheet"/>
  <link href="css/main.css" rel="stylesheet"/>
 </head>
 <body>
  <h1 id="site_title">
   Test Website
  </h1>
  <hr/>
  <div class="article">
   <h2>
    <a href="article_1.html">
     Article 1 Headline
    </a>
   </h2>
   <p>
    This is a summary of article 1
   </p>
  </div>
  <hr/>
  <div class="article">
   <h2>
    <a href="article_2.html">
     Article 2 Headline
    </a>
   </h2>
   <p>
    This is a summary of article 2
   </p>
  </div>
  <hr/>
  <div class="footer">
   <p>
    Footer Information
   </p>
  </div>
  <script src="js/vendor/modernizr-3.5.0.min.js">
  </script>
  <script src="js/plugins.js">
  </script>
  <script src="js/main.js">
  </script>
 </body>
</html>


Pongamos que queremos acceder al título de este html

In [5]:
# Así accedemos al título con sus etiquetas
titulo_etiquetas = soup.title

#así nos quedamos solo ocn las etiquetas
titulo_texto = soup.title.text

print(f"Título con etiquetas: {titulo_etiquetas}")
print(f"Título con texto: {titulo_texto}")

Título con etiquetas: <title>Test - A Sample Website</title>
Título con texto: Test - A Sample Website


Cuando accedemos a las distintas etiquetas de la forma vista arriba, simplemente nos quedamos con el primer valor que hay en la página. Vamos a verlo en un ejemplo con el div

In [6]:
# La función find por defecto nos muestra el primer div
primer_div = soup.find('div')
print(primer_div)

<div class="article">
<h2><a href="article_1.html">Article 1 Headline</a></h2>
<p>This is a summary of article 1</p>
</div>


In [7]:
# Si especificamos el argumento  class_='footer', se nos mostrará el div del footer
footer_div = soup.find('div', class_='footer')
print(footer_div)

<div class="footer">
<p>Footer Information</p>
</div>


## Vamos a analizar el esqueleto de nuestro HTML ir a Chrome y pulsar inspect.
### Vemos que se repite la misma estructura
```
<div class=article>
    <h2>
        <a></a>
    </h2>
</div>
```

In [11]:
article = soup.find('div', class_='article')
print(article)

<div class="article">
<h2><a href="article_1.html">Article 1 Headline</a></h2>
<p>This is a summary of article 1</p>
</div>


In [12]:
headline = article.h2.a.text
print(headline)

summary = article.p.text
print(summary)

Article 1 Headline
This is a summary of article 1


## Esto puede sernos de utilidad si queremos localizar información muy específica.
## Pero ¿qué pasa si queremos recopilar toda la información de los artículos?

In [14]:
for article in soup.find_all('div', class_='article'):
    headline = article.h2.a.text
    print(headline)

    summary = article.p.text
    print(summary)
    
    print()

Article 1 Headline
This is a summary of article 1

Article 2 Headline
This is a summary of article 2

