In [1]:
# Documentación da libraría BeautifulSoup
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [2]:
# Librarías básicas
import requests
from bs4 import BeautifulSoup

In [3]:
# https://bigdatawirtz.github.io/exemplo-web/08.html
url = 'https://bigdatawirtz.github.io/exemplo-web/08.html'
paxina = requests.get(url)

soup = BeautifulSoup(paxina.content,'html.parser')
#soup
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Páxina web con seccións
  </title>
  <meta charset="utf-8"/>
 </head>
 <body>
  <article>
   <header class="art">
    <h1>
     Título do artigo
    </h1>
    <p>
     Introducción do artigo
    </p>
   </header>
   <section id="main_content">
    <p>
     Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
    </p>
   </section>
   <section id="aux_content">
    <p>
     Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
    </p>
   </section>
   <footer class="art">
    <p>
     Pé do artigo
    </p>
   </footer>
  </article>
  <footer class="web">
   <p>
    Pé de toda a web
   </p>
  </footer>
 </body

In [4]:
soup

<!DOCTYPE html>

<html>
<head>
<title>Páxina web con seccións</title>
<meta charset="utf-8"/>
</head>
<body>
<article>
<header class="art">
<h1>Título do artigo</h1>
<p>Introducción do artigo</p>
</header>
<section id="main_content">
<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.</p>
</section>
<section id="aux_content">
<p>Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.</p>
</section>
<footer class="art">
<p>Pé do artigo</p>
</footer>
</article>
<footer class="web">
<p>Pé de toda a web</p>
</footer>
</body>
</html>

In [5]:
# Mostrar footers
# Temos dous footers (un do artigo e outro da web)
soup.find_all('footer')

[<footer class="art">
 <p>Pé do artigo</p>
 </footer>,
 <footer class="web">
 <p>Pé de toda a web</p>
 </footer>]

In [6]:
# Ademais de seleccionar por etiqueta...
# tamén podemos seleccionar por clase
soup.find_all(class_='art')

[<header class="art">
 <h1>Título do artigo</h1>
 <p>Introducción do artigo</p>
 </header>,
 <footer class="art">
 <p>Pé do artigo</p>
 </footer>]

In [7]:
# Seleccionar por etiqueta e clase
# Seleccionar o footer da clase art
soup.find_all('footer', class_='art')

[<footer class="art">
 <p>Pé do artigo</p>
 </footer>]

In [8]:
# Seleccionar o header da clase art
soup.find_all('header', class_='art')

[<header class="art">
 <h1>Título do artigo</h1>
 <p>Introducción do artigo</p>
 </header>]

In [9]:
# Seleccionar por id
# os ids identifican elementos únicos na web -> find, en lugar de find_all
soup.find(id='main_content')

<section id="main_content">
<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.</p>
</section>

In [10]:
# Buscar "article"
soup.article

<article>
<header class="art">
<h1>Título do artigo</h1>
<p>Introducción do artigo</p>
</header>
<section id="main_content">
<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.</p>
</section>
<section id="aux_content">
<p>Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.</p>
</section>
<footer class="art">
<p>Pé do artigo</p>
</footer>
</article>

In [11]:
# Podemos construír unha lista cos elementos "fillos" ou "dentro" de *article*
soup.article.contents

['\n',
 <header class="art">
 <h1>Título do artigo</h1>
 <p>Introducción do artigo</p>
 </header>,
 '\n',
 <section id="main_content">
 <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.</p>
 </section>,
 '\n',
 <section id="aux_content">
 <p>Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.</p>
 </section>,
 '\n',
 <footer class="art">
 <p>Pé do artigo</p>
 </footer>,
 '\n']

In [12]:
# Convén eliminar os \n para deixar unicamente os contidos na lista
contidos = soup.article.contents
while '\n' in contidos: 
    contidos.remove('\n')
contidos

[<header class="art">
 <h1>Título do artigo</h1>
 <p>Introducción do artigo</p>
 </header>,
 <section id="main_content">
 <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.</p>
 </section>,
 <section id="aux_content">
 <p>Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.</p>
 </section>,
 <footer class="art">
 <p>Pé do artigo</p>
 </footer>]

In [13]:
# Acceso aos contidos
contidos[0]

<header class="art">
<h1>Título do artigo</h1>
<p>Introducción do artigo</p>
</header>

In [14]:
contidos[1]

<section id="main_content">
<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.</p>
</section>

In [15]:
contidos[1].contents

['\n',
 <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.</p>,
 '\n']

## Scraping de táboas

A miúdo, a información que nos interesa descargar está en táboas y nuestro objetivo es importarlas en tablas de Pandas. Esta conversión acostuma exixir a manipulación do texto, números e dats contidas na táboa orixinal.

A estrutura típica dunha tábao en `html` é:

```
<table>
    <thead>
        <tr>
            <th>Columna A</th>
            <th>Columna B</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>A1</td>
            <td>B1</td>
        </tr>
        <tr>
            <td>A2</td>
            <td>B2</td>
        </tr>
    </tbody>
</table>   
```

In [31]:
# https://bigdatawirtz.github.io/exemplo-web/05.html
url = 'https://bigdatawirtz.github.io/exemplo-web/05.html'
paxina = requests.get(url)

soup = BeautifulSoup(paxina.content,'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Tablas
  </title>
  <meta charset="utf-8"/>
 </head>
 <body>
  <table border="2" title="Tabla de Gastos">
   <caption>
    Tabla de Gastos
   </caption>
   <thead>
    <tr>
     <th>
      Mes
     </th>
     <th>
      Ganacias
     </th>
    </tr>
   </thead>
   <tbody>
    <tr>
     <td>
      Enero
     </td>
     <td>
      100 €
     </td>
    </tr>
    <tr>
     <td>
      Febrero
     </td>
     <td>
      80 €
     </td>
    </tr>
   </tbody>
   <tfoot>
    <tr>
     <td>
      Total
     </td>
     <td>
      180 €
     </td>
    </tr>
   </tfoot>
  </table>
  <hr/>
  <table border="1" title="Tabla de pruebas">
   <caption>
    Tabla de pruebas de colspan y rowspan
   </caption>
   <tbody>
    <tr>
     <td colspan="2">
      Esto tiene un colspan de 2
     </td>
    </tr>
    <tr>
     <td rowspan="2">
      Esta tiene un rowspan de 2
     </td>
     <td>
      nada por aquí
     </td>
    </tr>
    <tr>
     <td>
      Una cosa
  

In [32]:
taboa_gastos = soup.find('table')
taboa_gastos

<table border="2" title="Tabla de Gastos">
<caption>Tabla de Gastos</caption>
<thead>
<tr>
<th>Mes</th>
<th>Ganacias</th>
</tr>
</thead>
<tbody>
<tr>
<td>Enero</td>
<td>100 €</td>
</tr>
<tr>
<td>Febrero</td>
<td>80 €</td>
</tr>
</tbody>
<tfoot>
<tr>
<td>Total</td>
<td>180 €</td>
</tr>
</tfoot>
</table>

In [47]:
#for i in taboa_gastos.find_all('tr'):
taboa_gastos.find('tr').find('th').text


'Mes'

In [57]:
lista = []
temp_lista = []

for fila in taboa_gastos.find_all('tr'):
    for linha in fila.find_all(['td','th']):
        temp_lista.append(linha.text)
    lista.append(temp_lista)
    temp_lista = []
    
lista

[['Mes', 'Ganacias'],
 ['Enero', '100 €'],
 ['Febrero', '80 €'],
 ['Total', '180 €']]

In [59]:
import pandas as pd

In [61]:
# Creamos dataframe
df = pd.DataFrame(lista)
df

Unnamed: 0,0,1
0,Mes,Ganacias
1,Enero,100 €
2,Febrero,80 €
3,Total,180 €


In [73]:
# Creamos dataframe e axustamos headers
df = pd.DataFrame(lista)
df = df.rename(columns=df.iloc[0]).drop(0)
df

Unnamed: 0,Mes,Ganacias
1,Enero,100 €
2,Febrero,80 €
3,Total,180 €


In [75]:
# Axustamos os index
df.set_index('Mes')

Unnamed: 0_level_0,Ganacias
Mes,Unnamed: 1_level_1
Enero,100 €
Febrero,80 €
Total,180 €
