# Pràctica 2 de PLN: web scraping
En aquesta pràctica realitzarem diferents exercicis sobre captura de continguts web (*web scraping*) usant les llibreries `request` i `BeautifulSoup`.

### Noms:
Introdueix en esta celda els noms dels integrats del grup:\
*Alumne 1* \
*Alumne 2*

In [534]:
import requests
from bs4 import BeautifulSoup

## Part 1: captura d'una notícia
En aquest apartat ens descarregarem una notícia d'una pàgina web i guardem el seu contingut en memòria.

In [535]:
url = "https://elpais.com/sociedad/2019/11/13/actualidad/1573632952_315974.html"
try:
    page = requests.get(url)
except:
    print("Error al abrir la URL")

In [536]:
# parseamos el html usando BeautifulSoup y lo guardamos en la variable `soup`
soup = BeautifulSoup(page.text, 'html.parser')

El contingut de l'article (text del cos) es troba dins d'un `<div>` de la pàgina amb les classes `a_c clearfix` (pots inspeccionar l'estructura HTML de la pàgina en el navegador per a comprovar-lo)

In [537]:
# Buscamos el <div> correspondiente y sacamos su contenido:
content = soup.find('div', {"class": "a_c clearfix"})

article = []
for i in content.find_all('p'):
    article.append(i.text)
    
print('\n'.join(article))

Los venecianos viven en esta época del año refrescando cada minuto la aplicación del Centro de Previsión de Mareas, que permite saber hasta qué nivel puede llegar el acqua alta. El martes había luna llena y muchos se temieron lo peor, pero se fueron a cenar con el último dato de 140 centímetros. Pasadas las diez empezaron a sonar las sirenas. Un viento de más de 120 kilómetros por hora formó un pequeño maremoto en la laguna que provocó una subida de hasta 187 centímetros, la mayor desde la histórica catástrofe de 1966. Muchas de las 71 góndolas de la Riva Degli Schiavoni rompieron las amarras y salieron flotando hasta dar contra las columnas del Palacio Ducal. Algunos barrios se quedaron a oscuras y el agua entró violentamente en la basílica de San Marcos. Luego comenzó una subida por toda la isla que causó dos muertos, anegó restaurantes, palacios y comercios y obligó a cerrar escuelas. La ciudad está en alerta hasta el viernes por riesgo de que este episodio se repita.
La ciudad empi

Ací s'han colat alguns paràgrafs que no pertanyen al cos de la notícia, sinó que estan en seccions interiors. Ho podem evitar usant el paràmetre `recursive=False`. 
A més l'últim paràgraf no forma part del cos de la memòria, el podem filtrar amb `*class_=""` perquè té un atribut de classe específic.

In [538]:
#optimizando el código
content = soup.find('div', {"class": "a_c clearfix"}).find_all('p', class_="",recursive=False)

article = ('\n').join([i.text for i in content])

print(article)

Los venecianos viven en esta época del año refrescando cada minuto la aplicación del Centro de Previsión de Mareas, que permite saber hasta qué nivel puede llegar el acqua alta. El martes había luna llena y muchos se temieron lo peor, pero se fueron a cenar con el último dato de 140 centímetros. Pasadas las diez empezaron a sonar las sirenas. Un viento de más de 120 kilómetros por hora formó un pequeño maremoto en la laguna que provocó una subida de hasta 187 centímetros, la mayor desde la histórica catástrofe de 1966. Muchas de las 71 góndolas de la Riva Degli Schiavoni rompieron las amarras y salieron flotando hasta dar contra las columnas del Palacio Ducal. Algunos barrios se quedaron a oscuras y el agua entró violentamente en la basílica de San Marcos. Luego comenzó una subida por toda la isla que causó dos muertos, anegó restaurantes, palacios y comercios y obligó a cerrar escuelas. La ciudad está en alerta hasta el viernes por riesgo de que este episodio se repita.
La ciudad empi

Si volguérem fer un filtrat més específic de paràgrafs o continguts, podem definir una funció lògica que retorne a `find_all` els elements a considerar:
```python
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')
```

Que després usem amb:

```python
content.find_all(has_class_but_no_id)
```


In [539]:
#Por ejemplo los párrafos que contienen la palabra basílica
def contiene_basilica(tag):
    return tag.name=='p' and 'basílica' in tag.text

content = soup.find('div', {"class": "a_c clearfix"})
content.find_all(contiene_basilica)

[<p class="">Los venecianos viven en esta época del año refrescando cada minuto la aplicación del Centro de Previsión de Mareas, que permite saber hasta qué nivel puede llegar el <em>acqua alta</em>. El martes había luna llena y muchos se temieron lo peor, pero se fueron a cenar con el último dato de 140 centímetros. Pasadas las diez empezaron a sonar las sirenas. Un viento de más de 120 kilómetros por hora formó un pequeño maremoto en la laguna que provocó una subida de hasta 187 centímetros, la mayor desde la histórica catástrofe de 1966. Muchas de las 71 góndolas de la Riva Degli Schiavoni rompieron las amarras y salieron flotando hasta dar contra las columnas del Palacio Ducal. Algunos barrios se quedaron a oscuras y el agua entró violentamente en la basílica de San Marcos. Luego comenzó una subida por toda la isla que causó dos muertos, anegó restaurantes, palacios y comercios y obligó a cerrar escuelas. La ciudad está en alerta hasta el viernes por riesgo de que este episodio se 

### Exercici 1
Cerca els paràgrafs dins de l'etiqueta `<div>` amb el cos de la notícia que continguen un element de tipus enllace (`<a>`)

In [540]:
#Por ejemplo los párrafos que contienen la palabra basílica
def tipo_a(tag):
    return tag.name=='a'

content = soup.find('div', {"class": "a_c clearfix"})
content.find_all(tipo_a)

[<a href="https://elpais.com/tag/cambio_climatico/a" target="_blank">cambio climático</a>,
 <a class="_db _pr" href="https://elpais.com/elpais/2019/11/13/album/1573633185_469059.html#?rel=listaapoyo"><img class="_re lazyload a_m-h" decoding="auto" height="110" loading="lazy" src="https://imagenes.elpais.com/resizer/E2eDNTKJAJGk9pJRgf4EFRlgy0Q=/146x110/cloudfront-eu-central-1.images.arcpublishing.com/prisa/MOJW26QEBPC427WK5DVAEBJQLE.jpg" srcset="https://imagenes.elpais.com/resizer/E2eDNTKJAJGk9pJRgf4EFRlgy0Q=/146x110/cloudfront-eu-central-1.images.arcpublishing.com/prisa/MOJW26QEBPC427WK5DVAEBJQLE.jpg 414w,https://imagenes.elpais.com/resizer/hpqhTKBm00daJopI36X6iuOOMqo=/292x219/cloudfront-eu-central-1.images.arcpublishing.com/prisa/MOJW26QEBPC427WK5DVAEBJQLE.jpg 640w" width="146"/></a>,
 <a class="a_mi_e _db" href="https://elpais.com/elpais/2019/11/13/album/1573633185_469059.html#?rel=listaapoyo">Las inundaciones en Venecia, en imágenes</a>,
 <a class="a_mi_e _db" href="https://elpais.c

## Part 2: captura de dades meteorològiques
En aquest apartat capturarem dades meteorològiques de la Comunitat Valenciana des de la pàgina de la [AVAMET (Associació valenciana de meteorologia)](https://www.avamet.org).

In [541]:
#esta página contiene los datos meteorológicos de un día concreto
fecha = '2021-02-10'
r = requests.get("https://www.avamet.org/mx-meteoxarxa.php", params={'id':fecha})

In [542]:
soup = BeautifulSoup(r.text, "html.parser")

Les dades de tots els municipis de la CV estan en una taula de classe `tDades`

In [543]:
tabla = soup.find("table", class_="tDades")

Dins de la taula, les dades estan en les files (`<tr>`) que tenen un element`<td class='rEsta'>`. Definim una funció per a filtrar etiquetes amb aquesta classe i busquem tots els elements interns a la taula:

In [544]:
def clase_rEsta(tag):
    return tag.find(class_="rEsta")

In [545]:
loc = tabla.find_all(clase_rEsta)

In [546]:
len(loc)

656

Ens fixem per exemple en el primer element d'aquesta llista:

In [547]:
print(loc[0].prettify())

<tr>
 <td class="rEsta">
  <a class="negre" href="mx-fitxa.php?id=c01m038e20">
   <img alt="" height="13" src="imatges/2017/clas/estrela-mx-.png" title="" width="13">
    Castellfort
    <span class="rEstaDmxo">
     <span class="ptda">
     </span>
     AEMET
    </span>
   </img>
  </a>
 </td>
 <td class="rValm colornT16">
  2,4
 </td>
 <td class="rValm colornT17">
  4,7
 </td>
 <td class="rValm colornT18">
  7,0
 </td>
 <td class="rVal">
 </td>
 <td class="rValm colorP">
  0,0
 </td>
 <td class="rVal">
 </td>
 <td class="rVal">
 </td>
 <td class="rVal">
  <b>
  </b>
 </td>
</tr>



Veiem que algunes de les cel·les d'aquesta fila tenen elements de tipus `<span>`. Si no ens interessen els podríem eliminar amb el mètode `,decompose()` del Tag. Però com el text ens interessa fiquem un espai per a separar el contingut en extraure el text posteriorment amb `.text()`:

In [548]:
for t in loc:
    for t in t.find_all('span', class_="rEstaDmxo"):
        t.insert_before(' ')
print(loc[0].prettify())

<tr>
 <td class="rEsta">
  <a class="negre" href="mx-fitxa.php?id=c01m038e20">
   <img alt="" height="13" src="imatges/2017/clas/estrela-mx-.png" title="" width="13">
    Castellfort
    <span class="rEstaDmxo">
     <span class="ptda">
     </span>
     AEMET
    </span>
   </img>
  </a>
 </td>
 <td class="rValm colornT16">
  2,4
 </td>
 <td class="rValm colornT17">
  4,7
 </td>
 <td class="rValm colornT18">
  7,0
 </td>
 <td class="rVal">
 </td>
 <td class="rValm colorP">
  0,0
 </td>
 <td class="rVal">
 </td>
 <td class="rVal">
 </td>
 <td class="rVal">
  <b>
  </b>
 </td>
</tr>



In [549]:
#Cada celda <td> dentro de la fila es una columna de la tabla
[t.text.strip() for t in loc[0].find_all("td")]

['Castellfort AEMET', '2,4', '4,7', '7,0', '', '0,0', '', '', '']

In [550]:
[t for t in loc[0].find_all("td")]

[<td class="rEsta"><a class="negre" href="mx-fitxa.php?id=c01m038e20"><img alt="" height="13" src="imatges/2017/clas/estrela-mx-.png" title="" width="13"> Castellfort <span class="rEstaDmxo"><span class="ptda"></span>AEMET</span></img></a> </td>,
 <td class="rValm colornT16">2,4 </td>,
 <td class="rValm colornT17">4,7 </td>,
 <td class="rValm colornT18">7,0 </td>,
 <td class="rVal"> </td>,
 <td class="rValm colorP">0,0 </td>,
 <td class="rVal"> </td>,
 <td class="rVal"> </td>,
 <td class="rVal"><b> </b></td>]

In [551]:
#Capturamos toda la tabla
datos = [[t.text.strip() for t in l.find_all("td")] for l in loc]

In [552]:
#Todas las filas tienen los mismos datos
[len(d) for d in datos]

[9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,
 9,


Ara exportem la taula com un DataFrame de `pandas`:

In [553]:
import pandas as pd

In [554]:
data_matrix = pd.DataFrame(datos, columns = ['localidad','Temp','Tmax','Tmin','Humedad','Precip',
                      'Vel.viento','Dir.viento','Vmax_viento']) #Definimos el nombre de las columnas

In [555]:
data_matrix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 656 entries, 0 to 655
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   localidad    656 non-null    object
 1   Temp         656 non-null    object
 2   Tmax         656 non-null    object
 3   Tmin         656 non-null    object
 4   Humedad      656 non-null    object
 5   Precip       656 non-null    object
 6   Vel.viento   656 non-null    object
 7   Dir.viento   656 non-null    object
 8   Vmax_viento  656 non-null    object
dtypes: object(9)
memory usage: 46.2+ KB


In [556]:
data_matrix.head(5)

Unnamed: 0,localidad,Temp,Tmax,Tmin,Humedad,Precip,Vel.viento,Dir.viento,Vmax_viento
0,Castellfort AEMET,24,47,70,,0,,,
1,Cinctorres,44,74,99,61.0,6,169.0,NO,740.0
2,Forcall,16,79,123,64.0,8,92.0,NO,515.0
3,Morella centre,44,74,106,64.0,12,106.0,O,563.0
4,Morella Fàbrica Giner,6,78,114,66.0,12,24.0,O,354.0


També podíem llegir directament la taula en pandas amb el mètode `read_HTML`

In [557]:
#hace falta instalar la librería 'lxml'
df = pd.read_html(str(tabla))[0] #devuelve una lista de dataframes
df.head(10)

Unnamed: 0_level_0,Estació,Temperatura (°C),Temperatura (°C),Temperatura (°C),HR (%),Prec. (mm),Vent,Vent,Vent
Unnamed: 0_level_1,Estació,Mín,Mit,Màx,Mit,Prec. (mm),Mit,Dir,Màx
0,Província de Castelló,Província de Castelló,Província de Castelló,Província de Castelló,Província de Castelló,Província de Castelló,Província de Castelló,Província de Castelló,
1,els Ports,els Ports,els Ports,els Ports,els Ports,els Ports,els Ports,els Ports,
2,Castellfort AEMET,24,47,70,,00,,,
3,Cinctorres,44,74,99,61,06,169,NO,740.0
4,Forcall,16,79,123,64,08,92,NO,515.0
5,Morella centre,44,74,106,64,12,106,O,563.0
6,Morella Fàbrica Giner,06,78,114,66,12,24,O,354.0
7,Morella Poliesportiu AEMET,37,65,94,,14,,,850.0
8,Olocau del Rei la Magdalena,30,55,91,69,08,330,ONO,853.0
9,Portell de Morella,42,69,96,63,02,206,ONO,692.0


### Exercici 2
Crea un script per a capturar les dades d'un territori i una data concretes a través de la URL:\
`https://www.avamet.org/mx-meteoxarxa.php?id={fecha}&territori={territorio}`\
Els codis de cada territori estan en l'element `select` següent:

In [558]:
select = soup.find("select", attrs={'name':"freg_territori"})

In [559]:
#r = requests.get("https://www.avamet.org/mx-meteoxarxa.php", params={'id':fecha, 'territori': 'c03'})
valores = select.findAll("option")
df2 = pd.DataFrame()

for valor in valores :
    r2 = requests.get("https://www.avamet.org/mx-meteoxarxa.php", params={'id':fecha, 'territori': valor["value"]})
    soup2 = BeautifulSoup(r.text, "html.parser")
    tabla2 = soup2.find("table", class_="tDades")
    df_aux = pd.read_html(str(tabla2))[0]
    df2 = pd.concat([df2 ,df_aux])

df2



Unnamed: 0_level_0,Estació,Temperatura (°C),Temperatura (°C),Temperatura (°C),HR (%),Prec. (mm),Vent,Vent,Vent
Unnamed: 0_level_1,Estació,Mín,Mit,Màx,Mit,Prec. (mm),Mit,Dir,Màx
0,Província de Castelló,Província de Castelló,Província de Castelló,Província de Castelló,Província de Castelló,Província de Castelló,Província de Castelló,Província de Castelló,
1,els Ports,els Ports,els Ports,els Ports,els Ports,els Ports,els Ports,els Ports,
2,CastellfortAEMET,24,47,70,,00,,,
3,Cinctorres,44,74,99,61,06,169,NO,740.0
4,Forcall,16,79,123,64,08,92,NO,515.0
...,...,...,...,...,...,...,...,...,...
696,Torremocha del Jiloca,-14,50,111,75,22,130,NO,547.0
697,Monteagudo del CastilloEl Portero,-43,19,71,81,16,140,NNE,440.0
698,Bronchales,-04,13,36,88,42,352,O,917.0
699,Província de Województwo małopolskie (Polònia),Província de Województwo małopolskie (Polònia),Província de Województwo małopolskie (Polònia),Província de Województwo małopolskie (Polònia),Província de Województwo małopolskie (Polònia),Província de Województwo małopolskie (Polònia),Província de Województwo małopolskie (Polònia),Província de Województwo małopolskie (Polònia),


### exercici extra:
Captura les dades durant un mes de l'estació de 'València *Camins al Grau' i representa gràficament la seua temperatura mitjana 

In [560]:
# Solución


## Part 3: dades de la Wikipedia
En aquesta part obtindrem les URL de les entrades en la Wikipedia per a totes les províncies d'Espanya i obtindrem d'elles les seues dades bàsiques en forma de taula.\
El llistat de les províncies d'Espanya es pot descarregar de la pàgina de la Wikipedia següent:\
https://es.wikipedia.org/wiki/Provincia_(España)

In [561]:
r = requests.get("https://es.wikipedia.org/wiki/Provincia_(España)")
soup = BeautifulSoup(r.text, "html.parser")

In [562]:
tabla = soup.find("table", class_="wikitable")

In [563]:
#todas las filas de la tabla (<tr>)
provincias = tabla.find_all("tr")

In [564]:
#los datos están en la primera celda <td> de cada fila a partir de la 1 (la fila 0 son los encabezados)
print(provincias[1].td.prettify())

<td>
 <a href="/wiki/%C3%81lava" title="Álava">
  Álava
 </a>
</td>



In [565]:
# extraemos el enlace
provincias[1].td.find("a")

<a href="/wiki/%C3%81lava" title="Álava">Álava</a>

In [566]:
enlaces = []
for p in provincias:
    if p.td:
        ref = p.td.find('a')
        enlaces.append(ref)

In [567]:
enlaces

[<a href="/wiki/%C3%81lava" title="Álava">Álava</a>,
 <a href="/wiki/Provincia_de_Albacete" title="Provincia de Albacete">Albacete</a>,
 <a href="/wiki/Provincia_de_Alicante" title="Provincia de Alicante">Alicante</a>,
 <a href="/wiki/Provincia_de_Almer%C3%ADa" title="Provincia de Almería">Almería</a>,
 <a class="mw-redirect" href="/wiki/Provincia_de_Asturias" title="Provincia de Asturias">Asturias</a>,
 <a href="/wiki/Provincia_de_%C3%81vila" title="Provincia de Ávila">Ávila</a>,
 <a href="/wiki/Provincia_de_Badajoz" title="Provincia de Badajoz">Badajoz</a>,
 <a href="/wiki/Provincia_de_Barcelona" title="Provincia de Barcelona">Barcelona</a>,
 <a href="/wiki/Provincia_de_Burgos" title="Provincia de Burgos">Burgos</a>,
 <a href="/wiki/Provincia_de_C%C3%A1ceres" title="Provincia de Cáceres">Cáceres</a>,
 <a href="/wiki/Provincia_de_C%C3%A1diz" title="Provincia de Cádiz">Cádiz</a>,
 <a class="mw-redirect" href="/wiki/Provincia_de_Cantabria" title="Provincia de Cantabria">Cantabria</a>,
 

In [568]:
enlaces_df = pd.DataFrame({'provincia': [e.attrs['title'] for e in enlaces],
                           'enlace': [e.attrs['href'] for e in enlaces]})

In [569]:
enlaces_df

Unnamed: 0,provincia,enlace
0,Álava,/wiki/%C3%81lava
1,Provincia de Albacete,/wiki/Provincia_de_Albacete
2,Provincia de Alicante,/wiki/Provincia_de_Alicante
3,Provincia de Almería,/wiki/Provincia_de_Almer%C3%ADa
4,Provincia de Asturias,/wiki/Provincia_de_Asturias
5,Provincia de Ávila,/wiki/Provincia_de_%C3%81vila
6,Provincia de Badajoz,/wiki/Provincia_de_Badajoz
7,Provincia de Barcelona,/wiki/Provincia_de_Barcelona
8,Provincia de Burgos,/wiki/Provincia_de_Burgos
9,Provincia de Cáceres,/wiki/Provincia_de_C%C3%A1ceres


Per exemple, creem el objecte `soup` per a la primera província:

In [570]:
r = requests.get("https://es.wikipedia.org"+enlaces_df['enlace'][0])
soup = BeautifulSoup(r.text, "html.parser")

Extraurem en un dataframe la informació geogràfica de la taula de la barra lateral dreta (atribut de classe `infobox`):

In [571]:
tabla = soup.find("table", class_="infobox")

Si inspecciones la seua estructura HTML veuràs una sèrie de tags `tr` de les quals pengen parells de tags `th` i `td` associades. Capturarem els seus textos en dues llistes: `dada` i `valor`, respectivamant.

In [572]:
dato, valor = [],[]
for t in tabla.find_all("tr"):
    if t.th:
        if t.td:
            dato.append(t.th.text)
            #valor.append(t.td.text) # aparecen caracteres especiales!
            valor.append(' '.join([text for text in t.td.stripped_strings]))

In [573]:
datos = pd.DataFrame({'Dato': dato, 'Valor': valor})
datos

Unnamed: 0,Dato,Valor
0,Coordenadas,"42°50′00″N 2°45′00″O ﻿ / ﻿ 42.833333333333, -2.75"
1,Capital,Vitoria
2,Idioma oficial,Español y euskera
3,Entidad,Provincia de España
4,• País,España
5,• Comunidad,País Vasco
6,CongresoSenadoParlamento VascoJuntas Generales...,4 diputados 4 senadores 25 parlamentarios auto...
7,Subdivisiones,7 comarcas 51 municipios
8,Fundación,División territorial de 1833
9,Superficie,Puesto 48.º


### Exercici 3
Crea una taula (dataframe) amb la capital, la superfície i la població de cada província d'Espanya.\
Per a trobar en la taula aquestes dades podem fer:

In [574]:
tabla.find(string='Capital').next.text

'\nVitoria'

In [575]:
tabla.find(string='Superficie').parent.parent.parent.next_sibling.text

'\xa0• Total\n3037 km²\xa0(0,60\xa0%)'

In [576]:
tabla.find(string='Población').parent.parent.parent.next_sibling.text

'\xa0• Total\n334\xa0412\xa0hab.\xa0(0,70\xa0%)'

Hauràs d'usar expressions regulars per a extraure d'aquests *strings el text buscat. Si la informació no està disponible per a alguna província, emplena la cel·la amb un *string* buit.

In [578]:
import re

lista = list()
for provincia in enlaces_df['enlace']:

    r2 = requests.get("https://es.wikipedia.org"+provincia)
    soup2 = BeautifulSoup(r2.text, "html.parser")
    tabla2 = soup2.find("table", class_="infobox")           
    #solución
    capital = tabla2.find(string='Capital').next.text.strip()
    superficie = re.findall(r'\d+ km²',tabla2.find(string='Superficie').parent.parent.parent.next_sibling.text)[0]
    poblacion = re.findall(r'([\d+\xa0]+hab)', tabla2.find(string='Población').parent.parent.parent.next_sibling.text)[0].replace('\xa0',' ')

    print(capital + " " + superficie + " " + poblacion + "\n")
    lista.append({'Capital': capital, 'Superficie': superficie, 'Poblacion': poblacion})
df3 = pd.DataFrame(lista)


Vitoria 3037 km² 334 412 hab

Albacete 926 km² 386 464 hab

Alicante 5816 km² 594 hab

Almería 8774 km² 731 792 hab

Oviedo43°31′46″N 5°40′38″O﻿ / ﻿43.52931, -5.67732 57 km² 1 004 499 hab

Ávila 15 km² 158 421 hab

Badajoz 766 km² 943 hab



IndexError: list index out of range