<a href="https://colab.research.google.com/github/vicentcamison/idal_ia3/blob/main/5%20Procesado%20del%20lenguaje%20natural/Sesion%201/P1_Web_Scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Práctica 2 de PLN: web scraping
En esta práctica vamos a realizar distintos ejercicios sobre captura de contenidos web (web scraping) usando las librerñias `request` y `BeautifulSoup`.

### Nombres:
Introduce en esta celda los nombres de los dos integrantes del grupo:\
*Alumno 1* \
*Alumno 2*

In [None]:
import requests
from bs4 import BeautifulSoup

## Parte 1: captura de una noticia
En este parte vamos a descargarnos una noticia de una página web y guardar su contenido en disco.

In [None]:
url = "https://elpais.com/sociedad/2019/11/13/actualidad/1573632952_315974.html"
try:
    page = requests.get(url)
except:
    print("Error al abrir la URL")

In [None]:
# parseamos el html usando BeautifulSoup y lo guardamos en la variable `soup`
soup = BeautifulSoup(page.text, 'html.parser')

El contenido del artículo (texto del cuerpo) se encuentra dentro de un `<div>` de la página con el id `cuerpo_noticia` (puedes inspeccionar la estructura HTML de la página en el navegador para comprobarlo)

In [None]:
# Buscamos el <div> correspondiente y sacamos su contenido:
content = soup.find('div', {"id": "cuerpo_noticia"})

article = []
for i in content.find_all('p'):
    article.append(i.text)
    
print('\n'.join(article))

Los venecianos viven en esta época del año refrescando cada minuto la aplicación del Centro de Previsión de Mareas, que permite saber hasta qué nivel puede llegar el acqua alta. El martes había luna llena y muchos se temieron lo peor, pero se fueron a cenar con el último dato de 140 centímetros. Pasadas las diez empezaron a sonar las sirenas. Un viento de más de 120 kilómetros por hora formó un pequeño maremoto en la laguna que provocó una subida de hasta 187 centímetros, la mayor desde la histórica catástrofe de 1966. Muchas de las 71 góndolas de la Riva Degli Schiavoni rompieron las amarras y salieron flotando hasta dar contra las columnas del Palacio Ducal. Algunos barrios se quedaron a oscuras y el agua entró violentamente en la basílica de San Marcos. Luego comenzó una subida por toda la isla que causó dos muertos, anegó restaurantes, palacios y comercios y obligó a cerrar escuelas. La ciudad está en alerta hasta el viernes por riesgo de que este episodio se repita.
La ciudad empi

Aquí se han colado algunos párrafos que no pertenecen al cuerpo de la noticio, sino que están en secciones interiores. Lo podemos evitar usando el parámetro `recursive=False`.  
Además el último párrafo no forma parte del cuerpo de la memoria, lo podemos filtrar con `class_=False` porque tiene un atributo de clase específico

In [None]:
#optimizando el código
content = soup.find('div', {"id": "cuerpo_noticia"}).find_all('p', class_=False, recursive=False)

article = ('\n').join([i.text for i in content])

print(article)

Los venecianos viven en esta época del año refrescando cada minuto la aplicación del Centro de Previsión de Mareas, que permite saber hasta qué nivel puede llegar el acqua alta. El martes había luna llena y muchos se temieron lo peor, pero se fueron a cenar con el último dato de 140 centímetros. Pasadas las diez empezaron a sonar las sirenas. Un viento de más de 120 kilómetros por hora formó un pequeño maremoto en la laguna que provocó una subida de hasta 187 centímetros, la mayor desde la histórica catástrofe de 1966. Muchas de las 71 góndolas de la Riva Degli Schiavoni rompieron las amarras y salieron flotando hasta dar contra las columnas del Palacio Ducal. Algunos barrios se quedaron a oscuras y el agua entró violentamente en la basílica de San Marcos. Luego comenzó una subida por toda la isla que causó dos muertos, anegó restaurantes, palacios y comercios y obligó a cerrar escuelas. La ciudad está en alerta hasta el viernes por riesgo de que este episodio se repita.
La ciudad empi

Si quisiéramos hacer un filtrado más específico de párrafos o contenidos, podemos definir una función lógica que devuelva a `find_all` los elementos a considerar:
```python
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')
```

Que luego usamos con:

```python
content.findAll(has_class_but_no_id)
```


In [None]:
#Por ejemplo los párrafos que contienen la palabra basílica
def contiene_basilica(tag):
    return tag.name=='p' and 'basílica' in tag.text

content = soup.find('div', {"id": "cuerpo_noticia"})
content.find_all(contiene_basilica)

[<p>Los venecianos viven en esta época del año refrescando cada minuto la aplicación del Centro de Previsión de Mareas, que permite saber hasta qué nivel puede llegar el <em>acqua alta</em>. El martes había luna llena y muchos se temieron lo peor, pero se fueron a cenar con el último dato de 140 centímetros. Pasadas las diez empezaron a sonar las sirenas. Un viento de más de 120 kilómetros por hora formó un pequeño maremoto en la laguna que provocó una subida de hasta 187 centímetros, la mayor desde la histórica catástrofe de 1966. Muchas de las 71 góndolas de la Riva Degli Schiavoni rompieron las amarras y salieron flotando hasta dar contra las columnas del Palacio Ducal. Algunos barrios se quedaron a oscuras y el agua entró violentamente en la basílica de San Marcos. Luego comenzó una subida por toda la isla que causó dos muertos, anegó restaurantes, palacios y comercios y obligó a cerrar escuelas. La ciudad está en alerta hasta el viernes por riesgo de que este episodio se repita.</

### Ejercicio 1
Busca los párrafos dentro de la etiqueta `<div>` con el cuerpo de la noticia que contengan un elemento de tipo enlace (`<a>`)

In [None]:
## Solución
content2 = soup.find('div', {"id": "cuerpo_noticia"})

#Por ejemplo los párrafos que contienen el tag <a> (enlace)
def contiene_enlace(tag):
    return tag.name=='a' in tag.text

content2.find_all(contiene_enlace)

[<a href="//elpais.com/tag/cambio_climatico/a" target="_blank">cambio climático</a>,
 <a href="//elpais.com/elpais/2019/11/13/album/1573633185_469059.html">
 <span class="apoyo-tipo">FOTOGALERÍA</span>
 Las inundaciones en Venecia, en imágenes
 </a>,
 <a href="//elpais.com/cultura/2017/08/23/actualidad/1503509938_525170.html">
 El día en que Venecia se ahogó
 </a>,
 <a href="//elpais.com/sociedad/2019/11/13/actualidad/1573656253_882619.html" target="_blank">se debió probar el Mose (acrónimo de Módulo Experimental Electromecánico).</a>]

## Parte 2: captura de datos meteorológicos
En este parte vamos a capturar datos meteorológicos de la Comunitat Valenciana desde la página de la [AVAMET (Associació valenciana de meteorologia)](https://www.avamet.org).

In [None]:
#esta página contiene los datos meteorológicos de un día concreto
fecha = '2021-02-10'
r = requests.get("https://www.avamet.org/mx-meteoxarxa.php", params={'id':fecha})

In [None]:
soup = BeautifulSoup(r.text, "html.parser")

Los datos de todos los municipios de la CV están en una tabla de clase `tDades`

In [None]:
tabla = soup.find("table", class_="tDades")

Dentro de la tabla, los datos están en las filas (`<tr>`) que tienen un elemento`<td class='rEsta'>`. Definimos una función para filtrar etiquetas con esta clase y buscamos todos los elementos internos a la tabla:

In [None]:
def clase_rEsta(tag):
    return tag.find(class_="rEsta")

In [None]:
loc = tabla.find_all(clase_rEsta)

In [None]:
len(loc)

678

Nos fijamos por ejemplo en el primer elemento de esta lista:

In [None]:
print(loc[0].prettify())

<tr>
 <td class="rEsta">
  <a class="negre" href="mx-fitxa.php?id=c01m038e20">
   <img alt="" height="13" src="imatges/2017/clas/estrela-mx-.png" title="" width="13">
    Castellfort
    <span class="rEstaDmxo">
     <span class="ptda">
     </span>
     AEMET
    </span>
   </img>
  </a>
 </td>
 <td class="rValm colornT16">
  2,4
 </td>
 <td class="rValm colornT17">
  4,7
 </td>
 <td class="rValm colornT18">
  7,0
 </td>
 <td class="rVal">
 </td>
 <td class="rValm colorP">
  0,0
 </td>
 <td class="rVal">
 </td>
 <td class="rVal">
 </td>
 <td class="rVal">
  <b>
  </b>
 </td>
</tr>



Vemos que algunas de las celdas de esta fila tienen elementos de tipo `<span>`. Si no nos interesan los podríamos eliminar con el método `.decompose()` del Tag. Pero como el texto nos interesa insertamos un espacio para separar el contenido al extraer el texto posteriormente con `.text()`:

In [None]:
for t in loc:
    for t in t.find_all('span', class_="rEstaDmxo"):
        t.insert_before(' ')
print(loc[0].prettify())

<tr>
 <td class="rEsta">
  <a class="negre" href="mx-fitxa.php?id=c01m038e20">
   <img alt="" height="13" src="imatges/2017/clas/estrela-mx-.png" title="" width="13">
    Castellfort
    <span class="rEstaDmxo">
     <span class="ptda">
     </span>
     AEMET
    </span>
   </img>
  </a>
 </td>
 <td class="rValm colornT16">
  2,4
 </td>
 <td class="rValm colornT17">
  4,7
 </td>
 <td class="rValm colornT18">
  7,0
 </td>
 <td class="rVal">
 </td>
 <td class="rValm colorP">
  0,0
 </td>
 <td class="rVal">
 </td>
 <td class="rVal">
 </td>
 <td class="rVal">
  <b>
  </b>
 </td>
</tr>



In [None]:
#Cada celda <td> dentro de la fila es una columna de la tabla
[t.text.strip() for t in loc[0].find_all("td")]

['Castellfort AEMET', '2,4', '4,7', '7,0', '', '0,0', '', '', '']

In [None]:
[t for t in loc[0].find_all("td")]

[<td class="rEsta"><a class="negre" href="mx-fitxa.php?id=c01m038e20"><img alt="" height="13" src="imatges/2017/clas/estrela-mx-.png" title="" width="13"> Castellfort <span class="rEstaDmxo"><span class="ptda"></span>AEMET</span></img></a> </td>,
 <td class="rValm colornT16">2,4 </td>,
 <td class="rValm colornT17">4,7 </td>,
 <td class="rValm colornT18">7,0 </td>,
 <td class="rVal"> </td>,
 <td class="rValm colorP">0,0 </td>,
 <td class="rVal"> </td>,
 <td class="rVal"> </td>,
 <td class="rVal"><b> </b></td>]

In [None]:
#Capturamos toda la tabla
datos = [[t.text.strip() for t in l.find_all("td")] for l in loc]

In [None]:
#Todas las filas tienen los mismos datos
len(datos[0])

9

Ahora exportamos la tabla como un DataFrame de `pandas`:

In [None]:
import pandas as pd

In [None]:
data_matrix = pd.DataFrame(datos)

In [None]:
data_matrix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 678 entries, 0 to 677
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       678 non-null    object
 1   1       678 non-null    object
 2   2       678 non-null    object
 3   3       678 non-null    object
 4   4       678 non-null    object
 5   5       678 non-null    object
 6   6       678 non-null    object
 7   7       678 non-null    object
 8   8       678 non-null    object
dtypes: object(9)
memory usage: 47.8+ KB


In [None]:
#Definimos el nombre de las columnas
data_matrix.columns = ['localidad','Temp','Tmax','Tmin','Humedad','Precip',
                      'Vel.viento','Dir.viento','Vmax_viento']

In [None]:
data_matrix.head(5)

Unnamed: 0,localidad,Temp,Tmax,Tmin,Humedad,Precip,Vel.viento,Dir.viento,Vmax_viento
0,Castellfort AEMET,24,47,70,,0,,,
1,Cinctorres,44,74,99,61.0,6,169.0,NO,740.0
2,Forcall,16,79,123,64.0,8,92.0,NO,515.0
3,Morella centre,44,74,106,64.0,12,106.0,O,563.0
4,Morella Fàbrica Giner,6,78,114,66.0,12,24.0,O,354.0


### Ejercicio 2
Crea un script para capturar los datos de un territorio y una fecha concretas a través de la URL:\
`https://www.avamet.org/mx-meteoxarxa.php?id={fecha}&territori={territorio}`\
Los códigos de cada territorio están en el elemento `select` siguiente:

In [None]:
soup.find("select", attrs={'name':"freg_territori"})

<select class="formBasic" name="freg_territori" onchange="location.href='mx-meteoxarxa.php?id=2021-02-10&amp;territori=' + this.value">
<option selected="" style="font-weight:800;" value="pv">TOT EL TERRITORI</option>
<option style="font-weight:800;" value="p12">Prov. Castelló</option>
<option value="c01">   els Ports</option>
<option value="c02">   l′Alt Maestrat</option>
<option value="c03">   el Baix Maestrat</option>
<option value="c04">   l′Alcalatén</option>
<option value="c05">   la Plana Alta</option>
<option value="c06">   la Plana Baixa</option>
<option value="c07">   l′Alt Palància</option>
<option value="c08">   l′Alt Millars</option>
<option style="font-weight:800;" value="p46">Prov. València</option>
<option value="c09">   el Racó d′Ademús</option>
<option value="c10">   els Serrans</option>
<option value="c11">   el Camp de Túria</option>
<option value="c12">   el Camp de Morvedre</option>
<option value="c13">   l′Horta Nord</option>
<option value="c14">   l′Horta Oest</

In [None]:
# Solución

fecha = '2021-01-15'
territorio='c15'

r = requests.get("https://www.avamet.org/mx-meteoxarxa.php", params={'id':fecha, 'territori':territorio})

soup = BeautifulSoup(r.text, "html.parser")

tabla = soup.find("table", class_="tDades")

loc = tabla.find_all(clase_rEsta)

for t in loc:
    for t in t.find_all('span', class_="rEstaDmxo"):
        t.insert_before(' ')

datos = [[t.text.strip() for t in l.find_all("td")] for l in loc]

data_matrix = pd.DataFrame(datos)

data_matrix.columns = ['localidad','Temp','Tmax','Tmin','Humedad','Precip',
                      'Vel.viento','Dir.viento','Vmax_viento']

data_matrix

Unnamed: 0,localidad,Temp,Tmax,Tmin,Humedad,Precip,Vel.viento,Dir.viento,Vmax_viento
0,València Camins al Grau,67,116,184,48.0,0,69.0,OSO,367
1,València l'Olivereta,59,113,182,50.0,0,58.0,O,370
2,València Sant Isidre,23,135,186,35.0,0,31.0,ONO,148
3,València Altocúmulo,58,111,177,51.0,0,71.0,SE,386
4,València l'Albufera/Tancat de la Pipa,55,99,166,65.0,0,106.0,SO,225
5,València Vivers AEMET,59,126,192,,0,,,320
6,València aeroport AEMET,24,101,179,,0,,,450
7,València Micalet,63,114,181,52.0,0,58.0,O,418
8,València Penya-roja,69,120,192,44.0,0,114.0,NO,454
9,València l'Albufera/Racó de l'Olla (Centre d'I...,34,87,173,73.0,0,97.0,OSO,241


### ejercicio extra:
Captura los datos durante un mes de la estación de 'València Camins al Grau' y representa gráficamente su temperatura media 

In [None]:
# Vamos a guardarnos en una función el procedimiento hecho en el ejercicio anterior

fecha = '2021-02-10'
territorio='c05'

def get_info_matrix(fecha, territorio):

    r = requests.get("https://www.avamet.org/mx-meteoxarxa.php", params={'id':fecha, 'territori':territorio})

    soup = BeautifulSoup(r.text, "html.parser")

    tabla = soup.find("table", class_="tDades")

    loc = tabla.find_all(clase_rEsta)

    for t in loc:
        for t in t.find_all('span', class_="rEstaDmxo"):
            t.insert_before(' ')

    datos = [[t.text.strip() for t in l.find_all("td")] for l in loc]

    data_matrix = pd.DataFrame(datos)

    data_matrix.columns = ['localidad','Temp','Tmax','Tmin','Humedad','Precip',
                          'Vel.viento','Dir.viento','Vmax_viento']

    return data_matrix

In [None]:
# Creamos una lista con todas las fechas que vamos a necesitar
fechas = pd.date_range(start='20210111',end='20210210',freq='D').strftime('%Y-%m-%d').values

In [None]:
fechas

array(['2021-01-11', '2021-01-12', '2021-01-13', '2021-01-14',
       '2021-01-15', '2021-01-16', '2021-01-17', '2021-01-18',
       '2021-01-19', '2021-01-20', '2021-01-21', '2021-01-22',
       '2021-01-23', '2021-01-24', '2021-01-25', '2021-01-26',
       '2021-01-27', '2021-01-28', '2021-01-29', '2021-01-30',
       '2021-01-31', '2021-02-01', '2021-02-02', '2021-02-03',
       '2021-02-04', '2021-02-05', '2021-02-06', '2021-02-07',
       '2021-02-08', '2021-02-09', '2021-02-10'], dtype=object)

In [None]:
get_info_matrix(fechas[0], 'c15')

Unnamed: 0,localidad,Temp,Tmax,Tmin,Humedad,Precip,Vel.viento,Dir.viento,Vmax_viento
0,València Camins al Grau,46,66,101,65.0,0,34.0,S,166
1,València l'Olivereta,37,62,110,68.0,0,32.0,OSO,161
2,València Sant Isidre,33,59,109,63.0,0,17.0,O,80
3,València Altocúmulo,34,61,108,68.0,0,40.0,SE,209
4,València l'Albufera/Tancat de la Pipa,37,60,106,79.0,0,56.0,NO,193
5,València Vivers AEMET,35,74,114,,0,,,160
6,València aeroport AEMET,-3,49,101,,0,,,240
7,València Micalet,40,65,107,67.0,0,27.0,ONO,177
8,València Penya-roja,55,75,117,62.0,0,66.0,O,220
9,València l'Albufera/Racó de l'Olla (Centre d'I...,5,47,104,85.0,0,53.0,NO,209


In [None]:
# Tenemos que encontrar dónde está la estación de València Camins al Grau
# Después de una consulta rápida, Valencia Camins al Grau se encuentra en 'c15' y es la primera entrada

[get_info_matrix(index, 'c15').loc[0, 'Temp'] for index in fechas]

['4,6',
 '2,0',
 '3,7',
 '5,0',
 '6,7',
 '5,8',
 '7,5',
 '8,2',
 '6,5',
 '6,5',
 '10,5',
 '12,5',
 '10,4',
 '10,4',
 '13,9',
 '10,7',
 '14,6',
 '15,2',
 '16,7',
 '14,4',
 '12,7',
 '16,7',
 '14,6',
 '14,2',
 '12,1',
 '12,2',
 '11,2',
 '12,2',
 '12,5',
 '12,5',
 '13,7']

## Parte 3: datos de la Wikipedia
En esta parte vamos a obtener las URL de las entradas en la wikipedia para todas las provincias de España y vamos a obtener de ellas sus datos básicos en forma de tabla.\
El listado de las provincias de España se puede descargar de la página de la wikipedia siguiente:\
https://es.wikipedia.org/wiki/Provincia_(España)

In [None]:
r = requests.get("https://es.wikipedia.org/wiki/Provincia_(España)")
soup = BeautifulSoup(r.text, "html.parser")

In [None]:
tabla = soup.find("table", class_="wikitable")

In [None]:
#todas las columnas de la tabla
provincias = tabla.find_all("tr")

In [None]:
#los datos están en la primera celda de cada columna (la primera columna es de encabezado)
print(provincias[1].td.prettify())

<td>
 <b>
  <span style="display:none;">
   Álava
  </span>
  <span class="flagicon">
   <a class="image" href="/wiki/Archivo:Flag_of_%C3%81lava.svg">
    <img alt="Álava.svg" class="thumbborder" data-file-height="500" data-file-width="750" decoding="async" height="13" src="//upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Flag_of_%C3%81lava.svg/20px-Flag_of_%C3%81lava.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Flag_of_%C3%81lava.svg/30px-Flag_of_%C3%81lava.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Flag_of_%C3%81lava.svg/40px-Flag_of_%C3%81lava.svg.png 2x" width="20"/>
   </a>
  </span>
  <a href="/wiki/%C3%81lava" title="Álava">
   Álava
  </a>
 </b>
</td>



In [None]:
provincias[1].td.find_all("a")

[<a class="image" href="/wiki/Archivo:Flag_of_%C3%81lava.svg"><img alt="Álava.svg" class="thumbborder" data-file-height="500" data-file-width="750" decoding="async" height="13" src="//upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Flag_of_%C3%81lava.svg/20px-Flag_of_%C3%81lava.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Flag_of_%C3%81lava.svg/30px-Flag_of_%C3%81lava.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Flag_of_%C3%81lava.svg/40px-Flag_of_%C3%81lava.svg.png 2x" width="20"/></a>,
 <a href="/wiki/%C3%81lava" title="Álava">Álava</a>]

In [None]:
enlaces = []
for p in provincias:
    if p.td:
        refs = p.td.find_all('a')
        for r in refs:
            if r.has_attr('title'):
            #if r.parent.find('a', class_=None) or r.parent.find('a', class_='mw-redirect'):
                enlaces.append(r)

In [None]:
enlaces

[<a href="/wiki/%C3%81lava" title="Álava">Álava</a>,
 <a href="/wiki/Provincia_de_Albacete" title="Provincia de Albacete">Albacete</a>,
 <a href="/wiki/Provincia_de_Alicante" title="Provincia de Alicante">Alicante</a>,
 <a href="/wiki/Provincia_de_Almer%C3%ADa" title="Provincia de Almería">Almería</a>,
 <a class="mw-redirect" href="/wiki/Principado_de_Asturias" title="Principado de Asturias">Asturias</a>,
 <a href="/wiki/Provincia_de_%C3%81vila" title="Provincia de Ávila">Ávila</a>,
 <a href="/wiki/Provincia_de_Badajoz" title="Provincia de Badajoz">Badajoz</a>,
 <a href="/wiki/Provincia_de_Barcelona" title="Provincia de Barcelona">Barcelona</a>,
 <a href="/wiki/Provincia_de_Burgos" title="Provincia de Burgos">Burgos</a>,
 <a href="/wiki/Provincia_de_C%C3%A1ceres" title="Provincia de Cáceres">Cáceres</a>,
 <a href="/wiki/Provincia_de_C%C3%A1diz" title="Provincia de Cádiz">Cádiz</a>,
 <a href="/wiki/Cantabria" title="Cantabria">Cantabria</a>,
 <a href="/wiki/Provincia_de_Castell%C3%B3n" 

In [None]:
enlaces_df = pd.DataFrame({'provincia': [e.attrs['title'] for e in enlaces],
                           'enlace': [e.attrs['href'] for e in enlaces]})

In [None]:
enlaces_df

Unnamed: 0,provincia,enlace
0,Álava,/wiki/%C3%81lava
1,Provincia de Albacete,/wiki/Provincia_de_Albacete
2,Provincia de Alicante,/wiki/Provincia_de_Alicante
3,Provincia de Almería,/wiki/Provincia_de_Almer%C3%ADa
4,Principado de Asturias,/wiki/Principado_de_Asturias
5,Provincia de Ávila,/wiki/Provincia_de_%C3%81vila
6,Provincia de Badajoz,/wiki/Provincia_de_Badajoz
7,Provincia de Barcelona,/wiki/Provincia_de_Barcelona
8,Provincia de Burgos,/wiki/Provincia_de_Burgos
9,Provincia de Cáceres,/wiki/Provincia_de_C%C3%A1ceres


Por ejemplo, creamos la sopa para la primera provincia:

In [None]:
r = requests.get("https://es.wikipedia.org"+enlaces_df['enlace'][12])
soup = BeautifulSoup(r.text, "html.parser")

Vamos a extraer en un data frame la información geográfica de la tabla de la barra lateral derecha (atributo de clase `infobox`):

In [None]:
tabla = soup.find("table", class_="infobox")

Si inspeccionas su estructura HTML verás una serie de tags `tr` de las que cuelgan pares de tags `th` y `td` asociadas. Capturaremos sus textos en dos listas: `dato` y `valor`, respectivamante.

In [None]:
dato, valor = [],[]
for t in tabla.find_all("tr"):
    if t.th:
        if t.td:
            dato.append(t.th.text)
            #valor.append(t.td.text) # aparecen caracteres especiales!
            valor.append(' '.join([text for text in t.td.stripped_strings]))

In [None]:
datos = pd.DataFrame({'Dato': dato, 'Valor': valor})
datos

Unnamed: 0,Dato,Valor
0,Coordenadas,"40°10′00″N 0°10′00″O ﻿ / ﻿ 40.166666666667, -0..."
1,Capital,Castellón de la Plana
2,Idioma oficial,Castellano y valenciano
3,Entidad,Provincia
4,• País,España
5,• Comunidad,Comunidad Valenciana
6,CongresoSenadoCortes Valencianas,5 diputados 4 senadores 24 diputados autonómicos
7,Subdivisiones,135 municipios 5 partidos judiciales
8,Fundación,División territorial de 1833
9,Superficie,Puesto 38.º


### Ejercicio 3
Crea una tabla (dataframe) con la capital, la superficie y la población de cada provincia de España.\
Para encontrar en la tabla estos datos podemos hacer:

In [None]:
tabla.find(string='Capital').next.text

'\nCastellón de la Plana'

In [None]:
tabla.find(string='Superficie').parent.parent.parent.next_sibling.text

'\xa0• Total\n6611.93 km²\xa0(1,23\xa0%)'

In [None]:
tabla.find(string='Población').parent.parent.parent.next_sibling.text

'\xa0• Total\n585\xa0590\xa0hab.\xa0(1,31\xa0%)'

Tendrás que usar expresiones regulares para extraer de estos strings el texto buscado.

In [None]:
import re

In [None]:
#solución
df = pd.DataFrame(columns=['Capital', 'Superficie', 'Población'])

for i in range(enlaces_df.shape[0]-2):
    
    r = requests.get("https://es.wikipedia.org"+enlaces_df['enlace'][i])
    soup = BeautifulSoup(r.text, "html.parser")
    
    tabla = soup.find("table", class_="infobox")
    
    capital = tabla.find(string='Capital').next.text
    superficie = tabla.find(string='Superficie').parent.parent.parent.next_sibling.text
    poblacion = tabla.find(string='Población').parent.parent.parent.next_sibling.text
    
    df.loc[i, 'Capital'] = tabla.find(string='Capital').next.text
    df.loc[i, 'Superficie'] = tabla.find(string='Superficie').parent.parent.parent.next_sibling.text
    df.loc[i, 'Población'] = tabla.find(string='Población').parent.parent.parent.next_sibling.text
    
df

Unnamed: 0,Capital,Superficie,Población
0,\nVitoria,"• Total\n3037 km² (0,60 %)","• Total\n326 574 hab. (0,69 %)"
1,\nAlbacete,"• Total\n14 926 km² (0,84 %)","• Total\n388 270 hab. (0,81 %)"
2,\nAlicante,"• Total\n5816 km² (1,16 %)","• Total\n1 825 332 hab. (4,11 %)"
3,\nAlmería,"• Total\n8774 km² (1,73 %)","• Total\n706 672 hab. (1,52 %)"
4,\nOviedo,"• Total\n10 603,57 km² (2,1 %)","• Total\n&&&&&&&&01 018 784,&&&&&01 018 784[1..."
5,\nÁvila,"• Total\n8050.15 km²(1,60 % de España)","• Total\n160 700 hab.(0,37 % de España)"
6,\nBadajoz,"• Total\n21 766 km² (4,30 %)","• Total\n676,376 hab. (1,47 %)"
7,\nBarcelona,"• Total\n7726[1]​ km² (1,53 %)","• Total\n5 743 402[2]​ hab. (12,05 %)"
8,\nBurgos,"• Total\n&&&&&&&&&&014022.&&&&&014 022 km²(2,...","• Total\n358 171 hab.(0,78% de España)"
9,\nCáceres,"• Total\n19 868 km² (3,94 %)","• Total\n392,931 hab. (0,88 %)"
