# Web scraping con BeautifulSoup

Web scraping es el proceso de extraer información automáticamente de la web.

Por automáticamente nos referimos a que programamos un “bot” que permita simular la navegación de un humano con el objetivo de obtener la información de la web sin necesidad de que un humano lo haga.

En Python las 3 librerías de Web Scraping conocidas son: Scrapy, BeautifulSoup y Selenium.

En esta sección, aprenderemos a usar BeautifulSoup. ¡Vamos!


## Importar librerias

In [None]:
!conda install lxml, html5lib

In [1]:
from bs4 import BeautifulSoup

## Parsers

In [3]:
html = """
<html>
<head>
<title>Mi documento</title>
</head>
<body>
    <p class="saludo">Hola Mundo</p>
    <p>Luego tengo aqui una lista</p>
    <ul id="lista-elementos">
        <li> Elemento 1 </li>
        <li> Elemento 2 </li>
        <li> Elemento 3 </li>
    </ul>
    <p> Y aquí hay un error de <b>formato  </p>
    </p></p>
</body>
</html>
"""

In [5]:
soup = BeautifulSoup(html, "lxml")
print(soup)

<html>
<head>
<title>Mi documento</title>
</head>
<body>
<p class="saludo">Hola Mundo</p>
<p>Luego tengo aqui una lista</p>
<ul id="lista-elementos">
<li> Elemento 1 </li>
<li> Elemento 2 </li>
<li> Elemento 3 </li>
</ul>
<p> Y aquí hay un error de <b>formato  </b></p>
</body>
</html>



In [6]:
soup = BeautifulSoup(html, "xml")
print(soup)

<?xml version="1.0" encoding="utf-8"?>
<html>
<head>
<title>Mi documento</title>
</head>
<body>
<p class="saludo">Hola Mundo</p>
<p>Luego tengo aqui una lista</p>
<ul id="lista-elementos">
<li> Elemento 1 </li>
<li> Elemento 2 </li>
<li> Elemento 3 </li>
</ul>
<p> Y aquí hay un error de <b>formato  </b>
</p></body>
</html>


In [7]:
soup = BeautifulSoup(html, "html5lib")
print(soup)

<html><head>
<title>Mi documento</title>
</head>
<body>
    <p class="saludo">Hola Mundo</p>
    <p>Luego tengo aqui una lista</p>
    <ul id="lista-elementos">
        <li> Elemento 1 </li>
        <li> Elemento 2 </li>
        <li> Elemento 3 </li>
    </ul>
    <p> Y aquí hay un error de <b>formato  </b></p><b>
    <p></p><p></p>


</b></body></html>


## Estructura de datos

In [4]:
soup = BeautifulSoup(html, "lxml")

### `.[tag-name]`

In [9]:
print(soup)

<html>
<head>
<title>Mi documento</title>
</head>
<body>
<p class="saludo">Hola Mundo</p>
<p>Luego tengo aqui una lista</p>
<ul id="lista-elementos">
<li> Elemento 1 </li>
<li> Elemento 2 </li>
<li> Elemento 3 </li>
</ul>
<p> Y aquí hay un error de <b>formato  </b></p>
</body>
</html>



In [8]:
soup.title

<title>Mi documento</title>

### `.name`

In [10]:
soup.title.name

'title'

### `.string`

In [11]:
soup.title.string

'Mi documento'

In [12]:
soup.p.string

'Hola Mundo'

### `.get_text()`

In [7]:
soup.body.string

In [13]:
print(soup)

<html>
<head>
<title>Mi documento</title>
</head>
<body>
<p class="saludo">Hola Mundo</p>
<p>Luego tengo aqui una lista</p>
<ul id="lista-elementos">
<li> Elemento 1 </li>
<li> Elemento 2 </li>
<li> Elemento 3 </li>
</ul>
<p> Y aquí hay un error de <b>formato  </b></p>
</body>
</html>



In [14]:
soup.li.string

' Elemento 1 '

In [15]:
soup.body.string

In [8]:
soup.body.get_text()

'\nHola Mundo\nLuego tengo aqui una lista\n\n Elemento 1 \n Elemento 2 \n Elemento 3 \n\n Y aquí hay un error de formato  \n'


### `.parent`

In [13]:
soup.title.parent

<head>
<title>Mi documento</title>
</head>

In [17]:
soup.li.parent

<ul id="lista-elementos">
<li> Elemento 1 </li>
<li> Elemento 2 </li>
<li> Elemento 3 </li>
</ul>

### `.attrs`

In [18]:
print(soup)

<html>
<head>
<title>Mi documento</title>
</head>
<body>
<p class="saludo">Hola Mundo</p>
<p>Luego tengo aqui una lista</p>
<ul id="lista-elementos">
<li> Elemento 1 </li>
<li> Elemento 2 </li>
<li> Elemento 3 </li>
</ul>
<p> Y aquí hay un error de <b>formato  </b></p>
</body>
</html>



In [26]:
soup.find_all("p")

[<p class="saludo">Hola Mundo</p>,
 <p>Luego tengo aqui una lista</p>,
 <p> Y aquí hay un error de <b>formato  </b></p>]

In [9]:
soup.select("p")

[<p class="saludo">Hola Mundo</p>,
 <p>Luego tengo aqui una lista</p>,
 <p> Y aquí hay un error de <b>formato  </b></p>]

In [14]:
soup.find_all("p")[0].attrs

{'class': ['saludo']}

### `"class"`

In [15]:
soup.p["class"]

['saludo']

In [13]:
soup.find_all("p")[0]['class']

['saludo']

In [30]:
soup.find_all("p")[0]['class']

['saludo']

In [33]:
soup.ul

<ul id="lista-elementos">
<li> Elemento 1 </li>
<li> Elemento 2 </li>
<li> Elemento 3 </li>
</ul>

In [35]:
soup.ul['id']

'lista-elementos'

### `.find` / `.find_all`

In [36]:
print(soup)

<html>
<head>
<title>Mi documento</title>
</head>
<body>
<p class="saludo">Hola Mundo</p>
<p>Luego tengo aqui una lista</p>
<ul id="lista-elementos">
<li> Elemento 1 </li>
<li> Elemento 2 </li>
<li> Elemento 3 </li>
</ul>
<p> Y aquí hay un error de <b>formato  </b></p>
</body>
</html>



In [16]:
soup.find("li")

<li> Elemento 1 </li>

In [17]:
soup.find_all("li")

[<li> Elemento 1 </li>, <li> Elemento 2 </li>, <li> Elemento 3 </li>]

In [37]:
soup.select("li")

[<li> Elemento 1 </li>, <li> Elemento 2 </li>, <li> Elemento 3 </li>]

## Wikipedia

In [15]:
import requests

response = requests.get("https://es.wikipedia.org/wiki/Zinedine_Zidane")
soup = BeautifulSoup(response.content)

In [19]:
print(soup)

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-zebra-design-enabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-client-prefs-pinned-disabled vector-feature-typography-survey-disabled vector-toc-available" dir="ltr" lang="es">
<head>
<meta charset="utf-8"/>
<title>Zinedine Zidane - Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-f

In [17]:
response.status_code

200

In [39]:
response.status_code

200

### Títulos

In [25]:
for title in soup.find_all("h3"):
    print(title.get_text().strip())

Inicios y primeros años[editar]
Eclosión en la Juventus[editar]
Icono mundial del Real Madrid[editar]
Real Madrid C. F.[editar]
Clubes[editar]
Selecciones[editar]
Entrenador[editar]
Como jugador[editar]
Como entrenador[editar]
Distinciones individuales[editar]
Condecoraciones[editar]


### Infobox

In [32]:
print(soup.find("table", class_ = "infobox").get_text())

Zinedine Zidane
 Orden Nacional de la Legión de Honor
Zidane en 2018.Datos personalesNombre completo
Zinedine Yazid ZidaneApodo(s)
Zizou[1]​Nacimiento
Marsella, Francia23 de junio de 1972 (51 años)Nacionalidad(es)
FrancesaArgelina[2]​Altura
1,85 m (6′ 1″)[3]​Carrera como entrenadorDeporte
FútbolDebut como entrenador
24 de agosto de 2014Carrera como jugadorPosición
CentrocampistaDebut como jugador
6 de mayo de 1989(A. S. Cannes Football)Retirada deportiva
9 de julio de 2006(Real Madrid C. F.)Part. (goles)
139 (35) - Selección688 (125) - ClubesInternacional
 Francia
TrayectoriaEntrenador:
Real Madrid C. F. (2.º ent.)(2013-14)
Real Madrid Castilla C. F.(2014-16)
Real Madrid C. F.(2016-18, 2019-21)
Jugador:
A. S. Cannes(1989-92)
F. C. Girondins de Burdeos(1992-96)
Juventus F. C.(1996-01)
Real Madrid C. F.(2001-06)



              Medallero




Fútbol masculino


  Francia

Copa Mundial


OroFrancia 1998Fútbol


PlataAlemania 2006Fútbol


Eurocopa


BronceInglaterra 1996Fútbol


OroBélgica

In [20]:
infobox = soup.find("table", class_="infobox")
print(infobox.get_text())

Zinédine Zidane
 Orden Nacional de la Legión de Honor
Zidane en 2017Datos personalesNombre completo
Zinédine Yazid ZidaneApodo(s)
Zizou,[1]​ El Monje[2]​Nacimiento
Marsella, Provenza-Alpes-Costa Azul, Francia23 de junio de 1972 (48 años)Nacionalidad(es)
FrancesaArgelina[3]​Altura
1,85 m (6 ′ 1 ″)[4]​Carrera como entrenadorDeporte
FútbolEquipo
Sin equipoDebut como entrenador
24 de agosto de 2014(Real Madrid Castilla C. F.)Carrera como jugadorPosición
CentrocampistaDebut como jugador
6 de mayo de 1989(A. S. Cannes Football)Retirada deportiva
9 de julio de 2006(Real Madrid C. F.)Part. (goles)
108 (31) - Selección692 (122) - ClubesInternacional
 Francia
TrayectoriaEntrenador:
Real Madrid C. F. (2º ent.) (2013-14)
Real Madrid Castilla C. F. (2015-16)
Real Madrid C. F. (2016-18, 2019-21)
Jugador:
A. S. Cannes (1989-92)
F. C. Girondins de Burdeos (1992-96)
Juventus F. C. (1996-01)
Real Madrid C. F. (2001-06)



              Medallero




Fútbol masculino


  Francia

Copa Mundial


OroFranci

In [39]:
soup.find_all("p")[4].get_text()

'Fue internacional absoluto con la selección francesa durante doce años (1994-2006), y parte del Club de los 100 de la FIFA con un total de 108 encuentros y 31 goles.[14]\u200b Con ella se proclamó campeón del mundo en 1998 —siendo autor de dos goles en la final y parte del «once ideal»—, y campeón de Europa en el 2000 —como «jugador del torneo»—, logrando así el «doblete de selecciones». Llegó también a la final del Mundial 2006 ante Italia —donde fue elegido Balón de Oro del torneo— encuentro que fue el último de su carrera profesional.[15]\u200b[16]\u200b\n'

In [40]:
import unicodedata
unicodedata.normalize("NFKC", soup.find_all("p")[2].get_text())

'El 14 de diciembre de 2020 fue incluido como mediocentro ofensivo en el segundo Dream Team histórico del Balón de Oro.[8]\u200b\n'

In [42]:
import unicodedata
print(unicodedata.normalize("NFKC", soup.find_all("p")[2].get_text()))

El 14 de diciembre de 2020 fue incluido como mediocentro ofensivo en el segundo Dream Team histórico del Balón de Oro.[8]​



### Tabla de estadísticas

In [57]:
titulos_internacionales = soup.find("span", id="Títulos_internacionales_2")
titulos_internacionales

<span class="mw-headline" id="Títulos_internacionales_2">Títulos internacionales</span>

In [45]:
titulos_internacionales = soup.find("span", id="T.C3.ADtulos_internacionales")
titulos_internacionales

<span id="T.C3.ADtulos_internacionales"></span>

In [58]:
import re

tabla_titulos = titulos_internacionales.find_next("tbody")

headers = []
for title in tabla_titulos.find_all("th"):
    clean_title = re.sub("\[[0-9]*\]", "", title.get_text()).strip()
    # clean_title = title.get_text().strip()
    headers.append(clean_title)

# print(headers)

rows = []
for row in tabla_titulos.find_all("tr")[1:]:
    clean_row = unicodedata.normalize("NFKC", row.get_text()).split("\n")
    clean_row = [c for c in clean_row if len(c) > 1]
    rows.append(clean_row)
rows

[['Copa Intertoto', ' F. C. Girondins de Burdeos', '1995'],
 ['Supercopa de Europa', ' Juventus F. C.', '1996'],
 ['Copa Intercontinental', '1996'],
 ['Copa del Mundo', ' Francia', '1998'],
 ['Copa Intertoto', ' Juventus F. C.', '1999'],
 ['Eurocopa', ' Francia', '2000'],
 ['Liga de Campeones', ' Real Madrid C. F.', '2002'],
 ['Supercopa de Europa', '2002'],
 ['Copa Intercontinental', '2002']]

In [59]:
import pandas as pd

In [60]:
pd.DataFrame(data = rows, columns=headers)

Unnamed: 0,Título​,Equipo *,Año
0,Copa Intertoto,F. C. Girondins de Burdeos,1995.0
1,Supercopa de Europa,Juventus F. C.,1996.0
2,Copa Intercontinental,1996,
3,Copa del Mundo,Francia,1998.0
4,Copa Intertoto,Juventus F. C.,1999.0
5,Eurocopa,Francia,2000.0
6,Liga de Campeones,Real Madrid C. F.,2002.0
7,Supercopa de Europa,2002,
8,Copa Intercontinental,2002,


In [49]:
headers

['Título \u200b', 'Equipo *', 'Año']

In [24]:
import re

tabla_titulos = titulos_internacionales.find_next("tbody")

headers = []
for title in tabla_titulos.find_all("th"):
    clean_title = re.sub("\[[0-9]*\]", " ", title.get_text()).strip()
    headers.append(clean_title)

rows = []
for row in tabla_titulos.find_all("tr")[1:]:
    clean_row = unicodedata.normalize("NFKC", row.get_text()).split("\n")
    clean_row = [c for c in clean_row if len(c) > 1]
    rows.append(clean_row)
rows

[['Liga de Campeones de la UEFA', 'Real Madrid', 'Italia Italia', '2015-16'],
 ['Supercopa de Europa', 'Real Madrid', 'Noruega Noruega', '2016'],
 ['Copa Mundial de Clubes de la FIFA', 'Real Madrid', 'Japón Japón', '2016'],
 ['Liga de Campeones de la UEFA', 'Real Madrid', 'Gales Gales', '2016-17'],
 ['Supercopa de Europa',
  'Real Madrid',
  'Macedonia del Norte Macedonia del Norte',
  '2017'],
 ['Copa Mundial de Clubes de la FIFA',
  'Real Madrid',
  'Emiratos Árabes Unidos Emiratos Árabes Unidos',
  '2017'],
 ['Liga de Campeones de la UEFA', 'Real Madrid', 'Ucrania Ucrania', '2017-18']]

In [56]:
import pandas as pd

def get_country(string):
    l = len(string)
    return string[:l//2]
    
df = pd.DataFrame(columns=headers, data=rows)
df.head()

Unnamed: 0,Título ​,Equipo *,Año
0,Copa Intertoto,F. C. Girondins de Burdeos,1995.0
1,Supercopa de Europa,Juventus F. C.,1996.0
2,Copa Intercontinental,1996,
3,Copa del Mundo,Francia,1998.0
4,Copa Intertoto,Juventus F. C.,1999.0


In [58]:
import pandas as pd

def get_country(string):
    l = len(string)
    return string[:l//2]
    
df = pd.DataFrame(columns=headers, data=rows)
df.head()

Unnamed: 0,Título ​,Equipo *,Año
0,Copa Intertoto,F. C. Girondins de Burdeos,1995.0
1,Supercopa de Europa,Juventus F. C.,1996.0
2,Copa Intercontinental,1996,
3,Copa del Mundo,Francia,1998.0
4,Copa Intertoto,Juventus F. C.,1999.0


In [59]:
df["Sede"] = df.Sede.map(get_country)

AttributeError: 'DataFrame' object has no attribute 'Sede'

In [27]:
df.head()

Unnamed: 0,Título ​ ​,Club,Sede,Año
0,Liga de Campeones de la UEFA,Real Madrid,Italia,2015-16
1,Supercopa de Europa,Real Madrid,Noruega,2016
2,Copa Mundial de Clubes de la FIFA,Real Madrid,Japón,2016
3,Liga de Campeones de la UEFA,Real Madrid,Gales,2016-17
4,Supercopa de Europa,Real Madrid,Macedonia del Norte,2017


## IGN

In [61]:
response = requests.get("https://es.ign.com/")
soup = BeautifulSoup(response.content, "lxml")

In [62]:
response.status_code

200

In [72]:
articulos = soup.find_all("article", class_ = "card")

for a in articulos:
    a.parent["class"]

['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']
['wrap']


In [64]:
# print(soup)

### Vertical spotlight

In [77]:
soup.select("h2")

[<h2>Últimas noticias</h2>,
 <h2>Lo más destacado</h2>,
 <h2>IGN First</h2>,
 <h2>Ofertas</h2>,
 <h2>Análisis y Críticas recientes</h2>,
 <h2>Marvel/DC</h2>]

In [73]:
articles = soup.find_all("article", class_="card")
for a in articles:
    if a.parent["class"][0] == "wrap":
        print(a.get_text().strip())

El fin de una era: el E3 cierra sus puertas para siempre
PlayStation necesita traer un buen regalo navideño para los suscriptores de PS Plus Extra y Premium
La FTC no se rinde: han vuelto a apelar para intentar revertir la compra de Activision Blizzard
Eyes of Wakanda es una nueva serie de animación de Black Panther para Disney+
Xbox podría estar trabajando en un Game Pass "gratuito" que permite jugar a cambio de ver anuncios
SEGA dice que está "evaluando" Virtua Fighter tras la falta de un anuncio en los Game Awards
Insomniac puede haber sido hackeada: la fecha de Wolverine podría filtrarse en cualquier momento
Nos esperábamos un anuncio de Devil May Cry 6, pero el juego que recibimos ha resultado ser bien distinto
Las increíbles herramientas didácticas de Tekken 8 - IGN First
Impresiones de Tekken 8 tras la beta cerrada: enero ya está tardando en llegar - IGN First
Tekken 8: un primer vistazo a la nueva "Fight Lounge" – IGN First
Tekken 8: Reconstruyendo Tekken en Unreal Engine 5 + E

In [29]:
articles = soup.find_all("article", class_="card")
for a in articles:
    if a.parent["class"][0] == "vspotlight":
        print(a.get_text().strip())

He jugado a Tales of Arise: Os cuento mis sensaciones a los mandos con la última entrega del veterano JRPG
Entrevista con Hidetaka Miyazaki sobre Elden Ring. Historia, mundo, George R.R. Martin, combate y todos sus secretos
Primeras impresiones con OlliOlli World: un gran salto en la saga que avecina otra adicción al skate y a las puntuaciones perfectas
Los 25 mejores villanos de Marvel en el UCM


In [95]:
articles_vspotlight = soup.select("[class=vspotlight]")
for article in articles_vspotlight:
    clean_title = re.sub("\[[0-9]*\]", " ", article.get_text()).strip()
    # print(article.get_text().strip())
    print(clean_title)

The Game Awards 2023: listado completo con todos los ganadores





Zack Snyder tuvo que romper las reglas de Star Wars para que su epopeya de ciencia ficción pudiera existir





Baldur's Gate 3 es proclamado como Juego del Año en The Game Awards





Black Myth Wukong anuncia su fecha de lanzamiento con nuevo tráiler


In [98]:
for title in soup.select("section.vspotlight article"):
    print(title.get_text())




The Game Awards 2023: listado completo con todos los ganadores





Zack Snyder tuvo que romper las reglas de Star Wars para que su epopeya de ciencia ficción pudiera existir





Baldur's Gate 3 es proclamado como Juego del Año en The Game Awards





Black Myth Wukong anuncia su fecha de lanzamiento con nuevo tráiler




In [100]:
for title in soup.select("section.hspotlight article"):
    print(title.get_text())



Arkane está desarrollando un nuevo videojuego de Blade



Monster Hunter Wilds anunciado para PS5, Xbox y PC junto con el primer tráiler



Jurassic Park Survival regresa de entre los muertos como un nuevo juego de acción



Por fin se desvela la fecha de lanzamiento de Skull and Bones, otra vez



Las increíbles herramientas didácticas de Tekken 8 - IGN First



Impresiones de Tekken 8 tras la beta cerrada: enero ya está tardando en llegar - IGN First



Tekken 8: un primer vistazo a la nueva "Fight Lounge" – IGN First



Tekken 8: Reconstruyendo Tekken en Unreal Engine 5 + El legado de Tekken - IGN First



Este HP Victus es un portátil muy potente que cae con un descuento de 350 euros



El iPhone 14 de 128 GB está ahora más barato que en la tienda de Apple



Por menos de 400 euros este móvil de 512 GB y cámara de 200 MP puede ser tuyo en el Black Friday



Última oportunidad: la mejor oferta del iPhone 15 aún está disponible en el Cyber Monday



Análisis de Worldless, una de la

In [30]:
articles_vspotlight = soup.select("[class=vspotlight] > article")
for article in articles_vspotlight:
    print(article.get_text().strip())

He jugado a Tales of Arise: Os cuento mis sensaciones a los mandos con la última entrega del veterano JRPG
Entrevista con Hidetaka Miyazaki sobre Elden Ring. Historia, mundo, George R.R. Martin, combate y todos sus secretos
Primeras impresiones con OlliOlli World: un gran salto en la saga que avecina otra adicción al skate y a las puntuaciones perfectas
Los 25 mejores villanos de Marvel en el UCM


### Horizontal spotlights

In [99]:
articles = soup.find_all("article", class_="card")
for a in articles:
    if a.parent["class"][0] == "wrap":
        print(a.get_text().strip())

The Game Awards 2023: listado completo con todos los ganadores
Zack Snyder tuvo que romper las reglas de Star Wars para que su epopeya de ciencia ficción pudiera existir
Baldur's Gate 3 es proclamado como Juego del Año en The Game Awards
Black Myth Wukong anuncia su fecha de lanzamiento con nuevo tráiler
Arkane está desarrollando un nuevo videojuego de Blade
Monster Hunter Wilds anunciado para PS5, Xbox y PC junto con el primer tráiler
Jurassic Park Survival regresa de entre los muertos como un nuevo juego de acción
Por fin se desvela la fecha de lanzamiento de Skull and Bones, otra vez
Las increíbles herramientas didácticas de Tekken 8 - IGN First
Impresiones de Tekken 8 tras la beta cerrada: enero ya está tardando en llegar - IGN First
Tekken 8: un primer vistazo a la nueva "Fight Lounge" – IGN First
Tekken 8: Reconstruyendo Tekken en Unreal Engine 5 + El legado de Tekken - IGN First
Este HP Victus es un portátil muy potente que cae con un descuento de 350 euros
El iPhone 14 de 128 G

In [31]:
articles = soup.find_all("article", class_="card")
for a in articles:
    if a.parent["class"][0] == "wrap":
        print(a.get_text().strip())

Zack Snyder responde a la polémica sexual de Batman y Catwoman como solo él podría hacerlo
La franquicia de Animales Fantásticos podría tener los días contados, convirtiéndose en una trilogía
Anthony Mackie responde a las teorías sobre el supuesto romance entre Sam y Bucky en Falcon y El Soldado de Invierno
Tom Hiddleston cuenta cuáles son sus 5 mejores momentos de Loki en el UCM
Disney Plus cambia el día de estreno de sus series originales gracias al éxito de Loki
Val Kilmer, protagonista de Batman Forever, responde a la polémica sobre la vida sexual del justiciero
Spider-Man: No Way Home anuncia su título oficial en español, e incluye una referencia al multiverso
Marvel's Loki presenta a un nuevo personaje importante de los cómics en el UCM
Análisis de Ninja Gaiden Master Collection, vuelve el ninja
Análisis de Ratchet & Clank: Una dimensión aparte para PS5, una gran pequeña aventura
Crítica de los dos primeros episodios de Loki (sin spoilers): Marvel quiere abrazar el thriller polic

In [32]:
articles_hspotlight = soup.select("[class=hspotlight] > div > article")
for article in articles_hspotlight:
    print(article.get_text().strip())

Zack Snyder responde a la polémica sexual de Batman y Catwoman como solo él podría hacerlo
La franquicia de Animales Fantásticos podría tener los días contados, convirtiéndose en una trilogía
Anthony Mackie responde a las teorías sobre el supuesto romance entre Sam y Bucky en Falcon y El Soldado de Invierno
Tom Hiddleston cuenta cuáles son sus 5 mejores momentos de Loki en el UCM
Disney Plus cambia el día de estreno de sus series originales gracias al éxito de Loki
Val Kilmer, protagonista de Batman Forever, responde a la polémica sobre la vida sexual del justiciero
Spider-Man: No Way Home anuncia su título oficial en español, e incluye una referencia al multiverso
Marvel's Loki presenta a un nuevo personaje importante de los cómics en el UCM
Análisis de Ninja Gaiden Master Collection, vuelve el ninja
Análisis de Ratchet & Clank: Una dimensión aparte para PS5, una gran pequeña aventura
Crítica de los dos primeros episodios de Loki (sin spoilers): Marvel quiere abrazar el thriller polic

### Artículos

In [78]:
articles = soup.select("[class='broll wrap'] > div > article")

data = []
for a in articles:
    dict_article = {
        "datetime": a.time.attrs["datetime"],
        "title": a.h3.get_text(),
        "description": a.p.get_text()
    }
    data.append(dict_article)
print(data[:3])

[{'datetime': '2023-12-12T19:30:25+01:00', 'title': 'Zack Snyder revela cuál ha sido su película favorita este año', 'description': 'Este año hemos podido disfrutar de auténticos taquillazos, y el director Zack Snyder tiene muy claro cuál es el mejor de ellos.'}, {'datetime': '2023-12-12T19:00:29+01:00', 'title': 'Estos auriculares premium están rebajados 50 euros con esta oferta flash', 'description': 'Los auriculares Jabra Elite 10 están preparados para ofrecer un sonido de calidad y ahora tienen un 20% de descuento.'}, {'datetime': '2023-12-12T18:30:24+01:00', 'title': 'SEGA revela que los anuncios en The Game Awards son "solo el principio"', 'description': 'La compañía planea recuperar muchas de sus sagas más exitosas como Jet Set Radio, Crazy Taxi o Streets of Rage.'}]


In [83]:
pd.DataFrame(data)

Unnamed: 0,datetime,title,description
0,2023-12-12T19:30:25+01:00,Zack Snyder revela cuál ha sido su película fa...,Este año hemos podido disfrutar de auténticos ...
1,2023-12-12T19:00:29+01:00,Estos auriculares premium están rebajados 50 e...,Los auriculares Jabra Elite 10 están preparado...
2,2023-12-12T18:30:24+01:00,SEGA revela que los anuncios en The Game Award...,La compañía planea recuperar muchas de sus sag...
3,2023-12-12T18:15:28+01:00,"Tekken 8 anuncia una demo para PS5, Xbox Serie...",Te permite jugar el primer capítulo de la hist...
4,2023-12-12T18:15:24+01:00,Estos son todos los nominados a los Globos de ...,Aquí podrás encontrar la lista completa de nom...
...,...,...,...
57,2023-12-10T12:00:29+01:00,El director de Los Juegos del Hambre intentará...,"Francis Lawrence, conocido por adaptar Los Jue..."
58,2023-12-10T10:00:30+01:00,"Thunderbolts no es una ""película de Marvel com...","Wyatt Russell, uno de los protagonistas de Thu..."
59,2023-12-10T09:00:29+01:00,Mads Mikkelsen cree saber por qué normalmente ...,Es raro ver a Mads Mikkelsen en una película y...
60,2023-12-09T20:00:32+01:00,El actor que interpreta a Arthur Morgan está s...,"Rockstar todavía no ha confirmado nada, pero R..."


In [101]:
articles = soup.select("[class='broll wrap'] > div > article")

data = []
for a in articles:
    dict_article = {
        "datetime": a.time.attrs["datetime"],
        "title": a.h3.get_text(),
        "description": a.p.get_text()
    }
    data.append(dict_article)
print(data[:3])

[{'datetime': '2023-12-10T12:00:29+01:00', 'title': 'El director de Los Juegos del Hambre intentará romper la maldición y adaptar esta obra de Stephen King', 'description': 'Francis Lawrence, conocido por adaptar Los Juegos del Hambre, viene dispuesto a hacer lo mismo con una novela de Stephen King.'}, {'datetime': '2023-12-10T10:00:30+01:00', 'title': 'Thunderbolts no es una "película de Marvel como cualquier otra"', 'description': 'Wyatt Russell, uno de los protagonistas de Thunderbolts, afirma que la próxima película de Marvel será muy diferente a todo lo visto hasta ahora.'}, {'datetime': '2023-12-10T09:00:29+01:00', 'title': 'Mads Mikkelsen cree saber por qué normalmente lo eligen para el papel de villano', 'description': 'Es raro ver a Mads Mikkelsen en una película y que él no interprete al villano de la historia, ¿cuál será la razón de ello?'}]


### Generar fichero con datos extraídos

In [34]:
df = pd.DataFrame(data)
df.head()

Unnamed: 0,datetime,title,description
0,2021-06-18T17:51:08+02:00,From Software detalla la dificultad en Elden R...,Hidetaka Miyazaki ha explicado con más detenim...
1,2021-06-18T17:19:42+02:00,Los creadores de Among Us hablan de las dificu...,Aunque el repentino éxito del título fue muy p...
2,2021-06-18T16:55:59+02:00,Descubren referencias de Alan Wake Remastered ...,Aunque no ha habido ningún anuncio oficial al ...
3,2021-06-18T16:39:45+02:00,Baldur's Gate 3 confirma que no dejará el acce...,"El fundador de Larian Studios, Swen Vincke, ha..."
4,2021-06-18T16:24:06+02:00,Kevin Hart quiere que sepas que Borderlands: L...,El actor ha hablado sobre la forma en la que e...


In [102]:
df = pd.DataFrame(data)
df.head()

Unnamed: 0,datetime,title,description
0,2023-12-10T12:00:29+01:00,El director de Los Juegos del Hambre intentará...,"Francis Lawrence, conocido por adaptar Los Jue..."
1,2023-12-10T10:00:30+01:00,"Thunderbolts no es una ""película de Marvel com...","Wyatt Russell, uno de los protagonistas de Thu..."
2,2023-12-10T09:00:29+01:00,Mads Mikkelsen cree saber por qué normalmente ...,Es raro ver a Mads Mikkelsen en una película y...
3,2023-12-09T20:00:32+01:00,El actor que interpreta a Arthur Morgan está s...,"Rockstar todavía no ha confirmado nada, pero R..."
4,2023-12-09T19:00:31+01:00,Cyberpunk 2077 ya cuenta con el mejor meme de ...,"El ""sad Keanu"" es todo un fenómeno en internet..."


In [35]:
df.to_csv("data/list_articles.csv", index=False)