# Web Scraping en Python: Beautiful Soup y Proceso

El **web scraping** es una técnica que permite extraer datos e información de una web. En esta y las próximas sesiones haremos una pequeña iniciación al web scraping con Python, utilizando para ello la librería Beautiful Soup.

Lejos de lo que te puedas imaginar y de que pienses que el web scraping es cosa de hackers, lo cierto es que el web scraping permite, por ejemplo, llevar a cabo un análisis SEO de una web, comprobar enlaces rotos, generar el sitemap de una página, vigilar a la competencia o estar al tanto de cambios en una web. Esta técnica también puede utilizarse en las primeras fases de un proyecto de Big Data o Machine Learning, en los que datos e información juegan un papel importantísimo.

## Qué es Beautiful Soup

Beautiful Soup es una librería Python que permite extraer información de contenido en formato HTML o XML. Para usarla, es necesario especificar un **parser**, que es responsable de transformar un documento HTML o XML en un árbol complejo de objetos Python. Esto permite, por ejemplo, que podamos interactuar con los elementos de una página web como si estuviésemos utilizando las herramientas del desarrollador de un navegador.

A la hora de extraer información de una web, uno de los parsers más utilizado es el parser HTML de `lxml`, que será el que usemos. Si has seguido las instrucciones del WarmUp, ya tendrás instalados tanto `lxml` como `beautifulsoup4` y `requests`. Si no las tienes, deberás instal

In [1]:
import lxml
import requests
from bs4 import BeautifulSoup

### Pasos para hacer web scraping

Estos son los pasos generales cuando abordamos este tipo de proyectos:

1. **Identificar los elementos de la página de los que extraer la información**:  
   Las páginas web son documentos estructurados formados por una jerarquía de elementos. El primer paso para extraer información es identificar correctamente el elemento o elementos que contienen la información deseada. Para ello:
   - Abre la página en un navegador e inspecciona el elemento (clic derecho → *"Inspeccionar"* o *"Inspeccionar elemento"*, según el navegador).
   - Registra detalles del elemento como:
     - **Etiqueta HTML** (ej. `<div>`, `<a>`).
     - **Atributos** relevantes (`id`, `class`, etc.).
   Esta información será crucial para usar **Beautiful Soup** posteriormente.

2. **Descargar el contenido de la página**  
   Utiliza la librería `requests` para obtener el HTML de la página. Ejemplo básico:
   ```python
   import requests
   response = requests.get("https://ejemplo.com")
   html_content = response.text  # Contenido HTML para Beautiful Soup

3. **Crear la «sopa»:** El contenido de la página obtenido en el paso anterior será el que utilicemos para crear la «sopa», esto es, **el árbol de objetos Python que representan al documento HTML**. Para ello, hay que crear un objeto de tipo `BeautifulSoup`, al cuál se le pasa el texto en formato HTML y el identificador del parser a utilizar:

```python
import requests
from bs4 import BeautifulSoup
r = requests.get('http://unapagina.xyz')
soup = BeautifulSoup(r.text, 'lxml')

## Web Scraping en Python: HTML y BeautifulSoup (I)

En esta sesión vamos a revisar unos cuantos conceptos importantes de HTML (el lenguaje en el que están construidas las páginas Web, bueno, el facial luego por dentro tienen de todo) pero lo haremos a la vez que vamos aprendiendo algo más de como usar BeautifulSoup. Para ello lo primero es hacer unas cuantas importaciones y crearnos una página HTML ficticia que nos servirá de guía:



In [2]:
import pandas as pd  
import requests



## Ejemplo de página HTML para web scraping

Suponemos que esta página de ejemplo la hemos descargado con una llamada a la función `requests.get()`:

In [3]:
contenido =''' 
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
    <div id="main" class="full-width">
        <h1>El título de la página</h1>
        <p>Este es el primer párrafo</p>
        <p>Este es el segundo párrafo</p>
        <div id="innerDiv">
            <div class="links">
                <a href="https://pagina1.xyz/">Enlace 1</a>
                <a href="https://pagina2.xyz/">Enlace 2</a>
            </div>
        </div>
    </div>
</body>
</html
'''

In [4]:
soup = BeautifulSoup(contenido,'lxml')

### Primeros conceptos: Etiquetas y Atributos

HTML consta de elementos como enlaces, párrafos, encabezados, bloques, etc. Estos elementos están envueltos entre etiquetas; dentro de la etiqueta de apertura y cierre se puede encontrar el contenido del elemento.

Los elementos HTML también pueden tener atributos que contienen información adicional sobre el elemento. Los atributos se definen en las etiquetas de apertura con la siguiente sintaxis:  
nombre del atributo = "valor del atributo".

## BeautifulSoup: Tags y NavigableString

Tenemos principalmente 2 tipos de objetos BeautifulSoup:

### Tag
- **Tag**: Este objeto se corresponde con una etiqueta HTML o XML. Por ejemplo, dado el objeto  
   soup, podemos acceder al objeto (tag) que representa al título de la página usando la etiqueta title.

In [5]:
soup.title

<title>Página de prueba</title>

Hemos accedido a todo el objeto (su apertura,cierre,texto,atributos etc). Probemos con otro, por ejemplo Div

In [6]:
soup.div

<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
</div>
</div>

Como hay varios objetos tipo `<div>` nos ha devuelto toda la definición del primero que encuentra (que es el div de mayor extensión que contiene al resto) (la etiqueta div es muy utilizada para hacer agrupaciones de objetos a los que luego aplicar estilos comunes a partir de hojas CSS, y demás...) aquí tienes una guía de las miles que hay en Internet.

In [7]:
### Veamos como acceder a uno de los div internos
soup.div.div


<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
</div>

In [8]:
print (soup.div.div.prettify())

<div id="innerDiv">
 <div class="links">
  <a href="https://pagina1.xyz/">
   Enlace 1
  </a>
  <a href="https://pagina2.xyz/">
   Enlace 2
  </a>
 </div>
</div>



Y para todo el arbol

In [9]:
print(soup.prettify())

<html lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   Página de prueba
  </title>
 </head>
 <body>
  <div class="full-width" id="main">
   <h1>
    El título de la página
   </h1>
   <p>
    Este es el primer párrafo
   </p>
   <p>
    Este es el segundo párrafo
   </p>
   <div id="innerDiv">
    <div class="links">
     <a href="https://pagina1.xyz/">
      Enlace 1
     </a>
     <a href="https://pagina2.xyz/">
      Enlace 2
     </a>
    </div>
   </div>
  </div>
 </body>
</html>



Dado un objeto de tipo `Tag`, podemos acceder a sus atributos tratando al objeto como si fuera un diccionario. Además, se puede acceder a ese diccionario por medio del atributo `attrs`:

In [10]:
### poe ejemplo el primer gran div tiene dos atributos

soup.div

<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
</div>
</div>

In [11]:
print("Id:",soup.div["id"])

Id: main


In [12]:
print("Class:",soup.div["class"])
print(soup.div.attrs)

Class: ['full-width']
{'id': 'main', 'class': ['full-width']}


Igual has caído en la cuenta de que cuando usábamos `ElementTree` con XML el atributo (valga la redundancia) que contenía los atributos de un nodo era `attrib`, y con `BeautifulSoup` es `attrs`.

#### NavigableString y text/get_text()

- **NavigableString**: Un objeto de este tipo representa a la cadena de texto que hay contenida en una etiqueta. Se accede por medio de la propiedad string.

In [13]:
primer_parrafo = soup.p
print(primer_parrafo.string)
print(type(primer_parrafo.string))

Este es el primer párrafo
<class 'bs4.element.NavigableString'>


- **text**: Cuando un nodo tiene más de un subnodo con texto, `string` devuelve `None`. Es por eso que, si sabes que ese es el caso, es mejor utilizar el atributo `text`. Ojo que devuelve todos los textos internos:

In [14]:
print(soup.div.string)

None


In [15]:
print(soup.div.text)


El título de la página
Este es el primer párrafo
Este es el segundo párrafo


Enlace 1
Enlace 2





In [16]:
print(soup.div.get_text(separator="*"))


*El título de la página*
*Este es el primer párrafo*
*Este es el segundo párrafo*
*
*
*Enlace 1*
*Enlace 2*
*
*



# Web Scraping en Python: BeautifulSoup (II)

En esta sesión vamos a navegar hacia abajo (hijos o descendientes) y hacia arriba (parents) en una estructura HTML a partir de un nodo determinado. Y también a encontrar los Tags dentro de otros tags con métodos similares a los empleados con XML (es decir algo como findall pero que aquí se llama find_all )

In [17]:
import lxml
import pandas as pd
import requests

In [18]:
from bs4 import BeautifulSoup  
# Suponemos que esta pagina de ejemplo La hemos descargado con una llamada a la función

In [19]:
contenido = """
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo</p>
    <p>Este es el segundo párrafo</p>
    <div id="innerDiv">
        <div class="links">
            <a href="https://pagina1.xyz/">Enlace 1</a>
            <a href="https://pagina2.xyz/">Enlace 2</a>
        </div>
    </div>
    <div class="right"></div>
</div>
</body>
</html>
"""

In [20]:
soup = BeautifulSoup(contenido,'lxml')

## Navegar a través de los elementos de Beautiful Soup

### Hijos

- El atributo **contents**: Devuelve una lista con todos los hijos de primer nivel de un objeto.
- Atributo **descendants**: Este atributo devuelve un iterador que permite recorrer todos los hijos de un objeto. No importa el nivel de anidamiento.

In [21]:
inner_div = soup.div.div  
inner_div.contents

['\n',
 <div class="links">
 <a href="https://pagina1.xyz/">Enlace 1</a>
 <a href="https://pagina2.xyz/">Enlace 2</a>
 </div>,
 '\n']

In [22]:
inner_div = soup.div.div

# Obtener los hijos del div
hijos = inner_div.contents
print(type(hijos))  # <class 'list'>
print("\n")

for child in hijos:
    if child.name:  # Filtramos solo elementos (ignorando strings y saltos de línea)
        print(f'{child.name}:\n{child.prettify()}')
        print("\n")

<class 'list'>


div:
<div class="links">
 <a href="https://pagina1.xyz/">
  Enlace 1
 </a>
 <a href="https://pagina2.xyz/">
  Enlace 2
 </a>
</div>





In [23]:
# Código corregido para trabajar con descendants
hijos = inner_div.descendants
print(hijos)  # Esto mostrará: <generator object Tag.descendants at 0x...>

print("\n")
for child in hijos:
    if child.name:  # Filtramos solo elementos con etiqueta
        print(f'{child.name}:\n{child}')  # Corregidas las comillas y formato
        print("\n")

<generator object Tag.descendants at 0x000001EDA40D8380>


div:
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>


a:
<a href="https://pagina1.xyz/">Enlace 1</a>


a:
<a href="https://pagina2.xyz/">Enlace 2</a>




### Padres

Además de a los hijos, es posible navegar hacia arriba en el árbol accediendo a los objetos padre de un elemento. Para ello, puedes usar las propiedades parent y parents:

- **parent** referencia al objeto padre de un elemento (Tag o NavigableString).
- **parents** es un generador que permite recorrer recursivamente todos los elementos padre de uno dado.

In [24]:
inner_div.parent

<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
</div>
<div class="right"></div>
</div>

In [25]:
for parent in inner_div.parents:
    print(parent)
    print("\n\n")

<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
</div>
<div class="right"></div>
</div>



<body>
<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</div>
</div>
<div class="right"></div>
</div>
</body>



<html lang="es">
<head>
<meta charset="utf-8"/>
<title>Página de prueba</title>
</head>
<body>
<div class="full-width" id="main">
<h1>El título de la página</h1>
<p>Este es el primer párrafo</p>
<p>Este es el segundo párrafo</p>
<div id="innerDiv">
<div class="links">
<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>
</di

### Find y Find_all

Beautiful Soup pone a nuestra disposición diferentes métodos para buscar elementos en el árbol.  
Sin embargo, dos de los principales son `find_all()` y `find()`.  

Ambos métodos trabajan de forma similar. Básicamente, buscan entre los descendientes de un objeto de tipo `Tag` y recuperan todos aquellos que cumplan una serie de filtros.

El filtro más básico consiste en pasar el nombre de la etiqueta a buscar como primer argumento de la función (parámetro `name`).

Imagina que quieres recuperar todos los enlaces (etiqueta `<a>`) que hay en el texto HTML del ejemplo. Se podría hacer del siguiente modo:

El filtro más básico consiste en pasar el nombre de la etiqueta a buscar como primer argumento de la función (parámetro `name`).

Imagina que quieres recuperar todos los enlaces (etiqueta `<a>`) que hay en el texto HTML del ejemplo. Se podría hacer del siguiente modo:


In [26]:
enlaces = soup.find_all('a')  
for enlace in enlaces:  
    print(enlace)

<a href="https://pagina1.xyz/">Enlace 1</a>
<a href="https://pagina2.xyz/">Enlace 2</a>


Además del nombre de la etiqueta, puedes especificar parámetros con nombre. Si estos no coinciden con los nombres de los parámetros de la función, serán tratados como atributos de la etiqueta entre los que filtrar.

Por ejemplo, si quisieras encontrar el bloque `<div>` con `id="footer"`, podrías aplicar el siguiente filtro:


In [27]:
footer = soup.find_all(id='footer')
print(footer)

[]


In [28]:
### Si queremos aplicar filtros a los Tags por sus atributos tendremos que pasarle un diccionario, por ejemplo si queremos quedarnos sólo con los Tags `<div>` con su atributo `class` igual a `"right"`:

for elemento in soup.find_all("div", attrs={"class": "right"}):
    print(elemento.prettify())

<div class="right">
</div>



Si sabemos que aparece una única vez, podemos usar el método `find()`, que directamente nos devuelve la primera coincidencia. Es equivalente a usar `find_all()` con `limit=1`:

In [29]:
soup.find('title')

<title>Página de prueba</title>

In [31]:
soup.find_all()

[<html lang="es">
 <head>
 <meta charset="utf-8"/>
 <title>Página de prueba</title>
 </head>
 <body>
 <div class="full-width" id="main">
 <h1>El título de la página</h1>
 <p>Este es el primer párrafo</p>
 <p>Este es el segundo párrafo</p>
 <div id="innerDiv">
 <div class="links">
 <a href="https://pagina1.xyz/">Enlace 1</a>
 <a href="https://pagina2.xyz/">Enlace 2</a>
 </div>
 </div>
 <div class="right"></div>
 </div>
 </body>
 </html>,
 <head>
 <meta charset="utf-8"/>
 <title>Página de prueba</title>
 </head>,
 <meta charset="utf-8"/>,
 <title>Página de prueba</title>,
 <body>
 <div class="full-width" id="main">
 <h1>El título de la página</h1>
 <p>Este es el primer párrafo</p>
 <p>Este es el segundo párrafo</p>
 <div id="innerDiv">
 <div class="links">
 <a href="https://pagina1.xyz/">Enlace 1</a>
 <a href="https://pagina2.xyz/">Enlace 2</a>
 </div>
 </div>
 <div class="right"></div>
 </div>
 </body>,
 <div class="full-width" id="main">
 <h1>El título de la página</h1>
 <p>Este es el 

## Ejemplo practico Web Scraping

In [32]:
import pandas as pd
import requests

from bs4 import BeautifulSoup

In [33]:
# Version 1, Larga:
url = "https://static.elpais.com/hemeroteca/elpais/2023/04/24/m/portada.html"
elpais = requests.request(url = url, method = "GET")


| HTTP method | Description |  
|-------------|-------------|  
| GET         | Obtiene un recurso existente (ahora lee página web en vez de recurso). |  
| POST        | Crea un nuevo recurso (ahora lee página web en vez de recurso) |  
| PUT         | Actualiza un recurso existente (pues eso lee página web ...). |  
| DELETE      | Borra un recurso (pues idem.) |  

Además lo que nos ha devuelto es:

In [35]:
print (type(elpais))

<class 'requests.models.Response'>


Un objeto tipo Response, del que tienes que conviene saber los siguientes atributos y métodos (los usaremos cuando hablemos de APIs):

1. **status_code**:
   - Representa el código de estado HTTP de la respuesta. Por ejemplo, 200 para éxito, 404 para no encontrado, 500 para error interno del servidor, etc.
   - Es útil para verificar si una solicitud se realizó con éxito. Sí, este es el atributo que refleja el famoso 404. Los códigos van por grupos (los 2xx son éxito, 4xx es un problema del cliente, 5xx es un problema del servidor)

2. **text**:
   - Contiene el contenido de la respuesta en formato Unicode. En nuestro caso, es el código HTML.
   - Se utiliza para obtener el cuerpo de la respuesta como una cadena de texto, que es útil para respuestas de tipo texto como HTML, XML, JSON, etc.

3. **.json()** (método):
   - Método que convierte la respuesta, asumiendo que es de tipo JSON, a un objeto Python (usualmente un diccionario).
   - Es muy útil cuando se trabaja con APIs que devuelven respuestas en formato JSON. (por eso te lo presento aquí pero lo veremos en las siguientes sesiones)


In [39]:
url = "https://static.elpais.com/hemeroteca/elpais/2023/04/24/m/portada.html"
elpais = requests.get(url)

In [40]:
soup_elpais = BeautifulSoup(elpais.text, "lxml")

- **Objetivo**: Obtener las noticias por sección y con su fecha.

- **Pesquisas**: Tenemos la infor en las etiquetas: time, section \( y \) article. Tenemos que hacer un pequeño tratamiento.

## Extracción de la fecha: Tag -> time

Sabemos que la fecha está en un Tag "time", pero vimos que había varios, tenemos que asegurarnos que es el Tag "time" que cuelga de otro Tag con atributo "data-dtm-region" igual a "portada_menu". Entonces tenemos que escribirnos un código que nos capture precisamente ese Tag time:

In [46]:
# Iremos recuperando todos Los Tags de tipo "time" y para cada uno recorreremos el árbol
# correspondiente, cuando encontremos el que tenga el atributo indicado, nos quedaremos
# estábamos revisando y paráremos
fin = False
for tiempo in soup_elpais.find_all("time"):
    for padre in tiempo.parents:
        if padre.attrs.get("data-dtm-region",None) == "portada_menu":
            print(tiempo)
            tiempo_tag = tiempo
            fin = True
            break

    if fin: 
        break


<time data-date="2023-04-24T09:51:53.591Z" datetime="2023-04-24T09:51:53.591Z" id="header_date_88"><span>24 abr 2023</span><span class="x_e_s">|</span><span>Actualizado<!-- --> <!-- -->09:51<!-- --> <abbr title="UTC">UTC</abbr></span><span class="x_e_s">|</span></time>


¿Y que valor me quedo? Veamos los atributos, string y text:

In [49]:
print("Atributos:",tiempo.attrs)
print("String:",tiempo.string)
print("text:",tiempo.text)

Atributos: {'id': 'header_date_88', 'datetime': '2023-04-24T09:51:53.591Z', 'data-date': '2023-04-24T09:51:53.591Z'}
String: None
text: 24 abr 2023|Actualizado 09:51 UTC|


Podemos escoger el que queramos, vamos a quedarnos el datetime porque luego le diremos a Pandas que lo use como tal

In [50]:
fecha = tiempo_tag["datetime"]

### Extracción de los artículos y las secciones: Tags -> section y article

Tenemos el tiempo es el momento de capturar los artículos y sus secciones. Recordaras, y si no, te lo recuerdo yo, que teniamos Tag "section" y dentro de estos colgaban Tag "articles". El nombre de la sección estaba en el atributo "data-dtm-region".

In [51]:
## Recorramos todos Los Tags tipo="section", capturemos su atributo "data-dtm-region" y luego para cada section, vayamos capturando sus artículos

In [55]:
# Recorramos todos Los Tags tipo "section", capturemos su atributo "data-dtm-region" 
for seccion in soup_elpais.find_all("section"):
    nombre_seccion = seccion.get("data-dtm-region","Otros")
    for articulo in section.find_all("article"):
        noticia = articulo.header.get_text(separator= ":")
        if noticia:
            print(f"He encontrado una noticia de la seccion {nombre_seccion}:")
            print(f"NOT -> {noticia}")
            print("\n\n")

He encontrado una noticia de la seccion portada_apertura:
NOT -> vídeo en directo:La exhumación de Primo de Rivera se lleva a cabo a puerta cerrada 



He encontrado una noticia de la seccion portada_apertura:
NOT -> El Gobierno ejecuta el traslado de los restos del fundador de la Falange tras los de Franco, Queipo, Sanjurjo y Mola



He encontrado una noticia de la seccion portada_apertura:
NOT -> Vídeo | Así ‘sacralizó’ el franquismo al líder falangista:Samuel Martínez



He encontrado una noticia de la seccion portada_apertura:
NOT -> El gasto militar en Europa alcanza niveles de la Guerra Fría



He encontrado una noticia de la seccion portada_apertura:
NOT -> El general ucranio Serguéi Melnik: “Solo los rusos pueden cambiar Rusia. Será entonces cuando termine la guerra”



He encontrado una noticia de la seccion portada_apertura:
NOT -> EDITORIAL:Pulso agrícola en la UE 



He encontrado una noticia de la seccion portada_apertura:
NOT -> Una moratoria artificial



He encontrado u

### Juntándolo todo en un DataFrame

Ahora reusamos el código anterior, más la fecha, para crear una lista de diccionarios que luego nos servirá para generar el DataFrame.

In [61]:
# Creamos nuestra lista de diccionarios, uno por noticia
lista_noticias = []
for seccion in soup_elpais.find_all("section"):
    nombre_seccion = seccion.get("data-dtm-region","Otros")
    for articulo in seccion.find_all("article"):
        noticia = articulo.header.get_text(separator=":")
        if noticia:
            lista_noticias.append({"fecha":fecha, "noticia": noticia, "sección": nombre_seccion})

In [62]:
df = pd.DataFrame(lista_noticias)
df

Unnamed: 0,fecha,noticia,sección
0,2023-04-24T09:51:53.591Z,vídeo en directo:La exhumación de Primo de Riv...,portada_apertura
1,2023-04-24T09:51:53.591Z,El Gobierno ejecuta el traslado de los restos ...,portada_apertura
2,2023-04-24T09:51:53.591Z,Vídeo | Así ‘sacralizó’ el franquismo al líder...,portada_apertura
3,2023-04-24T09:51:53.591Z,El gasto militar en Europa alcanza niveles de ...,portada_apertura
4,2023-04-24T09:51:53.591Z,El general ucranio Serguéi Melnik: “Solo los r...,portada_apertura
...,...,...,...
130,2023-04-24T09:51:53.591Z,Un médico triunfa al contar el comentario que ...,Otros
131,2023-04-24T09:51:53.591Z,Asensio depende de Brahim,Otros
132,2023-04-24T09:51:53.591Z,Del café a la cocaína en el trabajo: la otra c...,Otros
133,2023-04-24T09:51:53.591Z,Las 10 mejores películas y series de mafia de ...,Otros


In [63]:
df["fecha"]=pd.to_datetime(df["fecha"])
df

Unnamed: 0,fecha,noticia,sección
0,2023-04-24 09:51:53.591000+00:00,vídeo en directo:La exhumación de Primo de Riv...,portada_apertura
1,2023-04-24 09:51:53.591000+00:00,El Gobierno ejecuta el traslado de los restos ...,portada_apertura
2,2023-04-24 09:51:53.591000+00:00,Vídeo | Así ‘sacralizó’ el franquismo al líder...,portada_apertura
3,2023-04-24 09:51:53.591000+00:00,El gasto militar en Europa alcanza niveles de ...,portada_apertura
4,2023-04-24 09:51:53.591000+00:00,El general ucranio Serguéi Melnik: “Solo los r...,portada_apertura
...,...,...,...
130,2023-04-24 09:51:53.591000+00:00,Un médico triunfa al contar el comentario que ...,Otros
131,2023-04-24 09:51:53.591000+00:00,Asensio depende de Brahim,Otros
132,2023-04-24 09:51:53.591000+00:00,Del café a la cocaína en el trabajo: la otra c...,Otros
133,2023-04-24 09:51:53.591000+00:00,Las 10 mejores películas y series de mafia de ...,Otros
