### Instalación e importación de las librerías necesarias

En este notebook utilizaremos 3 librerías.

Veamos para que sirve cada una de ellas:

**BeautifulSoup:** Esta biblioteca nos permite analizar código HTML y XML. Proporciona herramientas para extraer datos de páginas web mediante el análisis y recorrido del árbol de elementos HTML/XML.

**requests:** Esta librería nos permite enviar solicitudes HTTP. Facilita el envío de solicitudes GET, POST y otros tipos de solicitudes a servidores web. También simplifica el trabajo con servicios web y APIs.

**pandas:** Esta biblioteca que permite trabajar con grandes cantidades de datos. Proporciona herramientas convenientes para analizar, manipular y procesar datos estructurados.

In [None]:
!pip3 install bs4 # En caso de que esta librería no estuviese instalada, se debe ejecutar esta línea para hacerlo.
# Google Colaboratory ya posee incorparada esta librería.

Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl.metadata (411 bytes)
Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Installing collected packages: bs4
Successfully installed bs4-0.0.2


In [None]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

### Obtención de los datos desde un sitio web

In [None]:
# Enlace del sitio web del cual se quieren obtener los datos
url = "https://www.xataka.com/tag/ciencia-y-tecnologia" # Ingresar el sitio web como string

In [None]:
# Utilizamos la biblioteca "requests" para enviar una solicitud GET
# a la URL especificada y obtener una respuesta.
# El estado “200” significa que la solicitud fue procesada correctamente y la página está disponible.

response = requests.get(url)
print(response)

<Response [200]>


In [None]:
# Pasamos el texto del objeto “response” (respuesta) correspondiente al sitio (response.text)
# y especificamos el analizador que se utilizará ("lxml")
# para crear un objeto BeautifulSoup para el análisis posterior del código HTML.

bs = BeautifulSoup(response.text,"lxml")
print(bs)

<!DOCTYPE html>
<html lang="es">
<head>
<script>
 var country = 'TW';
 var isSpainOrLatamUser = false;
</script>
<title>Ciencia y Tecnología - Noticias - Xataka</title>
<script>
 WSL2 = window.WSL2 || {};
 WSL2.config = WSL2.config || {};
 WSL2.config.title = "Ciencia y Tecnología - Noticias - Xataka";
</script>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="Ciencia y tecnología:China tiene un nuevo juguete: un imán que genera un campo magnético 800.000 veces más fuerte que el de la Tierra.Acabamos de encontrar el nuevo.." name="description"/>
<script>WSL2.config.metaDescription = "Ciencia y tecnología:China tiene un nuevo juguete: un imán que genera un campo magnético 800.000 veces más fuerte que el de la Tierra.Acabamos de encontrar el nuevo.."</script>
<meta content="100000716994885" property="fb:admins"/>
<meta content="41267802635" property="fb:pages"/>
<meta content="355823546895" property="fb:app_id"/>
<meta content

In [None]:
# Aquí, buscamos todos los elementos <h2 class="abstract-title" ...> en la página
# y los almacenamos en la variable "temp". Estos se corresponden a todos los
# enlaces y los títulos de las noticias que queremos recopilar.

temp = bs.find_all("h2", "abstract-title")
print(temp)

[<h2 class="abstract-title"><a href="https://www.xataka.com/investigacion/china-tiene-nuevo-juguete-iman-que-genera-campo-magnetico-800-000-veces-fuerte-que-tierra">China tiene un nuevo juguete: un imán que genera un campo magnético 800.000 veces más fuerte que el de la Tierra </a></h2>, <h2 class="abstract-title"><a href="https://www.xataka.com/investigacion/acabamos-encontrar-nuevo-numero-primo-grande-mundo-eso-dificil-que-hemos-tardado-seis-anos-lograrlo">Acabamos de encontrar el nuevo número primo más grande del mundo. Eso es tan difícil que hemos tardado seis años en lograrlo </a></h2>, <h2 class="abstract-title"><a href="https://www.xataka.com/investigacion/unos-investigadores-querian-soporte-capaz-guardar-datos-miles-anos-solucion-memoria-5d-cuarzo">Unos investigadores querían un soporte capaz de guardar datos por miles de años. La solución: una memoria 5D de cuarzo</a></h2>, <h2 class="abstract-title"><a href="https://www.xataka.com/energia/equipo-coreano-ha-descubierto-acciden

In [None]:
# Observar qué nos devuelve al imprimir uno de los elementos de "temp"

print(temp[0]) # Probar con otros valores de index

<h2 class="abstract-title"><a href="https://www.xataka.com/investigacion/china-tiene-nuevo-juguete-iman-que-genera-campo-magnetico-800-000-veces-fuerte-que-tierra">China tiene un nuevo juguete: un imán que genera un campo magnético 800.000 veces más fuerte que el de la Tierra </a></h2>


In [None]:
# A modo de ejemplo, se muestra cómo acceder a cada uno de los títulos y enlaces de las noticias
# recopiladas en el sitio web. Tener en cuenta que "temp" guarda distintos elementos
# a los cuales se accede por indexación. Por otro lado, cada uno de esos elementos tiene
# diferentes niveles según su organizacion jerarquica. En este caso se accede a los elementos
# del tag <a></a>

print("Acceso al título de la noticia:", temp[0].a.text) # Prueba con otros valores de index
print("Acceso al enlace de la noticia:", temp[0].a.get("href")) # Prueba con otros valores de index

Acceso al título de la noticia: China tiene un nuevo juguete: un imán que genera un campo magnético 800.000 veces más fuerte que el de la Tierra 
Acceso al enlace de la noticia: https://www.xataka.com/investigacion/china-tiene-nuevo-juguete-iman-que-genera-campo-magnetico-800-000-veces-fuerte-que-tierra


In [None]:
# Se crea un diccionario vacío con dos elementos cuyas palabras claves son:
# "titulos_noticias" y "enlaces". Aquí se almacenarán los títulos de las noticias
# y sus correpsondientes enlaces.

dict_news = {"titulos_noticias": [], "enlaces": []}

for i in temp:
  dict_news["enlaces"].append(i.a.get("href"))
  dict_news["titulos_noticias"].append(i.a.text)

In [None]:
# Utilizamos la biblioteca pandas para crear un DataFrame a partir del
# diccionario "dict_news". Es importante especificar las columnas "titulos_noticias"
# y "enlaces". Este DataFrame almacenará todos los datos recopilados de los
# artículos de noticias.

df_news = pd.DataFrame(dict_news, columns=["titulos_noticias", "enlaces"])

In [None]:
# Visualización de los resultados.
# Puedes almacenar la información recopilada en cualquier otra estructura si lo deseas.

df_news

Unnamed: 0,titulos_noticias,enlaces
0,China tiene un nuevo juguete: un imán que gene...,https://www.xataka.com/investigacion/china-tie...
1,Acabamos de encontrar el nuevo número primo má...,https://www.xataka.com/investigacion/acabamos-...
2,Unos investigadores querían un soporte capaz d...,https://www.xataka.com/investigacion/unos-inve...
3,Un laboratorio descubre por accidente un conde...,https://www.xataka.com/energia/equipo-coreano-...
4,Novo Nordisk aterriza en España. Es un síntoma...,https://www.xataka.com/empresas-y-economia/nov...
5,Elon Musk puso en órbita su coche hace cinco a...,https://www.xataka.com/magnet/elon-musk-puso-o...
6,"""As an AI language model..."": la academia se h...",https://www.xataka.com/robotica-e-ia/as-an-ai-...
7,Se ofrece trabajo de investigador en Castilla ...,https://www.xataka.com/investigacion/se-ofrece...
8,Intel prepara su propio ChatGPT para el ámbito...,https://www.xataka.com/robotica-e-ia/intel-pre...
9,La nueva ley de ciencia mexicana no es una ley...,https://www.xataka.com/investigacion/nueva-ley...


In [None]:
diccionario_noticias = {"titulos_noticias": [], "enlaces": [], "comentarios": [], "fecha_publicacion": []}

In [None]:
# Enlace del sitio web del cual se quieren obtener los datos
url = "https://www.xataka.com/tag/ciencia-y-tecnologia" # Ingresar el sitio web como string

In [None]:
# Utilizamos la biblioteca "requests" para enviar una solicitud GET
# a la URL especificada y obtener una respuesta.
# El estado “200” significa que la solicitud fue procesada correctamente y la página está disponible.

response = requests.get(url)
print(response)

<Response [200]>


In [None]:
# Pasamos el texto del objeto “response” (respuesta) correspondiente al sitio (response.text)
# y especificamos el analizador que se utilizará ("lxml")
# para crear un objeto BeautifulSoup para el análisis posterior del código HTML.

bs = BeautifulSoup(response.text,"lxml")
print(bs)

<!DOCTYPE html>
<html lang="es">
<head>
<script>
 var country = 'TW';
 var isSpainOrLatamUser = false;
</script>
<title>Ciencia y Tecnología - Noticias - Xataka</title>
<script>
 WSL2 = window.WSL2 || {};
 WSL2.config = WSL2.config || {};
 WSL2.config.title = "Ciencia y Tecnología - Noticias - Xataka";
</script>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="Ciencia y tecnología:China tiene un nuevo juguete: un imán que genera un campo magnético 800.000 veces más fuerte que el de la Tierra.Acabamos de encontrar el nuevo.." name="description"/>
<script>WSL2.config.metaDescription = "Ciencia y tecnología:China tiene un nuevo juguete: un imán que genera un campo magnético 800.000 veces más fuerte que el de la Tierra.Acabamos de encontrar el nuevo.."</script>
<meta content="100000716994885" property="fb:admins"/>
<meta content="41267802635" property="fb:pages"/>
<meta content="355823546895" property="fb:app_id"/>
<meta content

In [None]:
temp = bs.find_all("article", "recent-abstract abstract-article")
print(temp[0])

<article class="recent-abstract abstract-article">
<div class="abstract-figure">
<div class="base-asset-image">
<a href="https://www.xataka.com/investigacion/china-tiene-nuevo-juguete-iman-que-genera-campo-magnetico-800-000-veces-fuerte-que-tierra">
<picture>
<source height="333" media="(min-width: 767px)" srcset="https://i.blogs.es/020aa5/iman-chino/500_333.jpeg" width="500"/>
<source height="375" media="(min-width: 450px)" srcset="https://i.blogs.es/020aa5/iman-chino/375_375.jpeg" width="375"/>
<source height="200" media="(min-width: 320px)" srcset="https://i.blogs.es/020aa5/iman-chino/200_200.jpeg" width="200"/>
<img alt="China tiene un nuevo juguete: un imán que genera un campo magnético 800.000 veces más fuerte que el de la Tierra " height="200" src="https://i.blogs.es/020aa5/iman-chino/200_200.jpeg" width="200"/>
</picture>
</a>
</div>
</div>
<div class="abstract-content">
<header>
<h2 class="abstract-title"><a href="https://www.xataka.com/investigacion/china-tiene-nuevo-juguete-

In [None]:
for post in temp:
    diccionario_noticias["enlaces"].append(post.h2.a.get("href")) # Tener en cuenta la jerarquia. El elemento <a></a>
    # está contenido en el elemento <h2></h2>
    diccionario_noticias["titulos_noticias"].append(post.h2.a.text) # IDEM
    diccionario_noticias["comentarios"].append(post.span.text) # Los comentarios se encuentran dentro del tag "span"
    diccionario_noticias["fecha_publicacion"].append(post.time.get("datetime")[0:10]) # La fecha y hora se encuentran dentrp
    # del tag "datetime"
    # Dado que solo queremos la fecha, nos quedamos con el slice correspondiente a 0:10.
df_news_02 = pd.DataFrame(diccionario_noticias, columns=["titulos_noticias", "enlaces", "comentarios", "fecha_publicacion"])
df_news_02

Unnamed: 0,titulos_noticias,enlaces,comentarios,fecha_publicacion
0,China tiene un nuevo juguete: un imán que gene...,https://www.xataka.com/investigacion/china-tie...,6,2024-11-17
1,Acabamos de encontrar el nuevo número primo má...,https://www.xataka.com/investigacion/acabamos-...,13,2024-10-22
2,Unos investigadores querían un soporte capaz d...,https://www.xataka.com/investigacion/unos-inve...,2,2024-09-24
3,Un laboratorio descubre por accidente un conde...,https://www.xataka.com/energia/equipo-coreano-...,20,2024-05-10
4,Novo Nordisk aterriza en España. Es un síntoma...,https://www.xataka.com/empresas-y-economia/nov...,9,2023-09-20
5,Elon Musk puso en órbita su coche hace cinco a...,https://www.xataka.com/magnet/elon-musk-puso-o...,6,2023-08-25
6,"""As an AI language model..."": la academia se h...",https://www.xataka.com/robotica-e-ia/as-an-ai-...,4,2023-08-11
7,Se ofrece trabajo de investigador en Castilla ...,https://www.xataka.com/investigacion/se-ofrece...,12,2023-05-31
8,Intel prepara su propio ChatGPT para el ámbito...,https://www.xataka.com/robotica-e-ia/intel-pre...,10,2023-05-23
9,La nueva ley de ciencia mexicana no es una ley...,https://www.xataka.com/investigacion/nueva-ley...,31,2023-05-09
