<a href="https://colab.research.google.com/github/XDavidX100/fang.bot/blob/main/%22_Translated_%5BESP%5D_news_parsing_example_ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Instalación e importación de las librerías necesarias

En este notebook utilizaremos 3 librerías.

Veamos para que sirve cada una de ellas:

**BeautifulSoup:** Esta biblioteca nos permite analizar código HTML y XML. Proporciona herramientas para extraer datos de páginas web mediante el análisis y recorrido del árbol de elementos HTML/XML.

**requests:** Esta librería nos permite enviar solicitudes HTTP. Facilita el envío de solicitudes GET, POST y otros tipos de solicitudes a servidores web. También simplifica el trabajo con servicios web y APIs.

**pandas:** Esta biblioteca que permite trabajar con grandes cantidades de datos. Proporciona herramientas convenientes para analizar, manipular y procesar datos estructurados.

In [2]:
!pip3 install bs4 # En caso de que esta librería no estuviese instalada, se debe ejecutar esta línea para hacerlo.
# Google Colaboratory ya posee incorparada esta librería.

Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Installing collected packages: bs4
Successfully installed bs4-0.0.2


In [3]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

### Obtención de los datos desde un sitio web

In [4]:
# Enlace del sitio web del cual se quieren obtener los datos
url = "https://www.xataka.com/tag/ciencia-y-tecnologia" # Ingresar el sitio web como string

In [5]:
# Utilizamos la biblioteca "requests" para enviar una solicitud GET
# a la URL especificada y obtener una respuesta.
# El estado “200” significa que la solicitud fue procesada correctamente y la página está disponible.

response = requests.get(url)
print(response)

<Response [200]>


In [6]:
# Pasamos el texto del objeto “response” (respuesta) correspondiente al sitio (response.text)
# y especificamos el analizador que se utilizará ("lxml")
# para crear un objeto BeautifulSoup para el análisis posterior del código HTML.

bs = BeautifulSoup(response.text,"lxml")
print(bs)

<!DOCTYPE html>
<html lang="es">
<head>
<script>
 var country = 'US';
 var isSpainOrLatamUser = true;
</script>
<title>Ciencia y Tecnología - Noticias - Xataka</title>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="Ciencia y tecnología:Novo Nordisk aterriza en España. Es un síntoma de algo más: el país se está convirtiendo en un hub tecnológico.Elon Musk puso en órbita su coche..." name="description"/>
<meta content="100000716994885" property="fb:admins"/>
<meta content="41267802635" property="fb:pages"/>
<meta content="355823546895" property="fb:app_id"/>
<meta content="Xataka" name="application-name"/>
<meta content="Gadgets y tecnología: últimas tecnologías en electrónica de consumo - XATAKA" name="msapplication-tooltip"/>
<meta content="https://www.xataka.com" name="msapplication-starturl"/>
<meta content="yes" name="apple-mobile-web-app-capable"/>
<script>
  window.dataLayer = [{"site":"XTK","siteSection":"tagpage","v

In [7]:
# Aquí, buscamos todos los elementos <h2 class="abstract-title" ...> en la página
# y los almacenamos en la variable "temp". Estos se corresponden a todos los
# enlaces y los títulos de las noticias que queremos recopilar.

temp = bs.find_all("h2", "abstract-title")
print(temp)

[<h2 class="abstract-title"><a href="https://www.xataka.com/empresas-y-economia/novo-nordisk-aterriza-espana-sintoma-algo-pais-se-esta-convirtiendo-hub-tecnologico">Novo Nordisk aterriza en España. Es un síntoma de algo más: el país se está convirtiendo en un hub tecnológico</a></h2>, <h2 class="abstract-title"><a href="https://www.xataka.com/magnet/elon-musk-puso-orbita-su-coche-hace-cinco-anos-tratando-averiguar-que-fue-entonces">Elon Musk puso en órbita su coche hace cinco años. Tratando de averiguar qué fue de él desde entonces</a></h2>, <h2 class="abstract-title"><a href="https://www.xataka.com/robotica-e-ia/as-an-ai-language-model-academia-se-ha-llenado-investigaciones-ia-escritas-ia">"As an AI language model...": la academia se ha llenado de investigaciones sobre la IA escritas por la IA </a></h2>, <h2 class="abstract-title"><a href="https://www.xataka.com/investigacion/se-ofrece-trabajo-investigador-castilla-leon-requisitos-ser-premio-nobel">Se ofrece trabajo de investigador en

In [8]:
# Observar qué nos devuelve al imprimir uno de los elementos de "temp"

print(temp[0]) # Probar con otros valores de index

<h2 class="abstract-title"><a href="https://www.xataka.com/empresas-y-economia/novo-nordisk-aterriza-espana-sintoma-algo-pais-se-esta-convirtiendo-hub-tecnologico">Novo Nordisk aterriza en España. Es un síntoma de algo más: el país se está convirtiendo en un hub tecnológico</a></h2>


In [9]:
# A modo de ejemplo, se muestra cómo acceder a cada uno de los títulos y enlaces de las noticias
# recopiladas en el sitio web. Tener en cuenta que "temp" guarda distintos elementos
# a los cuales se accede por indexación. Por otro lado, cada uno de esos elementos tiene
# diferentes niveles según su organizacion jerarquica. En este caso se accede a los elementos
# del tag <a></a>

print("Acceso al título de la noticia:", temp[0].a.text) # Prueba con otros valores de index
print("Acceso al enlace de la noticia:", temp[0].a.get("href")) # Prueba con otros valores de index

Acceso al título de la noticia: Novo Nordisk aterriza en España. Es un síntoma de algo más: el país se está convirtiendo en un hub tecnológico
Acceso al enlace de la noticia: https://www.xataka.com/empresas-y-economia/novo-nordisk-aterriza-espana-sintoma-algo-pais-se-esta-convirtiendo-hub-tecnologico


In [10]:
# Se crea un diccionario vacío con dos elementos cuyas palabras claves son:
# "titulos_noticias" y "enlaces". Aquí se almacenarán los títulos de las noticias
# y sus correpsondientes enlaces.

dict_news = {"titulos_noticias": [], "enlaces": []}

for i in temp:
  dict_news["enlaces"].append(i.a.get("href"))
  dict_news["titulos_noticias"].append(i.a.text)

In [11]:
# Utilizamos la biblioteca pandas para crear un DataFrame a partir del
# diccionario "dict_news". Es importante especificar las columnas "titulos_noticias"
# y "enlaces". Este DataFrame almacenará todos los datos recopilados de los
# artículos de noticias.

df_news = pd.DataFrame(dict_news, columns=["titulos_noticias", "enlaces"])

In [12]:
# Visualización de los resultados.
# Puedes almacenar la información recopilada en cualquier otra estructura si lo deseas.

df_news

Unnamed: 0,titulos_noticias,enlaces
0,Novo Nordisk aterriza en España. Es un síntoma...,https://www.xataka.com/empresas-y-economia/nov...
1,Elon Musk puso en órbita su coche hace cinco a...,https://www.xataka.com/magnet/elon-musk-puso-o...
2,"""As an AI language model..."": la academia se h...",https://www.xataka.com/robotica-e-ia/as-an-ai-...
3,Se ofrece trabajo de investigador en Castilla ...,https://www.xataka.com/investigacion/se-ofrece...
4,Intel prepara su propio ChatGPT para el ámbito...,https://www.xataka.com/robotica-e-ia/intel-pre...
5,La nueva ley de ciencia mexicana no es una ley...,https://www.xataka.com/investigacion/nueva-ley...
6,La revisión por pares es uno de los pilares de...,https://www.xataka.com/investigacion/revision-...
7,Conseguir cobre es cada vez más difícil. La so...,https://www.xataka.com/investigacion/cobre-nue...
8,¿Por qué seguimos buscando números primos más ...,https://www.xataka.com/investigacion/que-segui...
9,Los experimentos científicos que quieren redef...,https://www.xataka.com/investigacion/experimen...


In [18]:
dict_news_02 = {"titulo_noticias": [], "enlaces": [], "comentarios": [], "fecha_publicación": []}

temp = bs.find_all ("article", "recent-abstract abstract-article")

for post in temp:
    dict_news_02 ["enlaces"].append(post.h2.a.get("href"))
    dict_news_02 ["titulo_noticias"].append(post.h2.a.text)
    dict_news_02 ["comentarios"].append(post.span.text)
    dict_news_02 ["fecha_publicación"].append(post.time.get("datetime")[0:10])

df_news_02 = pd.DataFrame(dict_news_02, columns=["titulo_noticias", "enlace", "comentarios", "fecha_publicación"])
df_news_02

Unnamed: 0,titulo_noticias,enlace,comentarios,fecha_publicación
0,Novo Nordisk aterriza en España. Es un síntoma...,,9,2023-09-20
1,Elon Musk puso en órbita su coche hace cinco a...,,6,2023-08-25
2,"""As an AI language model..."": la academia se h...",,4,2023-08-11
3,Se ofrece trabajo de investigador en Castilla ...,,12,2023-05-31
4,Intel prepara su propio ChatGPT para el ámbito...,,10,2023-05-23
5,La nueva ley de ciencia mexicana no es una ley...,,31,2023-05-09
6,La revisión por pares es uno de los pilares de...,,14,2022-11-12
7,Conseguir cobre es cada vez más difícil. La so...,,32,2022-07-20
8,Los experimentos científicos que quieren redef...,,6,2021-04-02
9,50.000 toneladas de agua y el tamaño de un edi...,,47,2020-11-13


In [26]:
dict_news_03 = {"titulos_noticias": [], "enlaces": [], "comentarios": [], "fecha_publicacion": [], "tag": []}
url = "https://www.xataka.com/"
pages = ["ciencia-y-tecnologia", "elon-musk", "google", "nasa", "videojuegos"]

for i in pages:
    response = requests.get(url + "tag/" + i)
    bs = BeautifulSoup(response.text,"lxml")
    temp = bs.find_all('article', "recent-abstract abstract-article")
    for post in temp:
        dict_news_03["enlaces"].append(post.h2.a.get("href"))
        dict_news_03["titulos_noticias"].append(post.h2.a.text)
        dict_news_03["fecha_publicacion"].append(post.time.get("datetime")[0:10])
        dict_news_03["comentarios"].append(post.span.text)
        dict_news_03["tag"].append(i)

df_news_03 = pd.DataFrame(dict_news_03, columns=["titulos_noticias", "enlaces", "comentarios", "fecha_publicacion", "tag"])
df_news_03.to_csv ("./saved_data.csv", index=False)
df_news_03

Unnamed: 0,titulos_noticias,enlaces,comentarios,fecha_publicacion,tag
0,Novo Nordisk aterriza en España. Es un síntoma...,https://www.xataka.com/empresas-y-economia/nov...,9,2023-09-20,ciencia-y-tecnologia
1,Elon Musk puso en órbita su coche hace cinco a...,https://www.xataka.com/magnet/elon-musk-puso-o...,6,2023-08-25,ciencia-y-tecnologia
2,"""As an AI language model..."": la academia se h...",https://www.xataka.com/robotica-e-ia/as-an-ai-...,4,2023-08-11,ciencia-y-tecnologia
3,Se ofrece trabajo de investigador en Castilla ...,https://www.xataka.com/investigacion/se-ofrece...,12,2023-05-31,ciencia-y-tecnologia
4,Intel prepara su propio ChatGPT para el ámbito...,https://www.xataka.com/robotica-e-ia/intel-pre...,10,2023-05-23,ciencia-y-tecnologia
...,...,...,...,...,...
91,Alguien se propuso grabar todo un ‘Final Fanta...,https://www.xataka.com/videojuegos/alguien-se-...,2,2024-03-13,videojuegos
92,La fuerza de 'Rise of the Ronin' reside en su ...,https://www.xataka.com/videojuegos/fuerza-rise...,1,2024-03-12,videojuegos
93,Primer teaser de 'Open': el videojuego del cre...,https://www.xataka.com/videojuegos/primer-teas...,4,2024-03-11,videojuegos
94,Hay quien está intentando crear un PC equipara...,https://www.xataka.com/videojuegos/hay-quien-e...,15,2024-03-11,videojuegos
