<a href="https://colab.research.google.com/github/isabel2012/Prueba/blob/main/%22_Translated_%5BESP%5D_news_parsing_example_ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Instalación e importación de las librerías necesarias

En este notebook utilizaremos 3 librerías.

Veamos para que sirve cada una de ellas:

**BeautifulSoup:** Esta biblioteca nos permite analizar código HTML y XML. Proporciona herramientas para extraer datos de páginas web mediante el análisis y recorrido del árbol de elementos HTML/XML.

**requests:** Esta librería nos permite enviar solicitudes HTTP. Facilita el envío de solicitudes GET, POST y otros tipos de solicitudes a servidores web. También simplifica el trabajo con servicios web y APIs.

**pandas:** Esta biblioteca que permite trabajar con grandes cantidades de datos. Proporciona herramientas convenientes para analizar, manipular y procesar datos estructurados.

In [None]:
!pip3 install bs4 # En caso de que esta librería no estuviese instalada, se debe ejecutar esta línea para hacerlo.
# Google Colaboratory ya posee incorparada esta librería.

In [None]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

### Obtención de los datos desde un sitio web

In [None]:
# Enlace del sitio web del cual se quieren obtener los datos
url = "https://www.xataka.com/tag/ciencia-y-tecnologia" # Ingresar el sitio web como string

In [None]:
# Utilizamos la biblioteca "requests" para enviar una solicitud GET
# a la URL especificada y obtener una respuesta.
# El estado “200” significa que la solicitud fue procesada correctamente y la página está disponible.

response = requests.get(url)
print(response)

In [None]:
# Pasamos el texto del objeto “response” (respuesta) correspondiente al sitio (response.text)
# y especificamos el analizador que se utilizará ("lxml")
# para crear un objeto BeautifulSoup para el análisis posterior del código HTML.

bs = BeautifulSoup(response.text,"lxml")
print(bs)

In [None]:
# Aquí, buscamos todos los elementos <h2 class="abstract-title" ...> en la página
# y los almacenamos en la variable "temp". Estos se corresponden a todos los
# enlaces y los títulos de las noticias que queremos recopilar.

temp = bs.find_all("h2", "abstract-title")
print(temp)

In [None]:
# Observar qué nos devuelve al imprimir uno de los elementos de "temp"

print(temp[0]) # Probar con otros valores de index

In [None]:
# A modo de ejemplo, se muestra cómo acceder a cada uno de los títulos y enlaces de las noticias
# recopiladas en el sitio web. Tener en cuenta que "temp" guarda distintos elementos
# a los cuales se accede por indexación. Por otro lado, cada uno de esos elementos tiene
# diferentes niveles según su organizacion jerarquica. En este caso se accede a los elementos
# del tag <a></a>

print("Acceso al título de la noticia:", temp[0].a.text) # Prueba con otros valores de index
print("Acceso al enlace de la noticia:", temp[0].a.get("href")) # Prueba con otros valores de index

In [None]:
# Se crea un diccionario vacío con dos elementos cuyas palabras claves son:
# "titulos_noticias" y "enlaces". Aquí se almacenarán los títulos de las noticias
# y sus correpsondientes enlaces.

dict_news = {"titulos_noticias": [], "enlaces": []}

for i in temp:
  dict_news["enlaces"].append(i.a.get("href"))
  dict_news["titulos_noticias"].append(i.a.text)

In [None]:
# Utilizamos la biblioteca pandas para crear un DataFrame a partir del
# diccionario "dict_news". Es importante especificar las columnas "titulos_noticias"
# y "enlaces". Este DataFrame almacenará todos los datos recopilados de los
# artículos de noticias.

df_news = pd.DataFrame(dict_news, columns=["titulos_noticias", "enlaces"])

In [None]:
# Visualización de los resultados.
# Puedes almacenar la información recopilada en cualquier otra estructura si lo deseas.

df_news