# Web Scraping con [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/), una libreria de python
##✅ Objetivo del script

📌 Extraer información estructurada desde una página de Stack Overflow, específicamente:

El título de la página

El contenido de la pregunta principal

El texto de la mejor respuesta

In [None]:
# 2. Importamos las bibliotecas
# Importamos requests para hacer solicitudes HTTP y BeautifulSoup para analizar el HTML de la página.
import requests
from bs4 import BeautifulSoup

In [None]:
# 3. Definimos la página web que queremos analizar
url = "https://stackoverflow.com/questions/415511/how-to-get-the-current-time-in-python"# URL de la página de Stack Overflow desde la cual queremos extraer información.

In [None]:
# 4. Obtenemos el contenido de la página web
# Realizamos la solicitud HTTP y almacenamos el contenido HTML como texto.

pagina = requests.get(url)
contenido = pagina.text
if pagina.status_code != 200:
    print("❌ Error al acceder a la página")

In [None]:
# 5. Creamos el objeto BeautifulSoup para analizar el HTML
soup = BeautifulSoup(contenido, 'html.parser')# Creamos el objeto BeautifulSoup para poder navegar el árbol DOM del HTML.


In [None]:
# 6. Extraemos información básica
# Obtenemos el título de la página
# Extraemos el contenido de la etiqueta <title> para obtener el título de la página.

print("TÍTULO DE LA PÁGINA:")
print(soup.title.text)
print("-" * 50)

TÍTULO DE LA PÁGINA:
datetime - How do I get the current time in Python? - Stack Overflow
--------------------------------------------------


In [None]:
# 7. Extraemos la pregunta
print("\nPREGUNTA:")
pregunta = soup.find("div", {"class": "question"})# Buscamos el div principal que contiene la pregunta usando sus clases CSS.
texto_pregunta = pregunta.find("div", {"class": "s-prose js-post-body"})# Luego extraemos solo el cuerpo de la pregunta y lo mostramos limpio.
print(texto_pregunta.get_text().strip())
print("-" * 50)


PREGUNTA:
How do I get the current time in Python?
--------------------------------------------------


In [None]:
# 8. Extraer la mejor respuesta (la primera respuesta visible)

print("\nMEJOR RESPUESTA:")
respuesta = soup.find("div", {"class": "answer"})# Localizamos la primera respuesta disponible en la página.
texto_respuesta = respuesta.find("div", {"class": "s-prose js-post-body"})# Extraemos el texto del cuerpo de esa respuesta.
print(texto_respuesta.get_text().strip())


MEJOR RESPUESTA:
Use datetime:
>>> import datetime
>>> now = datetime.datetime.now()
>>> now
datetime.datetime(2009, 1, 6, 15, 8, 24, 78915)
>>> print(now)
2009-01-06 15:08:24.789150

For just the clock time without the date:
>>> now.time()
datetime.time(15, 8, 24, 78915)
>>> print(now.time())
15:08:24.789150


To save typing, you can import the datetime object from the datetime module:
>>> from datetime import datetime

Then remove the prefix datetime. from all of the above.


In [None]:
print("\nMEJOR RESPUESTA:")
respuesta = soup.find("div", {"itemprop": "acceptedAnswer"})# Localizamos la primera respuesta disponible en la página.
texto_respuesta = respuesta.find("div", {"class": "s-prose js-post-body"})# Extraemos el texto del cuerpo de esa respuesta.
print(texto_respuesta.get_text().strip())


MEJOR RESPUESTA:
Use datetime:
>>> import datetime
>>> now = datetime.datetime.now()
>>> now
datetime.datetime(2009, 1, 6, 15, 8, 24, 78915)
>>> print(now)
2009-01-06 15:08:24.789150

For just the clock time without the date:
>>> now.time()
datetime.time(15, 8, 24, 78915)
>>> print(now.time())
15:08:24.789150


To save typing, you can import the datetime object from the datetime module:
>>> from datetime import datetime

Then remove the prefix datetime. from all of the above.
