# Web Scraping con [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/), una libreria de python

En esa página de StackOverflow, lo que vos vas a scrapear con BeautifulSoup son:

📌 La pregunta original: en este caso “How to get the current time in Python”.

📌 Las respuestas aportadas por la comunidad: cada bloque de código o explicación que otros usuarios escribieron.

📌 El orden de las respuestas: StackOverflow las organiza por votos (las más útiles aparecen arriba). La “mejor” puede ser:

la más votada 👍

o la aceptada por el autor de la pregunta ✅

Entonces, cuando decimos que esa página “trae las mejores respuestas votadas”, significa que la comunidad de programadores ya seleccionó y priorizó las soluciones más correctas y prácticas al problema.

In [1]:
# 2. Importamos las bibliotecas
import requests # Para hacer solicitudes HTTP (GET, POST) y traer contenido web
from bs4 import BeautifulSoup # Para analizar (parsear) el HTML y extraer información

In [2]:
# 3. Definimos la página web que queremos analizar
url = "https://stackoverflow.com/questions/415511/how-to-get-the-current-time-in-python"# Guardamos en la variable 'url' la dirección de la página que vamos a scrapear

In [3]:
# 4. Obtenemos el contenido de la página web
pagina = requests.get(url)  # Hacemos la petición HTTP a la URL
contenido = pagina.text                # Guardamos el contenido en formato de texto (HTML completo)

In [4]:
# 5. Creamos el objeto BeautifulSoup para analizar el HTML
soup = BeautifulSoup(contenido, 'html.parser') # Convertimos el HTML en un objeto navegable (árbol) con BeautifulSoup

In [5]:
# 6. Extraemos información básica
# Obtenemos el título de la página
print("TÍTULO DE LA PÁGINA:")
print(soup.title.text)
print("-" * 50)

TÍTULO DE LA PÁGINA:
datetime - How do I get the current time in Python? - Stack Overflow
--------------------------------------------------


In [6]:
# 7. Extraemos la pregunta
print("\nPREGUNTA:")
pregunta = soup.find("div", {"class": "question"}) #Busca en el HTML el primer <div> que tenga la clase "question". Ese div en StackOverflow contiene toda la pregunta (título, cuerpo, metadatos).
texto_pregunta = pregunta.find("div", {"class": "s-prose js-post-body"}) #Dentro de ese bloque "question", busca otro div con la clase "s-prose js-post-body".Ese div es el cuerpo de la pregunta escrita por el usuario (incluye texto y código si lo hay).
print(texto_pregunta.get_text().strip())
print("-" * 50)


PREGUNTA:
How do I get the current time in Python?
--------------------------------------------------


In [7]:
# 8. Extraemos la mejor respuesta
print("\nMEJOR RESPUESTA:")
respuesta = soup.find("div", {"class": "answer"})
texto_respuesta = respuesta.find("div", {"class": "s-prose js-post-body"})
print(texto_respuesta.get_text().strip())


MEJOR RESPUESTA:
Use datetime:
>>> import datetime
>>> now = datetime.datetime.now()
>>> now
datetime.datetime(2009, 1, 6, 15, 8, 24, 78915)
>>> print(now)
2009-01-06 15:08:24.789150

For just the clock time without the date:
>>> now.time()
datetime.time(15, 8, 24, 78915)
>>> print(now.time())
15:08:24.789150


To save typing, you can import the datetime object from the datetime module:
>>> from datetime import datetime

Then remove the prefix datetime. from all of the above.
