## DIA 060: Implementación de Web Scraping con Python y BeautifulSoup



Hoy aprenderemos a extraer información de páginas web usando BeautifulSoup y requests en Python.

✅ ¿Qué aprenderemos?

📌 Obtener el código HTML de una web.
📌 Extraer datos específicos (títulos, enlaces, imágenes).
📌 Almacenar los datos en un archivo CSV.
✅ Ejemplo práctico:
Extraeremos los títulos y enlaces de noticias de una página web.

🛠️ 1. Instalación de Paquetes Necesarios
Ejecutar en la terminal:

sh
Copiar
Editar
pip install requests beautifulsoup4 pandas
🖥️ 2. Código Completo (scraper.py)
python
Copiar
Editar
import requests
import csv
import pandas as pd
from bs4 import BeautifulSoup

# ---------------------------
# 1. Obtener el HTML de la Página
# ---------------------------
URL = "https://news.ycombinator.com/"  # Página de noticias de tecnología
headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(URL, headers=headers)

# Validar si la solicitud fue exitosa
if response.status_code == 200:
    print("✅ Conexión exitosa")
else:
    print(f"❌ Error {response.status_code}")
    exit()

# ---------------------------
# 2. Parsear el HTML con BeautifulSoup
# ---------------------------
soup = BeautifulSoup(response.text, "html.parser")

# ---------------------------
# 3. Extraer Titulares y Enlaces
# ---------------------------
news_data = []
news_items = soup.find_all("a", class_="storylink")  # Extraer noticias

for item in news_items:
    title = item.text
    link = item["href"]
    news_data.append({"Título": title, "Enlace": link})

# ---------------------------
# 4. Guardar los Datos en un Archivo CSV
# ---------------------------
csv_filename = "noticias.csv"

with open(csv_filename, "w", newline="", encoding="utf-8") as csvfile:
    fieldnames = ["Título", "Enlace"]
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(news_data)

print(f"📁 Datos guardados en {csv_filename}")

# ---------------------------
# 5. Mostrar Datos en Pandas
# ---------------------------
df = pd.DataFrame(news_data)
print(df.head())
🚀 Cómo Ejecutar el Script
Ejecutar en la terminal:

sh
Copiar
Editar
python scraper.py
📌 Salida esperada:
✅ Conexión exitosa
📁 Datos guardados en noticias.csv

📜 Ejemplo de contenido del CSV:

csv
Copiar
Editar
Título,Enlace
"Tech News 1","https://example.com/news1"
"Tech News 2","https://example.com/news2"
...
🔍 Explicación de las Principales Implementaciones
🔹 📂 Uso de requests para Obtener HTML

requests.get(URL, headers=headers) obtiene el código fuente.
Se valida si la respuesta es 200 OK.
🔹 📜 Parseo de HTML con BeautifulSoup

soup.find_all("a", class_="storylink") encuentra los titulares.
item.text obtiene el título, item["href"] obtiene el enlace.
🔹 💾 Guardado de Datos en CSV con csv.DictWriter

writer.writeheader() escribe los nombres de las columnas.
writer.writerows(news_data) guarda todas las noticias.
🔹 📊 Visualización con Pandas

df = pd.DataFrame(news_data) convierte los datos en tabla.
df.head() muestra los primeros resultados.
