# Descargando contenido

## # C2_S4 ¬∑ Manejo de errores en Requests + BeautifulSoup (Demo profesor)
Meta: raise_for_status, timeout+backoff, validar Content-Type/tama√±o, arreglar encoding.


## üéôÔ∏è Guion (12‚Äì15 min)
0‚Äì3‚Äô  raise_for_status + pol√≠tica retry/skip/fail  
3‚Äì7‚Äô  timeout + backoff (429 y 5xx)  
7‚Äì10‚Äô validar Content-Type y tama√±o  
10‚Äì12‚Äô encoding correcto ‚Üí soup  
12‚Äì15‚Äô mini-reto Slack

In [1]:
import requests
from bs4 import BeautifulSoup

import csv
import json

import time, random

# Binario o Texto

diferenciar si el contenido que recibes es texto (string) o binario (bytes).

Cuando haces requests.get(url) puedes revisar:

-> r.text ‚Üí Devuelve el contenido decodificado como texto (str).

-> r.content ‚Üí Devuelve el contenido crudo en bytes.

In [2]:
import requests

url = "https://httpbin.org/html"
r = requests.get(url)

print(type(r.text))     # <class 'str'>
print(r.text[:100])     # Primeros 200 caracteres del HTML


<class 'str'>
<!DOCTYPE html>
<html>
  <head>
  </head>
  <body>
      <h1>Herman Melville - Moby-Dick</h1>

     


üëâ Aqu√≠ r.text es un string porque la respuesta es HTML (texto).
Por eso, si lo quisieras guardar en un archivo, abrir√≠as el archivo con "w" (modo texto):

In [5]:
with open("pagina.html", "w", encoding="utf-8") as f:
    f.write(r.text)

üöÄ Ejemplo sencillo: archivo PDF (binario)

In [7]:
import requests

url = "https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf"
r = requests.get(url)

print(type(r.content))   # <class 'bytes'>
print(r.content[:20])    # Primeros 20 bytes crudos


<class 'bytes'>
b'%PDF-1.4\n%\xc3\xa4\xc3\xbc\xc3\xb6\xc3\x9f\n2'


üëâ Aqu√≠ r.content es bytes, porque un PDF no es texto.
Entonces necesitas guardar el archivo en modo binario "wb":

el wb significa:

w ‚Üí write (escritura, abrir el archivo para escribir desde cero, borrando lo anterior).

b ‚Üí binary (modo binario).


In [8]:
with open("ejemplo.pdf", "wb") as f:
    f.write(r.content)


# Chunks


![ww](cuhnks.png)

üçï Analog√≠a sencilla:

Un archivo es como una pizza entera üçï.

Chunk = cada rebanada que te sirven.

Vas guardando rebanada por rebanada en tu plato ‚Üí al final tienes la pizza completa.

In [9]:
import requests

url = "https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf"
r = requests.get(url, stream=True, timeout=15)

tamanio_total = 0

with open("ejemplo.pdf", "wb") as f:
    for chunk in r.iter_content(2000):  # cada chunk = 10 bytes (muy peque√±ito a prop√≥sito)
        if chunk:                     # evita escribir chunks vac√≠os
            f.write(chunk)
            tamanio_total += len(chunk)
            print(f"Chunk recibido: {len(chunk)} bytes | Total: {tamanio_total} bytes")

print("‚úÖ Archivo descargado en modo 'chunks'")


Chunk recibido: 2000 bytes | Total: 2000 bytes
Chunk recibido: 2000 bytes | Total: 4000 bytes
Chunk recibido: 2000 bytes | Total: 6000 bytes
Chunk recibido: 2000 bytes | Total: 8000 bytes
Chunk recibido: 2000 bytes | Total: 10000 bytes
Chunk recibido: 2000 bytes | Total: 12000 bytes
Chunk recibido: 1264 bytes | Total: 13264 bytes
‚úÖ Archivo descargado en modo 'chunks'


# Nombres de archivo seguros TEMA NO DADO

1) Buscar si el servidor sugiere un nombre
Muchos servidores mandan en la cabecera HTTP:

In [10]:
Content-Disposition: attachment; filename="reporte.pdf"


SyntaxError: illegal target for annotation (2483199984.py, line 1)

Eso significa: el archivo deber√≠a llamarse reporte.pdf.

2) Si no hay sugerencia ‚Üí inventar el nombre

Lo m√°s f√°cil es usar el √∫ltimo segmento de la URL.


3) Sanitizar (limpiar el nombre)

Reemplazar caracteres inv√°lidos por _.

4) Evitar colisiones (archivos repetidos)

Si ya existe manual.pdf en la carpeta, se debe guardar as√≠:

üë®‚Äçüíª Ejemplo Python (simple)

In [13]:
import os
import requests
from urllib.parse import urlparse

def nombre_archivo_seguro(url, response, carpeta="downloads"):

    # 1. Intentar usar Content-Disposition
    cd = response.headers.get("Content-Disposition", "")
    if "filename=" in cd:
        nombre = cd.split("filename=")[-1].strip('" ')
    else:
        # 2. Usar √∫ltimo segmento de la URL
        nombre = os.path.basename(urlparse(url).path) or "descarga"

    # 3. Sanitizar (permitir solo letras, n√∫meros, ., _, -)
    nombre = "".join(c if c.isalnum() or c in "._-" else "_" for c in nombre)

    # 4. Evitar colisiones
    base, ext = os.path.splitext(nombre)
    contador = 1
    while os.path.exists(os.path.join(carpeta, nombre)):
        nombre = f"{base}({contador}){ext}"
        contador += 1

    return os.path.join(carpeta, nombre)

# =========================
# EJEMPLO DE USO
# =========================
url = "https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf"
r = requests.get(url, stream=True, timeout=10)

nombre = nombre_archivo_seguro(url, r)
print("Nombre final:", nombre)

# üëá Aqu√≠ GUARDAR el archivo
with open(nombre, "wb") as f:
    for chunk in r.iter_content(4096):
        if chunk:
            f.write(chunk)

print("‚úÖ Archivo descargado:", nombre)


Nombre final: downloads/dummy.pdf
‚úÖ Archivo descargado: downloads/dummy.pdf


# Formatos de guardado


üìÇ Guardar como CSV

In [24]:
import csv

def guardar_csv(product_list, archivo="resultados/productos.csv"):
    with open(archivo, "w", newline="", encoding="utf-8") as f:
        writer = csv.DictWriter(f, fieldnames=["title", "price", "image_url"])
        writer.writeheader()
        writer.writerows(product_list)

    print(f"‚úÖ Guardado en CSV: {len(product_list)} productos en {archivo}")


üìÇ Guardar como JSON

In [25]:
import json

def guardar_json(product_list, archivo="resultados/productos.json"):
    with open(archivo, "w", encoding="utf-8") as f:
        json.dump(product_list, f, indent=4, ensure_ascii=False)

    print(f"‚úÖ Guardado en JSON: {len(product_list)} productos en {archivo}")

üìÇ Guardar como Excel

In [26]:
import pandas as pd

def guardar_excel(product_list, archivo="resultados/productos.xlsx"):
    df = pd.DataFrame(product_list)
    df.to_excel(archivo, index=False)

    print(f"‚úÖ Guardado en Excel: {len(product_list)} productos en {archivo}")


üöÄ Ejemplo de uso r√°pido

In [28]:
# Supongamos que tienes algo como:
product_list = [
    {"title": "Libro A", "price": "10.99", "image_url": "http://.../a.jpg"},
    {"title": "Libro B", "price": "12.50", "image_url": "http://.../b.jpg"},
]

guardar_csv(product_list)
guardar_json(product_list)
guardar_excel(product_list)


‚úÖ Guardado en CSV: 2 productos en resultados/productos.csv
‚úÖ Guardado en JSON: 2 productos en resultados/productos.json
‚úÖ Guardado en Excel: 2 productos en resultados/productos.xlsx
