# 🐍 Descargar datasets desde Internet con Python

_Generado: 2025-09-19 07:23 UTC_

En este cuaderno verás diferentes formas de descargar datasets:
- CSV directo desde una URL
- Archivos grandes con `requests` + barra de progreso
- ZIP que se extrae al vuelo
- Google Drive con `gdown`
- Kaggle con la API oficial
- Descarga genérica con verificación SHA256
- (Opcional) S3 y APIs con token

👉 Edita las URLs y parámetros según tu dataset. Ejecuta celda por celda.

In [None]:
# 0) Dependencias útiles (descomenta lo que necesites)
# !pip install pandas requests tqdm gdown kaggle boto3
print("Si te falta alguna librería, descomenta la línea de arriba y vuelve a ejecutar.")

In [None]:
# 1) Leer CSV directo desde una URL
import pandas as pd

url_csv = "https://people.sc.fsu.edu/~jburkardt/data/csv/hw_200.csv"  # <- cambia por tu URL
df = pd.read_csv(url_csv)
df.head()

In [None]:
# 2) Descargar archivo grande con requests + tqdm (barra de progreso)
import requests
from tqdm import tqdm

def download_file(url, dest_path, chunk_size=1024):
    with requests.get(url, stream=True) as r:
        r.raise_for_status()
        total = int(r.headers.get("content-length", 0))
        with open(dest_path, "wb") as f, tqdm(total=total, unit='B', unit_scale=True, desc=dest_path) as pbar:
            for chunk in r.iter_content(chunk_size=chunk_size):
                if chunk:
                    f.write(chunk)
                    pbar.update(len(chunk))

# Ejemplo:
download_file("https://people.sc.fsu.edu/~jburkardt/data/csv/airtravel.csv", "airtravel.csv")
print("Descargado: airtravel.csv")

In [None]:
# 3) Descargar y extraer un ZIP directamente en memoria
import zipfile, io

url_zip = "https://github.com/mwaskom/seaborn-data/archive/refs/heads/master.zip"  # ejemplo
r = requests.get(url_zip)
r.raise_for_status()
with zipfile.ZipFile(io.BytesIO(r.content)) as z:
    z.extractall("data_zip")
print("Archivos extraídos en data_zip/")

In [None]:
# 4) Google Drive con gdown
try:
    import gdown
except ImportError:
    print("Instala gdown con: pip install gdown")

# url_gdrive = "https://drive.google.com/uc?id=FILE_ID"  # Reemplaza FILE_ID
# gdown.download(url_gdrive, "dataset_gdrive.zip", quiet=False)
# print("Descargado: dataset_gdrive.zip")

In [None]:
# 5) Kaggle API (requiere token kaggle.json en ~/.kaggle)
print("Pasos:\n1) pip install kaggle\n2) Descarga tu kaggle.json desde tu cuenta\n3) Guarda en ~/.kaggle/kaggle.json con permisos 600")
# Ejemplo (desde el notebook):
# !kaggle datasets download -d zynicide/wine-reviews
# !unzip -o wine-reviews.zip -d data_kaggle

In [None]:
# 6) Descarga genérica con verificación SHA256 y descompresión opcional
import hashlib, os

def download_verify_unzip(url, dst, expected_sha256=None, extract_to=None):
    with requests.get(url, stream=True) as r:
        r.raise_for_status()
        sha = hashlib.sha256()
        with open(dst, "wb") as f:
            for chunk in r.iter_content(8192):
                if chunk:
                    f.write(chunk)
                    sha.update(chunk)
    if expected_sha256 is not None:
        got = sha.hexdigest()
        if got != expected_sha256:
            raise ValueError(f"SHA256 distinta. Esperado {expected_sha256}, obtenido {got}")
    if extract_to and dst.lower().endswith((".zip")):
        with zipfile.ZipFile(dst) as z:
            z.extractall(extract_to)
        print(f"Extraído en {extract_to}")
    print(f"Descarga OK: {dst}")

# Ejemplo (usa una URL real y, si tienes, el SHA256 esperado):
# download_verify_unzip("https://example.com/dataset.zip", "dataset.zip", expected_sha256=None, extract_to="data")

In [None]:
# 7) (Opcional) AWS S3 y APIs con token
print("S3 público: puedes usar la URL pública con requests. Para autenticado, usa boto3.")
try:
    import boto3
    print("boto3 disponible. Ejemplo -> s3.download_file('bucket','key','local_path')")
except ImportError:
    print("Instala boto3 con: pip install boto3")

# Ejemplo API con token:
import requests as _req
url_api = "https://api.ejemplo.com/data"  # cambia por tu API
headers = {"Authorization": "Bearer TU_TOKEN"}
# resp = _req.get(url_api, headers=headers)
# resp.raise_for_status()
# data = resp.json()
# data[:2] if isinstance(data, list) else list(data)[:2]