# 📘 Mini-cuaderno: Descarga y configuración de Dataset Kaggle
============================================================

1. CONFIGURACIÓN DE CREDENCIALES KAGGLE
---------------------------------------
Antes de poder descargar datasets desde Kaggle con Python, necesitas las credenciales:
- KAGGLE_USERNAME
- KAGGLE_KEY

Estas credenciales se obtienen en tu perfil de Kaggle (cuenta > API > Create New Token)
Eso genera un archivo `kaggle.json` que contiene:

In [None]:
{
  "username": "TU_USUARIO",
  "key": "TU_API_KEY"
}

Kaggle espera encontrar este archivo en:
    Windows: C:\Users\TU_USUARIO\.kaggle\kaggle.json
    Linux/Mac: ~/.kaggle/kaggle.json


## 2. OPCIÓN A: MANUAL (lo clásico)

- Descargas `kaggle.json` desde la web de Kaggle.
- Lo pones en la carpeta `.kaggle` de tu usuario.
- ¡Listo!

---

## 3. OPCIÓN B: AUTOMÁTICA CON SCRIPT Y .ENV

Creamos un `.env` con:
KAGGLE_USERNAME=tu_usuario
KAGGLE_KEY=tu_api_key

Luego usamos este script para generar automáticamente el `kaggle.json`:

In [None]:
import os
import json
from pathlib import Path
from dotenv import load_dotenv

# 1. Cargar credenciales desde el archivo .env
load_dotenv()
username = os.getenv("KAGGLE_USERNAME")
key = os.getenv("KAGGLE_KEY")

# 2. Validar credenciales
if not username or not key:
    raise ValueError("⚠️ Faltan KAGGLE_USERNAME o KAGGLE_KEY en el .env")

# 3. Definir ruta donde Kaggle guarda credenciales
kaggle_dir = Path.home() / ".kaggle"
kaggle_dir.mkdir(parents=True, exist_ok=True)
kaggle_path = kaggle_dir / "kaggle.json"

# 4. Crear el archivo kaggle.json con las credenciales
creds = {"username": username, "key": key}
with open(kaggle_path, "w") as f:
    json.dump(creds, f)

# 5. Ajustar permisos en Linux/Mac (en Windows no aplica)
try:
    os.chmod(kaggle_path, 0o600)
except Exception:
    pass

print(f"✅ kaggle.json generado en {kaggle_path}")

-----------

## 4. DESCARGAR EL DATASET

Una vez configuradas las credenciales, puedes usar el API de Kaggle
para bajar datasets automáticamente.

Ejemplo: descargar "Chest X-Ray Pneumonia" dataset:


In [None]:
import os
from kaggle.api.kaggle_api_extended import KaggleApi

# Carpeta destino dentro del proyecto
DATA_DIR = os.path.join("app", "vision", "data")
os.makedirs(DATA_DIR, exist_ok=True)

# Inicializar API
api = KaggleApi()
api.authenticate()

# Nombre del dataset en Kaggle
DATASET = "paultimothymooney/chest-xray-pneumonia"

print(f"⬇️ Descargando dataset {DATASET}...")
api.dataset_download_files(DATASET, path=DATA_DIR, unzip=True)
print(f"✅ Dataset descargado y extraído en: {DATA_DIR}")


Notas:
- El dataset se baja y se descomprime en `app/vision/data`.
- Allí tendrás las carpetas `train`, `val`, `test` con imágenes.


## 5. ACLARACIÓN SOBRE LIBRERÍAS
------------------------------
- `os`: estándar de Python, para manejar rutas y directorios.
- `json`: estándar de Python, para escribir el kaggle.json.
- `Path` de `pathlib`: estándar de Python, rutas más cómodas.
- `dotenv`: librería externa, para cargar variables desde `.env`.
- `kaggle`: librería externa, API oficial de Kaggle para descargas.


## 6. NOTA FINAL DE BUENAS PRÁCTICAS
---------------------------------
- Nunca subas el archivo `kaggle.json` ni el `.env` a GitHub.
- Agrega ambos al `.gitignore`.
- Si ya configuraste el `kaggle.json` en tu máquina, el script
  para generarlo automáticamente se puede borrar o mover a
  una carpeta `scripts/` (opcional).