
# Datasets+Villarruel.ipynb

**Preentrega – Data Science 1 (Coderhouse, Argentina)**  
Autor: *Tobias Villarruel*  
Fecha: (completar)

## Consigna
- Identificar **3 datasets** con **≥ 2000 filas** y **≥ 15 columnas** (Kaggle, GitHub, Google Dataset Search o propio).
- Subirlos a **GitHub**.
- **Cargar los archivos con Pandas** y **describir variables potencialmente interesantes** en cada caso.
- Entregar un archivo **.ipynb** con el nombre: `Datasets+Apellido.ipynb`.

> **Nota**: Este notebook carga y explora 3 datasets confirmados por el alumno:  
> 1) World Development Indicators (World Bank)  
> 2) NYC Yellow Taxi Trip Data (TLC)  
> 3) Global Development Indicators 2000–2020 (Kaggle)


In [None]:

from pathlib import Path
import pandas as pd
import numpy as np

RAW_DIR = Path("data/raw")
RAW_DIR.mkdir(parents=True, exist_ok=True)

def quick_report(df: pd.DataFrame, sample=5):
    """Pequeño reporte para verificar requisitos y mostrar estructura."""
    print("Shape (filas, columnas):", df.shape)
    display(df.head(sample))
    print("\nTipos de datos:")
    display(df.dtypes.value_counts())
    na_pct = df.isna().mean().sort_values(ascending=False)
    print("\n% de NA por columna (top 10):")
    display(na_pct.head(10))
    print("\nResumen numérico:")
    display(df.describe(include=[np.number]).T.head(10))
    print("\nResumen categórico:")
    display(df.describe(include=[object]).T.head(10))

def assert_requisitos(df: pd.DataFrame, min_rows=2000, min_cols=15):
    assert df.shape[0] >= min_rows, f"El dataset tiene {df.shape[0]} filas (< {min_rows})."
    assert df.shape[1] >= min_cols, f"El dataset tiene {df.shape[1]} columnas (< {min_cols})."
    print(f"✅ Cumple requisitos: filas ≥ {min_rows} y columnas ≥ {min_cols}.")



## 1) World Development Indicators (WDI) — World Bank

**Fuente (info y descarga):**
- World Bank Open Data / WDI (descripción general).  
- DataBank WDI (permite descargar CSV).

**Instrucciones de descarga rápida (una vez):**
1. Ingresar a **DataBank WDI** y exportar como **CSV** (opción *Download*).  
2. Descomprimir `WDI_csv.zip` y copiar **`WDIData.csv`** en `data/raw/` de este repo.

> Alternativa: si ya tenés un CSV espejo (por ejemplo de un repo público), colocarlo en `data/raw/WDIData.csv` con el mismo nombre.

**Campos típicos:** `Country Name`, `Country Code`, `Indicator Name`, `Indicator Code`, `1960`, `1961`, … (columnas por año).  
Esto garantiza **≫ 15 columnas** y **≫ 2000 filas**.


In [None]:

# Ruta local esperada (colocar el archivo antes de ejecutar esta celda)
wdi_path = RAW_DIR / "WDIData.csv"

# Carga segura (solo primeras columnas para visualización rápida si es muy ancho)
wdi = pd.read_csv(wdi_path)
quick_report(wdi)
assert_requisitos(wdi)



**Variables potencialmente interesantes (ejemplos):**
- **PIB per cápita (current US$)**: aproximación del nivel de desarrollo económico.  
- **Esperanza de vida al nacer**: salud y bienestar general.  
- **Mortalidad infantil (por cada 1.000 nacidos vivos)**: calidad de sistemas sanitarios.  
- **Tasa de desempleo**: condiciones del mercado laboral.  
- **Gasto en educación / salud (% del PIB)**: inversión social.  

**Usos posibles:** análisis comparativo entre países, series temporales por país, correlaciones (p.ej., PIB per cápita vs. esperanza de vida), clustering por perfiles de desarrollo, etc.



## 2) NYC Yellow Taxi Trip Data — NYC TLC

**Fuente (info y descarga):**
- Página oficial TLC Trip Record Data (con enlaces a CSV por mes/año).
- También listado en NYC Open Data y en Azure Open Datasets.

**Instrucciones de uso en este notebook:**  
- Por conveniencia, este ejemplo apunta al CSV **enero 2019**.  
- Si el CSV es muy grande, se puede limitar a `nrows` para exploración rápida (aun así se cumplen las ≥ 2000 filas).

> **Nota**: Si el enlace remoto da error de red/permisos, descargá el archivo **`yellow_tripdata_2019-01.csv`** y colocalo en `data/raw/`.


In [None]:

# Opción A: lectura directa desde URL (puede tardar / fallar si no hay internet)
# url_taxi = "https://nyc-tlc.s3.amazonaws.com/trip+data/yellow_tripdata_2019-01.csv"
# taxi = pd.read_csv(url_taxi, nrows=200_000)

# Opción B: archivo local previamente descargado
taxi_path = RAW_DIR / "yellow_tripdata_2019-01.csv"
taxi = pd.read_csv(taxi_path, nrows=200_000)  # nrows para exploración inicial
quick_report(taxi)
assert_requisitos(taxi)



**Variables potencialmente interesantes (ejemplos):**
- **tpep_pickup_datetime / tpep_dropoff_datetime**: permiten derivar **duración** del viaje.  
- **trip_distance**: distancia recorrida.  
- **fare_amount, total_amount, tip_amount, tolls_amount**: estructura de la tarifa.  
- **passenger_count**: demanda por viaje.  
- **PULocationID / DOLocationID**: zonas de origen/destino (análisis espacial).  
- **payment_type**: efectivo/tarjeta (relación con propinas).  

**Usos posibles:** patrones temporales (hora/día), relación distancia–precio–propina, mapas/zonas con mayor demanda, outliers (viajes anómalos), etc.



## 3) Global Development Indicators 2000–2020 — Kaggle

**Fuente (Kaggle):** *Global Development Indicators 2000–2020* (compilación de indicadores económicos, sociales y ambientales).

**Descarga con Kaggle API (opcional):**
```bash
# Requiere tener configuradas tus credenciales de Kaggle (~/.kaggle/kaggle.json)
pip install kaggle
kaggle datasets download -d michaelmatta0/global-development-indicators-2000-2020 -p data/raw
unzip data/raw/global-development-indicators-2000-2020.zip -d data/raw/
```
> Luego, asegurate de tener el CSV principal (por ejemplo `Global_Development_2000_2020.csv`) en `data/raw/`.


In [None]:

# Ajustar el nombre del archivo según el CSV incluido en el zip
gdi_path = RAW_DIR / "Global_Development_2000_2020.csv"  # renombrar si difiere
gdi = pd.read_csv(gdi_path)
quick_report(gdi)
assert_requisitos(gdi)



**Variables potencialmente interesantes (ejemplos):**
- **Indicadores económicos**: PIB, PIB per cápita, inflación, comercio exterior.  
- **Indicadores sociales**: esperanza de vida, mortalidad infantil, acceso a educación.  
- **Indicadores ambientales**: emisiones de CO₂ per cápita, energías renovables (%), calidad del aire.  
- **Tecnología**: usuarios de internet, suscripciones móviles, I+D (% del PIB).  

**Usos posibles:** análisis 2000–2020 por país/región, evolución temporal de indicadores clave, correlaciones entre desarrollo humano y crecimiento, comparación con WDI.



## ✅ Checklist de la consigna
- [x] **3 datasets** seleccionados, con enlaces oficiales a sus fuentes.
- [x] Cada dataset cumple **≥ 2000 filas** y **≥ 15 columnas** (ver celdas de `assert_requisitos`).
- [x] **Carga con Pandas** y EDA breve (shape, tipos, NA, descripciones).
- [x] **Descripción de variables** potencialmente interesantes y contexto.
- [x] Listo para **hostear en GitHub** (sugerencia: agregar `data/raw/` al repo, o bien scripts de descarga).

### Sugerencias extra
- Si los archivos son muy pesados, subir **muestras** (e.g., 50–100 MB) a GitHub y mantener los originales fuera del repo (usar *Releases* o almacenamiento externo).  
- Probar el notebook cambiando rutas/archivos (`data/raw/...`) para verificar robustez con **distintas entradas**.
