
# Actividad Práctica 1 - Data Science 1 (Coderhouse)

**Alumno:** Tobias Villarruel  
**Curso:** Data Science 1 - Coderhouse  
**Actividad:** Identificación, carga y descripción de datasets

---

## Consigna
Identificar **3 datasets** que cumplan con las siguientes condiciones:
- Al menos **2000 filas**
- Al menos **15 columnas**  
  
Cargar los archivos correspondientes mediante la librería **Pandas** y describir las variables potencialmente interesantes en cada caso, considerando el contexto del dataset.


In [None]:

from pathlib import Path
import pandas as pd
import numpy as np

RAW_DIR = Path("data/raw")
RAW_DIR.mkdir(parents=True, exist_ok=True)

def quick_report(df: pd.DataFrame, sample=5):
    print("Shape (filas, columnas):", df.shape)
    display(df.head(sample))
    print("\nTipos de datos:")
    display(df.dtypes.value_counts())
    print("\n% de valores faltantes (top 10):")
    display(df.isna().mean().sort_values(ascending=False).head(10))
    print("\nResumen numérico:")
    display(df.describe(include=[np.number]).T.head(10))
    print("\nResumen categórico:")
    display(df.describe(include=[object]).T.head(10))

def assert_requisitos(df: pd.DataFrame, min_rows=2000, min_cols=15):
    assert df.shape[0] >= min_rows, f"El dataset tiene {df.shape[0]} filas (< {min_rows})."
    assert df.shape[1] >= min_cols, f"El dataset tiene {df.shape[1]} columnas (< {min_cols})."
    print(f"✅ Cumple requisitos: filas ≥ {min_rows} y columnas ≥ {min_cols}.")



## Dataset 1: World Development Indicators (WDI) - World Bank

**Fuente:** [World Bank Open Data](https://databank.worldbank.org/source/world-development-indicators)

**Descripción:**  
Contiene indicadores económicos, sociales y de desarrollo del Banco Mundial.  
En este caso, se filtraron los datos correspondientes únicamente a **Argentina** para simplificar el análisis y reducir el tamaño del archivo.

El dataset conserva más de **2000 filas** (indicadores distintos) y más de **15 columnas** (años), cumpliendo con los requisitos establecidos.


In [None]:

wdi_path = RAW_DIR / "WDIData.csv"
wdi = pd.read_csv(wdi_path)
quick_report(wdi)
assert_requisitos(wdi)



**Variables potencialmente interesantes:**  
- `Country Name`: país (en este caso, Argentina).  
- `Indicator Name`: nombre del indicador.  
- `1960`–`2022`: valores anuales por indicador.  
Estas variables permiten realizar análisis temporales de la evolución económica, social y sanitaria de Argentina.



## Dataset 2: Air Quality - UCI Machine Learning Repository

**Fuente:** [UCI Repository - Air Quality Dataset](https://archive.ics.uci.edu/ml/datasets/Air+Quality)

**Descripción:**  
Datos de contaminación atmosférica medidos por una estación en Italia.  
Incluye concentraciones de CO, NOx, NO₂, ozono, temperatura, humedad y otras variables ambientales.


In [None]:

air_path = RAW_DIR / "air_quality.csv"
air = pd.read_csv(air_path, sep=";")
quick_report(air)
assert_requisitos(air)



**Variables potencialmente interesantes:**  
- `CO(GT)`: concentración de monóxido de carbono.  
- `NOx(GT)` y `NO2(GT)`: niveles de óxidos de nitrógeno.  
- `C6H6(GT)`: concentración de benceno.  
- `T`, `RH`, `AH`: temperatura, humedad relativa y absoluta.  
Estas variables permiten estudiar la calidad del aire y su relación con condiciones meteorológicas.



## Dataset 3: Global Development Indicators (2000–2020) - Kaggle

**Fuente:** [Kaggle - Global Development Indicators 2000–2020](https://www.kaggle.com/datasets/michaelmatta0/global-development-indicators-2000-2020)

**Descripción:**  
Compila indicadores económicos, sociales y ambientales a nivel global entre los años 2000 y 2020.  
Incluye variables relacionadas con el crecimiento económico, salud, educación y sostenibilidad ambiental.


In [None]:

gdi_path = RAW_DIR / "Global_Development_2000_2020.csv"
gdi = pd.read_csv(gdi_path)
quick_report(gdi)
assert_requisitos(gdi)



**Variables potencialmente interesantes:**  
- Indicadores económicos: PIB, inflación, comercio exterior.  
- Indicadores sociales: esperanza de vida, matrícula educativa, mortalidad infantil.  
- Indicadores ambientales: emisiones de CO₂, energía renovable (% del total).  
Permite explorar correlaciones entre desarrollo económico, bienestar social y sostenibilidad ambiental.



---
## Conclusión

Los tres datasets cumplen con los requisitos establecidos (≥2000 filas y ≥15 columnas).  
El dataset del Banco Mundial fue filtrado para mostrar únicamente información de Argentina, manteniendo su validez para el análisis.  
Cada conjunto de datos aporta información relevante para el análisis exploratorio y estadístico en contextos económicos, ambientales y sociales.
