# Actividad didáctica de aprendizaje experimental



## Uso de la librería estándar **urllib** y el módulo **urllib.request** para la obtención de datos

---



## 1. Contexto y propósito de la actividad



En el primer capítulo del libro *Hands-On Machine Learning with Scikit-Learn and PyTorch*, Aurélien Géron introduce el **flujo de trabajo completo de un proyecto de Machine Learning**. 

Un paso clave de este flujo es la **obtención reproducible de los datos**.

Para ello, Géron utiliza exclusivamente la **librería estándar de Python**, en particular el módulo `urllib.request`, evitando dependencias externas y reforzando la idea de **portabilidad y reproducibilidad** del código.



Esta actividad está diseñada para ser desarrollada en un **cuaderno Jupyter**, bajo un enfoque de **aprendizaje experimental**, donde el estudiante observa, modifica, ejecuta y reflexiona sobre el código.

---



# 2. Objetivos de aprendizaje



Al finalizar la actividad, el estudiante será capaz de:



* Comprender qué es la librería estándar de Python y el lugar de `urllib` dentro de ella.


* Explicar el propósito del módulo `urllib.request`.


* Descargar archivos desde la web de manera programática.


* Verificar la existencia de archivos locales antes de descargarlos.


* Relacionar este proceso con la etapa de **adquisición de datos** en un proyecto de Machine Learning.
* Interpretar el ejemplo usado por Géron como una **buena práctica de ingeniería de datos**.

---



# 3. Conocimientos previos requeridos

* Uso básico de cuadernos Jupyter.
* Variables y estructuras de control en Python (`for`, `if`).
* Manejo elemental del sistema de archivos.
* Importación de módulos en Python.

---



# 4. Estructura sugerida del cuaderno Jupyter

El cuaderno se organiza en **celdas experimentales**, cada una con un propósito claro.

---



## Celda 1 – Exploración conceptual (Markdown)

**Pregunta orientadora:**
¿Cómo obtiene un científico de datos conjuntos de datos desde internet de forma reproducible y automática?



# Texto sugerido:



> En proyectos reales de Machine Learning, los datos rara vez se crean manualmente. Suelen descargarse desde repositorios públicos, APIs o servidores remotos. Python ofrece herramientas en su librería estándar para realizar esta tarea sin instalar librerías adicionales.

---



## Celda 2 – La librería estándar de Python (Markdown)



* La librería estándar viene incluida con Python.
* No requiere instalación adicional.
* Incluye módulos para:

  * Manejo de archivos (`pathlib`, `os`)
  * Redes y web (`urllib`, `http`)
  * Fechas y tiempo (`datetime`)



**Idea clave:** Géron usa `urllib` para garantizar que *cualquier persona* pueda ejecutar el código sin dependencias externas.

---



## Celda 3 – Importación del módulo urllib.request (Code)


In [None]:

import urllib.request




**Experimento:**



* Ejecute la celda.
* Observe que no hay salida.
* Reflexione: ¿qué significa que un módulo se importe sin errores?

---



## Celda 4 – Preparación del entorno de datos (Code)


In [None]:

from pathlib import Path

datapath = Path() / "datasets" / "lifesat"
datapath.mkdir(parents=True, exist_ok=True)

datapath




**Exploración:**

* Verifique en el explorador de archivos que la carpeta fue creada.
* Discuta por qué Géron separa el código de los datos.

---



## Celda 5 – Análisis del repositorio remoto (Markdown)

Géron aloja los datos en un repositorio de GitHub accesible vía URL:

```text
https://github.com/ageron/data/raw/main/lifesat/
```

**Pregunta:**
¿Por qué usar una URL directa a los archivos y no descargarlos manualmente?

---



# Celda 6 – Código central de descarga (Code)


In [None]:
import urllib.request

# Raíz del repositorio de datos
data_root = "https://github.com/ageron/data/raw/main/"

for filename in ("oecd_bli.csv", "gdp_per_capita.csv"):
    if not (datapath / filename).is_file():
        print("Downloading", filename)
        url = data_root + "lifesat/" + filename
        urllib.request.urlretrieve(url, datapath / filename)




---

## Celda 7 – Análisis experimental del código (Markdown)



Descomponga el código línea por línea:

* `for filename in (...)`: automatiza la descarga de múltiples archivos.
* `(datapath / filename).is_file()`: verifica si el archivo ya existe.
* `urlretrieve(url, destino)`: descarga y guarda el archivo localmente.

**Idea didáctica clave:**
Este patrón evita descargas innecesarias y hace el proceso **idempotente**.

---



## Celda 8 – Experimento guiado (Code)

1. Ejecute la celda anterior dos veces.
2. Observe qué ocurre en la segunda ejecución.
3. Elimine uno de los archivos y vuelva a ejecutar.



**Pregunta:**
¿Qué principio de diseño de software se está aplicando aquí?

---



## Celda 9 – Relación con Machine Learning (Markdown)

En el flujo de trabajo de ML, este código pertenece a la fase de:



> **Obtención y preparación de los datos**

Ventajas:

* Reproducibilidad
* Transparencia
* Automatización
* Integración con control de versiones

---



## Celda 10 – Comparación reflexiva (Markdown)

**Discusión:**

* ¿Qué pasaría si los datos se descargaran manualmente?
* ¿Qué problemas surgirían al compartir el proyecto?
* ¿Por qué Géron no usa `requests` u otra librería externa?

---



### 5. Actividades de extensión

* Modifique el código para descargar un tercer archivo.
* Capture errores de conexión usando `try/except`.
* Mida el tamaño de los archivos descargados.
* Registre la fecha y hora de la descarga.

---

### 6. Criterios de evaluación

* Explica correctamente el propósito de `urllib.request`.
* Interpreta el código sin memorizarlo.
* Relaciona el proceso con la ingeniería de datos en ML.
* Realiza modificaciones funcionales al script.

---



# 7. Cierre pedagógico

Esta actividad muestra que **aprender Machine Learning no comienza con modelos**, sino con decisiones cuidadosas sobre cómo se obtienen y organizan los datos. El uso de `urllib.request` en Géron es un ejemplo de cómo pequeñas decisiones técnicas tienen un gran impacto didáctico y profesional.

---



**Resultado esperado:**
El estudiante comprende que este bloque de código no es accesorio, sino el primer paso sólido hacia un proyecto de ciencia de datos reproducible.
