<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/5_ml_dl_g_lideres/blob/main/lectura_geron_pytorch/part_1_the_fundamentals_of_machine_learning/chapter_1_the_machine_learning_landscape/2_types_of_machine_learning_systems.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/5_ml_dl_g_lideres/blob/main/lectura_geron_pytorch/part_1_the_fundamentals_of_machine_learning/chapter_1_the_machine_learning_landscape/2_types_of_machine_learning_systems.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

[Video de apoyo a la lectura de este cuaderno](https://www.youtube.com/watch?v=pK8pbLxpY7k)

Veamos con cuidado **qué hace cada sentencia del script**:   

```python
from pathlib import Path


datapath = Path() / "datasets" / "lifesat"
datapath.mkdir(parents=True, exist_ok=True) 
```

 y **por qué es tan útil pedagógica y metodológicamente** para organizar datasets y estudiar el **flujo de trabajo (workflow)** en la construcción de un modelo de *Machine Learning*, como el que se presenta en textos tipo *Hands-On Machine Learning* de Géron.

---



# 1. `from pathlib import Path`



## ¿Qué hace?

Importa la clase **`Path`** del módulo estándar `pathlib` de Python.


In [1]:
from pathlib import Path 


## ¿Por qué es importante?

`pathlib` proporciona una **forma orientada a objetos, clara y multiplataforma** de trabajar con rutas de archivos y directorios, evitando:

* Concatenaciones manuales con `/` o `\`
* Errores dependientes del sistema operativo (Windows, Linux, macOS)


En un **flujo de trabajo de Machine Learning reproducible**, el manejo correcto de rutas es fundamental para que otros investigadores o estudiantes puedan ejecutar el proyecto sin modificar el código.

---



# 2. `datapath = Path() / "datasets" / "lifesat"`

## ¿Qué hace?

* `Path()` crea un objeto que representa el **directorio actual del proyecto**.
* El operador `/` se sobrecarga para **construir rutas de forma elegante**.
* El resultado es una ruta del tipo:

```
./datasets/lifesat/
```


In [2]:
ruta_data = Path() / 'conjuntos_de_datos' / 'satisfacicion_con_la_vida'

In [3]:
ruta_data

WindowsPath('conjuntos_de_datos/satisfacicion_con_la_vida')


## Significado conceptual



Esta línea **define explícitamente la ubicación lógica de los datos** dentro del proyecto.

## Utilidad en el flujo de Machine Learning



Refuerza buenas prácticas de organización:



```
proyecto_ml/
│
├── datasets/
│   └── lifesat/
│       ├── oecd_bli.csv
│       ├── gdp_per_capita.csv
│       ├── ...
│
├── notebooks/
├── src/
└── models/
```



Esto permite separar claramente:

* **Datos**
* **Código**
* **Resultados**

Clave para:

* Enseñanza
* Ciencia abierta
* Reproducibilidad

---



# 3. `datapath.mkdir(parents=True, exist_ok=True)`



## ¿Qué hace exactamente?

Esta instrucción **crea el directorio `datasets/lifesat`**, con dos opciones cruciales:



## `parents=True`

* Crea automáticamente los directorios padres (`datasets`) si no existen.
* Evita errores del tipo: *No such file or directory*.

## `exist_ok=True`

* No lanza error si la carpeta ya existe.
* Permite ejecutar el notebook **varias veces** sin romper el flujo.



# Interpretación pedagógica

Esta línea garantiza que el entorno de trabajo esté **preparado automáticamente**, sin intervención manual del usuario.

---


In [4]:
ruta_data.mkdir(parents=True, exist_ok=True)


## Contexto didáctico

Hace explícito el **sentido semántico del directorio**:

* No es una carpeta cualquiera
* Alberga datasets relacionados con un **problema concreto de Machine Learning**

  * *Satisfacción con la vida*
  * Variables socioeconómicas (PIB per cápita, desigualdad, bienestar)

Esto conecta directamente con el enfoque de **aprendizaje basado en problemas (ABP)** que yo utilizo:  

*organizar datos alrededor de una pregunta o fenómeno real*.

---



# 5. Relación con el flujo de trabajo en Machine Learning

Este pequeño script corresponde a una **fase temprana pero esencial** del pipeline:



## Fase 1: Organización del proyecto y adquisición de datos

Antes de:

* Limpieza
* Análisis exploratorio (EDA)
* Feature engineering
* Modelado
* Evaluación



Se garantiza que:

* El proyecto es reproducible
* El entorno es portable
* El código es ejecutable desde cero
* Los datos están organizados semánticamente

---



## 6. Valor formativo para mis estudiantes

En cursos como los que yo dicto (Python, ML, pensamiento computacional):

* Introduce **hábitos profesionales** desde el inicio.
* Enseña que *Machine Learning no es solo entrenar modelos*.
* Refuerza la idea de **ingeniería del dato** como parte del proceso científico.



Mensaje clave para el estudiante:

> *Un buen modelo empieza con una buena organización del proyecto.*

---



Seguiremos en un siguiente paso con:

* Conectar este script con la **descarga automática de los datasets**
* Relacionarlo con un **notebook tipo Géron (Análisis Exploratorio de Datos (EDA) + modelo lineal)**
* Proponer una **actividad evaluable** para tus estudiantes basada en este patrón. 


