# 🛠️ Herramientas esenciales para MLE y MLOps: Git, DVC, Jenkins y Docker


## ¿Por qué estas herramientas?

Cuando trabajamos en proyectos de ciencia de datos o machine learning en equipo, no basta con saber entrenar modelos. Necesitamos buenas prácticas que nos ayuden a:

- Colaborar con otras personas
- Controlar versiones de código y datos
- Automatizar procesos (como entrenamiento y despliegue)
- Empaquetar nuestras aplicaciones para que funcionen "en cualquier parte"

Aquí es donde entran en juego herramientas como:

- **Git** → Control de versiones de código
- **DVC** → Control de versiones de datos y modelos
- **Jenkins** → Automatización (CI/CD)
- **Docker** → Crear contenedores para que tu código funcione igual en cualquier entorno


## Git: Control de versiones

Git es un sistema que te permite llevar el control de los cambios en tu código. Es como una "máquina del tiempo" para tus archivos de proyecto.

Con Git puedes:

- Guardar versiones del código (como "checkpoints")
- Trabajar en ramas diferentes
- Colaborar con otros sin pisarse los cambios

Y lo mejor: puedes subir tu proyecto a **GitHub** y trabajar desde la nube.


**Ejemplo práctico**

In [None]:
# Inicializar Git en un proyecto
git init

# Agregar archivos al control de versiones
git add .

# Guardar un cambio (commit)
git commit -m "Primer commit"

# Conectar a GitHub y subir
git remote add origin https://github.com/tu_usuario/tu_repo.git
git push -u origin main

## DVC: Control de versiones para datos y modelos

DVC (Data Version Control) extiende Git para que puedas versionar también:

- Conjuntos de datos grandes (que no caben bien en Git)
- Modelos entrenados
- Pipelines de procesamiento

Esto es especialmente útil porque en ML no solo cambia el código, también cambian los datos y los experimentos.


#### ¿Qué hace DVC?

| Acción | ¿Qué hace DVC? |
|--------|----------------|
| `dvc init` | Inicializa DVC en tu proyecto |
| `dvc add`  | Añade un archivo (por ejemplo, un CSV o modelo) al control de versiones |
| `dvc push` | Sube los datos a un sistema externo (como Google Drive, S3, etc.) |
| `dvc pull` | Descarga los datos de vuelta |


**Ejemplo práctico**

In [None]:
# Instalar dvc
pip install dvc

# Inicializar en el proyecto
dvc init

# Añadir dataset
dvc add data/train.csv

# Se genera un archivo .dvc que se puede versionar con git
git add data/train.csv.dvc .gitignore
git commit -m "Añadido dataset al control con DVC"

## Jenkins: Automatizar tareascon CI/CD

Jenkins es una herramienta para automatizar tareas. Por ejemplo:

- Probar el código automáticamente cuando haces un cambio
- Volver a entrenar el modelo si hay nuevos datos
- Desplegar tu app si pasa los tests

Esto forma parte del ciclo **CI/CD**:

- CI = Integración continua
- CD = Despliegue continuo





### ¿Cómo funciona Jenkins?

- Tiene una interfaz web donde puedes ver tus "jobs"
- Cada job puede hacer pasos como: instalar dependencias, ejecutar scripts, desplegar...
- Puedes conectarlo con GitHub para que se active con cada push




### Ejemplo de `Jenkinsfile`:

Esto se pone en la raíz del repositorio y define lo que Jenkins debe hacer.

```groovy
pipeline {
  agent any
  stages {
    stage('Instalar dependencias') {
      steps {
        sh 'pip install -r requirements.txt'
      }
    }
    stage('Ejecutar tests') {
      steps {
        sh 'python -m unittest discover tests'
      }
    }
    stage('Entrenar modelo') {
      steps {
        sh 'python train.py'
      }
    }
  }
}


## Docker – Contenedores para empaquetar tu app

Docker te permite empaquetar tu aplicación (con todo lo que necesita para funcionar: Python, librerías, código, etc.) en un **contenedor**.

Ese contenedor funciona igual en cualquier sitio: tu ordenador, un servidor, la nube... lo que sea.





### ¿Para qué sirve Docker?

- Evita el clásico “en mi máquina sí funciona”
- Es la forma estándar de desplegar APIs en producción
- Se usa mucho junto con FastAPI y Flask



### 📄 Ejemplo de `Dockerfile`

```
# 1. Imagen base con Python
FROM python:3.9

# 2. Directorio de trabajo
WORKDIR /app

# 3. Copiar archivos
COPY . .

# 4. Instalar dependencias
RUN pip install -r requirements.txt

# 5. Comando de arranque
CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "80"]
```

Seguidamente, contruimos la imagen del contenedor y podríamos ejecutarla

In [None]:
# Construir imagen
docker build -t mi_api_diabetes .

# Ejecutar contenedor
docker run -p 8000:80 mi_api_diabetes

## Resumen final

### Conclusión

Estas herramientas son el corazón del flujo de trabajo moderno en proyectos de machine learning:

| Herramienta | ¿Para qué sirve? |
|-------------|------------------|
| **Git**     | Controlar versiones de código |
| **DVC**     | Controlar versiones de datos y modelos |
| **Jenkins** | Automatizar procesos (CI/CD) |
| **Docker**  | Empaquetar tu app para que funcione en cualquier entorno |
  
--

¿Qué puedo hacer a partir de aquí?

- Conectar Jenkins con Docker para desplegar automáticamente la API
- Usar DVC + GitHub + CI/CD para reentrenar el modelo cuando haya nuevos datos
- Subir la imagen de Docker a un servicio en la nube (AWS, Render, etc.)
- Versionar experimentos y métricas con DVC
