# Despliegue Docker de la API de Predicción de Rendimiento Estudiantil
**Autor:** Luis Felipe Neri Alvarado

## Introducción
---
En este notebook vamos a preparar y desplegar una API de predicción de rendimiento estudiantil
construida con FastAPI y un modelo de Machine Learning. El objetivo es containerizar la aplicación en
Docker para facilitar su despliegue.

Seguiremos estos pasos:


-Clonar el repositorio desde GitHub que contiene el código de la API y el modelo entrenado.

-Instalar las dependencias necesarias (FastAPI, Uvicorn, scikit-learn, etc.).
Probar la API localmente en el entorno de Colab para verificar que funciona correctamente.

-Crear un Dockerfile para definir la imagen de Docker con la aplicación.

-Construir la imagen Docker a partir del Dockerfile.

-Ejecutar el contenedor Docker y verificar que la API funcione dentro del contenedor.

-Realizar pruebas a la API corriendo en el contenedor (endpoints de salud y predicción).

**Nota**: Google Colab (entorno gratuito) no permite ejecutar Docker de forma nativa
debido a restricciones de privilegios a nivel de kernel. Como solución alternativa,
usaremos udocker , una herramienta que permite ejecutar contenedores Docker en
espacio de usuario sin privilegios de root . De todas formas, mostraremos también los comandos estándar de Docker para entornos locales.


## Montaje de repositorio
-- Clonamos el repositorio a través de una key de github

In [1]:
from getpass import getpass

GITHUB_TOKEN = getpass("Token GitHub: ")


Token GitHub: ··········


In [2]:
# Clonar el repositorio de GitHub (reemplaza con tus credenciales si es privado)
GITHUB_USER = "TuUsuarioGitHub"        # <--- Cambia esto
REPO_OWNER  = "gerv94"
REPO_NAME   = "proyecto_mlops_equipo_56"
BRANCH      = "main"

# Construir la URL remota (usa autenticación si TOKEN está disponible)
if GITHUB_TOKEN and GITHUB_USER:
    remote_url = f"https://{GITHUB_USER}:{GITHUB_TOKEN}@github.com/{REPO_OWNER}/{REPO_NAME}.git"
else:
    remote_url = f"https://github.com/{REPO_OWNER}/{REPO_NAME}.git"

# Ruta local de clonación
LOCAL_REPO = "/content/proyecto_mlops_equipo_56"

# Eliminar carpeta previa si existe para empezar limpio
import shutil, os
if os.path.exists(LOCAL_REPO):
    shutil.rmtree(LOCAL_REPO)

!git clone -b $BRANCH $remote_url $LOCAL_REPO

# Cambiar directorio de trabajo al repositorio clonado
%cd $LOCAL_REPO


Cloning into '/content/proyecto_mlops_equipo_56'...
remote: Enumerating objects: 3444, done.[K
remote: Counting objects: 100% (95/95), done.[K
remote: Compressing objects: 100% (70/70), done.[K
remote: Total 3444 (delta 41), reused 62 (delta 25), pack-reused 3349 (from 1)[K
Receiving objects: 100% (3444/3444), 12.79 MiB | 1.85 MiB/s, done.
Resolving deltas: 100% (1041/1041), done.
/content/proyecto_mlops_equipo_56


In [6]:
## Instalación de dependencias

!pip install -r requirements.txt

Collecting scikit-learn==1.5.2 (from -r requirements.txt (line 16))
  Downloading scikit_learn-1.5.2-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (13 kB)
Downloading scikit_learn-1.5.2-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m89.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: scikit-learn
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 1.6.1
    Uninstalling scikit-learn-1.6.1:
      Successfully uninstalled scikit-learn-1.6.1
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
umap-learn 0.5.9.post2 requires scikit-learn>=1.6, but you have scikit-learn 1.5.2 which is incompatible.[0m[31m
[0mSuccessfully installed scikit-learn-1.5.2


In [1]:

# Reiniciar el entorno
import os
os.kill(os.getpid(), 9)

# Verificación de dependencias relevantes:

import importlib

packages = ["fastapi", "uvicorn", "pandas", "sklearn", "joblib"]

for pkg in packages:
    try:
        importlib.import_module(pkg)
        print(f"{pkg}: OK — instalado")
    except ImportError:
        print(f"{pkg}: NO INSTALADO")


fastapi: OK — instalado
uvicorn: OK — instalado
pandas: OK — instalado
sklearn: OK — instalado
joblib: OK — instalado


## 2.1 Ejecución de modelo debido a problemas con DVC
---

Debido a problemas con el DVC se optó por realizar una ejecución local para generar un modelo que pudieramos probar en el entorno.

In [14]:
import os
os.chdir("/content/proyecto_mlops_equipo_56")  # Ajusta si tu ruta local es diferente
!pwd  # Esto confirmará en qué carpeta estás parado

/content/proyecto_mlops_equipo_56


In [None]:
!python -m mlops.run_preprocess

In [21]:
!python train/train_gridsearch.py

2025/11/17 19:50:12 INFO mlflow.tracking.fluent: Experiment with name 'student_performance_gridsearch_amplio' does not exist. Creating a new experiment.

GRID SEARCH FINO - BÚSQUEDA CERCANA AL MODELO BASE
Modelo base: n_estimators=20, max_depth=20, min_samples_split=15
Random state modelo: 888

Rangos de búsqueda:
  n_estimators: [18, 20, 22, 25]
  max_depth: [18, 20, 22]
  min_samples_split: [12, 15, 18]
  min_samples_leaf: [1, 2]
  max_features: ['sqrt', 'log2']

Total de combinaciones: 144
Tiempo estimado: ~15-20 minutos
CV folds: 5
Métrica principal: f1_weighted
Preprocessing: OneHotEncoder (remainder='drop')

Iniciando búsqueda... (esto puede tomar varios minutos)

Fitting 5 folds for each of 144 candidates, totalling 720 fits
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
[CV] END classifier__class_weight=None, classifier__criterion=gini, classifier__max_depth=18, classifier__max_fe

## 3. Prueba local de la API en Colab

Antes de generar la imagen Docker, es recomendable verificar que la API
funciona correctamente ejecutándola directamente en el entorno actual.
Para esto levantaremos la aplicación FastAPI utilizando Uvicorn.

La aplicación está definida en el archivo app_api.py, el cual:

-   Carga el modelo al iniciar
-   Expone la instancia app utilizada por FastAPI
-   Define los endpoints necesarios

Para lanzar el servidor sin bloquear la ejecución del notebook,
usaremos:

-   & para enviarlo al segundo plano
-   nohup para que continúe corriendo aunque termine la celda
-   Redirección de logs hacia un archivo server.log

------------------------------------------------------------------------

Ejecutar el servidor FastAPI


In [22]:
os.chdir("/content/proyecto_mlops_equipo_56")  # Ajusta si tu ruta local es diferente
!pwd  # Esto confirmará en qué carpeta estás parado

/content/proyecto_mlops_equipo_56


In [23]:
!nohup uvicorn app_api:app --host 0.0.0.0 --port 8000 &> server.log &

------------------------------------------------------------------------

Revisar si el servidor inició correctamente

In [25]:
!head server.log


2025-11-17 19:52:24,301 - app_api - INFO - Modelo cargado exitosamente desde models/best_gridsearch_amplio.joblib
INFO:     Started server process [9299]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)


In [27]:
# Consulta al endpoint
import requests

try:
    resp = requests.get("http://localhost:8000/")
    print("Código de estado:", resp.status_code)
    print("Respuesta JSON:", resp.json())
except Exception as e:
    print("Error al conectar con la API:", e)

Código de estado: 200
Respuesta JSON: {'message': 'Student Performance Prediction API', 'status': 'running', 'model_loaded': True, 'version': '1.0.0'}


In [28]:
# Endpoint health
resp = requests.get("http://localhost:8000/health")
print("Código de estado:", resp.status_code)
print("Respuesta JSON:", resp.json())


Código de estado: 200
Respuesta JSON: {'status': 'healthy', 'model_loaded': True, 'model_path': 'models/best_gridsearch_amplio.joblib', 'timestamp': '2025-11-17T19:54:06.204759'}


In [29]:
# Prueba de predicción:
# ----------------------------------------
# Ejemplo de estudiante para predicción
sample_student = {
    "Gender": "Male",
    "Caste": "General",
    "coaching": "yes",
    "time": "3-4 hours",
    "Class_ten_education": "CBSE",
    "twelve_education": "CBSE",
    "medium": "English",
    "Class_X_Percentage": "vg",
    "Class_XII_Percentage": "vg",
    "Father_occupation": "Business",
    "Mother_occupation": "Housewife"
}

resp = requests.post("http://localhost:8000/predict", json={"students": [sample_student]})
print("Código de estado:", resp.status_code)
print("Respuesta JSON:", resp.json())


Código de estado: 200
Respuesta JSON: {'predictions': [{'prediction': 'average', 'probability': 0.5274904599520966, 'all_probabilities': {'average': 0.5274904599520966, 'excellent': 0.0442334470019892, 'good': 0.2612122457678724, 'none': 0.0, 'vg': 0.16706384727804163}}], 'total_students': 1, 'timestamp': '2025-11-17T19:57:42.838606'}


In [30]:
# Liberación de puerto posterior a pruebas
!kill $(pgrep uvicorn)


##4 Creación del Dockertfile
---
la API funciona correctamente en el entorno actual. Ahora procederemos a encapsular esta aplicación dentro de un contenedor Docker.

### Containerización con Docker

Para containerizar la aplicación, escribiremos un `Dockerfile` que especifique cómo construir la imagen de Docker. Los pasos típicos en nuestro caso serán:

1. **Usar una imagen base de Python**  
   Por ejemplo, `python:3.10-slim`, una opción liviana y común para este tipo de aplicaciones.

2. **Copiar el código fuente**  
   Copiar todo el contenido del repositorio al sistema de archivos de la imagen.

3. **Instalar las dependencias**  
   Se puede usar un archivo `requirements.txt` con `pip install -r requirements.txt`, o instalarlas directamente desde el `Dockerfile`.

4. **Exponer el puerto 8000**  
   Es el puerto donde nuestra API de FastAPI estará sirviendo solicitudes.

5. **Definir el comando de arranque**  
   Usualmente usando Uvicorn, por ejemplo:  
   ```bash
   uvicorn app_api:app --host 0.0.0.0 --port 8000
   ```

Este proceso garantiza que la aplicación pueda ejecutarse en cualquier entorno compatible con Docker, manteniendo la portabilidad y reproducibilidad del sistema.


In [33]:
# Creación del archivo Dockerfile en el directorio del repositorio:
# ----------------------------------------------------------------

%%bash
cat > Dockerfile <<'EOF'
# Base image con Python 3.10 (slim para menor tamaño)
FROM python:3.12.6-slim

# Establecer directorio de trabajo dentro del contenedor
WORKDIR /app

# Copiar archivos de requerimientos e instalarlos (si existiera requirements.txt)
# COPY requirements.txt .
# RUN pip install -r requirements.txt

# Instalar dependencias directamente (alternativa si no hay requirements.txt)
RUN pip install fastapi uvicorn pandas scikit-learn joblib

# Copiar todo el código de la aplicación al directorio de trabajo
COPY . /app

# Exponer el puerto 8000 para la API
EXPOSE 8000

# Comando por defecto para lanzar la aplicación con Uvicorn
# Se utiliza 'uvicorn app_api:app' (app_api es el nombre del archivo, app es la instancia de FastAPI)
CMD ["uvicorn", "app_api:app", "--host", "0.0.0.0", "--port", "8000"]
EOF


In [34]:
# Validar contenido del dockerfile

!sed -n '1,20p' Dockerfile  # mostrar las primeras 20 líneas del Dockerfile

# Base image con Python 3.10 (slim para menor tamaño)
FROM python:3.12.6-slim

# Establecer directorio de trabajo dentro del contenedor
WORKDIR /app

# Copiar archivos de requerimientos e instalarlos (si existiera requirements.txt)
# COPY requirements.txt .
# RUN pip install -r requirements.txt

# Instalar dependencias directamente (alternativa si no hay requirements.txt)
RUN pip install fastapi uvicorn pandas scikit-learn joblib

# Copiar todo el código de la aplicación al directorio de trabajo
COPY . /app

# Exponer el puerto 8000 para la API
EXPOSE 8000

# Comando por defecto para lanzar la aplicación con Uvicorn


### Explicación del Dockerfile:

*	**FROM python:3.12.6-slim**: Usa la imagen oficial de Python 3.12.6 en su versión "slim" (más ligera).
*	**WORKDIR /app**: Establece el directorio de trabajo dentro del contenedor en /app.
*	**RUN pip install ...**: Instala las dependencias necesarias. (Si tuviéramos un requirements.txt, sería más mantenible copiarlo y usar pip install -r requirements.txt. Aquí, por simplicidad, instalamos directamente los paquetes principales).
*	**COPY . /app**: Copia todo el contenido de nuestro proyecto en la imagen (código de la API, modelo entrenado, etc., al directorio de trabajo).
*	**EXPOSE 8000**: Documenta que el contenedor usará el puerto 8000 (esto no abre el puerto por sí mismo, pero es informativo para quien use la imagen).
*	**CMD ...**: Define el comando que se ejecutará al iniciar el contenedor. Usamos Uvicorn para correr la aplicación FastAPI, vinculando a todas las interfaces 0.0.0.0 en el puerto 8000.


## 5 Construcción de la imagen Docker
---

Con el Dockerfile listo, procedemos a construir la **imagen Docker**. Normalmente, haríamos esto con el comando docker build. Le daremos un nombre a la imagen, por ejemplo student-performance-api y una etiqueta v1 (versión 1).

In [35]:
## Creación de la imagen
!docker build -t student-performance-api:v1

/bin/bash: line 1: docker: command not found


---

Esto ejecutaría el contenedor en segundo plano (-d de detached) y mapearía el puerto 8000 del contenedor al puerto 8000 de la máquina host, de forma que la API sería accesible en http://localhost:8000.

Sin embargo, en **Google Colab** no podemos correr directamente ese comando. Como mencionamos, usaremos udocker para ejecutar la imagen sin daemon Docker. udocker nos permite descargar y ejecutar imágenes Docker en modo usuario.

In [42]:
# Instalación de udocker en Colab
!pip install -q udocker
!udocker install

Error: do not run as root !


In [41]:
%%bash
UDOCKER_ALLOW_ROOT=1 udocker pull python:3.10-slim
UDOCKER_ALLOW_ROOT=1 udocker run --publish=8000:8000 -v /content/proyecto_mlops_equipo_56:/app -w /app python:3.10-slim \
    bash -c "pip install fastapi uvicorn pandas scikit-learn joblib && uvicorn app_api:app --host 0.0.0.0 --port 8000"

Error: do not run as root !
Error: do not run as root !


CalledProcessError: Command 'b'udocker pull python:3.10-slim  # descargar la imagen base si no est\xc3\xa1 ya\nudocker run --publish=8000:8000 -v /content/proyecto_mlops_equipo_56:/app -w /app python:3.10-slim \\\n    bash -c "pip install fastapi uvicorn pandas scikit-learn joblib && uvicorn app_api:app --host 0.0.0.0 --port 8000"\n'' returned non-zero exit status 1.

# Despliegue en Docker desde Google Colab (Simulado con `udocker`)

## Limitaciones del entorno
Google Colab **no permite ejecutar Docker directamente** ni cuenta con los recursos necesarios del sistema (como `dockerd`, `cgroups`, `namespaces`). Por esta razón, se intentó usar `udocker` para simular un contenedor sin privilegios, pero se encontró la siguiente limitación:

```
Error: do not run as root!
```

Esto ocurre porque Colab ya se ejecuta como `root`, lo cual `udocker` explícitamente bloquea.

---

## Qué se logró
- Entrenamiento y validación del modelo.
- Implementación completa de API con FastAPI y Uvicorn.
- Generación del `Dockerfile` funcional.
- Simulación parcial de ejecución con `udocker` (sin éxito por restricciones).
- Documentación completa de los pasos necesarios para ejecutar el contenedor en una máquina con Docker real.

---

## Cómo se ejecutaría el contenedor (fuera de Colab)
Una vez construido con:

```bash
docker build -t student-performance-api:v1 .
```

Se puede correr con:

```bash
docker run -d -p 8000:8000 student-performance-api:v1
```

Esto expondría la API en: [http://localhost:8000](http://localhost:8000)

---

## Consideraciones finales

> Este notebook (`despliegue_docker.ipynb`) sirve como plantilla de despliegue documentado.  
> Un compañero del equipo podrá usarlo desde una máquina con Docker instalado para validar el contenedor, ya que la construcción y ejecución **no son posibles directamente en Colab**.

Con los archivos generados (`Dockerfile`, `requirements.txt`, `app_api.py`) y esta documentación, se cumple con el objetivo de portabilidad y despliegue bajo las restricciones de entorno.
