Descripción General del Proyecto
El objetivo de este proyecto fue construir, desplegar y probar un pipeline de machine learning y una API REST basada en FastAPI para tareas de clasificación de texto. El proyecto también incluyó la integración del sistema con MLflow para el seguimiento de experimentos y el despliegue de los servicios utilizando Docker Compose. El pipeline fue diseñado para entrenar modelos con diferentes algoritmos (Naive Bayes y KNN), y la API fue configurada para servir predicciones basadas en estos modelos.

Pasos Realizados
1. Construcción del Pipeline de Machine Learning
Se creó un pipeline con los siguientes pasos:

Lectura y Preprocesamiento de Datos:

Se cargaron los datos desde un archivo CSV (final_df.csv).
Se gestionaron valores faltantes y se limpió el texto en las columnas relevantes.
Ingeniería de Características:

Se combinaron las columnas de texto relevantes (cleaned_complaint y ticket_classification) en un único campo de texto.
Se procesaron los textos mediante tokenización, eliminación de stopwords y vectorización con TfidfVectorizer.
Entrenamiento de Modelos:

Se entrenaron un Naive Bayes Classifier y un KNN Classifier utilizando ajuste de hiperparámetros con Hyperopt.
Se registraron el rendimiento de los modelos y sus parámetros en MLflow.
Se guardaron el modelo entrenado y el vectorizador (TfidfVectorizer) para su uso posterior.
Registro de Modelos y Seguimiento de Experimentos:

Se registraron el modelo y el vectorizador como artefactos en MLflow.
Se asignó el modelo con mejor rendimiento como el Modelo Campeón (Champion) y el segundo mejor como el Modelo Retador (Challenger).
2. Desarrollo y Despliegue de la API REST con FastAPI
Se desarrolló una API REST con FastAPI para servir predicciones basadas en los modelos entrenados:

Endpoints:

GET /: Endpoint para verificar que la API está corriendo.
POST /predict: Acepta un JSON de entrada (cleaned_complaint y ticket_classification) y devuelve el tema (topic) predicho.
Preprocesamiento en la API:

Se cargó el vectorizador (TfidfVectorizer) guardado durante el entrenamiento y se utilizó para transformar el texto de entrada.
Se utilizó el modelo Naive Bayes registrado en MLflow para predecir el tema (predicted_topic).
Pruebas:

Se probaron los endpoints utilizando Postman y curl para garantizar que devolvieran predicciones correctas.
3. Integración con Docker
Se configuraron y desplegaron los servicios de FastAPI y MLflow utilizando Docker Compose:

Dockerfile:

Se configuró un contenedor basado en Python para ejecutar la aplicación FastAPI.
Se instalaron todas las dependencias del proyecto desde un archivo requirements.txt.
Se configuró el directorio de trabajo como /app y se expuso el puerto 8000.
docker-compose.yaml:

Se configuraron dos servicios:
api: Servicio para alojar la API FastAPI en el puerto 8000.
mlflow: Servicio para alojar MLflow en el puerto 5000 para el seguimiento de experimentos.
Se montaron volúmenes para persistir datos de MLflow (mlruns) y para acceder al vectorizador guardado (vectorizer.pkl).
Ejecución de Servicios:

Los servicios se construyeron y se ejecutaron con:
docker-compose build
docker-compose up
Conclusión
El proyecto implementó con éxito un pipeline completo de Machine Learning, un sistema de predicción mediante una API REST y un seguimiento de experimentos con MLflow. El sistema está completamente contenedorizado, lo que facilita su despliegue y escalabilidad futura.