# Apéndice A: Lista de Verificación para Proyectos de Machine Learning

Esta lista de verificación puede guiarte a través de tus proyectos de machine learning. Hay ocho pasos principales:

1. Enmarcar el problema y ver el panorama general.
2. Obtener los datos.
3. Explorar los datos para obtener información valiosa.
4. Preparar los datos para exponer mejor los patrones subyacentes a los algoritmos de machine learning.
5. Explorar muchos modelos diferentes y preseleccionar los mejores.
6. Afinar tus modelos y combinarlos en una gran solución.
7. Presentar tu solución.
8. Lanzar, monitorear y mantener tu sistema.

Obviamente, debes sentirte libre de adaptar esta lista de verificación a tus propias necesidades.

## 1. Enmarcar el Problema y Ver el Panorama General

1. Define el objetivo en términos de negocio.
2. ¿Cómo se utilizará tu solución?
3. ¿Cuáles son las soluciones o alternativas actuales (si las hay)?
4. ¿Cómo deberías enmarcar este problema (supervisado/no supervisado, online/offline, etc.)?
5. ¿Cómo se debe medir el rendimiento?
6. ¿Está la medida de rendimiento alineada con el objetivo de negocio?
7. ¿Cuál sería el rendimiento mínimo necesario para alcanzar el objetivo de negocio?
8. ¿Existen problemas comparables? ¿Puedes reutilizar experiencia o herramientas?
9. ¿Hay experiencia humana disponible?
10. ¿Cómo resolverías el problema manualmente?
11. Enumera las suposiciones que tú (u otros) han hecho hasta ahora.
12. Verifica las suposiciones si es posible.

## 2. Obtener los Datos

> **Nota:** Automatiza lo más posible para que puedas obtener datos frescos fácilmente.

1. Enumera los datos que necesitas y qué cantidad necesitas.
2. Encuentra y documenta dónde puedes obtener esos datos.
3. Verifica cuánto espacio de almacenamiento ocuparán.
4. Verifica las obligaciones legales y obtén autorización si es necesario.
5. Obtén las autorizaciones de acceso pertinentes.
6. Crea un espacio de trabajo (con suficiente espacio de almacenamiento).
7. Obtén los datos.
8. Convierte los datos a un formato que puedas manipular fácilmente (sin cambiar los datos en sí).
9. Asegúrate de que la información confidencial sea eliminada o protegida (por ejemplo, anonimizada).
10. Verifica el tamaño y el tipo de datos (series temporales, muestras, datos geográficos, etc.).
11. Extrae un conjunto de prueba, apártalo y nunca lo mires (¡evita espiar los datos!).

## 3. Explorar los Datos

> **Nota:** Intenta obtener información de un experto en el dominio para estos pasos.

1. Crea una copia de los datos para su exploración (reduciendo la muestra a un tamaño manejable si es necesario).
2. Crea un Jupyter notebook para llevar un registro de tu exploración de datos.
3. Estudia cada atributo y sus características:
    * Nombre.
    * Tipo (categórico, entero/flotante, acotado/no acotado, texto, estructurado, etc.).
    * Porcentaje de valores faltantes.
    * Ruido y tipo de ruido (estocástico, valores atípicos, errores de redondeo, etc.).
    * Utilidad para la tarea.
    * Tipo de distribución (Gaussiana, uniforme, logarítmica, etc.).
4. Para tareas de aprendizaje supervisado, identifica el o los atributos objetivo.
5. Visualiza los datos.
6. Estudia las correlaciones entre los atributos.
7. Estudia cómo resolverías el problema de forma manual.
8. Identifica las transformaciones prometedoras que podrías querer aplicar.
9. Identifica datos adicionales que serían útiles (vuelve al paso de "Obtener los Datos").
10. Documenta lo que has aprendido.

## 4. Preparar los Datos

> **Notas**:
> * Trabaja sobre copias de los datos (mantén intacto el dataset original).
> * Escribe funciones para todas las transformaciones de datos que apliques, por cinco razones:
>   1. Para que puedas preparar fácilmente los datos la próxima vez que obtengas un dataset nuevo.
>   2. Para que puedas aplicar estas transformaciones en proyectos futuros.
>   3. Para limpiar y preparar el conjunto de prueba.
>   4. Para limpiar y preparar nuevas instancias de datos una vez que tu solución esté en producción.
>   5. Para facilitar el tratamiento de tus opciones de preparación como hiperparámetros.

1. **Limpia los datos**:
    * Corrige o elimina los valores atípicos (opcional).
    * Rellena los valores faltantes (por ejemplo, con cero, la media, la mediana...) o elimina sus filas (o columnas correspondientes).
2. **Realiza selección de características (opcional)**:
    * Elimina los atributos que no proporcionan información útil para la tarea.
3. **Realiza ingeniería de características, donde sea apropiado**:
    * Discretiza las características continuas.
    * Descompone características (por ejemplo, variables categóricas, fecha/hora, etc.).
    * Añade transformaciones prometedoras de las características (por ejemplo, $log(x)$, $\sqrt{x}$, $x^2$, etc.).
    * Agrupa características existentes en nuevas características prometedoras.
4. **Realiza escalado de características**:
    * Estandariza o normaliza las características.

## 5. Preseleccionar Modelos Prometedores

> **Notas**:
> * Si los datos son inmensos, es posible que desees muestrear conjuntos de entrenamiento más pequeños para poder entrenar muchos modelos diferentes en un tiempo razonable (ten en cuenta que esto penaliza a modelos complejos como grandes redes neuronales o random forests).
> * Una vez más, intenta automatizar estos pasos lo más posible.

1. Entrena muchos modelos rápidos y básicos de diferentes categorías (por ejemplo, lineales, Naive Bayes, SVM, Random Forest, redes neuronales, etc.) utilizando parámetros estándar.
2. Mide y compara su rendimiento:
    * Para cada modelo, utiliza validación cruzada de N-pliegues y calcula la media y la desviación estándar de la medida de rendimiento en los N pliegues.
3. Analiza las variables más significativas para cada algoritmo.
4. Analiza los tipos de errores que cometen los modelos:
    * ¿Qué datos habría utilizado un humano para evitar estos errores?
5. Realiza una ronda rápida de selección e ingeniería de características.
6. Realiza una o dos iteraciones rápidas más de los cinco pasos anteriores.
7. Preselecciona los tres a cinco modelos más prometedores, dando preferencia a aquellos modelos que cometan diferentes tipos de errores.

## 6. Afinar el Sistema

> **Notas**:
> * Querrás usar la mayor cantidad de datos posible para este paso, especialmente a medida que te acercas al final de la afinación.
> * Como siempre, automatiza lo que puedas.

1. Afina los hiperparámetros utilizando validación cruzada:
    * Trata tus opciones de transformación de datos como hiperparámetros, especialmente cuando no estés seguro de ellas (por ejemplo, si dudas entre reemplazar los valores faltantes con ceros o con la mediana, o simplemente eliminar las filas).
    * A menos que haya muy pocos valores de hiperparámetros para explorar, prefiere la búsqueda aleatoria (random search) sobre la búsqueda en cuadrícula (grid search). Si el entrenamiento es muy largo, es posible que prefieras un enfoque de optimización Bayesiana (por ejemplo, usando priors de procesos Gaussianos).
2. Prueba métodos de ensamble. Combinar tus mejores modelos a menudo producirá un mejor rendimiento que ejecutarlos de manera individual.
3. Una vez que estés seguro de tu modelo final, mide su rendimiento en el conjunto de prueba para estimar el error de generalización.
    * **No modifiques tu modelo después de medir el error de generalización:** solo lograrías sobreajustar (overfit) el conjunto de prueba.

## 7. Presentar tu Solución

1. Documenta lo que has hecho.
2. Crea una buena presentación:
    * Asegúrate de resaltar primero el panorama general.
3. Explica por qué tu solución logra el objetivo de negocio.
4. No olvides presentar los puntos interesantes que notaste en el camino:
    * Describe lo que funcionó y lo que no funcionó.
    * Enumera tus suposiciones y las limitaciones de tu sistema.
5. Asegúrate de que tus hallazgos clave se comuniquen a través de visualizaciones atractivas o declaraciones fáciles de recordar (por ejemplo, "el ingreso medio es el predictor número uno de los precios de la vivienda").

## 8. ¡Lanzamiento!

1. Prepara tu solución para producción (conéctala a las entradas de datos de producción, escribe pruebas unitarias, etc.).
2. Escribe código de monitoreo para verificar el rendimiento en vivo de tu sistema a intervalos regulares y que active alertas cuando el rendimiento disminuya:
    * Ten cuidado con la degradación lenta: los modelos tienden a "pudrirse" a medida que los datos evolucionan.
    * Medir el rendimiento puede requerir un pipeline humano (por ejemplo, a través de un servicio de crowdsourcing).
    * Monitorea también la calidad de tus entradas (por ejemplo, un sensor defectuoso que envía valores aleatorios, o la salida de otro equipo que se vuelve obsoleta). Esto es particularmente importante en los sistemas de aprendizaje online.
3. Vuelve a entrenar tus modelos de forma regular utilizando datos frescos (automatiza este proceso lo más posible).