# APENDICE A - CHECKLIST DE PROYECTOS DE MACHINE LEARNING

Esta checklist puede guiarnos a través de nuestros proyectos de Machine Learning. Existen ocho pasos principales:

1. Encuadrar el problema y tener la visión global.

2. Obtener los datos.

3. Explorar los datos para obtener ideas.

4. Preparar los datos para exponer lo mejor posible los patrones de datos subyacentes a los algoritmos de Machine Learning.

5. Explorar muchos modelos diferentes y preseleccionar los mejores.

6. Afinar nuestros modelos y combinarlos en una gran solución.

7. Presentar nuestra solución.

8. Implantar, monitorizar y mantener nuestro sistema.

Obviamente, siéntete libre para adaptar esta checklist a tus necesidades.

## Encuadrar el problema y tener la visión global

1. Definir el objetivo en términos de negocio.

2. ¿Cómo será usada tu solución?

3. ¿Cuales son las soluciones/workarounds actuales (si las hubiera)?

4. ¿Cómo deberías enmarcar este problema (supervisado/no supervisado, online/offline, etc.)?

5. ¿Cómo debe ser medida la ejecución?

6. ¿Está alineada la medida de la ejecución con el objetivo de negocio?

7. ¿Cuál debe ser la ejecución mínima necesaria para alcanzar el objetivo de negocio?

8. ¿Cuáles son los problemas comparables? ¿Se puede reutilizar la experiencia o las herramientas?

9. ¿Existe experiencia humana disponible?

10. ¿Cómo resolverías el problema manualmente?

11. Enumera las asunciones que has (u otros han) hecho hasta ahora.

12. Verifica las asunciones si es posible.

## Obtener los datos

Nota: automatiza tanto como sea posible para que puedas obtener fácilmente datos actualizados.

1. Enumera los datos que necesitas y en qué cantidad.

2. Busca y documenta dónde puedes obtener los datos.

3. Comprueba cuánto espacio ocuparán.

4. Comprueba las obligaciones legales y obtén autorización si fuera necesario.

5. Obtén las autorizaciones de acceso.

6. Crea un espacio de trabajo (con el suficiente espacio de almacenamiento).

7. Obtén los datos.

8. Convierte los datos a un formato que puedas manipular fácilmente (sin cambiar los datos en sí).

9. Asegúrate que la información sensible es eliminada o protegida (por ejemplo, anonimizándola).

10. Comprueba el tamaño y los tipos de los datos (series temporales, muestras, geográficos, etc.)

11. Muestrea/selecciona un conjunto de prueba, déjalo a un lado y nunca lo mires (¡sin espiar datos!).

## Explorar los datos

Nota: intenta obtener ideas de expertos en la materia para estos pasos.

1. Crea una copia de los datos para la exploración (muestreándolos a un tamaño manejable si es necesario).

2. Crea un notebook de Jupyter para mantener un registro de tu exploración de datos.

3. Estudia cada atributo y sus características:

 + Nombre
 
 + Tipo (categórico, entero/float, acotado/no acotado, texto, estructurado, etc.)
 
 + Porcentaje de valores ausentes
 
 + Ruido y tipo de ruido (estocástico, valores atípicos, errores de redondeo, etc.)
 
 + Si son posiblemente útiles para la tarea
 
 + Tipo de distribución (gausiana, uniforme, logarítmica, etc.)
 
4. Para tareas de aprendizaje supervisado, identificar el/los atributo(s) objetivo.

5. Visualizar los datos.

6. Estudiar las correlaciones entre los atributos.

7. Estudiar cómo podrías resolver el problema manualmente.

8. Identificar las transformaciones prometedoras que podríamos aplicar.

9. Identificar datos extra que podrían ser útiles (vuelve al punto anterior, "Obtener los datos").

10. Documentar lo  que has aprendido.

## Preparar los datos

Notas:

+ Trabaja en copias de los datos (mantén el dataset original intacto).

+ Escribe funciones para todas las transformaciones que apliques, por cinco razones:

 + Así puedes preparar fácilmente los datos para la próxima vez que obtengas datos actualizados
 
 + Así puedes aplicar esas transformaciones en futuros proyectos
 
 + Para limpiar y preparar el conjunto de prueba
 
 + Para limpiar y preparar nuevas instancias de datos una vez que tu solución está en producción
 
 + Para hacer fácil el tratamiento de tus elecciones de preparación como hiperparámetros
 

1. Limpieza de datos:

 + Corrige o elimina los datos atípicos (opcional).
 
 + Rellena los valores ausentes (por ejemplo, con ceros, media, mediana, etc.) o elimina sus filas (o columnas).
 

2. Selección de características (opcional):

 + Elmina los atributos que no proporcionen información útil para la tarea.
 

3. Ingeniería de características, cuando corresponda:

 + Discretizar características continuas.
 
 + Descomponer características (por ejemplo, categóricas, fecha/hora, etc.).
 
 + Añade transformaciones prometedoras de características (por ejemplo, log(x), sqrt(x), $x^2$, etc.).
 
 + Añade caractarísticas en nuevas características prometedoras.
 

4. Escalar características:

 + estandariza o normaliza características.

## Preseleccionar modelos prometedores

Notas:

+ Si los datos son grandes, puedes muestrear conjuntos de entrenamiento más pequeños, así puedes entrenar muchos modelos diferentes en un tiempo razonable (ten cuidado porque esto penaliza en modelos complejos, como en redes neuronales grandes o Random Forests).

+ Una vez más, intenta automatizar estos pasos tanto como sea posible.

1. Entrena muchos modelos rápidos y sin refinar de diferentes categorías (es decir, lineales, naive Bayes, SVM, Random Forests, redes neuronales, etc.) usando los parámetros estándares.

2. Mide y compara su ejecución.

 + Por cada modelo, usa validación cruzada de N-particiones y calcula la media y la desviación estándar de la medida de la ejecución en las N particiones.
 
 
3. Analiza las variables más significativas por cada algoritmo.

4. Analiza los tipos de error que los modelos generan.

 + ¿Qué datos habría utilizado un humano para evitar estos errores?
 
 
5. Haz una ronda rápida de selección e ingeniería de características.

6. Haz una o dos más iteraciones rápidas de los cinco pasos previos.

7. Preselecciona los mejores tres a cinco modelos más prometedores, prefiriendo modelos que tengan diferentes tipos de errores.

## Afinar el sistema

Notas:

+ Deberás utilizar la mayor cantidad de datos posible para este paso, especialmente a medida que avanzas hacia el final del ajuste fino.

+ Como siempre, automatiza lo que puedas.

1. Afina los hiperparámetros usando validación cruzada:

 + Trata tus opciones de transformación de datos como hiperparámetros, especialmente cuando no estás seguro de ellos (por ejemplo, ¿deberías reemplazar los valores faltantes con cero o con el valor medio? ¿O simplemente eliminar las filas?).
 
 + A menos que haya muy pocos valores de hiperparámetros a explorar, utiliza preferentemente búsqueda aleatoria sobre grid search. Si el entrenamiento es muy largo, puedes preferir el enfoque de optimización Bayesiana (p. ej., utilizando procesos previos gaussianos, como lo describen [Jasper Snoek, Hugo Larochelle y Ryan Adams](https://goo.gl/PEFfGr)).
 
 
2. Prueba los métodos de conjunto. La combinación de sus mejores modelos a menudo funcionará mejor que ejecutarlos individualmente.

3. Una vez que confíes en tu modelo final, mide su ejecución en el conjunto de prueba para estimar el error de generalización.

---

No ajustes tu modelo una vez medido el error de generalización: podrías empezar a sobreajustar el conjunto de prueba.

---

## Presentar tu solución

1. Documenta lo que has hecho.

2. Crea una presentación atractiva.

 + Asegúrate que resaltas la visión global en primer lugar.
 
 
3. Explica por qué tu solución alcanza el objetivo de negocio.

4. No olvides presentar puntos interesantes que has observado a lo largo del camino.

 + Describe qué ha funcionado y qué no.
 
 + Enumera tus asunciones y las limitaciones de tu sistema.
 
 
5. Asegúrate de que tus hallazgos clave son comunicados con atractivas visualizaciones o frases fáciles de recordar (por ejemplo, "el salario medio es el predictor número uno del precio de la vivienda").

## ¡Lanzamiento!

1. Prepara tu solución lista para salir a producción (conecta a las entradas de datos de producción, escribe pruebas unitarias, etc.).

2. Escribe código para monitorizar la ejecución en vivo de tu sistema a intervalos regulares y dispara alertas cuando se caiga.

 + Ten cuidado también con la degradación lenta: los modelos tienden a "pudrirse" a medida que los datos evolucionan.
 
 + La medida de la ejecución puede requerir un pipeline humano (por ejemplo, a través de un servicio de crowdsourcing).
 
 + Monitoriza también la calidad de tus entradas (por ejemplo, el malfuncionamiento de un sensor enviando datos aleatorios o las salidas de otros equipos que puedan volverse obsoletas). Esto es particularmente importante en sistemas de aprendizaje online.
 
 
3. Vuelve a entrenar tus modelos a intervalos regulares con datos actualizados (automatiza tanto como sea posible).