# CAPÍTULO 1

## Visión General de los Sistemas de Aprendizaje Automático

En noviembre de 2016, Google anunció que había incorporado su sistemas de traducción automática neuronal multilingue a Google Translate, lo que supuso uno de los primeros éxitos de las redes neuronales artificiales profundas en producción a escala. Según Google, con esta actualización, la calidad de la traducción mejoró más en un solo salto de lo que habían visto en los 10 años anteriores juntos.

Este éxito del aprendizaje profundo renovó el interés por el aprendizaje automático (ML) en general. Desde entonces, cada vez más empresas han recurrido al aprendizaje automático para resolver sus problemas más complejos. En sólo conco años, el ML se ha abierto camino en casi todos los aspectos de nuestras vidas: cómo accedemos a la información, cómo nos comunicamos, cómo trabajamos, cómo encontramos el amor. La difusión del ML ha sido tan rápida que ya resulta deficil imaginar la vida sin él. Sin embargo, aún quedan muchos más casos de uso del ML por explorar en campos como la sanidad, el transporte, la agricultura e incluso para ayudarnos a comprender el universo.

Mucha gente, cuando oye "sistemas de aprendizaje automático", piensa sólo en los algoritmos de ML que se utilizan, como la regresión logística o los distintos tipos de redes neuronales. Sin embargo, el algoritmo es sólo una pequeña parte de un sistema de ML en producción. El sistema también incluye los requisitos empresariales que sieron origen al proyecto de ML en primer lugar, la interfaz en la que los usuarios y desarrolladores interactúan con su sistema, la pila de datos y la lógica para desarrollar, supervisar y actualizar sus modelos, así como la infraestructura que permite la entrega de esa lógica. La figura 1-1 muestra los diferentes componetes de un sistema de ML y en qué capítulos de este libre se tratarán.

---
1 Mike Schuster, Melvin Johnson y Nikhil Thorat, "Zero-Shot Translation with Google's Multilingual Neural
Machine Translation System", Google AI Blog, 22 de noviembre de 2016, https://oreil.ly/2R1CB.

2 Larry Hardesty, "A Method to Image Black Holes", MIT News, 6 de junio de 2016, https://oreil.ly/HpL2F.


### La relación entre los MLOps y el diseño de sistemas de ML

Ops en MLOps proviene de DevOps, abreviatura de Developments (desarrollo) y Operations (Operaciones). Operacionalizar algo significa ponerlo en producción, lo que incluye desplegarlo, supervisarlo y mantenerlo. MLOps es un conjunto de herramientas y buenas prácticas para poner el ML en producción.

El diseño de sistemas de ML adopta un enfoque de sistemas para los MLOps, lo que significa que considera un sistema de ML de forma holística para garantizar que todos los componentes y sus partes interesadas puedan trabajar juntos para satisfacer los objetivos y requisitos especificados.

![image.png](attachment:image.png)

*Figura 1-1. Diferentes componentes de una sistema de ML. "Algoritmos de ML" es normalmente en lo que piensa la gente cuando dice aprendizaje automático, pero es sólo una pequeña parte de todo el sistema.*

Hay muchos libros excelentes sobre diversos algoritmos de ML. Este libro no trata en detalle ningpun algoritmo específico, sino que ayuda a os lectores a comprender todo el sistema de ML en su conjunto. En otras palabras, el objetivo de este libro es proporcionarle un marco de trabajo para desarrollar la solución que mejor se adapte a su problema, independientemente del algoritmo que termine utilizando. Los algoritmos pueden quedar obsoltos rápidamente, ya que constantemente se desarrollan nuevos algoritmos, pero el marco propuesto en este libro debería seguir funcionando con los nuevos algoritmos.

El primer cappitulo del libro pretende ofrecer una visión general de lo que se necesita para llevar un modelo de ML a la producción. Antes de distucit cómo desarrollar un sistema de ML, es importante plentearse la pregunta fundamental de cuándo no utilizar el ML. Trataremos algunos de los casos de uso más populares del ML para ilustrar este punto.

Despupes de los casos de uso, pasaremos a los retos de desplegar sistemas de ML, y lo haremos comparando el ML en producción con el ML en investigación, así como con el software tradicional. Si has estado en las trincheras del desarrollo de sistemas ML aplicados, puede que ya estés familiarizado con lo que se ha escrito en este capítulo. Sin embargo, si sólo has tenido experiencia con ML en un entorno académico, este capítulo te dará una visión honesta de ML en el mundo real y preparará tu primera aplicación para el éxito.

### Cuándo utilizar el aprendizaje automático

A medida que su adopción en la industria crece rápidamente, el ML ha demostrado ser un poderosa herramienta para una amplia gama de problemas. A pesar de la increíble cantidad de entusiasmo y expectación generados por personas tanto de dentro como de fuera de este campo, el ML no es una herramienta mágica que pueda resolver todos los problemas. Incluso para los problemas que el ML puede resolver, las soluciones de ML pueden no ser las óptimas. Antes de iniciar un proyecto de ML, es posible que desee preguntarse si el ML es necesario o rentable.

Para entender lo que puede hacer el ML, examinemos lo que suelen hacer las soluciones de ML:

*El aprendizaje automático es un método para (1) aprender (2) patrones complejos a partir de (3) datos existentes y utilizar estos patrones para hacer (4) predicciones sobre (5) datos no vistos.*

Analizaremos cada una de estas frases clave en cursiva del marco anterio para comprender sus aplicaciones en los problemas que puede resolver el ML:

**1. Aprender: El sistema tiene capacidad de aprendizaje**
- Una base de datos relacional no es un sistema de ML porque no tiene capacidad de aprendizaje. Se puede establecer explícitamente la relación enyre dos columnas en una base de datos relacional, pero es poco probable que tenga la capacidad de averiguar la relación entre estas dos columnas por sí misma.

Para que un sistema ML aprenda, debe haber algo de lo que aprender. En la mayoría de los casos, los sistemas de ML aprenden de los datos. En el aprendizaje supervisado, basado en partes de entrada y salida de ejemplo, los sistemas de ML aprenden a generar salidas para entradas arbitrarias. Por ejemplo, si desea crear un sistema de ML aprenda a predecir el precio de alquiler de los anuncios de Airbnb, debe proporcionar un conjunto de datos en el que cada entrada sea un anuncio con característis relevantes (metros cuadrados, números de habitaciones, barrio, servicios, valoracón del anuncio, etc.) y la salida asociada sea el precio de alguiler de ese anuncio. Una vez aprendido, este sistema ML debería ser capaz de predecir el precio de un nuevo anuncio dadas su características.

---
3 No he preguntado si el ML es suficiente porque la respuesta siempre es no.

**2. Patrones complejos: Hay patrones que aprender, y son complejos**:

- Las coluciones de ML sólo son útiles cuando hay patrones que aprender. La gente sensata no invertiría dinero en construir un sistema de ML para predecir el próximo resultado de un dado justo, porque no hay ningún en cómo se generan estos resultados. Sin embargo, hay patrones en cómo se valoran las acciones, y por lo tanto las empresas han invertido miles de millenos de dólares en la construcción de sistemas de ML para aprender esos patrones.

La existenciade un patrón puede no ser obvia, o si existen patrones, su conjunto de datos o algoritmos de ML pueden no ser suficientes para capturarlos. Por ejemplo, podría haber un patrón en la forma en que los tuits de Elon Musj afectan a los precios de las criptomonedas. Sin embargo, no lo sabrás hasta que hayas entrenado y evaluado rigurosamente tus modelos de ML con sus tuits. Incluso si todos tus modelos fallan a la hora de hacer predicciones razonables sobre los precios de las criptomonedas, no significa que no haya un patrón.

Piense en un sitio wen como Airbnb con muchos anuncios de casas; cada anuncio viene con un código postal. Si desea clasificar los anuncios por estados, no necesitará un sistema ML. Dado que el patrón es sencillo (cada código postal corresponde a un estado conocido), basta con utilizar una tabla de búsqueda.

La relación entre el precio de un alquiler y todas sus características sigue un patrón mucho más complejo, que sería muy dificil especificar manualmente. ML es una buena solución para esto. En lugar de decirle a su sistema cómo calcular el precio a partir de una lista de caracter´sitcias, puede proporcionar precios y características, y dejar que su sistema ML descubra el patrón. En la figura 1-2 se muestra la diferencia entre las soluciones de ML y la solución de tabla de consulta, así como las soluciones generales de software tradicional. Por este motivo, el ML también se denomina Software 2.0.

El ML ha tenido mucho éxito en tareas con patrones complejos, como la detección de objetos y el reconocimiento del habla. Lo que es complejo para las maquinas es diferente de lo que es complejo para los humanos. Muchas tareas difíciles para los humanos son fáciles para las máquinas, como elevar un número a la potencia de 10. Por otro lado, muchas tareas fáciles para los humanos pueden ser difíciles para las máquinas, como decidir si hay un gato en una foto.

---
4 Los patrones son distintos de las distribuciones. Conocemos la distribución de los resultados de un dado
justo, pero no hay patrones en la forma en que se generan los resultados.

5 Andrej Karpathy, "Software 2.0", Medium, 11 de noviembre de 2017, https://oreil.ly/yHZrE.

![image.png](attachment:image.png)

*Figura 1-2. En lugar de requerir patrones especificados a mano para calcular los resultados, las soluciones de ML aprenden patrones a partir de las entradas y salidas*

**3.Datos Existentes: Se dispone de datos o es posible recopilarlos**.

- Como el ML aprende de los datos, tiene que haber datos de los que aprender. Es divertidor pensar en construir un modelo para predecir cuántos impuestos debe pagar una persona al año, pero no es posible a menos que se tenga acceso a los datos discales y de ingresos de una gran población.

En el contexto del aprendizaje de tiro cero (a veces conocido como aprendizaje de datos cero), es posible que un sistema de ML haga buenas predicciones para una tarea son haber sido entrenado con datos para esa tarea. Sin embargo, este sistema ML fue entrenado previamente con datos para otras tareas, a menudo relacionadas con la tarea en cuestión. Por tanto, aunque el sistema no necesite datos para aprender de la tarea en cuestión, sigue necesitando datos para aprender.

También es posible lanzar un sistema de ML sin datos. Por ejemplo, en el contexto del aprendizaje continuo, los modelos de ML pueden desplegarse con haber sido entrenados con ningún dato, pero aprenderán de los datos entrantes en producción. Sin embargo, servir modelos insuficientemente entrenados a los usuarios conlleva ciertos riesgos, como una mala experiencia del cliente.

Sin datos y sin un aprendizaje continuo, muchas empresas siguen un planteamiento "fake-it-il-you make it": lanzar un producto que sirva para predicciones hechas por humanos, en lugar de modelos ML, con la esperanza de utilizar los datos generados para entrenar modelos ML más adelante.

---
6 Repasaremos el aprendizaje en línea en el capítulo 9.

**4.Predicciones: Es un problema de predicción**

- Los modelos de ML hacen predicciones, por lo que sólo pueden rsolver problemas que requieran respuestas predictivas. El ML puede ser especialmente atractivo cuando puede beneficiarse de una gran cantidad de predicciones baratas per aproximadas. En ingles "predecir" significa "estimar un valor en el futuro". Por ejemplo, ¿qué tiempo hará mañana? ¿Quién ganará la Super Bowl este año? ¿Qué película querrá ver un usuario a continuación?.

A medida que las máquinas predictivas (por ejemplo, los modelos de ML) se vuelven más eficaces, cada vez más problemas se reformulan como problemas predictivos. Cualquiera que sea tu pregunta, siempre puedes formularla como: "¿Cuál sería la respuesta a esta pregunta?", independientemente de si se trata de algo el futuro, del presente o incluso del pasado.

Los problemas de cálculo intensivo son una de las clases de problema que se han replanteado con mucho éxito como predictivos. En lugar de calcular el resultado exacto de un proceso, que podría ser incluso más costoto computacionalmente y requerir más tiempo que el ML, se puede plantear el problema como "¿Cómo sería el resultado de este proceso? "¿Cómo sería una aproximación del resultado exacto, pero a menudo es suficientemente bueno. Se puede ver mucho de esto en las representaciones gráficas, como la eliminación de ruido de imágenes y el sombreado en el espacio de la pantalla.

**5. Datos no vistos: Los datos no vistos comparten patrones con los datos de entrenamiento**

- Los patrones que tu modelo aprende de lso datos existentes solo son útiles si los datos no vistos también comparten estos patrones. Un modelo para predecir si una aplicación se descargara en Navidad de 2020 no funcionará muy bien si se entrena con datos de 2008, cuando la aplicación más popular de la App Store era Koi Pond. ¿Qué es Koi Pond? Exacto.

En términos técnicos, significa que los datos no vistos y los datos de entrenamiento deben proceder de distribuciones similares. Usted se preguntará: "Si los datos no se ven, ¿cómo sabemos de qué distribución proceden? No lo sabemos, pero podemos hacer suposiciones, por ejemplo, podemos suponer que los comportamientos de los usuarios mañana no serán muy diferentes de los comportamientos de los usuarios hoy y esperar que nuestras suposiciones se mantengan. Si no es así, tendremos un modelo que no funcionará bien, lo que podremos averiguar con la monitorización, como se explica en el capítulo 8, y las pruebas en producción, como se explica en el capítulo 9.

--- 
7 Steke Bako, Thijs Vogels, Brian McWilliams, Mark Meyer, Jan Novák, Alex Harvill, Pradeep Sen, Tony Derose y Fabrice Rousselle, "Kernel-Predicting Convolutional Networks for Denoising Monte Carlo Renderings", ACM Transactions on Graphics 36, no. 4 (2017): 97, https://oreil.ly/EeI3j; Oliver Nalbach, Elena Arabadzhiy- ska, Dushyant Mehta, Hans-Peter Seidel y Tobias Ritschel, "Deep Shading: Convolutional Neural Networks for Screen-Space Shading", arXiv, 2016, https://oreil.ly/dSspz.

Debido a la forma en que la mayoría de los algoritmos de ML aprender hoy en día, las soluciones de ML brillarán especialmente si su problema tiene las siguientes características adicionales:

**6.Es Repetitivo**
- A los humanos se nos da muy bien el aprendizaje de pocos ejemplos: puedes enseñar a los niños unas cuantas fotos de gatos y la mayoría reconocerá un gato la próxima vez que lo vea. A pesar de los interesantes avances en la investigación del aprendizaje de pocos ejemplos, la mayoría de los algoritmos de ML siguen necesitando muchos ejemplos para aprender un patrón. Cuando una tarea es repetitiva, cada patrón se repite varias veces, lo que facilita su aprendizaje por partes de las máquinas.

**7.- El coste de las predicciones erróneas es barato**

- A menos que el rendimiento de su modelo ML sea del 100% todod el tiempo, lo que es muy poco probable para cualquier tarea significativa, su modelo va a cometer errores. El ML es especialmente adecuado cuando el coste de una predicción errónea es bajo. Por ejemplo, uno de los mayores casos de uso de ML en la actualidad es en los sistemas de recomendación, ya que con estsos sistemas, una mala recomendación suele ser indulgente: el usuario simplemente no hace clic en la recomendación.

Si un error de predicción puede tener consecuencias catastróficas, el ML podría seguir siendo una solución adecuada si, por término medio, los beneficios de las predicciones correctas superan el coste de las predicciones erróneas. Desarrollar coches autoconducidos es un reto porque un error algorítmico puede provocar la muerte. Sin embargo, muchas empresas siguen queriendo desarrollar coches autoconducidos porque tienen el potencial de salvar muchas vidas una vez que los coches autoconducidos sean estadísticamente más seguros que los conductores humanos.

**8.- Es a escala**:
- Las coluciones de ML suelen requerir una inversión inicial no trivial en datos, computación, infraestructura y talento, por lo que tedría sentido que pudiéramos utilizar mucho estas soluciones.

"A escala" significa diferentes cosas para diferentes tareas, pero, en generla, significa hacer muchas predicciones. Por ejemplo, clasificar millones de correros electrónicos al año o predecir a qué departamente deben dirigirse miles de solicitudes de asistencia al día.

Un problema puede parecer una predicción única, pero en realidad es una serie de predicciones. Por ejemplo, un modelo que predice quién ganará las elecciones presidenciales de EEUU parece que solo hace una predicción cada cuatro años, pero en realidad podría estar haciendo predicción cada hora o incluso con más frecuencia porque esa predicción tiene que actualizarse continuamente para incorporar nueva información.

Tener un problema a escala también significa que hay muchos datos que recopilar, lo que resulta útil para entrenar modelos de ML.



**9.- Las pautas cambian constantemente**:

- Las culturas cambian. Cambian los gustos. Las tacnologías cambian. Lo que hoy está de moda, mañana puede estar pasado de moda. Pensamos en la clasificación del spam. Lo que hoy es un príncipe nigeriano, mañana puede ser un escritor vietnamieta angustiado.

Si su problema implica uno o varios patrones que cambian constantemente, las soluciones codificadas como las reglas escritas a mano pueden quedar obsoletas rápidamente. Averigar cómo ha cambiado el paroblema para poder actualiar las reglas escritas a mano puede resultar demasiado caro o imposible. Dado que el ML aprende de los datos, puede actualizar su modelo ML con nuevos datos sin tener que averiguar cómo han cambiado los datos. También es posible configurar su sistema para que se adapte a las distribuciones cambiantes de los datos, un enfoque que discutiremos en la sección "Aprendizaje continuo" en lapágina 264.

La lista de casos de uso puede ser interminable, y crecerá aún más a medida que la adopción del ML madure en el sector. Aunque el ML puede resolver muy bien un subconjunto de problemas, no puede o no debe utilizarse para muchos de ellos. La mayoría de los algoritmos de ML actuales no deberían utilizarse en ninguna de las siguientes condiciones:

- No es ético: Repasaremos un caso práctico en el que el uso de algoritmos de ML puede considerarse poco ético en la sección "Caso práctico I: Sesgo del calificados automático" en la página 341.
- Las coluciones más sencillas sirven. En el Capítulo 6, trataremos las cuatro fases del desarrollo de modelos ML, en las que la primera fase deben ser solucines no ML.
- No es rentable.

Sin embargo, incluso si el ML no puede resolver su problema, podría ser posible dividirlo en componentes ás pequeños  y utilizar el ML para resolver algunos de ellos. por ejemplo, si no puede crear un chatbot que responde a todas las consultas de sus cliente, podría crear un modelo de ML para predecir si una consulta coincide con una de las preguntas más frecuentes. En caso afirmativo, dirigir al cliente a la respuesta. En caso negativo, diríjalo al servicio de atención al cliente.

También me gustaría advertir que no hay que descartar una nueva tecnología porque no sea tan rentable como las tecnologías existentes en este momento. La mayoría de los avances tecnológicos son graduales. Puede que un tipo de tecnología no sea eficiente ahora, pero puede que lo sea con el tiempo y más inversiones. Si espera a que la tecnología demuestre su valía para el resto de la industria antes de lanzarse, puede acabar años o décadas por detrás de sus competidores.