# CAPÍTULO 1

## Visión General de los Sistemas de Aprendizaje Automático

En noviembre de 2016, Google anunció que había incorporado su sistemas de traducción automática neuronal multilingue a Google Translate, lo que supuso uno de los primeros éxitos de las redes neuronales artificiales profundas en producción a escala. Según Google, con esta actualización, la calidad de la traducción mejoró más en un solo salto de lo que habían visto en los 10 años anteriores juntos.

Este éxito del aprendizaje profundo renovó el interés por el aprendizaje automático (ML) en general. Desde entonces, cada vez más empresas han recurrido al aprendizaje automático para resolver sus problemas más complejos. En sólo conco años, el ML se ha abierto camino en casi todos los aspectos de nuestras vidas: cómo accedemos a la información, cómo nos comunicamos, cómo trabajamos, cómo encontramos el amor. La difusión del ML ha sido tan rápida que ya resulta deficil imaginar la vida sin él. Sin embargo, aún quedan muchos más casos de uso del ML por explorar en campos como la sanidad, el transporte, la agricultura e incluso para ayudarnos a comprender el universo.

Mucha gente, cuando oye "sistemas de aprendizaje automático", piensa sólo en los algoritmos de ML que se utilizan, como la regresión logística o los distintos tipos de redes neuronales. Sin embargo, el algoritmo es sólo una pequeña parte de un sistema de ML en producción. El sistema también incluye los requisitos empresariales que sieron origen al proyecto de ML en primer lugar, la interfaz en la que los usuarios y desarrolladores interactúan con su sistema, la pila de datos y la lógica para desarrollar, supervisar y actualizar sus modelos, así como la infraestructura que permite la entrega de esa lógica. La figura 1-1 muestra los diferentes componetes de un sistema de ML y en qué capítulos de este libre se tratarán.

---
1 Mike Schuster, Melvin Johnson y Nikhil Thorat, "Zero-Shot Translation with Google's Multilingual Neural
Machine Translation System", Google AI Blog, 22 de noviembre de 2016, https://oreil.ly/2R1CB.

2 Larry Hardesty, "A Method to Image Black Holes", MIT News, 6 de junio de 2016, https://oreil.ly/HpL2F.


### La relación entre los MLOps y el diseño de sistemas de ML

Ops en MLOps proviene de DevOps, abreviatura de Developments (desarrollo) y Operations (Operaciones). Operacionalizar algo significa ponerlo en producción, lo que incluye desplegarlo, supervisarlo y mantenerlo. MLOps es un conjunto de herramientas y buenas prácticas para poner el ML en producción.

El diseño de sistemas de ML adopta un enfoque de sistemas para los MLOps, lo que significa que considera un sistema de ML de forma holística para garantizar que todos los componentes y sus partes interesadas puedan trabajar juntos para satisfacer los objetivos y requisitos especificados.

![image.png](attachment:image.png)

*Figura 1-1. Diferentes componentes de una sistema de ML. "Algoritmos de ML" es normalmente en lo que piensa la gente cuando dice aprendizaje automático, pero es sólo una pequeña parte de todo el sistema.*

Hay muchos libros excelentes sobre diversos algoritmos de ML. Este libro no trata en detalle ningpun algoritmo específico, sino que ayuda a os lectores a comprender todo el sistema de ML en su conjunto. En otras palabras, el objetivo de este libro es proporcionarle un marco de trabajo para desarrollar la solución que mejor se adapte a su problema, independientemente del algoritmo que termine utilizando. Los algoritmos pueden quedar obsoltos rápidamente, ya que constantemente se desarrollan nuevos algoritmos, pero el marco propuesto en este libro debería seguir funcionando con los nuevos algoritmos.

El primer cappitulo del libro pretende ofrecer una visión general de lo que se necesita para llevar un modelo de ML a la producción. Antes de distucit cómo desarrollar un sistema de ML, es importante plentearse la pregunta fundamental de cuándo no utilizar el ML. Trataremos algunos de los casos de uso más populares del ML para ilustrar este punto.

Despupes de los casos de uso, pasaremos a los retos de desplegar sistemas de ML, y lo haremos comparando el ML en producción con el ML en investigación, así como con el software tradicional. Si has estado en las trincheras del desarrollo de sistemas ML aplicados, puede que ya estés familiarizado con lo que se ha escrito en este capítulo. Sin embargo, si sólo has tenido experiencia con ML en un entorno académico, este capítulo te dará una visión honesta de ML en el mundo real y preparará tu primera aplicación para el éxito.

### Cuándo utilizar el aprendizaje automático

A medida que su adopción en la industria crece rápidamente, el ML ha demostrado ser un poderosa herramienta para una amplia gama de problemas. A pesar de la increíble cantidad de entusiasmo y expectación generados por personas tanto de dentro como de fuera de este campo, el ML no es una herramienta mágica que pueda resolver todos los problemas. Incluso para los problemas que el ML puede resolver, las soluciones de ML pueden no ser las óptimas. Antes de iniciar un proyecto de ML, es posible que desee preguntarse si el ML es necesario o rentable.

Para entender lo que puede hacer el ML, examinemos lo que suelen hacer las soluciones de ML:

*El aprendizaje automático es un método para (1) aprender (2) patrones complejos a partir de (3) datos existentes y utilizar estos patrones para hacer (4) predicciones sobre (5) datos no vistos.*

Analizaremos cada una de estas frases clave en cursiva del marco anterio para comprender sus aplicaciones en los problemas que puede resolver el ML:

**1. Aprender: El sistema tiene capacidad de aprendizaje**
- Una base de datos relacional no es un sistema de ML porque no tiene capacidad de aprendizaje. Se puede establecer explícitamente la relación enyre dos columnas en una base de datos relacional, pero es poco probable que tenga la capacidad de averiguar la relación entre estas dos columnas por sí misma.

Para que un sistema ML aprenda, debe haber algo de lo que aprender. En la mayoría de los casos, los sistemas de ML aprenden de los datos. En el aprendizaje supervisado, basado en partes de entrada y salida de ejemplo, los sistemas de ML aprenden a generar salidas para entradas arbitrarias. Por ejemplo, si desea crear un sistema de ML aprenda a predecir el precio de alquiler de los anuncios de Airbnb, debe proporcionar un conjunto de datos en el que cada entrada sea un anuncio con característis relevantes (metros cuadrados, números de habitaciones, barrio, servicios, valoracón del anuncio, etc.) y la salida asociada sea el precio de alguiler de ese anuncio. Una vez aprendido, este sistema ML debería ser capaz de predecir el precio de un nuevo anuncio dadas su características.

---
3 No he preguntado si el ML es suficiente porque la respuesta siempre es no.

**2. Patrones complejos: Hay patrones que aprender, y son complejos**:

- Las coluciones de ML sólo son útiles cuando hay patrones que aprender. La gente sensata no invertiría dinero en construir un sistema de ML para predecir el próximo resultado de un dado justo, porque no hay ningún en cómo se generan estos resultados. Sin embargo, hay patrones en cómo se valoran las acciones, y por lo tanto las empresas han invertido miles de millenos de dólares en la construcción de sistemas de ML para aprender esos patrones.

La existenciade un patrón puede no ser obvia, o si existen patrones, su conjunto de datos o algoritmos de ML pueden no ser suficientes para capturarlos. Por ejemplo, podría haber un patrón en la forma en que los tuits de Elon Musj afectan a los precios de las criptomonedas. Sin embargo, no lo sabrás hasta que hayas entrenado y evaluado rigurosamente tus modelos de ML con sus tuits. Incluso si todos tus modelos fallan a la hora de hacer predicciones razonables sobre los precios de las criptomonedas, no significa que no haya un patrón.

Piense en un sitio wen como Airbnb con muchos anuncios de casas; cada anuncio viene con un código postal. Si desea clasificar los anuncios por estados, no necesitará un sistema ML. Dado que el patrón es sencillo (cada código postal corresponde a un estado conocido), basta con utilizar una tabla de búsqueda.

La relación entre el precio de un alquiler y todas sus características sigue un patrón mucho más complejo, que sería muy dificil especificar manualmente. ML es una buena solución para esto. En lugar de decirle a su sistema cómo calcular el precio a partir de una lista de caracter´sitcias, puede proporcionar precios y características, y dejar que su sistema ML descubra el patrón. En la figura 1-2 se muestra la diferencia entre las soluciones de ML y la solución de tabla de consulta, así como las soluciones generales de software tradicional. Por este motivo, el ML también se denomina Software 2.0.

El ML ha tenido mucho éxito en tareas con patrones complejos, como la detección de objetos y el reconocimiento del habla. Lo que es complejo para las maquinas es diferente de lo que es complejo para los humanos. Muchas tareas difíciles para los humanos son fáciles para las máquinas, como elevar un número a la potencia de 10. Por otro lado, muchas tareas fáciles para los humanos pueden ser difíciles para las máquinas, como decidir si hay un gato en una foto.

---
4 Los patrones son distintos de las distribuciones. Conocemos la distribución de los resultados de un dado
justo, pero no hay patrones en la forma en que se generan los resultados.

5 Andrej Karpathy, "Software 2.0", Medium, 11 de noviembre de 2017, https://oreil.ly/yHZrE.

![image.png](attachment:image.png)

<small>
Figura 1-2. En lugar de requerir patrones especificados a mano para calcular los resultados, las soluciones de ML aprenden patrones a partir de las entradas y salidas
</small>

**3.Datos Existentes: Se dispone de datos o es posible recopilarlos**.

- Como el ML aprende de los datos, tiene que haber datos de los que aprender. Es divertidor pensar en construir un modelo para predecir cuántos impuestos debe pagar una persona al año, pero no es posible a menos que se tenga acceso a los datos discales y de ingresos de una gran población.

En el contexto del aprendizaje de tiro cero (a veces conocido como aprendizaje de datos cero), es posible que un sistema de ML haga buenas predicciones para una tarea son haber sido entrenado con datos para esa tarea. Sin embargo, este sistema ML fue entrenado previamente con datos para otras tareas, a menudo relacionadas con la tarea en cuestión. Por tanto, aunque el sistema no necesite datos para aprender de la tarea en cuestión, sigue necesitando datos para aprender.

También es posible lanzar un sistema de ML sin datos. Por ejemplo, en el contexto del aprendizaje continuo, los modelos de ML pueden desplegarse con haber sido entrenados con ningún dato, pero aprenderán de los datos entrantes en producción. Sin embargo, servir modelos insuficientemente entrenados a los usuarios conlleva ciertos riesgos, como una mala experiencia del cliente.

Sin datos y sin un aprendizaje continuo, muchas empresas siguen un planteamiento "fake-it-il-you make it": lanzar un producto que sirva para predicciones hechas por humanos, en lugar de modelos ML, con la esperanza de utilizar los datos generados para entrenar modelos ML más adelante.

---
<small>
6 Repasaremos el aprendizaje en línea en el capítulo 9.
</small>

---

**4.Predicciones: Es un problema de predicción**

- Los modelos de ML hacen predicciones, por lo que sólo pueden rsolver problemas que requieran respuestas predictivas. El ML puede ser especialmente atractivo cuando puede beneficiarse de una gran cantidad de predicciones baratas per aproximadas. En ingles "predecir" significa "estimar un valor en el futuro". Por ejemplo, ¿qué tiempo hará mañana? ¿Quién ganará la Super Bowl este año? ¿Qué película querrá ver un usuario a continuación?.

A medida que las máquinas predictivas (por ejemplo, los modelos de ML) se vuelven más eficaces, cada vez más problemas se reformulan como problemas predictivos. Cualquiera que sea tu pregunta, siempre puedes formularla como: "¿Cuál sería la respuesta a esta pregunta?", independientemente de si se trata de algo el futuro, del presente o incluso del pasado.

Los problemas de cálculo intensivo son una de las clases de problema que se han replanteado con mucho éxito como predictivos. En lugar de calcular el resultado exacto de un proceso, que podría ser incluso más costoto computacionalmente y requerir más tiempo que el ML, se puede plantear el problema como "¿Cómo sería el resultado de este proceso? "¿Cómo sería una aproximación del resultado exacto, pero a menudo es suficientemente bueno. Se puede ver mucho de esto en las representaciones gráficas, como la eliminación de ruido de imágenes y el sombreado en el espacio de la pantalla.

**5. Datos no vistos: Los datos no vistos comparten patrones con los datos de entrenamiento**

- Los patrones que tu modelo aprende de lso datos existentes solo son útiles si los datos no vistos también comparten estos patrones. Un modelo para predecir si una aplicación se descargara en Navidad de 2020 no funcionará muy bien si se entrena con datos de 2008, cuando la aplicación más popular de la App Store era Koi Pond. ¿Qué es Koi Pond? Exacto.

En términos técnicos, significa que los datos no vistos y los datos de entrenamiento deben proceder de distribuciones similares. Usted se preguntará: "Si los datos no se ven, ¿cómo sabemos de qué distribución proceden? No lo sabemos, pero podemos hacer suposiciones, por ejemplo, podemos suponer que los comportamientos de los usuarios mañana no serán muy diferentes de los comportamientos de los usuarios hoy y esperar que nuestras suposiciones se mantengan. Si no es así, tendremos un modelo que no funcionará bien, lo que podremos averiguar con la monitorización, como se explica en el capítulo 8, y las pruebas en producción, como se explica en el capítulo 9.

--- 
<small>
7 Steke Bako, Thijs Vogels, Brian McWilliams, Mark Meyer, Jan Novák, Alex Harvill, Pradeep Sen, Tony Derose y Fabrice Rousselle, "Kernel-Predicting Convolutional Networks for Denoising Monte Carlo Renderings", ACM Transactions on Graphics 36, no. 4 (2017): 97, https://oreil.ly/EeI3j; Oliver Nalbach, Elena Arabadzhiy- ska, Dushyant Mehta, Hans-Peter Seidel y Tobias Ritschel, "Deep Shading: Convolutional Neural Networks for Screen-Space Shading", arXiv, 2016, https://oreil.ly/dSspz.
</small>

---

Debido a la forma en que la mayoría de los algoritmos de ML aprender hoy en día, las soluciones de ML brillarán especialmente si su problema tiene las siguientes características adicionales:

**6.Es Repetitivo**
- A los humanos se nos da muy bien el aprendizaje de pocos ejemplos: puedes enseñar a los niños unas cuantas fotos de gatos y la mayoría reconocerá un gato la próxima vez que lo vea. A pesar de los interesantes avances en la investigación del aprendizaje de pocos ejemplos, la mayoría de los algoritmos de ML siguen necesitando muchos ejemplos para aprender un patrón. Cuando una tarea es repetitiva, cada patrón se repite varias veces, lo que facilita su aprendizaje por partes de las máquinas.

**7.- El coste de las predicciones erróneas es barato**

- A menos que el rendimiento de su modelo ML sea del 100% todod el tiempo, lo que es muy poco probable para cualquier tarea significativa, su modelo va a cometer errores. El ML es especialmente adecuado cuando el coste de una predicción errónea es bajo. Por ejemplo, uno de los mayores casos de uso de ML en la actualidad es en los sistemas de recomendación, ya que con estsos sistemas, una mala recomendación suele ser indulgente: el usuario simplemente no hace clic en la recomendación.

Si un error de predicción puede tener consecuencias catastróficas, el ML podría seguir siendo una solución adecuada si, por término medio, los beneficios de las predicciones correctas superan el coste de las predicciones erróneas. Desarrollar coches autoconducidos es un reto porque un error algorítmico puede provocar la muerte. Sin embargo, muchas empresas siguen queriendo desarrollar coches autoconducidos porque tienen el potencial de salvar muchas vidas una vez que los coches autoconducidos sean estadísticamente más seguros que los conductores humanos.

**8.- Es a escala**:
- Las coluciones de ML suelen requerir una inversión inicial no trivial en datos, computación, infraestructura y talento, por lo que tedría sentido que pudiéramos utilizar mucho estas soluciones.

"A escala" significa diferentes cosas para diferentes tareas, pero, en generla, significa hacer muchas predicciones. Por ejemplo, clasificar millones de correros electrónicos al año o predecir a qué departamente deben dirigirse miles de solicitudes de asistencia al día.

Un problema puede parecer una predicción única, pero en realidad es una serie de predicciones. Por ejemplo, un modelo que predice quién ganará las elecciones presidenciales de EEUU parece que solo hace una predicción cada cuatro años, pero en realidad podría estar haciendo predicción cada hora o incluso con más frecuencia porque esa predicción tiene que actualizarse continuamente para incorporar nueva información.

Tener un problema a escala también significa que hay muchos datos que recopilar, lo que resulta útil para entrenar modelos de ML.



**9.- Las pautas cambian constantemente**:

- Las culturas cambian. Cambian los gustos. Las tacnologías cambian. Lo que hoy está de moda, mañana puede estar pasado de moda. Pensamos en la clasificación del spam. Lo que hoy es un príncipe nigeriano, mañana puede ser un escritor vietnamieta angustiado.

Si su problema implica uno o varios patrones que cambian constantemente, las soluciones codificadas como las reglas escritas a mano pueden quedar obsoletas rápidamente. Averigar cómo ha cambiado el paroblema para poder actualiar las reglas escritas a mano puede resultar demasiado caro o imposible. Dado que el ML aprende de los datos, puede actualizar su modelo ML con nuevos datos sin tener que averiguar cómo han cambiado los datos. También es posible configurar su sistema para que se adapte a las distribuciones cambiantes de los datos, un enfoque que discutiremos en la sección "Aprendizaje continuo" en lapágina 264.

La lista de casos de uso puede ser interminable, y crecerá aún más a medida que la adopción del ML madure en el sector. Aunque el ML puede resolver muy bien un subconjunto de problemas, no puede o no debe utilizarse para muchos de ellos. La mayoría de los algoritmos de ML actuales no deberían utilizarse en ninguna de las siguientes condiciones:

- No es ético: Repasaremos un caso práctico en el que el uso de algoritmos de ML puede considerarse poco ético en la sección "Caso práctico I: Sesgo del calificados automático" en la página 341.
- Las coluciones más sencillas sirven. En el Capítulo 6, trataremos las cuatro fases del desarrollo de modelos ML, en las que la primera fase deben ser solucines no ML.
- No es rentable.

Sin embargo, incluso si el ML no puede resolver su problema, podría ser posible dividirlo en componentes ás pequeños  y utilizar el ML para resolver algunos de ellos. por ejemplo, si no puede crear un chatbot que responde a todas las consultas de sus cliente, podría crear un modelo de ML para predecir si una consulta coincide con una de las preguntas más frecuentes. En caso afirmativo, dirigir al cliente a la respuesta. En caso negativo, diríjalo al servicio de atención al cliente.

También me gustaría advertir que no hay que descartar una nueva tecnología porque no sea tan rentable como las tecnologías existentes en este momento. La mayoría de los avances tecnológicos son graduales. Puede que un tipo de tecnología no sea eficiente ahora, pero puede que lo sea con el tiempo y más inversiones. Si espera a que la tecnología demuestre su valía para el resto de la industria antes de lanzarse, puede acabar años o décadas por detrás de sus competidores.

### Casos Prácticos de Aprendizaje Automático

El ML se utiliza cada vez más en aplicaciones empresariales y de consumo. Desde mediado de la década de 2010, se ha producido una explosión de aplicaciones qu aprovechan el ML para ofrecer a los consumidores serviciso superiores o antes imposibles.

Con la explosión de información y servicios, nos habría resultado muy difícil encontrar lo que queremos sin la ayuda del ML, manifiesta en un motor de búsqueda o en un sistema de recomendación. Cuando visitas un sitio web como Amazon o Netflix, se te rcomiendan los artículos que, según las predicciones, más se ajustan a tus gustos. Si no te gusta ninguna de las recomendaciones, es posible que quieras buscar artículos específicos, y es probable que los resultados de tu búesqueda estpen potenciados por ML.

Si tiene un teléfono inteligente, es probable que el ML ya le esté ayudando en muchas de sus actividades diarias. Escribir en el teléfono es más fácil con la escritura predictiva, un sistema de inteligencia artificial que le sugiere loq eu quiere decir a continuación. Un sistema de inteligencia artificila puede funcionar en tu aplicación de edición fotográfica para sugerirte la mejor manera de mejorar tus fotos. Puedes autenticar tu teléfono utilizando tu huella dactilar o tu cara, lo que requiere un sistema de ML para predecir si una huella dectilar o una cara coincide con la tuya.

El caso de uso del ML que me atrajo a este campo fue la traducción automática, que traduce automáticamente de un idioma a otro. Tiene el potencial de permitir que personas de diferentes culturas se comuniquen entre sím borrando la barrera del idioma. Mis padres no hablan inglés, pero gracias a Google Translate ahora pueden leer lo que escribo y hablar con mis amigos que no hablan vietnamita.

ML está cada vez más presente en nuestros hogares con asistentes personales inteligentes como Alexa y Google Assistent. Las cámaras de seguridad inteligentes pueden avisarte cuando tus mascotas salen de caso o si tienes un invitado no deseado, A un amigo mío le preocupaba que su madre anciana viviera sola, si se cae, no hay nadie para ayudarla a levantarse, así como confió en un sistema de minitorización de la salud en el hogar que predice si alguien se ha capido en casa.

Aunque el mercado de las aplicaciones de ML para consumidores está en auge, la mayorpia de los casos de uso de ML siguen estando en el mundo empresarial. Las aplicaciones empresariales de ML tienden a tener requisitos y consideraciones muy diferentes de las aplicaciones de consumo. Hay muchas excepciones, pero en la mayoría de los casos, las aplicaciones empresariales pueden tener requisitos de `precisión` más estructos pero ser más ildulgentes con los requisitos de latencia. Por ejemplo, mejorar la precisión de una sistema de reconocimiento de voz del 95% al 95,5% puede no ser perceptible para la mayoría de los consumidores, pero mejorar la eficiencia de un sistema de asignación de recursos en sólo un 0.1% puede ayudar a una empresa como Google o General Motors a ahorrar millenos de dólares. Al mismo tiempo, una latencia de un segundo puede hacer que un consumidor se distriga y abra otra cosa, pero los usuarios empresariales pueden ser más tolerantes con una latencia alta. Para las personas interesadas en crear empresas a partir de aplicaciones e ML, las aplicaciones de consumo pueden ser más fáciles de distribuir, pero mucho más difíciles de rentabilizar. Sin embargo, la mayoría de los casos de uso empresarial no son obvios a menos que te los hayas encontrado tú mismo.

Según la encuesta de Algorithmia sobre el estado del aprendizaje automático en las empresas en 2020, las aplicaciones de ML en las empresas son diversas y sirven tanto para casos de uso interno (reducción de costos, generación de información e inteligencia de clientes, automatización de procesos internos) como para casos de uso externo (mejora de la experiencia del cliente, retención de clientes, interacción con los clientes), como se muestra en la figura 1-3.

![image.png](attachment:image.png)

<small>Figura 1-3. Estado del aprendizaje automático empresarial en 2020. Fuente: Adaptado de una imagen de Algorithmia</small>

<small>8 "2020 State of Enterprise Machine Learning", Algorithmia, 2020, https://oreil.ly/wKMZB.
</small>

La *detección de fraude* es una de las aplicaciones más antiguas del ML en el mundo empresarial. Si su producto o servicio implica transacciones de algún valor, será susceptible a fraude. Al aprovechar las soluciones de ML para la detección de anomalías, puede disponer de sistemas que aprendan de las transacciones fraudulentas históricas y predigan si uns transacción futura es fraudulenta.

Decidir cuánto cobrar por su producto o servicio es probablemente una de las decisiones empresariales más difíciles; ¿por qué no dejar que ML lo haga por usted?. La optimizacipon de *precios* es el proceso de estimar un precio en un periodo de tiempo determinado para maximizar una función objetivo definida, como el margen, los ingresos o la tasa de crecimiento de la empresa. La optimización de precios basada en ML es más adecuada para casos con un gran número de transacciones en las que la demanda fluctúa y los consumidores están dispuestos a pagar un precio dinámico, por ejemplo anuncios en Internet, billetes de avión, reservas de alojamientos, viajes compartidos y eventos.

Para dirigir una empresa, es importante poder prever la demanda de los clientes para poder preparar un presupuesto, almacenar existencias, asignar recursos y actualizar la estrategia de precios. Por ejemplo, si tienes un tienda de comestibles, tienes que tener existencias suficientes para que los clientes encuentren lo que buscan, pero sin excderte, porque si lo haces, los comestibles podrían estropearse y perderías dinero.

Adquirir un nuevo usuario es caro. En 2019, el coste medio para que una aplicación adquiera un usuario que realizará una compra dentro de la aplicación es de 86.61 dólar. El coste de adquisición de Lyft se estima en 158 dóleres/usuario. Este coste es mucho mayor que los clientes empresariales. Los costes de captación de clientes son considerados por los inversores como una "asesino de startips". Reducir los costes de captación de clientes en una pequeña cantidad puede suponer un gran aumento de los beneficios. Esto puede lograrse identificando mejor a los clientes potenciales, mostrando anuncios mejor orientados, ofreciendo descuentos en el momento adecuado, etc., todas ellas tareas adecuadas para el ML.

Después de haber gastado tanto dinero en captar a un cliente, sería una pena que se fuera. Se calcula que el coste de captar a un nuevo usuario es entre 5 y 25 veces más caro que retener a uno ya existente. La *predicción de la pérdida de clientes* consisre en predecir cuándo un cliente concreto está a punto de dejar de utilizar sus productos o servicios para poder tomar las medidas adecuadas para recuperarlo. La predicción de la pérdida de clientes puede utilizarse no sólo para los clientes, sino también para los empleados.


---
<small>

9 "Costes medios de adquisición de usuarios de apps móviles en todo el mundo de septiembre de 2018 a agosto de 2019, por acción de usuario y sistema operativo", Statista, 2019, https://oreil.ly/2pTCH.

10 Jeff Henriksen, "Valuing Lyft Requires a Deep Look into Unit Economics", Forbes, 17 de mayo de 2019, https://oreil.ly/VeSt4.

11 David Skok, "El asesino de las startups: El coste de adquisición de clientes", Para emprendedores, 2018, https://oreil.ly/L3tQ7.

12 Amy Gallo, "The Value of Keeping the Right Customers", Harvard Business Review, 29 de octubre de 2014, https://oreil.ly/OlNkl.</small>

---

Para *evitar que los clientes se marchen*, es importante mantenerlos contentos atendiendo sus preocupaciones en cuanto surgen. La clasificación automatizada de las solicitudes de asistencia pueden ayudar a conseguirlo. Antes, cuando un cliente abría un ticket de soporte o enviaba un correo electrónico, primero había que procesarlo y luego pasarlo por diferentes departamentos hasta que llegaba a la bandeja de entrada de alguien que podía atenderlo. En cambio, un sistema de ML puede analizar el contenido del ticket y predecir a dónde debe ir, lo que puede acortar el tiempo de respuesta y mejorar la satisfacción del cliente. También puede utilizarse para clasificar los tickets internos de TI.

Otro caso popular de uso del ML en la empresa es la *supervisión de la marca*. La marca es un activo valioso de una empresa. Es importante controlar cómo percibe la marca el público y sus clientes. Es posible que desee saber cuándo, dónde y cómo se menciona, tanto explícitamente (por ejemplo, cuando alguien menciona "Google") como implícitamente (por ejemplo, cuando alguien dice "el gigante de las búsquedas), así como el sentimiento asociado a ella. Si de repente se produce un aumento del sentimiento negativo en las menciones de tu marca, es posible que quieras abordarlo lo antes posible. El *análisis del sentimiento* es una tarea típica de ML.

Un conjunto de casos de uso de ML que ha generado mucho entusiamos recientemente es el de la atención sanitaria. Existen sistemas de ML capaces de detectar el cáncer de piel y diagnosticar la diabetes. Aunque muchas aplicaciones de atención sanitaria están dirigidas a los consumidores, debido a sus estrictos requsitios de precisión y privacidad, suelen ofrecerse a través de un proveedor de atención sanitaria, como un hospital o utilizarse para ayudar a los médicos a proporcionar diagnósticos.

### Comprender los sistemas de ML

Comprender los sistemas de ML será útil para diseñarlos y desarrollarlos. En esta sección, repasaremos en qué se diferencian los sistemas de ML tanto del ML en invetigación (o como se suele enseñar en las escuelas) como del software tradicional, lo que motiva la necesidad de este libro.

### Aprendizaje Automático en la Investigación y en la Producción

Como el uso de ML en la industria es todavía bastante nuevo, la mayoría de las personas con experiencia en ML la han adquirido  través del mundo académico: tomando cursos, investigando, leyendo artículos académicos. Si esta es su experiencia, puede que le resulte difícil comprender los retos que plantea el despliegue de sistemas de ML en el mercado y enfrentarse a una conjunto abrumador de soluciones para estos retos. El ML en producción es muy diferente del ML en investigación. La tabla 1-1 muestra cincp de las principales diferencias.

---
<small>
13 Marty Swant, "Las 20 marcas más valiosas del mundo", Forbes, 2020, https://oreil.ly/4uS5i.
</small>

---

<small>
Cuadro 1-1. Principales diferencias entre el ML en investigación y el ML en producción.
</small>

![image.png](attachment:image.png)

### Difenretes Partes Interesadad y Requisitos

Las personas que participan en un proyecto de investigación y clasificación suelen coincidir en un único objetivo. El objetivo más comun es el *rendimiento del modelo*: **desarrollar un modelo que obtenga los mejores resultados en conjuntos de datos de referencia**. Para conseguir una pequeña mejora en el rendimiento, los investigacores suelen recurrir a técnicas que hacen que los modelo sean demasiado complejos para ser útiles.

Hay muchas partes implicada en la puesta en producción de un sistema de ML. Cada parte interesada tiene sus propios requisitos. Tener requisitos diferentes, a menudo contradictorios, puede dificultar el diseño, el desarrollo y la selección de un modelo de ML que satisfaga todos los requisitos.

Pensemos en una aplicación móvil que recomienda restaurantes a los usuarios. La aplicación gana dinero cobrando a los restaurantes una comisión de servicio del 10% por cada pedido. Esto significa que los pedidos caros dan más dinero a la aplicación que los baratos. En el proyecto participan ingenieron de ML, vendedores, jefes de producto, ingenieros de infraestructura y un gerente:

* **INGENIEROS DE ML**:
    Quiere un modelo que recomiende los restaurantes en los que es más probable que los usuarios pidan, y creen que pueden hacero utilizando un modelo más complejo con más datos.

* **EQUIPO DE VENTAS**:
    Quiere un modelo que recomiende los restaurantes más caros, ya que estos restaurantes aportan más comisiones de servicios.

* **EQUIPO DE PRODUCTOS**:
    Observa que cada aumento de la latencia provoca un descenso de los pedidos a través del servicio, por lo que quiere un modelo que pueda devolver los restaurantesrecomendados en menos de 100 milisegundos.

* **EQUIPO DE LA PLATAFORMA ML**:
    A medida que crece el tráfico, este equipo se ha despertado en mitad de la noche debido a problemas con el escalado de sus sitemas actual, por lo que quieren aplazar las actualizaciones de los modelos para dar prioridad a la mejora de la plataforma ML.

* **DIRECTOR**:
    Quiere maximizar el margen, y una forma de lograrlo podría ser prescindir del equipo de ML.

Recomendar los restaurantes en los que es más probable que los usuario hagan cloc y recomendar los restaurantes que más dinero aportarán a la aplicación son dos objetivos diferentes, y en la sección "Desacoplar objetivos" en la página 41 hablaremos de cómo desarrollar un sistema de ML que satisfaga objetivos diferentes. Spoiler: desarrollaremos un modelo para cada objetivo y combinaremos sus predicciones.

Imaginemos por ahora que tenemos dos modelos diferentes. El modelo A es el que recomienda los restaurantes en los que es más probable que los usuarios hagan clic, y el modelo B es el que recomienda los restaurantes que más dinero reportarán a la aplicación. A y B pueden ser modelos diferentes. ¿Qué modelo se debe ofrecer a los usuarios? Para complicar la decisión, ni A ni B cumplen el requisito establecido por el equipo de productos: no pueden devolver recomendaciones de restaurantes en menos de 100 milisegundo.

Al desarrollar un proyecto de ML, es importante que los ingenieros entiendan los requisitos de todas las partes implicadas y lo estricto que son. Por ejemplo, si poder ofrecer recomendaciones en 100 milisegundos es un requisito imprescindible, la empresa ha descubierto que si el modelo tarda más de 100 milisegundo en recomendar restaurantes, el 10% de los usuarios perderá la paciencia y cerrará la aplicación, ni el modelo A ni el modelo B funcionarán. Sin embargo, si es sólo un requisito "agradable de tener", puede que quieras considerar el modelo A o el modelo B.

El hecho de que los requisitos de producción sean distintos de los de investigación es una de las razones por las que los proyectos de investigación de éxito no siempre se utilizan en producción. Por ejemplo, el `ensamblaje` es una técnica popular entre los ganadores de muchos concurso de ML, incluido el famoso premio Netflix de una millón de dólares y sin embargo no se utiliza mucho en producción. El *ensamblaje combina "múltiples algoritmos de aprendizaje para obtener un rendimiento predictivo mejor que el que podría obtenerse de cualquiera de los algoritmos de aprendizaje constituyentes por sí solos"*. Aunque puede proporcionar a su sistema de ML una pequeña mejora de rendimiento, el ensamblaje tiende a hacer que un sistema sea demasiado complejo para ser útil en producción, por ejemplo más lentos para hacer predicciones o más difíciles de interpretar los resultados. En la sección "Ensembles", en la página 156, hablaremos más a fondo de los ensembles.

En muchas tareas, una pequeña mejora del rendimiento puede suponer un enorme aumento de los ingresos o un ahorro de costos. Por ejemplo, una mejora del 0.2% en el porcentaje de clics de un sistema de recomendación de productos puede suponer un aumento de millones de dólares en los ingresos de un sitio de comercio electónico. Sin embargo, para muchas tareas, una pequeña mejora puede no ser perceptible para los usuarios. Para el segundo tipo de tareas, si un modelo sencillo puede hacer un trabajo razonable, los modelos complejos deben rendir mucho más para justificar su complejidad.

### Críticas a las Tablas de Clasificación ML (LeaderBoards)

En los últimos años, ha habido muchas críticas a las tablas de clasificación de ML, tanto competiciones como Kaggle como tablas de clasificación de investigación como ImageNet o GLUE.

Un argumento obvio es que en estas competiciones muchos de los pasos difíciles necesarios para construir sistemas de ML ya están hechos [por lo que no reflejan el trabajo real en producción].

Un argumento menos obvio es que, debido al escenario de pruebas de hipótesis múltiples que se produce cuando hay varios equipos realizando pruebas con el mismo conjunto de pruebas de retención, un modelo puede obtener mejores resultados que el resto simplemente por casualidad. [Algunos pueden obtener mejores resultados solo por azar, esto es debido a que se realizan pruebas repetidas sobre los mismos datos].

El desajuste de intereses entre investigación y producción ha sido advertido por los investigadores. En un documento de EMNLP 2020, Ethayarajh y Jurafky sostienen que los puntos de referencia han contribuido a impulsar los avances en el procesamiento del lenguaje antural (PLN) al incentivar la creación de modelos más precisos a expensas de otras cualidades valoradas por los profesionales, como la capacidad, la equidad y la eficiencia energética.

*Las tablas de clasificación son útiles, pero no deben confundirse con una evaluación completa ni con éxito real en el mundo real*

---
<small>
Nota: Las tablas de clasificación o ´leaderboards´, son tablas de competiciones como Kaggle que clasifican modelos en un ranking, de mejor a peor. Asignan una posición a cada modelo segpun una métrica (accuracy, F1, BLEU, etc). Funcionan igual que una tabla deportiva, quién va primero, segundo o tercero. Por ejemplo, En Kaggle, los modelos se ordenan según su puntaje. En ImageNet o GLUE, los modelos se publican en una lista ordenada por desempeño. Esto conlleva a que los investigadores optimicen solo para subir en el ranking o se priorice una métrica específica, aunque no represente el uso real.
</small>

---

### Prioridades Informáticas

Al diseñar un sistema de ML, las personas que no lo han implementado suelen cometer el error de centrar demasiado en la parte de desarrollo del modelo y no lo suficiente en la parte de implementación y mantenimiento del mismo.

Durante el proceso de desarrollo del modelo, es posible que se entrenen muchos modelos diferentes y que cada modelo pase varias veces por los datos de entrenamiento. A continuación, cada modelo entrenado genera predicciones sobre los datos de validación una vez para informar de las puntuaciones. Los datos de validación suelen ser much más pequeños que los datos de entrenamiento. Durante el desarrollo del modelo, el entrenamiento es el cuello de botella. Sin embargo, una vez desplegado el modelo, su trabajo consiste en generar predicciones, por lo que la inferencia es el cuello de botella. La investigación suele priorizar la formación rápida, mientras que la producción suele priorizar la inferencia rápida.

---
<small>
Nota: Inferencia es el proceso de usar un modelo ya entrenado para generar predicciones
- Entrenamiento --> Aprender los parámetros del modelo.
- Inferencia --> Usar esos parámetros para predecir. 

En este contexto nos referimos a inferencia como la ejecución del modelo en producción para responder solicitudes reales.

Ejemplo: 
- Un usuario envía datos --> El modelo responde.
- Una API recibe un request --> Devuelve un predicción.
- Un sistema procesa eventos --> Genera outputs.
</small>

---

Un corolario de esto es que la investigación prioriza el alto rendimiento mientras que la producción prioriza la baja latencia. En caso de que necesite refrescar la información, la `latencia` *se refiere al tiempo que transcurre desde que se recibe una consulta hasta que se devuelve el resultado*. El `rendimiento` *hace referencia al número de consultas que se procesan en un periodo de tiempo específico*. 

### Choque Terminológico

Pagiina: 36