## El panorama del aprendizaje automático

No hace mucho, si hubieras cogido el teléfono y le hubieras preguntado el camino a casa, te habría ignorado y la gente se habría cuestionado tu cordura. Pero el aprendizaje automático ya no es ciencia ficción: miles de millones de personas lo utilizan cada día. Y lo cierto es que existe desde hace décadas en algunas aplicaciones especializadas, como el reconocimiento óptico de caracteres (OCR). La primera aplicación de ML que realmente se generalizó, mejorando la vida de cientos de millones de personas, arrasó allá por los años 90: el filtro de spam. No es exactamente un robot autoconsciente, pero técnicamente se puede considerar aprendizaje automático: ha aprendido tan bien que rara vez es necesario marcar un correo electrónico como spam. Le siguieron centenares de aplicaciones de ML que ahora impulsan silenciosamente cientos de productos y funciones que usted utiliza habitualmente: indicaciones de voz, traducción automática, búsqueda de imágenes, recomendaciones de productos y muchas más.

¿Dónde empieza y dónde acaba el aprendizaje automático? ¿Qué significa exactamente que una máquina aprenda algo? Si descargo una copia de todos los artículos de Wikipedia, ¿ha aprendido realmente algo mi ordenador? ¿De repente es más inteligente? En este capítulo empezaré aclarando qué es el aprendizaje automático y por qué puede interesarte utilizarlo.

Luego, antes de lanzarnos a explorar el continente del aprendizaje automático, echaremos un vistazo al mapa y conoceremos las principales regiones y los hitos más notables: aprendizaje supervisado frente a aprendizaje no supervisado y sus variantes, aprendizaje en línea frente a aprendizaje por lotes, aprendizaje basado en instancias frente a aprendizaje basado en modelos. A continuación, veremos el flujo de trabajo de un proyecto típico de aprendizaje automático, debatiremos los principales retos a los que puede enfrentarse y veremos cómo evaluar y ajustar un sistema de aprendizaje automático.

Este capítulo introduce muchos conceptos fundamentales (y jerga) que todo científico de datos debería conocer de memoria. Será una visión general de alto nivel (es el único capítulo sin mucho código), todo bastante sencillo, pero mi objetivo es asegurarme de que todo te quede meridianamente claro antes de continuar con el resto del libro. Así que tómate un café y empecemos.

## ¿Qué es el aprendizaje automático?
El aprendizaje automático es la ciencia (y el arte) de programar ordenadores para que puedan
aprender de los datos.

He aquí una definición un poco más general:

[El aprendizaje automático es el] campo de estudio que da a los ordenadores la capacidad de aprender sin ser programados explícitamente.
-Arthur Samuel, 1959

Y otra más orientada a la ingeniería
Se dice que un programa informático aprende de la experiencia E con respecto a alguna tarea T y alguna medida de rendimiento P, si su rendimiento en T, medido por P, mejora con la experiencia E.
-Tom Mitchell, 1997

Su filtro antispam es un programa de aprendizaje automático que, a partir de ejemplos de correos spam (marcados por los usuarios) y ejemplos de correos normales (no spam, también llamados "ham"), puede aprender a marcar el spam. Los ejemplos que el sistema utiliza para aprender se denominan conjunto de entrenamiento. Cada ejemplo de entrenamiento se denomina instancia (o muestra) de entrenamiento. La parte de un sistema de aprendizaje automático que aprende y realiza predicciones se denomina modelo. Las redes neuronales y los bosques aleatorios son ejemplos de modelos.

En este caso, la tarea T es marcar el spam de los nuevos correos electrónicos, la experiencia E son los datos de entrenamiento y hay que definir la medida de rendimiento P; por ejemplo, se puede utilizar la proporción de correos electrónicos clasificados correctamente. Esta medida de rendimiento se denomina precisión y se utiliza a menudo en tareas de clasificación.

Si se descarga una copia de todos los artículos de Wikipedia, el ordenador tendrá muchos más datos, pero no mejorará de repente en ninguna tarea. Esto no es aprendizaje automático.

## ¿Por qué utilizar el aprendizaje automático?
Considere cómo escribiría un filtro de spam utilizando técnicas de programación tradicionales (Figura 1-1):

1. En primer lugar, examinaría el aspecto que suele tener el spam. Puede que observe que algunas palabras o frases (como "4U", "tarjeta de crédito", "gratis" y "increíble") suelen aparecer mucho en el asunto. Quizá también observes algunos otros patrones en el nombre del remitente, el cuerpo del correo electrónico y otras partes del mismo.
2. Escribiría un algoritmo de detección para cada uno de los patrones que observara, y su programa marcaría los correos electrónicos como spam si se detectaran varios de estos patrones.
3. 3. Probaría su programa y repetiría los pasos 1 y 2 hasta que fuera lo suficientemente bueno como para lanzarlo.
para lanzarlo.
![image.png](attachment:image.png)

Como el problema es difícil, es probable que su programa se convierta en una larga lista de reglas complejas, muy difíciles de mantener.

En cambio, un filtro de spam basado en técnicas de aprendizaje automático aprende automáticamente qué palabras y frases son buenas predictoras de spam detectando patrones de palabras inusualmente frecuentes en los ejemplos de spam en comparación con los ejemplos de spam (Figura 1-2). El programa es mucho más corto, fácil de mantener y probablemente más preciso.
![image.png](attachment:image.png)

¿Qué pasa si los spammers se dan cuenta de que todos sus correos que contienen "4U" están bloqueados? Podrían empezar a escribir "For U" en su lugar. Un filtro de spam que utilice técnicas de programación tradicionales tendría que actualizarse para marcar los mensajes "Para U". Si los spammers siguen eludiendo su filtro de spam, tendrá que seguir escribiendo reglas nuevas para siempre.

En cambio, un filtro de spam basado en técnicas de aprendizaje automático detecta automáticamente que "Para U" se ha vuelto inusualmente frecuente en el spam marcado por los usuarios, y empieza a marcarlos sin que usted intervenga (Figura 1-3).
![image.png](attachment:image.png)

Otro campo en el que brilla el aprendizaje automático es el de los problemas demasiado complejos para los enfoques tradicionales o que carecen de algoritmo conocido. Por ejemplo, el reconocimiento de voz. Supongamos que queremos empezar por lo sencillo y escribir un programa capaz de distinguir las palabras "uno" y "dos". Puede que observe que la palabra "dos" empieza con un sonido agudo ("T"), por lo que podría codificar un algoritmo que midiera la intensidad del sonido agudo y utilizarlo para distinguir los unos de los dos, pero es evidente que esta técnica no se adaptará a miles de palabras pronunciadas por millones de personas muy diferentes en entornos ruidosos y en docenas de idiomas. La mejor solución (al menos hoy) es escribir un algoritmo que aprenda por sí mismo, a partir de muchas grabaciones de ejemplo de cada palabra.

Por último, el aprendizaje automático puede ayudar a los humanos a aprender (Figura 1-4). Los modelos de ML pueden inspeccionarse para ver lo que han aprendido (aunque para algunos modelos esto puede ser complicado). Por ejemplo, una vez que un filtro de spam ha sido entrenado con suficiente spam, se puede inspeccionar fácilmente para revelar la lista de palabras y combinaciones de palabras que cree que son los mejores predictores de spam. A veces esto revela correlaciones insospechadas o nuevas tendencias, lo que permite comprender mejor el problema. Excavar en grandes cantidades de datos para descubrir patrones ocultos se llama minería de datos, y el aprendizaje automático destaca en ello.
![image.png](attachment:image.png)

En resumen, el aprendizaje automático es ideal para:
- Problemas para los que las soluciones existentes requieren muchos ajustes o largas listas de reglas (un modelo de aprendizaje automático a menudo puede simplificar el código y funcionar mejor que el enfoque tradicional).
- Problemas complejos para los que un enfoque tradicional no ofrece una buena solución (las mejores técnicas de aprendizaje automático pueden encontrar una solución).
- Entornos fluctuantes (un sistema de aprendizaje automático puede reentrenarse fácilmente con nuevos datos, manteniéndose siempre actualizado).
- Obtención de información sobre problemas complejos y grandes cantidades de datos

## Ejemplos de aplicaciones
Veamos algunos ejemplos concretos de tareas de aprendizaje automático, junto con las técnicas que pueden abordarlas:

Analizar imágenes de productos en una línea de producción para clasificarlos automáticamente Se trata de la clasificación de imágenes, que suele realizarse mediante redes neuronales convolucionales (CNN; véase el capítulo 14) o, a veces, transformadores (véase el capítulo 16).

Detección de tumores en escáneres cerebrales
Se trata de una segmentación semántica de imágenes, en la que se clasifica cada píxel de la imagen (ya que queremos determinar la ubicación y la forma exactas de los tumores), normalmente utilizando CNN o transformadores.

Clasificación automática de artículos periodísticos
Se trata del procesamiento del lenguaje natural (PLN) y, más concretamente, de la clasificación de textos, que puede realizarse mediante redes neuronales recurrentes (RNN) y CNN, aunque los transformadores funcionan aún mejor (véase el capítulo 16).

Marcar automáticamente comentarios ofensivos en foros de debate
También se trata de clasificación de textos, utilizando las mismas herramientas de PNL.

Resumir automáticamente documentos largos
Se trata de una rama de la PNL denominada "resumen de textos", en la que también se utilizan las mismas herramientas.

Crear un chatbot o un asistente personal
Esto implica muchos componentes de PNL, como la comprensión del lenguaje natural (NLU) y módulos de respuesta a preguntas.

Previsión de los ingresos de su empresa el año que viene, basándose en muchas métricas de rendimiento
Se trata de una tarea de regresión (es decir, de predicción de valores) que puede abordarse utilizando cualquier modelo de regresión, como un modelo de regresión lineal o polinómica (véase el capítulo 4), una máquina de vectores soporte de regresión (véase el capítulo 5), un bosque aleatorio de regresión (véase el capítulo 7) o una red neuronal artificial (véase el capítulo 10). Si desea tener en cuenta secuencias de métricas de rendimiento anteriores, puede utilizar RNN, CNN o transformadores (véanse los capítulos 15 y 16).

Hacer que tu aplicación reaccione a comandos de voz
Se trata del reconocimiento de voz, que requiere procesar muestras de audio: como son secuencias largas y complejas, suelen procesarse con RNNs, CNNs o transformadores (véanse los capítulos 15 y 16).

Detección de fraudes con tarjetas de crédito
Se trata de la detección de anomalías, que puede abordarse mediante bosques de aislamiento, modelos de mezcla gaussiana (véase el capítulo 9) o autocodificadores (véase el capítulo 17).

Segmentar a los clientes en función de sus compras para poder diseñar una estrategia de marketing diferente para cada segmento.
Se trata de la agrupación en clusters, que puede realizarse mediante k-means, DBSCAN, etc. (véase el capítulo 9).

Representar un conjunto de datos complejo y de gran dimensión en un diagrama claro y perspicaz.
Se trata de la visualización de datos, que a menudo implica técnicas de reducción de la dimensionalidad (véase el capítulo 8).

Recomendar un producto que pueda interesar a un cliente basándose en sus compras anteriores.
Se trata de un sistema de recomendación. Un método consiste en alimentar una red neuronal artificial (véase el capítulo 10) con las compras anteriores (y otra información sobre el cliente) para que emita el resultado de la próxima compra más probable. Esta red neuronal suele entrenarse a partir de secuencias de compras anteriores de todos los clientes.

Crear un robot inteligente para un juego
Esto se aborda a menudo utilizando el aprendizaje por refuerzo (RL; véase el capítulo 18), que es una rama del aprendizaje automático que entrena a agentes (como los bots) para elegir las acciones que maximizarán sus recompensas a lo largo del tiempo (por ejemplo, un bot puede obtener una recompensa cada vez que el jugador pierde algunos puntos de vida), dentro de un entorno determinado (como el juego). El famoso programa AlphaGo, que venció al campeón del mundo en el juego Go, se construyó utilizando RL.

Esta lista podría seguir y seguir, pero esperemos que te dé una idea de la increíble amplitud y complejidad de las tareas que puede abordar el aprendizaje automático, y los tipos de técnicas que utilizarías para cada tarea

## Tipos de sistemas de aprendizaje automático

Existen tantos tipos diferentes de sistemas de aprendizaje automático que resulta útil clasificarlos en categorías generales, en función de los siguientes criterios:

- Cómo se supervisan durante el entrenamiento (supervisados, no supervisados, semisupervisados, autosupervisados y otros).
- Si pueden o no aprender de forma incremental sobre la marcha (aprendizaje en línea o por lotes).
- Si funcionan simplemente comparando puntos de datos nuevos con puntos de datos conocidos o detectando patrones en los datos de entrenamiento y construyendo un modelo predictivo, como hacen los científicos (aprendizaje basado en instancias frente a aprendizaje basado en modelos).

Estos criterios no son excluyentes; puedes combinarlos como quieras. Por ejemplo, un filtro de spam de última generación puede aprender sobre la marcha utilizando un modelo de red neuronal profunda entrenado con ejemplos de spam y jamón proporcionados por humanos; esto lo convierte en un sistema de aprendizaje supervisado en línea basado en modelos.

Veamos cada uno de estos criterios con más detalle.

## Supervisado
Los sistemas de ML se pueden clasificar según la cantidad y el tipo de supervisión que reciben durante el entrenamiento. Hay muchas categorías, pero hablaremos de las principales: aprendizaje supervisado, aprendizaje no supervisado, aprendizaje autosupervisado, aprendizaje semisupervisado y aprendizaje por refuerzo.

Aprendizaje supervisado
En el aprendizaje supervisado, el conjunto de entrenamiento que se proporciona al algoritmo incluye las soluciones deseadas, denominadas etiquetas (Figura 1-5).

![image.png](attachment:image.png)

Una tarea típica de aprendizaje supervisado es la clasificación. El filtro de spam es un buen ejemplo de ello: se entrena con muchos correos electrónicos de ejemplo junto con su clase (spam o jamón), y debe aprender a clasificar los nuevos correos.

Otra tarea típica es predecir un valor numérico objetivo, como el precio de un coche, a partir de un conjunto de características (kilometraje, edad, marca, etc.). Este tipo de tarea se denomina regresión (Figura 1-6). Para entrenar al sistema, hay que darle muchos ejemplos de coches, incluyendo tanto sus características como sus objetivos (es decir, sus precios).

Tenga en cuenta que algunos modelos de regresión también pueden utilizarse para la clasificación, y viceversa. Por ejemplo, la regresión logística se suele utilizar para la clasificación, ya que puede dar como resultado un valor que corresponde a la probabilidad de pertenecer a una clase determinada (por ejemplo, un 20% de posibilidades de ser spam).

![image-2.png](attachment:image-2.png)

## Aprendizaje no supervisado
En el aprendizaje no supervisado, como se puede adivinar, los datos de entrenamiento no están etiquetados (Figura 1-7). El sistema intenta aprender sin un profesor.

Por ejemplo, supongamos que tiene muchos datos sobre los visitantes de su blog. Es posible que desee
Puede que desee ejecutar un algoritmo de agrupación para tratar de detectar grupos de visitantes similares (Figura 1-8). En ningún momento le dices al algoritmo a qué grupo pertenece un visitante: él encuentra esas conexiones sin tu ayuda. Por ejemplo, puede darse cuenta de que el 40% de sus visitantes son adolescentes a los que les encantan los cómics y que suelen leer su blog después de clase, mientras que el 20% son adultos a los que les gusta la ciencia ficción y que lo visitan durante los fines de semana. Si utiliza un algoritmo de agrupación jerárquica, también puede subdividir cada grupo en grupos más pequeños. Esto puede ayudarle a dirigir sus entradas a cada grupo.

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

Los algoritmos de visualización también son buenos ejemplos de aprendizaje no supervisado: se les alimenta con una gran cantidad de datos complejos y sin etiquetar, y dan como resultado una representación 2D o 3D de los datos que se puede trazar fácilmente (Figura 1-9). Estos algoritmos intentan preservar tanta estructura como pueden (por ejemplo, intentando evitar que los clusters separados en el espacio de entrada se solapen en la visualización) para que usted pueda entender cómo están organizados los datos y quizás identificar patrones insospechados.

Una tarea relacionada es la reducción de la dimensionalidad, en la que el objetivo es simplificar los datos sin perder demasiada información. Una forma de hacerlo es fusionar varias características correlacionadas en una sola. Por ejemplo, el kilometraje de un coche puede estar fuertemente correlacionado con su edad, por lo que el algoritmo de reducción de la dimensionalidad los fusionará en una característica que represente el desgaste del coche. Esto se denomina extracción de características.

![image-3.png](attachment:image-3.png)

Otra tarea no supervisada importante es la detección de anomalías, por ejemplo, detectar transacciones inusuales con tarjetas de crédito para evitar fraudes, detectar defectos de fabricación o eliminar automáticamente los valores atípicos de un conjunto de datos antes de pasarlo a otro algoritmo de aprendizaje. Durante el entrenamiento, al sistema se le muestran la mayoría de los casos normales, para que aprenda a reconocerlos; entonces, cuando ve un nuevo caso, puede decir si se parece a uno normal o si es probable que sea una anomalía (véase la Figura 1-10). Una tarea muy similar es la detección de novedades: su objetivo es detectar nuevos casos que parezcan diferentes de todos los casos del conjunto de entrenamiento. Para ello es necesario disponer de un conjunto de entrenamiento muy "limpio", desprovisto de cualquier instancia que se desee que el algoritmo detecte. Por ejemplo, si tiene miles de fotos de perros y el 1% de estas fotos representan chihuahuas, un algoritmo de detección de novedades no debería tratar las nuevas fotos de chihuahuas como novedades. Por otro lado, los algoritmos de detección de anomalías pueden considerar que estos perros son tan raros y tan diferentes de otros perros que probablemente los clasificarían como anomalías (sin ánimo de ofender a los chihuahuas).

![image.png](attachment:image.png)

Por último, otra tarea no supervisada habitual es el aprendizaje de reglas de asociación, en el que el objetivo es indagar en grandes cantidades de datos y descubrir relaciones interesantes entre atributos. Por ejemplo, supongamos que usted es propietario de un supermercado. Ejecutar una regla de asociación en sus registros de ventas puede revelar que las personas que compran salsa barbacoa y patatas fritas también suelen comprar filetes. Por lo tanto, es posible que desee colocar estos artículos cerca unos de otros.


## Aprendizaje semisupervisado
Dado que etiquetar los datos suele llevar mucho tiempo y ser costoso, a menudo tendremos muchos casos sin etiquetar y pocos casos etiquetados. Algunos algoritmos pueden trabajar con datos parcialmente etiquetados. Esto se denomina aprendizaje semisupervisado (Figura 1-11).

![image.png](attachment:image.png)

Algunos servicios de alojamiento de fotos, como Google Fotos, son buenos ejemplos de ello. Una vez que subes todas tus fotos familiares al servicio, éste reconoce automáticamente que la misma persona A aparece en las fotos 1, 5 y 11, mientras que otra persona B aparece en las fotos 2, 5 y 7. Esta es la parte no supervisada del algoritmo (clustering). Esta es la parte no supervisada del algoritmo (agrupación). Ahora lo único que necesita el sistema es que le digas quiénes son esas personas. Sólo tienes que añadir una etiqueta por persona y será capaz de nombrar a todos los que aparecen en cada foto, lo que resulta muy útil para buscar fotos.

La mayoría de los algoritmos de aprendizaje semisupervisado son combinaciones de algoritmos supervisados y no supervisados. Por ejemplo, se puede utilizar un algoritmo de agrupación para agrupar instancias similares y, a continuación, etiquetar cada instancia sin etiquetar con la etiqueta más común de su agrupación. Una vez etiquetado todo el conjunto de datos, es posible utilizar cualquier algoritmo de aprendizaje supervisado.



## Aprendizaje autosupervisado
Otro enfoque del aprendizaje automático consiste en generar un conjunto de datos totalmente etiquetados a partir de otro totalmente sin etiquetar. Una vez etiquetado el conjunto de datos, se puede utilizar cualquier algoritmo de aprendizaje supervisado. Este enfoque se denomina aprendizaje autosupervisado.

Por ejemplo, si dispone de un gran conjunto de datos de imágenes sin etiquetar, puede enmascarar aleatoriamente una pequeña parte de cada imagen y, a continuación, entrenar un modelo para recuperar la imagen original (Figura 1-12). Durante el entrenamiento, las imágenes enmascaradas se utilizan como entradas del modelo, y las imágenes originales se utilizan como etiquetas.

![image.png](attachment:image.png)

El modelo resultante puede ser bastante útil en sí mismo, por ejemplo, para reparar imágenes dañadas o borrar objetos no deseados de las fotografías. Pero la mayoría de las veces, un modelo entrenado mediante aprendizaje autosupervisado no es el objetivo final. Por lo general, querrá ajustar y afinar el modelo para una tarea ligeramente diferente, una que realmente le interese.

Por ejemplo, supongamos que lo que realmente queremos es tener un modelo de clasificación de mascotas: dada una foto de cualquier mascota, nos dirá a qué especie pertenece. Si dispone de un gran conjunto de datos de fotos de mascotas sin etiquetar, puede empezar entrenando un modelo de reparación de imágenes mediante aprendizaje autosupervisado. Una vez que funcione bien, debería ser capaz de distinguir las distintas especies de mascotas: cuando repara una imagen de un gato cuya cara está enmascarada, debe saber que no debe añadir la cara de un perro. Suponiendo que la arquitectura del modelo lo permita (y la mayoría de las arquitecturas de redes neuronales lo permiten), es posible ajustar el modelo para que prediga las especies de mascotas en lugar de reparar imágenes. El último paso consiste en afinar el modelo en un conjunto de datos etiquetados: el modelo ya sabe qué aspecto tienen los gatos, los perros y otras especies de mascotas, así que este paso sólo es necesario para que el modelo pueda aprender la correspondencia entre las especies que ya conoce y las etiquetas que esperamos de él.

Algunas personas consideran que el aprendizaje autosupervisado forma parte del aprendizaje no supervisado, ya que trabaja con conjuntos de datos sin etiquetar. Pero el aprendizaje autosupervisado utiliza etiquetas (generadas) durante el entrenamiento, por lo que en ese sentido se acerca más al aprendizaje supervisado. Y el término "aprendizaje no supervisado" se utiliza generalmente cuando se trata de tareas como la agrupación, la reducción de la dimensionalidad o la detección de anomalías, mientras que el aprendizaje autosupervisado se centra en las mismas tareas que el aprendizaje supervisado: principalmente clasificación y regresión. En resumen, es mejor tratar el aprendizaje autosupervisado como una categoría propia.

## Aprendizaje por refuerzo
El aprendizaje por refuerzo es muy diferente. El sistema de aprendizaje, llamado agente en este contexto, puede observar el entorno, seleccionar y realizar acciones, y obtener recompensas a cambio (o penalizaciones en forma de recompensas negativas, como se muestra en la Figura 1-13). A continuación, debe aprender por sí mismo cuál es la mejor estrategia, denominada política, para obtener la mayor recompensa a lo largo del tiempo. Una política define qué acción debe elegir el agente cuando se encuentra en una situación determinada

![image.png](attachment:image.png)

Por ejemplo, muchos robots implementan algoritmos de aprendizaje por refuerzo para aprender a caminar. El programa AlphaGo de DeepMind también es un buen ejemplo de aprendizaje por refuerzo: saltó a los titulares en mayo de 2017 cuando derrotó a Ke Jie, el jugador número uno del mundo en ese momento, en el juego de Go. Aprendió su política ganadora analizando millones de partidas y luego jugando muchas partidas contra sí mismo. Ten en cuenta que el aprendizaje se desactivó durante las partidas contra el campeón; AlphaGo sólo aplicaba la política que había aprendido. Como verás en la siguiente sección, esto se llama aprendizaje offline.

## Aprendizaje por lotes frente a aprendizaje en línea
Otro criterio utilizado para clasificar los sistemas de aprendizaje automático es si el sistema puede o no aprender de forma incremental a partir de un flujo de datos entrantes.

## Aprendizaje por lotes
En el aprendizaje por lotes, el sistema es incapaz de aprender de forma incremental: debe entrenarse utilizando todos los datos disponibles. Esto suele llevar mucho tiempo y recursos informáticos, por lo que suele hacerse fuera de línea. Primero se entrena el sistema, y luego se lanza a producción y funciona sin aprender más; sólo aplica lo que ha aprendido. Es lo que se denomina aprendizaje fuera de línea.

Por desgracia, el rendimiento de un modelo tiende a decaer lentamente con el tiempo, simplemente porque el mundo sigue evolucionando mientras el modelo permanece inalterado. Este fenómeno suele denominarse "putrefacción del modelo" o "deriva de los datos". La solución es volver a entrenar periódicamente el modelo con datos actualizados. La frecuencia depende del caso de uso: si el modelo clasifica fotos de gatos y perros, su rendimiento decaerá muy lentamente, pero si se ocupa de sistemas que evolucionan con rapidez, por ejemplo, predicciones sobre el mercado financiero, es probable que decaiga con bastante rapidez.

Si quiere que un sistema de aprendizaje por lotes conozca datos nuevos (como un nuevo tipo de spam), tiene que entrenar una nueva versión del sistema desde cero en el conjunto de datos completo (no sólo los datos nuevos, sino también los antiguos) y, a continuación, sustituir el modelo antiguo por el nuevo. Afortunadamente, todo el proceso de entrenamiento, evaluación y lanzamiento de un sistema de aprendizaje automático puede automatizarse con bastante facilidad (como vimos en la Figura 1-3), de modo que incluso un sistema de aprendizaje por lotes puede adaptarse a los cambios. Basta con actualizar los datos y entrenar una nueva versión del sistema desde cero tantas veces como sea necesario.

Esta solución es sencilla y suele funcionar bien, pero entrenar utilizando el conjunto completo de datos puede llevar muchas horas, por lo que lo normal sería entrenar un nuevo sistema sólo cada 24 horas o incluso sólo semanalmente. Si su sistema necesita adaptarse a datos que cambian rápidamente (por ejemplo, para predecir los precios de las acciones), entonces necesita una solución más reactiva.

Además, el entrenamiento en el conjunto completo de datos requiere muchos recursos informáticos (CPU, espacio de memoria, espacio de disco, E/S de disco, E/S de red, etc.). Si tienes muchos datos y automatizas tu sistema para que se entrene desde cero cada día, acabará costándote mucho dinero. Si la cantidad de datos es enorme, puede ser incluso imposible utilizar un algoritmo de aprendizaje por lotes.

Por último, si tu sistema debe ser capaz de aprender de forma autónoma y dispone de recursos limitados (por ejemplo, una aplicación para smartphone o un vehículo explorador en Marte), cargar con grandes cantidades de datos de entrenamiento y consumir muchos recursos para entrenar durante horas todos los días es un obstáculo.

Una opción mejor en todos estos casos es utilizar algoritmos capaces de aprender de forma incremental.

## Aprendizaje en línea
En el aprendizaje en línea, el sistema se entrena de forma incremental alimentándolo con instancias de datos de forma secuencial, ya sea individualmente o en pequeños grupos denominados minilotes. Cada paso de aprendizaje es rápido y barato, por lo que el sistema puede aprender sobre la marcha, a medida que llegan nuevos datos (véase la Figura 1-14).

![image.png](attachment:image.png)

El aprendizaje en línea es útil para sistemas que necesitan adaptarse a cambios con extrema rapidez (por ejemplo, para detectar nuevos patrones en el mercado bursátil). También es una buena opción si se dispone de recursos informáticos limitados; por ejemplo, si el modelo se entrena en un dispositivo móvil.

Además, los algoritmos de aprendizaje en línea pueden utilizarse para entrenar modelos en enormes conjuntos de datos que no caben en la memoria principal de una máquina (esto se denomina aprendizaje fuera del núcleo). El algoritmo carga parte de los datos, ejecuta un paso de entrenamiento en esos datos y repite el proceso hasta que se ha ejecutado en todos los datos (véase la Figura 1-15).

![image.png](attachment:image.png)

Un parámetro importante de los sistemas de aprendizaje en línea es la rapidez con la que deben adaptarse a los datos cambiantes.
a los datos cambiantes: es lo que se denomina velocidad de aprendizaje. Si se fija una tasa de aprendizaje alta, el sistema se adaptará rápidamente a los nuevos datos, pero también tenderá a olvidar rápidamente los datos antiguos (y no querrá que un filtro de spam marque sólo los últimos tipos de spam que se le hayan mostrado). Por el contrario, si se fija una tasa de aprendizaje baja, el sistema tendrá más inercia, es decir, aprenderá más lentamente, pero también será menos sensible al ruido de los nuevos datos o a las secuencias de puntos de datos no representativos (valores atípicos).

Uno de los grandes retos del aprendizaje en línea es que, si el sistema recibe datos erróneos, su rendimiento disminuirá, posiblemente con rapidez (dependiendo de la calidad de los datos y del ritmo de aprendizaje). Si se trata de un sistema en vivo, tus clientes lo notarán. Por ejemplo, los datos erróneos pueden proceder de un error (por ejemplo, el mal funcionamiento de un sensor en un robot) o de alguien que intenta engañar al sistema (por ejemplo, enviando spam a un motor de búsqueda para intentar aparecer en los primeros puestos de los resultados de búsqueda). Para reducir este riesgo, es necesario supervisar el sistema de cerca y desactivar el aprendizaje de inmediato (y posiblemente volver a un estado de funcionamiento anterior) si se detecta una caída en el rendimiento. También puede supervisar los datos de entrada y reaccionar ante datos anómalos; por ejemplo, utilizando un algoritmo de detección de anomalías (véase el capítulo 9).

## Aprendizaje basado en instancias frente a aprendizaje basado en modelos

Otra forma de clasificar los sistemas de aprendizaje automático es en función de su capacidad de generalización. La mayoría de las tareas de aprendizaje automático consisten en hacer predicciones, lo que significa que, dado un número de ejemplos de entrenamiento, el sistema debe ser capaz de hacer buenas predicciones (generalizar) para ejemplos que nunca ha visto antes. Tener una buena medida del rendimiento en los datos de entrenamiento es bueno, pero insuficiente; el verdadero objetivo es obtener buenos resultados en nuevas instancias.

Existen dos enfoques principales para la generalización: el aprendizaje basado en instancias y el aprendizaje basado en modelos.

## Aprendizaje basado en instancias

Posiblemente, la forma más trivial de aprendizaje sea aprender de memoria. Si se creara un filtro de spam de este modo, se marcarían todos los mensajes idénticos a los ya marcados por los usuarios.
mejor.

En lugar de marcar sólo los correos idénticos a los conocidos, el filtro de spam podría programarse para marcar también los correos muy similares a los conocidos. Esto requiere una medida de similitud entre dos correos electrónicos. Una medida de similitud (muy básica) entre dos correos electrónicos podría consistir en contar el número de palabras que tienen en común. El sistema marcaría un correo como spam si tiene muchas palabras en común con un correo spam conocido.

Esto se denomina aprendizaje basado en instancias: el sistema aprende los ejemplos de memoria y, a continuación, generaliza a nuevos casos utilizando una medida de similitud para compararlos con los ejemplos aprendidos (o con un subconjunto de ellos). Por ejemplo, en la Figura 1-16, la nueva instancia se clasificaría como triángulo porque la mayoría de las instancias más similares pertenecen a esa clase.

![image.png](attachment:image.png)

## Aprendizaje basado en modelos y un flujo de trabajo típico de aprendizaje automático

Otra forma de generalizar a partir de un conjunto de ejemplos es construir un modelo de estos ejemplos y luego utilizar ese modelo para hacer predicciones. Esto se denomina aprendizaje basado en modelos (Figura 1-17).

![image.png](attachment:image.png)

Por ejemplo, supongamos que quieres saber si el dinero hace feliz a la gente, así que descargas los datos del Índice para una Vida Mejor del sitio web de la OCDE y las estadísticas del Banco Mundial sobre el producto interior bruto (PIB) per cápita. A continuación, une las tablas y las ordena por PIB per cápita. La Tabla 1-1 muestra un extracto de lo que se obtiene

![image-2.png](attachment:image-2.png)

Tracemos los datos de estos países (Figura 1-18).

![image-3.png](attachment:image-3.png)

Parece que hay una tendencia. Aunque los datos tienen ruido (es decir, son en parte aleatorios), parece que la satisfacción vital aumenta de forma más o menos lineal a medida que aumenta el PIB per cápita del país. Así que decide modelizar la satisfacción vital como una función lineal del PIB per cápita. Este paso se denomina selección del modelo: ha seleccionado un modelo lineal de satisfacción vital con un único atributo, el PIB per cápita (ecuación 1-1).

Ecuación 1-1. Un modelo lineal simple
\begin{equation}
    \text{life\_satisfaction} = \theta_0 + \theta_1 \times \text{GDP\_per\_capita}
\end{equation}

Este modelo tiene dos parámetros, $θ_0$ y $θ_1$. Ajustando estos parámetros, puede hacer que su modelo represente cualquier función lineal, como se muestra en la Figura 1-19.

![image.png](attachment:image.png)

Antes de poder utilizar el modelo, es necesario definir los valores de los parámetros $θ_0$ y $θ_1$. ¿Cómo puede saber qué valores harán que su modelo funcione mejor? Para responder a esta pregunta, hay que especificar una medida de rendimiento. Puede definir una función de utilidad (o función de adecuación) que mida lo bueno que es su modelo, o puede definir una función de coste que mida lo malo que es. Para los problemas de regresión lineal, se suele utilizar una función de coste que mide la distancia entre las predicciones del modelo lineal y los ejemplos de entrenamiento; el objetivo es minimizar esta distancia.

Aquí es donde entra en juego el algoritmo de regresión lineal: le alimentas con tus ejemplos de entrenamiento y él encuentra los parámetros que hacen que el modelo lineal se ajuste mejor a tus datos. Esto se llama entrenar el modelo. En nuestro caso, el algoritmo encuentra que los valores óptimos de los parámetros son $\theta_0 = 3.75 \quad \text{y} \quad \theta_1 = 6.78 \times 10^{-5}$

Ahora el modelo se ajusta lo más posible a los datos de entrenamiento (para un modelo lineal), como puede verse en la Figura 1-20.

![image-2.png](attachment:image-2.png)

Por fin estás listo para ejecutar el modelo y hacer predicciones. Por ejemplo, supongamos que quieres saber cómo de felices son los chipriotas, y los datos de la OCDE no tienen la respuesta. Afortunadamente, puedes utilizar tu modelo para hacer una buena predicción: buscas el PIB per cápita de Chipre, encuentras 37.655 $ y, a continuación, aplicas tu modelo y descubres que es probable que la satisfacción vital se sitúe en torno a los $37.655. $3.75 + 37,655 \times 6.78 \times 10^{-5} = 6.30$

Para abrir el apetito, el Ejemplo 1-1 muestra el código Python que carga los datos, separa las entradas X de las etiquetas y, crea un gráfico de dispersión para su visualización y, a continuación, entrena un modelo lineal y realiza una predicción.

code1-1

Si todo ha ido bien, su modelo hará buenas predicciones. Si no es así, puede que necesite utilizar más atributos (tasa de empleo, salud, contaminación atmosférica, etc.), obtener más datos de entrenamiento o de mejor calidad, o quizá seleccionar un modelo más potente (por ejemplo, un modelo de regresión polinómica).

En resumen:

- Ha estudiado los datos.

- Ha seleccionado un modelo.

- Lo ha entrenado con los datos de entrenamiento (es decir, el algoritmo de aprendizaje ha buscado los valores de los parámetros del modelo que minimizan una función de coste).

- Por último, ha aplicado el modelo para hacer predicciones sobre nuevos casos (lo que se denomina inferencia), con la esperanza de que este modelo generalice bien.

Este es el aspecto de un proyecto típico de aprendizaje automático. En el Capítulo 2 experimentarás esto de primera mano recorriendo un proyecto de principio a fin.

Hasta ahora hemos cubierto mucho terreno: ya sabe en qué consiste realmente el aprendizaje automático, por qué es útil, cuáles son algunas de las categorías más comunes de sistemas de ML y cómo es el flujo de trabajo de un proyecto típico. Ahora veamos qué puede fallar en el aprendizaje e impedirle hacer predicciones precisas.

## Principales retos del aprendizaje automático

En resumen, dado que su tarea principal es seleccionar un modelo y entrenarlo con algunos datos, las dos cosas que pueden salir mal son "mal modelo" y "malos datos". Empecemos con ejemplos de malos datos.

## Cantidad insuficiente de datos de entrenamiento

Para que un niño pequeño aprenda lo que es una manzana, basta con que usted señale una manzana y diga "manzana" (posiblemente repitiendo este procedimiento unas cuantas veces). Ahora el niño es capaz de reconocer manzanas de todo tipo de colores y formas. Una genialidad. El aprendizaje automático aún no ha llegado a ese punto; se necesitan muchos datos para que la mayoría de los algoritmos de aprendizaje automático funcionen correctamente. Incluso para problemas muy sencillos se necesitan miles de ejemplos, y para problemas complejos como el reconocimiento de imágenes o del habla, millones (a menos que se puedan reutilizar partes de un modelo ya existente).



## La irracional eficacia de los datos
En un famoso artículo publicado en 2001, los investigadores de Microsoft Michele Banko y Eric Brill demostraron que algoritmos de aprendizaje automático muy diferentes, incluidos algunos bastante sencillos, funcionaban casi idénticamente bien en un complejo problema de desambiguación del lenguaje natural una vez que se les daban suficientes datos (como puede verse en la Figura 1-21).

En palabras de los autores, "estos resultados sugieren que quizá debamos reconsiderar el compromiso entre dedicar tiempo y dinero al desarrollo de algoritmos y dedicarlo al desarrollo de corpus".

La idea de que los datos importan más que los algoritmos para los problemas complejos fue popularizada por Peter Norvig et al. en un artículo titulado "The Unreasonable Effectiveness of Data", publicado en 2009. Hay que tener en cuenta, sin embargo, que los conjuntos de datos pequeños y medianos siguen siendo muy comunes, y no siempre es fácil o barato conseguir datos de entrenamiento adicionales, así que no abandones los algoritmos todavía.

![image.png](attachment:image.png)

## Datos de entrenamiento no representativos

Para generalizar bien, es crucial que los datos de entrenamiento sean representativos de los nuevos casos a los que se quiere generalizar. Esto es válido tanto para el aprendizaje basado en instancias como para el basado en modelos.

Por ejemplo, el conjunto de países que utilizó anteriormente para entrenar el modelo lineal no era perfectamente representativo; no contenía ningún país con un PIB per cápita inferior a 23.500 $ o superior a 62.500 $. La Figura 1-22 muestra el aspecto de los datos cuando se añaden dichos países.

Si se entrena un modelo lineal con estos datos, se obtiene la línea continua, mientras que el modelo antiguo está representado por la línea de puntos. Como se puede ver, la adición de unos pocos países que faltan no sólo altera significativamente el modelo, sino que deja claro que un modelo lineal tan simple probablemente nunca va a funcionar bien. Parece que los países muy ricos no son más felices que los moderadamente ricos (de hecho, ¡parecen ligeramente más infelices!) y, a la inversa, algunos países pobres parecen más felices que muchos países ricos.

Al utilizar un conjunto de entrenamiento no representativo, has entrenado un modelo que probablemente no hará predicciones precisas, especialmente para países muy pobres y muy ricos.

![image.png](attachment:image.png)

Es crucial utilizar un conjunto de entrenamiento que sea representativo de los casos a los que se quiere generalizar. Esto suele ser más difícil de lo que parece: si la muestra es demasiado pequeña, habrá ruido de muestreo (es decir, datos no representativos como resultado del azar), pero incluso las muestras muy grandes pueden ser no representativas si el método de muestreo es defectuoso. Esto se denomina sesgo de muestreo.


## Ejemplos de sesgo de muestreo

Tal vez el ejemplo más famoso de sesgo de muestreo se produjo durante las elecciones presidenciales estadounidenses de 1936, que enfrentaron a Landon y Roosevelt: el Literary Digest realizó una encuesta muy amplia, enviando correo a unos 10 millones de personas. Obtuvo 2,4 millones de respuestas y predijo con gran seguridad que Landon obtendría el 57% de los votos. En cambio, Roosevelt ganó con el 62% de los votos. El fallo estaba en el método de muestreo del Literary Digest:

- En primer lugar, para obtener las direcciones a las que enviar las encuestas, el Literary Digest utilizó guías telefónicas, listas de suscriptores de revistas, listas de socios de clubes y similares. Todas estas listas tendían a favorecer a las personas más ricas, que tenían más probabilidades de votar a los republicanos (de ahí Landon).

- En segundo lugar, menos del 25% de las personas encuestadas respondieron. De nuevo, esto introdujo un sesgo de muestreo, al descartar potencialmente a personas a las que no les importaba mucho la política, a las que no les gustaba el Literary Digest y a otros grupos clave. Se trata de un tipo especial de sesgo de muestreo denominado sesgo de falta de respuesta.

Otro ejemplo: supongamos que queremos crear un sistema para reconocer vídeos de música funk. Una forma de construir el conjunto de entrenamiento es buscar "música funk" en YouTube y utilizar los vídeos resultantes. Pero esto supone que el motor de búsqueda de YouTube devuelve un conjunto de vídeos que son representativos de todos los vídeos de música funk de YouTube. En realidad, es probable que los resultados de la búsqueda estén sesgados hacia artistas populares (y si vives en Brasil obtendrás muchos vídeos de "funk carioca", que no se parecen en nada a James Brown). Por otro lado, ¿de qué otra forma se puede obtener un conjunto de entrenamiento amplio?


## Datos de baja calidad

Obviamente, si los datos de entrenamiento están llenos de errores, valores atípicos y ruido (por ejemplo, debido a mediciones de mala calidad), será más difícil para el sistema detectar los patrones subyacentes, por lo que es menos probable que el sistema funcione bien. A menudo merece la pena dedicar tiempo a limpiar los datos de entrenamiento. La verdad es que la mayoría de los científicos de datos pasan una parte significativa de su tiempo haciendo precisamente eso. A continuación se presentan un par de ejemplos de cuándo conviene limpiar los datos de entrenamiento:

- Si algunas instancias son claramente atípicas, puede ayudar simplemente descartarlas o intentar corregir los errores manualmente.

- Si a algunas instancias les faltan algunas características (por ejemplo, el 5% de sus clientes no especificaron su edad), debe decidir si quiere ignorar este atributo por completo, ignorar estas instancias, rellenar los valores que faltan (por ejemplo, con la mediana de edad) o entrenar un modelo con la característica y otro sin ella.

## Características irrelevantes

Como dice el refrán: basura entra, basura sale. Su sistema sólo será capaz de aprender si los datos de entrenamiento contienen suficientes características relevantes y no demasiadas irrelevantes. Una parte fundamental del éxito de un proyecto de aprendizaje automático es encontrar un buen conjunto de características con las que entrenar. Este proceso, llamado ingeniería de características, implica los siguientes pasos:

- Selección de características (seleccionar entre las características existentes las más útiles para el entrenamiento).

- Extracción de características (combinar las características existentes para obtener una más útil; como hemos visto antes, los algoritmos de reducción de la dimensionalidad pueden ayudar).

- Creación de nuevas características mediante la recopilación de nuevos datos

Ahora que hemos visto muchos ejemplos de datos erróneos, veamos un par de ejemplos de algoritmos erróneos.

Sobreajuste de los datos de entrenamiento

Supongamos que visita un país extranjero y el taxista le roba. Podrías tener la tentación de decir que todos los taxistas de ese país son ladrones. Generalizar en exceso es algo que los humanos hacemos con demasiada frecuencia y, por desgracia, las máquinas pueden caer en la misma trampa si no tenemos cuidado. En el aprendizaje automático esto se llama sobreajuste: significa que el modelo funciona bien con los datos de entrenamiento, pero no generaliza bien.

La Figura 1-23 muestra un ejemplo de un modelo de satisfacción vital polinómico de alto grado que se ajusta demasiado a los datos de entrenamiento. Aunque funciona mucho mejor en los datos de entrenamiento que el modelo lineal simple, ¿confiaría realmente en sus predicciones?

![image.png](attachment:image.png)

Los modelos complejos, como las redes neuronales profundas, pueden detectar patrones sutiles en los datos, pero si el conjunto de entrenamiento es ruidoso, o si es demasiado pequeño, lo que introduce ruido de muestreo, es probable que el modelo detecte patrones en el propio ruido (como en el ejemplo del taxista). Obviamente, estos patrones no se generalizarán a nuevos casos. Por ejemplo, supongamos que alimentamos nuestro modelo de satisfacción vital con muchos más atributos, incluidos atributos poco informativos como el nombre del país. En ese caso, un modelo complejo puede detectar patrones como el hecho de que todos los países de los datos de entrenamiento con una w en su nombre tienen una satisfacción vital superior a 7: Nueva Zelanda (7,3), Noruega (7,6), Suecia (7,3) y Suiza (7,5). ¿Hasta qué punto confía en que la regla de satisfacción w se generalice a Ruanda o Zimbabue? Obviamente, este patrón se produjo en los datos de entrenamiento por pura casualidad, pero el modelo no tiene forma de saber si un patrón es real o simplemente el resultado del ruido en los datos.

La restricción de un modelo para simplificarlo y reducir el riesgo de sobreajuste se denomina regularización. Por ejemplo, el modelo lineal que hemos definido antes tiene dos parámetros, $θ_0$ y $θ_1$. Esto da al algoritmo de aprendizaje dos grados de libertad para adaptar el modelo a los datos de entrenamiento: puede ajustar tanto la altura ($θ_0$) como la pendiente ($θ_1$) de la línea. Si forzáramos $θ_1$ = 0, el algoritmo sólo tendría un grado de libertad y le resultaría mucho más difícil ajustarse correctamente a los datos: todo lo que podría hacer es mover la línea hacia arriba o hacia abajo para acercarse lo más posible a los casos de entrenamiento, de modo que acabaría alrededor de la media. Un modelo muy simple. Si permitimos que el algoritmo modifique $θ_1$ pero le obligamos a mantenerlo pequeño, el algoritmo de aprendizaje tendrá entre uno y dos grados de libertad. Producirá un modelo más simple que uno con dos grados de libertad, pero más complejo que uno con sólo uno. Hay que encontrar el equilibrio adecuado entre ajustarse perfectamente a los datos de entrenamiento y mantener el modelo lo suficientemente simple como para garantizar una buena generalización.

La Figura 1-24 muestra tres modelos. La línea punteada representa el modelo original que se entrenó con los países representados como círculos (sin los países representados como cuadrados), la línea continua es nuestro segundo modelo entrenado con todos los países (círculos y cuadrados), y la línea discontinua es un modelo entrenado con los mismos datos que el primer modelo pero con una restricción de regularización. Puede verse que la regularización obligó al modelo a tener una pendiente menor: este modelo no se ajusta a los datos de entrenamiento (círculos) tan bien como el primer modelo, pero en realidad generaliza mejor a nuevos ejemplos que no vio durante el entrenamiento (cuadrados).

![image.png](attachment:image.png)

La cantidad de regularización que se aplica durante el aprendizaje puede controlarse mediante un hiperparámetro. Un hiperparámetro es un parámetro de un algoritmo de aprendizaje (no del modelo). Como tal, no se ve afectado por el propio algoritmo de aprendizaje; debe establecerse antes del entrenamiento y permanece constante durante el mismo. Si ajusta el hiperparámetro de regularización a un valor muy grande, obtendrá un modelo casi plano (una pendiente cercana a cero); es casi seguro que el algoritmo de aprendizaje no sobreajustará los datos de entrenamiento, pero tendrá menos probabilidades de encontrar una buena solución. El ajuste de los hiperparámetros es una parte importante de la construcción de un sistema de aprendizaje automático (verá un ejemplo detallado en el próximo capítulo).

## Ajuste insuficiente de los datos de entrenamiento

Como se puede adivinar, la infraadaptación es lo contrario de la sobreadaptación: se produce cuando el modelo es demasiado simple para aprender la estructura subyacente de los datos. Por ejemplo, un modelo lineal de satisfacción vital es propenso al infraajuste; la realidad es más compleja que el modelo, por lo que sus predicciones serán inexactas, incluso en los ejemplos de entrenamiento.

He aquí las principales opciones para solucionar este problema:

- Seleccionar un modelo más potente, con más parámetros.
- Introducir mejores características en el algoritmo de aprendizaje (ingeniería de características).
- Reducir las restricciones del modelo (por ejemplo, reduciendo el hiperparámetro de regularización).

## Un paso atrás

A estas alturas ya sabe mucho sobre el aprendizaje automático. Sin embargo, hemos repasado tantos conceptos que puede que se sienta un poco perdido, así que demos un paso atrás y veamos el panorama general:

- El aprendizaje automático consiste en hacer que las máquinas mejoren en alguna tarea aprendiendo de los datos, en lugar de tener que codificar reglas explícitamente.
- Hay muchos tipos diferentes de sistemas de ML: supervisados o no, por lotes o en línea, basados en instancias o en modelos.
- En un proyecto de ML se recopilan datos en un conjunto de entrenamiento, y se alimenta el conjunto de entrenamiento a un algoritmo de aprendizaje. Si el algoritmo está basado en un modelo, ajusta algunos parámetros para adaptar el modelo al conjunto de entrenamiento (es decir, para hacer buenas predicciones sobre el propio conjunto de entrenamiento), y luego es de esperar que también sea capaz de hacer buenas predicciones sobre nuevos casos. Si el algoritmo se basa en instancias, simplemente aprende los ejemplos de memoria y generaliza a nuevas instancias utilizando una medida de similitud para compararlas con las instancias aprendidas.
- El sistema no funcionará bien si el conjunto de entrenamiento es demasiado pequeño o si los datos no son representativos, tienen ruido o están contaminados con características irrelevantes (basura dentro, basura fuera). Por último, el modelo no debe ser ni demasiado simple (en cuyo caso no se ajustará lo suficiente) ni demasiado complejo (en cuyo caso se ajustará demasiado).

Queda un último tema importante por tratar: una vez que se ha entrenado un modelo, no hay que limitarse a "esperar" que se generalice a nuevos casos. Hay que evaluarlo y ajustarlo si es necesario. Veamos cómo hacerlo.

## Pruebas y validación

La única forma de saber si un modelo se generalizará a nuevos casos es probarlo con ellos. Una forma de hacerlo es poner el modelo en producción y controlar su rendimiento. Esto funciona bien, pero si el modelo es terriblemente malo, los usuarios se quejarán, lo cual no es la mejor idea.

Una opción mejor es dividir los datos en dos conjuntos: el conjunto de entrenamiento y el conjunto de prueba. Como su nombre indica, el modelo se entrena con el conjunto de entrenamiento y se prueba con el conjunto de prueba. La tasa de error en los nuevos casos se denomina error de generalización (o error fuera de la muestra) y, al evaluar el modelo en el conjunto de prueba, se obtiene una estimación de este error. Este valor le indica el rendimiento de su modelo en instancias que nunca ha visto antes.

Si el error de entrenamiento es bajo (es decir, el modelo comete pocos errores en el conjunto de entrenamiento) pero el error de generalización es alto, significa que el modelo se está ajustando en exceso a los datos de entrenamiento.


## Ajuste de hiperparámetros y selección de modelos

Evaluar un modelo es bastante sencillo: basta con utilizar un conjunto de pruebas. Pero supongamos que está dudando entre dos tipos de modelos (digamos, un modelo lineal y un modelo polinómico): ¿cómo puede decidir entre ellos? Una opción es entrenar ambos y comparar su grado de generalización utilizando el conjunto de pruebas.

Supongamos que el modelo lineal generaliza mejor, pero queremos aplicar cierta regularización para evitar el sobreajuste. La cuestión es cómo elegir el valor del hiperparámetro de regularización. Una opción es entrenar 100 modelos diferentes utilizando 100 valores distintos para este hiperparámetro. Supongamos que encuentra el mejor valor de hiperparámetro que produce un modelo con el menor error de generalización, por ejemplo, sólo un 5% de error. Lanza este modelo a producción, pero desafortunadamente no funciona tan bien como esperaba y produce errores del 15%. ¿Qué ha ocurrido?

El problema es que ha medido el error de generalización varias veces en el conjunto de pruebas y ha adaptado el modelo y los hiperparámetros para producir el mejor modelo para ese conjunto concreto. Esto significa que es poco probable que el modelo funcione igual de bien con datos nuevos.

Una solución común a este problema se denomina validación por exclusión (Figura 1-25): simplemente se excluye parte del conjunto de entrenamiento para evaluar varios modelos candidatos y seleccionar el mejor. El nuevo conjunto retenido se denomina conjunto de validación (o conjunto de desarrollo). Más concretamente, se entrenan varios modelos con distintos hiperparámetros en el conjunto de entrenamiento reducido (es decir, el conjunto de entrenamiento completo menos el conjunto de validación) y se selecciona el modelo que mejor funciona en el conjunto de validación. Tras este proceso de validación en espera, se entrena el mejor modelo en el conjunto de entrenamiento completo (incluido el conjunto de validación), con lo que se obtiene el modelo final. Por último, se evalúa el modelo final en el conjunto de pruebas para obtener una estimación del error de generalización.

![image.png](attachment:image.png)

Esta solución suele funcionar bastante bien. Sin embargo, si el conjunto de validación es demasiado pequeño, las evaluaciones del modelo serán imprecisas: puede acabar seleccionando un modelo subóptimo por error. A la inversa, si el conjunto de validación es demasiado grande, el conjunto de entrenamiento restante será mucho más pequeño que el conjunto de entrenamiento completo. ¿Por qué es malo? Bueno, como el modelo final se entrenará con el conjunto de entrenamiento completo, no es ideal comparar modelos candidatos entrenados con un conjunto de entrenamiento mucho más pequeño. Sería como seleccionar al velocista más rápido para participar en una maratón. Una forma de resolver este problema es realizar una validación cruzada repetida, utilizando muchos conjuntos de validación pequeños. Cada modelo se evalúa una vez por conjunto de validación después de haber sido entrenado con el resto de los datos. Al promediar todas las evaluaciones de un modelo, se obtiene una medida mucho más precisa de su rendimiento. Sin embargo, hay un inconveniente: el tiempo de entrenamiento se multiplica por el número de conjuntos de validación.

## Desajuste de datos

En algunos casos, es fácil obtener una gran cantidad de datos para el entrenamiento, pero estos datos probablemente no serán perfectamente representativos de los datos que se utilizarán en la producción. Por ejemplo, supongamos que quieres crear una aplicación móvil para hacer fotos de flores y determinar automáticamente su especie. Puede descargar fácilmente millones de fotos de flores en Internet, pero no serán perfectamente representativas de las fotos que se tomarán realmente con la aplicación en un dispositivo móvil. Tal vez sólo tenga 1.000 fotos representativas (es decir, tomadas realmente con la aplicación).

En este caso, la regla más importante que debes recordar es que tanto el conjunto de validación como el conjunto de prueba deben ser lo más representativos posible de los datos que esperas utilizar en producción, por lo que deben estar compuestos exclusivamente por imágenes representativas: puedes mezclarlas y poner la mitad en el conjunto de validación y la otra mitad en el conjunto de prueba (asegurándote de que no haya duplicados o casi duplicados en ambos conjuntos). Una vez entrenado el modelo con las imágenes de la web, si observas que el rendimiento del modelo en el conjunto de validación es decepcionante, no sabrás si se debe a que tu modelo ha ajustado en exceso el conjunto de entrenamiento o si se debe simplemente a la falta de correspondencia entre las imágenes de la web y las de la aplicación móvil.

Una solución es mantener algunas de las imágenes de entrenamiento (de la web) en otro conjunto que Andrew Ng ha denominado conjunto de entrenamiento de desarrollo (Figura 1-26). Una vez entrenado el modelo (en el conjunto de entrenamiento, no en el conjunto de entrenamiento y desarrollo), puede evaluarlo en el conjunto de entrenamiento y desarrollo. Si el modelo funciona mal, debe haber ajustado en exceso el conjunto de entrenamiento, por lo que debe intentar simplificar o regularizar el modelo, obtener más datos de entrenamiento y limpiar los datos de entrenamiento. Pero si funciona bien en el conjunto de entrenamiento y desarrollo, entonces puedes evaluar el modelo en el conjunto de desarrollo. Si el rendimiento es bajo, el problema debe venir del desajuste de los datos. Puedes intentar solucionar este problema preprocesando las imágenes de la web para que se parezcan más a las fotos que tomará la aplicación móvil y, a continuación, volver a entrenar el modelo. Una vez que tengas un modelo que funcione bien tanto en el conjunto de desarrollo como en el de entrenamiento, puedes evaluarlo una última vez en el conjunto de prueba para saber cómo funcionará en producción.

## Teorema del almuerzo gratis

Un modelo es una representación simplificada de los datos. Las simplificaciones pretenden descartar los detalles superfluos que probablemente no se generalicen a nuevas instancias. Cuando se selecciona un tipo de modelo concreto, implícitamente se están haciendo suposiciones sobre los datos. Por ejemplo, si elige un modelo lineal, está asumiendo implícitamente que los datos son fundamentalmente lineales y que la distancia entre las instancias y la línea recta es sólo ruido, que puede ignorarse con seguridad.

En un famoso artículo de 1996, David Wolpert demostró que si no se asume absolutamente nada sobre los datos, no hay razón para preferir un modelo a otro. Es lo que se denomina el teorema del almuerzo gratuito (NFL). Para algunos conjuntos de datos, el mejor modelo es un modelo lineal, mientras que para otros es una red neuronal. No hay ningún modelo que a priori garantice que funcione mejor (de ahí el nombre del teorema). La única forma de saber con seguridad qué modelo es el mejor es evaluarlos todos. Como esto no es posible, en la práctica se hacen algunas suposiciones razonables sobre los datos y se evalúan sólo unos pocos modelos razonables. Por ejemplo, para tareas sencillas puede evaluar modelos lineales con varios niveles de regularización, y para un problema complejo puede evaluar varias redes neuronales.
