# Capítulo 1. Panorámica del Machine Learning

# Indice

+ [¿Qué es Machine Learning?](#Qué-es-Machine-Learning)
+ [¿Por qué usar Machine Learning?](#Por-qué-usar-Machine-Learning)
+ [Tipos de Sistemas de Machine Learning](#Tipos-de-Sistemas-de-Machine-Learning)
 + [Aprendizaje supervisado/no supervisado](#Aprendizaje-supervisado-no-supervisado)
   + [Aprendizaje supervisado](#Aprendizaje-supervisado)
   + [Aprendizaje no supervisado](#Aprendizaje-no-supervisado)
   + [Aprendizaje semisupervisado](#Aprendizaje-semisupervisado)
   + [Aprendizaje por reforzamiento](#Aprendizaje-por-reforzamiento)
 + [Aprendizaje por lotes y online](#Aprendizaje-por-lotes-y-online)
   + [Aprendizaje por lotes](#Aprendizaje-por-lotes)
   + [Aprendizaje online](#Aprendizaje-online)
 + [Aprendizaje basado en instancia versus basado en modelo](#Aprendizaje-instancia-vs-modelo)

Cuando la mayoría de las personas escuchan "Machine Learning", se imaginan un robot: un mayordomo fiel o un Terminator mortal, dependiendo de a quién se le pregunte. Pero Machine Learning no es solo una fantasía futurista, ya está aquí. De hecho, ha existido durante décadas en algunas aplicaciones especializadas, como el *reconocimiento óptico de caracteres* (OCR). Pero la primera aplicación de ML que realmente se convirtió en popular, mejorando la vida de cientos de millones de personas, surgió en el mundo en la década de 1990: era el *filtro de spam*. No es exactamente un Skynet consciente de sí mismo, pero técnicamente se puede calificar como aprendizaje automático (en realidad, ha aprendido tan bien que ya no es necesario marcar un correo electrónico como spam).

Le siguieron cientos de aplicaciones de ML que ahora funcionan silenciosamente con cientos de productos y funciones que usamos regularmente, desde recomendaciones de productos hasta búsqueda por voz. ¿Dónde comienza y dónde termina el aprendizaje automático? ¿Qué significa exactamente que una máquina *aprenda* algo? Si descargo una copia de Wikipedia, ¿mi computadora realmente "aprendió" algo? ¿De repente es más inteligente? En este capítulo comenzaremos aclarando qué es el aprendizaje automático y por qué es posible que quiera utilizarlo.

Luego, antes de comenzar a explorar el continente de Machine Learning, echaremos un vistazo al mapa y aprenderemos sobre las principales regiones y los hitos más notables: aprendizaje supervisado versus no supervisado, aprendizaje en línea versus aprendizaje por lotes, aprendizaje basado en instancias versus aprendizaje basado en modelos. Luego veremos el flujo de trabajo de un proyecto típico de ML, discutiremos los principales desafíos que puede enfrentar y cubriremos cómo evaluar y ajustar un sistema de Machine Learning.

Este capítulo presenta muchos conceptos fundamentales (y jerga) que todo científico de datos debe saber de memoria. Será una descripción general de alto nivel (el único capítulo sin mucho código), todo bastante simple, pero debe asegurarse de que todo esté cristalino antes de continuar con el resto del libro. ¡Así que tome un café y comencemos!

## ¿Qué es Machine Learning? <a name="Qué-es-Machine-Learning"></a>

Machine Learning es la ciencia (y arte) de programar ordenadores para que puedan *aprender de los datos*.

Esta es una definición ligeramente más general:

> *Machine learning es el campo de estudio que proporciona a los ordenadores la habilidad de aprender sin ser explícitamente programados (Arthur Samuel, 1959)*

Y otra más orientada a la ingeniería:

> *Un programa de ordenador se dice que aprende de una experiencia E con respecto a alguna tarea T y alguna medida de la ejecución P, si su ejecución en T, medida por P, mejora con la experiencia E. (Tom Mitchell, 1997)*

Por ejemplo, tu filtro de spam es un programa de Machine Learning que puede aprender a marcar spam dados ejemplos de emails de spam (por ejemplo, marcados por usuarios) y ejemplos de emails normales (no spam, también llamados "*ham*"). Los ejemplos que el sistema usa para aprender son llamados *conjunto de entrenamiento* (*training set* o *sample*). En ese caso, la tarea T es marcar como spam nuevos mails, la experiencia E son los *datos de entrenamiento* y la medida de la ejecución P necesita ser definida. Por ejemplo, podemos usar el ratio de emails clasificados correctamente. Esta medida particular de la ejecución es llamada *precisión* (*accuracy*) y es utilizada a menudo en las tareas de clasificación.

Si solo descargamos una copia de Wikipedia nuestro ordenador tiene muchos más datos, pero no es de repente mejor en ninguna tarea. Por lo tanto, no es Machine Learning.

## ¿Por qué usar Machine Learning? <a name="Por-qué-usar-Machine-Learning"></a>

Consideremos cómo se podría escribir un filtro de spam usando técnicas de programación tradicionales:

1. Primero echaríamos un vistazo a cómo es típicamente el spam. Podemos notar que algunas palabras o frases (como por ejemplo "para ti", "tarjeta de crédito", "gratis" e "increible") tienden a aparecer mucho en el asunto. Quizás podríamos notar algunos otros patrones en el nombre del remitente, en el cuerpo del correo, etc.

2. Escribiríamos un algoritmo de detección para cada uno de los patrones que has descubierto y el programa marcaría emails como spam si se detectan varios de estos patrones.

3. Probaríamos el programa y repetiríamos los pasos 1 y 2 hasta que fuera los suficientemente bueno.

![spam_traditional](images/ch01/spam_traditional.png)

Dado que el problema no es trivial, nuestro programa se convertirá en un largo listado de complejas reglas, bastante difícil de mantener.

En contraste, un filtro de spam basado en técnicas de Machine Learning aprende automáticamente qué palabras y frases son buenos predictores del spam, detectando patrones de palabras inusualmente frecuentes en los ejemplos de spam en comparación con ejemplos normales. El programa es mucho más corto, fácil de mantener y probablemente más preciso.

![spam_ml](images/ch01/spam_ml.png)

Además, si los spammers advierten que todos sus emails conteniendo la palabra "gratis" son bloqueados, podrían empezar a escribir en su lugar "gratuito". Un filtro de spam usando técnicas de programación tradicional necesitaría ser actualizado para marcar los emails con la palabra "gratuito". Si los spammer siguen trabajando, deberá seguir escribiendo nuevas reglas para siempre. Por el contrario, un filtro de spam basado en técnicas de Machine Learning advertirá automáticamente que "gratuito" se ha convertido inusualmente frecuente en el correo spam por los usuarios y los marcará sin tu intervención.

![spam_ml_adapt](images/ch01/spam_ml_adapt.png)

Otro área donde brilla el Machine Learning es en aquellos problemas demasiado comnplejos para los enfoques tradicionales o donde no disponemos de un algoritmo. Por ejemplo, consideremos el reconocimiento del habla: digamos que queremos empezar escribiendo un simple programa que distinga las palabras "uno" y "dos". Podríamos codificar un algoritmo que mida la intensidad del sonido y sepa distinguir los unos de los doses. Obviamente esta técnica no escalará a miles de palabras habladas por millones de personas muy diferentes en entornos ruidosos y en docenas de lenguajes. La mejor solución (al menos hoy) es escribir un algoritmo que aprenda por sí mismo, proporcionádole muchos ejemplos de cada palabra.

Finalmente, Machine Learning puede ayudar a los humanos a aprender: los algoritmos de ML pueden inspeccionarse para ver lo que han aprendido (aunque para algunos algoritmos esto puede ser complicado). Por ejemplo, una vez que el filtro de spam ha sido entrenado con suficiente spam puede ser inspeccionado fácilmente para revelar la lista de palabras y las combinaciones de éstas que cree que son los mejores predictores de spam. Algunas veces esto revelará relaciones insospechadas o nuevas tendencias y, por lo tanto, nos conducirá a una mejor comprensión del problema.

La aplicación de técnica de ML para profundizar en grandes cantidades de datos pueden ayudar a descubrir patrones que no eran evidentes de inmediato. Esto es llamado *minería de datos* (*data mining*)

![ml_data_mining](images/ch01/ml_data_mining.png)

En resumen, Machine Learning es ideal para:

- Problemas donde las soluciones existentes requieran de mucho ajuste manual o grandes listas de reglas: un algoritmo de Machine Learning a menudo puede simplificar el código y una mejor ejecución.
- Problemas complejos donde no existe una buena solución usando enfoques tradicionales: las mejores técnicas de Machine Learning pueden encontrar una solución.
- Entornos cambiantes: un sistema de Machine Learning puede adaptarse a los nuevos datos.
- Obtener revelaciones sobre problemas complejos y grandes cantidades de datos.

## Tipos de Sistemas de Machine Learning

Hay muchos tipos diferentes de sistemas de Machine Learning que son útiles para clasificarlos en amplias categorías que son:

- Si son o no entrenados con supervisión humana (supervisados, no supervisados, semisupervisados y aprendizaje por reforzamiento)
- Si pueden o no aprender incrementalmente al vuelo (aprendizaje online versus por lotes)
- Si pueden o no trabajar simplemente comparando nuevos puntos de datos para conocer nuevos puntos de datos, en lugar de detectar patrones en los datos de entrenamiento y construir un modelo predictivo, al igual que hacen los científicos (aprendizaje basado en instancia versus basado en modelos)

Estos criterios no son excluyentes; puedes combinarlos de la forma que se quiera. Por ejemplo, un filtro de spam de última generación puede aprender al vuelo usando un modelo de red neuronal profunda entrenada usando ejemplos de spam y no spam, lo que lo convierte en un sistema de aprendizaje supervisado online basado en modelo.

Veamos cada uno de estos criterios un poco más de cerca.

### Aprendizaje supervisado/no supervisado <a name="Aprendizaje-supervisado-no-supervisado"></a>

Los sistemas de Machine Learning pueden clasificarse según la cantidad y el tipo de supervisión que reciben durante el entrenamiento. Existen cuatro grandes categorías: aprendizaje supervisado, aprendizaje no supervisado, aprendizaje semisupervisado y aprendizaje por reforzamiento.

#### Aprendizaje supervisado

En el aprendizaje supervisado, los datos de entrenamiento que se proporcionan al algoritmo incluyen las soluciones deseadas, llamadas *etiquetas* (*labels*).

![ml_supervised_labeled](images/ch01/ml_supervised_labeled.png)

Una tarea típica del aprendizaje supervisado es la *clasificación*. El filtro de spam es un buen ejemplo: es entrenado con muchos mails de ejemplo con su *clase* (spam o no spam) y debe aprender cómo clasificar los nuevos emails.

Otra típica tarea es predecir un valor numérico *objetivo* (*target*), como puede ser el precio de un coche, dadas una serie de *características* (*features*) (kilometraje, antiguedad, marca, etc.) llamadas *predictores* (*predictors*). Este tipo de tarea se llama *regresión*. Para entrenar al sistema se necesita proporcionar muchos ejemplos de coches, incluyendo tanto los predictores como sus etiquetas (por ejemplo, sus precios).

---
> Dato curioso sobre la regresión: este extraño nombre es un término estadístico introducido por Francis Galton mientras estudiaba el hecho de que los hijos de personas altas tienden a ser más bajos que sus padres. Como los niños eran más bajos, llamó a esta *regresión a la media*. Este nombre se aplicó luego a los métodos que utilizó para analizar las correlaciones entre las variables.
---

En Machine Learning un *atributo* es un tipo de dato (por ejemplo, el kilometraje), mientras que una *característica* tiene varios significados dependiendo del contexto, pero generalmente significa un atributo más su valor (por ejemplo, "kilometraje = 15.000"). Sin embargo, muchas personas usan la palabra *atributo* y *característica* de forma equivalente.

![regresion](images/ch01/regresion.png)

Tengamos en cuenta que algunos algoritmos de regresión pueden ser usados también para la clasificación y viceversa. Por ejemplo, la *regresión logística* se usa comunmente para la clasificación, ya que puede generar un valor que corresponde a la probabilidad de pertenecer a una clase dada (por ejemplo, 20% de probabilidad de ser spam).

Aquí tenemos algunos de los algoritmos de aprendizaje supervisado más importantes:

+ k-Vecinos más cercanos (*k-Nearest Neighbors*)
+ Regresión Lineal
+ Regresión Logística
+ Maquinas de Soporte Vectorial (*Support Vector Machines* - SVM)
+ Arboles de decisión y Bosques Aleatorios (*Decision Trees / Random Forests*)
+ Redes neuronales

---
> Algunas arquitecturas de redes neuronales pueden ser no supervisadas, tales como las máquinas autocodificadoras y restringidas de Bolzmann. También pueden ser semisupervisadas como en las redes de creencia profundas y pre-entrenamiento no supervisado.
---

#### Aprendizaje no supervisado

En el *aprendizaje no supervisado*, como se puede suponer, los datos de entrenamiento no están etiquetados. El sistema intenta aprender sin un profesor.

![ml_no_supervised](images/ch01/ml_no_supervised.png)

Aquí hay algunos de los más importantes algoritmos de aprendizaje no supervisado:

+ Clustering
 + k-Means
 + Análisis jerárquico de agrupación - *Hierarchical Cluster Analysis (HCA)*
 + Expectativa de Maximización (*Expectation Maximization*)
+ Visualización y reducción de dimensionalidad
 + Análisis de componentes principales (PCA)
 + Kernel PCA
 + Embebido local lineal (*Locally-Linear Embedding* - LLE)
 + t-distributed Stochastic Neighbor Embedding (t-SNE)
+ Aprendizaje por regla de asociación
 + Apriori
 + Eclat
 
Por ejemplo, digamos que tenemos muchos datos sobre los visitantes de nuestro blog. Puede que queramos ejecutar un algoritmo de *agrupación* (clustering) para intentar detectar grupos de visitantes similares. En ningún momento se le dice al algoritmo a qué grupo pertenece un visitante: encuentra esas conexiones sin nuestra ayuda. Por ejemplo, puede notar que el 40% de los visitantes son hombres que les gustan los comics y leen generalmente nuestro blog por la noche, mientras que el 20% son jóvenes amantes de la ciencia ficción que lo visitan durante el fin de semana, y así sucesivamente. Si usamos un algoritmo de *agrupación jerárquico* podemos subdividir cada grupo en grupos más pequeños. Esto puede ayudarnos a orientar nuestros posts a cada grupo.

![clustering](images/ch01/clustering.png)

Los algoritmos de *visualización* también son buenos ejemplos de algoritmos de supervisión no supervisados: les proporcionas una gran cantidad de datos completos sin etiquetar y dan como resultado representaciones 2D o 3D de nuestros datos que pueden ser fácilmente visualizados. Estos algoritmos intentan preservar la mayor cantidad de estructura posible (tratando de evitar que los clusters de entrada se superpongan en la visualización), así podemos comprender cómo se organizan los datos y quizás identificar patrones insospechados.

A continuación se muestra un ejemplo de visualización t_SNE resaltando los clusters semánticos:

![t_sne](images/ch01/t_sne_visualization.png)

---
> Nótese cómo los animales están bastante bien separados de los vehículos, cómo los caballos están cerca de los ciervos pero lejos de las aves, etc.
---

Una tarea relacionada es la *reducción de la dimensionalidad*, en la cual el objetivo es simplificar los datos sin perder demasiada información. Una forma de hacer esto es fusionar varias características correlacionadas en una sola. Por ejemplo, el kilometraje de un coche puede estar muy correlacionado con su antiguedad, así que el algoritmo de reducción de la dimensionalidad las fusionará en una única característica que represente el desgaste del coche. Ha esto se denomina *extracción de características* (feature extraction).

A menudo resulta una buena idea intentar reducir la dimensión de nuestros datos de entrenamiento usando un algoritmo de reducción de la dimensionalidad antes de alimentar a otro algoritmo de Machine Learning (como puede ser un algoritmo de aprendizaje supervisado). Se ejecutará mucho más rápido, los datos ocuparán mucho menos espacio en memoria y disco y, el algunos casos, tendrá un mejor rendimiento.

Otra importante tarea no supervisada es la *detección de anomalías*. Por ejemplo, la detección de transacciones inusuales de tarjetas de crédito para prevenir el fraude, la detección de defectos de fabricación o la eliminación automática de valores atípicos de un base de datos antes de alimentar a otro algoritmo de aprendizaje. El sistema está entrenado con instancias normales y cuando ve una nueva instancia puede decir si parece normal o es probable que sea una anomalía.

![anomaly](images/ch01/anomaly.png)

Por último, otra tarea no supervisada común es el *aprendizaje por regla de asociación*, en el cual el objetivo es profundizar en una gran cantidad de datos y descubrir relaciones interesantes entre los atributos. Por ejemplo, supongamos que tenemos un supermercado. Ejecutar una regla de asociación en nuestros registros de ventas puede revelarnos que las personas que compran salsa barbacoa y patatas fritas también suelen comprar carne. Por lo tanto, es posible que queramos colocar estos productos cerca el uno del otro.

#### Aprendizaje semisupervisado

Algunos algoritmos pueden manejar datos de entrenamiento parcialmente etiquetados, normalmente muchos datos sin etiquetar y unos pocos datos etiquetados. Esto se llama *aprendizaje semisupervisado*.

Algunos servicios de hospedaje de fotos, como Google Photos, son buenos ejemplos de esto. Una vez que subes todas tus fotos familiares al servicio, reconoce automáticamente que la misma persona A aparece en las fotos 1, 5 y 11, mientras que otra persona B aparece en las fotos 2, 5 y 7. Esta es la parte no supervisada del algoritmo (clustering). Ahora todo lo que necesita el sistema es que le digamos quiénes son esas personas. Solo una etiqueta por persona y es capaz de nombrar a cada uno en cada foto, lo cual es útil en la búsqueda de fotos. \[*Esto es cuando el sistema trabaja perfectamente. En la práctica, a menudo crea unos pocos clusters por persona y algunas veces mezcla dos personas que parecen similares, así que necesita proporcionarles algunas etiquetas por persona y eliminar manualmente algunos clusters*].

![semisupervised](images/ch01/semisupervised.png)

La mayoría de los algoritmos semisupervisados son combinaciones de algoritmos supervisados y no supervisados. Por ejemplo, las *redes de creencia profundas (DBNs)* están basadas en componentes no supervisados llamados *redes restringidas de Boltzmann (RBMs)* apiladas una encima de la otra. Las RBMs son entrenadas secuencialmente de una forma no supervisada y posteriormente todo el sistema es ajustado usando técnicas de aprendizaje supervisado.

#### Aprendizaje por reforzamiento

El *aprendizaje por reforzamiento* es una bestia muy diferente. El sistema de aprendizaje, llamado *agente* en este contexto, puede observar el entorno, seleccionar y ejecutar acciones y obtener recompensas a cambio (o penalizaciones en forma de recompensas negativas, como se ven en la figura siguiente). Debe aprender entonces por si mismo la mejor estrategia, llamada *política*, para obtener la mayor recompensa con el tiempo. Una política define que acción debe elegir el agente cuando se encuentra en una situación dada.

![reinforcement](images/ch01/reinforcement.png)

Por ejemplo, muchos robots implementan algoritmos de aprendizaje por reforzamiento para aprender a caminar. El programa AlphaGo de DeepMind también es un buen ejemplo de Aprendizaje por Reforzamiento: saltó a los titulares en marzo de 2016 cuando venció al campeón del mundo Lee Sedo al juego de *Go*. Aprendió su política ganadora analizando millones de partidas y después jugando muchas partidas contra sí mismo. Téngase en cuenta que su aprendizaje se desactivó durante sus partidas contra el campeón. AlphaGo solo aplicó las políticas que había aprendido.

### Aprendizaje por lotes y online

Otro criterio usado para clasificar los sistemas de Machine Learning es si puede o no el sistema aprender incrementalmente a partir de un flujo de datos entrantes.

#### Aprendizaje por lotes

En el *aprendizaje por lotes* el sistema es incapaz de aprender incrementalmente: debe ser entrenado usando todos los datos disponibles. Generalmente esto tomará mucho tiempo y recursos de computación, así que normalmente se realiza offline. Primero se entrena el sistema y después de lanza en producción y se ejecuta sin más aprendizaje, sólo aplica lo aprendido. Esto se llama *aprendizaje offline*.

Si queremos que un sistema de aprendizaje por lotes aprenda nuevos datos (como por ejemplo un nuevo tipo de smap), necesitamos entrenar una nueva versión del sistema desde cero en el conjunto de datos completo (no solo los nuevos datos, sino también los antiguos), entonces paramos en anterior sistema y los reemplazamos por el nuevo.

Afortunadamente, el proceso global de entrenamiento, evaluación y lanzamiento de un sistema de Machine Learning se puede automatizar con bastante facilidad, por lo que incluso un sistema de aprendizaje por lotes puede adaptarse al cambio. Simplemente actualizamos los datos y entrenamos una nueva versión del sistema desde cero tantas veces como sea necesario.

Esta solución es simple y a menudo funciona bien, pero el entrenamiento con el conjunto de datos completo puede llevar muhas horas, así que normalmente solo se entranaría un nuevo sistema cada 24 horas o incluso semanalmente. Si el sistema debe adaptarse rápidamente a datos cambiantes (por ejemplo, para predecir precios de acciones) necesitaremos una solución más reactiva.

Además, el entrenamienmto sobre el conjunto de datos completo requieres de muchos recursos de computación (CPU, espacio de memoria, espacio de disco, disco I/O, red I/O, etc.). Si tenemos muchos datos y cada día automatizamos el sistema desde cero, terminará costando mucho dinero. Si la cantidad de datos es enorme, puede ser incluso imposible usar un algoritmo de aprendizaje por lotes.

Finalmente, si nuestro sistema necesita ser capaz de aprender autónomamente y tiene recursos limitados (por ejemplo, una aplicación de móvil o un vehículo en Marte), llevar grandes cantidades de datos y consumir muchos recursos para entrenar durante horas cada día es algo bloqueante.

Afortunadamente, en todos estos casos la mejor opción es usar algoritmos que son capaces de aprender incrementalmente.

#### Aprendizaje online

En el *aprendizaje online* entrenamos al sistema incrementalmente alimentando las instancias de datos secuencialmente, ya sea individualmente o en pequeños grupos llamados *mini-lotes*. Cada paso de aprendizaje es rápido y económico, así el sistema puede aprender nuevos datos al vuelo, tal como llegan.

![online_learning](images/ch01/online_learning.png)

El aprendizaje online es ideal para sistemas que reciben datos como un flujo continuo (por ejemplo, precios de acciones) y necesitan adaptarse rápidamente o autónomamente. También es una buena opción si tienes recursos computacionales limitados: una vez que un sistema online ha aprendido nuevas instancias de datos no las necesita más, asi que podemos descartarlas (a menos que queramos volver a un estado anterior y "reproducir" los datos). Esto puede ahorar una gran cantidad de espacio.

Los algoritmos de aprendizaje online también puede usarse para entrenar sistemas en grandes conjuntos de datos que no pueden entrenarse en la memoria principal de una máquina (este se llama aprendizaje *out-of-core*). El algoritmo carga parte de los datos, ejecuta una fase de entrenamiento con esos datos y repite el proceso hasta haber ejecutado todos los datos. Generalmente este proceso se realiza offline (por ejemplo, no en sistemas en vivo), por lo que *aprendizaje online* puede ser un nombre confuso. Piensa en ello como si fuera un *aprendizaje incremental*.

![online_learning_huge](images/ch01/online_learning_huge.png)

Un parámetro importante en los sistemas de aprendizaje online es cómo de rápido debe adaptarse a los datos cambiantes: esto se llama *ratio de aprendizaje*. Si se define un alto ratio de aprendizaje, el sistema se adaptará rápidamente a los nuevos datos, pero también tenderá a olvidar rápidamente los antiguos datos (no queremos que un filtro de spam marque sólo los últimos tipos de spam que mostró). A la inversa, si se define un bajo ratio de aprendizaje, el sistema tendrá más inercia, es decir, aprenderá más despacio pero será menos sensible al ruido en los datos nuevos o a secuencias de de puntos de datos no representativos.

Un gran desafío con el aprendizaje online es que si se proporcionan malos datos al sistema, el rendimiento del sistema disminuirá gradualmente. Si estamos hablando de un sistema en vivo, tus clientes lo notarán. Por ejemplo, los malos datos podrían provenir del malfuncionamiento de un sensor de un robot o de alguien que envía spam a un motor de búsqueda para intentar un ranking alto en los resultados de búsqueda. Para reducir este riesgo, necesitas monitorizar el sistema de cerca y desactivar rápidamente el aprendizaje (y posiblemente revertirlo a un estado de trabajo previo) si detectas una caída en el rendimiento. También podrías monitorizar los datos entrantes y reaccionar a los datos anormales (por ejemplo, usando algún algoritmo de detección de anomalías).

### Aprendizaje basado en instancia versus basado en modelo <a name="Aprendizaje-instancia-vs-modelo"></a>