# Why machine learning 

El aprendizaje automático consiste en extraer conocimiento de los datos.

Es un campo de investigación en la intersección de la estadística, la inteligencia artificial y la informática y también se conoce como análisis predictivo o aprendizaje estadístico.

La aplicación de métodos de aprendizaje automático se ha vuelto omnipresente en los últimos años en la vida cotidiana.

Desde recomendaciones automáticas de qué películas ver, qué comida pedir o qué productos comprar, hasta radio en línea personalizada y reconocer a tus amigos en tus fotos, muchos sitios web y dispositivos modernos tienen algoritmos de aprendizaje automático en su núcleo.

Cuando miras un sitio web complejo como Facebook, Amazon o Netflix, es muy probable que cada parte del sitio contenga múltiples modelos de aprendizaje automático.

Fuera de las aplicaciones comerciales, el aprendizaje automático ha tenido una enorme influencia en la forma en que se realiza hoy **la investigación basada en datos**.

Las herramientas presentadas en este libro se han aplicado a diversos problemas científicos, como la comprensión de estrellas, la búsqueda de planetas distantes, el descubrimiento de nuevas partículas, el análisis de secuencias de ADN y la provisión de tratamientos personalizados contra el cáncer.

Sin embargo, no es necesario que su aplicación sea tan grande o que cambie el mundo como estos ejemplos para beneficiarse del aprendizaje automático.

En este capítulo, explicaremos por qué el aprendizaje automático se ha vuelto tan popular y discutiremos qué tipos de problemas se pueden resolver mediante el aprendizaje automático.

Luego, le mostraremos cómo construir su primer modelo de aprendizaje automático, introduciendo conceptos importantes en el camino.

## Why Machine Learning?

En los primeros días de las aplicaciones "inteligentes", muchos sistemas usaban reglas codificadas a mano de decisiones "si" y "si no" para procesar datos o ajustarse a la entrada del usuario.

Piense en un filtro de correo no deseado cuya función es mover los mensajes de correo electrónico entrantes adecuados a una carpeta de correo no deseado.

Puede crear una lista negra de palabras que resulten en que un correo electrónico se marque como spam.

Este sería un ejemplo del uso de un sistema de reglas diseñado por expertos para diseñar una aplicación "inteligente".

La elaboración manual de reglas de decisión es factible para algunas aplicaciones, particularmente aquellas en las que los humanos tienen un buen conocimiento del proceso a modelar.

Sin embargo, el uso de reglas codificadas a mano para tomar decisiones tiene dos desventajas importantes:

* La lógica necesaria para tomar una decisión es específica de un solo dominio y tarea. Cambiar la tarea, aunque sea levemente, puede requerir una reescritura de todo el sistema.

* El diseño de reglas requiere una comprensión profunda de cómo un experto humano debe tomar una decisión.

Un ejemplo de dónde fallará este enfoque codificado a mano es en la detección de rostros en imágenes.

Hoy en día, todos los teléfonos inteligentes pueden detectar un rostro en una imagen.

Sin embargo, la detección de rostros fue un problema sin resolver hasta tan recientemente como 2001.

El principal problema es que la forma en que los píxeles (que componen una imagen en una computadora) son "percibidos" por la computadora es muy diferente de cómo los humanos perciben un rostro.

Esta diferencia en la representación hace que sea básicamente imposible para un ser humano encontrar un buen conjunto de reglas para describir lo que constituye un rostro en una imagen digital.

Sin embargo, utilizando el aprendizaje automático, simplemente presentar un programa con una gran colección de imágenes de rostros es suficiente para que un algoritmo determine qué características se necesitan para identificar un rostro.

## Problemas que el aprendizaje automático puede resolver

Los tipos de algoritmos de aprendizaje automático más exitosos son aquellos que automatizan los procesos de toma de decisiones al generalizar a partir de ejemplos conocidos.

En esta configuración, que se conoce como aprendizaje supervisado, el usuario proporciona al algoritmo pares de entradas y salidas deseadas, y el algoritmo encuentra una manera de producir la salida deseada dada una entrada.

En particular, el algoritmo puede crear una salida para una entrada que nunca antes había visto sin la ayuda de un humano.

Volviendo a nuestro ejemplo de clasificación de spam, utilizando el aprendizaje automático, el usuario proporciona al algoritmo una gran cantidad de correos electrónicos (que son la entrada), junto con información sobre si alguno de estos correos electrónicos es spam (que es la salida deseada).

Dado un nuevo correo electrónico, el algoritmo producirá una predicción sobre si el nuevo correo electrónico es o no un correo deseado.

Los algoritmos de aprendizaje automático que aprenden de los pares de entrada / salida se denominan algoritmos de aprendizaje supervisado porque un "profesor" supervisa los algoritmos en forma de resultados deseados para cada ejemplo del que aprenden.

Si bien la creación de un conjunto de datos de entradas y salidas suele ser un proceso manual laborioso, los algoritmos de aprendizaje supervisado se comprenden bien y su rendimiento es fácil de medir.

Si su aplicación se puede formular como un problema de aprendizaje supervisado y puede crear un conjunto de datos que incluya el resultado deseado, es probable que el aprendizaje automático pueda resolver su problema.

Entre los ejemplos de tareas de aprendizaje automático supervisadas se incluyen:

*Identificar el código postal a partir de dígitos escritos a mano en un sobre*
Aquí, la entrada es un escaneo de la escritura a mano y la salida deseada son los dígitos reales en el código postal. Para crear un conjunto de datos para crear un modelo de aprendizaje automático, debe recopilar muchos sobres. Luego, puede leer los códigos postales usted mismo y almacenar los dígitos como los resultados deseados.

*Determinar si un tumor es benigno según una imagen médica*  
Aquí la entrada es la imagen y la salida es si el tumor es benigno.

Para crear un conjunto de datos para construir un modelo, necesita una base de datos de imágenes médicas.

También necesita una opinión de un experto, por lo que un médico debe examinar todas las imágenes y decidir qué tumores son benignos y cuáles no.

Incluso podría ser necesario hacer un diagnóstico adicional más allá del contenido de la imagen para determinar si el tumor en la imagen es canceroso o no.

*Detección de actividad fraudulenta en transacciones con tarjeta de crédito*  
Aquí, la entrada es un registro de la transacción de la tarjeta de crédito y la salida es si es probable que sea fraudulenta o no.

Suponiendo que usted es la entidad que distribuye las tarjetas de crédito, recopilar un conjunto de datos significa almacenar todas las transacciones y registrar si un usuario informa alguna transacción como fraudulenta.

Algo interesante a tener en cuenta sobre estos ejemplos es que, aunque las entradas y salidas parecen bastante sencillas, el proceso de recopilación de datos para estas tres tareas es muy diferente.

Si bien la lectura de sobres es laboriosa, es fácil y barata.

La obtención de imágenes y diagnósticos médicos, por otro lado, requiere no solo una maquinaria costosa, sino también un conocimiento experto poco común y costoso, sin mencionar las preocupaciones éticas y las cuestiones de privacidad.

En el ejemplo de detección de fraudes con tarjetas de crédito, la recopilación de datos es mucho más sencilla. Sus clientes le proporcionarán el resultado deseado, ya que informarán sobre el fraude.

Todo lo que tiene que hacer para obtener los pares de entrada / salida de actividad fraudulenta y no fraudulenta es esperar.

**Algoritmos no supervisados** son el otro tipo de algoritmo que cubriremos en este libro.

En el aprendizaje no supervisado, solo se conocen los datos de entrada y no se proporcionan datos de salida conocidos al algoritmo.

Si bien hay muchas aplicaciones exitosas de estos métodos, generalmente son más difíciles de comprender y evaluar.

Algunos ejemplos de aprendizaje no supervisado incluyen:

*Identificación de temas en un conjunto de publicaciones de blog*  
Si tiene una gran colección de datos de texto, es posible que desee resumirla y encontrar temas predominantes en ella.

Es posible que no sepa de antemano cuáles son estos temas o cuántos temas podría haber. Por lo tanto, no hay salidas conocidas.

*Segmentar a los clientes en grupos con preferencias similares*  
Dado un conjunto de registros de clientes, es posible que desee identificar qué clientes son similares y si hay grupos de clientes con preferencias similares.

Para un sitio de compras, estos pueden ser "padres", "ratones de biblioteca" o "jugadores". Debido a que no sabe de antemano cuáles podrían ser estos grupos, o incluso cuántos hay, no tiene resultados conocidos.

*Detectar patrones de acceso anormales a un sitio web*  
Para identificar abusos o errores, a menudo es útil encontrar patrones de acceso que sean diferentes
de la norma.

Cada patrón anormal puede ser muy diferente y es posible que no tenga ningún caso registrado de comportamiento anormal.

Debido a que en este ejemplo solo observa el tráfico y no sabe qué constituye un comportamiento normal y anormal, este es un problema sin supervisión.

## La importancia de procesar los datos para que los entienda la máquina

Tanto para tareas de aprendizaje supervisadas como no supervisadas, es importante tener una representación de sus datos de entrada que una computadora pueda entender.

A menudo, es útil pensar en sus datos como una tabla.

Cada punto de datos sobre el que desea razonar (cada correo electrónico, cada cliente, cada transacción) es una fila, y cada propiedad que describe ese punto de datos (por ejemplo, la edad de un cliente o la cantidad o ubicación de una transacción) es un columna.

Puede describir a los usuarios por su edad, su sexo, cuándo crearon una cuenta y con qué frecuencia han comprado en su tienda en línea.

Puede describir la imagen de un tumor mediante los valores de escala de grises de cada píxel, o tal vez utilizando el tamaño, la forma y el color del tumor.

Cada entidad o fila aquí se conoce como una muestra (o punto de datos) en el aprendizaje automático, mientras que las columnas son las propiedades que describen estas entidades y se denominan características o atributos.

Más adelante en este libro entraremos en más detalles sobre el tema de la construcción de una buena representación de sus datos, lo que se denomina extracción de características o ingeniería de características.

Sin embargo, debe tener en cuenta que ningún algoritmo de aprendizaje automático podrá hacer una predicción sobre datos para los que no tiene información.

Por ejemplo, si la única característica que tiene para un paciente es su apellido, ningún algoritmo podrá predecir su género.

Esta información simplemente no está contenida en sus datos.

Si agrega otra característica que contiene el nombre del paciente, tendrá mucha mejor suerte, ya que a menudo es posible distinguir el género por el nombre de una persona.

## Conozca su tarea y conozca sus datos

Posiblemente, la parte más importante del proceso de aprendizaje automático es comprender los datos con los que está trabajando y cómo se relacionan con la tarea que desea resolver.

No será efectivo elegir al azar un algoritmo y arrojarle sus datos.

Es necesario comprender qué está sucediendo en su conjunto de datos antes de comenzar a construir un modelo.

Cada algoritmo es diferente en términos de qué tipo de datos y para qué configuración de problemas funciona mejor.

Mientras crea una solución de aprendizaje automático, debe responder, o al menos tener en cuenta, las siguientes preguntas:

* What question(s) am I trying to answer? Do I think the data collected can answer
that question?  
* What is the best way to phrase my question(s) as a machine learning problem?  
* Have I collected enough data to represent the problem I want to solve?  
* What features of the data did I extract, and will these enable the right
predictions?  
* How will I measure success in my application?  
* How will the machine learning solution interact with other parts of my research
or business product?

* ¿Qué pregunta(s) estoy tratando de responder? 
* ¿Creo que los datos recopilados pueden responder esa pregunta?  
* ¿Cuál es la mejor manera de expresar mis preguntas como un problema de aprendizaje automático?  
* ¿He recopilado suficientes datos para representar el problema que quiero resolver?  
* ¿Qué características de los datos extraje? ¿Permitirán estas las predicciones?
*¿Cómo mediré el éxito de mi solicitud?  
* ¿Cómo interactuará la solución de aprendizaje automático con otras partes de mi investigación o producto comercial?

En un contexto más amplio, los algoritmos y métodos en el aprendizaje automático son solo una parte de un proceso mayor para resolver un problema en particular, y es bueno tener en cuenta el panorama general en todo momento.

Muchas personas pasan mucho tiempo creando soluciones complejas de aprendizaje automático, solo para descubrir que no resuelven el problema correcto.

Al profundizar en los aspectos técnicos del aprendizaje automático (como lo haremos en este libro), es fácil perder de vista los objetivos finales.

Si bien no discutiremos las preguntas enumeradas aquí en detalle, lo alentamos a que tenga en cuenta todas las suposiciones que pueda estar haciendo, explícita o implícitamente, cuando comience a construir modelos de aprendizaje automático.