# Ciencia de datos 
# Sesión 01 - Introducción

## Francisco Valerio López

### 1. Introducción al Machine Learning

El *machine learning* (ML), también conocido como aprendizaje máquina, es un campo de las matemáticas aplicadas y de las ciencias computacionales. Esta área utiliza herramientas de disciplinas matemáticas como la probabilidad, la estadística y la teoría de optimización con el fin de extraer patrones a partir de los datos.

La idea principal detrás del machine learning es el *aprender a través de ejemplos*. La fórmula básica consiste en alimentar a un sistema de machine learning con un montón de ejemplos contenidos en un conjunto de datos (*dataset*) para que el sistema *aprenda* a partir de la información que le presentamos. Es decir, le damos al sistema las entradas y salidas deseadas, y el sistema intenta encontrar cómo hacer que esas entradas generen esas salidas de manera automática, sin programarlo explícitamente. 

Sólo por poner un ejemplo, podemos crear un conjunto de datos con descripciones de automóviles y sus precios. Entonces alimentamos al modelo de machine learning con este dataset y le ''enseñamos'' mostrándole los coches y sus precios. Este proceso se conoce como *entrenamiento* (*training*) o *ajuste* (*fitting*).


<div style="text-align: center">
    <figure>
        <img src='https://i.ibb.co/9h8k0kR/ml-scheme.png' width='425' height='200' /> <br>
        <figcaption> Un algoritmo de ML toma datos de entrada y las salidas deseadas y basándose en esa información produce un modelo.</figcaption>
    </figure>
</div>

Una vez que el modelo ha sido entrenado, podemos utilizarlo para predecir los precios de los autos que no conocemos. Todo lo que necesitamos para hacer machine learning es un conjunto de datos en el que para cada elemento de entrada (un auto) tengamos la salida deseada (el precio).

<div style="text-align: center">
    <figure>
        <img src='https://i.postimg.cc/G3yJ5x5v/machine-learning-predict.png' width='475' height='200' /> <br>
        <figcaption> Cuando se completa el entrenamiento, obtenemos un modelo que puede aplicarse a un nuevo dato de entrada (autos sin precios) para producir la salida.</figcaption>
    </figure>
</div>

Este proceso es muy distinto al que se realiza tradicionalmente en programación. Sin el ML, los analistas y desarrolladores analizan los datos que tienen y tratan de encontrar los patrones de forma manual. Después de ello, elaboran un conjunto de reglas para convertir los datos de entrada en las salidas deseadas. Y finalmente codifican estas reglas de manera explícita utilizando algún lenguaje de programación como Java o Python, y el resultado es lo que conocemos como software. 

<div style="text-align: center">
    <figure>
        <img src='https://i.postimg.cc/3x1xrzdm/mlvscp.png' width='550' height='350' /> <br>
        <figcaption> En el paradigma clásico de programación se establecen explícitamente los patrones y reglas a seguir para que el software genere los resultados esperados. Por su parte un sistema de ML descubre esos patrones automáticamente al aprender a partir de los ejemplos. </figcaption>
    </figure>
</div>

Para mostrar la diferencia entre estos dos acercamientos y para demostrar por qué el ML es útil, consideremos un caso en concreto: vamos a discutir un poco sobre los sistemas de detección de spam. Supongamos que ofrecemos un servicio de e-mail, y que nuestros usuarios han empezado a quejarse porque están recibiendo correos no solicitados con anuncios. Para resolver este problema, queremos implementar un sistema que identifique los mensajes no deseados como spam y que los envíe a la carpeta correspondiente.

La manera más obvia de resolver este problema es echarle un vistazo a los mensajes para ver si existe algún patrón en común. Por ejemplo, podemos revisar el remitente y el contenido. Si encontramos que en efecto existe un patrón en los correos de spam, podemos enlistar los elementos en común y obtener las siguientes reglas para filtrar esos mensajes:

 - Si el remitente = `promociones@online.com`, entonces es **spam**.
 - Si el título contiene la frase `compre ahora con 50% de descuento` y el dominio del remitente es `online.com`, entonces es **spam**.
 - En otro caso, es **no spam**.

Podemos escribir este conjunto de reglas en Python y crear un servicio de detección de spam que implementamos exitosamente. Al principio, el sistema funciona bien y filtra todo el spam, pero tiempo después, nuevos mensajes de spam comienzan a escaparse. Las reglas que establecimos ya no son lo suficientemente buenas para clasificar los correos de forma exitosa.

Para resolver el problema, nuevamente analizamos el contenido de los nuevos mensajes y ahora encontramos que la mayoría contienen la palabra **depósito**. Así que añadimos una nueva regla:

 - Si el remitente = `promociones@online.com`, entonces es **spam**.
 - Si el título contiene la frase `compre ahora con 50% de descuento` y el dominio del remitente es `online.com`, entonces es **spam**.
 - Si el mensaje contiene la palabra `depósito`, entonces es **spam**.
 - En otro caso, **no spam**.

Después de establecer esta nueva regla, implementamos y comenzamos a filtrar mejor el spam, por lo que los usuarios de nuestro e-mail están contentos.

Sin embargo, tiempo después, los usuarios comienzan a quejarse de nuevo: algunas personas utilizan la palabra **depósito** con buenas intenciones, pero nuestro sistema no reconoce ese hecho y también los marca como spam. Entonces para solucionar este problema, ahora nos enfocamos en los correos normales y tratamos de entender en qué son distintos a los mensajes de spam. Después de un rato, descubrimos unos cuantos patrones con los que modificamos la lista de reglas otra vez:

 - Si el remitente = `promociones@online.com`, entonces es **spam**.
 - Si el título contiene la frase `compre ahora con 50% de descuento` y el dominio del remitente es `online.com`, entonces es **spam**.
 - Si el mensaje contiene la palabra `depósito`, entonces:
  - Si el dominio del remitente es `test.com`, entonces es **spam**.
  - Si la longitud de descripción es >= 100 palabras, entonces es **spam**.
 - En otro caso, **no spam**.

 En este ejemplo, le dimos un vistazo a los datos de entrada manualmente y los analizamos en un intento de extraer patrones de ellos. Como resultado del análisis, obtuvimos un conjunto de reglas que transforman los datos de entrada (emails) en dos posibles salidas o resultados (spam o no spam). Ahora imaginemos que repetimos ese proceso cientos de veces. Como resultado, vamos a terminar con un código bastante difícil de mantener y entender. En algún punto, se volverá imposible incluir nuevos patrones en el código sin romper la lógica existente. Así que a largo plazo, será complicado mantener y ajustar las reglas existentes para que el sistema tenga un buen desempeño y minimice los reclamos por spam.  