# Probabilidad en Machine Learning

El concepto de Probabilidad y sus herramientas tienen uso en el Machine Learning y en la Ciencia de Datos en general.

Recordemos que la probabilidad es un conjunto de herramientas y un lenguaje matemático que nos permite cuantificar la incertidumbre. Y en Machine Learning ¿dónde está la incertidumbre? ¿Cuáles son esas fuentes de incertidumbre?

## Fuentes de incertudumbre

Hablemos de tres fuentes de incertidumbre:

- Datos
- Atributos del modelo
- Arquitectura del modelo

### Datos

En la vida real, recoger y hacer medición de los datos es un proceso imperfecto. Todos los instrumentos de medición tienen un margen de error y este margen de error ya está introduciendo parte de incertidumbre en nuestros datos y por lo tanto representa información imperfecta e incompleta.

### Atributos de un modelo

En Machine Learning hablamos de que un modelo de Machine Learning se alimenta con atributos o variables que también llamamos *predictores*. Con frecuencia estas variables son un subconjunto reducido de toda la realidad del problema que estamos intentando entender o sobre el cuál queremos aplicar un cierto modelo. Esta reducción de variables ya representa también otra capa de incertidumbre.

### Arquitectura del modelo

En matemáticas un modelo siempre se entiende como una representación *simplificada* de la realidad y, al ser esto así, esa representación simplificada por construcción induce otra capa de incertidumbre ya que es información incompleta. La información que estamos considerando es reducida solo por el hecho de simplificar la realidad con el modelo.

Así pues, tenemos tres grandes fuentes de incertidumbre en el Machine Learning. Y estas tres fuentes de incertidumbre son, por supuesto, cuantificables con elementos de probabilidad. Veamos esto con un ejemplo particular: un modelo de clasificación.

![image.png](https://static.platzi.com/media/user_upload/1-7f1c567a-ea6d-4cbd-b151-9eb21c655520.jpg)

En el caso particular de un modelo de clasificación de documentos de texto contamos con un conjunto de documentos de texto que cada uno contiene un tema en particular al cual se refiere. Podemos contar con documentos que hablen de deportes, videojuegos, política, etc. y nuestro modelo debe leer cada uno de esos documentos y, con base en ello, ser capaz de identificar cuál es el tema de conversación o cual es la categoría a la cual ese documento pertenece. Los modelos probabilísticos que hacen clasificaciones de este tipo funcionan, precisamente, asignando una probabilidad a cada una de las categorías (Referenciando a este documento) donde la probabilidad más alta es la probabilidad que nos indicará la categoría a la cual el documento en cuestión pertenece. Puede ser que el modelo tenga como resultado que hay un porcentaje menor en otra categoría pero finalmente asignará la categoría que contenga la mayor probabilidad. Esto es a lo que llamamos un **clasificador probabilístico** y aquí ya tenemos por definición y construcción del modelo el uso de la probabilidad ya que estamos reduciendo el problema a estos números para identificar cuál es la categoría más probable de cada documento.

Veamos un poco más a detalle cómo es el funcionamiento de un modelo.

![image.png](https://static.platzi.com/media/user_upload/2-84ba3506-44dd-46e8-8e3b-72d4330bf8e1.jpg)

En el caso de la imagen anterior, lo que hace este modelo es recibir documentos los cuales contienen una etiqueta cada uno. Esta etiqueta es la categoría/tema al cual se refiere. En la fase de entrenamiento estos documentos pasan por una función que extrae los atributos (es decir, simplifica las variables y no extrae el texto completamente) bajo un esquema en el que previamente se definió cuáles son esos atributos fundamentales del documento que nos ayudarán a hacer la predicción de la categoría y eso es a lo que llamamos el **extractor de los atributos**.

Una vez hecho esto, nuestro documento se ve reducido a un conjunto de atributos como un vector y este vector se pasa como entrada al modelo, a ese algoritmo de Machine Learning para clasificación. También podemos entender a este algoritmo como supervisado ya que le estamos proporcionando unas etiquetas de clasificación y el modelo, con base en ello, sabe cual debería ser el resultado: esta etiqueta.

Una vez finalizada la fase de entrenamiento en la cual el modelo aprendió a relacionar los atributos con las etiquetas correctas, este modelo es puesto en fase de predicción. Nuevos documentos sin etiqueta son pasados por el **extractor de los atributos** y luego entran en el modelo de clasificación y el modelo predice la etiqueta y es así como podemos saber entonces, de qué habla un documento u otro. Es así como los modelos de clasificación funcionan.

## Todas las etapas del modelo

Todas las etapas de un modelo, en ciertos aspectos, involucran Probabilidad. ¿Cómo?

### Diseño

En la fase de entrenamiento, antes de comenzar a darle la entrada de información al modelo (En el caso del ejemplo anterior, los documentos), la extracción de los atributos, etc., lo primero que se hace es elegir el modelo a utilizar. Al elegir el modelo a utilizar (A lo que llamamos **el diseño**) y esto define si el modelo utilizará probabilidad o no. Ciertamente no todos los modelos utilizan probabilidad.

### Entrenamiento

En la siguiente imagen tenemos como ejemplo un diseño de modelo *Naive Bayes*, un modelo que veremos más adelante, que es probabilístico y funciona bastante bien para esta tarea específica de clasificación. Una vez elegido el diseño, se define el entrenamiento que es básicamente que el modelo aprenda la distribución de probabilidad y es una técnica que se utiliza para saber qué probabilidades se le asignan a cada una de las posibles ocurrencias de los datos. Dentro de esto existe un esquema llamado **MLE** que es la **Estimación de Máxima Verosimilitud** o **Maximum Likelyhood Estimation** por sus siglas en inglés, que es una técnica eminentemente probabilística.

### Calibración

Luego de esto tenemos la calibración que es el ajuste de hiperparámetros. Entendiendo que los parámetros son los atributos de las muestras (Documentos a clasificar en este caso) y que antes del entrenamiento ya se calibraron para entrar al modelo, lo que se conoce como calibración del modelo como tal es el ajuste de hiperparámetros que son parámetros configurables que afectan el comportamiento y rendimiento del modelo. Estos parámetros que están fuera de la optimización del modelo son a los que llamamos hiperparámetros. A veces también se utilizan algoritmos probabilísticos como la optimización bayesiana

De esta manera tenemos que entender que la arquitectura de un modelo, cómo se hará el entrenamiento y la calibración de hiperparámetros determinará un mejor o peor funcionamiento de este. 

### Predicción

Posteriormente en la predicción del modelo, hay una parte a la que se le conoce como *interpretación del modelo*. A veces, cuando un modelo de Machine Learning es demasiado complejo, dificulta su interpretación y con frecuencia, si el modelo es probabilístico requiere que la interpretación utilice conceptos de probabilidad. La persona que interprete el modelo debe entender muy bien cómo funciona el cálculo de probabilidades del modelo para obtener una interpretación correcta del mismo.

Y es así como vemos en diferentes partes de todo el procesamiento del modelo, desde el entrenamiento hasta la predicción, cómo es que se usa la probabilidad. Y esto es en general, no sólo para modelos de clasificación sino para muchas otras tareas de Machine Learning supervisado y no supervisado.

![image.png](attachment:image.png)

----
**Vector**: Es una entidad matemática que representa una colección de datos o características. Un vector puede ser un conjunto de números organizados en una única fila o columna. Estos números pueden representar diferentes tipos de datos, como características de entrada, etiquetas, coeficientes de peso, entre otros.