# ¿Porqué usar modelos gráficos probabilísticos?

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://p0.pikrepo.com/preview/226/186/artificial-intelligence-concept.jpg" width="350px" height="180px" />

> **Objetivos:**
> - Instalar las herramientas que estaremos usando durante el curso.
> - Aprender a usar de manera básica las herramientas.
> - Comprender la relevancia de los modelos gráficos probabilísticos y sus posibles aplicaciones a través de un ejemplo.

> **Referencias:**
> 
> - https://www.anaconda.com/products/individual
> - https://pgmpy.org/
> - https://github.com/pgmpy
> - https://github.com/pgmpy/pgmpy_notebook/
> - Probabilistic Graphical Models: Principles and Techniques, By Daphne Koller and Nir Friedman.


<p style="text-align:right;"> Imagen recuperada de: https://p0.pikrepo.com/preview/226/186/artificial-intelligence-concept.jpg.</p>

___

## 1. Herramientas computacionales

### 1.1. Instalación de herramientas básicas

### [python](https://www.python.org)
<img style="float: left; margin: 0px 0px 15px 15px;" src="https://www.python.org/static/community_logos/python-logo.png" width="300px" height="300px" alt="atom" />

### [anaconda](https://www.anaconda.com/products/individual)
<img style="float: left; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/en/c/cd/Anaconda_Logo.png" width="300px" height="300px" />

### [jupyter](http://jupyter.org)
<img style="float: left; margin: 0px 0px 15px 15px;" src="http://jupyter.org/assets/main-logo.svg" width="200px" height="200px" />

### [pgmpy](https://pgmpy.org/)
<img style="float: left; margin: 0px 0px 15px 15px;" src="https://pgmpy.org/_static/logo.png" width="300px" height="300px" />

### 1.2. Notebooks de jupyter

Además de poder insertar celdas para programar, tiene otras funcionalidades. Como ya se dieron cuenta toda esta presentación esta hecha con el notebook. Además de eso, también se puede incluir directamente dentro de este documento, texto en [Markdown](https://confluence.atlassian.com/bitbucketserver/markdown-syntax-guide-776639995.html). 

Adicionalmente, uno de los atractivos más relevantes (personalmente) es que puedes escribir ecuaciones estilo $\LaTeX$, esto es gracias al proyecto [MathJax](https://www.mathjax.org) el cual se especializa en que podamos publicar matemáticas en línea. A continuación, se muestra una ejemplo. 

> **Definición.** Decimos que una variable aleatoria $X$ tiene una distribución normal (o Gaussiana) con media $\mu$ y varianza $\sigma^2$, denotada por $X \sim \mathcal{N}(\mu;\sigma^2)$, si tiene la función de densidad de probabilidad

> $$p(x) = \frac{1}{\sqrt{2\pi} \sigma} \exp\left\{-\frac{(x-\mu)^2}{2 \sigma^2}\right\}.$$

### 1.3. Actualización del repositorio del curso

### [git](https://git-scm.com)
<img style="float: right; margin: 15px 15px 15px 15px;" src="http://conociendogithub.readthedocs.io/en/latest/_images/Git.png" title="git" width="180" height="50">

`git` es un software (de código abierto) de control de versiones diseñado por *Linus Torvalds*, pensando en la eficiencia y la confiabilidad del mantenimiento de versiones de aplicaciones cuando éstas tienen un gran número de archivos de código fuente.</p>

Se llama control de versiones a la gestión de los diversos cambios que se realizan sobre los elementos de algún producto o una configuración del mismo. Una versión, revisión o edición de un producto, es el estado en el que se encuentra el mismo en un momento dado de su desarrollo o modificación.</p>

`git` es independiente de `GitHub`, y es el programa que se usa para gestionar todos los cambios en las versiones de un proyecto (individual o colaborativo, local o de acceso remoto).

### [GitHub](https://github.com)

<img style="float: right; margin: 15px 15px 15px 15px;" src="https://c1.staticflickr.com/3/2238/13158675193_2892abac95_z.jpg" title="git" width="180" height="50">

`GitHub` es una compañía que ofrece servicios de *hosting* para repositorios de `git`, y es la forma más popular para trabajar con el control de versiones que brinda `git` de forma colaborativa. En pocas palabras, permite que tanto tú como otras personas del mundo trabajen juntos en proyectos, haciendo control de versiones con `git`.

De forma que usando `git` y `GitHub` en conjunto se puede trabajar tanto:
- De forma local: repositorios en tu equipo, sin necesidad de conexión a internet (usando únicamente `git`).
- De forma remota: repositorios remotos (compartidos) que no están necesariamente en tu máquina.

**Importante**: se recomienda crear una cuenta *seria*, no solo porque la vamos a utilizar continuamente en el curso, sino porque probablemente sea parte importante de su carrera profesional.

### [GitKraken](https://www.gitkraken.com/)

<img style="float: right; margin: 15px 15px 15px 15px;" src="https://www.gitkraken.com/downloads/brand-assets/gitkraken-keif-teal-sq.png" title="git" width="180" height="50">

**Usamos `git` desde una interfaz gráfica :)**

Todos los procedimientos con `git` se pueden correr desde la *consola*. Sin embargo, este modo de utilizar `git` puede ser tedioso para algunos (esto no solo ocurre con `git`).

Por ello, `git` viene con algunas herramientas *GUI* (Graphical User Interface) por defecto con su instalación. Aún así, existen varias GUI desarrolladas por otras compañías para brindar una experiencia más cómoda según el sistema operativo.

`GitKraken` es entonces una de estas GUI, **gratuita para el uso no comercial**, que tiene versiones para los sistemas operativos *Windows*, *Mac* y *Linux*. La estaremos usando en el curso por su versatilidad.

### Seguir un proyecto de otra persona
Como ejemplo, van a seguir el proyecto de la asignatura **porinvv2020**.

Los siguientes pasos nos enseñarán como mantener nuestro repositorio local actualizado con el repositorio de la asignatura.
1. Entrar al repositorio https://github.com/esjimenezro/porinvv2020.
2. En la esquina superior derecha, dar click en *fork* y esperar un momento. Esta acción copia en su cuenta de `GitHub` un repositorio idéntico al de la materia (con el mismo nombre).
3. Desde `GitKraken`, clonar el repositorio (el que ya está en su cuenta).
4. En la pestaña *REMOTE* dar click en el signo `+`.
    - Picar en `GitHub`.
    - Desplegar la pestaña y elegir esjimenezro/porinvo20191.
    - Picar en *Add remote*.
5. <font color=red>Añadiré un nuevo archvo en el repositorio de la materia y ustedes verán qué pasa en `GitKraken`</font>.
6. Arrastrar el repositorio remoto ajeno a la rama *master* y dar click en la opción *Merge esjimenezro/master into master*. Ya el repositorio local está actualizado.
7. Para actualizar el repositorio remoto propio hacer un *push*.

___
## 2. Motivación

### 2.1. Nada mejor que un ejemplo...

> Ejemplo tomado de [aquí](https://github.com/pgmpy/pgmpy_notebook/blob/master/notebooks/1.%20Introduction%20to%20Probabilistic%20Graphical%20Models.ipynb).

La mayoría de las tareas requieren de una **persona o un sistema automático que razone** (que llegue a conclusiones con base en la información disponible). 

Como respuesta a esta situación, el área de aprendizaje de máquinas ha cobrado una gran fuerza en las últimas décadas. Los algoritmos de aprendizaje de máquinas operan mediante la construcción de un modelo usando conjuntos de datos ejemplares, y luego se usa el modelo para hacer predicciones y tomar decisiones.

Para ejemplificar lo anterior, consideremos el escenario en el que una empresa de flores, nos pide predecir el tipo de flor dadas las medidas del tallo (longitud y ancho). Lo anterior, debido a que los proveedores de la empresa entregan las flores revueltas y es importante separarlas.

Usamos el conjunto de datos `iris` disponible a través de la librería de sklearn.

In [None]:
# Importamos librerías (sklearn.datasets.load_iris, pandas y numpy)


In [None]:
# Cargamos datos (tomamos las partes enteras de las longitudes, por simplicidad)


Exploremos un poco los datos

In [None]:
# Imprimimos algunos registros del dataframe


In [None]:
# Conteo de valores para cada variable


El tipo de flor correspondiente a cada valor de la variable objetivo está relacionado en la siguiente tabla:

| Tipo de flor | Número |
| ------------ | ------ |
| Setosa       | 0      |
| Versicolor   | 1      |
| Virginica    | 2      |

In [None]:
# Importar matplotlib.pyplot


In [None]:
# Gráfico de dispersión de puntos (largo vs. ancho), coloreando de acuerdo al tipo de flor.
# Se recomienda añadir un poco de ruido a los datos x, y para una mejor visualización.


Ya que hemos comprendido un poco los datos, podemos comenzar con nuestra tarea de predicción.

Como ustedes sabrán para este momento, podríamos usar varios algoritmos de clasificación convencionales para resolver este problema (regresión logística milticlase, árboles de decisión, entre otros). 

Básicamente, lo que hacemos con estos algoritmos es encontrar una función la cual mapee directamente los valores de longitud y ancho a la etiqueta de tipo de flor.

Por ejemplo, con árboles de decisión, lo que hacemos es encontrar una serie de desigualdades para separar los datos. Apliquemos este algoritmo:

In [None]:
# Importar sklearn.model_selection.train_test_split, sklearn.tree.DecisionTreeClassifier


In [None]:
# Dividir datos en entrenamiento y prueba


In [None]:
# Entrenar clasificador por árboles de decisión con profundidad máxima 5

# Predecir datos de prueba


In [None]:
# Obtener el score de los datos de prueba


**Comentario:**

- El modelo con árboles de decisión tiene un scor del 76.6667%

Por otra parte, en lugar de usar un algorítmo genérico, podríamos usar un enfoque probabilístico para construir un modelo de la situación con los datos que tenemos disponibles. 

Esto es, podemos estimar la distribución de probabilidad sobre las variables de interes (longitud del tallo, ancho del tallo y tipo de flor),

$$P(L, W, T)$$

con los datos que tenemos. Luego, podemos usar esta distribución para responder preguntas de acierdo a la evidencia que tengamos (una nueva flor con longitud y ancho del tallo).

Estimemos entonces la distribución conjunta sobre las variables de interés con los datos que tenemos:

In [None]:
# Dividir aleatoriamente los datos en entrenamiento y prueba


In [None]:
# Datos de entrenamiento


In [None]:
# Estimación de la distribución conjunta sobre los datos de entrenamiento


Ya que tenemos la distribución conjunta, podemos diseñar un clasificador de la siguiente manera:

1. Para cada par de medidas de longitud $l$ y ancho del tallo $w$ dadas, podemos calcular la distribución condicional:

$$P(T|L=l, W=w).$$

2. Recordar que lo anterior nos dará tres valores (uno para cada valor de $T$: 0, 1 y 2). De lo anterior podemos elegir como predicción del tipo de flor, el tipo que nos dé una probabilidad más alta, esto es:

$$\arg \max_{t=0, 1, 2} P(T=t|L=l, W=w).$$

3. Formalmente, esto se conoce como clasificador MAP (maximum aposteriori probability). Además, no es necesario calcular la distribución condicional:

$$\arg \max_{t} P(T=t|L=l, W=w) = \arg \max_{t} \frac{P(T=t, L=l, W=w)}{P(L=l, W=w)} = \arg \max_{t} P(T=t, L=l, W=w).$$

In [None]:
# Seleccionar únicamente los datos de entrada del dataset de prueba


In [None]:
# Predicción MAP


In [None]:
# Evaluación de los resultados


A través de este ejemplo vimos de, forma muy básica y resumida, como podemos:

- Modelar una situación desde el punto de vista probabilístico: estimar una distribución conjunta sobre las variables de interés.

- Usar el modelo para responder requerimientos dada cierta evidencia.

Bajo este enfoque:

- Tenemos una manera directa de incluir la incertidumbre directamente en la etapa de modelamiento (teoría de probabilidad). La incertidumbre parece ser un aspecto ineludible de las aplicaciones reales, y puede ser consecuencia de varios factores:
   - Observaciones parciales.
   - Observaciones ruidosas.
   - Ni siquiera hay consenso en si el universo es determinista o no.

- El modelo es una entidad por sí misma. Una vez lo construyo, lo puedo usar las veces que quiera, y aplicándole los algoritmos que desee (separación de conocimiento y razonamiento). Incluso, si cambia la situación puedo usar el modelo por sí mismo, o usarlo como parte de otro modelo más grande (transfer learning).

### 2.2. Bueno, ¿y dónde queda la parte gráfica?

El ejemplo que vimos anteriormente era sencillo:

- Sólo teníamos tres variables y de baja cardinalidad.

In [None]:
# Encontrar la cardinalidad de las variables


Por tanto, el número de parámetros necesarios para especificar completamente la distribución es:

In [None]:
# Número de parámetros


Este fenómeno puede no parecer alarmante en este momento. Sin embargo, si intentáramos tratar un fenómeno que involucre $k$ variables binarias, la cantidad de parámetros que se necesitarían para modelar la distribución conjunta es (**exponenciál**):

$$2^k - 1$$

Teniendo en cuenta que en una aplicación podemos tener fácilmente cientos de variables, el problema se volvería intratable.

El enfoque de **modelos gráficos probabilísticos** que estaremos estudiando este semestre nos provee de mecanismos de explotar la **estructura de distribuciones complejas** para describirlas de manera **compacta**, de manera que las podamos construir y utilizar de manera efectiva.

Los modelos gráficos probabilísticos utilizan una **representación gráfica** como base para codificar distribuciones complejas sobre espacios de gran dimensión de manera compacta.

Por ejemplo, en el caso de las flores podríamos proponer el siguiente modelo:

In [None]:
from IPython.display import Image

In [None]:
Image(filename='iris.png')

**¿Qué ganamos?**

- No tenemos que especificar la distribución conjunta completa $P(L, W, T)$.

- Bajo la suposición del modelo anterior, podemos factorizar $P(L, W, T) = P(T) P(W|T) P(L|T)$.

- Por tanto, debemos especificar las distribuciones:
  - $P(T)$: $3 - 1 = 2$ parámetros, 
  - $P(W|T)$: $3 * (3 - 1) = 6$ parámetros y
  - $P(L|T)$: $3 * (4 - 1) = 9$ parámetros;
  
  ¡17 parámetros en total! :)

**¿A qué costo?**

- El modelo anterior introduce ciertas independencias entre las variables $(L \perp W | T)$, que habría que analizar si se cumplen o no.

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Esteban Jiménez Rodríguez.
</footer>