# Investigación 3

## Aprendizaje automático Interpretable

### Introducción

Si un modelo de aprendizaje automático presenta un buen desempeño ¿porqué no confiar en el modelo e ignorar la razón por la que tomó cierta decisión? La respuesta corta a esta interrogante es porque hay muchos casos en los que una métrica como la exactitud de la predicción no es suficiente para describir las tareas reales[1].

Aunque no hay una definición matemática de la interpretabilidad, varios autores concuerdan en que ésta es el grado en el que un ser humano puede entender la causa de una decisión. Similarmente, se define como el grado en el que un ser humano puede predecir consistentemente el resultado de un modelo. Basado en estas dos definiciones, se puede decir que entre más alta es la interpretabilidad de un modelo de aprendizaje automático, es más fácil para un ser humano el comprender la razón de ciertas decisiones o predicciones hechas por el modelo[1].

Al profundizar en las razones de porqué la interpretabilidad es tan importante, debemos considerar el contexto de nuestro problema. Se reduce a un balance entre:
 - La predicción que genera el modelo.
 - Conocer la razón por la que se realizó una predicción

Por un lado, el tener un buen puntaje de predicción es deseable, sin embargo en su contraparte, el tener un modelo que predice muy bien implica una complejidad que casi siempre reduce la interpretabilidad de este.

Al trabajar en entornos de bajo riesgo, se pueden resolver problemas sin conocer la razón por la que se predice un resultado. Esto se debe a que un error en la predicción no tendrá consecuencias serias. Otra razón por la que puede que no sea necesario explicar o interpretar el comportamiento de un modelo es en los casos en los que el método para resolver el problema ha sido estudiado y evaluado extensivamente[1].
Sin embargo, hay muchos casos en los que el conocer la justificación de una predicción, ayuda a aprender sobre el problema, los datos y la razón por la que un modelo falla.

### Justificación del tema

La interpretabilidad se vuelve necesaria al tener un faltante en la formalización de un problema. Esto quiere decir que hay ciertos problemas en los que no es suficiente el obtener una predicción (el qué), si no que también se requiere conocer cómo llegó el modelo a esa predicción (el porqué)[1]. Además de esto, las siguientes secciones dirigen la demanda de la interpretabilidad y de las explicaciones:

#### Curiosidad y aprendizaje del ser humano

El ser humano tiene un modelo mental de su entorno que se actualiza cuando algo inesperado ocurre. Esta actualización se realiza al encontrar una explicación del evento inesperado. Por ejemplo, si una persona se siente enferma de repente y se pregunta: ¿Porqué me siento enfermo? Esta persona aprenderá que se enferma cada vez que come moras. De esta manera actualiza su modelo mental y decide que debe evitar las moras porque lo enferman. Por otro lado, cuando se emplea aprendizaje automático opaco (no se conoce como opera el modelo), los descubrimientos científicos quedan ocultos, ya que el modelo sólo brinda predicciones sin explicaciones. Esta es una razón por la que la interpretabilidad y las explicaciones son cruciales.


El deseo de encontrar un significado en el mundo está relacionado con el aprendizaje. El ser humano quiere harmonizar las contradicciones o inconsistencias entre elementos de nuestras estructuras de conocimiento. Por ejemplo: Una persona se puede preguntar ¿Porqué mi perro mordió si nunca lo había hecho antes?. Esto muestra una contradicción entre el comportamiento anterior del perro y el nuevo. El veterinario resuelve esta contradicción en el modelo de conocimiento del dueño: "El perro estaba bajo estrés y mordió"[1].

De igual manera, entre más se ve afectada la vida de una persona debido a una decisión hecha por un modelo de aprendizaje automático, mayor es la necesidad de explicar el comportamiento del modelo. Por ejemplo: SI un modelo de aprendizaje automático rechaza una solicitud de un préstamo, esto puede ser inesperado para el aplicante. El aplicante va a solicitar una explicación de porqué su expectativa y la realidad son distintas. Y aunque la explicación no tiene que aclarar completamente la situación, debe al menos de cubrir la causa principal.

Por otro lado, en muchas disciplinas científicas se tiene un cambio de métodos cualitativos a métodos cuantitativos (sociología, sicología) y hacia el aprendizaje automático. La meta de la ciencia está en la ganancia de conocimiento. La interpretabilidad hace posible la extracción de conocimiento capturado en el modelo.
Además, los modelos de aprendizaje automático pueden ser subjetivos según el conjunto de datos de entrenamiento. La interpretabilidad permite detectar estos casos en los modelos de aprendizaje[2].

Finalmente, si se puede asegurar que el modelo de aprendizaje automático puede explicar decisiones, los siguientes rasgos se pueden revisar más fácilmente:

##### Justicia (fairness)
Consiste en asegurarse que las predicciones no están parcializadas y no discriminan explícita o implícitamente. Un modelo interpretable puede mostrar la razón por la que tomó una decisión específica. Posteriormente un humano puede juzgar si la decisión está sesgada.

##### Privacidad
Asegurar que la información sensible en los datos está protegida.

##### Confiabilidad o robustez
Asegurar que cambios pequeños en la entrada no llevan a grandes cambios en la predicción.

##### Causalidad
Revisar que sólo se consideran relaciones causales.

##### Confianza
Es más fácil que los humanos confíen en un sistema que explica sus decisiones al compararlo con una caja negra.

### Clasificación de métodos

Methods for machine learning interpretability can be classified according to various criteria.

#### Intrínseco o post-hoc
Este criterio distingue si la interpretabilidad se consigue al restringir la complejidad del modelo (intrínseco) o al aplicar métodos que analizan el modelo después de entrenarlo (post-hoc)

La interpretabilidad intrínseca se refiere a modelos que se consideran interpretables debido a su estructura simple, tales como árboles de decisión cortos o los modelos lineales. La interpretabilidad Post-hoc se refiere a la aplicación de métodos de interpretación después de entrenar el modelo.

#### Estadística de resumen de atributos

Muchos métodos de interpretación proveen estadísticas resumen para cada atributo. Algunos retornan un número por atributo (como la importancia de atributo), o un resultado más complejo (como los pares de fortaleza de interacción de atributos).

#### Visualización de resumen de atributos

La mayoría de las estadísticas pueden ser visualizadas. De hecho, algunos resúmenes de atributos sólo son significativos si son visualizados y una tabla sería una elección errada. Un ejemplo es la dependencia parcial de un atributo. Las gráficas de dependencia parcial son curvas que muestran un atributo y la predicción promedio. La mejor forma para presentar estas curvas es graficar la curva y no solamente los puntos.

#### Intra modelo

La interpretación de modelos que son intrínsecamente interpretables cae en esta categoría. Un ejemplo de esto son los pesos en los modelos lineales o la estructura aprendida de un árbol (los atributos e intervalos usados para separar) de decisión. La separación entre atributos intra modelo y la estadística resumen de atributos no es clara.

#### Puntos de datos
Esta categoría incluye todos los métodos que retornan puntos de datos para hacer un modelo interpretable. Para explicar la predicción de una instancia, el método encuentra un punto con datos similares y cambia algunos atributos para los que la predicción cambia de manera relevante (por ejemplo, predecir la clase contraria en una clasificación binaria).

#### Específico para un modelo
Las herramientas específicas para un modelo están limitadas a clases de modelo específicas. POr ejemplo, la interpretación de los pesos de un modelo de regresión lineal es una interpretación específica del modelo.

#### Modelo agnóstico
Las herramientas agnósticas del modelo se pueden emplear en cualquier modelo de aprendizaje automático y se aplican después de que el modelo ha sido entrenado (post-hoc). Estos métodos usualmente analizan pares de entrada-salida de atributos. Por definición, estos métodos no pueden tener acceso a datos intra modulares (los pesos, por ejemplo).

### Alcance de la interpretabilidad

Un algoritmo entrena un modelo que produce las predicciones. Cada paso pueda evaluarse en términos de transparencia o interpretabilidad.

#### Transparencia del algoritmo

La transperencia del algoritmo se trata acerca de cómo el algoritmo aprende un modelo basado en los datos y el tipo de relaciones que puede aprender.

#### Global, Interpretabilidad de un modelo holístico
Se puede describir un modelo como interpretable si se puede comprender el modelo completo a la vez. Para explicar la salida global del modelo, se necesita el modelo entrenado, conocimiento del algoritmo y los datos. Este nivel de interpretabilidad es acerca de la manera en que el modelo toma decisiones, basado en una vista holística de sus atributos y cada uno de los componentes aprendidos, como pesos, otros parámetros y estructuras.
Sin embargo, este modelo no es fácil en la práctica.

#### Interpretabilidad del modelo global a un nivel modular

Como ya se vió, en la práctica no es posible interpretar un modelo de manera global pues sus atributos son muchos para ser manejados manualmente. Sin embargo, se puede analizar el comportamiento de un modelo lineal en función de un peso. También se puede interpretar un árbol de decisiones en función de las decisiones tomadas en cada nivel.

No se puede perder de vista que en el caso de los modelos lineales, un único peso está enlazado con los otros pesos. POr lo tanto, la interpretación de un único peso debe asumir que los otross atributos mantienen un valor constante. Claramente esto no es un caso real, pero se puede emplear para facilitar el análisis.

#### Interpretabilidad local para un sola predicción

Se puede enfocar en una única instancia y examinar la predicción del modelo para esta entrada. Si se observa una única predicción, el comportamiento del modelo es más fácil de comprender. Localmente, la predicción puede depender sólo lineal o monotónicamente en algunos atributos en lugar de tener una dependencia compleja en estos. 

#### Interpretabilidad local para un grupo de predicciones
Las predicciones de un modelo para múltiples instancias se pueden explicar con métodos de interpretación de modelos globales a un nivel modular o con explicaciones de instancias individuales. Los métodos globales se pueden aplicar al tomar el grupo de instancias y tratarlas como si este fuera el conjunto de datos completo y emplear los métodos globales con este sun conjunto. Por otro lado, los métodos individuales se pueden emplear en cada instancia y luego listarlos o acumularlos para el grupo entero.

### Modelos interpretables

#### Regresión lineal

##### Interpretación

La interpretación de un peso en el modelo de regresión lineal depende en el tipo del atributo.

###### Atributo Numérico
Aumentar el atributo en una unidad cambia la predicción por su peso. Un ejemplo de este atributo es el tamaño de una casa.

###### Atributo binario
Toma uno de dos posibles valores en una instancia. Un ejemplo es: "la casa tiene jardín". Uno de los valores se denomina la categoría de referencia (0 es un ejemplo). Cambiar a la otra categoría modifica la predicción por el peso del atributo.

###### Atributo categórico con múltiples categorías
Un atributo con un número fijo de posibles valores. Por ejemplo, el atributo "tipo de piso" con categorías "alfombra", "laminado" o  "parquet". Una solución es el conocido "one-hot encoding". Este consiste en crear un atributo binario para las categorías posibles. De esta manera se crearían atributos binarios como "piso de alfombra", "piso laminado" o "piso parquet".

###### Intercepción

Es la constante que se agrega a todas las instancias. La interpretación es: para una instancia con todos sus atributos como 0 y la categoría base como 0, el valor de predicción será la intercepción. Sin embargo, este valor sólo es significativo cuando los atributos han sido estandarizados (media de zero y deviación estándar de 1). En este caso, la intercepción es el valor predicho cuando los atributos están en su valor medio.

#### Árboles de decisión

Los modelos de regresión lineal fallan en situaciones donde la relación entre los atributos y la predicción es no-lineal o donde los atributos interactúan entre ellos. Los modelos basados en árboles dividen los datos múltiples veces basado en ciertos valores de corte en los atributos. A través de la separación, se crean distintos sub conjuntos donde cada instancia pertenece a un sub conjunto. Los sub conjuntos se llaman terminales o nodos hoja y los nodos intermedios se denominan nodos internos. Los árboles se pueden emplear para clasificación y regresión.

##### Importancia de atributos
La importancia general de un atributo en un árbol de decisión se puede computar de la siguiente manera: Ir a través todos los nodos intermedios para los que se empleó el atributo y se mide cuánto se redujo la varianza o el índice de Gini comparado al nodo padre. La suma de todas las importancias escala a 100.


##### Descomposición de árbol

Predicciones individuales de un árbol de decisión pueden explicarse al descomponer el camino de decisión en un componente por atributo. Se puede rastrear una decisión a través del árbol y explicar una predición por las contribuciones agregadas en cada nodo de decisión.

El nodo ráiz en un árbol de decisión es el punto de inicio. Si se empleara el nodo raíz para hacer predicciones, este predeciría la media de la predicción de los datos de entrenamiento. En la siguiente división, se resta o se suma un término a esta suma dependiendo del nodo siguiente en el camino. Para obtener la predicción final, se debe seguir la ruta de la instancia de datos que se quiere explicar y seguir sumando.

La predicción de una instancia individual, es la media de la predicción objetivo más la suma de todas las contribuciones de las separaciones que ocurren entre el nodo raíz y el nodo terminal donde la instancia termina.


<img src="./accuracy_vs_interpretability.png" width=60%, height=60%>
<h5><center>Figura 1. Interpretabilidad en función de la complejidad del modelo</h5></center>

### Métodos agnósticos del modelo

La gran ventaja de los métodos de interpretación agnósticos del modelo respecto a los específicos del modelo es su flexibilidad. Los desarrolladores de aprendizaje automático son libres de emplear cualquier modelo ya que los métodos agnósticos del modelo no están limitados por el modelo de aprendizaje empleado.

Además, la figura 1 muestra la relación entre la interpretabilidad y la exactitud de los modelos. Por ello es deseable tener una exactitud buena y no perder la interpretabilidad. Los métodos agnósticos del modelo aparecen para resolver esta necesidad.

Algunos aspectos deseables de un sistema que interpreta un sistema de manera agnóstica del modelo:

#### Flexibilidad del modelo

El método de interpretación puede emplearse con cualquier modelo de aprendizaje automático, tales como "random forests" y "depp neural networks".

#### Flexibilidad de la explicación 
No se está limitado a una forma específica de explicación. En algunos casos puede ser útil tener una fórmula lineal y en otros, una gráfica con importancias de los atributos.

#### Flexibilidad de representación
El sistema de explicación debe ser capaz de emplear una representación diferente de atributos según el modelo que se explica. Para un clasificador de texto que emplea vectores de palabras abstractas, puede ser preferible el emplear la presencia de palabras individuales para la explicación.

#### Métodos

##### Gráfica de dependencia parcial (PDP)

Este método muestra el efecto marginal que tienen uno o dos atributos en la predicción de un modelo de aprendizaje automático.
Esta gráfica puede mostrar si la relación entre el objetivo y un atributo es lineal, monotónico o más complejo.

Para problemas de clasificación, donde el modelo genera probabilidades, la gráfica de dependencia parcial muestra la probabilidad para una clase específica dando valores diferentes por atributo(s). Una forma fácil de lidiar con clases múltiples is el graficar una línea por clase.

Este método es un método global, por lo tanto considera todas las instancias y provee una definición acerca de la relación global de un atributo con la predicción del modelo.

###### Atributos de categorías

Hasta ahora sólo se han considerado atributos numéricos. Para atributos de categorías, se obtiene un estimado de dependencia parcial al forzar que todas las instancias tengan la misma categoría. Por ejemplo, en un conjunto de datos en el que se tiene un atributo con 4 categorías. Para calcular el valor para la categoría 1, se reemplazan todas las instancias con la categoría 1 y se promedian las predicciones.

##### Expectativa condicional individual (ICE)

Esta grafica una línea por instancia que muestra el cambio en la predicción cuando un atributo cambia. La gráfica de dependencia parcial es la media de las gráficas ICE.
Los valores para una línea (y una instancia) se calculan manteniendo los otros atributos constantes, creando variantes de esta instancia y evaluando en el modelo de caja negra con distintos valores del atributo deseado. Existen otras variaciones como la ICE centrada, y la primer derivada de ICE.

##### Interacción entre atributos

Cuando los atributos interactúan entre sí en un modelo de predicción, la predicción no se puede expresar como la suma de los efectos de los atributos. Esto debido a que el efecto de un atributo depende en el valor del otro atributo.

Si un modelo de aprendizaje automático predice un resultado basado en dos atributos, se puede descomponer la predicción en cuatro términos: una constante, un término para el primer atributo, otro para el segundo y un cuarto término para la interacción entre ambos atributos. La interacción entre los dos atributos es el cambio que ocurre al variar los atributos después de considerar los efectos individuales de cada atributo.

Por ejemplo, un modelo predice el valor de una casa empleando el tamaño de la casa (grande o pequeña) y su localización (buena o mala) como atributos. Esto lleva a cuatro predicciones posibles:

<table>
    <tr>
        <td>
\begin{array}
\\
Localización \\
Buena \\
Buena \\
Mala \\
Mala \\
\end{array}
        </td>
        <td>
\begin{array}
\\
Tamaño\ de\ casa\\
Grande\\
Pequeña\\
Grande\\
Pequeña\\
\end{array}
        </td>
        <td>
\begin{array}
\\
Predicción\\
300\ 000\\
200\ 000\\
250\ 000\\
150\ 000\\
\end{array}
        </td>
    </tr>
</table>

Se descompone la predicción del modelo en las partes: Una constante (150 000), efecto por el tamaño (100 000 si es grande, 0 si es pequeña) y un efecto por la localización (50 000 si es buena y 0 si es mala). Esta descomposición explica por completo las predicciones del modelo. No hay efecto de interacción.

Ahora veamos un ejemplo con interacción:

<table>
    <tr>
        <td>
\begin{array}
\\
Localización \\
Buena \\
Buena \\
Mala \\
Mala \\
\end{array}
        </td>
        <td>
\begin{array}
\\
Tamaño\ de\ casa\\
Grande\\
Pequeña\\
Grande\\
Pequeña\\
\end{array}
        </td>
        <td>
\begin{array}
\\
Predicción\\
400\ 000\\
200\ 000\\
250\ 000\\
150\ 000\\
\end{array}
        </td>
    </tr>
</table>

Se descompone la predicción en las siguientes partes: Una constante de 150 000, un efecto por el atributo de tamaño de 100 000 si es grande y 0 si es pequeña y un efecto por la localización (50 000 si es buena y 0 si es mala). Sin embargo, se requiere un componente más por la interacción de los atributos: 100 000 si la casa es grande y está en una buena localización.

##### Permutación de Importancia de atributos

Esta mide el aumento en el error de la predicción del modelo después de permutar los valores del atributo, lo que rompe la relación entre el atributo y la verdadera predicción.

Un atributo se considera importante si al permutar sus valores el error del modelo aumenta. Se considera de esta manera porque el modelo considera el atributo para la predicción. Por otro lado, si se permutan los valores de un atributo y el error no cambia, se dice que el atributo no es importante porque el modelo ignora el atributo para la predicción.

##### Sustituto global

Este método consiste en observar las entradas y las salidas del modelo de caja negra y entrenar otro modelo que sea interpretable y que presente un comportamiento similar a la caja negra. Finalmente, se interpreta el modelo sustituto paraconcluir información del modelo de caja negra.

##### Sustituto local

Este método es similar al sustituto global, con la diferencia que emplea muestras específicas de los datos de entrada y su predicción, así como permutaciones de estos datos de entrada y su predicción. Con estas nuevas instancias se entrena un modelo sustituto de entre los modelos interpretables que se mencionaron en secciones anteriores. Finalmente, se estudia este modelo para explicar las predicciones del modelo original.

### Ejemplos

#### Despliegue de los pesos

Instalar bibliotecas necesarias

In [1]:
# Para instalar eli5 usar uno de los métodos:
#  - pip install eli5
#  - conda install -c conda-forge eli5

Importar bibliotecas requeridas

In [2]:
import eli5
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from eli5.sklearn import PermutationImportance
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn import datasets

Cargar el conjunto de datos

In [3]:
wine_data = datasets.load_wine()
df_wine = pd.DataFrame(wine_data.data,columns=wine_data.feature_names)
df_wine['target'] = pd.Series(wine_data.target)

Separar el conjunto de datos en conjunto de entrenamiento y de validación

In [4]:
x = df_wine.drop(['target'], axis=1)
y = df_wine['target']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

Define el modelo y lo entrena

In [5]:
logisReg =  LogisticRegression(solver='liblinear')
logisReg.fit(x_train, y_train)
score = logisReg.score(x_test, y_test) * 100
print(score)

100.0


Muestra los pesos

In [6]:
eli5.show_weights(logisReg, feature_names = x.columns.tolist())

Weight?,Feature,Unnamed: 2_level_0
Weight?,Feature,Unnamed: 2_level_1
Weight?,Feature,Unnamed: 2_level_2
+1.154,flavanoids,
+1.007,od280/od315_of_diluted_wines,
+0.882,ash,
+0.635,malic_acid,
+0.084,color_intensity,
+0.046,nonflavanoid_phenols,
+0.016,proline,
-0.018,magnesium,
-0.046,hue,
-0.091,total_phenols,

Weight?,Feature
1.154,flavanoids
1.007,od280/od315_of_diluted_wines
0.882,ash
0.635,malic_acid
0.084,color_intensity
0.046,nonflavanoid_phenols
0.016,proline
-0.018,magnesium
-0.046,hue
-0.091,total_phenols

Weight?,Feature
0.857,alcohol
0.789,hue
0.674,proanthocyanins
0.517,flavanoids
0.466,nonflavanoid_phenols
0.369,<BIAS>
0.286,total_phenols
0.247,alcalinity_of_ash
0.002,magnesium
-0.013,proline

Weight?,Feature
0.983,color_intensity
0.753,malic_acid
0.111,alcalinity_of_ash
0.047,magnesium
-0.001,proline
-0.011,ash
-0.048,nonflavanoid_phenols
-0.063,<BIAS>
-0.404,hue
-0.501,alcohol


#### Despliegue de importancia de los atributos

Define el modelo

In [7]:
tree = DecisionTreeClassifier(random_state=0, max_depth=5)
tree.fit(x_train, y_train)
score = tree.score(x_test, y_test) * 100
print(score)

91.66666666666666


In [8]:
eli5.explain_weights(tree, feature_names = x.columns.tolist())

Weight,Feature
0.4121,proline
0.3207,od280/od315_of_diluted_wines
0.0749,color_intensity
0.0603,total_phenols
0.0592,flavanoids
0.0586,proanthocyanins
0.0142,malic_acid
0.0,hue
0.0,nonflavanoid_phenols
0.0,magnesium


#### Mostrar Importancia de permutación (método agnóstico del modelo)

Declara el modelo y lo entrena

In [9]:
svc = SVC().fit(x_train, y_train)

Calcula la permutación, lo entrena y muestra los pesos obtenidos

In [10]:
perm = PermutationImportance(svc).fit(x_test, y_test)
eli5.show_weights(perm)

Weight,Feature
0.2944  ± 0.1343,x12
0  ± 0.0000,x11
0  ± 0.0000,x10
0  ± 0.0000,x9
0  ± 0.0000,x8
0  ± 0.0000,x7
0  ± 0.0000,x6
0  ± 0.0000,x5
0  ± 0.0000,x3
0  ± 0.0000,x2


## Referencias

1) Molnar, Christoph. "Interpretable machine learning. A Guide for Making Black Box Models Explainable", 2019. https://christophm.github.io/interpretable-ml-book/.

2) Molnar, Christoph,  Giuseppe, Casalicchio and  Bernd, Bischl. "Interpretable Machine Learning – A Brief History, State-of-the-Art and Challenges", 2020. https://arxiv.org/pdf/2010.09337.pdf.

3) Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome. "The Elements of Statistical Learning. Data Mining, Inference, and Prediction", 2008.

4) W. James Murdoch, Chandan Singh, Karl Kumbier, Reza Abbasi-Asl, and Bin Yu. "Definitions, methods, and applications in interpretable machine learning", 2019. https://www.pnas.org/content/116/44/22071