# Aplicación de un modelo oculto de Márkov para determinar el grado de honestidad de una persona alresponder preguntas.

### Dependencias:
Para la realización de este proyecto se necesitaron las siguientes librerías:

1. numpy: Es un paquete fundamental necesario para la computación científica con Python.
2. pandas: Es una biblioteca de código abierto que proporciona estructuras de datos de alto rendimiento y fáciles de usar, y herramientas de análisis de datos.
3. NetworkX: Es un paquete de Python para la creación, manipulación y estudio de la estructura, dinámica y funciones de redes complejas.
4. Matplotlib: Es una biblioteca para hacer diagramas 2D de matrices en Python.

### Descripción del modelo:

Este modelo permite descubrir si una persona es honesta por medio de "señales honestas" luego de realizarle varias preguntas en una entrevista.

El modelo está compuesto de tres estados ocultos(deshonesto, insierto y honesto) con probabilidades iniciales de 1/3 cada uno, cinco estados observables(cubrirse la boca, mantener una mirada fija, mantener un tono de voz inestable, tocarse la nariz, rascarse el cuello o cubrir el área de la garganta), la matriz de transición de estados (MxM), la matriz de emisión (MxO) y una secuencia de datos de observación.

La idea es determinar cual es el estado oculto mas probable al responder una pregunta. 



### Implementación del modelo:




In [None]:
def viterbi(pi, a, b, obs):
    
    nStates = np.shape(b)[0]
    T = np.shape(obs)[0]
   
    # Camino inicial. Matrices con ceros.
    path = np.zeros(T)
    # delta --> mayor probabilidad de cualquier camino que alcance el estado i.
    delta = np.zeros((nStates, T))
    # phi --> argmax por paso de tiempo para cada estado
    phi = np.zeros((nStates, T))
    
    # inicio
    delta[:, 0] = pi * b[:, obs[0]]
    phi[:, 0] = 0

    print('\nInicio. Caminar hacia adelante\n')    
    # Extensión del algoritmo directo
    for t in range(1, T):
        for s in range(nStates):
                
            delta[s, t] = np.max(delta[:, t-1] * a[:, s]) * b[s, obs[t]] 
            phi[s, t] = np.argmax(delta[:, t-1] * a[:, s])
            print('s={s} and t={t}: phi[{s}, {t}] = {phi}'.format(s=s, t=t, phi=phi[s, t]))
    
    # Encontrar el camino óptimo
    print('-'*50)
    print('Iniciar retroceso\n')
    path[T-1] = np.argmax(delta[:, T-1])
    
    
    for t in range(T-2, -1, -1):
        
        x = int(path[t+1])
    
        path[t] = phi[x, [t+1]]
        print('path[{}] = {}'.format(t, path[t]))
        
    return path, delta, phi

path, delta, phi = viterbi(pi, prob_hidden_states, b, obs)
print('\n La mejor ruta del estado: \n', path)
print('\n delta:\n', delta)
print('phi:\n', phi)


### Descripción del entrenamiento:

Se utilizó el algoritmo de Baum-Welch para definir la matriz de transición de estados ocultos y  la matriz de emision u observación. Este algoritmo de entrenamiento necesita como parámetros los estados observables, los estados ocultos y la probabilidad inicial de los estados ocultos. Luego estas matrices se pasan como parámetros al algoritmo de Viterbi junto con la probabilidad inicial de los estados ocultos para conseguir la secuencia mas probable de estados ocultos (deshonesto, neutral y honesto) que es producida por una secuencia de estados observables(cubrirse la boca, mantener una mirada fija, mantener un tono de voz inestable, tocarse la nariz, rascarse el cuello o cubrir el área de la garganta) con el fin de determinar si la persona entrevistada esta siendo honesta con sus respuestas.

In [None]:
import pandas as pd
import numpy as np


def forward(V, a, b, initial_distribution):
    alpha = np.zeros((V.shape[0], a.shape[0]))
    alpha[0, :] = initial_distribution * b[:, V[0]]

    for t in range(1, V.shape[0]):
        for j in range(a.shape[0]):
            # Matrix Computation Steps
            #                  ((1x2) . (1x2))      *     (1)
            #                        (1)            *     (1)
            alpha[t, j] = alpha[t - 1].dot(a[:, j]) * b[j, V[t]]
            
    return alpha
 

def backward(V, a, b):
    beta = np.zeros((V.shape[0], a.shape[0]))
    
    # setting beta(T) = 1
    beta[V.shape[0] - 1] = np.ones((a.shape[0]))

    # Loop in backward way from T-1 to
    # Due to python indexing the actual loop will be T-2 to 0
    for t in range(V.shape[0] - 2, -1, -1):
        for j in range(a.shape[0]):
            beta[t, j] = (beta[t + 1] * b[:, V[t + 1]]).dot(a[j, :])
    return beta
 

def baum_welch(V, a, b, initial_distribution, n_iter=100):
    M = a.shape[0]
    T = len(V)

    for n in range(n_iter):
        alpha = forward(V, a, b, initial_distribution)
        beta = backward(V, a, b)

        xi = np.zeros((M, M, T - 1))
        for t in range(T - 1):
            denominator = np.dot(np.dot(alpha[t, :].T, a) * b[:, V[t + 1]].T, beta[t + 1, :])
            for i in range(M):
                numerator = alpha[t, i] * a[i, :] * b[:, V[t + 1]].T * beta[t + 1, :].T
                xi[i, :, t] = numerator / denominator
                
        gamma = np.sum(xi, axis=1)
        a = np.sum(xi, 2) / np.sum(gamma, axis=1).reshape((-1, 1))

        # Add additional T'th element in gamma
        gamma = np.hstack((gamma, np.sum(xi[:, :, T - 2], axis=0).reshape((-1, 1))))

        K = b.shape[1]
        denominator = np.sum(gamma, axis=1)
        for l in range(K):
            b[:, l] = np.sum(gamma[:, V == l], axis=1)

        b = np.divide(b, denominator.reshape((-1, 1)))
        
    return {"a":a, "b":b}
 

#data = pd.read_csv('data_python.csv')
#V = data['Visible'].values

V = np.array([1,1,2,1,0,1,2,1,0,2,2,0,1,0,1])
# Transition Probabilities
a = np.ones((2, 2))
a = a / np.sum(a, axis=1)

# Emission Probabilities
b = np.array(((1, 3, 5), (2, 4, 6)))
b = b / np.sum(b, axis=1).reshape((-1, 1))

# Equal Probabilities for the initial distribution
initial_distribution = np.array((0.5, 0.5))

print(baum_welch(V, a, b, initial_distribution, n_iter=100))

### Descripción de las pruebas:

En este experimento se entrevistaron a 20 personas, a cada una de ellas se les hizo 40 preguntas por lo que se obtuvieron 800 registros en total. Estas respuestas permiten observar si una persona es honesta, deshonesta o insierto con respecto a los estados observables.

Estos registros se introducen en archivos txt para pasarselos como parámetros al algoritmo de entrenamiento Baum-Welch.