# Ejemplo
Juan vende cervezas artesanales de Lunes a Viernes. Las compra por 300 pesos y vende por 1.500 pesos cada una
Juan maneja su inventario de forma semanal, de la siguiente manera:
* Juan parte la semana con una cantidad de cervezas en inventario, y vende lascervezas durante la semana.
    
* Si un cliente quiere comprar una cerveza pero no hay disponible, Juan consideraque pierde 300 pesos por cada cerveza no vendida por falta de clientes.
    
* Juan vende entre 10 y 40 cervezas por semana.
    
* El Viernes al final del día Juan hace la contabilidad de costos, y cuenta cuantas unidades tiene en inventario. Según su nivel de inventario, tiene que tomar una decisión.
    
    * Compra lo suficiente para llenar su frigobar, que tiene una capacidad de S unidades.
    * No hacer ningún pedido esta semana.
* El pedido llega el Lunes en la mañana.
* S=50

## ¿Ayude a decidir a Juan cuando comprar, según el inventario que tenga?

In [2]:
import numpy as np
from numpy import random
import collections

In [19]:
# Información problema
S=5#0 #capacidad max y tamaño de lote
a=0#3#0 #Demanda minima
b=4#0 #Demanda maxima
cost=300#precio cerveza y costo perdida clientes
price=1500


#### Generó las demandas

In [20]:
random.seed(10)
total=200
x=random.randint(a,b+1, size=(total))
Dem_frec = collections.Counter(x)
Dem_frec

Counter({1: 45, 4: 38, 0: 48, 3: 34, 2: 35})

### Comiezo a generar mi matriz de probaibilidades
Esta matriz se estructura de la siguiente forma

    Prob[i][j]: es la probailidad de que el inventario i pase al nivel de inventario j en el siguente periodo


In [21]:
prob =np.zeros([S+1,S+1])

In [23]:
prob#[5][5]=1

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [24]:
for i in range(S+1):
    for j in range(S+1):
        dem=i-j
        if(S>=dem>=0):
           prob[i][j] =Dem_frec[dem]/total
    

In [25]:
prob

array([[0.24 , 0.   , 0.   , 0.   , 0.   , 0.   ],
       [0.225, 0.24 , 0.   , 0.   , 0.   , 0.   ],
       [0.175, 0.225, 0.24 , 0.   , 0.   , 0.   ],
       [0.17 , 0.175, 0.225, 0.24 , 0.   , 0.   ],
       [0.19 , 0.17 , 0.175, 0.225, 0.24 , 0.   ],
       [0.   , 0.19 , 0.17 , 0.175, 0.225, 0.24 ]])

### primera idea
Esta matriz de probabilidades no sirve para calcular el rebenue esperado, porque no representa la demanda cuando sobrepasa el nivel de stock

Para almacenar el expected reward, se utilizará al siguiente estructura:

    reward[i][d]:= el expected reward de tomar la decisión d ante un nivel de inventario i.
    
tomando en cuenta que d, puede tener valores de 0 o 1., sea 0 no realizar la compra y 1 realizar la compra de inventario.

## Esta idea es mejor
tomando en cuenta que realizar la compra en el periodo t, donde el nivel de inventarios es de i, no afectaria al expected reward del mismo periodo t, ya que la compra afecta al nivel de inventarios del perido siguente. Es por esto que la desición no afecta al expected reward del mismo periodo en donde se toma.

Es por ello que para almacenar el expected reward, se utilizará al siguiente estructura:
    
    reward[i]:= el expected reward ante un nivel de inventario i.


In [26]:
reward=np.zeros(S+1)
for i in range(S+1):
    r=0
    for dem in range(a,b+1):
        p=Dem_frec[dem]/total
        r_dem=price*min(dem,i)
        if(dem>i):
            r_dem+=-cost*(dem-i)
        r+= p*(r_dem)
    print(r)
    reward[i]=r

-553.5
814.5
1777.5
2425.5
2767.5
2767.5


# Comenzamos a estructurar esto

## Value Determination Equations

In [87]:
#funcion para obtener el valor de la ecuaciones
def Value_Determination_Equations(decisions,prob,descuento,costo,revenues):
    L=len(decisions)
    aux=np.zeros([L,L])
    B=np.zeros(L)
    for i in range(L):
        if decisions[i]:
        #Juan decide comprar mas cerveza.
            aux[i]=prob[L-1]
            B[i]=revenues[i]
            if(S-i>0):
            # si el nivel de inventario es menor al S el costo de pedir puede ser
                B[i]+=-costo*(S-i)
        else:
            aux[i]=prob[i]
            B[i]=revenues[i]
    A = np.identity(L)-(descuento*aux)
    print(A)
    X = np.linalg.solve(A,B)
    return X
    

In [90]:
D=np.array([0,0,1,1,1,1])

Value_Determination_Equations(D,prob,1,cost,reward)

[[ 0.76   0.     0.     0.     0.     0.   ]
 [-0.225  0.76   0.     0.     0.     0.   ]
 [ 0.    -0.19   0.83  -0.175 -0.225 -0.24 ]
 [ 0.    -0.19  -0.17   0.825 -0.225 -0.24 ]
 [ 0.    -0.19  -0.17  -0.175  0.775 -0.24 ]
 [ 0.    -0.19  -0.17  -0.175 -0.225  0.76 ]]


array([ -728.28947368,   856.09851108, 10617.94061634, 11565.94061634,
       12207.94061634, 12507.94061634])

# Howard’s Policy Iteration Method

In [81]:
def T_delta(prob,values,descuento,costo,revenues):
    L=len(values)
    T=np.zeros(L)
    #aux_1 siempre igual
    aux_1=costo+(descuento*sum(prob[0]*values))
    for i in range(L):
        aux_2=revenues[i]+(descuento*sum(prob[i]*values))
        T[i]=max(aux_1,aux_2)
    return T
        
        

In [85]:
D=np.array([1,0,0,0,0,1])
V_D_E=Value_Determination_Equations(D,prob,1,cost,reward)
V_D_E

array([3818.62316633, 2202.22396372, 3870.07821835, 5698.45096191,
       7666.88372378, 8639.62316633])

In [86]:
Los_T

array([ 2730.11537528,  5923.1685396 ,  8161.83196333, 10588.29347857,
       13824.89432786, 14946.48073032])

In [84]:
Los_T=T_delta(prob,V_D_E,1,cost,reward)
np.around(Los_T,4)==np.around(V_D_E,4)

array([False, False,  True,  True,  True,  True])