# Algoritmos de optimización - Seminario

Nombre y Apellidos: Alfonso Cabrero de Diego<br>

Url: [Enlace a GitHub](https://github.com/acabrerod/miar/blob/main/03_miar_optimization_algorithms/final_project/03MIAR_scene_scheduling_problem.ipynb)<br>

Problema: *SESIONES DE DOBLAJE*


## Descripción del problema

Se precisa coordinar el doblaje de una película. Los actores del doblaje deben coincidir en las tomas en las que sus personajes aparecen juntos en las diferentes tomas. Los actores de doblaje cobran todos la misma cantidad por cada día que deben desplazarse hasta el estudio de grabación independientemente del número de tomas que se graben. No es posible grabar más de 6 tomas por día. El objetivo es planificar las sesiones por día de manera que el gasto por los servicios de los actores de doblaje sea el menor posible. Los datos son:

- Número de actores: $n = 10$
- Número de tomas : $m  = 30$
- Matriz de asignacion de actores a tomas : [https://bit.ly/36D8IuK](https://bit.ly/36D8IuK)


## Formulación del problema

El *scene scheduling problem* descrito arriba, puede formularse como el siguiente problema de programación lineal entera:

$$
\begin{aligned}
\min \quad & \{\text{coste de rodaje}\} \\
\text{sujeto a} \quad & \text{Número de tomas por día} \leq  6 \\
\end{aligned}
$$

Para su formulación, se definen las siguientes variables:

Sea $N \geq \left\lceil \frac{m}{6} \right\rceil$ el número de días para grabar todas las tomas.

Sea $c_{ij} \in \{0, 1\} =$ una constante que indica si el actor $i$ participa en la toma $j$ ;  $i = 1, \ldots n, j = 1, \ldots, m$

Entonces la matriz $C = \{ c_{ij} \}_{\substack{i=1,\ldots,n \\ j=1,\ldots,m}} \in \mathcal{M}_{m \times n}$ es la matriz de asignaciones de actores a tomas, definida de la siguiente manera:

$$
C = \overbrace{
\begin{bmatrix}
1 & 1 & 1 & 1 & 1 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 1 & 1 & 1 & 0 & 0 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 & 1 & 0 & 1 & 0 & 0 & 0 \\
1 & 1 & 0 & 0 & 0 & 0 & 1 & 1 & 0 & 0 \\
0 & 1 & 0 & 1 & 0 & 0 & 0 & 1 & 0 & 0 \\
1 & 1 & 0 & 1 & 1 & 0 & 0 & 0 & 0 & 0 \\
1 & 1 & 0 & 1 & 1 & 0 & 0 & 0 & 0 & 0 \\
1 & 1 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\
1 & 1 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\
1 & 1 & 0 & 0 & 0 & 1 & 0 & 0 & 1 & 0 \\
1 & 1 & 1 & 0 & 1 & 0 & 0 & 1 & 0 & 0 \\
1 & 1 & 1 & 1 & 0 & 1 & 0 & 0 & 0 & 0 \\
1 & 0 & 0 & 1 & 1 & 0 & 0 & 0 & 0 & 0 \\
1 & 0 & 1 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\
1 & 1 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 \\
0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 1 \\
1 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 1 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\
1 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
1 & 0 & 1 & 1 & 1 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 1 & 0 & 1 & 0 & 0 \\
1 & 1 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\
1 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 1 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\
1 & 1 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 1 \\
1 & 0 & 1 & 0 & 1 & 0 & 0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1 & 1 & 0 & 0 & 0 & 0 & 0 \\
1 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\
1 & 0 & 0 & 0 & 1 & 1 & 0 & 0 & 0 & 0 \\
1 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\
\end{bmatrix}
}^{\text{Actores del 1 al 10}}
$$

Sea $y_{jk} \in \{0, 1\} = $ una variable binaria que indica si se graba la toma $j$ en el día $k$

Sea $w_k = \sum_{i = 1}^n \sum_{j = 1}^m c_{ij} y_{jk}$ el número de actores necesitos el día $k$


Entonces, el problema se puede formular matemáticamente minimizando la suma de $w_k$, es decir, las dietas de los actores:

$$
\begin{aligned}
\min \quad & \sum_{k = 1}^N w_k = \sum_{k = 1}^N \sum_{i = 1}^n \sum_{j = 1}^m c_{ij} y_{jk} \\
\text{sujeto a} \quad & \sum_{j = 1}^m y_{jk} \leq 6 \quad & k = 1, \ldots, N \quad & \text{(límite por día de tomas)} \\
\quad & \sum_{k = 1}^N y_{jk} = 1 \quad & j = 1, \ldots, m \quad & \text{(se deben grabar todas las tomas)} \\
\quad & y_{jk} \in \{0, 1\} & \quad j = 1, \ldots, m ; k = 1, \ldots, N \quad & \text{(variables binarias)} \\
\end{aligned}
$$

El principal problema es que $N$ es desconocido a priori, por lo que las dimensiones de la matriz $Y = \{ y_{jk} \}$ también son indeterminadas. 
No obstante, podemos pensar que el coste mínimo para el rodaje se alcanzará con el número de días lo más reducido posible, lo que permite concentrar y optimizar al máximo los días de trabajo de los actores.
Por tanto, aumentar el número disponible de días de rodaje no es capaz per se de reducir el coste total, si bien no lo aumenta. Definiremos por tanto la constante $N = \left\lceil \frac{m}{6} \right\rceil = 5$.


In [None]:
import numpy as np

In [None]:
n, m = 10, 30   # Número de actores y número de tomas
N = 5           # Número de días disponibles

C = np.array([  # Matriz de asignaciones actores-tomas
    [1,1,1,1,1,0,0,0,0,0],
    [0,0,1,1,1,0,0,0,0,0],
    [0,1,0,0,1,0,1,0,0,0],
    [1,1,0,0,0,0,1,1,0,0],
    [0,1,0,1,0,0,0,1,0,0],
    [1,1,0,1,1,0,0,0,0,0],
    [1,1,0,1,1,0,0,0,0,0],
    [1,1,0,0,0,1,0,0,0,0],
    [1,1,0,1,0,0,0,0,0,0],
    [1,1,0,0,0,1,0,0,1,0],
    [1,1,1,0,1,0,0,1,0,0],
    [1,1,1,1,0,1,0,0,0,0],
    [1,0,0,1,1,0,0,0,0,0],
    [1,0,1,0,0,1,0,0,0,0],
    [1,1,0,0,0,0,1,0,0,0],
    [0,0,0,1,0,0,0,0,0,1],
    [1,0,1,0,0,0,0,0,0,0],
    [0,0,1,0,0,1,0,0,0,0],
    [1,0,1,0,0,0,0,0,0,0],
    [1,0,1,1,1,0,0,0,0,0],
    [0,0,0,0,0,1,0,1,0,0],
    [1,1,1,1,0,0,0,0,0,0],
    [1,0,1,0,0,0,0,0,0,0],
    [0,0,1,0,0,1,0,0,0,0],
    [1,1,0,1,0,0,0,0,0,1],
    [1,0,1,0,1,0,0,0,1,0],
    [0,0,0,1,1,0,0,0,0,0],
    [1,0,0,1,0,0,0,0,0,0],
    [1,0,0,0,1,1,0,0,0,0],
    [1,0,0,1,0,0,0,0,0,0],
])

# Matriz de asignaciones tomas-dias:
#       Cada toma se debe realizar en algún día, y no se pueden
#       realizar más de 6 tomas en un mismo día
Y = np.zeros((m, N), dtype = bool)

### (*) ¿Cuántas posibilidades hay sin tener en cuenta las restricciones?

Partiendo de la formulación, es evidente que todas las posibles soluciones del problema parten de todas las posibles combinaciones de la matriz $Y$. 
Si no se tienen en cuenta las restricciones, es decir, que todas las tomas de realizen siempre y en un único día, y que solo se puedan grabar un máximo de 6 por día, todas las combinaciones posibles serían las siguientes:

$2^{m \cdot N}$ <!-- 2^{30 \cdot N} = 2^{150} \approx 1,427 \times 10^{45} -->

Ya que se trata una matriz binaria de $m \cdot N$ entradas.
El número concreto depende del número de días de grabación. 
Al no estar limitado a 6 grabaciones por día, el valor óptimo sería $N=1$, con $1.074 \times 10^9$  posibilidades. 
Aunque algunos otros valores posibles serían los siguientes:

| N | $N = 1$               | $N = 2$               | $N = 3$               | $N = 4$               | $N = 5$               | $N = 6$             | ... |
|------------------|----------------------|----------------------|----------------------|----------------------|----------------------|----------------------|-----|
| $2^{30 \cdot N}$| $1.074 \times 10^9$ | $1.153 \times 10^{18}$ | $1.238 \times 10^{27}$ | $1.329 \times 10^{36}$ | $1.427 \times 10^{45}$ | $1.532 \times 10^{54}$ | ... |

Esta formulación no tiene en cuenta la restricción de que se deban realizar todas las tomas, por lo que todas las posiblidades reflejan todas las posibles combinaciones de tomas, ya sea no realizando ninguna (con todos los valores de $Y$ iguales a $0$), o realizando todas (todos los valores de $Y$ iguales a $1$, si $N>1$, se realizan todas las tomas todos los días), además de todas las posibilidades intermedias.


<br>

Sin embargo, otra formulación natural se puede realizar con un vector de enteros de $m$ entradas, donde cada una de las posiciones contiene un número entero entre $1$ y $N$. 
Esta formulación incluye de forma automática la restricción de que todas las tomas se deben realizar en un solo día, aunque sigue sin considerar el límite de 6 tomas por cada día. 
Con esta formulación, el número de posibilidades se reduce por varios órdenes de magnitud, que serían las siguientes:

$N^m$ <!-- = 5^{30} \approx 9,313 \times 10^{20} -->

Ya que se trata de un vector de $m$ entradas, donde cada uno puede variar entre $N$ números enteros. 
El valor óptimo sin restricciones es lógicamente $N=1$, donde solo hay una posible combinación (se realizan todas las tomas), otros valores para $N$ son los siguientes:

| N | $N = 1$               | $N = 2$               | $N = 3$               | $N = 4$               | $N = 5$               | $N = 6$             | ... |
|------------------|----------------------|----------------------|----------------------|----------------------|----------------------|----------------------|-----|
| $N^{30}$| $1$ | $1.074 \times 10^9$ | $2.059 \times 10^{14}$ | $1.153 \times 10^{18}$ | $9.313 \times 10^{20}$ | $2.211 \times 10^{23}$ | ... |


<br><br>

---

### ¿Cuántas posibilidades hay teniendo en cuenta todas las restricciones?

Para considerar adicionalmente todas las restricciones, podíamos pensar en añadir a la segunda formulación, la del vector de enteros, la condición de que $N \geq \left\lceil \frac{m}{6} \right\rceil$.
Tomando además $N=5$, ya que como se ha explicado, el número de días $N$ que minimiza el coste de la grabación será el más bajo posible, es decir, 5.
Sin embargo, esta condición no es suficiente, ya que podía darse el caso de que todas las tomas se concentrasen en un mismo día, sin cumplir con la restricción.

Para resolverlo, podemos pensar en crear 5 particiones de las 30 tomas, con 6 tomas cada una. 
Esto se parece al número combinatorio para extraer subconjuntos no ordenados de tamaño $k$ de un conjunto de tamaño $n$: $\binom{n}{k}$.
La diferencia en este caso es que tenemos que extraer 5 subconjuntos diferentes, y que sean además disjuntos entre sí.
Podemos llegar a este cálculo a través del razonamiento visto en la referencia [1], inspirado en un muestreo sin reemplazamiento.

Hay $ \binom{30}{6} $ formas de elegir la primera partición (las tomas que se realizan el primer día), después hay $ \binom{24}{6} $ formas de elegir las tomas que se realizan el segundo día entre las 24 tomas restantes que no se han grabado, etc ... El número total de combinaciones es el siguiente:

$ \binom{30}{6} \cdot \binom{24}{6} \cdot \binom{18}{6} \cdot \binom{12}{6} \cdot \binom{6}{6}= \frac{30!}{(6!)^5}$

Como además el orden de estos grupos no es relevante, podemos dividirlo por $5!$, obteniendo:

$ \frac{30!}{(6!)^5 \cdot 5!} \approx 1.142 \times 10^{16}$

Podemos leer este número como 11 mil 420 billones de combinaciones.

In [60]:
print(f"Número de combinaciones con formulación de matriz binaria (depende del número de días):")
print(f"\t{"".join([f'N = {i :<12}' for i in range(1, 7)])}")
print(f"\t{"".join([f'{2 ** (30 * i):<16.3e}' for i in range(1, 7)])}\n")

print(f"Número de combinaciones con formulación de vector de enteros (depende del número de días):")
print(f"\t{"".join([f'N = {i :<12}' for i in range(1, 7)])}")
print(f"\t{"".join([f'{i ** 30:<16.3e}' for i in range(1, 7)])}\n")


import math 
combinations_with_restrictions = math.factorial(30) / (math.factorial(5) * math.factorial(6) ** 5)
print(f"Número de combinaciones con restricciones: {int(combinations_with_restrictions):_} ({combinations_with_restrictions:.3e})")

Número de combinaciones con formulación de matriz binaria (depende del número de días):
	N = 1           N = 2           N = 3           N = 4           N = 5           N = 6           
	1.074e+09       1.153e+18       1.238e+27       1.329e+36       1.427e+45       1.532e+54       

Número de combinaciones con formulación de vector de enteros (depende del número de días):
	N = 1           N = 2           N = 3           N = 4           N = 5           N = 6           
	1.000e+00       1.074e+09       2.059e+14       1.153e+18       9.313e+20       2.211e+23       

Número de combinaciones con restricciones: 11_423_951_396_577_720 (1.142e+16)


### Modelo para el espacio de soluciones

### (*) ¿Cuál es la estructura de datos que mejor se adapta al problema? Argumentalo (es posible que hayas elegido una al principio y veas la necesidad de cambiar, argumentalo).


Respuesta

Según el modelo para el espacio de soluciones<br>
(*)¿Cual es la función objetivo?

(*)¿Es un problema de maximización o minimización?

Respuesta

Diseña un algoritmo para resolver el problema por fuerza bruta

Respuesta

Calcula la complejidad del algoritmo por fuerza bruta

Respuesta

(*)Diseña un algoritmo que mejore la complejidad del algortimo por fuerza bruta. Argumenta porque crees que mejora el algoritmo por fuerza bruta

Respuesta

(*)Calcula la complejidad del algoritmo

Respuesta

Según el problema (y tenga sentido), diseña un juego de datos de entrada aleatorios

Respuesta

Aplica el algoritmo al juego de datos generado

Respuesta

### Enumera las referencias que has utilizado(si ha sido necesario) para llevar a cabo el trabajo

[1] Referencia para calcular el número de combinaciones para extraer particiones de un conjunto: [https://math.stackexchange.com/questions/1891143/number-of-ways-to-partition-a-set-into-subsets-of-given-cardinality](https://math.stackexchange.com/questions/1891143/number-of-ways-to-partition-a-set-into-subsets-of-given-cardinality)

Respuesta

Describe brevemente las lineas de como crees que es posible avanzar en el estudio del problema. Ten en cuenta incluso posibles variaciones del problema y/o variaciones al alza del tamaño

Respuesta