# Algoritmos de optimización - Seminario<br>
Nombre y Apellidos: Guillem Barta Gonzàlez<br>
https://github.com/Willy8m/03_Algoritmos/SEMINARIO

Problema:
> 1. Sesiones de doblaje <br>

Se precisa coordinar el doblaje de una película. Los actores del doblaje deben coincidir en las tomas en las que sus personajes aparecen juntos en las diferentes tomas. Los actores de doblaje cobran todos la misma cantidad por cada día que deben desplazarse hasta el estudio de grabación independientemente del número de tomas que se graben. No es posible grabar más de 6 tomas por día. El objetivo es planificar las sesiones por día de manera que el gasto por los servicios de los actores de doblaje sea el menor posible. 

Los datos son: 
- Número de actores: 10 
- Número de tomas : 30
- Actores/Tomas : https://bit.ly/36D8IuK
  - 1 indica que el actor participa en la toma
  - 0 en caso contrario

### Información clave

Hay que encontrar que combinación de tomas resulta en el menor número de dias de doblaje.

Restricciones a tener en cuenta:
- Cada actor puede completar cómo máximo, 6 tomas al día.
- Los actores de una misma toma deben asistir el mismo día para grabar dicha toma.

(*) La respuesta es obligatoria

In [1]:
import math
import pandas as pd
import numpy as np

In [6]:
# Load data
df = pd.read_excel('Datos problema doblaje(30 tomas, 10 actores).xlsx', header = 1, index_col = 0)
df

Unnamed: 0_level_0,1,2,3,4,5,6,7,8,9,10,Unnamed: 11,Total
Toma,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,,5.0
2,0.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,,3.0
3,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,,3.0
4,1.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,,4.0
5,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,,3.0
6,1.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,,4.0
7,1.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,,4.0
8,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,,3.0
9,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,,3.0
10,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,,4.0


In [9]:
# Drop columns and rows to keep only the data
data = df[:-2].copy() # drop two last rows
data.drop(columns=["Unnamed: 11", "Total"], inplace=True)  # drop two last columns

__(*)¿Cuantas posibilidades hay sin tener en cuenta las restricciones?__<br>

- Primera aproximación (respuesta mala):

Tenemos que calcular de cuántas maneras diferentes podemos ordenar las tomas, es decir las filas de nuestro dataset. Esta cantidad se obtiene con el factorial del número de elementos. *Nota: No hay que comprobar que haya filas duplicadas, ya que las tomas de por sí son distintas (aunque a efectos del problema si serian idénticas)*

In [3]:
math.factorial(30)

265252859812191058636308480000000

- Análisis posterior, con referencia al estudio de Alberto Caldas Lima [1]:

Debido a que ahora hemos encontrado una manera de representar el espacio de soluciones, nos damos cuenta de que el número de posibilidades no se rige por la combinación de tomas, sinó por la agrupación, sin orden, en grupos de tomas por día. Así, las posibilidades van desde tener todas las tomas el mismo día, a tener todas las tomas separadas en días distintos (caso menos eficiente).

Para calcular el número de particiones posibles con 30 elementos usamos el número de Bell $B_{n}$ [2], donde "$n$" corresponde al número de elementos. De un algoritmo para calcular números de Bell de Rajeev Agrawal [3] se obtiene que:

In [3]:
# code credit: Rajeev Agrawal
# python program to find number of ways of partitioning it.
n = 30
s = [[0 for _ in range(n+1)] for _ in range(n+1)]
for i in range(n+1):
    for j in range(n+1):
        if j > i:
            continue
        elif(i==j):
            s[i][j] = 1
        elif(i==0 or j==0):
            s[i][j]=0
        else:
            s[i][j] = j*s[i-1][j] + s[i-1][j-1]
ans = 0
for i in range(0,n+1):
    ans+=s[n][i]
print("Possibilities: ", ans)

Possibilities:  846749014511809332450147


__¿Cuantas posibilidades hay teniendo en cuenta todas las restricciones?__

Teniendo en cuenta las restricciones, el número de posibbles combinaciones de tomas y días dependerá de la ocupación de los actores en cada toma. De módo que el número de posibles agrupaciones depende de los datos específicos de cada problema.

__Modelo para el espacio de soluciones<br>__
__(*) ¿Cual es la estructura de datos que mejor se adapta al problema? Argumentalo.(Es posible que hayas elegido una al principio y veas la necesidad de cambiar, arguentalo)__

- Primera aproximación (mala respuesta):

La estructura de datos que mejor se ajusta es la de una lista de listas binárias, dónde los valores binários representen la asistencia de un actor a una toma en particular. Esta estructura, entendida cómo una matriz "$N x M$", dónde "$N$" es el total de tomas y "$M$" el total de actores, nos indica (con 1: sí, y 0: no) si el actor "$n$" ha de asistir a la toma "$m$", en la posición "$(n, m)$" de la matriz. Ésta es justo la estructura que se nos brinda en el archivo de datos .xlsx

- Análisis posterior, con referencia al estudio de Alberto [1]:

La estructura que se ajusta mejor, es una lista de listas ````sol````, dónde cada lista contiene las tomas que se van a grabar en un determinado día. Con un 1 o un 0 en la posición de la lista correspondiente a cada toma. Además, con esta estructura podemos controlar fácilmente el número de días que se requieren para grabar todas las tomas con:

```python
sol: list[list[bool]]
dias = len(sol)
```

Además, podemos convertir la solución en un array de numpy, y comprobar que la cantidad de tomas por actor al día no supera el máximo establecido ````max_shots````, con operaciones matriciales ````@````:

```python
sol: numpy.array
invalid_sol = any([any((sol[day] @ data) > max_shots) for day in range(len(sol))])
```

Dónde ````data```` es nuestro dataframe de actor por toma

__Según el modelo para el espacio de soluciones<br>__
__(*)¿Cual es la función objetivo?__

La función objetivo ````days()```` consiste en contar los días necesarios para grabar todas las tomas. Además, crearemos una función para filtrar las soluciones que no cumplen las restricciones.

In [49]:
def is_valid(sol: np.array, data: np.array, max_shots: int = 6):
    
    # comprobar que se graben todas las tomas una vez
    if any(np.sum(sol, axis=0) != 1): return False  

    # comprobar que en un día no se requiera a un actor más de {max_shots} veces
    if any([any((sol[day] @ data) > max_shots) for day in range(len(sol))]): return False
    
    return True

def days(sol: np.array):
    return len(sol)

In [57]:
days([[1,0,0],[0,1,1]])

2

__(*)¿Es un problema de maximización o minimización?__

Es un problema de minimización, ya que se pretende minimizar el número de días necesarios para grabar todas las tomas.

__Diseña un algoritmo para resolver el problema por fuerza bruta__

__Calcula la complejidad del algoritmo por fuerza bruta__

__(*)Diseña un algoritmo que mejore la complejidad del algortimo por fuerza bruta. Argumenta porque crees que mejora el algoritmo por fuerza bruta__

Vamos a generar un algoritmo de generación de soluciones aleatorias, hasta encontrar una solución que nos dé un número de días suficientemente corto.

Aunque vamos a generar soluciones aleatorias, debemos tener en cuenta que existe un número máximo de días (solución menos óptima), al igual que un número mínimo (solución ideal de existencia no asegurada):
- **Número máximo de días:** El total de tomas dividido por el máximo de tomas por día que puede realizar cada actor.

````python
max_days = 1 + (len(data) // max_shots)
````

- **Número mínimo de días:** El número de tomas en las que participa el actor con más participación dividido por max_shots

In [58]:
3 // 2

1

In [None]:
def generate_random():

__(*)Calcula la complejidad del algoritmo__

__Según el problema (y tenga sentido), diseña un juego de datos de entrada aleatorios__

__Aplica el algoritmo al juego de datos generado__

__Enumera las referencias que has utilizado(si ha sido necesario) para llevar a cabo el trabajo__

[1] Alberto Caldas Lima, [Aplicación de algoritmos heurísticos para optimizar el coste de doblaje de películas](http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_759.pdf)

[2] Wikipedia, [Bell Number](https://en.wikipedia.org/wiki/Bell_number)

[3] Rajeev Agrawal, [Bell Numbers (Number of ways to Partition a Set)](https://www.geeksforgeeks.org/bell-numbers-number-of-ways-to-partition-a-set/)

__Describe brevemente las lineas de como crees que es posible avanzar en el estudio del problema. Ten en cuenta incluso posibles variaciones del problema y/o variaciones al alza del tamaño__

Respuesta