# Algoritmos de optimización - Seminario<br>
Nombre y Apellidos: Guillem Barta Gonzàlez<br>
https://github.com/Willy8m/03_Algoritmos/SEMINARIO

Problema:
> 1. Sesiones de doblaje <br>

Se precisa coordinar el doblaje de una película. Los actores del doblaje deben coincidir en las tomas en las que sus personajes aparecen juntos en las diferentes tomas. Los actores de doblaje cobran todos la misma cantidad por cada día que deben desplazarse hasta el estudio de grabación independientemente del número de tomas que se graben. No es posible grabar más de 6 tomas por día. El objetivo es planificar las sesiones por día de manera que el gasto por los servicios de los actores de doblaje sea el menor posible. 

Los datos son: 
- Número de actores: 10 
- Número de tomas : 30
- Actores/Tomas : https://bit.ly/36D8IuK
  - 1 indica que el actor participa en la toma
  - 0 en caso contrario

### Información clave

Hay que encontrar que combinación de tomas resulta en el menor número de dias de doblaje.

Restricciones a tener en cuenta:
- Cada actor puede completar cómo máximo, 6 tomas al día.
- Los actores de una misma toma deben asistir el mismo día para grabar dicha toma.

(*) La respuesta es obligatoria

In [1]:
import math
import pandas as pd
import numpy as np

In [2]:
# Load data
df = pd.read_excel('Datos problema doblaje(30 tomas, 10 actores).xlsx', header = 1, index_col = 0)

In [3]:
# Drop columns and rows to keep only the data
data = df[:-2].copy() # drop two last rows
data.drop(columns=["Unnamed: 11", "Total"], inplace=True)  # drop two last columns
data = data.astype(int)

# Restrictions
max_shots = 6
data

Unnamed: 0_level_0,1,2,3,4,5,6,7,8,9,10
Toma,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,1,1,1,1,1,0,0,0,0,0
2,0,0,1,1,1,0,0,0,0,0
3,0,1,0,0,1,0,1,0,0,0
4,1,1,0,0,0,0,1,1,0,0
5,0,1,0,1,0,0,0,1,0,0
6,1,1,0,1,1,0,0,0,0,0
7,1,1,0,1,1,0,0,0,0,0
8,1,1,0,0,0,1,0,0,0,0
9,1,1,0,1,0,0,0,0,0,0
10,1,1,0,0,0,1,0,0,1,0


__(*)¿Cuantas posibilidades hay sin tener en cuenta las restricciones?__<br>

- Primera aproximación (respuesta mala):

Tenemos que calcular de cuántas maneras diferentes podemos ordenar las tomas, es decir las filas de nuestro dataset. Esta cantidad se obtiene con el factorial del número de elementos. *Nota: No hay que comprobar que haya filas duplicadas, ya que las tomas de por sí son distintas (aunque a efectos del problema si serian idénticas)*

In [4]:
math.factorial(30)

265252859812191058636308480000000

- Análisis posterior, con referencia al estudio de Alberto Caldas Lima [1]:

Debido a que ahora hemos encontrado una manera de representar el espacio de soluciones, nos damos cuenta de que el número de posibilidades no se rige por la combinación de tomas, sinó por la agrupación, sin orden, en grupos de tomas por día. Así, las posibilidades van desde tener todas las tomas el mismo día, a tener todas las tomas separadas en días distintos (caso menos eficiente).

Para calcular el número de particiones posibles con 30 elementos usamos el número de Bell $B_{n}$ [2], donde "$n$" corresponde al número de elementos. De un algoritmo para calcular números de Bell de Rajeev Agrawal [3] se obtiene que:

In [5]:
# code credit: Rajeev Agrawal
# python program to find number of ways of partitioning it.
n = 30
s = [[0 for _ in range(n+1)] for _ in range(n+1)]
for i in range(n+1):
    for j in range(n+1):
        if j > i:
            continue
        elif(i==j):
            s[i][j] = 1
        elif(i==0 or j==0):
            s[i][j]=0
        else:
            s[i][j] = j*s[i-1][j] + s[i-1][j-1]
ans = 0
for i in range(0,n+1):
    ans+=s[n][i]
print("Possibilities: ", ans)

Possibilities:  846749014511809332450147


__¿Cuantas posibilidades hay teniendo en cuenta todas las restricciones?__

Teniendo en cuenta las restricciones, el número de posibbles combinaciones de tomas y días dependerá de la ocupación de los actores en cada toma. De módo que el número de posibles agrupaciones depende de los datos específicos de cada problema.

__Modelo para el espacio de soluciones<br>__
__(*) ¿Cual es la estructura de datos que mejor se adapta al problema? Argumentalo.(Es posible que hayas elegido una al principio y veas la necesidad de cambiar, arguentalo)__

- Primera aproximación (mala respuesta):

La estructura de datos que mejor se ajusta es la de una lista de listas binárias, dónde los valores binários representen la asistencia de un actor a una toma en particular. Esta estructura, entendida cómo una matriz "$N x M$", dónde "$N$" es el total de tomas y "$M$" el total de actores, nos indica (con 1: sí, y 0: no) si el actor "$n$" ha de asistir a la toma "$m$", en la posición "$(n, m)$" de la matriz. Ésta es justo la estructura que se nos brinda en el archivo de datos .xlsx

- Análisis posterior, con referencia al estudio de Alberto [1]:

La estructura que se ajusta mejor, es una lista de listas ````sol````, dónde cada lista contiene las tomas que se van a grabar en un determinado día. Con un 1 o un 0 en la posición de la lista correspondiente a cada toma. Además, con esta estructura podemos controlar fácilmente el número de días que se requieren para grabar todas las tomas con:

```python
sol: list[list[bool]]
dias = len(sol)
```

Además, podemos convertir la solución en un array de numpy, y comprobar que la cantidad de tomas por actor al día no supera el máximo establecido ````max_shots = 6````, con operaciones matriciales ````@````:

```python
sol: numpy.array
invalid_sol = any([any((sol[day] @ data) > max_shots) for day in range(len(sol))])
```

Dónde ````data```` es nuestro dataframe de actor por toma

__Según el modelo para el espacio de soluciones<br>__
__(*)¿Cual es la función objetivo?__

La función objetivo ````days()```` consiste en contar los días necesarios para grabar todas las tomas.

In [6]:
def days(sol):
    return len(sol)

In [7]:
# sin tener en cuenta si la solución es válida o no
days([[1,0,0],[0,1,1]])

2

Además, crearemos una función ````is_valid()```` para comprobar si una solución cumple las restricciones.

In [8]:
def is_valid(sol: np.array, data: np.array, max_shots: int = 6):
    
    # comprobar que se graben todas las tomas una vez
    if any(np.sum(sol, axis=0) != 1): return False  

    # comprobar que en un día no se requiera a un actor más de {max_shots} veces
    if any([any((sol[day] @ data) > max_shots) for day in range(len(sol))]): return False
    
    return True

In [9]:
# ejemplo: todas las tomas el mismo día, con un máximo de 2 tomas al día por actor
is_valid(
    sol = np.array([[1,1,1], [0,0,0]]),  # todas las tomas el mismo día
    data = np.array([[1,1,0],
                    [1,1,0],
                    [1,0,1]]),
    max_shots = 2)

False

__(*)¿Es un problema de maximización o minimización?__

Es un problema de minimización, ya que se pretende minimizar el número de días necesarios para grabar todas las tomas.

__Diseña un algoritmo para resolver el problema por fuerza bruta__

__Calcula la complejidad del algoritmo por fuerza bruta__

__(*)Diseña un algoritmo que mejore la complejidad del algortimo por fuerza bruta. Argumenta porque crees que mejora el algoritmo por fuerza bruta__

### Algoritmo por búsqueda aleatoria

Vamos a generar un algoritmo de generación de soluciones aleatorias, hasta encontrar una solución que nos dé un número de días suficientemente corto.

Aunque vamos a generar soluciones aleatorias, debemos tener en cuenta que existe un número máximo de días (solución menos óptima), al igual que un número mínimo (solución ideal de existencia no asegurada):
- **Número máximo de días:** El total de tomas dividido por el máximo de tomas por actor al día.

In [10]:
max_days = 1 + (len(data) // max_shots)
max_days

6

- **Número mínimo de días:** El número de tomas del actor con más participación dividido por el máximo de tomas por actor al día.

In [11]:
min_days = 1 + (max(np.sum(data, axis = 0)) // max_shots)
min_days

4

Dónde ````data```` es nuestro dataframe de actor por toma

In [12]:
def generate_random_solution(data: pd.DataFrame, days_objective: int, max_shots: int = 6):
    
    random_solution = np.zeros((days_objective, len(data)), dtype=int)  # Inicializar el array soluicón, dónde las filas representan los días, y las columnas las tomas
    assigned_days = np.random.randint(0, days_objective, size=len(data))  # Asignar cada toma a un día
    
    for day, toma in enumerate(assigned_days):
        random_solution[toma, day] = 1  # Transformar la asignación de días a formato booleano

    return random_solution

Ahora, vamos a diseñar un algoritmo que recorra un bucle hasta encontrar una solución válida. Además, incluiremos un control para tiempos de iteración demasiado largos, que podremos acotar con el parámetro ````max_iter````.

In [13]:
def solve_for_N_days(ndays: int, data, max_iter=1000):
    for _ in range(max_iter):
        proposed_sol = generate_random_solution(data, days_objective = ndays)
        if is_valid(proposed_sol, data):
            return proposed_sol

    return None

Y, en caso de no encontrar una solución en ese número de iteraciones, buscaremos una solución con un día más.

In [14]:
def random_solve(data: pd.DataFrame, max_shots=6, max_iter=1000):

    # Obtener el número máximo y mínimo de días teóricos
    min_days = 1 + (max(np.sum(data, axis = 0)) // max_shots)
    max_days = 1 + (len(data) // max_shots)
    
    # inicialización de la variable de control de días
    best_sol_days = 9999999

    # loop de búsqueda de soluciones
    for ndays in range(min_days, max_days + 1):
        solution = solve_for_N_days(ndays, data, max_iter)
        if solution is not None:
            return ndays, solution 

In [15]:
%%time
best_sol_days, best_sol_found = random_solve(data, max_iter=1000)
best_sol_days, is_valid(best_sol_found, data), best_sol_found

CPU times: total: 15.6 ms
Wall time: 11 ms


(4,
 True,
 array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0,
         0, 0, 0, 0, 0, 1, 1, 0],
        [1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0,
         0, 1, 0, 0, 0, 0, 0, 1],
        [0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0,
         1, 0, 1, 0, 1, 0, 0, 0],
        [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1,
         0, 0, 0, 1, 0, 0, 0, 0]]))

Se puede observar cómo el algoritmo random_solve consigue encontrar una solución para grabar todas las tomas en 4 días. De hecho, aproximadamente entre un 6-7% de las soluciones generadas por la función ````generate_random_solution()```` serán válidas para 4 días:

In [16]:
def percentage_of_good_solutions(ndays, data):
    print(f"Porcentaje de soluciones válidas generadas para {ndays} días:", sum([is_valid(generate_random_solution(data, days_objective=ndays), data) for _ in range(10000)]) / 100, "%")

In [17]:
for i in range(1, max_days + 1):
    percentage_of_good_solutions(i, data)

Porcentaje de soluciones válidas generadas para 1 días: 0.0 %
Porcentaje de soluciones válidas generadas para 2 días: 0.0 %
Porcentaje de soluciones válidas generadas para 3 días: 0.0 %
Porcentaje de soluciones válidas generadas para 4 días: 7.0 %
Porcentaje de soluciones válidas generadas para 5 días: 36.71 %
Porcentaje de soluciones válidas generadas para 6 días: 63.39 %


Observamos que efectivamente no se encuentran soluciones para menos de 4 días, y a medida que se incrementan los días, la probabilidad de encontrar una solución es mayor. Con lo que se justifica el hecho de buscar soluciones en un número mayor de días si no se encuentran soluciones para un determinado número de días objetivo.

### Solución por optimización de espacio

In [63]:
def unavailable_slots(solution, data, max_shots) -> np.array(bool) :
    return (solution @ data == max_shots)

In [64]:
unavailable_slots(best_sol_found, data, max_shots)

Unnamed: 0,1,2,3,4,5,6,7,8,9,10
0,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,True,False,False,True,False,False,False,False,False,False
3,True,False,False,False,False,False,False,False,False,False


In [72]:
def score_by_day(shot, solution, data, max_shots) -> np.array(int):
    '''
    Returns the fitting score of a shot in a given day.

    The fitting score is the measure of how well a shot would fit in a day.
    Measured with a logical XOR operation between the available actor slots
    (from func unavailable_slots()) and the required actors in "shot".
    '''
    return np.sum(np.logical_xor(shot, unavailable_slots(solution, data, max_shots)), axis=1)

In [104]:
score_by_day(np.zeros((10)), best_sol_found, data, max_shots)

0    0
1    0
2    2
3    1
dtype: int64

In [81]:
np.argmax(score_by_day(np.zeros(10), best_sol_found, data, max_shots))

2

In [None]:
def initial_organization(data, max_shots):
    '''
    This function organizes an initial solution filling days with shots that 
    have more actors.
    '''
    data
    

In [None]:
def optimize_solve(shot, solution, data, max_shots):

    is_pending = np.logical_not(np.sum(solution, axis=0))
    scores = np.array([score_by_day(shot, solution, data, max_shots) for shot in data[:][is_pending]])

    idx, idx1 = np.argmax(scores)
    
    solution[b][ = 

In [115]:
best_sol_found[0]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 1, 0])

In [114]:
is_pending = np.logical_not(np.sum(best_sol_found[0], axis=0))
is_pending

False

In [None]:
scores = np.array([score_by_day(shot, best_sol_found[0], data, max_shots) for shot in data[:][is_pending]])
is_pending

KeyError: False

In [None]:
np.argmax(scores)

0

In [None]:
map(best_day_to_append, 

In [96]:
map?

[1;31mInit signature:[0m [0mmap[0m[1;33m([0m[0mself[0m[1;33m,[0m [1;33m/[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
map(func, *iterables) --> map object

Make an iterator that computes the function using arguments from
each of the iterables.  Stops when the shortest iterable is exhausted.
[1;31mType:[0m           type
[1;31mSubclasses:[0m     

In [95]:
np.logical_not(np.sum(best_sol_found, axis=0))

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False])

In [92]:
data[1][best_sol_found[1] == 0]

Toma
2     0
3     0
7     1
9     1
10    1
11    1
12    1
13    1
14    1
15    1
17    1
19    1
20    1
21    0
22    1
23    1
25    1
26    1
27    0
28    1
29    1
Name: 1, dtype: int32

__(*)Calcula la complejidad del algoritmo__

Análisis de complejidad:
- ````generate_random_solution()````: La complejidad depende del número de tomas de forma lineal

    $O(n)$

- ````is_valid()````:

  

- ````solve_for_N_days()````: 

__Según el problema (y tenga sentido), diseña un juego de datos de entrada aleatorios__

Debemos asegurar que todas las tomas tienen al menos un actor presente. Podemos aprovechar la lógica de la función ````generate_random_solution()````:

In [174]:
def generate_random_dataset(shots: int, actors: int, min_population_fraction: float):

    if (min_population_fraction <= 0) or (min_population_fraction > 1):
        raise ValueError("min_population_fraction should be a value in the range (0, 1]")
    
    random_dataset = np.zeros((shots, actors), dtype=int)  # Inicializar el array dataset, dónde las filas representan los tomas, y las columnas los actores
    
    while (np.sum(random_dataset) / random_dataset.size) < min_population_fraction:  # Asegurar el mínimo de población
        assigned_actors_to_shot = np.random.randint(0, actors, size=shots)  # Asignar cada toma a un actor
        for shot, actor in enumerate(assigned_actors_to_shot):
            random_dataset[shot, actor] = 1

    return random_dataset

In [175]:
random_dataset = generate_random_dataset(shots=100, actors=20, min_population_fraction=.001)

In [176]:
if all(np.sum(random_dataset, axis=1) <= 1):
    print("Todas las tomas tienen al menos un actor")
else:
    print("Hay tomas sin actores")

Todas las tomas tienen al menos un actor


__Aplica el algoritmo al juego de datos generado__

In [177]:
max_shots = 6
max_iter = 10000000

In [181]:
data1 = generate_random_dataset(shots=100, actors=10, min_population_fraction=.4)

In [182]:
min_days = 1 + (max(np.sum(data1, axis = 0)) // max_shots)
min_days

8

In [None]:
%%time
best_sol_days, best_sol_found = random_solve(data1, max_shots, max_iter)
best_sol_days, is_valid(best_sol_found, data1), best_sol_found

__Enumera las referencias que has utilizado(si ha sido necesario) para llevar a cabo el trabajo__

[1] Alberto Caldas Lima, [Aplicación de algoritmos heurísticos para optimizar el coste de doblaje de películas](http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_759.pdf)

[2] Wikipedia, [Bell Number](https://en.wikipedia.org/wiki/Bell_number)

[3] Rajeev Agrawal, [Bell Numbers (Number of ways to Partition a Set)](https://www.geeksforgeeks.org/bell-numbers-number-of-ways-to-partition-a-set/)

__Describe brevemente las lineas de como crees que es posible avanzar en el estudio del problema. Ten en cuenta incluso posibles variaciones del problema y/o variaciones al alza del tamaño__

Respuesta