# Actividad Optimización

Egon Kirchof Mazera

https://github.com/egonkm/optimizacion


In [51]:
import pandas as pd
import sys
from itertools import combinations
from pprint import pprint

# Leer los datos

In [134]:

# Aumentamos el límite de recursión porque el backtracking puede ser muy profundo
sys.setrecursionlimit(10000)

ARCHIVO = "datos.csv"
df = pd.read_csv(ARCHIVO)
TOMAS, ACTORES = df.shape
ACTORES = ACTORES - 3

df.head()

Unnamed: 0,Toma,1,2,3,4,5,6,7,8,9,10,Unnamed: 11,Total
0,1,1,1,1,1,1,0,0,0,0,0,,5
1,2,0,0,1,1,1,0,0,0,0,0,,3
2,3,0,1,0,0,1,0,1,0,0,0,,3
3,4,1,1,0,0,0,0,1,1,0,0,,4
4,5,0,1,0,1,0,0,0,1,0,0,,3


In [135]:
actores = [str(idx) for idx in range(1, ACTORES+1)]
tomas = list(range(1, TOMAS+1))
actores_en_toma = dict()

for _, row in df.iterrows():
    t = int(row['Toma'])
    l_actores = [int(col) for col in actores if int(row[col]) == 1]
    actores_en_toma[t] = l_actores

print("Actores:", actores)
print("Tomas:", tomas)
print("Actores en toma:")
pprint(actores_en_toma)


Actores: ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
Tomas: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30]
Actores en toma:
{1: [1, 2, 3, 4, 5],
 2: [3, 4, 5],
 3: [2, 5, 7],
 4: [1, 2, 7, 8],
 5: [2, 4, 8],
 6: [1, 2, 4, 5],
 7: [1, 2, 4, 5],
 8: [1, 2, 6],
 9: [1, 2, 4],
 10: [1, 2, 6, 9],
 11: [1, 2, 3, 5, 8],
 12: [1, 2, 3, 4, 6],
 13: [1, 4, 5],
 14: [1, 3, 6],
 15: [1, 2, 7],
 16: [4, 10],
 17: [1, 3],
 18: [3, 6],
 19: [1, 3],
 20: [1, 3, 4, 5],
 21: [6, 8],
 22: [1, 2, 3, 4],
 23: [1, 3],
 24: [3, 6],
 25: [1, 2, 4, 10],
 26: [1, 3, 5, 9],
 27: [4, 5],
 28: [1, 4],
 29: [1, 5, 6],
 30: [1, 4]}


# Fuerza bruta

In [136]:
def calcular_coste(programacion, actores_por_toma, num_actores):
 
    dias_por_actor = [0] * (num_actores + 1)
    for dia in programacion:
        presentes = set()
        for t in dia:
            presentes.update(actores_por_toma[t])
        for a in presentes:
            dias_por_actor[a] += 1
    return sum(dias_por_actor[1:])

def backtrack(pendientes, programacion_actual, actores_por_toma, solucion):

    if not pendientes:
        coste = calcular_coste(programacion_actual, actores_por_toma, ACTORES)
        if coste < solucion["mejor_coste"]:
            print("Mejor encontrado:", coste)
            solucion["mejor_coste"] = coste
            solucion["mejor_solucion"] = [list(d) for d in programacion_actual]
        return

    siguiente = pendientes[0]
    resto = pendientes[1:]

    # Intentar añadir a días existentes
    for i in range(len(programacion_actual)):
        if len(programacion_actual[i]) < 6:
            programacion_actual[i].append(siguiente)
            backtrack(resto, programacion_actual, actores_por_toma, solucion)
            programacion_actual[i].pop()

    # O crear un nuevo día
    if len(programacion_actual) < len(pendientes):
        programacion_actual.append([siguiente])
        backtrack(resto, programacion_actual, actores_por_toma, solucion)
        programacion_actual.pop()


In [137]:
# Ejecutar fuerza bruta con diferente # de tomas hasta que sea demasiado lento y paramos

for n in range(5,30):

    print("N:", n)
    tomas = list(range(1, n+1))    
    resultado = {
        "mejor_coste": 999999,
        "mejor_solucion": []
    }

    backtrack(tomas, [], actores_en_toma, resultado)

    print(f"Coste mínimo (actor-días): {resultado["mejor_coste"]}")
    print(resultado["mejor_solucion"])


N: 5
Mejor encontrado: 7
Coste mínimo (actor-días): 7
[[1, 2, 3, 4, 5]]
N: 6
Mejor encontrado: 7
Coste mínimo (actor-días): 7
[[1, 2, 3, 4, 5, 6]]
N: 7
Mejor encontrado: 11
Mejor encontrado: 10
Coste mínimo (actor-días): 10
[[1, 2, 3, 4, 6, 7], [5]]
N: 8
Mejor encontrado: 12
Coste mínimo (actor-días): 12
[[1, 2, 3, 4, 5, 6], [7, 8]]
N: 9
Mejor encontrado: 12
Coste mínimo (actor-días): 12
[[1, 2, 3, 4, 5, 6], [7, 8, 9]]
N: 10
Mejor encontrado: 13
Coste mínimo (actor-días): 13
[[1, 2, 3, 4, 5, 6], [7, 8, 9, 10]]
N: 11
Mejor encontrado: 15
Mejor encontrado: 13
Coste mínimo (actor-días): 13
[[1, 2, 3, 4, 5, 11], [6, 7, 8, 9, 10]]
N: 12
Mejor encontrado: 15
Mejor encontrado: 14
Coste mínimo (actor-días): 14
[[1, 2, 3, 4, 5, 11], [6, 7, 8, 9, 10, 12]]
N: 13
Mejor encontrado: 19
Mejor encontrado: 18
Mejor encontrado: 17
Coste mínimo (actor-días): 17
[[1, 2, 3, 4, 5, 11], [6, 7, 8, 9, 12, 13], [10]]
N: 14
Mejor encontrado: 20
Mejor encontrado: 19
Mejor encontrado: 18
Mejor encontrado: 17
Coste

KeyboardInterrupt: 

# Optimizar el algoritmo

## Poda con cota inferior


calculamos un lower bound suponiendo que todos los pendientes pudieran agruparse en un solo día, sumamos el tamaño de la unión de actores de las pendientes al coste parcial y, si supera la mejor solución actual, cortamos la rama.

In [109]:
tomas = list(range(1, TOMAS+1))
print("Tomas:", tomas)

def calcular_coste(programacion, actores_por_toma, num_actores):
 
    dias_por_actor = [0] * (num_actores + 1)
    for dia in programacion:
        presentes = set()
        for t in dia:
            presentes.update(actores_por_toma[t])
        for a in presentes:
            dias_por_actor[a] += 1
    return sum(dias_por_actor[1:])

def retroceder_opt(pendientes, programacion_actual, actores_por_toma, stats):
    # Cálculo de coste parcial y poda vía cota inferior
    coste_actual = calcular_coste(programacion_actual, actores_por_toma, ACTORES)
    if coste_actual >= stats['mejor_coste']:
        return
    # cota: si todos los pendientes se hicieran en un único día
    union_act = set()
    for t in pendientes:
        union_act.update(actores_por_toma[t])
    if coste_actual + len(union_act) >= stats['mejor_coste']:
        return

    if not pendientes:
        # solución completa
        stats['mejor_coste'] = coste_actual
        stats['mejor_programacion'] = [list(d) for d in programacion_actual]
        print(f"Mejor hasta ahora: coste={coste_actual}, programacion={stats['mejor_programacion']}")
        return

    siguiente = pendientes[0]
    resto = pendientes[1:]

    # Probar en días existentes
    for i in range(len(programacion_actual)):
        if len(programacion_actual[i]) < 6:
            programacion_actual[i].append(siguiente)
            retroceder_opt(resto, programacion_actual, actores_por_toma, stats)
            programacion_actual[i].pop()

    # Probar creando nuevo día
    if len(programacion_actual) < len(pendientes):
        programacion_actual.append([siguiente])
        retroceder_opt(resto, programacion_actual, actores_por_toma, stats)
        programacion_actual.pop()



Tomas: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30]


In [108]:
%%time

stats = {'mejor_coste': float('inf'), 'mejor_programacion': None}
retroceder_opt(tomas, [], actores_en_toma, stats)

print(f"\nResultado óptimo final: coste={stats['mejor_coste']}")
for dia, grupo in enumerate(stats['mejor_programacion'], start=1):
    print(f"Día {dia:2d}: tomas {grupo}")

Mejor hasta ahora: coste=38, programacion=[[1, 2, 3, 4, 5, 6], [7, 8, 9, 10, 11, 12], [13, 14, 15, 16, 17, 18], [19, 20, 21, 22, 23, 24], [25, 26, 27, 28, 29, 30]]
Mejor hasta ahora: coste=35, programacion=[[1, 2, 3, 4, 5, 6], [7, 8, 9, 10, 11, 12], [13, 14, 15, 17, 20, 22], [16, 25, 26, 27, 28, 29], [18, 19, 21, 23, 24, 30]]
Mejor hasta ahora: coste=31, programacion=[[1, 2, 3, 4, 5, 6], [7, 9, 11, 13, 15, 20], [8, 10, 12, 14, 22, 26], [16, 25, 27, 28, 29, 30], [17, 18, 19, 21, 23, 24]]

Resultado óptimo final: coste=31
Día  1: tomas [1, 2, 3, 4, 5, 6]
Día  2: tomas [7, 9, 11, 13, 15, 20]
Día  3: tomas [8, 10, 12, 14, 22, 26]
Día  4: tomas [16, 25, 27, 28, 29, 30]
Día  5: tomas [17, 18, 19, 21, 23, 24]
CPU times: user 4.43 s, sys: 4 ms, total: 4.44 s
Wall time: 4.44 s


# Preguntas

## ¿Cuantas posibilidades hay sin tener en cuenta las restricciones?

Se trata de encontrar todas las formas posibles de agrupar 30 tomas en días de rodaje.
Esto es un problema combinatorio conocido como "partición de un conjunto".

El número de maneras de particionar un conjunto de n elementos se conoce como el número de Bell, 

El valor de B30  ≈8.467×10^23



##  ¿Cuantas posibilidades hay teniendo en cuenta todas las restricciones.

La restriccion que tenemos es que podemos hacer un máximo de 6 tomas por día.

B(30,6)≈7.26391948970868949621309×10^23


## ¿Cual es la estructura de datos que mejor se adapta al problema? Argumenta la respuesta

He utilizado un dicionario para guardar la información de las tomas en que cada actor participa y un set al calcular el coste.

El dicionario y el set utilizan "hash" internamente lo que me permite encontrar un actor o saber si un elemento está en el set en O(1).

La solución es una lista de días, donde cada elemento es una lista con las tomas de un día. 

La lista es conveniente porque me permite adicionar al final o remover el último elemento de la lista en O(1).


## ¿Cual es la función objetivo?

El coste total de la planificación en "actor-días".
Cada actor cobra por día trabajado.
Así que sumamos para cada día la cantidad de actores que han trabajado.



## ¿Es un problema de maximización o minimización?

Es un problema de minimización.

El objetivo es encontrar la planificación con el menor coste posible.<br>
 El algoritmo busca reducir el número total de "actor-días" para hacer la producción más barata.

## Diseña un algoritmo para resolver el problema por fuerza bruta. Calcula la complejidad del algoritmo por fuerza bruta.

El algoritmo por fuerza bruta prueba todas las combinaciones de tomas de modo que tiene O(n!), donde n representa el número de tomas.




## Diseña un algoritmo que mejore la complejidad del algoritmo por fuerza bruta. Argumenta porque crees que mejora el algoritmo por fuerza bruta. Calcula la complejidad del algoritmo.

El algoritmo optimizado mejora el por fuerza bruta porque deja de seguir un camino cuando este supera el mejor coste encontrado hasta el momento. 

La prueba de la mejora es que el algoritmo termina su ejecución.

En el peor caso, el algoritmo tendría que hacer todas las combinaciones para encontrar el mejor resultado (lo que no suele pasar) de modo que la complejidad sigue siendo O(n!).


## Según el problema (y tenga sentido), diseña un juego de datos de entrada aleatorio. Aplica el algoritmo al juego de datos aleatorio generado.

Podemos generar un conjunto de datos aleatorio simplemente generando al azar la lista de las tomas en que cada ator participa. 


In [132]:
import random 

random.seed(123)

MAX_POR_TOMA = 5
actores_en_toma_ale = dict()

for idx in range(1, TOMAS+1):
    
    sample = random.sample(actores, MAX_POR_TOMA)
    sample_int = [int(el) for el in sample]
    n = random.choice([ 2, 2, 2, 2, 3, 3, 4, 5])
    sample_int = sample_int[0:n]
    sample_int.sort()
    actores_en_toma_ale[idx] = sample_int

pprint(actores_en_toma_ale)

{1: [1, 2, 5],
 2: [1, 2, 7],
 3: [1, 3, 6],
 4: [1, 3, 4, 10],
 5: [1, 2],
 6: [1, 2, 3],
 7: [5, 7, 8],
 8: [6, 8, 9],
 9: [1, 5, 6, 7, 9],
 10: [7, 9],
 11: [2, 5, 8],
 12: [2, 6, 7, 9],
 13: [6, 10],
 14: [1, 6],
 15: [5, 8],
 16: [3, 9],
 17: [1, 3, 8],
 18: [5, 6],
 19: [2, 10],
 20: [1, 7, 9, 10],
 21: [1, 5, 6],
 22: [6, 7],
 23: [2, 7],
 24: [1, 2],
 25: [5, 6, 7],
 26: [2, 3, 7, 9],
 27: [1, 7],
 28: [6, 8],
 29: [3, 9],
 30: [2, 6, 9]}


Verificamos que el algoritmo funciona para el conjunto aleatorio:

In [133]:
%%time 

stats2 = {'mejor_coste': float('inf'), 'mejor_programacion': None}

retroceder_opt(tomas, [], actores_en_toma_ale, stats2)

print(f"\nResultado óptimo final: coste={stats2['mejor_coste']}")
for dia, grupo in enumerate(stats2['mejor_programacion'], start=1):
    print(f"Día {dia:2d}: tomas {grupo}")

Mejor hasta ahora: coste=37, programacion=[[1, 2, 3, 4, 5, 6], [7, 8, 9, 10, 11, 12], [13, 14, 15, 16, 17, 18], [19, 20, 21, 22, 23, 24], [25, 26, 27, 28, 29, 30]]
Mejor hasta ahora: coste=32, programacion=[[1, 2, 3, 4, 5, 6], [7, 11, 15, 23, 27, 28], [8, 14, 16, 17, 29, 30], [9, 10, 18, 21, 22, 25], [12, 13, 19, 20, 24, 26]]

Resultado óptimo final: coste=32
Día  1: tomas [1, 2, 3, 4, 5, 6]
Día  2: tomas [7, 11, 15, 23, 27, 28]
Día  3: tomas [8, 14, 16, 17, 29, 30]
Día  4: tomas [9, 10, 18, 21, 22, 25]
Día  5: tomas [12, 13, 19, 20, 24, 26]
CPU times: user 18.2 s, sys: 2 ms, total: 18.2 s
Wall time: 18.2 s


## Enumera las referencias que has utilizado(si ha sido necesario) para llevar a cabo el trabajo


Por qué recibo el error RecursionError: maximum recursion depth exceeded
https://es.stackoverflow.com/questions/355554/por-qu%C3%A9-recibo-el-error-recursionerror-maximum-recursion-depth-exceeded 
es.stackoverflow.com

Ejemplo de algoritmo de backtracking con condicional en Python
https://es.stackoverflow.com/questions/37964/algoritmo-de-backtracking-con-condicional-python 
es.stackoverflow.com

Número de Bell
https://es.wikipedia.org/wiki/N%C3%BAmero_de_Bell 
es.wikipedia.org

Vuelta atrás (Backtracking)
https://es.wikipedia.org/wiki/Vuelta_atr%C3%A1s 
es.wikipedia.org

Ramificación y poda (Branch & Bound)
https://es.wikipedia.org/wiki/Ramificaci%C3%B3n_y_poda 
es.wikipedia.org

https://stackoverflow.com/questions/1637745/how-to-generally-approach-backtracking-problems

https://stackoverflow.com/questions/1340177/what-is-the-difference-between-backtracking-and-branch-and-bound

https://stackoverflow.com/questions/3323001/what-is-the-maximum-recursion-depth-in-python-and-how-to-increase-it


## Describe brevemente en unas líneas como crees que es posible avanzar en el estudio del problema. Ten en cuenta incluso posibles variaciones del problema y/o variaciones al alza del tamaño.

### Optimización del Algoritmo: 

Podría mejorarse con heurísticas para la selección de nodos. 

En lugar de explorar las tomas en orden numérico, se podría priorizar aquellas que son más "difíciles" de planificar (p. ej., las que involucran a actores que participan en pocas escenas), con el fin de  podar el árbol de búsqueda de forma más agresiva.

### Algoritmos Aproximados: 

Para tamaños muy grandes la búsqueda de la solución óptima garantizada se vuelve inviable. 

El siguiente paso sería implementar algoritmos que encuentren soluciones muy buenas en un tiempo razonable, aunque no sean necesariamente las óptimas.

### Restricciones del Mundo Real: 

El problema se puede enriquecer con variaciones que lo hagan más realistas:

* Disponibilidad de Actores: añadir calendarios para los actores, osea en qué dias está disponible cada actor. 

* Precedencia de Escenas: incluir restricciones donde una toma debe rodarse antes que otra.

### Paralelismo

Se podría utilizar multiples procesos para resolver el problema más rapidamente. 

En nuestro ordenador lo hemos intentado pero no hemos tenido una mejora en los tiempos, posiblemente por tener pocos "cores" disponibles.