<a href="https://colab.research.google.com/github/AndreuSerraSastre/03MAIR---Algoritmos-de-Optimizacion-2023/blob/main/Trabajo_Practico_Andreu_Serra_Sastre.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Algoritmos de optimización - Seminario<br>
Nombre y Apellidos: Andreu Serra Sastre   <br>
Url: https://github.com/AndreuSerraSastre/03MAIR---Algoritmos-de-Optimizacion-2023/blob/37c8089cd7d4e8a937a6f470628bb0fcca5b2458/Trabajo_Practico_Andreu_Serra_Sastre.ipynb<br>

## Problema:
> 1. Sesiones de doblaje <br>


## Descripción del problema:

Se precisa coordinar el doblaje de una película. Los actores del doblaje deben coincidir en las
tomas en las que sus personajes aparecen juntos en las diferentes tomas. Los actores de
doblaje cobran todos la misma cantidad por cada día que deben desplazarse hasta el estudio de
grabación independientemente del número de tomas que se graben. No es posible grabar más
de 6 tomas por día. El objetivo es planificar las sesiones por día de manera que el gasto por los
servicios de los actores de doblaje sea el menor posible. Los datos son:

**Número de actores**:  10 <br>
**Número de tomas**  :  30 <br>

- 1 indica que el actor participa en la toma
- 0 en caso contrario

(*) La respuesta es obligatoria







# Carga de datos

En esta sección se cargan los datos directamente del documento https://docs.google.com/spreadsheets/d/1Ipn6IrbQP4ax8zOnivdBIw2lN0JISkJG4fXndYd27U0/edit?pli=1#gid=0

In [None]:
import pandas as pd

# URL del google sheets
url = 'https://docs.google.com/spreadsheets/d/1Ipn6IrbQP4ax8zOnivdBIw2lN0JISkJG4fXndYd27U0/export?format=csv'

# Cargamos los datos desde el csv
data = pd.read_csv(url)

# Obtenemos solo los datos necesarios
useful_data = data.iloc[1:31, :-2]

# Ponemos el nombre de las columnas
actor_columns = [f'Actor {i+1}' for i in range(10)]
useful_data.columns = ['Toma'] + actor_columns

# Convertimos los datos a int
useful_data[actor_columns] = useful_data[actor_columns].astype(int)

useful_data

Unnamed: 0,Toma,Actor 1,Actor 2,Actor 3,Actor 4,Actor 5,Actor 6,Actor 7,Actor 8,Actor 9,Actor 10
1,1,1,1,1,1,1,0,0,0,0,0
2,2,0,0,1,1,1,0,0,0,0,0
3,3,0,1,0,0,1,0,1,0,0,0
4,4,1,1,0,0,0,0,1,1,0,0
5,5,0,1,0,1,0,0,0,1,0,0
6,6,1,1,0,1,1,0,0,0,0,0
7,7,1,1,0,1,1,0,0,0,0,0
8,8,1,1,0,0,0,1,0,0,0,0
9,9,1,1,0,1,0,0,0,0,0,0
10,10,1,1,0,0,0,1,0,0,1,0


## ¿Cuántas posibilidades hay sin tener en cuenta las restricciones?

> Si no hay restricciones, significa que las posibilidades son, desde grabar todo en un día, a grabar una toma cada día. Como no tenemos las restricciones de grabar como máximo 6 tomas por día ni que los actores deban estar, se trata de calcular estas posibilidades, en este caso $30!$.

## ¿Cuántas posibilidades hay teniendo en cuenta todas las restricciones?

> Son 30 tomas, y se pueden grabar hasta 6 tomas, es decir, 5 días, 5!. A demás dentro de cada día debemos tener en cuenta las 6 tomas, es decir, 6!. Así que sería $6!^{5}*5!$

In [None]:
from math import comb

# Según la fórmula de las combinaciones:
def partitions(n, k):
    return comb(n-1, k-1)

# El número de formas de dividir 30 elementos en grupos de 6
total_ways = sum(partitions(30, i) for i in range(1, 7))

total_ways

146596

## ¿Cual es la estructura de datos que mejor se adapta al problema?

> Para realizar este problema he elegido una lista de listas donde cada lista interna representa una toma que contiene unos y ceros indicando si el actor está o no.


In [None]:
import numpy as np
# Modificamos los datos para crear la estructura de datos que nos interesa

# Elimina la columna no deseada
useful_data = useful_data.drop(columns=['Toma'])

# Convierte el DataFrame a una lista de listas
tomas = np.array(useful_data.values.tolist())

display(tomas)

array([[1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 0, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 1, 0, 1, 0, 0, 0],
       [1, 1, 0, 0, 0, 0, 1, 1, 0, 0],
       [0, 1, 0, 1, 0, 0, 0, 1, 0, 0],
       [1, 1, 0, 1, 1, 0, 0, 0, 0, 0],
       [1, 1, 0, 1, 1, 0, 0, 0, 0, 0],
       [1, 1, 0, 0, 0, 1, 0, 0, 0, 0],
       [1, 1, 0, 1, 0, 0, 0, 0, 0, 0],
       [1, 1, 0, 0, 0, 1, 0, 0, 1, 0],
       [1, 1, 1, 0, 1, 0, 0, 1, 0, 0],
       [1, 1, 1, 1, 0, 1, 0, 0, 0, 0],
       [1, 0, 0, 1, 1, 0, 0, 0, 0, 0],
       [1, 0, 1, 0, 0, 1, 0, 0, 0, 0],
       [1, 1, 0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 0, 0, 0, 1],
       [1, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 1, 0, 0, 0, 0],
       [1, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 1, 0, 0],
       [1, 1, 1, 1, 0, 0, 0, 0, 0, 0],
       [1, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 1, 0, 0, 0, 0],
       [1, 1, 0, 1, 0, 0, 0, 0, 0, 1],
       [1, 0, 1, 0, 1, 0,

## ¿Cual es la función objetivo?

La función objetivo es la suma total de los costos de contratar a los actores para cada día de grabación. Como cada actor cobrá lo mismo, y cobra por día, no por toma, el costo total es la suma de días que ha trabajado un actor, y luego sumamos esto por todos los actores.

In [None]:
def calcular_costo(dias, tomas_actores):
    costo_total = 0
    for dia in dias:
        actores_necesarios = np.any(tomas_actores[dia, :], axis=0)
        costo_total += np.sum(actores_necesarios)
    return costo_total

## ¿Es un problema de maximización o minimización?

> Claramente se trata de un problema de minimización donde queremos minimizar la cantidad de días en que cada actor tiene que trabajar.



Diseña un algoritmo para resolver el problema por fuerza bruta


In [None]:
!pip install tqdm



In [None]:
import numpy as np
from itertools import combinations, permutations
from tqdm import tqdm

def fuerza_bruta(tomas_actores, max_tomas):
    num_tomas = tomas_actores.shape[0]
    num_dias = num_tomas // max_tomas

    costo_minimo = [float('inf')]
    mejor_combinacion = None

    # generamos todas las posibles permutaciones de los días
    permutations_list = list(permutations(list(combinations(range(num_tomas), max_tomas)), num_dias))

    # envolvemos el iterable en un tqdm para tener una barra de progreso
    for dias in tqdm(permutations_list):
        # Miramos si la permutación es única
        tomas_uniques = {toma for dia in dias for toma in dia}

        if len(tomas_uniques) == num_tomas:
            costo = calcular_costo(dias, tomas_actores)

            if costo < costo_minimo[0]:
                costo_minimo[0] = costo
                mejor_combinacion = dias

    return mejor_combinacion, costo_minimo[0]

Calcula la complejidad del algoritmo por fuerza bruta

La complejidad de este algoritmo es de O(n!) porque recorre todas las permutaciones

(*)Diseña un algoritmo que mejore la complejidad del algortimo por fuerza bruta. Argumenta porque crees que mejora el algoritmo por fuerza bruta

In [None]:
import numpy as np
from itertools import combinations

def backtracking(tomas_actores, dias, costo_minimo, mejor_combinacion, max_tomas):
    # Si hemos asignado una toma a todos los días
    if len(dias) == tomas_actores.shape[0] // max_tomas:
        costo = calcular_costo(dias, tomas_actores)
        if costo < costo_minimo[0]:
            costo_minimo[0] = costo
            mejor_combinacion[:] = dias
        return

    for comb in combinations(set(range(tomas_actores.shape[0])) - set(sum(dias, ())), max_tomas):
        # Si la combinación actual no supera el costo mínimo, continuar con la siguiente toma
        if calcular_costo(dias + [comb], tomas_actores) < costo_minimo[0]:
            backtracking(tomas_actores, dias + [comb], costo_minimo, mejor_combinacion, max_tomas)

def optimizar_backtraking(tomas_actores, max_tomas):
    costo_minimo = [float('inf')]
    mejor_combinacion = []
    backtracking(tomas_actores, [], costo_minimo, mejor_combinacion, max_tomas)
    return mejor_combinacion, costo_minimo[0]

Este algoritmo mejora enormemente el algoritmo anterior ya que una vez encuentra una serie de permutaciones que no mejoran, deja de probarlas, saltándose grandes numeros de datos

(*)Calcula la complejidad del algoritmo

En el peor de los casos sigue siendo O(n!), a pesar de que podemos recortar algunas ramas, a pesar de que puede llegar a recortar muchas ramas, voy a seguir investigando, esta vez, un algoritmo genético

In [None]:
import numpy as np
from random import randint, shuffle
from operator import attrgetter

class Individuo:
    def __init__(self, tomas_actores, max_tomas_dia, chromosome=None):
        self.tomas_actores = tomas_actores
        self.max_tomas_dia = max_tomas_dia
        self.num_tomas = tomas_actores.shape[0]
        self.chromosome = chromosome if chromosome else self._crear_cromosoma()
        self.fitness = self._calcular_fitness()

    def _crear_cromosoma(self):
        chromosome = list(range(self.num_tomas))
        shuffle(chromosome)
        return chromosome

    def _calcular_fitness(self):
        costo_total = 0
        for i in range(0, len(self.chromosome), self.max_tomas_dia):
            dias = self.chromosome[i:i+self.max_tomas_dia]
            actores_necesarios = np.any(self.tomas_actores[dias, :], axis=0)
            costo_total += np.sum(actores_necesarios)
        return -costo_total  # Maximizamos el fitness

    def crossover(self, other):
        cut = randint(0, self.num_tomas)
        child_chromosome = self.chromosome[:cut] + [gene for gene in other.chromosome if gene not in self.chromosome[:cut]]
        return Individuo(self.tomas_actores, self.max_tomas_dia, child_chromosome)

    def mutate(self):
        i, j = randint(0, self.num_tomas-1), randint(0, self.num_tomas-1)
        self.chromosome[i], self.chromosome[j] = self.chromosome[j], self.chromosome[i]
        self.fitness = self._calcular_fitness()


def algoritmo_genetico(tomas_actores, max_tomas_dia, tam_poblacion=100, num_generaciones=100, tasa_mutacion=0.05):
    poblacion = [Individuo(tomas_actores, max_tomas_dia) for _ in range(tam_poblacion)]

    for _ in range(num_generaciones):
        poblacion.sort(key=attrgetter('fitness'), reverse=True)

        poblacion_next = poblacion[:2]
        while len(poblacion_next) < tam_poblacion:
            parent1, parent2 = np.random.choice(poblacion[:50], size=2, replace=False)
            child = parent1.crossover(parent2)
            poblacion_next.append(child)

        # Mutación
        for individuo in poblacion_next[2:]:
            if np.random.rand() < tasa_mutacion:
                individuo.mutate()

        poblacion = poblacion_next

    best_individuo = max(poblacion, key=attrgetter('fitness'))
    dias = [best_individuo.chromosome[i:i+max_tomas_dia] for i in range(0, len(best_individuo.chromosome), max_tomas_dia)]
    return dias, -best_individuo.fitness

Gracias a que este algoritmo es mucho más rápido podemos probar con los datos reales del problema:

In [None]:
import time

start_time = time.time()
mejor_permutacion, costo_minimo = algoritmo_genetico(tomas, 6)
end_time = time.time()

print('Tiempo de ejecución Algoritmo Genético: ', round(end_time - start_time, 2), 'segundos')
print('Mejor orden de tomas por días: ', mejor_permutacion)
print('Costo mínimo: ', costo_minimo)

Tiempo de ejecución Algoritmo Genético:  2.74 segundos
Mejor orden de tomas por días:  [[6, 11, 0, 25, 21, 9], [24, 15, 8, 5, 26, 27], [4, 14, 12, 10, 2, 3], [18, 20, 7, 13, 23, 22], [29, 19, 16, 1, 17, 28]]
Costo mínimo:  29


Según el problema (y tenga sentido), diseña un juego de datos de entrada aleatorios

Respuesta

In [None]:
def generar_tomas_actores(num_tomas, num_actores):
    return np.array(np.random.randint(0, 2, (num_tomas, num_actores)))

In [None]:
datos = generar_tomas_actores(12,10)
max_tomas = 4

# Fuerza Bruta
start_time = time.time()
mejor_permutacion, costo_minimo = fuerza_bruta(datos, max_tomas)
end_time = time.time()
print('Tiempo de ejecución Fuerza Bruta: ', round(end_time - start_time, 2), 'segundos')
print('Mejor orden de tomas por días: ', mejor_permutacion)
print('Costo mínimo: ', costo_minimo)

# Optimización de backtraking
start_time = time.time()
mejor_permutacion, costo_minimo = optimizar_backtraking(datos, max_tomas)
end_time = time.time()
print('Tiempo de ejecución backtraking: ', round(end_time - start_time, 2), 'segundos')
print('Mejor orden de tomas por días: ', mejor_permutacion)
print('Costo mínimo: ', costo_minimo)

# Algoritmo Genético
start_time = time.time()
mejor_permutacion, costo_minimo = algoritmo_genetico(datos, max_tomas)
end_time = time.time()
print('Tiempo de ejecución Algoritmo Genético: ', round(end_time - start_time, 2), 'segundos')
print('Mejor orden de tomas por días: ', mejor_permutacion)
print('Costo mínimo: ', costo_minimo)

100%|██████████| 120553290/120553290 [02:36<00:00, 770498.49it/s]


Tiempo de ejecución Fuerza Bruta:  174.11 segundos
Mejor orden de tomas por días:  ((0, 2, 3, 4), (1, 7, 8, 10), (5, 6, 9, 11))
Costo mínimo:  22
Tiempo de ejecución backtraking:  2.69 segundos
Mejor orden de tomas por días:  [(0, 2, 3, 4), (1, 7, 8, 10), (9, 11, 5, 6)]
Costo mínimo:  22
Tiempo de ejecución Algoritmo Genético:  1.63 segundos
Mejor orden de tomas por días:  [[2, 4, 0, 3], [9, 11, 6, 5], [7, 10, 1, 8]]
Costo mínimo:  22


Enumera las referencias que has utilizado(si ha sido necesario) para llevar a cabo el trabajo

Respuesta

*   Diapositivas de clase y la guía para ver códigos de ejemplo.
*   Algunos apuntes de la asignatura de python para hacer las clases del algoritmo algoritmo_genetico.

Describe brevemente las lineas de como crees que es posible avanzar en el estudio del problema. Ten en cuenta incluso posibles variaciones del problema y/o variaciones al alza del tamaño

Respuesta

Este es un problema díficil, tanto de entenderlo como plantearlo. Los algoritmos mostrados son bastante simples, pero muy ineficientes ja que calculan todas las posibilidades.

El backtraking puede evitar hacer algunas iteraciones, pero a priori no sabemos si va a ser más rápido.

En el caso del algoritmo genético, aunque funciona muchisimo más rápido que los anteriores, el resultado puede no ser el óptimo, pero se le acerca bastante, y hay muchos parámetros que se pueden ajustar para dar un resultado más aproximado.

A pesar de esto, hay un problema y es que es necesario que el número de tomas sea divisible por el máximo de tomas en un día, sino el algoritmo no funciona. Esto se debe a que hemos hecho la suposición de que los días estarán completos.

Una posible mejora sería poder evitar esto y ver si incluso se podrían llegar a mejoras pudiendo dejar un día de 5, por ejemplo.