# Algoritmos de optimización - Trabajo práctico<br>
Nombre y Apellidos: Izaskun Cia Alonso   <br>
Url: https://github.com/izascia/03MIAR---Algoritmos-de-Optimizacion/tree/main/SEMINARIO<br>
Cuaderno: https://colab.research.google.com/drive/19gmRVoLKCgngp4wS6EqsveqgCg-N0DFt?usp=sharing
<Br>
Problema:
> 1. Sesiones de doblaje <br>
>2. $\textbf{Organizar los horarios de partidos de La Liga}$<br>
>3. Combinar cifras y operaciones

Descripción del problema:<Br>
Desde La Liga de fútbol profesional se pretende organizar los horarios de los partidos de liga de cada jornada. Se conocen algunos datos que nos deben llevar a diseñar un algoritmo que realice la asignación de los partidos a los horaios de forma que maximice la audiencia. Entre esos datos están:
- Los horarios disponibles y el porcentaje de audiencia en cada uno de ellos.
- La categoría (A, B o C) que tienen cada equipo y la audiencia inicial (sin aplicar restricciones) que tiene cada partido según la categoría de los equipos. 
- La penalización que sufre la audiencia de los partidos si hay coincidencias de horario. 




                                        

(*)¿Cuantas posibilidades hay sin tener en cuenta las restricciones?<br>



¿Cuantas posibilidades hay teniendo en cuenta todas las restricciones.




Respuesta:<Br> Analizamos el número de operaciones que tiene el problema primero sin tener en cuenta las restricciones y después aplicando dichas restricciones. 
- SIN RESTRICCIONES: Tenemos 10 posibles horarios y queremos organizar 10 partidos. Notar que en este caso como no estamos aplicando ninguna restricción, en cada horario puede haber cualquier número de partidos desde ninguno (0) hasta todos (10). Por lo tanto, estamos ante un problema combinatorio de variación con repetición donde el k = n = 10. Así el número total de posibles soluciones es $10^{10}= 10$ mil millones.
- CON RESTRICCIONES: En este problema tenemos una única restricción que es que tanto en los horarios del viernes a las 20 y del lunes a las 20 tiene que haber por lo menos un partido. Luego por un lado, debemos elegir dos partidos de los 10 para ponerlos en los horarios del lunes y del viernes. Es decir, cogemos dos partidos de 10 teniendo en cuenta que no se pueden repetir y que el orden importa: Variación sin repetición $\frac{10!}{(10-2)!} = 90$. Una vez establecidos estos dos partidos falta organizar los 8 restantes. Ahora tenemos 8 partidos y los tenemos que repartir en 10 horarios, es decir, $10^8$. Luego en total tenemos $90 \cdot 10 *8$ posibles soluciones.

Modelo para el espacio de soluciones<br>
(*) ¿Cual es la estructura de datos que mejor se adapta al problema? Argumentalo.(Es posible que hayas elegido una al principio y veas la necesidad de cambiar, arguentalo)


Respuesta:
La estructura de datos elegida es un vector de longitud 10 representado de la siguiente forma: <Br> $\textbf{X}= [x_1, x_2, ..., x_{10}]$ donde $x_{i}$ representa el horario en el que se juega el partido $i$. 

Según el modelo para el espacio de soluciones<br>
(*)¿Cual es la función objetivo?

(*)¿Es un problema de maximización o minimización?


Respuesta: <Br> Es un problema de maximización, queremos organizar los partidos de una jornada de la liga de manera que se maximice la audiencia. <Br> Para el cálculo de la función objetivo previamente definimos algunos datos: 
- $\textbf{Categorias partidos:}$ Matriz 3x3 tal que la componente i, j nos da la audiencia sin aplicarle restricciones del partido teniendo en cuenta la categoria de cada equipo que participa en el equipo. (Categoria A = índice 0, Categoria B = índice 1, Categoria C = índice 2). 
- $\textbf{Ponderación horarios:}$ Según el horario en el que se juega un partido tiene un porcentaje de la audiencia inicial, no es lo mismo jugar un partido un domingo a las 12 que un sábado a las 20:00. Definimos estos datos mediante una lista en la que los índices corresponden a cada horarios (ordenados en orden cronológico comenzando por el viernes) y cada elemento de la lista es el porcentaje de audiencia que corresponde a cada horario. 
- $\textbf{Ponderación coincidencias:}$ Si en un mismo horario coinciden mas de un partido la audiencia disminuye mediante los porcentajes definidos en esta lista. Donde la componente i define el porcentaje de audiencia que se pierde al coincidir i partidos simultaneamente. 
- $\textbf{Categorias equipos:}$ Definimos mediante un diccionario la categoría que tienen cada equipo.

También definimos una función $\textit{es_valida(SOLUCION)}$ que nos devuelva True si una solución es válida, es decir, si tanto el viernes como el lunes hay por lo menos un partido. <Br> Finalmente, creamos la función $\textit{get_categoria(input)}$ que dada la lista de partidos de la jornada nos devuelva los valores iniciales de audiencia según la categoría de cada equipo.

In [12]:
# categorias partidos
categorias_partidos = [[2, 1.3, 1], [1.3, 0.9, 0.75], [1, 0.75, 0.47]]

# ponderación horarios 
horarios = [0.4, 0.55, 0.7, 0.8, 1, 0.45, 0.75, 0.85, 1, 0.4] 

# ponderación coincidencias 
coincidencias = [0, 0.25, 0.45, 0.60, 0.7, 0.75, 0.78, 0.8, 0.8]

# categorias equipos
categorias_equipos = {'RealMadrid':0, 'RealSociedad': 0, 'Barcelona':0, 'Celta':1, 'Valencia':1, 'Athletic':1, 'Villarreal':1, 'Alaves':1, 'Levante':1, 'Espanyol':1, 'Sevilla':1, 'Betis':1, 'Atletico':1, 'Getafe':1, 'Osasuna':2, 'Mallorca':2, 'Eibar':2, 'Leganes':2, 'Granada':2, 'Valladolid':2}


def es_valida(SOLUCION):
  "Comprueba si la solución es válida"
  if 0 in SOLUCION and 9 in SOLUCION:
    return True
  return False
  
def get_categorias(input):
  "Dada una lista de partidos devuelve una lista con las audiencias iniciales según la categoría de los partidos"
  categorias = []
  for partido in input:
    categorias.append(categorias_partidos[categorias_equipos[partido[0]]][categorias_equipos[partido[1]]])
  return categorias

In [13]:
# Definimos la función objetivo como la suma de las audiencias de cada partido una vez reajustandolas con las restricciones de los horarios y el número de partidos coincidentes.
def valor_audiencia(SOLUCION,input):
  valor = 0
  audiencias_iniciales = get_categorias(input)
  if es_valida(SOLUCION): 
    for i in range(len(SOLUCION)):
      # audiencia inicial * ponderación según el horario
      audiencia_in = audiencias_iniciales[i]
      ponderacion_hor = horarios[SOLUCION[i]]

      # comprobamos las coincidencias y aplicamos la restricción sobre la audiencia
    
      coincidencia = coincidencias[SOLUCION.count(SOLUCION[i])-1]
      valor += audiencia_in*ponderacion_hor*(1-coincidencia)
  return valor 

Diseña un algoritmo para resolver el problema por fuerza bruta

Respuesta:<Br>
En la siguiente celda tenemos el algoritmo por fuerza bruta. Debido al alto coste computacional que tiene no es posible ejecutarlo. 

In [14]:
input = [['Celta','RealMadrid'], ['Valencia','RealSociedad'], ['Mallorca','Eibar'],['Athletic', 'Barcelona'], ['Leganes','Osasuna'],
         ['Villarreal','Granada'], ['Alaves', 'Levante'], ['Espanyol', 'Sevilla'], ['Betis', 'Valladolid'], ['Atletico', 'Getafe']]



# import itertools
# a = itertools.product(np.arange(10), repeat = 10)
# valor_obj = 0
# solucion = [0]*10
# for i in range(10**10):
#   new_sol = next(a)
#   # print(new_sol)
#   new_valor = valor_audiencia(new_sol,input)
#   if new_valor > valor_obj:
#     solucion = new_sol
#     valor_obj = new_valor
# print(solucion)

Calcula la complejidad del algoritmo por fuerza bruta

Respuesta: <Br>
Para calcular la complejidad del algoritmo por fuerza bruta previamente calculamos el número de operaciones elementales que es necesario ejecutar. 
- Al inicio del algoritmo tenemos 3 asignaciones --> 3 OE
- Tenemos un bucle de magnitud $n^n$ en el que hay 5 operaciones elementales --> $5 \cdot n^n$ OE
- Finalmente visualizamos la solución final --> 1 OE
<Br> Luego tenemos  $5 \cdot n^n + $  operaciones en total, es decir, la complejidad del algoritmo es de orden $o(n^n)$

(*)Diseña un algoritmo que mejore la complejidad del algortimo por fuerza bruta. Argumenta porque crees que mejora el algoritmo por fuerza bruta

Respuesta: <Br> Utilizamos un algoritmo heurístico basado en recorrido, RECOCIDO SIMULADO. Este algoritmo mejora el de fuerza bruta puesto que al ser una técnica metaheurística aplica un componente probabilistico. Gracias a esto no tiene la necesidad de comprobar una a una todas las posibles soluciones. Por otro lado, esto tiene su desventaja y es que no podemos saber si la solución obtenida es la óptima o como de cerca está de serlo. 

In [15]:

import random 

def genera_vecina_aleatorio(solucion):
  "Genera una solución cambiando el valor de dos elementos de la solución, si la nueva solución no es válida la modifica para que lo sea."

  i,j = sorted(random.sample( range(0,len(solucion)) , 2))

  solucion[i] = j 
  solucion[j] = i
  
  if 0 not in solucion:
    solucion[random.randint(0,4)] = 0
  
  if 9 not in solucion:
    solucion[random.randint(5,9)] = 9
  return solucion

In [16]:
import math
#Funcion de probabilidad para aceptar peores soluciones
def probabilidad(T,d):
  if random.random() <  math.exp( -1*d / T)  :
    return True
  else:
    return False

#Funcion de descenso de temperatura
def bajar_temperatura(T):
  return T*0.99

In [19]:
def recocido_simulado(TEMPERATURA,input):
  # creamos solución inicial 
  solucion_referencia = [random.randint(0,9) for x in range(10)]
  print(input)
  distancia_referencia = valor_audiencia(solucion_referencia,input)
  print(distancia_referencia, 'audiencia inicial')
  mejor_solucion = []
  mejor_distancia = 0
  
  
  N=0
  while TEMPERATURA > .0001:
    N+=1
    #Genera una solución vecina
    vecina =genera_vecina_aleatorio(solucion_referencia)
    
    #Calcula su valor(distancia)
    distancia_vecina = valor_audiencia(vecina,input)
      
    #Si es la mejor solución de todas se guarda(siempre!!!)
    if distancia_vecina > mejor_distancia:
        mejor_solucion = vecina
        mejor_distancia = distancia_vecina
    
    #Nos quedamos con la mejor solución entre la actual y la vecina
    if distancia_vecina > distancia_referencia or probabilidad(TEMPERATURA, abs(distancia_referencia - distancia_vecina) ) :
      
      solucion_referencia = vecina
      distancia_referencia = distancia_vecina

    # Actualizamos la temperatura
    TEMPERATURA = bajar_temperatura(TEMPERATURA)
 
  print("La mejor solución encontrada es " , end="")
  print(mejor_solucion)
  print("Con una audiencia de " , end="")
  print(mejor_distancia)
  return mejor_solucion

sol  = recocido_simulado(100,input)

[['Celta', 'RealMadrid'], ['Valencia', 'RealSociedad'], ['Mallorca', 'Eibar'], ['Athletic', 'Barcelona'], ['Leganes', 'Osasuna'], ['Villarreal', 'Granada'], ['Alaves', 'Levante'], ['Espanyol', 'Sevilla'], ['Betis', 'Valladolid'], ['Atletico', 'Getafe']]
5.564625 audiencia inicial
La mejor solución encontrada es [4, 8, 0, 4, 0, 4, 9, 8, 7, 6]
Con una audiencia de 6.5535000000000005


(*)Calcula la complejidad del algoritmo 

Respuesta: <Br> 
En este caso el algoritmo depende tanto del tamaño de la entrada (número de partidos, n) como del parámetro T. <Br> Para calcular su coste computacional priviamente vamos a ver el coste de cada una de las funciones previamente definidas:
- $\textit{es_valida(SOLUCION)}$: Itera sobre la solución para comprobar si la solución cumple la restricción o no. $O(n)$.
- $\textit{valor_solucion(SOLUCION, input)}$: Comprueba que si la solución es valida y en caso de ser tiene otro bucle que recorre la solucion. Luego $O(n^2)$.
- $\textit{genera_vecina_aleatoria(solucion)}$: Como recorre la solución una vez. $O(n)$.
- $\textit{probabilidad}$ y $\textit{bajar_temperatura)}$: Coste constante

Teniendo en cuenta estos costes veamos ahora cuál es el coste de la función principal y por lo tanto del algoritmo. 
- En la primera parte al crear la solución inicial tenemos un coste lineal.
-Dentro del bucle while tenemos coste cuadrático. 
Por lo tanto dentro del bucle while: $O(n^2)$.

Finalmente, veamos dado un valor inicial de temperatura T cuantas veces se ejecuta el bucle while. <Br> La temperatura disminuye mediante la siguiente función: $T=0.99T$. <Br> Queremos saber en que iteración se cumple T < 0.0001. <Br> Notar que $T_k = 0.99 \cdot T_{k-1} = 0.99 \cdot 0.99 \cdot T_{k-2} = \cdots = (0.99)^k \cdot T_{0} < 0.0001$ <Br> Resolviendo está inecuación (para ello aplicando logaritmos a ambas partes de ella obtenemos la siguiente solución: $ k > 1000 + \frac{4}{1000} log(T)$. Así deducimos que el bucle tiene coste logaritmico en T y por lo tanto el coste del algoritmo es $O(n^2 \cdot log(T))$·


Según el problema (y tenga sentido), diseña un juego de datos de entrada aleatorios

Respuesta:

Creamos una función que dados 20 equipos genera una jornada de futbol creando 10 equipos juntando dos a dos estos equipos.

In [20]:
import random 
EQUIPOS = ['Celta', 'RealMadrid','Valencia','RealSociedad','Mallorca','Eibar','Athletic', 'Barcelona',
           'Leganes','Osasuna','Villarreal','Granada','Alaves', 'Levante','Espanyol', 'Sevilla','Betis', 'Valladolid','Atletico', 'Getafe']
def generate_input():
  equipos = EQUIPOS.copy()
  input = []
  for i in range(len(EQUIPOS)//2):
    a = random.choice(equipos)
    equipos.remove(a)
    b = random.choice(equipos)
    equipos.remove(b)
    input.append([a,b])
  return input 


In [21]:
a = generate_input()
print(a)

[['Athletic', 'Getafe'], ['Espanyol', 'Betis'], ['RealMadrid', 'Valladolid'], ['Celta', 'Granada'], ['Alaves', 'Sevilla'], ['Barcelona', 'Valencia'], ['Levante', 'RealSociedad'], ['Osasuna', 'Atletico'], ['Mallorca', 'Villarreal'], ['Eibar', 'Leganes']]


Aplica el algoritmo al juego de datos generado

Respuesta

In [22]:
sol  = recocido_simulado(100000,a)

[['Athletic', 'Getafe'], ['Espanyol', 'Betis'], ['RealMadrid', 'Valladolid'], ['Celta', 'Granada'], ['Alaves', 'Sevilla'], ['Barcelona', 'Valencia'], ['Levante', 'RealSociedad'], ['Osasuna', 'Atletico'], ['Mallorca', 'Villarreal'], ['Eibar', 'Leganes']]
5.059125 audiencia inicial
La mejor solución encontrada es [7, 6, 5, 0, 9, 2, 1, 9, 2, 4]
Con una audiencia de 6.662999999999999
