# Algoritmos de optimización - Seminario<br>
Nombre y Apellidos: Diego Miglino  <br>
Github: https://github.com/dmiglino/OptimizationAlgorithms/blob/main/Algoritmos_Partidos_De_Liga.ipynb<br>

Here's the same text with character formatting.

Problema:
>2. Organizar los horarios de partidos de La Liga<br>

Descripción del problema: <br> <br>
Desde la La Liga de fútbol profesional se pretende organizar los horarios de los partidos de liga de cada jornada. Se conocen algunos datos que nos deben llevar a diseñar un algoritmo que realice la asignación de los partidos a los horarios de forma que maximice la audiencia. <br><br>
Los horarios disponibles se conocen a priori y son los siguientes:

| Dia    | Horario |
| -------- | -------- |
| Viernes  | 20      |
| Sábado | 12,16,18,20      |
| Domingo    | 12,16,18,20      |
| Lunes    | 20     |

En primer lugar, se clasifican los equipos en tres categorías según el número de seguidores( que tiene relación directa con la audiencia). <br>Cantidad de equipos segun categoria:

| Categoria   | Cantidad de Equipos |
| ----------- | ----- |
| Categoria A | 3     |
| Categoria B | 11    |
| Categoria C | 6     |

Se conoce estadísticamente la audiencia que genera cada partido según los equipos que se enfrentan y en horario de sábado a las 20h (el mejor en todos los casos)

|              | Categoria A | Categoria B | Categoria C | 
| ------------ | ----------- | ----------- | ----------- |
| Categoria A  | 2 Millones	     | 1,3 Millones	  | 1 Millon	 |
| Cagetoria B |     | 0,9 Millones  | 0,75 Millones |
| Categoria C    |     |   | 0,47 Millones |

Si el horario del partido no se realiza a las 20 horas del sábado se sabe que se reduce según los coeficientes de la siguiente tabla • Debemos asignar obligatoriamente siempre un partido el viernes y un partido el lunes

|   Hora      | Viernes | Sábado | Domingo | Lunes |
| ------------ | ----------- | ----------- | ----------- |----------- |
| 12  | -	     | 0.55	  | 0.45	 | - |
| 16  | -	     | 0.7	  | 0.75	 | - |
| 18  | -	     | 0.8	  | 0.85	 | - |
| 20  | 0.4	     | 1	  | 1	 | 0.4 |


Es posible la coincidencia de horarios, pero en este caso la audiencia de cada partido se verá afectada y se estima que se reduce en porcentaje según la siguiente tabla dependiendo del número de coincidencias:

| Número Partidos Coincidentes    | Factor |
| -------- | -------- |
| 1  | 0      |
| 2 | 0.25      |
| 3    | 0.45      |
| 4    | 0.6     |
| 5    | 0.7     |
| 6    | 0.75     |
| 7    | 0.78     |
| 8 o +    | 0.8     |

<br>

(*) La respuesta es obligatoria

                                        

#### Combinatoria de posibilidades
(*)¿Cuantas posibilidades hay sin tener en cuenta las restricciones?<br>

¿Cuantas posibilidades hay teniendo en cuenta todas las restricciones?


#### Respuesta:

Al no haber ninguna restriccion, estamos ante una variacion con repeticion. Ya que podemos tener por ejemplo los 10 partidos en un mismo horario, es decir, los horarios pueden repetirse. 
Debido a esto, cada partido tiene 10 posibles horarios para ubicarse, ya que no depende de elecciones de horarios anteriores. 
VR10,10 = 10 a la 10 = 10.000.000.000 (10 mil millones de posibilidades)

Considerando las restricciones, donde se debe tener al menos 1 partido el viernes y 1 partido el lunes, podemos buscar la cantidada de posibles combinaciones con el principio de inclusion-exclusion. 

Para ellos tenemos el total sin restricciones: 10 a la 10. 
A este total debemos restar las combinaciones donde no hay ningun partido el viernes y aquellas donde no hay ningun partido el lunes. Para esto, consideramos que tenemos 9 horarios disponibles (sin contar viernes) y 10 partidos, lo que da 9 a la 10. Hacemos lo mismo para el lunes, y tenemos otro 9 a la 10. Sumamos estas 2 combinatorias y obtenemos: 2 * 9 a la 10.
Tenemos por ahora 10 a la 10 - 2 * 9 a la 10 posibilidades.

Pero estamos restando 2 veces las combinaciones donde ningun dia tiene asignaciones, por lo que debemos sumar aquellos que se quitaron 2 veces, es decir los casos en que no hay partidos ni el viernes ni el lunes. Esto es 8 a la 10 (8 horarios y 10 partidos)

Finalmente, tenemos que la cantidad de posibilidades teniendo en cuenta las restricciones es de: 
C = (10 a la 10) - (2 * 9 a la 10) + (8 a la 10) = 4100173022 (mas de 4 mil millones)


In [1]:
combinacion_sin_restricciones = 10**10
combi_sin_viernes_o_sin_lunes = 2*9**10
combi_sin_viernes_y_sin_lunes = 8**10

print(f'Posibilidades hay sin tener en cuenta las restricciones: {combinacion_sin_restricciones} (10**10)')
print(f'Posibilidades hay teniendo en cuenta las restricciones : {combinacion_sin_restricciones - combi_sin_viernes_o_sin_lunes + combi_sin_viernes_y_sin_lunes} (principio de inclusion-exclusion)')


Posibilidades hay sin tener en cuenta las restricciones: 10000000000 (10**10)
Posibilidades hay teniendo en cuenta las restricciones : 4100173022 (principio de inclusion-exclusion)


#### Modelo para el espacio de soluciones<br>
(*) ¿Cual es la estructura de datos que mejor se adapta al problema? Argumentalo.(Es posible que hayas elegido una al principio y veas la necesidad de cambiar, argumentalo)


#### Respuesta:
<br>
El punto mas relevante en el problema son los posibles dias y horarios, ya que en base a ellos, se aplican ciertas restricciones y penalizaciones respecto al nivel de audiencia. La idea es usar un algoritmo genetico para resolverlo, entonces la estructura del cromosoma podria ser un array de 10 genes, donde cada uno de ellos sea un numero entre 0 y 9 que represente la posicion el el array nivel_audiencia_por_horario, ya que la idea va a ser intercambiar partidos de horarios buscando maximizar la audiencia y la ganancia. 

Inicialmente pienso en un array donde cada posicion corresponda a un dia y horario, y el valor de cada posicion corresponda al nivel de audiencia para el horario en cuestion, siendo 1 la audiencia completa y 0,5 un nivel de audiencia del 50%.

Adicionalmente, para facilitar las busquedas, voy a tener un diccionario con clave compuesta que vincule dia y horario con el indice correspondiente en el array anterior. Uso 2 estructuras diferentes porque es conveniente tener un array de posiciones para el algoritmo que vaya a desarrollar.

Por otro lado, voy a tener una matriz en pandas para facilidad de uso, que usare para conocer la audiencia que va a tener cada partido segun la categoria de ambos equipos.

Para asociar cada equipo con su categoria usare un diccionario que asocie cada equipo con su categoria.

Por ultimo, un array que contendra los porcentajes en los que se vera afectada la audiencia cuando haya coincidencias de partidos en un mismo horario.

In [2]:
import pandas as pd

#####
# Pensando en utlizar un algoritmo genetico, creo que la estructura del cromosoma podria ser un array de 10 genes,
# donde cada uno de ellos sea un numero entre 0 y 9 que represente la posicion el el array nivel_audiencia_por_horario,
# ya que la idea va a ser intercambiar partidos de horarios buscando maximizar la audiencia y la ganancia. 
#####

#######################################################################
# Estructura Principal
#######################################################################
# array con los niveles de audiencia segun el dia y horario del partido
nivel_audiencia_por_horario = [0.4, 0.55, 0.7, 0.8, 1, 0.45, 0.75, 0.85, 1, 0.4]

################################################################################################
# Estructuras Auxiliares
################################################################################################
# diccionario de diccionarios con el indice al array anterior a partir de un dia y horario dados
dia_horario = {
    "viernes": {"20": 0},
    "sabado": {"12": 1, "16": 2, "18": 3, "20": 4},
    "domingo": {"12": 5, "16": 6, "18": 7, "20": 8},
    "lunes": {"20": 9}
}

# validacion de nivel de audiencia
assert nivel_audiencia_por_horario[dia_horario["sabado"]["20"]] == 1, 'Nivel de audiencia para el Sabado a las 20 incorrecto'
assert nivel_audiencia_por_horario[dia_horario["domingo"]["12"]] == 0.45, 'Nivel de audiencia para el Sabado a las 12 incorrecto'
assert nivel_audiencia_por_horario[dia_horario["lunes"]["20"]] == 0.4, 'Nivel de audiencia para el Sabado a las 20 incorrecto'
assert nivel_audiencia_por_horario[dia_horario["sabado"]["18"]] == 0.8, 'Nivel de audiencia para el Sabado a las 18 incorrecto'

print(f'Nivel de Audiencia para el Sabado a las 20hs : {nivel_audiencia_por_horario[dia_horario["sabado"]["20"]]}')
print(f'Nivel de Audiencia para el Domingo a las 20hs: {nivel_audiencia_por_horario[dia_horario["domingo"]["12"]]}')
print(f'Nivel de Audiencia para el Lunes a las 20hs  : {nivel_audiencia_por_horario[dia_horario["lunes"]["20"]]}')
print(f'Nivel de Audiencia para el Sabado a las 18hs : {nivel_audiencia_por_horario[dia_horario["sabado"]["18"]]}')

##################################################################
# matriz para medir la audiencia segun la categoria de cada equipo 
audiencia_en_millones = {
    'A': [2, 1.3, 1],
    'B': [1.3, 0.9, 0.75],
    'C': [1, 0.75, 0.47]
}
audiencia_por_categorias = pd.DataFrame(audiencia_en_millones, index=['A', 'B', 'C'])

# validacion de audiencia de partido segun categoria de ambos
assert audiencia_por_categorias['A']['A'] == 2, 'Audiencia de A vs A incorrecta.'
assert audiencia_por_categorias['A']['C'] == 1, 'Audiencia de A vs A incorrecta.'
assert audiencia_por_categorias['C']['A'] == 1, 'Audiencia de A vs A incorrecta.'
assert audiencia_por_categorias['B']['C'] == 0.75, 'Audiencia de A vs A incorrecta.'

print("\nAudiencia por Categorias (en Millones):")
display(audiencia_por_categorias)
print(f'Audiencia para Cat. A vs Cat. A: {audiencia_por_categorias['A']['A']} millones.')
print(f'Audiencia para Cat. A vs Cat. C: {audiencia_por_categorias['A']['C']} millones.')
print(f'Audiencia para Cat. C vs Cat. A: {audiencia_por_categorias['C']['A']} millones.')
print(f'Audiencia para Cat. B vs Cat. C: {audiencia_por_categorias['B']['C']} millones.')

#######################################################################
# diccionario que empareja cada equipo con su correspondiente categoria
equipos_categoria = {
    'Celta': 'B',
    'Real Madrid': 'A',
    'Valencia': 'B',
    'Real Sociedad': 'A',
    'Mallorca': 'C',
    'Eibar': 'C',
    'Athletic': 'B',
    'Barcelona': 'A',
    'Leganes': 'C',
    'Osasuna': 'C',
    'Villareal': 'B',
    'Granada': 'C',
    'Alaves': 'B',
    'Levante': 'B',
    'Espanyol': 'B',
    'Sevilla': 'B',
    'Betis': 'B',
    'Valladolid': 'C',
    'Atletico': 'B',
    'Getafe': 'B',
}

# validacion de categoria de un equipo
assert equipos_categoria['Barcelona'] == 'A', 'Categoria del Barcelona incorrecta.'
assert equipos_categoria['Valencia'] == 'B', 'Categoria del Valencia incorrecta.'
assert equipos_categoria['Eibar'] == 'C', 'Categoria del Eibar incorrecta.'
assert equipos_categoria['Villareal'] == 'B', 'Categoria del Villareal incorrecta.'

print('\nCategorias de Equipos:')
print(f'- Barcelona es de categoria: {equipos_categoria['Barcelona']}')
print(f'- Valencia es de categoria : {equipos_categoria['Valencia']}')
print(f'- Eibar es de categoria    : {equipos_categoria['Eibar']}')
print(f'- Villareal es de categoria: {equipos_categoria['Villareal']}')

#######################################################################
# listado de categorias de todos los equipos
categorias = list(equipos_categoria.values())

# validacion de cantidad de equipos en cada categoria
assert categorias.count('A') == 3, 'Cantidad de equipos en la categoria A incorrectos.'
assert categorias.count('B') == 11, 'Cantidad de equipos en la categoria B incorrectos.'
assert categorias.count('C') == 6, 'Cantidad de equipos en la categoria C incorrectos.'

print('\nCantidad de Equipos segun Categoria:')
print(f'- Hay {categorias.count('A')} equipos de categoria A.')
print(f'- Hay {categorias.count('B')} equipos de categoria B.')
print(f'- Hay {categorias.count('C')} equipos de categoria C.')

#######################################################################
# array de reduccion de audiencia (en porcentaje) segun la cantidad de coincidencias en un mismo horario
coincidencias = [0, 0.25, 0.45, 0.60, 0.70, 0.75, 0.78, 0.80, 0.80]
print('\nReduccion de Audiencia segun Coincidencias:')
print(f'- Con 2 coincidencias la audencia se reduce un {coincidencias[2]*100}%.')
print(f'- Con 4 coincidencias la audencia se reduce un {coincidencias[4]*100}%.')
print(f'- Con 6 coincidencias la audencia se reduce un {coincidencias[6]*100}%.')
print(f'- Con 8 coincidencias la audencia se reduce un {coincidencias[8]*100}%.')

Nivel de Audiencia para el Sabado a las 20hs : 1
Nivel de Audiencia para el Domingo a las 20hs: 0.45
Nivel de Audiencia para el Lunes a las 20hs  : 0.4
Nivel de Audiencia para el Sabado a las 18hs : 0.8

Audiencia por Categorias (en Millones):


Unnamed: 0,A,B,C
A,2.0,1.3,1.0
B,1.3,0.9,0.75
C,1.0,0.75,0.47


Audiencia para Cat. A vs Cat. A: 2.0 millones.
Audiencia para Cat. A vs Cat. C: 1.0 millones.
Audiencia para Cat. C vs Cat. A: 1.0 millones.
Audiencia para Cat. B vs Cat. C: 0.75 millones.

Categorias de Equipos:
- Barcelona es de categoria: A
- Valencia es de categoria : B
- Eibar es de categoria    : C
- Villareal es de categoria: B

Cantidad de Equipos segun Categoria:
- Hay 3 equipos de categoria A.
- Hay 11 equipos de categoria B.
- Hay 6 equipos de categoria C.

Reduccion de Audiencia segun Coincidencias:
- Con 2 coincidencias la audencia se reduce un 45.0%.
- Con 4 coincidencias la audencia se reduce un 70.0%.
- Con 6 coincidencias la audencia se reduce un 78.0%.
- Con 8 coincidencias la audencia se reduce un 80.0%.


#### Según el modelo para el espacio de soluciones<br>
(*)¿Cual es la función objetivo?

(*)¿Es un problema de maximización o minimización?

#### Respuesta:
1- La funcion objetivo es el nivel de audiencia total entre todos los partidos de la jornada a organizar, especificamente, la suma de la audiencia de cada uno de los 10 partidos. 

2- Es un problema de maximizacion, donde estamos buscando maximizar los niveles de audiencia y por consiguiente los niveles de ganancia.
Para maximizarla, buscaremos la mejor distrubucion de partidos de una jornada de liga, que segun la categoria de los equipos, el dia y horario a disputarse el partido, las penalizaciones en nivel de audiencia por cantidad de partidos concurrentes, y la restriccion de que al menos haya 1 partido el viernes y 1 el lunes.

### Funciones Auxiliares
A continuacion se definen las funciones basicas para generar soluciones, validas y evaluar las mismas, entre otras.

In [3]:
import random 

# Funcion para organizar jornada. De esta forma, dado el listado de equipos, va a generar la jornada que se ve en la definicion del ejercicio.
# Para generar jornadas aleatorias, se debera pasar un True como segundo parametro a la funcion.
def generar_partidos(equipos_dict, shuffle=False):
    equipos = list(equipos_dict.keys())
    # para barajar de nuevo el orden de los equipos y por consiguiente la generacion de partidos
    if shuffle:
        random.shuffle(equipos)
    return list(zip(*[iter(equipos)]*2))

partidos = generar_partidos(equipos_categoria)
assert len(partidos) == 10
display(partidos)

[('Celta', 'Real Madrid'),
 ('Valencia', 'Real Sociedad'),
 ('Mallorca', 'Eibar'),
 ('Athletic', 'Barcelona'),
 ('Leganes', 'Osasuna'),
 ('Villareal', 'Granada'),
 ('Alaves', 'Levante'),
 ('Espanyol', 'Sevilla'),
 ('Betis', 'Valladolid'),
 ('Atletico', 'Getafe')]

In [4]:
# Organiza una jornada con un set de partidos dados. 
# Se tiene en cuenta las restricciones de asignar al menos 1 partido al viernes y 1 al lunes.
# Devuelve un array donde cada posicion 
def organizar_jornada(partidos):
    
    indice_viernes = 0 # el primer horario de la jornada tiene indice 0 en el array nivel_audiencia_por_horario
    indice_lunes = 9   # el ultimo horario de la jornada tiene indice 9 en el array nivel_audiencia_por_horario
    jornada_horarios = [None] * len(partidos)

    # Aseguramos que el viernes haya un partido, para eso elijo un partido al azar y lo asigno (valor = 0)
    partido_jugar_viernes = random.randint(0, len(partidos)-1)
    jornada_horarios[partido_jugar_viernes] = indice_viernes
    
    # Aseguramos que el viernes haya un partido, para eso elijo un partizo al azar excepto el del viernes, y lo asigno (valor = 9)
    rango_lunes = [i for i in range(len(partidos)) if i != partido_jugar_viernes]
    partido_jugar_lunes = random.choice(rango_lunes)
    jornada_horarios[partido_jugar_lunes] = indice_lunes

    assert partido_jugar_viernes != partido_jugar_lunes, 'Error: Se selecciono un partido repetido'

    # El resto de los partidos (que no hayan sido asignados al viernes o lunes) les damos cualquier dia y horario, no hay restricciones
    for i in range(0, len(partidos)):
        if jornada_horarios[i] is  None:
            horario = random.randint(0, 9)
            jornada_horarios[i] = horario

    return jornada_horarios
    

# Cada posicion del array jornada_horarios representa un un partido de la jornada que se genero con el metodo generar_partidos().
# Por ejemplo, el valor 0 corresponde a ('Celta', 'Real Madrid'), el valor 3 a ('Athletic', 'Barcelona')
#
# El valor de cada posicion del array indica el dia y horario que se disputara el partido.
# Por ejemplo, la posicion 0 corresponde al Viernes a las 20hs, y la posicion 9 al Lunes a las 20hs.
jornada_horarios = organizar_jornada(partidos)
display(jornada_horarios)

[8, 7, 5, 8, 0, 4, 3, 8, 7, 9]

In [5]:
# Es importante validar la solucion. Este metodo valida que se cumplan las restricciones, es decir, 
# que en los horarios de la jornada haya al menos 1 partido el viernes y al menos 1 partido el lunes.
# Ademas, que no haya partidos sin ningun horario asignado
def validar_horarios_jornada(jornada_horarios):
    
    indice_viernes = 0 # el primer horario de la jornada tiene indice 0 en el array nivel_audiencia_por_horario
    indice_lunes = 9   # el ultimo horario de la jornada tiene indice 9 en el array nivel_audiencia_por_horario

    # Debe haber al menos 1 partido el viernes
    if jornada_horarios.count(indice_viernes) == 0:
        print('No se encontro ningun partido asignado al horario del Viernes a las 20hs.')
        return False
    # Debe haber al menos 1 partido el lunes
    elif jornada_horarios.count(indice_lunes) == 0:
        print('No se encontro ningun partido asignado al horario del Lunes a las 20hs.')
        return False
    # Todos los partidos deben tener horario asignado
    elif jornada_horarios.count(None) > 0:
        print(f'Se encontraron {jornada_horarios.count(None)} partidos sin horario asignado.')
        return False
    else:
        return True
        

assert validar_horarios_jornada(jornada_horarios) == True

sin_asignar = jornada_horarios[:]
sin_asignar[4] = None
assert validar_horarios_jornada(sin_asignar) == False

No se encontro ningun partido asignado al horario del Viernes a las 20hs.


In [6]:
import numpy as np

# Si la validacion muestra alguna inconsistencia en los datos, hay que corregir el set de datos para que respete las restricciones.
def corregir_horarios_jornada(jornada_horarios):
    
    indice_viernes = 0 # el primer horario de la jornada tiene indice 0 en el array nivel_audiencia_por_horario
    indice_lunes = 9   # el ultimo horario de la jornada tiene indice 9 en el array nivel_audiencia_por_horario

    # Todos los partidos deben tener horario asignado
    if jornada_horarios.count(None) > 0:
        sin_horario_asignado = np.where(np.array(jornada_horarios) == None)[0].tolist()
        for partido in sin_horario_asignado:
            nuevo_horario = random.randint(0, len(jornada_horarios))
            jornada_horarios[partido] = nuevo_horario
            
    # Debe haber al menos 1 partido el viernes
    if jornada_horarios.count(indice_viernes) == 0:
        # busco algun partido que no sea el del lunes para no pisarlo
        partidos_no_lunes = np.where(np.array(jornada_horarios) != indice_lunes)[0].tolist()
        # agarro uno de ellos aleatoriamente
        try: # por si son todos los partidos el lunes
            partido_para_viernes = random.choice(partidos_no_lunes)
        except IndexError:
            partido_para_viernes = 0
        # lo asigno para que se dispute el viernes
        jornada_horarios[partido_para_viernes] = indice_viernes
    
    # Debe haber al menos 1 partido el lunes
    if jornada_horarios.count(indice_lunes) == 0:
        # busco algun partido que no sea el del viernes para no pisarlo
        partidos_no_viernes = np.where(np.array(jornada_horarios) != indice_viernes)[0].tolist()
        # agarro uno de ellos aleatoriamente
        try: # por si son todos los partidos el viernes
            partido_para_lunes = random.choice(partidos_no_viernes)
        except IndexError:
            partido_para_lunes = 0
        # lo asigno para que se dispute el lunes
        jornada_horarios[partido_para_lunes] = indice_lunes

    return jornada_horarios

# Si esta bien, no corrige nada, y queda como estaba
assert validar_horarios_jornada(jornada_horarios) == True
jornada_corregida = corregir_horarios_jornada(jornada_horarios)
assert validar_horarios_jornada(jornada_corregida) == True

jornada_mala_con_none_sin_viernes = [None, 3, 6, 3, None, 2, 7, 6, 5, 9]
assert validar_horarios_jornada(jornada_mala_con_none_sin_viernes) == False
jornada_corregida = corregir_horarios_jornada(jornada_mala_con_none_sin_viernes)
assert validar_horarios_jornada(jornada_corregida) == True

jornada_mala_con_none_sin_viernes_sin_lunes = [None, 3, 6, 3, None, 2, 7, None, 5, None]
assert validar_horarios_jornada(jornada_mala_con_none_sin_viernes_sin_lunes) == False
jornada_corregida = corregir_horarios_jornada(jornada_mala_con_none_sin_viernes_sin_lunes)
assert validar_horarios_jornada(jornada_corregida) == True

jornada_mala_todos_lunes = [9,9,9,9,9,9,9,9,9,9]
assert validar_horarios_jornada(jornada_mala_todos_lunes) == False
jornada_corregida = corregir_horarios_jornada(jornada_mala_todos_lunes)
assert validar_horarios_jornada(jornada_corregida) == True

jornada_mala_todos_viernes = [0,0,0,0,0,0,0,0,0,0]
assert validar_horarios_jornada(jornada_mala_todos_viernes) == False
jornada_corregida = corregir_horarios_jornada(jornada_mala_todos_viernes)
assert validar_horarios_jornada(jornada_corregida) == True

No se encontro ningun partido asignado al horario del Viernes a las 20hs.
No se encontro ningun partido asignado al horario del Viernes a las 20hs.
No se encontro ningun partido asignado al horario del Viernes a las 20hs.
No se encontro ningun partido asignado al horario del Lunes a las 20hs.


In [8]:
import pandas as pd

def obtener_dia_y_horario(indice_horario):
    for dia, horarios in dia_horario.items():
        for horario, valor in horarios.items():
            if valor == indice_horario:
                return dia, horario
    return None, None  # En caso de que no se encuentre el valor

def obtener_codigo_horario(dia_y_horario):
    return dia_y_horario[0][0].capitalize()+dia_y_horario[1]
    
# Funcion objetivo para poder evaluar las distintas soluciones que se vayan generando.
# Dado un array con los horarios asignados a cada partido de una jornada dada, 
# la funcion devolvera un valor numerico que representara la audiencia en millones de espectadores. 
def analizar_jornada(jornada_horarios, partidos):

    data = []
    audiencia_jornada = 0
    
    for indice_partido, horario_partido in enumerate(jornada_horarios):

        # la audiencia que se espera para un partido en particular
        audiencia_estimada_partido = 0
        
        # Como ya se comento, cada posicion de jornada_horarios representa un partido del array partidos
        partido = partidos[indice_partido]

        # cada posicion de la tupla es un equipo, buscamos sus categorias
        categoria_local = equipos_categoria[partido[0]]
        categoria_visitante = equipos_categoria[partido[1]]

        # segun la categoria de ambos, podemos buscar la audiencia estimada del enfrentamiento entre ellos
        audiencia_segun_categoria_equipos = audiencia_por_categorias[categoria_local][categoria_visitante]
        nivel_audiencia = nivel_audiencia_por_horario[horario_partido]
        audiencia_base_por_ponderacion_horario = audiencia_segun_categoria_equipos * nivel_audiencia

        # segun la cantidad de coincidencias en un mismo horario, la audiencia se vera afectada en una reduccion de porcentaje
        coincidencia_en_horario = jornada_horarios.count(horario_partido) - 1
        reduccion_audiencia = coincidencias[coincidencia_en_horario]
        
        # suma de la audiencia estimada para cada partido
        audiencia_estimada_partido += audiencia_base_por_ponderacion_horario
        audiencia_estimada_partido -= audiencia_estimada_partido * reduccion_audiencia
        audiencia_estimada_partido = audiencia_estimada_partido

        #print(f'- {partido[0]} ({categoria_local}) vs {partido[1]} ({categoria_visitante}) = {audiencia_segun_categoria_equipos} -> ponderacion x horario {horario_partido}: {nivel_audiencia} -> base*pond = {audiencia_base_por_ponderacion_horario} -> reduccion audiencia = {reduccion_audiencia*100}% -> TOTAL={audiencia_estimada_partido}')
        audiencia_jornada += audiencia_estimada_partido
        
        dia_y_horario = obtener_dia_y_horario(horario_partido)
        data.append([partido[0] + ' - ' + partido[1],
                     categoria_local+'-'+categoria_visitante,
                     obtener_codigo_horario(dia_y_horario),
                     audiencia_segun_categoria_equipos,
                     nivel_audiencia,
                     round(audiencia_base_por_ponderacion_horario, 3),
                     round(reduccion_audiencia, 3),
                     round(audiencia_estimada_partido, 3)])
    
    # se devuelve un dataframe con toda la informacion mas la suma de las audiencias de cada partido en millones redondeada a 2 decimales 
    df = pd.DataFrame(data, columns=['Partido', 'Categorias', 'Horario', 'Base', 'Ponderacion', 'Base*Pond', 'Correccion Coincidencia', 'Audiencia Estimada'], index=range(len(jornada_horarios)))
    return df, round(audiencia_jornada, 3)


df_jornada, audiencia_estimada_jornada = analizar_jornada(jornada_horarios, partidos)
display(df_jornada)
print(f'Audiencia estimada para la jornada = {audiencia_estimada_jornada} millones.')

Unnamed: 0,Partido,Categorias,Horario,Base,Ponderacion,Base*Pond,Correccion Coincidencia,Audiencia Estimada
0,Celta - Real Madrid,B-A,D20,1.3,1.0,1.3,0.45,0.715
1,Valencia - Real Sociedad,B-A,D18,1.3,0.85,1.105,0.25,0.829
2,Mallorca - Eibar,C-C,D12,0.47,0.45,0.212,0.0,0.212
3,Athletic - Barcelona,B-A,D20,1.3,1.0,1.3,0.45,0.715
4,Leganes - Osasuna,C-C,V20,0.47,0.4,0.188,0.0,0.188
5,Villareal - Granada,B-C,S20,0.75,1.0,0.75,0.0,0.75
6,Alaves - Levante,B-B,S18,0.9,0.8,0.72,0.0,0.72
7,Espanyol - Sevilla,B-B,D20,0.9,1.0,0.9,0.45,0.495
8,Betis - Valladolid,B-C,D18,0.75,0.85,0.638,0.25,0.478
9,Atletico - Getafe,B-B,L20,0.9,0.4,0.36,0.0,0.36


Audiencia estimada para la jornada = 5.461 millones.


In [10]:
# Prueba con la jornada de ejemplo del pdf, para chequear que todos los calculos van por buen camino
jornada_ejemplo_pdf = [0,1,2,3,4,6,6,7,8,9]
df_jornada, audiencia_estimada_jornada = analizar_jornada(jornada_ejemplo_pdf, partidos)
# en el ejemplo dado, se estimaba una asistencia de 5.88
assert round(audiencia_estimada_jornada, 2) == 5.88, 'La audiencia estimada no coincide con la del ejemplo.'
# display del dataframe con el analisis completo de la jornada
display(df_jornada)
print(f'Audiencia estimada = {audiencia_estimada_jornada} millones.')

Unnamed: 0,Partido,Categorias,Horario,Base,Ponderacion,Base*Pond,Correccion Coincidencia,Audiencia Estimada
0,Celta - Real Madrid,B-A,V20,1.3,0.4,0.52,0.0,0.52
1,Valencia - Real Sociedad,B-A,S12,1.3,0.55,0.715,0.0,0.715
2,Mallorca - Eibar,C-C,S16,0.47,0.7,0.329,0.0,0.329
3,Athletic - Barcelona,B-A,S18,1.3,0.8,1.04,0.0,1.04
4,Leganes - Osasuna,C-C,S20,0.47,1.0,0.47,0.0,0.47
5,Villareal - Granada,B-C,D16,0.75,0.75,0.562,0.25,0.422
6,Alaves - Levante,B-B,D16,0.9,0.75,0.675,0.25,0.506
7,Espanyol - Sevilla,B-B,D18,0.9,0.85,0.765,0.0,0.765
8,Betis - Valladolid,B-C,D20,0.75,1.0,0.75,0.0,0.75
9,Atletico - Getafe,B-B,L20,0.9,0.4,0.36,0.0,0.36


Audiencia estimada = 5.877 millones.


Diseña un algoritmo para resolver el problema por fuerza bruta

#### Respuesta: 

Un algoritmo por fuerza bruta exploraria las 4100173022 soluciones posibles, si tenemos en cuenta las restricciones, lo que lo haria muy costoso computcionalmente. No pude ejecutarlo en mi poco potente laptop.

In [11]:
%%time

import itertools
import time

# con la fuerza bruta estariamos probando todos los escenarios posibles para encontrar el optimo (maximo) global
def fuerza_bruta(partidos, tiempo_max):
    mejor_jornada = [0]*10
    mejor_jornada[-1] = 9
    df_mejor_jornada, mayor_audiencia = analizar_jornada(mejor_jornada, partidos)
    iteracion = 0
    inicio = time.time()
    print(f'FB - Inicio con: {mayor_audiencia}')

    # se exploran todas las combinaciones de horarios posibles: 10**10 variaciones posibles
    for nueva_jornada in itertools.product(range(10), repeat=10):
        nueva_jornada = list(nueva_jornada)
        
        # se verifican las restricciones: al menos un partido en viernes (índice 0) y uno en lunes (índice 9)
        if nueva_jornada.count(0) == 0 or nueva_jornada.count(9) == 0:
            # si no se cumplen, seguimos con la siguiente iteracion
            continue

        #print(nueva_jornada)
        # por las dudas, se valida si la jornada es correcta, caso contrario se la corrige
        if not validar_horarios_jornada(nueva_jornada):
            corregir_horarios_jornada(nueva_jornada) 

        # se analiza la jornada, calculando la audiencia estimada de la misma
        df_jornada, audiencia_estimada = analizar_jornada(nueva_jornada, partidos)

        # si la audiencia estimada es mayor que la actual, es la nueva mejor
        if audiencia_estimada > mayor_audiencia:
            print(f'{iteracion} - Mejora con: {audiencia_estimada}')
            mayor_audiencia = audiencia_estimada
            mejor_jornada = nueva_jornada
            df_mejor_jornada = df_jornada
        
        iteracion += 1
        # Control por tiempo, no se va a explorar todo el espacio de soluciones porque es inviable computacionalmente
        if time.time() - inicio > tiempo_max: # en segundos -> 3600 = 1 hora
            print(f'Tiempo máximo permitido de ejecucion alcanzado en la itearcion {iteracion}.')
            break
            
    # se devuelve tanto la jornada como su audiencia estimada
    return df_mejor_jornada, mejor_jornada, mayor_audiencia


# prueba con fuerza bruta todas las posibles combinaciones de horarios que cumplan con las restricciones
df_mejor_jornada_fuerza_bruta, mejor_jornada_fuerza_bruta, mayor_audiencia_fuerza_bruta = fuerza_bruta(partidos, 20) # segundos
# la mejor organizacion con fuerza bruta, en el plazo de 2 horas, alcanzando a evaluar aprox 10M de soluciones, es de aprox 6M.
display(df_mejor_jornada_fuerza_bruta)
print(mejor_jornada_fuerza_bruta, ' = ', mayor_audiencia_fuerza_bruta)

FB - Inicio con: 1.011
1 - Mejora con: 1.364
2 - Mejora con: 1.476
3 - Mejora con: 1.551
4 - Mejora con: 1.701
13 - Mejora con: 1.791
21 - Mejora con: 1.951
22 - Mejora con: 2.026
23 - Mejora con: 2.176
32 - Mejora con: 2.266
42 - Mejora con: 2.311
51 - Mejora con: 2.401
70 - Mejora con: 2.491
84 - Mejora con: 2.581
93 - Mejora con: 2.671
313 - Mejora con: 2.794
322 - Mejora con: 2.884
341 - Mejora con: 2.974
355 - Mejora con: 3.064
364 - Mejora con: 3.154
626 - Mejora con: 3.199
635 - Mejora con: 3.289
906 - Mejora con: 3.379
1234 - Mejora con: 3.424
4042 - Mejora con: 3.453
4051 - Mejora con: 3.543
4065 - Mejora con: 3.633
4074 - Mejora con: 3.723
4345 - Mejora con: 3.813
4673 - Mejora con: 3.858
7784 - Mejora con: 3.926
8112 - Mejora con: 3.971
11551 - Mejora con: 4.046
45624 - Mejora con: 4.067
48725 - Mejora con: 4.1
48726 - Mejora con: 4.213
48735 - Mejora con: 4.303
49063 - Mejora con: 4.348
52502 - Mejora con: 4.423
Tiempo máximo permitido de ejecucion alcanzado en la itearcion

Unnamed: 0,Partido,Categorias,Horario,Base,Ponderacion,Base*Pond,Correccion Coincidencia,Audiencia Estimada
0,Celta - Real Madrid,B-A,V20,1.3,0.4,0.52,0.6,0.208
1,Valencia - Real Sociedad,B-A,V20,1.3,0.4,0.52,0.6,0.208
2,Mallorca - Eibar,C-C,V20,0.47,0.4,0.188,0.6,0.075
3,Athletic - Barcelona,B-A,V20,1.3,0.4,0.52,0.6,0.208
4,Leganes - Osasuna,C-C,S12,0.47,0.55,0.258,0.0,0.258
5,Villareal - Granada,B-C,S18,0.75,0.8,0.6,0.0,0.6
6,Alaves - Levante,B-B,S20,0.9,1.0,0.9,0.0,0.9
7,Espanyol - Sevilla,B-B,D18,0.9,0.85,0.765,0.0,0.765
8,Betis - Valladolid,B-C,L20,0.75,0.4,0.3,0.0,0.3
9,Atletico - Getafe,B-B,D20,0.9,1.0,0.9,0.0,0.9


[0, 0, 0, 0, 1, 3, 4, 7, 9, 8]  =  4.423
CPU times: user 59.7 s, sys: 568 ms, total: 1min
Wall time: 1min


Se exploraron 142038456 soluciones en 2 horas, obteniendo esta como la mejor solucion:<br>
[0, 2, 1, 4, 9, 5, 3, 7, 6, 8]  =  6.46
<br>
Cabe destacar que el primer partido nunca pudo salir del primer horario, por lo que las 142038456 tuvieron al primer partido en el horario del viernes a las 20hs.

Calcula la complejidad del algoritmo por fuerza bruta

#### Respuesta: O(N * MN)

El metodo analizar_jornada tiene un bucle de N iteraciones, 
El metodo validar_horarios_jornada tiene un coste constante A, 
El metodo corregir_horarios_jornada, en el peor de los casos cuando todo el array es None, tiene otro bucle de N iteraciones para asignar horarios a los N partidos. 
Siendo un coste interno de O(A * 2 * N) = O(N)

Mientras que la fuerza bruta en si tiene un coste de M a la N ya que explora todas las posibles soluciones, siendo M la cantidad de horarios disponibles y N la cantidad de partidos a jugarse.
De los cuales (M a la N) - (2 * (M-1) a la N) + ((M-2) a la N) son soluciones validas y se ven afectadas por los metodos arriba mencionados, por lo que corresponde multiplicar este valor por O(N). -> O( M *  (N<sup>N</sup>) - (2 * (M-1)<sup>N</sup>) + ((M-2)<sup>N</sup>), pero siendo el factor dominante de la ecuacion M a la N, la complejidad termina siendo O(M a la N)
Luego se suma el resto de soluciones invalidas, que si bien se incluyen en el bucle, no se procesa nada sobre ellas dando un coste de O(1) por cada una. -> O( (M<sup>N</sup>) - ((M<sup>N</sup>) - (2 * (M-1) a la N) + ((M-2) a la N) ), simplificando por factor dominante, se vuelve a tener O(M a la N).

La suma de ambos coste da la complejidad total del metodo de fuerza bruta: N * (M<sup>N</sup>) + (M<sup>N</sup>) = N * (N<sup>N</sup>) 
-> O(N * M<sup>N</sup>)

######################## ######################## ######################## 
#### Busqueda Aleatoria:

Quisiera implementar una mejora muy simple a la fuerza bruta como lo es la busqueda aleatoria. 
En el vamos a generar N soluciones validas, compararla y quedarnos con la mejor. 
Solo a modo de prueba, ya que es sabido que los resultados obtenidos por este metodo sin ninguna "inteligencia" quedan bastante lejos del optimo.

La complejidad es de O(M * N)
Ya que itera el algoritmo N veces, y por cada una se organiza la jornada (coste O(N)), se valida la jornada (coste O(1), se corrige la jornada (coste O(N)) y se evalua la jornada (coste O(N)). La suma de estos costes internos en cada itearacion es O(3N), lo que se simplifica a O(N). Al multiplicarlo por la cantidad de iteraciones sobre el algoritmo, da un coste de O(M * N)

In [17]:
%%time

# Voy a probar todo lo creado arriba con una simple busqueda aleatoria, generando organizaciones random y viendo cual es la mejor.
def busqueda_aleatoria(partidos, n_vueltas):
    mejor_jornada = organizar_jornada(partidos)
    df_mejor_jornada, mayor_audiencia = analizar_jornada(jornada_horarios, partidos)
    # print(f'x - Inicio con: {mayor_audiencia}')
    
    for i in range(n_vueltas-1):
        # se organiza una nueva jornada con asignacion de horarios aleatoria
        nueva_jornada = organizar_jornada(partidos)

        # se valida si la jornada es correcta, caso contrario se la corrige
        if not validar_horarios_jornada(nueva_jornada):
            corregir_horarios_jornada(nueva_jornada) 

        # se analiza la jornada, calculando la audiencia estimada de la misma
        df_jornada, audiencia_estimada = analizar_jornada(nueva_jornada, partidos)

        # si la audiencia estimada es mayor que la actual, es la nueva mejor
        if audiencia_estimada > mayor_audiencia:
            #print(f'{i} - Mejora con: {audiencia_estimada}')
            mayor_audiencia = audiencia_estimada
            mejor_jornada = nueva_jornada
            df_mejor_jornada = df_jornada

    # se devuelve tanto la jornada como su audiencia estimada
    return df_mejor_jornada, mejor_jornada, mayor_audiencia


# prueba con busqueda aleatoria con 100.000 iteraciones
df_mejor_jornada_aleatoria, mejor_jornada_aleatoria, mayor_audiencia_aleatoria = busqueda_aleatoria(partidos, 5000)
# la mejor organizacion promedio con busqueda aleatoria parece estar entre 6.6 y 6.7 millones luego de varias pruebas..
display(df_mejor_jornada_aleatoria)
print(mejor_jornada_aleatoria, ' = ', mayor_audiencia_aleatoria)

Unnamed: 0,Partido,Categorias,Horario,Base,Ponderacion,Base*Pond,Correccion Coincidencia,Audiencia Estimada
0,Celta - Real Madrid,B-A,D18,1.3,0.85,1.105,0.0,1.105
1,Valencia - Real Sociedad,B-A,S18,1.3,0.8,1.04,0.0,1.04
2,Mallorca - Eibar,C-C,S20,0.47,1.0,0.47,0.25,0.352
3,Athletic - Barcelona,B-A,D20,1.3,1.0,1.3,0.0,1.3
4,Leganes - Osasuna,C-C,V20,0.47,0.4,0.188,0.0,0.188
5,Villareal - Granada,B-C,L20,0.75,0.4,0.3,0.0,0.3
6,Alaves - Levante,B-B,D12,0.9,0.45,0.405,0.0,0.405
7,Espanyol - Sevilla,B-B,D16,0.9,0.75,0.675,0.0,0.675
8,Betis - Valladolid,B-C,S16,0.75,0.7,0.525,0.0,0.525
9,Atletico - Getafe,B-B,S20,0.9,1.0,0.9,0.25,0.675


[7, 3, 4, 8, 0, 9, 5, 6, 2, 4]  =  6.566
CPU times: user 4.87 s, sys: 32.5 ms, total: 4.91 s
Wall time: 4.92 s


En unos pocos segundos de ejecucion y busqueda en 50.000 escenarios distintos, la busqueda aleatoria obtuvo mejores resultados que la fuerza bruta en 2 horas de ejecucion.
<br>
- Optimo local con fuerza bruta = 6.46 millones de espectadores
<br>
- Optimo local con busqueda aleatoria = valor promedio entre 6.6 y 6.7 millones de espectadores

(*)Diseña un algoritmo que mejore la complejidad del algortimo por fuerza bruta. Argumenta porque crees que mejora el algoritmo por fuerza bruta

#### Respuesta: 
Procedere a implementar un algoritmo genetico para encontrar la mejor solucion posible al problema.

In [22]:

def generar_poblacion(partidos, tamanio, iteraciones_busqueda_aleatoria):
    return [busqueda_aleatoria(partidos, iteraciones_busqueda_aleatoria)[1] for x in range(tamanio)]


# Funcion de cruce. Recibe una poblacion (jornada organizada) y devuelve la población ampliada con los hijos y mutados.
def cruzar_y_mutar(poblacion, mutacion):

    # Creo una copia de la población para ir eliminando los padres seleccionados
    poblacion_copia = copy.deepcopy(poblacion)

    # Definimos en una variable la copia de la población para ir añadiendo los hijos creados
    poblacion_final = copy.deepcopy(poblacion)

    while len(poblacion_copia) > 1:  # Iteramos mientras haya padres disponibles
        # Seleccionamos dos padres
        padre1, padre2 = random.sample(poblacion_copia, 2)
        poblacion_copia.remove(padre1)
        poblacion_copia.remove(padre2)
        poblacion_final.extend(cruzar(padre1, padre2, mutacion))

    return limpiar_repetidos(poblacion_final)


# si hay soluciones repetidas, se filtran
def limpiar_repetidos(poblacion):
    set_de_tuplas = set(tuple(sublista) for sublista in poblacion)
    lista_sin_duplicados = [list(tupla) for tupla in set_de_tuplas]
    return lista_sin_duplicados


# Funcion para generar hijos a partir de 2 padres usando el  metodo de 1-punto de corte
def cruzar(padre1, padre2, mutacion):

    # Se elige un punto de corte aleatorio:
    pc = random.sample(range(1, len(padre1)), 1)[0]

    hijo1 = corregir_horarios_jornada(padre1[:pc] + padre2[pc:])
    hijo2 = corregir_horarios_jornada(padre2[:pc] + padre1[pc:])

    # se devuelven los hijos y las posibles mutaciones
    return limpiar_repetidos([hijo1, hijo2, mutar(hijo1, mutacion), mutar(hijo2, mutacion)])


# Funcion de mutación: Se eligen dos elementos del array y se intercambian.
def mutar(hijo, mutacion):
    if random.random() < mutacion:
        sel1, sel2 = sorted(random.sample(range(len(hijo)), 2))
        return hijo[:sel1] + [hijo[sel2]] + hijo[sel1 + 1:sel2] + [hijo[sel1]] + hijo[sel2 + 1:]
    else:
        return hijo[::]


# Funcion de seleccion de la población. La idea es mantener un tamanio fijo de poblacion.
# Para eso se seleccionan las mejores segun un % de elitismo, y el resto se elijen con una selección de ruleta (proporcional a su fitness)
def seleccionar_poblacion(poblacion, partidos, tamanio, elitismo):

    # Se ordena la población según el nivel de audiencia (fitness)
    jornadas = [(jornada, analizar_jornada(jornada, partidos)[1]) for jornada in poblacion]
    jornadas_ordenados = sorted(jornadas, key=lambda x: x[1], reverse=True)

    # Extraemos la población ordenada y sus correspondientes fitness
    poblacion_ordenada = [j for j, _ in jornadas_ordenados]
    fitness_ordenado = [f for _, f in jornadas_ordenados]

    # Selección por elitismo, redondeo para arriba para beneficiar el elitismo
    cant_elitismo = int(np.ceil(tamanio * elitismo))
    elite = poblacion_ordenada[:cant_elitismo]

    # Para la parte restante, usamos ruleta ponderada
    resto_jornadas = poblacion_ordenada[cant_elitismo:]
    resto_fitness = fitness_ordenado[cant_elitismo:]

    # Si la suma de fitness es cero, caemos a una selección uniforme
    if sum(resto_fitness) == 0:
        pesos = None
    else:
        pesos = np.array(resto_fitness) / np.sum(resto_fitness)

    cant_restante = tamanio - cant_elitismo
    # Uso numpy.random.choice para seleccionar índices de manera ponderada
    # Uso replace=False para no repetir candidatos.
    if len(resto_jornadas) >= cant_restante:
        indices = np.random.choice(len(resto_jornadas), size=cant_restante, replace=False, p=pesos)
        seleccionados = [resto_jornadas[i] for i in indices]
    else:
        # Si por alguna razón no hay suficientes candidatos en el resto, los tomamos todos
        seleccionados = resto_jornadas

    # Devolvemos la elite + el resto con una ruleta rusa ponderada
    return elite + seleccionados


# recorremos toda la poblacion buscando el mejor individuo
def evaluar_poblacion(poblacion_jornadas, partidos):
    mejor_df, mejor_jornada, mejor_audiencia = None, [], 0
    for jornada in poblacion_jornadas:
        df, audiencia = analizar_jornada(jornada, partidos)
        if audiencia > mejor_audiencia:
            mejor_df, mejor_jornada, mejor_audiencia = df, jornada, audiencia
    return mejor_df, mejor_jornada, mejor_audiencia

In [28]:
%%time

import copy

class bcolors:
    OKGREEN = '\033[92m'
    FAIL = '\033[91m'
    ENDC = '\033[0m'


# Funcion principal del algoritmo genetico
# args:
### jornada = organizacion inicial de una jornada
### tamanio = Tamaño de la población
### mutacion = probabilidad de una mutación
### elitismo = porcion de la mejor poblacion a mantener
### generaciones = nº de generaciones a generar para finalizar
def algoritmo_genetico(partidos, tamanio_poblacion=500, porc_mutacion=.15, porc_elitismo=.15, generaciones=500  ):

    # Genero una poblacion inicial con n elementos obtenidos con busqueda aleatoria
    iteraciones_busqueda_aleatoria = 3 # por cada individuo generado, estoy eligiendo el mejor entre 3 intentos
    poblacion = generar_poblacion(partidos, tamanio_poblacion, iteraciones_busqueda_aleatoria)

    # evaluo esta poblacion inicial para encontrar la mejor organizacion de jornada hasta el momento
    df_mejor_jornada_genetica, mejor_jornada_genetica, mayor_audiencia_genetica = evaluar_poblacion(poblacion, partidos)
    audiencia_generacion_anterior = mayor_audiencia_genetica

    n = 0
    generaciones_sin_mejoras = 0
    while n != generaciones:

        # El % de mutacion va a ser dinamico, aumentando a medida que pasan generaciones sin mejores soluciones hasta un maximo del 45%
        mutacion_dinamica =round(min(0.45, porc_mutacion + generaciones_sin_mejoras/250), 2)
        # Cruzamos los individuos y generamos alguna mutacion segun un % dado
        poblacion = cruzar_y_mutar(poblacion, mutacion_dinamica)

        # Seleccionamos la población segun el tamaño de la misma y un % de elitismo
        poblacion = seleccionar_poblacion(poblacion, partidos, tamanio_poblacion, porc_elitismo)

        # Evaluamos la nueva población buscando la que mas maximiza la audiencia
        df_mejor_generacion, mejor_jornada_generacion, mayor_audiencia_generacion = evaluar_poblacion(poblacion, partidos)
        if mayor_audiencia_generacion > mayor_audiencia_genetica:
            df_mejor_jornada_genetica, mejor_jornada_genetica, mayor_audiencia_genetica = df_mejor_generacion, mejor_jornada_generacion, mayor_audiencia_generacion

        if audiencia_generacion_anterior != mayor_audiencia_genetica:
            mejor_o_peor = f"{bcolors.OKGREEN}MEJORA{bcolors.ENDC}" if audiencia_generacion_anterior < mayor_audiencia_genetica else f"{bcolors.FAIL}EMPEORA{bcolors.ENDC}"
            print(f'Generacion # {n} -> La mejor solución es: {mejor_organizacion_genetica}, con distancia {mayor_audiencia_genetica} -> {mejor_o_peor}')
            if audiencia_generacion_anterior < mayor_audiencia_genetica:
                generaciones_sin_mejoras = 0
        else:
            generaciones_sin_mejoras += 1

        # mantengo una referencia a la audiencia de la generacion anterior para comparar con la actual y trackear el progreso del algoritmo
        audiencia_generacion_anterior = mayor_audiencia_generacion
        n += 1

    return df_mejor_jornada_genetica, mejor_jornada_genetica, mayor_audiencia_genetica


df_mejor_jornada_genetica, mejor_jornada_genetica, mayor_audiencia_genetica = algoritmo_genetico(
        partidos,
        tamanio_poblacion=250,
        porc_mutacion=0.15,
        porc_elitismo=0.2,
        generaciones=250
    )
display(df_mejor_jornada_genetica)
print(mejor_jornada_genetica, ' = ', mayor_audiencia_genetica)

Generacion # 2 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.398 -> [92mMEJORA[0m
Generacion # 3 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.528 -> [92mMEJORA[0m
Generacion # 4 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.58 -> [92mMEJORA[0m
Generacion # 6 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.639 -> [92mMEJORA[0m
Generacion # 8 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.706 -> [92mMEJORA[0m
Generacion # 16 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.714 -> [92mMEJORA[0m
Generacion # 18 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.721 -> [92mMEJORA[0m
Generacion # 21 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.762 -> [92mMEJORA[0m
Generacion # 22 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.764 -> [92mMEJORA[0

Unnamed: 0,Partido,Categorias,Horario,Base,Ponderacion,Base*Pond,Correccion Coincidencia,Audiencia Estimada
0,Celta - Real Madrid,B-A,D18,1.3,0.85,1.105,0,1.105
1,Valencia - Real Sociedad,B-A,D20,1.3,1.0,1.3,0,1.3
2,Mallorca - Eibar,C-C,V20,0.47,0.4,0.188,0,0.188
3,Athletic - Barcelona,B-A,S20,1.3,1.0,1.3,0,1.3
4,Leganes - Osasuna,C-C,L20,0.47,0.4,0.188,0,0.188
5,Villareal - Granada,B-C,D12,0.75,0.45,0.338,0,0.338
6,Alaves - Levante,B-B,D16,0.9,0.75,0.675,0,0.675
7,Espanyol - Sevilla,B-B,S18,0.9,0.8,0.72,0,0.72
8,Betis - Valladolid,B-C,S12,0.75,0.55,0.413,0,0.413
9,Atletico - Getafe,B-B,S16,0.9,0.7,0.63,0,0.63


[7, 8, 0, 4, 9, 5, 6, 3, 1, 2]  =  6.856
CPU times: user 2min 27s, sys: 350 ms, total: 2min 27s
Wall time: 2min 29s


(*)Calcula la complejidad del algoritmo

#### Respuesta: 

Para generar la poblacion inicial estoy usando busqueda aleatoria. Se llama a la busqueda N veces, para llegar a tener el tamaño total de la poblacion, y por cada busqueda, busco el mejor de 3, que podemos llamar K.
Esta parte da entonces: O(N * K) = O(N), por ser K constante.

Luego se hace cruce y mutacion de la poblacion, donde cada operacion de cruce trabaja sobre listas de tamanio M, donde M es la longitud del cromosoma, y es constante. Se realiza tambien una limpieza final de la poblacion de tamanio N, por lo que esta parte da: O(N*M) = O(N), por ser M constante.

En la seleccion de la poblacion se llama a analizar_jornada por cada individuo, es decir, 2 * N iteraciones (considerando un promedio de que al cruzar la poblacion, esta se duplica por sus hijos) = O(2*N). Tambien se ordena la poblacion segun la funcion fitness, con un coste de O(N * log N). 
Dando un coste en esta parte de O(N * log N)

Finalmente se evalua la poblacion seleccionada, con un coste de O(N)

Cada generacion realiza cruce y mutacion O(N), seleccion de poblacion O(N*logN) y evaluacion de la misma O(N).
Dado que N log N es el termino dominante, el coste de cada generacion queda en O(N * log N).

Esto se multiplica por la cantidad de generaciones G: O(G * N * log N), donde G es la cantidad de generaciones y N el tamaño de la poblacion.

Según el problema (y tenga sentido), diseña un juego de datos de entrada aleatorios

#### Respuesta: 
Ya se habia generado un set de datos usando la funcion generar_jornada().<br>
La misma se asigno a la variable jornada_horarios.<br>
Solo basta llamar a generar_partidos(equipos_categoria, shuffle=True) para tener una nueva jornada.<br>s
Se puede visualizar cada partido con su horario asignado de la siguiente manera:

In [33]:
def imprimir_partido_y_horario(jornada, partidos):
    for indice_partido, indice_horario in enumerate(jornada):
        partido = partidos[indice_partido]
        horario = obtener_dia_y_horario(indice_horario)
        print(f'{partido[0]} vs {partido[1]} -> {horario[0].capitalize()} a las {horario[1]}hs.')

imprimir_partido_y_horario(mejor_jornada_genetica, partidos)

# si generamos una nueva jornada aleatoria, podemos volver a listar los partidos y sus horarios
nuevos_partidos_test = generar_partidos(equipos_categoria, shuffle=True)
nueva_jornada_test = organizar_jornada(nuevos_partidos_test)
df_nueva_jornada_test, mayor_audiencia_nueva_jornada_test = analizar_jornada(nueva_jornada_test, partidos)
print('\n----------------------------------------------\n')
imprimir_partido_y_horario(nueva_jornada_test, nuevos_partidos_test)
print('\n', nueva_jornada_test, ' = ', mayor_audiencia_nueva_jornada_test)

Celta vs Real Madrid -> Domingo a las 12hs.
Valencia vs Real Sociedad -> Sabado a las 16hs.
Mallorca vs Eibar -> Lunes a las 20hs.
Athletic vs Barcelona -> Sabado a las 12hs.
Leganes vs Osasuna -> Sabado a las 18hs.
Villareal vs Granada -> Sabado a las 20hs.
Alaves vs Levante -> Domingo a las 20hs.
Espanyol vs Sevilla -> Domingo a las 18hs.
Betis vs Valladolid -> Viernes a las 20hs.
Atletico vs Getafe -> Domingo a las 16hs.

----------------------------------------------

Leganes vs Villareal -> Viernes a las 20hs.
Betis vs Real Madrid -> Sabado a las 20hs.
Real Sociedad vs Athletic -> Sabado a las 18hs.
Atletico vs Espanyol -> Sabado a las 16hs.
Alaves vs Valencia -> Viernes a las 20hs.
Osasuna vs Mallorca -> Domingo a las 20hs.
Valladolid vs Celta -> Sabado a las 18hs.
Sevilla vs Granada -> Viernes a las 20hs.
Levante vs Eibar -> Domingo a las 16hs.
Getafe vs Barcelona -> Lunes a las 20hs.

 [0, 4, 3, 2, 0, 8, 3, 0, 6, 9]  =  5.292


Aplica el algoritmo al juego de datos generado

Respuesta

In [31]:
df_mejor_jornada_genetica, mejor_jornada_genetica, mayor_audiencia_genetica = algoritmo_genetico(
        nuevos_partidos_test, # solo basta llamar a generar_partidos(equipos_categoria, shuffle=True) para tener una nueva jornada.
        tamanio_poblacion=200,
        porc_mutacion=0.15,
        porc_elitismo=0.2,
        generaciones=200
    )
display(df_mejor_jornada_genetica)
print(mejor_jornada_genetica, ' = ', mayor_audiencia_genetica)

Generacion # 0 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.446 -> [92mMEJORA[0m
Generacion # 5 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.458 -> [92mMEJORA[0m
Generacion # 7 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.546 -> [92mMEJORA[0m
Generacion # 9 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.554 -> [92mMEJORA[0m
Generacion # 13 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.558 -> [92mMEJORA[0m
Generacion # 14 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.571 -> [92mMEJORA[0m
Generacion # 15 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.603 -> [92mMEJORA[0m
Generacion # 21 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.611 -> [92mMEJORA[0m
Generacion # 24 -> La mejor solución es: [8, 4, 9, 7, 0, 5, 3, 6, 1, 2], con distancia 6.616 -> [92mMEJORA

Unnamed: 0,Partido,Categorias,Horario,Base,Ponderacion,Base*Pond,Correccion Coincidencia,Audiencia Estimada
0,Valladolid - Getafe,C-B,D12,0.75,0.45,0.338,0,0.338
1,Betis - Villareal,B-B,S16,0.9,0.7,0.63,0,0.63
2,Granada - Eibar,C-C,L20,0.47,0.4,0.188,0,0.188
3,Espanyol - Athletic,B-B,S12,0.9,0.55,0.495,0,0.495
4,Levante - Celta,B-B,S18,0.9,0.8,0.72,0,0.72
5,Alaves - Real Madrid,B-A,S20,1.3,1.0,1.3,0,1.3
6,Real Sociedad - Valencia,A-B,D20,1.3,1.0,1.3,0,1.3
7,Mallorca - Barcelona,C-A,D18,1.0,0.85,0.85,0,0.85
8,Osasuna - Leganes,C-C,V20,0.47,0.4,0.188,0,0.188
9,Atletico - Sevilla,B-B,D16,0.9,0.75,0.675,0,0.675


[5, 2, 9, 1, 3, 4, 8, 7, 0, 6]  =  6.684


Enumera las referencias que has utilizado (si ha sido necesario) para llevar a cabo el trabajo

#### Respuesta:
Para el algoritmo genetico use de referencia el notebook de clase: "Algoritmo_Genetico_para_el_TSP.ipynb"


Describe brevemente las lineas de como crees que es posible avanzar en el estudio del problema. Ten en cuenta incluso posibles variaciones del problema y/o variaciones al alza del tamaño

#### Respuesta:

Mientras hacia la implementacion pensaba en algunas posibles mejoras:
- 1) Guardar los resultados de la evaluacion de individuos, ya que seguramente muchos de ellos se repiten entre diferentes generaciones.
- 2) Nivel de mutacion dinamica segun la cantidad de generaciones sin mejoras. Esto finalmente lo implemente.
- 3) Lo mismo se podria hacer con el nivel de elitismo y hacerlo dinamico.
- 4) Operadores de cruces, por ejemplo cruce uniforma o cruce de 2 o 3 puntos. 
- 5) Diferentes metodos de seleccion, ademas de la ruleta rusa, podria ser por torneo o por ranking.
- 6) Escape de optimos locales, para cuando van varias generaciones sin cambios, se podrian generar nuevos individuos aleatorios o provocar mutaciones mas fuertes sobre ellos.
- 7) Si aun asi no se ven cambio a medida que avanzan las generaciones, podriamos frenar el algoritmo prematuramente.