# Temas finales

Pautas para elegir un tema final:

- El tema debe abordar un problema de optimización que se resuelve mediante Programación Lineal Entera o Mixta.
- Se debe diseñar un experimento, en donde se evaluen métricas específicas del problema (e.g. parámetro que se optimiza), así como genéricas relacionadas al desempeño de CPLEX (e.g. gap relativo, tiempo de ejecución).
- Al calcular el tiempo total "máximo" de ejecución utilizado por CPLEX, éste debe rondar entre 5 y 10 horas. Este tiempo se calcula multiplicando el tiempo máximo impuesto (timeout) por la cantidad de instancias a resolver y la cantidad de modelos a comparar.
- Si la duración de las optimizaciones es bajo (lo que va a implicar la resolución de muchas instancias), agrupe las instancias por algún criterio (e.g. es preferible agrupar la generación aleatoria de grafos por 4 o 5 densidades específicas a dejar libre el parámetro de densidad), luego para las instancias agrupadas aplique algún criterio para eliminar outliers (e.g. <a href="https://en.wikipedia.org/wiki/Outlier#Tukey's_fences">Tukey's fences</a>).  

A continuación presentamos posibles temas para rendir como trabajo final.

## 1. Algoritmos de Clustering

Un algoritmo de clustering es aquel que, a partir de un conjunto de puntos en el plano o espacio, los agrupa siguiendo determinados criterios de proximidad entre ellos e intentando optimizar alguna métrica de calidad, como minimizar la suma de las distancias entre los puntos de cada clúster, o maximizar <a href="https://en.wikipedia.org/wiki/Silhouette_(clustering)">Silhouette</a>.
Existen formulaciones de Programación Lineal Entera en la literatura (solo para mencionar alguna, puede ver <a href="https://iopscience.iop.org/article/10.1088/1742-6596/1053/1/012100/pdf">aquí</a>).
Realice lo siguiente:
- Interiorícese sobre los diferentes algoritmos de clustering ($k$-Means, DBSCAN, Agglomerative), técnicas (método de Elbow) y métricas (Silhouette).
- Genere instancias de diferentes tamaños donde cada una se compone de puntos aleatorios en un plano. Compute las matrices de distancias (euclídeas) de dichos puntos.
- Formule un Programa Lineal Entero para resolver un Problema de Clustering. Por ejemplo, dado un $k$ (la cantidad de clústeres a obtener) particione el conjunto de puntos de forma que la suma de $D_i$ para todo $i=1,\ldots,k$ sea mínima, donde $D_i$ es la suma de las distancias de "todos con todos" para el clúster $i$. 
- Diseñe un experimento donde se compara la resolución exacta (PLE) con otro algoritmo de Clustering de la literatura en términos de tiempo de ejecución y calidad del clustering. Se sugiere que la cantidad total máxima del tiempo de las resoluciones con CPLEX esté entre 3 y 6 horas de CPU (i.e. timeout x instancias). ¿Cuáles son las ventajas de usar un enfoque exacto vs. uno heurístico?

Hay mucho material en Internet que se puede aprovechar para facilitar esta tarea, por ejemplo <a href="https://medium.com/@nomannayeem/clustering-with-confidence-a-practical-guide-to-data-clustering-in-python-15d82d8a7bfb">aquí</a> y  <a href="https://cienciadedatos.net/documentos/py20-clustering-con-python">aquí</a>.


## 2. Problema generalizado del número de dominación Grundy

En <a href="https://arxiv.org/pdf/1912.12752">Severin et al. 2021</a> se aborda la resolución del siguiente
problema.
Se le dice <it>secuencia legal dominante</it> a una secuencia de vértices de un grafo en el que cada elemento
domina al menos a un vértice no dominado por sus predecesores en la secuencia.
Aquí el concepto de dominación varía según el vértice $v$ elegido, si pertenece a cierto conjunto $C$ entonces domina a su vecindad cerrada, sino domina a su vecindad abierta, por lo que las instancias de este problema son un par $(G=(V,E);C)$.
El objetivo del problema es hallar la secuencia legal dominante de máxima longitud.

- Lea las pags. 1-5 y 7-13 del trabajo citado, omitiendo las pruebas de los teoremas pero prestando atención a las formulaciones $F_1$ y $F_4$ y entendiendo qué tipo de soluciones simétricas elimina ésta última.
- Implemente ambas formulaciones y chequee su validez optimizando varias configuraciones de grafos webs y comparando con el resultado teórico. 
- Elija si desea continuar con el problema Grundy clásico ($C=V$, i.e. vecindades cerradas) o el total ($C=\emptyset$). Luego generé grafos aleatorios de entre 20 y 50 vértices, con distintas densidades.
- Diseñe un experimento donde se compara la resolución con CPLEX de ambas formulaciones con las instancias generadas. Se sugiere que la cantidad total máxima de tiempo del experimento esté entre 5 y 10 horas de CPU (i.e. timeout x instancias x 2 formulaciones). ¿Hay ventaja al eliminar simetrías en este problema? ¿La mejora depende de la densidad?

## 3. Problema simultáneo de ruteo de vehículos y planificación de la tripulación

En <a href="https://openproceedings.org/2022/conf/alioeuro/ALIOEURO_2021_paper_19.pdf">Lucci et al. 2022</a> se presentan 2 formulaciones de Programación Lineal Entera para modelar de forma simultánea: 1) un ruteo de vehículos que realizan colectas y entregas de pedidos con ventanas de tiempo, y 2) una planificación de la tripulación, donde cada vehículo debe transportar entre 1 y 2 conductores. Estos conductores pueden descender de los vehículos en localidades específicas (las mismas donde se realizan las colectas o entregas) para descansar o ascender a otro vehículo.

- Estudie el trabajo citado y escoja una de las formulaciones.
- Genere instancias de diversos tamaños. Puede proponer hipótesis adicionales para simplificar la generación (e.g. en vez de generar los pedidos de forma aleatoria como se describe en el trabajo, podría generarlas siguiendo algún patrón que simplifique el preprocesamiento y la posterior generación del digrafo).
- Modele el caso en que no más de 1 conductor puede formar parte de la tripulación de cada vehículo.
- Diseñe un experimento donde se compara la resolución con CPLEX de ambos casos (solo 1 conductor vs. entre 1 y 2 conductores). Se sugiere que la cantidad total máxima de tiempo del experimento esté entre 5 y 10 horas de CPU (i.e. timeout x instancias x 2 casos). ¿Hay ventaja al permitir un segundo conductor en las tripulaciones?