### Maestría en Ciencia de Datos, ITAM

  **Curso de Optimización 2 2021-1,"Optimización Avanzada"**  
  **Prof. Erick Palacios Moreno**

> * Equipo 5:  
MIGUEL LOPEZ  
CARLOS LOPEZ  
JOSÉ ZARATE

**Proyecto Final. Reimplementación de nuestro _Hill CLimbing_ para resolver el TSP utilizando Kale.**
____
## RESOLVER EL PROBLEMA DE TRAVELING SALESMAN PROBLEM (A.K.A. TSP) PARA DISTINTAS CIUDADES UTILIZANDO EL MÉTODO DE HILL CLIMBING

 * Distancia Euclideana.

> Dataset: [National Traveling Salesman Problems, CANADA](https://www.math.uwaterloo.ca/tsp/world/countries.html)

-------
**EXPERIMENTOS Y BENCHMARK:**

Analizaremos los tiempos de ejecución para la reimplementación de nuestro método con _random_restart_ (se consideran 150, 100 y 50 puntos de reinicio) y la ejecución en paralelo (multiprocessing) que ejecuta en cada _worker_ los puntos de reinicio para deteminar la mejor distancia. Así mismo, elaboramos un comparativo considerando el método previo a la reimplementación:

* En el método anterior (sin _multiprocessing_) al ajecutar un número específico de _rando_restart_ sólo explorabamos una pequeña porción del espació de soluciones factibles, por lo que ampliar la búsqueda _local_search incrementa considerablemente el tiempo de ejecución.

* Implementar el _multiprocessing_ nos permite hacer una búsqueda más exhaustiva del espacio factible de soluciones con el beneficio de una solucíón global que se acerque más a la solución global y en menor tiempo que nuestro método previo.

----

In [3]:
import hill_cg.hill_mul as hc
import hill_cg.hill as old_hc
#import google_or_tools_tsp as tsp
import pandas as pd
import numpy as np

**Transformaciones y Selección de Nodos-ciudad**

En este primer experimento (segunda etapa) seleccionamos solamente 30 cidudades para validar que efectivamente el algoritmo resuelve el problema TSP, particularmente porque observamos que uno de los temas importantes a resolver es el tiempo de búsqueda.

In [4]:
raw_dat = pd.read_csv("../datasets/ca4663.tsp", sep = " ", names = ['index','x','y'])

Observamos la estructura de los coordenadas de nuestros datos:

In [5]:
print(raw_dat)

     index           x            y
0        1  41800.0000   82650.0000
1        2  41966.6667   82533.3333
2        3  41983.3333   82933.3333
3        4  42033.3333   82750.0000
4        5  42033.3333   82916.6667
...    ...         ...          ...
4659  4660  78783.3333  103533.3333
4660  4661  80216.6667   86183.3333
4661  4662  81716.6667   64716.6667
4662  4663  82483.3333   62250.0000
4663   EOF         NaN          NaN

[4664 rows x 3 columns]


In [6]:
raw_dat1 = raw_dat.drop(['index'], axis = 1)
raw_dat2 = raw_dat1.dropna()
tsp_cities = raw_dat2.iloc[0:30,].to_numpy()

Los puntos anteriores constituyen las 40 primeras ciudades de nuestro dataset, de las cuales nuestro algoritmo determinará la distancia más corta.

----

**Primer experimento:**
Método con reimplementación en paralelo considerando 150 _random_restarts_

In [7]:
best_distance, best_path, exec_time = hc.parallel_hc(tsp_cities, 0, 0.97, 150)

**Resultados:**

   > Con base en Hill Climbing para las 40 primeras ciudades de nuestro dataset se tiene:

In [8]:
print("\n * Distancia más corta:\t", best_distance)
print("\n * Ruta óptima (nodos-ciudad):\t", best_path)
print("\n * Tiempo de Ejecución:\t", exec_time)


 * Distancia más corta:	 4672.23526057876

 * Ruta óptima (nodos-ciudad):	 [0, 1, 5, 6, 11, 13, 24, 21, 12, 25, 27, 26, 28, 29, 17, 15, 18, 22, 19, 20, 23, 16, 14, 7, 2, 4, 9, 10, 8, 3, 0]

 * Tiempo de Ejecución:	 99.15019488334656


----

**Segundo experimento:**
Método con reimplementación en paralelo considerando 100 _random_restarts_

In [9]:
best_distance2, best_path2, exec_time2 = hc.parallel_hc(tsp_cities, 0, 0.97, 100)

**Resultados:**

   > Con base en Hill Climbing para las 40 primeras ciudades de nuestro dataset se tiene:

In [10]:
print("\n * Distancia más corta:\t", best_distance2)
print("\n * Ruta óptima (nodos-ciudad):\t", best_path2)
print("\n * Tiempo de Ejecución:\t", exec_time2)


 * Distancia más corta:	 4728.6412161766475

 * Ruta óptima (nodos-ciudad):	 [0, 3, 8, 17, 18, 22, 19, 20, 16, 23, 14, 7, 9, 2, 4, 10, 15, 11, 13, 24, 21, 12, 25, 27, 26, 28, 29, 6, 5, 1, 0]

 * Tiempo de Ejecución:	 66.26230096817017


----

**Tercer experimento:**
Método con reimplementación en paralelo considerando 50 _random_restarts_

In [11]:
best_distance3, best_path3, exec_time3 = hc.parallel_hc(tsp_cities, 0, 0.97, 50)

**Resultados:**

   > Con base en Hill Climbing para las 40 primeras ciudades de nuestro dataset se tiene:

In [12]:
print("\n * Distancia más corta:\t", best_distance3)
print("\n * Ruta óptima (nodos-ciudad):\t", best_path3)
print("\n * Tiempo de Ejecución:\t", exec_time3)


 * Distancia más corta:	 4682.194153497534

 * Ruta óptima (nodos-ciudad):	 [0, 5, 3, 8, 10, 4, 2, 7, 9, 14, 16, 23, 19, 20, 22, 18, 17, 15, 11, 24, 21, 12, 27, 25, 26, 28, 29, 13, 6, 1, 0]

 * Tiempo de Ejecución:	 33.09258270263672


----

**Experimento comparación:**  
Método previo a la reimplementación con multiprocessing

Este experimento es comparable con la mejor solución encontrada y el tiempo de ejecución resultado del experimento3.

In [13]:
best_distance_old, best_path_old, exec_time_old = old_hc.best_solution(tsp_cities, 0, 0.97, 400)

**Resultados:**

   > Con base en Hill Climbing para las 40 primeras ciudades de nuestro dataset se tiene:

In [14]:
print("\n * Distancia más corta:\t", best_distance_old)
print("\n * Ruta óptima (nodos-ciudad):\t", best_path_old)
print("\n * Tiempo de Ejecución:\t", exec_time_old)


 * Distancia más corta:	 4869.818286575677

 * Ruta óptima (nodos-ciudad):	 [0, 3, 1, 5, 6, 13, 24, 12, 21, 25, 27, 26, 28, 29, 11, 15, 8, 10, 9, 17, 18, 22, 19, 20, 23, 16, 14, 7, 4, 2, 0]

 * Tiempo de Ejecución:	 73.73372054100037


----

**Validación de resultados:**  
Utilizaremos la paquetería de Google OR-tools para comparar que exista cierta "cercanía relativa" a la soluciones con una paquetería estándar y las soluciones obtenidas en el experimento de comparación de nuestro método reimplementado con multiprocessing y nuestro método previo a tal reimplementación.

Cuadro Comparativo de **resultados**:

In [15]:
#print("Resultados TSP Google OR tools\n")
#ortool_reslt = tsp.main(tsp_cities)

print("\n\n ==================   Benchmark   ==================")

df = pd.DataFrame({'description':['distance', 'time'],
                   'experiment1':[best_distance, exec_time],
                   'experiment2':[best_distance2, exec_time2],
                   'experiment3':[best_distance3, exec_time3],
                   'old_method':[best_distance_old, exec_time_old],
                   #'ortools':[ortool_reslt, 0]})
                   'ortools':[0, 0]})
df.set_index('description')

Resultados TSP Google OR tools

Objective: 4411
Route:
 0 -> 1 -> 5 -> 6 -> 13 -> 24 -> 21 -> 12 -> 25 -> 27 -> 26 -> 28 -> 29 -> 11 -> 15 -> 17 -> 18 -> 22 -> 19 -> 20 -> 23 -> 16 -> 14 -> 7 -> 9 -> 2 -> 4 -> 10 -> 8 -> 3 -> 0





Unnamed: 0_level_0,experiment1,experiment2,experiment3,old_method,ortools
description,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
distance,4672.235261,4728.641216,4682.194153,4869.818287,4411
time,99.150195,66.262301,33.092583,73.733721,0
