# Codificación para Servicios
En este .ipynb se implementan 2 tipos de codificación para Servicios, que intentan solucionar el problema de la alta dimensionalidad de la codificación tipo one-hot encoding. Ambas consideran codificar a partir de una medida de similitud entre recorridos, que se detalla más adelante.

Se monta drive en caso de que se trabaje en Colab. En otro caso, comentar celda:

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Instalación de librería que implementa *Dynamic Time Warping*. Será utilizada para calcular similitud.

In [None]:
!pip install dtw

### Librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from dtw import dtw
import math
import pickle

Lectura de datos: en este caso se trabajó en colab, por lo que se debe correr la celda indicada más arriba y luego se modifica el file_path según el nombre de la carpeta de drive en la que estén almacenados los archivos train, val y test. En caso de trabajar local, se debe definir file_path como la dirección de la carpeta que contiene estos documentos.-

In [None]:
#carga de datos
file_path = 'drive/MyDrive/ProyectoCienciaDeDatos/datos'
train_path = file_path + '/train.csv'
# val_path = file_path + '/val.csv'
# test_path = file_path + '/test.csv'

In [None]:
train = pd.read_csv(train_path, delimiter = ',')

La siguiente celda lee el archivo shape, por lo que nuevamente se debe modificar el path, ya sea se esté trabajando en drive o local.

In [None]:
#carga de shape
shape = pd.read_csv('drive/MyDrive/ProyectoCienciaDeDatos/datos_gps_curso_ciencia_de_datos/2019-07-01.shape', sep='|', header=0)
shape.drop(['EsSeccionIni', 'Operador', 'ServicioUsuario'], axis=1, inplace=True)

In [None]:
shape.head()

## Codificación 1

Una primera idea de codificación consiste en calcular distancias entre los distintos servicios y un servicio en particular seleccionado como pivote o servicio de referencia, y a partir de las distancias deducir una medida de similitud. Para decidir algún criterio para elegir el servicio de referencia, se visualizan gráficamente los servicios.

Visualización de servicios de interés:

In [None]:
servs = train.Servicio.unique()
#servs = ['T301 00I']
plt.figure(figsize=(15,10))
for serv in servs:
    coord = shape.loc[shape.Servicio == serv]
    plt.plot(coord.Latitud, coord.Longitud)
    plt.legend(servs)
plt.show()

Se elige el servicio T301 00I como referencia para calcular distancias o similitudes que permitan codificar en base a ellas, ya que según la visualización gráfica parece ser el más central y extenso dentro de las opciones disponibles. 

Como los .shape de distintos servicios tienen diferente cantidad de puntos de latitud y longitud, se utiliza el algoritmo de *Dynamic Time Warping* para hacer el cálculo de distancias y a partir de ellas deducir similitud, puesto que dicho algoritmo permite comparar secuencias de distinto tamaño.  

Se define la función **similarity_encoding** que recibe una lista de servicios y para cada uno calcula la distancia euclideana con respecto al servicio T301 00I, utilizando DTW. Cada distancia es transformada a una medida de similitud según la siguiente transfromación:  

\begin{equation}
sim = \frac{1}{1 + dist}
\end{equation}

Las similitudes resultantes se utilizan como codificación y se almacenan dentro de un diccionario en que las llaves son los nombres de los servicios. La función retorna este diccionario.

In [None]:
def similarity_encoding(servs):
    """
    servs: lista con nombres de servicios
    
    return: diccionario con codificación por similitud con
    respecto a T301 00I
    """
    encoding = {}
    N = len(servs)
    dist = lambda x1, x2: math.hypot(x2[0] - x1[0], x2[1] - x1[1])
    a = shape.loc[shape.Servicio == 'T301 00I']
    a = [tuple(x) for x in a[['Latitud','Longitud']].to_numpy()]
    for i in range(N):
        b = shape.loc[shape.Servicio == servs[i]]
        b = [tuple(x) for x in b[['Latitud','Longitud']].to_numpy()]
        d = dtw(a, b, dist=dist)[0]
        sim = 1/(1 + d)
        encoding[servs[i]] = sim
    return encoding

In [None]:
encoding_dict = similarity_encoding(servs)

Se almacena el diccionario de Codificación 1 en un archivo .pickle
Quedará guardado en la misma carpeta en la que se encuentre el notebook en caso de correr local y en la misma carpeta que se definió al principio en caso de correr en colab.

In [None]:
with open('encoding1.pickle', 'wb') as handle:
    pickle.dump(encoding_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)

## Codificación 2
Un segundo intento considera las similitudes entre todos los pares posibles de servicios. Se calcula la matriz de similitud entre los .shape de los servicios considerados. La similitud se calcula de manera análoga a lo realizado para la codificación 1, calculando distancia euclideana con DTW y luego transformando a similitud. Lo anterior se implementa en la función **similarity_matrix_dtw** que recibe una lista de servicios y entrega su matriz de similitudes correspondiente.

Una vez calculada la matriz de similitudes se prueba definiendo como codificación los valores propios de dicha matriz, de manera que cada valor propio representa a su servicio respectivo. Realizado esto, se guarda un diccionario con las codificaciones para cada servicio.

In [None]:
def similarity_matrix_dtw(servs):   
    """
    servs: lista con nombres de servicios
    
    return: matriz de similitud usando Dynamic Time Warping 
    para distancias
    """
    N = len(servs)
    sim_matrix = np.zeros((N, N))
    dist = lambda x1, x2: math.hypot(x2[0] - x1[0], x2[1] - x1[1])
    for i in range(N):
        for j in range(N):
            a = shape.loc[shape.Servicio == servs[i]]
            b = shape.loc[shape.Servicio == servs[j]]
            a = [tuple(x) for x in a[['Latitud','Longitud']].to_numpy()]
            b = [tuple(x) for x in b[['Latitud','Longitud']].to_numpy()]
            d = dtw(a, b, dist=dist)[0]
            sim_matrix[i,j] = 1/(1 + d)
    return sim_matrix

In [None]:
#matriz de similitud
sim = similarity_matrix_dtw(servs)

In [None]:
#codificación 2
w, v = np.linalg.eig(sim)
enc = {}
for i,serv in enumerate(servs):
    enc[serv] = w[i]

La codificación 2 también es guardada en un archivo .pickle, para ser utilizada en otros notebooks:
Quedará guardado en la misma carpeta en la que se encuentre el notebook en caso de correr local y en la misma carpeta que se definió al principio en caso de correr en colab.

In [None]:
with open('encoding2.pickle', 'wb') as handle:
    pickle.dump(enc, handle, protocol=pickle.HIGHEST_PROTOCOL)

La siguiente celda indica cuál es el código para leer archivos del tipo pickle (descomentar para utilizar)

In [1]:
#with open('encoding2.pickle', 'rb') as handle:
#    b = pickle.load(handle)