## Optimización de rutas 

In [1]:
#importar librerias necesarias
import time
start_time = time.time()

import pandas as pd
import numpy as np
from datetime import datetime
from geopy.distance import great_circle
from scipy.spatial.distance import cdist
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import linkage ,fcluster
import googlemaps
import re
import pickle
import os



import warnings
warnings.filterwarnings("ignore")

In [2]:
#importar y limpiar data
#data = pd.read_csv(r'C:\Users\martin.olivares\Desktop\projects\best-route\data\converse-cabify.csv')
data = pd.read_csv(r'C:\Users\martin.olivares\Desktop\projects\best-route\data\adt_4.csv')

df=pd.DataFrame()
df['address']=data['Direccion de inicio']
df['hora_recogida']=data['Hora de recogida']
df['destino']=data['Dirección destino']
df['nombre_pasajero']=data['Nombre de pasajero']                     #nueva
df['mail']=data['Correo pasajero']                                  #nueva
df['phone']=data['Telefono de contacto']#.apply(lambda x: round(x))
df['fecha']=data['fecha']

df["num_empty_cells"] = df.isna().sum(axis=1)
df["nulls"]=df['num_empty_cells']/max(df['num_empty_cells'])


# Función para crear objetos datetime
def crear_datetime(row):
    fecha_str = row['fecha']
    hora_str = row['hora_recogida']
    # Convertir la cadena de texto de hora a un objeto time
    hora = datetime.strptime(hora_str, '%H:%M').time()
    # Crear un objeto datetime a partir de la fecha y hora
    fecha = datetime.strptime(fecha_str, '%Y-%m-%d').date()
    fecha_y_hora = datetime.combine(fecha, hora)
    return fecha_y_hora

# Agregar una nueva columna datetime y conservar las columnas existentes
df = df.assign(datetime_1=df.apply(crear_datetime, axis=1))


In [3]:
df = df.drop(df[df['nulls']==1].index)
df.fillna(method='ffill', inplace=True)
df.drop(columns=['nulls','num_empty_cells'],inplace=True)

In [4]:
#corregir typos
# Definir un diccionario con las abreviaturas de calles y sus correspondientes formas completas
street_abbreviations = {
    "cl": "calle",
    "av": "avenida",
    "pj": "pasaje",
    "cam": "camino",
    "nte": "norte",
    "hermnos":'hnos',
    'hmnos':'hermanos',
    'tte':'teniente',
    'concon':'con con'
    }


# Definir una función que corrija las abreviaturas de calles en una dirección
def correct_typos(address):
    for abbreviation, full_form in street_abbreviations.items():
        address = re.sub(r'\b{}\b'.format(abbreviation), full_form, address)
    return address

# Aplicar la función a cada dirección del DataFrame
df["address"] = df["address"].str.lower().apply(correct_typos)
df['destino'] = df["destino"].str.lower().apply(correct_typos)

In [5]:
#crear funciones de caché y de limpieza de direcciones

clave_api='AIzaSyAvTzCycvOetN-NA51GNqxb80d-Ma-0Azg'

googlemaps_cache = 'googlemaps_cache.pkl'

def load_cache():
    # Cargar la caché desde el archivo si existe
    if os.path.exists(googlemaps_cache):
        with open(googlemaps_cache, 'rb') as f:
            return pickle.load(f)
    else:
        return {}

def save_cache(cache):
    # Guardar la caché en el archivo
    with open(googlemaps_cache, 'wb') as f:
        pickle.dump(cache, f)

def correct_address(direccion):
    # Cargar la caché desde el archivo
    cache = load_cache()
    # Verificar si el resultado de la dirección ya está en la caché
    if direccion in cache:
        return cache[direccion]
    # Si el resultado de la dirección no está en la caché, realizar una solicitud a la API de Google Maps
    gmaps = googlemaps.Client(key=clave_api)
    geocode_result = gmaps.geocode(direccion)
    if len(geocode_result) > 0:
        formatted_address = geocode_result[0]['formatted_address']
        # Agregar el resultado a la caché para futuras solicitudes
        cache[direccion] = formatted_address
        save_cache(cache)
        return formatted_address
    else:
        return np.nan

In [6]:
#corregir direcciones y saber si hay valores erroneos

df['address'] = df['address'].apply(correct_address)
df['destino'] = df['destino'].apply(correct_address)

df['aux'] = ~(df.groupby(['destino', 'datetime_1'])['address'].transform('nunique') > 1)

#df['aux'] = df.groupby(['address', 'hora_recogida'])['address'].transform(lambda x: x.duplicated(keep=False)).astype(bool)


print('Numero de valores erroneos:')
print(df.isna().sum())
print('-----------------------------------')
print('Lista errores:')
#df[df.isna().any(axis=1)]


Numero de valores erroneos:
address            0
hora_recogida      0
destino            0
nombre_pasajero    0
mail               0
phone              0
fecha              0
datetime_1         0
aux                0
dtype: int64
-----------------------------------
Lista errores:


In [7]:
# crear funciones de georeferenciación y caché

df.dropna(inplace=True)

# Creamos un cliente de Google Maps con nuestra clave API
gmaps = googlemaps.Client(key=clave_api)

# Comprobamos si el archivo existe y no está vacío antes de cargar la memoria caché
if os.path.exists("coordinates_googlemaps.pkl") and os.path.getsize("geocode_cache.pickle") > 0:
    with open("coordinates_googlemaps.pkl", "rb") as f:
        geocode_cache = pickle.load(f)
else:
    geocode_cache = {}

# Creamos una función para guardar la memoria caché en un archivo externo
def save_geocode_cache():
    with open("coordinates_googlemaps.pkl", "wb") as f:
        pickle.dump(geocode_cache, f)

# Creamos una función para geolocalizar una dirección y almacenar las coordenadas en la caché
def geolocate(address):
    if address in geocode_cache:
        return geocode_cache[address]
    else:
        geocode_result = gmaps.geocode(address)
        if len(geocode_result) > 0:
            location = geocode_result[0]['geometry']['location']
            coordinates = (location['lat'], location['lng'])
            geocode_cache[address] = coordinates
            save_geocode_cache()  # Guardamos la memoria caché en un archivo externo
            return coordinates
        else:
            return None
        

In [8]:
#separar por muchos origenes un destino, muchos destinos un origen y un origen un destino
df.sort_values(by=['datetime_1'],inplace=True)
df['id'] = range(len(df))

false_df = df[df['aux']==False]
true_df = df[df['aux']==True]

#ahora se obtiene cuando existen un origen un destino
# 1. marcar con un flag y sacarlas del calculo de distancias
# 2. contar la cantidad de personas y definir el producto

#true_df['aux1'] = true_df.duplicated(subset=['hora_recogida', 'address','destino','fecha'], keep=False)

#same_origin=true_df[true_df['aux1']==True]

#true_df=true_df[true_df['aux1']==False]

In [9]:
#paso 1.1.1 (distintos origenes -> un destino; crear clusters)

false_df['label'] = np.nan

# Agrega una nueva columna con la fecha y hora de recogida combinadas
false_df['datetime'] = false_df['fecha'] + ' ' + false_df['hora_recogida']

# Agrupa por fecha y hora de recogida combinadas, y por hora de recogida
datetime_grouped = false_df.groupby('datetime')

# Recorre cada grupo y aplica clustering
for name, group in datetime_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['address']
        loc1 = geolocate(address1) # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['address']
                loc2 = geolocate(address2) # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
                    
    # Crea una matriz con las distancias
        kmeans = KMeans(n_clusters=1)
        kmeans.fit(X)
        group['label'] = kmeans.labels_
        labels = np.zeros(len(group))
        
        # Asigna un número de cluster único a cada grupo
        last_label = false_df['label'].max()
        if np.isnan(last_label):
            cluster_label = 1
        else:
            cluster_label = last_label + 1
        for i in range(len(group)):
            if labels[i] == 0:
                labels[i] = cluster_label
                for j in range(i+1, len(group)):
                    if labels[j] == 0 and np.sum(labels == cluster_label) < 8 and X[i, j] > 0:
                        labels[j] = cluster_label
                if np.sum(labels == cluster_label) > 0:
                    cluster_label += 1
    
    # Asigna las etiquetas de los clusters al dataframe original
    group['label'] = labels
    false_df.loc[group.index, "label"] = group["label"]

false_df


Unnamed: 0,address,hora_recogida,destino,nombre_pasajero,mail,phone,fecha,datetime_1,aux,id,label,datetime
11,"3 Ote. 1270, Viña del Mar, Valparaíso, Chile",6:00,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","VACCARO LÓPEZ, MARÍA JOSÉ",jvaccam@jci.com,965637198,2022-03-04,2022-03-04 06:00:00,False,0,3.0,2022-03-04 6:00
9,"Hnos Pinzón 24, 2391336 Valparaíso, Chile",6:00,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","TORRES TORRES, MARIA PATRICIA",jtorr273@jci.com,957105246,2022-03-04,2022-03-04 06:00:00,False,1,3.0,2022-03-04 6:00
2,"Viana 1155, Valparaíso, Viña del Mar, Valparaí...",6:00,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","DOMINGUEZ PEGUERO, MIRIAM ESPERANZA",jdomin54@jci.com,936334969,2022-03-04,2022-03-04 06:00:00,False,2,3.0,2022-03-04 6:00
6,"Ramaditas 1626, 2351765 Valparaíso, Chile",6:00,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","VALDEBENITO JIMENEZ, JARLYN NAZARETH",jvalde38@jci.com,926050049,2022-03-04,2022-03-04 06:00:00,False,3,3.0,2022-03-04 6:00
0,"Marga Marga 2481, Villa Alemana, Valparaíso, C...",6:05,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","YAÑEZ MARCHANT, GISSELLE ELIZABETH GIANINE",jyanezgi@jci.com,982253636,2022-03-04,2022-03-04 06:05:00,False,4,4.0,2022-03-04 6:05
3,"El Ocaso, Quilpué, Valparaíso, Chile",6:05,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","CABALLERIA PEREZ, PATRICIA ORIANA",jcabalp1@jci.com,990751452,2022-03-04,2022-03-04 06:05:00,False,5,4.0,2022-03-04 6:05
1,"Rio Andalien 1421, Villa Alemana, Valparaíso, ...",6:05,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","LEIVA AZOCAR, ROMINA ALEJANDRA",jleivaro@jci.com,985085668,2022-03-04,2022-03-04 06:05:00,False,6,4.0,2022-03-04 6:05
5,"Navío San Martín 70, 2340000 Valparaíso, Chile",20:30,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","CASTILLO MOYANO, MIGUEL NICOLAS",jcast112@jci.com,984338154,2022-03-04,2022-03-04 20:30:00,False,7,1.0,2022-03-04 20:30
4,"Irma Johnson Molina 2579, Quilpué, Valparaíso,...",20:30,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","AGUIRRE VIVAS, VERONICA YALIMAR",jaguirv2@jci.com,963995462,2022-03-04,2022-03-04 20:30:00,False,8,1.0,2022-03-04 20:30
7,"Lampa 350, Valparaíso, Viña del Mar, Valparaís...",20:35,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","BRACHO ALBURJAS, MARIA JOSE",jbrachm@jci.com,945078893,2022-03-04,2022-03-04 20:35:00,False,9,2.0,2022-03-04 20:35


#paso 1.1.1 (distintos origenes -> un destino; crear clusters)

#primero agrpar por fecha y despues VOVLER  agrupar con hora_recogida



for name, group in false_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['address']
        loc1 = geolocate(address1)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['address']
                loc2 = geolocate(address2)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
    # Crea una matriz con las distancias
    kmeans = KMeans(n_clusters=1)
    kmeans.fit(X)
    group['label'] = kmeans.labels_
    labels = np.zeros(len(group))
    cluster_label = 1
    for i in range(len(group)):
        if labels[i] == 0:
            labels[i] = cluster_label
            for j in range(i+1, len(group)):
                if labels[j] == 0 and np.sum(labels == cluster_label) < 8 and X[i, j] > 0:
                    labels[j] = cluster_label
            cluster_label += 1
            
    group['label'] = labels
    false_df.loc[group.index, "label"] = group["label"]

false_df

In [10]:
#paso 1.1.2 (distintos origenes -> un destino; agregar destino de la ruta)

false_df=false_df[['hora_recogida','address','destino','label','id','nombre_pasajero','mail','phone','datetime_1']] #######
false_df=false_df.sort_values(by=['label'])

grouped= false_df.groupby(['destino','label'])

for data,group in grouped:
    group.reset_index(drop=True,inplace=True)
    nueva_fila = {'hora_recogida': group['hora_recogida'][0], 'address': data[0], 'destino': data[0],'label': data[1]}
    false_df = false_df.append(nueva_fila, ignore_index=True)
    
false_df['aux']= false_df['address']==false_df['destino']

false_df=false_df.sort_values(by=['label']).reset_index(drop=True)


In [11]:
#paso 1.1.3 (distintos origenes -> un destino; calcular la ruta más eficiente)


clave_api='AIzaSyAvTzCycvOetN-NA51GNqxb80d-Ma-0Azg'

# Agregar columnas para latitud y longitud
false_df['latitud'] = None
false_df['longitud'] = None

# Iterar por cada dirección y obtener las coordenadas
for index, row in false_df.iterrows():
    direccion = row['address']
    resultado = gmaps.geocode(direccion)
    latitud = resultado[0]['geometry']['location']['lat']
    longitud = resultado[0]['geometry']['location']['lng']
    false_df.at[index, 'latitud'] = latitud
    false_df.at[index, 'longitud'] = longitud
    
# Crear una lista vacía para almacenar los dataframes con los órdenes de las ubicaciones
orden_dfs = []
##------------------------------------------------------------------------- bien hasta acá
# Agrupar el dataframe por cluster
grupos = false_df.groupby('label')

# Iterar por cada cluster

for grupo, data in grupos:
    gmaps = googlemaps.Client(key='AIzaSyBDGJCBvgh1BsTLpiDf1UVAwU9e9b_lrd8')
    data = data.reset_index(drop=True)
    ubicaciones = list(zip(data['latitud'], data['longitud']))
    
    # Definir el primer destino como el origen
    primer_destino_idx = data.loc[data['aux'] == True].iloc[-1].name
    primer_destino_id = data.loc[data['aux'] == True, 'id'].iloc[-1]
    ruta_optima = [(primer_destino_idx, primer_destino_id)]
    
    # Iterar hasta que se hayan agregado todos los destinos a la ruta
    while len(ruta_optima) < len(data):
        # Obtener la ubicación actual y las ubicaciones restantes
        ubicacion_actual_idx, ubicacion_actual_id = ruta_optima[-1]
        ubicacion_actual = ubicaciones[ubicacion_actual_idx]
        ubicaciones_restantes = [(i, id_) for i, id_ in zip(range(len(ubicaciones)), data['id']) if i not in [idx for idx, _ in ruta_optima]]
        # Calcular la distancia de la ubicación actual a cada ubicación restante
        distances = gmaps.distance_matrix(ubicacion_actual, [ubicaciones[i] for i, _ in ubicaciones_restantes], mode='driving')
        distances = distances['rows'][0]['elements']
        # Ordenar las ubicaciones restantes por distancia al siguiente destino
        sorted_indices = sorted(range(len(distances)), key=lambda k: distances[k]['distance']['value'])
        # Elegir el siguiente destino como la ubicación más cercana
        siguiente_destino_idx, siguiente_destino_id = ubicaciones_restantes[sorted_indices[0]]
        # Agregar el siguiente destino y su id a la ruta óptima
        ruta_optima.append((siguiente_destino_idx, siguiente_destino_id))
        
    # Revertir el orden de los elementos en la lista ruta_optima
    ruta_optima = ruta_optima[::-1]
        
    # Crear un DataFrame y añadir el orden y el id de data
    orden_ubicaciones = [(ubicaciones[i], id_) for i, id_ in ruta_optima]
    # Divide cada tupla en dos columnas separadas
    coordenadas=[tupla[0] for tupla in orden_ubicaciones]
    ids=[tupla[1] for tupla in orden_ubicaciones]
    df_ids = pd.DataFrame(ids, columns=['id'])
    orden_df = pd.DataFrame(coordenadas, columns=['lat', 'lon'])
    orden_df = pd.concat([orden_df, df_ids], axis=1)
    orden_df['orden'] = range(len(orden_df))  
    orden_df['label'] = grupo
    # Agregar el dataframe con el orden de las ubicaciones a la lista de dataframes
    orden_dfs.append(orden_df)


#Concatenar los dataframes en un solo dataframe
false_orden_dfs = pd.concat(orden_dfs, ignore_index=True)


In [12]:
#paso 1.1.4 (distintos origenes -> un destino; obtener tiempo de ruta)
duraciones = []

for data, group in false_orden_dfs.groupby('label'):
    durations = []
    durations.append(None)
    for i in range(len(group)-1):
        route = gmaps.directions(origin=group.iloc[i],
                                destination=group.iloc[i+1],
                                waypoints=group.iloc[i+1:-1].values.tolist(),
                                mode='driving',
                                departure_time= datetime.now())                   ########### asignar hora de partida, según el grupo
        duration = route[0]['legs'][0]['duration']['value']
        durations.append(duration)
    # Agregar la lista de las durations de cada recorrido a la lista duraciones
    duraciones += durations


#crear dataframe con las duraciones y concatenarlo al dataframe con los ordenes
duraciones=pd.DataFrame(duraciones,columns=['tiempo'])
#duraciones['tiempo']=duraciones['tiempo'].apply(lambda x: round(x/60))
duraciones['tiempo'] = duraciones['tiempo'].apply(lambda x: round(x/60,1) if not pd.isna(x) else x)


false_orden_dfs=pd.concat([false_orden_dfs,duraciones],axis=1)

In [13]:
#paso 1.1.5 (distintos origenes -> un destino; reverse geocoding)

def reverse_geocode(lat, lon):

    # Hacer reverse geocoding para obtener la dirección correspondiente
    reverse_geocode_result = gmaps.reverse_geocode((lat, lon))

    # Obtener la dirección formateada del primer resultado
    formatted_address = reverse_geocode_result[0]['formatted_address']

    # Devolver la dirección formateada como una cadena
    return formatted_address

# Aplicar la función reverse_geocode a cada fila del DataFrame
false_orden_dfs['origen'] = false_orden_dfs.apply(lambda row: reverse_geocode(row['lat'], row['lon']), axis=1)

In [14]:
true_df['label'] = np.nan

# Agrega una nueva columna con la fecha y hora de recogida combinadas
true_df['datetime'] = true_df['fecha'] + ' ' + true_df['hora_recogida']

# Agrupa por fecha y hora de recogida combinadas, y por hora de recogida
datetime_grouped = true_df.groupby('datetime')

# Recorre cada grupo y aplica clustering
for name, group in datetime_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['destino']
        loc1 = geolocate(address1)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['destino']
                loc2 = geolocate(address2)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
    
        # Crea una matriz con las distancias
        kmeans_1 = KMeans(n_clusters=1)
        kmeans_1.fit(X)
        group['label'] = kmeans_1.labels_
        labels_1 = np.zeros(len(group))
        
        # Asigna un número de cluster único a cada grupo
        last_label_1 = true_df['label'].max()
        if np.isnan(last_label_1):
            cluster_label_1 = 1
        else:
            cluster_label_1 = last_label_1 + 1
        for i in range(len(group)):
            if labels_1[i] == 0:
                labels_1[i] = cluster_label_1
                for j in range(i+1, len(group)):
                    if labels_1[j] == 0 and np.sum(labels_1 == cluster_label_1) < 8 and X[i, j] > 0:
                        labels_1[j] = cluster_label_1
                if np.sum(labels_1 == cluster_label_1) > 0:
                    cluster_label_1 += 1
    
    # Asigna las etiquetas de los clusters al dataframe original
    group['label'] = labels_1
    true_df.loc[group.index, "label"] = group["label"]
    

In [15]:
#paso 1.2.2 (un origen-> distintos destinos ; agregar origen en la ruta)

true_df=true_df[['hora_recogida','address','destino','label','id','nombre_pasajero','mail','phone','datetime_1']] #######
true_df=true_df.sort_values(by=['label'])

grouped= true_df.groupby(['address','label'])

for data,group in grouped:
    group.reset_index(drop=True,inplace=True)
    nueva_fila = {'hora_recogida': group['hora_recogida'][0], 'address': data[0], 'destino': data[0],'label': data[1]}
    true_df = true_df.append(nueva_fila, ignore_index=True)
    
true_df['aux']= true_df['address']==true_df['destino']

true_df=true_df.sort_values(by=['label']).reset_index(drop=True)

In [16]:
true_df

Unnamed: 0,hora_recogida,address,destino,label,id,nombre_pasajero,mail,phone,datetime_1,aux
0,21:55,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","José María Escrivá de Balaguer 720, Concón, Va...",1.0,12.0,"VAN-DER MOLEN PEÑALOZA, JOSE MIGUEL",jvandejm@jci.com,963402416.0,2022-03-04 21:55:00,False
1,21:55,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",1.0,,,,,NaT,True
2,22:00,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","Camila 109, Valparaíso, Chile",2.0,13.0,"CUELLAR OLEA, CAROLINA ALEXANDRA",jcuellc1@jci.com,953348613.0,2022-03-04 22:00:00,False
3,22:00,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","Dr. Israel Roizblatt 130, Valparaíso, Chile",2.0,14.0,"SELLHORN MARTINEZ, ERIKA RITA",jsellhe@jci.com,920047400.0,2022-03-04 22:00:00,False
4,22:00,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",2.0,,,,,NaT,True
5,21:55,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","José María Escrivá de Balaguer 720, Concón, Va...",3.0,25.0,"VAN-DER MOLEN PEÑALOZA, JOSE MIGUEL",jvandejm@jci.com,963402416.0,2022-03-05 21:55:00,False
6,21:55,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",3.0,,,,,NaT,True
7,22:00,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","Dr. Israel Roizblatt 130, Valparaíso, Chile",4.0,26.0,"SELLHORN MARTINEZ, ERIKA RITA",jsellhe@jci.com,920047400.0,2022-03-05 22:00:00,False
8,22:00,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","Camila 109, Valparaíso, Chile",4.0,27.0,"CUELLAR OLEA, CAROLINA ALEXANDRA",jcuellc1@jci.com,953348613.0,2022-03-05 22:00:00,False
9,22:00,"8 Nte. 1168, Viña del Mar, Valparaíso, Chile","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",4.0,,,,,NaT,True


In [17]:
#paso 1.2.3 (un origen-> distintos destinos ; calcular ruta más eficiente)

clave_api='AIzaSyAvTzCycvOetN-NA51GNqxb80d-Ma-0Azg'

# Agregar columnas para latitud y longitud
true_df['latitud'] = None
true_df['longitud'] = None

# Iterar por cada dirección y obtener las coordenadas
for index, row in true_df.iterrows():
    direccion = row['destino']
    resultado = gmaps.geocode(direccion)
    latitud = resultado[0]['geometry']['location']['lat']
    longitud = resultado[0]['geometry']['location']['lng']
    true_df.at[index, 'latitud'] = latitud
    true_df.at[index, 'longitud'] = longitud
    

# Crear una lista vacía para almacenar los dataframes con los órdenes de las ubicaciones
orden_dfs = []


# Agrupar el dataframe por cluster
grupos = true_df.groupby('label')

# Iterar por cada cluster

for grupo, data in grupos:
    gmaps = googlemaps.Client(key='AIzaSyBDGJCBvgh1BsTLpiDf1UVAwU9e9b_lrd8')
    data = data.reset_index(drop=True)
    ubicaciones = list(zip(data['latitud'], data['longitud']))
    
    # Definir el primer destino como el origen
    primer_destino_idx = data.loc[data['aux'] == True].iloc[-1].name
    primer_destino_id = data.loc[data['aux'] == True, 'id'].iloc[-1]
    ruta_optima = [(primer_destino_idx, primer_destino_id)]

    # Iterar hasta que se hayan agregado todos los destinos a la ruta
    while len(ruta_optima) < len(data):
        # Obtener la ubicación actual y las ubicaciones restantes
        ubicacion_actual_idx, ubicacion_actual_id = ruta_optima[-1]
        ubicacion_actual = ubicaciones[ubicacion_actual_idx]
        ubicaciones_restantes = [(i, id_) for i, id_ in zip(range(len(ubicaciones)), data['id']) if i not in [idx for idx, _ in ruta_optima]]
        # Calcular la distancia de la ubicación actual a cada ubicación restante
        distances = gmaps.distance_matrix(ubicacion_actual, [ubicaciones[i] for i, _ in ubicaciones_restantes], mode='driving')
        distances = distances['rows'][0]['elements']
        # Ordenar las ubicaciones restantes por distancia al siguiente destino
        sorted_indices = sorted(range(len(distances)), key=lambda k: distances[k]['distance']['value'])
        
        # Elegir el siguiente destino como la ubicación más cercana
        siguiente_destino_idx, siguiente_destino_id = ubicaciones_restantes[sorted_indices[0]]
        # Agregar el siguiente destino y su id a la ruta óptima
        ruta_optima.append((siguiente_destino_idx, siguiente_destino_id))
        
    # Crear un DataFrame y añadir el orden y el id de data
    orden_ubicaciones = [(ubicaciones[i], id_) for i, id_ in ruta_optima]
    # Divide cada tupla en dos columnas separadas
    coordenadas=[tupla[0] for tupla in orden_ubicaciones]
    ids=[tupla[1] for tupla in orden_ubicaciones]
    df_ids = pd.DataFrame(ids, columns=['id'])
    orden_df = pd.DataFrame(coordenadas, columns=['lat', 'lon'])
    orden_df = pd.concat([orden_df, df_ids], axis=1)
    orden_df['orden'] = range(len(orden_df))  
    orden_df['label'] = grupo
    # Agregar el dataframe con el orden de las ubicaciones a la lista de dataframes
    orden_dfs.append(orden_df)

# Concatenar los dataframes en un solo dataframe
true_orden_dfs = pd.concat(orden_dfs, ignore_index=True)



In [18]:
#obtener datetime
#true_orden_dfs=pd.merge(true_orden_dfs,true_df,on='id',how='left',suffixes=('_x', '_y'))


In [19]:
#paso 1.2.4 (un origen-> distintos destinos ; obtener duración de ruta)

duraciones = []

for data, group in true_orden_dfs.groupby('label'):
    durations = []
    durations.append(None)
    for i in range(len(group)-1):
        route = gmaps.directions(origin=group.iloc[i],
                                destination=group.iloc[i+1],
                                waypoints=group.iloc[i+1:-1].values.tolist(),
                                mode='driving',
                                departure_time=datetime.now())                   ########### asignar hora de partida, según el grupo
        duration = route[0]['legs'][0]['duration']['value']
        durations.append(duration)
    # Agregar la lista de las durations de cada recorrido a la lista duraciones
    duraciones += durations

#crear dataframe con las duraciones y concatenarlo al dataframe con los ordenes
duraciones=pd.DataFrame(duraciones,columns=['tiempo'])
duraciones['tiempo']=duraciones['tiempo'].apply(lambda x: round(x/60,1))

true_orden_dfs=pd.concat([true_orden_dfs,duraciones],axis=1)



In [20]:
#paso 1.2.5 (un origen-> distintos destinos ; reverse geocoding)

# Aplicar la función reverse_geocode a cada fila del DataFrame
true_orden_dfs['destino'] = true_orden_dfs.apply(lambda row: reverse_geocode(row['lat'], row['lon']), axis=1)


In [21]:
# paso 2 concatenar ambos dfs (true_ordeb_dfs y false_orden_dfs)

unordered_df=pd.concat([false_df,true_df])

false_orden_dfs.dropna(subset='id',inplace=True)
true_orden_dfs.dropna(subset='id',inplace=True)



test_false=pd.merge(false_orden_dfs,unordered_df,on='id',how='left',suffixes=('_x', '_y'),validate='one_to_many')
test_true=pd.merge(true_orden_dfs,unordered_df,on='id',how='left',suffixes=('_x', '_y'),validate='one_to_many')




#true_df['label']=true_df['label'] + len(false_df['label'].unique())
#unordered_df=pd.concat([false_df,true_df])
#hacer un merge (left df nuevo)


In [22]:
#test_false=test_false.dropna(subset=['id'])

#test_false=test_false[['label_x','orden','hora_recogida','origen','destino','tiempo']]
test_false['address']=test_false['origen']
test_false.drop(columns=['origen'],inplace=True)

test_false.drop_duplicates(subset=['label_x','address','tiempo','destino'],inplace=True,keep='last')
#test_false['aux']= test_true['address']==test_true['destino']
#test_false=test_true[test_true['aux']!=True]


#dejar el address=destino para agregarle el tiempo


In [23]:
#test_true=test_true.dropna(subset=['id'])

#test_true=test_true[['label_x','orden','hora_recogida','address','destino_x','tiempo']]
test_true['destino']=test_true['destino_x']
test_true.drop(columns=['destino_x'],inplace=True)
test_true['label_x']=test_true['label_x']+len(test_false['label_x'].unique())
test_true.drop_duplicates(subset=['label_x','address','tiempo','destino'],inplace=True,keep='last')
test_true['aux']= test_true['address']==test_true['destino']
test_true=test_true[test_true['aux']!=True]

test_true=test_true[['label_x','orden','hora_recogida','address','destino','tiempo','id','nombre_pasajero','mail','phone','datetime_1']]



In [24]:
df=pd.concat([test_false,test_true])
print(df.columns)
df=df[['label_x','orden','hora_recogida','address','destino','tiempo','nombre_pasajero','mail','phone','datetime_1']]


Index(['lat', 'lon', 'id', 'orden', 'label_x', 'tiempo', 'hora_recogida',
       'address', 'destino', 'label_y', 'nombre_pasajero', 'mail', 'phone',
       'datetime_1', 'aux', 'latitud', 'longitud'],
      dtype='object')


In [25]:
# Crear un DataFrame con las sumas totales
sums = df.groupby('label_x')['tiempo'].sum().reset_index(name='suma_total')

# Fusionar con el DataFrame original
df_with_sum = pd.merge(df, sums, on='label_x')

df_with_sum['aux']= df_with_sum['address']==df_with_sum['destino']
df_with_sum['Ruta']=df_with_sum['label_x']
df_with_sum=df_with_sum[df_with_sum['aux']!=True]
df_with_sum.drop(columns=['aux'],inplace=True)
df_with_sum['phone'] = df_with_sum['phone'].apply(lambda x: round(x))

df_with_sum.sort_values(by=['datetime_1','label_x'])

Unnamed: 0,label_x,orden,hora_recogida,address,destino,tiempo,nombre_pasajero,mail,phone,datetime_1,suma_total,Ruta
5,3.0,0,6:00,"Ramaditas 1626, 2351765 Valparaíso, Chile","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",,"VALDEBENITO JIMENEZ, JARLYN NAZARETH",jvalde38@jci.com,926050049,2022-03-04 06:00:00,45.2,3.0
6,3.0,1,6:00,"Hnos Pinzón 24, 2391336 Valparaíso, Chile","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",18.5,"TORRES TORRES, MARIA PATRICIA",jtorr273@jci.com,957105246,2022-03-04 06:00:00,45.2,3.0
7,3.0,2,6:00,"Viana 1155, Valparaíso, Viña del Mar, Valparaí...","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",15.6,"DOMINGUEZ PEGUERO, MIRIAM ESPERANZA",jdomin54@jci.com,936334969,2022-03-04 06:00:00,45.2,3.0
8,3.0,3,6:00,"3 Ote. 1270, local 3, Viña del Mar, Valparaíso...","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",11.1,"VACCARO LÓPEZ, MARÍA JOSÉ",jvaccam@jci.com,965637198,2022-03-04 06:00:00,45.2,3.0
9,4.0,0,6:05,"Marga Marga 2481, Villa Alemana, Valparaíso, C...","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",,"YAÑEZ MARCHANT, GISSELLE ELIZABETH GIANINE",jyanezgi@jci.com,982253636,2022-03-04 06:05:00,16.6,4.0
10,4.0,1,6:05,"Rio Andalien 1400, Villa Alemana, Valparaíso, ...","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",10.6,"LEIVA AZOCAR, ROMINA ALEJANDRA",jleivaro@jci.com,985085668,2022-03-04 06:05:00,16.6,4.0
11,4.0,2,6:05,"Pje. C 9, Quilpué, Valparaíso, Chile","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",6.0,"CABALLERIA PEREZ, PATRICIA ORIANA",jcabalp1@jci.com,990751452,2022-03-04 06:05:00,16.6,4.0
0,1.0,0,20:30,"Irma Johnson Molina 2579, Quilpué, Valparaíso,...","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",,"AGUIRRE VIVAS, VERONICA YALIMAR",jaguirv2@jci.com,963995462,2022-03-04 20:30:00,28.4,1.0
1,1.0,1,20:30,"Navío San Martín 70, 2352280 Valparaíso, Chile","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",28.4,"CASTILLO MOYANO, MIGUEL NICOLAS",jcast112@jci.com,984338154,2022-03-04 20:30:00,28.4,1.0
2,2.0,0,20:35,"Séptimo de Línea 17, 2352576 Valparaíso, Chile","8 Nte. 1168, Viña del Mar, Valparaíso, Chile",,"NAVARRO TORO, DAYMARY FERNANDA",jnavard3@jci.com,958059542,2022-03-04 20:35:00,32.3,2.0


In [26]:
# traer los
#same_origin.sort_values(by=['address','destino'])

#same_origin['cluster'] = same_origin.groupby(['address','destino']).ngroup()+1

#same_origin.sort_values(by=['cluster'])

In [30]:
df_with_sum.to_excel('reservas-adt-2.xlsx',index=False)

In [28]:
#final.sort_values(by=['label','orden']).reset_index(drop=True)

In [29]:

end_time = time.time()
print("Tiempo de ejecución del segundo bloque de código: %.2f segundos" % (end_time - start_time))

Tiempo de ejecución del segundo bloque de código: 16.98 segundos
