## Optimización de rutas 

In [1]:
#importar librerias necesarias
import time
start_time = time.time()

import pandas as pd
import numpy as np
from datetime import datetime
from geopy.distance import great_circle
from scipy.spatial.distance import cdist
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import linkage ,fcluster
import googlemaps
import re
import pickle
import os



import warnings
warnings.filterwarnings("ignore")

In [2]:
data = pd.read_csv(r'C:\Users\martin.olivares\Desktop\projects\best-route\data\test_minutos.csv')


In [3]:
#limpiar data

df=pd.DataFrame()
df['address']=data['Direccion de inicio']
df['hora_recogida']=data['Hora de recogida']
df['destino']=data['Dirección destino']
df['nombre_pasajero']=data['Nombre de pasajero']                     #nueva
df['mail']=data['Correo pasajero']                                  #nueva
df['phone']=data['Telefono de contacto']#.apply(lambda x: round(x))
df['fecha']=data['fecha']

df["num_empty_cells"] = df.isna().sum(axis=1)
df["nulls"]=df['num_empty_cells']/max(df['num_empty_cells'])


# Función para crear objetos datetime
def crear_datetime(row):
    fecha_str = row['fecha']
    hora_str = row['hora_recogida']
    # Convertir la cadena de texto de hora a un objeto time
    hora = datetime.strptime(hora_str, '%H:%M').time()
    # Crear un objeto datetime a partir de la fecha y hora
    fecha = datetime.strptime(fecha_str, '%Y-%m-%d').date()
    fecha_y_hora = datetime.combine(fecha, hora)
    return fecha_y_hora

# Agregar una nueva columna datetime y conservar las columnas existentes
df = df.assign(datetime_1=df.apply(crear_datetime, axis=1))



print('Numero de valores erroneos:')
print(df.isna().sum())
print('-----------------------------------')
print('Lista errores:')
#df[df.isna().any(axis=1)]

df = df.drop(df[df['nulls']==1].index)
df.fillna(method='ffill', inplace=True)


df.drop(columns=['nulls','num_empty_cells'],inplace=True)


Numero de valores erroneos:
address            0
hora_recogida      0
destino            0
nombre_pasajero    0
mail               0
phone              0
fecha              0
num_empty_cells    0
nulls              7
datetime_1         0
dtype: int64
-----------------------------------
Lista errores:


In [4]:
#corregir typos
# Definir un diccionario con las abreviaturas de calles y sus correspondientes formas completas
street_abbreviations = {
    "cl": "calle",
    "av": "avenida",
    "pj": "pasaje",
    "cam": "camino",
    "nte": "norte",
    "hermnos":'hnos',
    'hmnos':'hermanos',
    'tte':'teniente',
    'concon':'con con'
    }


# Definir una función que corrija las abreviaturas de calles en una dirección
def correct_typos(address):
    for abbreviation, full_form in street_abbreviations.items():
        address = re.sub(r'\b{}\b'.format(abbreviation), full_form, address)
    return address

# Aplicar la función a cada dirección del DataFrame
df["address"] = df["address"].str.lower().apply(correct_typos)
df['destino'] = df["destino"].str.lower().apply(correct_typos)

In [5]:
#crear funciones de caché y de limpieza de direcciones

clave_api='AIzaSyAvTzCycvOetN-NA51GNqxb80d-Ma-0Azg'

googlemaps_cache = 'googlemaps_cache.pkl'

def load_cache():
    # Cargar la caché desde el archivo si existe
    if os.path.exists(googlemaps_cache):
        with open(googlemaps_cache, 'rb') as f:
            return pickle.load(f)
    else:
        return {}

def save_cache(cache):
    # Guardar la caché en el archivo
    with open(googlemaps_cache, 'wb') as f:
        pickle.dump(cache, f)

def correct_address(direccion):
    # Cargar la caché desde el archivo
    cache = load_cache()
    # Verificar si el resultado de la dirección ya está en la caché
    if direccion in cache:
        return cache[direccion]
    # Si el resultado de la dirección no está en la caché, realizar una solicitud a la API de Google Maps
    gmaps = googlemaps.Client(key=clave_api)
    geocode_result = gmaps.geocode(direccion)
    if len(geocode_result) > 0:
        formatted_address = geocode_result[0]['formatted_address']
        # Agregar el resultado a la caché para futuras solicitudes
        cache[direccion] = formatted_address
        save_cache(cache)
        return formatted_address
    else:
        return np.nan
    
def reverse_geocode(lat, lon):
    # Hacer reverse geocoding para obtener la dirección correspondiente
    reverse_geocode_result = gmaps.reverse_geocode((lat, lon))
    # Obtener la dirección formateada del primer resultado
    formatted_address = reverse_geocode_result[0]['formatted_address']
    # Devolver la dirección formateada como una cadena
    return formatted_address

In [6]:
#corregir direcciones y saber si hay valores erroneos

df['address'] = df['address'].apply(correct_address)
df['destino'] = df['destino'].apply(correct_address)

df['aux'] = ~(df.groupby(['destino', 'datetime_1'])['address'].transform('nunique') > 1)

#df['aux'] = df.groupby(['address', 'hora_recogida'])['address'].transform(lambda x: x.duplicated(keep=False)).astype(bool)


In [7]:
# crear funciones de georeferenciación y caché

df.dropna(inplace=True)

# Creamos un cliente de Google Maps con nuestra clave API
gmaps = googlemaps.Client(key=clave_api)

# Comprobamos si el archivo existe y no está vacío antes de cargar la memoria caché
if os.path.exists("coordinates_googlemaps.pkl") and os.path.getsize("geocode_cache.pickle") > 0:
    with open("coordinates_googlemaps.pkl", "rb") as f:
        geocode_cache = pickle.load(f)
else:
    geocode_cache = {}

# Creamos una función para guardar la memoria caché en un archivo externo
def save_geocode_cache():
    with open("coordinates_googlemaps.pkl", "wb") as f:
        pickle.dump(geocode_cache, f)

# Creamos una función para geolocalizar una dirección y almacenar las coordenadas en la caché
def geolocate(address):
    if address in geocode_cache:
        return geocode_cache[address]
    else:
        geocode_result = gmaps.geocode(address)
        if len(geocode_result) > 0:
            location = geocode_result[0]['geometry']['location']
            coordinates = (location['lat'], location['lng'])
            geocode_cache[address] = coordinates
            save_geocode_cache()  # Guardamos la memoria caché en un archivo externo
            return coordinates
        else:
            return None
        

In [8]:
#separar por muchos origenes un destino, muchos destinos un origen y un origen un destino
df.sort_values(by=['datetime_1'],inplace=True)
df['id'] = range(len(df))

false_df = df[df['aux']==False]
true_df = df[df['aux']==True]

#print(len(true_df))

#ahora se obtiene cuando existen un origen un destino
# 1. marcar con un flag y sacarlas del calculo de distancias
# 2. contar la cantidad de personas y definir el producto

#true_df['aux1'] = true_df.duplicated(subset=['hora_recogida', 'address','destino','fecha'], keep=False)
#same_origin=true_df[true_df['aux1']==True]
#true_df=true_df[true_df['aux1']==False]

#print(len(true_df))

In [9]:
#paso 1.1.1 (distintos origenes -> un destino; crear clusters)

false_df['label'] = np.nan

# Agrega una nueva columna con la fecha y hora de recogida combinadas
false_df['datetime'] = false_df['fecha'] + ' ' + false_df['hora_recogida']

# Agrupa por fecha y hora de recogida combinadas, y por hora de recogida
datetime_grouped = false_df.groupby('datetime')

# Recorre cada grupo y aplica clustering
for name, group in datetime_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['address']
        loc1 = geolocate(address1) # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['address']
                loc2 = geolocate(address2) # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
                    
    # Crea una matriz con las distancias
        kmeans = KMeans(n_clusters=1)
        kmeans.fit(X)
        group['label'] = kmeans.labels_
        labels = np.zeros(len(group))
        
        # Asigna un número de cluster único a cada grupo
        last_label = false_df['label'].max()
        if np.isnan(last_label):
            cluster_label = 1
        else:
            cluster_label = last_label + 1
        for i in range(len(group)):
            if labels[i] == 0:
                labels[i] = cluster_label
                for j in range(i+1, len(group)):
                    if labels[j] == 0 and np.sum(labels == cluster_label) < 8 and X[i, j] > 0:
                        labels[j] = cluster_label
                if np.sum(labels == cluster_label) > 0:
                    cluster_label += 1
    
    # Asigna las etiquetas de los clusters al dataframe original
    group['label'] = labels
    false_df.loc[group.index, "label"] = group["label"]


#paso 1.1.1 (distintos origenes -> un destino; crear clusters)

#primero agrpar por fecha y despues VOVLER  agrupar con hora_recogida



for name, group in false_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['address']
        loc1 = geolocate(address1)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['address']
                loc2 = geolocate(address2)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
    # Crea una matriz con las distancias
    kmeans = KMeans(n_clusters=1)
    kmeans.fit(X)
    group['label'] = kmeans.labels_
    labels = np.zeros(len(group))
    cluster_label = 1
    for i in range(len(group)):
        if labels[i] == 0:
            labels[i] = cluster_label
            for j in range(i+1, len(group)):
                if labels[j] == 0 and np.sum(labels == cluster_label) < 8 and X[i, j] > 0:
                    labels[j] = cluster_label
            cluster_label += 1
            
    group['label'] = labels
    false_df.loc[group.index, "label"] = group["label"]

false_df

In [10]:
#paso 1.1.2 (distintos origenes -> un destino; agregar destino de la ruta)

false_df=false_df[['hora_recogida','address','destino','label','id','nombre_pasajero','mail','phone','datetime_1']] #######
false_df=false_df.sort_values(by=['label'])

grouped= false_df.groupby(['destino','label'])

for data,group in grouped:
    group.reset_index(drop=True,inplace=True)
    nueva_fila = {'hora_recogida': group['hora_recogida'][0], 'address': data[0], 'destino': data[0],'label': data[1]}
    false_df = false_df.append(nueva_fila, ignore_index=True)
    
false_df['aux']= false_df['address']==false_df['destino']

false_df=false_df.sort_values(by=['label']).reset_index(drop=True)


In [11]:
#paso 1.1.3 (distintos origenes -> un destino; calcular la ruta más eficiente)


clave_api='AIzaSyAvTzCycvOetN-NA51GNqxb80d-Ma-0Azg'

# Agregar columnas para latitud y longitud
false_df['latitud'] = None
false_df['longitud'] = None

# Iterar por cada dirección y obtener las coordenadas
for index, row in false_df.iterrows():
    direccion = row['address']
    resultado = gmaps.geocode(direccion)
    latitud = resultado[0]['geometry']['location']['lat']
    longitud = resultado[0]['geometry']['location']['lng']
    false_df.at[index, 'latitud'] = latitud
    false_df.at[index, 'longitud'] = longitud
    
# Crear una lista vacía para almacenar los dataframes con los órdenes de las ubicaciones
orden_dfs = []
##------------------------------------------------------------------------- bien hasta acá
# Agrupar el dataframe por cluster
grupos = false_df.groupby('label')

# Iterar por cada cluster

for grupo, data in grupos:
    gmaps = googlemaps.Client(key='AIzaSyBDGJCBvgh1BsTLpiDf1UVAwU9e9b_lrd8')
    data = data.reset_index(drop=True)
    ubicaciones = list(zip(data['latitud'], data['longitud']))
    
    # Definir el primer destino como el origen
    primer_destino_idx = data.loc[data['aux'] == True].iloc[-1].name
    primer_destino_id = data.loc[data['aux'] == True, 'id'].iloc[-1]
    ruta_optima = [(primer_destino_idx, primer_destino_id)]
    
    # Iterar hasta que se hayan agregado todos los destinos a la ruta
    while len(ruta_optima) < len(data):
        # Obtener la ubicación actual y las ubicaciones restantes
        ubicacion_actual_idx, ubicacion_actual_id = ruta_optima[-1]
        ubicacion_actual = ubicaciones[ubicacion_actual_idx]
        ubicaciones_restantes = [(i, id_) for i, id_ in zip(range(len(ubicaciones)), data['id']) if i not in [idx for idx, _ in ruta_optima]]
        # Calcular la distancia de la ubicación actual a cada ubicación restante
        distances = gmaps.distance_matrix(ubicacion_actual, [ubicaciones[i] for i, _ in ubicaciones_restantes], mode='driving')
        distances = distances['rows'][0]['elements']
        # Ordenar las ubicaciones restantes por distancia al siguiente destino
        sorted_indices = sorted(range(len(distances)), key=lambda k: distances[k]['distance']['value'])
        # Elegir el siguiente destino como la ubicación más cercana
        siguiente_destino_idx, siguiente_destino_id = ubicaciones_restantes[sorted_indices[0]]
        # Agregar el siguiente destino y su id a la ruta óptima
        ruta_optima.append((siguiente_destino_idx, siguiente_destino_id))
        
    # Revertir el orden de los elementos en la lista ruta_optima
    ruta_optima = ruta_optima[::-1]
        
    # Crear un DataFrame y añadir el orden y el id de data
    orden_ubicaciones = [(ubicaciones[i], id_) for i, id_ in ruta_optima]
    # Divide cada tupla en dos columnas separadas
    coordenadas=[tupla[0] for tupla in orden_ubicaciones]
    ids=[tupla[1] for tupla in orden_ubicaciones]
    df_ids = pd.DataFrame(ids, columns=['id'])
    orden_df = pd.DataFrame(coordenadas, columns=['lat', 'lon'])
    orden_df = pd.concat([orden_df, df_ids], axis=1)
    orden_df['orden'] = range(len(orden_df))  
    orden_df['label'] = grupo
    # Agregar el dataframe con el orden de las ubicaciones a la lista de dataframes
    orden_dfs.append(orden_df)

if len(orden_dfs)!=0:
    #Concatenar los dataframes en un solo dataframe
    false_orden_dfs = pd.concat(orden_dfs, ignore_index=True)


In [12]:
#paso 1.1.4 (distintos origenes -> un destino; obtener tiempo de ruta)

if 'false_orden_dfs' in globals():
    duraciones = []

    for data, group in false_orden_dfs.groupby('label'):
        durations = []
        durations.append(None)
        for i in range(len(group)-1):
            waypoints = group.iloc[i+1:].values.tolist() + [group.iloc[-1]]
            route = gmaps.directions(origin=group.iloc[i],
                                    destination=group.iloc[-1],
                                    waypoints=waypoints,
                                    mode='driving',
                                    departure_time= datetime.now())
            duration = route[0]['legs'][0]['duration']['value']
            durations.append(duration)
        # Agregar la lista de las durations de cada recorrido a la lista duraciones
        duraciones += durations

    #crear dataframe con las duraciones y concatenarlo al dataframe con los ordenes
    duraciones=pd.DataFrame(duraciones,columns=['tiempo'])
    #duraciones['tiempo']=duraciones['tiempo'].apply(lambda x: round(x/60))
    duraciones['tiempo'] = duraciones['tiempo'].apply(lambda x: round(x/60,1) if not pd.isna(x) else x)


    false_orden_dfs=pd.concat([false_orden_dfs,duraciones],axis=1)

    # rellenar los valores NaN con ceros
    false_orden_dfs['tiempo'] = false_orden_dfs['tiempo'].fillna(0)

    # agregar una nueva columna con la suma de tiempo por cluster
    false_orden_dfs['tiempo_total'] = false_orden_dfs.groupby('label')['tiempo'].transform('sum')
    
    # Aplicar la función reverse_geocode a cada fila del DataFrame
    false_orden_dfs['origen'] = false_orden_dfs.apply(lambda row: reverse_geocode(row['lat'], row['lon']), axis=1)

In [13]:
true_df['label'] = np.nan

# Agrega una nueva columna con la fecha y hora de recogida combinadas
true_df['datetime'] = true_df['fecha'] + ' ' + true_df['hora_recogida']

# Agrupa por fecha y hora de recogida combinadas, y por hora de recogida
datetime_grouped = true_df.groupby('datetime')

# Recorre cada grupo y aplica clustering
for name, group in datetime_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['destino']
        loc1 = geolocate(address1)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['destino']
                loc2 = geolocate(address2)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
    
        # Crea una matriz con las distancias
        kmeans_1 = KMeans(n_clusters=1)
        kmeans_1.fit(X)
        group['label'] = kmeans_1.labels_
        labels_1 = np.zeros(len(group))
        
        # Asigna un número de cluster único a cada grupo
        last_label_1 = true_df['label'].max()
        if np.isnan(last_label_1):
            cluster_label_1 = 1
        else:
            cluster_label_1 = last_label_1 + 1
        for i in range(len(group)):
            if labels_1[i] == 0:
                labels_1[i] = cluster_label_1
                for j in range(i+1, len(group)):
                    if labels_1[j] == 0 and np.sum(labels_1 == cluster_label_1) < 8 and X[i, j] > 0:
                        labels_1[j] = cluster_label_1
                if np.sum(labels_1 == cluster_label_1) > 0:
                    cluster_label_1 += 1
    
    # Asigna las etiquetas de los clusters al dataframe original
    group['label'] = labels_1
    true_df.loc[group.index, "label"] = group["label"]
    

In [14]:
#paso 1.2.2 (un origen-> distintos destinos ; agregar origen en la ruta)

true_df=true_df[['hora_recogida','address','destino','label','id','nombre_pasajero','mail','phone','datetime_1']] #######
true_df=true_df.sort_values(by=['label'])

grouped= true_df.groupby(['address','label'])

for data,group in grouped:
    group.reset_index(drop=True,inplace=True)
    nueva_fila = {'hora_recogida': group['hora_recogida'][0], 'address': data[0], 'destino': data[0],'label': data[1]}
    true_df = true_df.append(nueva_fila, ignore_index=True)
    
true_df['aux']= true_df['address']==true_df['destino']

true_df=true_df.sort_values(by=['label']).reset_index(drop=True)

In [15]:
#paso 1.2.3 (un origen-> distintos destinos ; calcular ruta más eficiente)

clave_api='AIzaSyAvTzCycvOetN-NA51GNqxb80d-Ma-0Azg'

# Agregar columnas para latitud y longitud
true_df['latitud'] = None
true_df['longitud'] = None

# Iterar por cada dirección y obtener las coordenadas
for index, row in true_df.iterrows():
    direccion = row['destino']
    resultado = gmaps.geocode(direccion)
    latitud = resultado[0]['geometry']['location']['lat']
    longitud = resultado[0]['geometry']['location']['lng']
    true_df.at[index, 'latitud'] = latitud
    true_df.at[index, 'longitud'] = longitud
    

# Crear una lista vacía para almacenar los dataframes con los órdenes de las ubicaciones
orden_dfs = []


# Agrupar el dataframe por cluster
grupos = true_df.groupby('label')

# Iterar por cada cluster

for grupo, data in grupos:
    gmaps = googlemaps.Client(key='AIzaSyBDGJCBvgh1BsTLpiDf1UVAwU9e9b_lrd8')
    data = data.reset_index(drop=True)
    ubicaciones = list(zip(data['latitud'], data['longitud']))
    
    # Definir el primer destino como el origen
    primer_destino_idx = data.loc[data['aux'] == True].iloc[-1].name
    primer_destino_id = data.loc[data['aux'] == True, 'id'].iloc[-1]
    ruta_optima = [(primer_destino_idx, primer_destino_id)]

    # Iterar hasta que se hayan agregado todos los destinos a la ruta
    while len(ruta_optima) < len(data):
        # Obtener la ubicación actual y las ubicaciones restantes
        ubicacion_actual_idx, ubicacion_actual_id = ruta_optima[-1]
        ubicacion_actual = ubicaciones[ubicacion_actual_idx]
        ubicaciones_restantes = [(i, id_) for i, id_ in zip(range(len(ubicaciones)), data['id']) if i not in [idx for idx, _ in ruta_optima]]
        # Calcular la distancia de la ubicación actual a cada ubicación restante
        distances = gmaps.distance_matrix(ubicacion_actual, [ubicaciones[i] for i, _ in ubicaciones_restantes], mode='driving')
        distances = distances['rows'][0]['elements']
        # Ordenar las ubicaciones restantes por distancia al siguiente destino
        sorted_indices = sorted(range(len(distances)), key=lambda k: distances[k]['distance']['value'])
        
        # Elegir el siguiente destino como la ubicación más cercana
        siguiente_destino_idx, siguiente_destino_id = ubicaciones_restantes[sorted_indices[0]]
        # Agregar el siguiente destino y su id a la ruta óptima
        ruta_optima.append((siguiente_destino_idx, siguiente_destino_id))
        
    # Crear un DataFrame y añadir el orden y el id de data
    orden_ubicaciones = [(ubicaciones[i], id_) for i, id_ in ruta_optima]
    # Divide cada tupla en dos columnas separadas
    coordenadas=[tupla[0] for tupla in orden_ubicaciones]
    ids=[tupla[1] for tupla in orden_ubicaciones]
    df_ids = pd.DataFrame(ids, columns=['id'])
    orden_df = pd.DataFrame(coordenadas, columns=['lat', 'lon'])
    orden_df = pd.concat([orden_df, df_ids], axis=1)
    orden_df['orden'] = range(len(orden_df))  
    orden_df['label'] = grupo
    
    # Agregar el dataframe con el orden de las ubicaciones a la lista de dataframes
    orden_dfs.append(orden_df)

if len(orden_dfs)!=0:
    # Concatenar los dataframes en un solo dataframe
    true_orden_dfs = pd.concat(orden_dfs, ignore_index=True)



In [16]:
#paso 1.2.4 (un origen-> distintos destinos ; obtener duración de ruta)

if 'true_orden_dfs' in globals():
    duraciones = []

    for data, group in true_orden_dfs.groupby('label'):
        durations = []
        durations.append(None)
        for i in range(len(group)-1):
            route = gmaps.directions(origin=group.iloc[i],
                                    destination=group.iloc[i+1],
                                    waypoints=group.iloc[i+1:-1].values.tolist(),
                                    mode='driving',
                                    departure_time=datetime.now())                   ########### asignar hora de partida, según el grupo
            duration = route[0]['legs'][0]['duration']['value']
            durations.append(duration)
        # Agregar la lista de las durations de cada recorrido a la lista duraciones
        duraciones += durations

    #crear dataframe con las duraciones y concatenarlo al dataframe con los ordenes
    duraciones=pd.DataFrame(duraciones,columns=['tiempo'])
    duraciones['tiempo']=duraciones['tiempo'].apply(lambda x: round(x/60,1))

    true_orden_dfs=pd.concat([true_orden_dfs,duraciones],axis=1)

    # rellenar los valores NaN con ceros
    true_orden_dfs['tiempo'] = true_orden_dfs['tiempo'].fillna(0)

    # agregar una nueva columna con la suma de tiempo por cluster
    true_orden_dfs['tiempo_total'] = true_orden_dfs.groupby('label')['tiempo'].transform('sum')
    
    # Aplicar la función reverse_geocode a cada fila del DataFrame
    true_orden_dfs['destino'] = true_orden_dfs.apply(lambda row: reverse_geocode(row['lat'], row['lon']), axis=1)



In [17]:
# paso 2 concatenar ambos dfs (true_orden_dfs y false_orden_dfs)



unordered_df=pd.concat([false_df,true_df])

if 'false_orden_dfs' in globals():
    false_orden_dfs.dropna(subset='id',inplace=True)
    test_false=pd.merge(false_orden_dfs,unordered_df,on='id',how='left',suffixes=('_x', '_y'),validate='one_to_many')

if 'true_orden_dfs' in globals():
    true_orden_dfs.dropna(subset='id',inplace=True)
    test_true=pd.merge(true_orden_dfs,unordered_df,on='id',how='left',suffixes=('_x', '_y'),validate='one_to_many')



In [18]:

if 'test_false' in globals():
    test_false['address']=test_false['origen']
    test_false.drop(columns=['origen'],inplace=True)
    test_false.drop_duplicates(subset=['label_x','address','tiempo','destino'],inplace=True,keep='last')

if 'test_true' in globals() and 'test_false' in globals():
    test_true['destino']=test_true['destino_x']
    test_true.drop(columns=['destino_x'],inplace=True)
    test_true['label_x']=test_true['label_x']+len(test_false['label_x'].unique())
    test_true.drop_duplicates(subset=['label_x','address','tiempo','destino'],inplace=True,keep='last')
    test_true['aux']= test_true['address']==test_true['destino']
    test_true=test_true[test_true['aux']!=True]
    test_true=test_true[['label_x','orden','hora_recogida','address','destino','tiempo','id','nombre_pasajero','mail','phone','datetime_1','tiempo_total']]
    
elif 'test_true' in globals() and 'test_false' not in globals():
    test_true['destino']=test_true['destino_x']
    test_true.drop(columns=['destino_x'],inplace=True)
    test_true.drop_duplicates(subset=['label_x','address','tiempo','destino'],inplace=True,keep='last')
    test_true['aux']= test_true['address']==test_true['destino']
    test_true=test_true[test_true['aux']!=True]
    test_true=test_true[['label_x','orden','hora_recogida','address','destino','tiempo','id','nombre_pasajero','mail','phone','datetime_1','tiempo_total']]

In [19]:

if 'test_true' in globals() and 'test_false' not in globals():
    df = test_true
elif 'test_true' not in globals() and 'test_false' in globals():
    df = test_false
elif 'test_true' in globals() and 'test_false' in globals():
    df=pd.concat([test_false,test_true])
    df=df[['label_x','mail','nombre_pasajero','address','destino','datetime_1','hora_recogida','phone','tiempo','orden','tiempo_total']]


In [20]:

df['aux']= df['address']==df['destino']
df['Ruta']=df['label_x']
df=df[df['aux']!=True]
df.drop(columns=['aux'],inplace=True)
df['phone'] = df['phone'].apply(lambda x: round(x))

df.sort_values(by=['datetime_1','label_x'])

Unnamed: 0,label_x,orden,hora_recogida,address,destino,tiempo,id,nombre_pasajero,mail,phone,datetime_1,tiempo_total,Ruta
0,1.0,1,22:00,"Av. Andrés Bello 2711, Las Condes, Región Metr...","Sta. Elena de Huechuraba 1398, Huechuraba, Reg...",13.0,0.0,Test Olivares 1,test@test.cl 1,999999999,2023-07-07 22:00:00,151.1,1.0
1,1.0,2,22:00,"Av. Andrés Bello 2711, Las Condes, Región Metr...","Río Palena 9670, Pudahuel, Cerro Navia, Región...",16.0,2.0,Test Olivares 3,test@test.cl 3,999999999,2023-07-07 22:00:00,151.1,1.0
2,1.0,3,22:00,"Av. Andrés Bello 2711, Las Condes, Región Metr...","Primera Transversal 1940, Maipú, Región Metrop...",16.8,1.0,Test Olivares 2,test@test.cl 2,999999999,2023-07-07 22:00:00,151.1,1.0
3,1.0,4,22:00,"Av. Andrés Bello 2711, Las Condes, Región Metr...","Av. Eduardo Frei Montalva 1531, Lo Espejo, Reg...",15.7,3.0,Test Olivares 4,test@test.cl 4,999999999,2023-07-07 22:00:00,151.1,1.0
4,1.0,5,22:00,"Av. Andrés Bello 2711, Las Condes, Región Metr...","Av. Concha y Toro 1820, 8150215 Puente Alto, R...",20.7,4.0,Test Olivares 5,test@test.cl 5,999999999,2023-07-07 22:00:00,151.1,1.0
5,1.0,6,22:00,"Av. Andrés Bello 2711, Las Condes, Región Metr...","Av. Concha y Toro 2548, Pirque, Región Metropo...",14.8,6.0,Test Olivares 7,test@test.cl 7,999999999,2023-07-07 22:00:00,151.1,1.0
6,1.0,7,22:00,"Av. Andrés Bello 2711, Las Condes, Región Metr...","Av. 21 de Mayo n° 875, Talagante, Región Metro...",54.1,5.0,Test Olivares 6,test@test.cl 6,999999999,2023-07-07 22:00:00,151.1,1.0


In [21]:
# traer los
#same_origin.sort_values(by=['address','destino'])

#same_origin['cluster'] = same_origin.groupby(['address','destino']).ngroup()+1

#same_origin.sort_values(by=['cluster'])

In [22]:
#df.to_excel('reservas-adt-3.xlsx',index=False)

In [23]:
#final.sort_values(by=['label','orden']).reset_index(drop=True)

In [24]:

end_time = time.time()
print("Tiempo de ejecución del segundo bloque de código: %.2f segundos" % (end_time - start_time))

Tiempo de ejecución del segundo bloque de código: 4.51 segundos
