## READ ME
Estos son los detalles de lo que hace el código:
1. importar librerías
2. importar data y realizar limpieza

    a. eliminar nulos (no afecta a las reservas)
    
    b. rellena los valores que tienen hora de reserva en blanco con el valor que se encuentra arriba
3. verificar las direcciones correctas. Las que no estén verificadas se proceden a dejar fuera para que posteriormente se modifiquen manualmente 
4. Se calcula la distancia entre cada par de direcciones usando coordenadas (origen y destino)

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime
from geopy.distance import great_circle
from scipy.spatial.distance import cdist
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import linkage ,fcluster
import googlemaps
import re
import time
import requests
import pickle
import os



import warnings
warnings.filterwarnings("ignore")

In [2]:
data = pd.read_csv(r'C:\Users\martin.olivares\Desktop\projects\best-route\data\test_6.csv')

df=pd.DataFrame()
df['address']=data['Direccion de inicio']
df['hora_recogida']=data['Hora de recogida']
df['destino']=data['Dirección destino']

df["num_empty_cells"] = df.isna().sum(axis=1)
df["nulls"]=df['num_empty_cells']/max(df['num_empty_cells'])

df = df.drop(df[df['nulls']==1].index)
df.fillna(method='ffill', inplace=True)

df.drop(columns=['nulls','num_empty_cells'],inplace=True)


In [3]:
# Definir un diccionario con las abreviaturas de calles y sus correspondientes formas completas
street_abbreviations = {
    "cl": "calle",
    "av": "avenida",
    "pj": "pasaje",
    "cam": "camino",
    "nte": "norte",
    "hermnos":'hnos',
    'hmnos':'hermanos',
    'tte':'teniente',
    'concon':'con con'
    }


# Definir una función que corrija las abreviaturas de calles en una dirección
def correct_typos(address):
    for abbreviation, full_form in street_abbreviations.items():
        address = re.sub(r'\b{}\b'.format(abbreviation), full_form, address)
    return address

# Aplicar la función a cada dirección del DataFrame
df["address"] = df["address"].str.lower().apply(correct_typos)
df['destino'] = df["destino"].str.lower().apply(correct_typos)

In [4]:
clave_api='AIzaSyAvTzCycvOetN-NA51GNqxb80d-Ma-0Azg'

googlemaps_cache = 'googlemaps_cache.pkl'

def load_cache():
    # Cargar la caché desde el archivo si existe
    if os.path.exists(googlemaps_cache):
        with open(googlemaps_cache, 'rb') as f:
            return pickle.load(f)
    else:
        return {}

def save_cache(cache):
    # Guardar la caché en el archivo
    with open(googlemaps_cache, 'wb') as f:
        pickle.dump(cache, f)

def correct_address(direccion):
    # Cargar la caché desde el archivo
    cache = load_cache()
    # Verificar si el resultado de la dirección ya está en la caché
    if direccion in cache:
        return cache[direccion]
    # Si el resultado de la dirección no está en la caché, realizar una solicitud a la API de Google Maps
    gmaps = googlemaps.Client(key=clave_api)
    geocode_result = gmaps.geocode(direccion)
    if len(geocode_result) > 0:
        formatted_address = geocode_result[0]['formatted_address']
        # Agregar el resultado a la caché para futuras solicitudes
        cache[direccion] = formatted_address
        save_cache(cache)
        return formatted_address
    else:
        return np.nan

In [5]:
df['address'] = df['address'].apply(correct_address)
df['destino'] = df['destino'].apply(correct_address)
df['aux'] = df.groupby(['address', 'hora_recogida'])['address'].transform(lambda x: x.duplicated(keep=False)).astype(bool)

print('Numero de valores erroneos:')
print(df.isna().sum())
print('-----------------------------------')
print('Lista errores:')
df[df.isna().any(axis=1)]

Numero de valores erroneos:
address          0
hora_recogida    0
destino          0
aux              0
dtype: int64
-----------------------------------
Lista errores:


Unnamed: 0,address,hora_recogida,destino,aux


In [6]:
df.dropna(inplace=True)



# Creamos un cliente de Google Maps con nuestra clave API
gmaps = googlemaps.Client(key=clave_api)

# Comprobamos si el archivo existe y no está vacío antes de cargar la memoria caché
if os.path.exists("coordinates_googlemaps.pkl") and os.path.getsize("geocode_cache.pickle") > 0:
    with open("coordinates_googlemaps.pkl", "rb") as f:
        geocode_cache = pickle.load(f)
else:
    geocode_cache = {}

# Creamos una función para guardar la memoria caché en un archivo externo
def save_geocode_cache():
    with open("coordinates_googlemaps.pkl", "wb") as f:
        pickle.dump(geocode_cache, f)

# Creamos una función para geolocalizar una dirección y almacenar las coordenadas en la caché
def geolocate(address):
    if address in geocode_cache:
        return geocode_cache[address]
    else:
        geocode_result = gmaps.geocode(address)
        if len(geocode_result) > 0:
            location = geocode_result[0]['geometry']['location']
            coordinates = (location['lat'], location['lng'])
            geocode_cache[address] = coordinates
            save_geocode_cache()  # Guardamos la memoria caché en un archivo externo
            return coordinates
        else:
            return None

In [7]:
false_df = df[df['aux']==False]
false_grouped = false_df.groupby("hora_recogida")

true_df = df[df['aux']==True]
true_grouped = true_df.groupby("hora_recogida")



start_time = time.time()


for name, group in false_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['address']
        loc1 = geolocate(address1)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['address']
                loc2 = geolocate(address2)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
    # Crea una matriz con las distancias
    kmeans = KMeans(n_clusters=1)
    kmeans.fit(X)
    group['label'] = kmeans.labels_
    # Continúa agrupando hasta que cada clúster tenga 4 o menos direcciones
    while group.groupby('label').agg({'address':'count'}).max().values[0] > 4 and kmeans.n_clusters < len(group):
        kmeans.n_clusters += 1
        kmeans.fit(X)
        group['label'] = kmeans.labels_
    false_df.loc[group.index, "label"] = group["label"]

end_time = time.time()

print("Tiempo de ejecución del primer bloque de código: %.2f segundos" % (end_time - start_time))
# busca la ruta mas optima, entonces, no maximiza los vehiculos
# que todos se maximicen, y solamente existiría un vehiculo (ultimos valores) que podría tener menos

false_df.columns

In [8]:
#paso 1
start_time = time.time()


for name, group in true_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['destino']
        loc1 = geolocate(address1)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['destino']
                loc2 = geolocate(address2)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
    # Crea una matriz con las distancias
    kmeans = KMeans(n_clusters=1)
    kmeans.fit(X)
    group['label'] = kmeans.labels_
    
    labels = np.zeros(len(group))
    cluster_label = 1
    for i in range(len(group)):
        if labels[i] == 0:
            labels[i] = cluster_label
            for j in range(i+1, len(group)):
                if labels[j] == 0 and np.sum(labels == cluster_label) < 8 and X[i, j] > 0:
                    labels[j] = cluster_label
            cluster_label += 1
            
    group['label'] = labels
    true_df.loc[group.index, "label"] = group["label"]



end_time = time.time()
print("Tiempo de ejecución del segundo bloque de código: %.2f segundos" % (end_time - start_time))



Tiempo de ejecución del segundo bloque de código: 0.16 segundos


In [9]:
# paso 3
df=pd.concat([false_df,true_df])

df=df[['hora_recogida','address','destino','label']]
df=df.sort_values(by=['label'])


# cambiar los pasos
## 1. asignacion clusters
## 2. ruta eficiente 
## 3. unir true_df y false _df

In [10]:
df.columns

Index(['hora_recogida', 'address', 'destino', 'label'], dtype='object')

In [11]:

grouped= df.groupby(['address','label'])

for data,group in grouped:
    group.reset_index(drop=True,inplace=True)
    nueva_fila = {'hora_recogida': group['hora_recogida'][0], 'address': data[0], 'destino': data[0],'label': data[1]}
    df = df.append(nueva_fila, ignore_index=True)
    #df = pd.concat([nueva_fila, df],ignore_index=True)
    
df['aux']= df['address']==df['destino']

df.sort_values(by=['label']).reset_index(drop=True)

Unnamed: 0,hora_recogida,address,destino,label,aux
0,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Av. Mapocho 4643, 8500093 Quinta Normal, Regió...",1.0,False
1,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Zapallar 2444, Conchalí, Región Metropolitana,...",1.0,False
2,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Valdivia 2347, 8520803 Quinta Normal, Región M...",1.0,False
3,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Dos Sur 3881, Renca, Región Metropolitana, Chile",1.0,False
4,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Alsino 4820, Quinta Normal, Región Metropolita...",1.0,False
5,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Poeta Pedro Prado 1681, depto 341, Quinta Norm...",1.0,False
6,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Mapocho Nte. 8151, 9090967 Santiago, Cerro Nav...",1.0,False
7,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Francisco Errázuriz 1364, Renca, Santiago, Reg...",1.0,False
8,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Guanaco Nte. 4819, Huechuraba, Región Metropol...",1.0,True
9,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Guanaco Nte. 4819, Huechuraba, Región Metropol...",2.0,True


In [12]:
# paso 2


clave_api='AIzaSyAvTzCycvOetN-NA51GNqxb80d-Ma-0Azg'

#añadir la dirección de origen como nuevo valor en destino
#1. con algo asi puedo hacer un append de los valores que nos entrega
#------------------------------

# Agregar columnas para latitud y longitud
df['latitud'] = None
df['longitud'] = None

# Iterar por cada dirección y obtener las coordenadas
for index, row in df.iterrows():
    direccion = row['destino']
    resultado = gmaps.geocode(direccion)
    latitud = resultado[0]['geometry']['location']['lat']
    longitud = resultado[0]['geometry']['location']['lng']
    df.at[index, 'latitud'] = latitud
    df.at[index, 'longitud'] = longitud
    
# Crear una lista vacía para almacenar los dataframes con los órdenes de las ubicaciones
orden_dfs = []

# Agrupar el dataframe por cluster
grupos = df.groupby('label')

# Iterar por cada cluster
for grupo, data in grupos:
    
    data=data.reset_index(drop=True)
    # Crear una lista de ubicaciones (latitud, longitud)
    ubicaciones = list(zip(data['latitud'], data['longitud']))
    gmaps = googlemaps.Client(key='AIzaSyBDGJCBvgh1BsTLpiDf1UVAwU9e9b_lrd8')
    # Definir el origen
    origen_idx = data.loc[data['aux'] == True].iloc[0].name # Índice del origen en el DataFrame
    origen = ubicaciones[origen_idx]
    # Calcular duración de todas las rutas posibles
    dist_matrix = gmaps.distance_matrix(origen, ubicaciones, mode='driving')
    durations = dist_matrix['rows'][0]['elements']
    for i in range(1, len(durations)):
        durations[i-1]['duration'] = durations[i]['duration']['value'] / 60
    durations = durations[:-1]

    # Ordenar las ubicaciones según la duración de la ruta más corta
    sorted_indices = sorted(range(len(durations)), key=lambda k: durations[k]['duration'])
    ruta_optima = [origen_idx] + [i for i in sorted_indices] 
    
    # Crea un dataframe y añade el orden 
    orden_ubicaciones = [ubicaciones[i] for i in ruta_optima]
    orden_df = pd.DataFrame(orden_ubicaciones, columns=['latitud', 'longitud'])
    orden_df['orden'] = range(len(orden_df))
    
    

    ########################################### inicio bloque para obtener las duraciones
    # Obtener los datos de la ruta óptima
    waypoints = [ubicaciones[i] for i in ruta_optima[1:-1]]
    #obtener 
    directions_result = gmaps.directions(origin=origen,
                                        destination=ubicaciones[-1],
                                        waypoints=waypoints,
                                        optimize_waypoints=True,
                                        departure_time=datetime.now())
    duracion = directions_result[0]['legs'][0]['duration']['value'] / 60
    ############################################ fin bloque para obtener las duraciones

    #### Añade la duración de la ruta al dataframe
    #orden_df['duracion'] = [durations[ruta_optima[i]]['duration'] for i in range(len(ruta_optima)-1)] + [0]
    #orden_df['duracion_total'] = orden_df['duracion'].cumsum() + duracion
    #orden_df['label'] = grupo

    
    # Agregar el dataframe con el orden de las ubicaciones a la lista de dataframes
    orden_dfs.append(orden_df)

# Concatenar los dataframes en un solo dataframe
orden_dfs = pd.concat(orden_dfs, ignore_index=True)


# Realizar el join y seleccionar las columnas necesarias
#final = pd.merge(df[['hora_recogida','address','destino','label']], orden_dfs[['orden','duracion', 'duracion_total', 'label','destino']], on=['label','destino'],how='inner')
#final.drop_duplicates(inplace=True)

[(-33.3707994, -70.6599488), (-33.4043311, -70.71436109999999), (-33.4292718, -70.6995635), (-33.4202371, -70.69549599999999), (-33.4269566, -70.700805), (-33.3873152, -70.68454179999999), (-33.4045618, -70.6982378), (-33.4219992, -70.7539353), (-33.4251388, -70.6859707)]
[(-33.3707994, -70.6599488), (-33.3016249, -70.8811372), (-33.4201881, -70.7558518), (-33.39935, -70.75417999999999), (-33.284031, -70.8743558), (-33.3966188, -70.7513335), (-33.3607614, -70.7494425), (-33.36183260000001, -70.7598938), (-33.2976493, -70.8832273)]
[(-33.3707994, -70.6599488), (-33.36386940000001, -70.71570590000002), (-33.3707621, -70.71120150000002), (-33.3486807, -70.741827), (-33.3682139, -70.7108298), (-33.3658164, -70.7330427), (-33.3616041, -70.7263952), (-33.3495013, -70.74377199999999), (-33.3655027, -70.7183905)]
[(-33.3707994, -70.6599488), (-33.35779309999999, -70.71337369999999), (-33.3198, -70.75398), (-33.32577, -70.76397), (-33.3278401, -70.7582644), (-33.3221238, -70.7484376), (-33.2646

In [13]:
def reverse_geocode(lat, lon):

    # Hacer reverse geocoding para obtener la dirección correspondiente
    reverse_geocode_result = gmaps.reverse_geocode((lat, lon))

    # Obtener la dirección formateada del primer resultado
    formatted_address = reverse_geocode_result[0]['formatted_address']

    # Devolver la dirección formateada como una cadena
    return formatted_address

# Aplicar la función reverse_geocode a cada fila del DataFrame
orden_dfs['direccion'] = orden_dfs.apply(lambda row: reverse_geocode(row['latitud'], row['longitud']), axis=1)


In [14]:
orden_dfs

Unnamed: 0,latitud,longitud,orden,direccion
0,-33.370799,-70.659949,0,"Guanaco Nte. 4819, Huechuraba, Región Metropol..."
1,-33.404331,-70.714361,1,"Francisco Errázuriz 1364, Renca, Santiago, Reg..."
2,-33.429272,-70.699563,2,"Av. Mapocho 4643, 8500093 Quinta Normal, Regió..."
3,-33.420237,-70.695496,3,"Valdivia 2347, 8520803 Quinta Normal, Región M..."
4,-33.426957,-70.700805,4,"Alsino 4816, 8510446 Santiago, Quinta Normal, ..."
5,-33.387315,-70.684542,5,"Zapallar 2444, Conchalí, Región Metropolitana,..."
6,-33.404562,-70.698238,6,"Dos Sur 3881, Renca, Región Metropolitana, Chile"
7,-33.421999,-70.753935,7,"Mapocho Nte. 8151, 9090967 Santiago, Cerro Nav..."
8,-33.425139,-70.685971,8,"Poeta Pedro Prado 1681, Quinta Normal, Región ..."
9,-33.370799,-70.659949,0,"Guanaco Nte. 4819, Huechuraba, Región Metropol..."


In [15]:
#final.sort_values(by=['label','orden']).reset_index(drop=True)