## READ ME
Estos son los detalles de lo que hace el código:
1. importar librerías
2. importar data y realizar limpieza

    a. eliminar nulos (no afecta a las reservas)
    
    b. rellena los valores que tienen hora de reserva en blanco con el valor que se encuentra arriba
3. verificar las direcciones correctas. Las que no estén verificadas se proceden a dejar fuera para que posteriormente se modifiquen manualmente 
4. Se calcula la distancia entre cada par de direcciones usando coordenadas (origen y destino)

In [1]:
import pandas as pd
import numpy as np
from geopy.geocoders import Nominatim
from geopy.distance import great_circle
from scipy.spatial.distance import cdist
from sklearn.cluster import KMeans
import googlemaps
import re
import requests
import pickle
import os



import warnings
warnings.filterwarnings("ignore")

In [2]:
data = pd.read_csv(r'C:\Users\martin.olivares\Desktop\projects\best-route\data\test_5.csv')

df=pd.DataFrame()
df['address']=data['Direccion de inicio']
df['hora_recogida']=data['Hora de recogida']
df['destino']=data['Dirección destino']

df["num_empty_cells"] = df.isna().sum(axis=1)
df["nulls"]=df['num_empty_cells']/max(df['num_empty_cells'])

df = df.drop(df[df['nulls']==1].index)
df.fillna(method='ffill', inplace=True)

df.drop(columns=['nulls','num_empty_cells'],inplace=True)


In [3]:
# Definir un diccionario con las abreviaturas de calles y sus correspondientes formas completas
street_abbreviations = {
    "cl": "calle",
    "av": "avenida",
    "pj": "pasaje",
    "cam": "camino",
    "nte": "norte",
    "hermnos":'hnos',
    'hmnos':'hermanos',
    'tte':'teniente',
    'concon':'con con'
    }


# Definir una función que corrija las abreviaturas de calles en una dirección
def correct_typos(address):
    for abbreviation, full_form in street_abbreviations.items():
        address = re.sub(r'\b{}\b'.format(abbreviation), full_form, address)
    return address

# Aplicar la función a cada dirección del DataFrame
df["address"] = df["address"].str.lower().apply(correct_typos)
df['destino'] = df["destino"].str.lower().apply(correct_typos)

In [4]:
clave_api='AIzaSyAvTzCycvOetN-NA51GNqxb80d-Ma-0Azg'

googlemaps_cache = 'googlemaps_cache.pkl'

def load_cache():
    # Cargar la caché desde el archivo si existe
    if os.path.exists(googlemaps_cache):
        with open(googlemaps_cache, 'rb') as f:
            return pickle.load(f)
    else:
        return {}

def save_cache(cache):
    # Guardar la caché en el archivo
    with open(googlemaps_cache, 'wb') as f:
        pickle.dump(cache, f)

def correct_address(direccion):
    # Cargar la caché desde el archivo
    cache = load_cache()
    # Verificar si el resultado de la dirección ya está en la caché
    if direccion in cache:
        return cache[direccion]
    # Si el resultado de la dirección no está en la caché, realizar una solicitud a la API de Google Maps
    gmaps = googlemaps.Client(key=clave_api)
    geocode_result = gmaps.geocode(direccion)
    if len(geocode_result) > 0:
        formatted_address = geocode_result[0]['formatted_address']
        # Agregar el resultado a la caché para futuras solicitudes
        cache[direccion] = formatted_address
        save_cache(cache)
        return formatted_address
    else:
        return np.nan

In [5]:
df['address'] = df['address'].apply(correct_address)
df['destino'] = df['destino'].apply(correct_address)
df['aux'] = df.groupby(['address', 'hora_recogida'])['address'].transform(lambda x: x.duplicated(keep=False)).astype(bool)

print('Numero de valores erroneos:')
print(df.isna().sum())
print('-----------------------------------')
print('Lista errores:')
df[df.isna().any(axis=1)]

Numero de valores erroneos:
address          0
hora_recogida    0
destino          2
aux              0
dtype: int64
-----------------------------------
Lista errores:


Unnamed: 0,address,hora_recogida,destino,aux
29,"Guanaco Nte. 4819, Huechuraba, Región Metropol...",1:45,,True
587,"Guanaco Nte. 4819, Huechuraba, Región Metropol...",1:45,,True


In [6]:
df.dropna(inplace=True)



# Creamos un cliente de Google Maps con nuestra clave API
gmaps = googlemaps.Client(key=clave_api)

# Comprobamos si el archivo existe y no está vacío antes de cargar la memoria caché
if os.path.exists("coordinates_googlemaps.pkl") and os.path.getsize("geocode_cache.pickle") > 0:
    with open("coordinates_googlemaps.pkl", "rb") as f:
        geocode_cache = pickle.load(f)
else:
    geocode_cache = {}

# Creamos una función para guardar la memoria caché en un archivo externo
def save_geocode_cache():
    with open("coordinates_googlemaps.pkl", "wb") as f:
        pickle.dump(geocode_cache, f)

# Creamos una función para geolocalizar una dirección y almacenar las coordenadas en la caché
def geolocate(address):
    if address in geocode_cache:
        return geocode_cache[address]
    else:
        geocode_result = gmaps.geocode(address)
        if len(geocode_result) > 0:
            location = geocode_result[0]['geometry']['location']
            coordinates = (location['lat'], location['lng'])
            geocode_cache[address] = coordinates
            save_geocode_cache()  # Guardamos la memoria caché en un archivo externo
            return coordinates
        else:
            return None

In [7]:
false_df = df[df['aux']==False]
false_grouped = false_df.groupby("hora_recogida")

true_df = df[df['aux']==True]
true_grouped = true_df.groupby("hora_recogida")

import time

start_time = time.time()


for name, group in false_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['address']
        loc1 = geolocate(address1)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['address']
                loc2 = geolocate(address2)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
    # Crea una matriz con las distancias
    kmeans = KMeans(n_clusters=1)
    kmeans.fit(X)
    group['label'] = kmeans.labels_
    # Continúa agrupando hasta que cada clúster tenga 4 o menos direcciones
    while group.groupby('label').agg({'address':'count'}).max().values[0] > 4 and kmeans.n_clusters < len(group):
        kmeans.n_clusters += 1
        kmeans.fit(X)
        group['label'] = kmeans.labels_
    false_df.loc[group.index, "label"] = group["label"]

end_time = time.time()

print("Tiempo de ejecución del primer bloque de código: %.2f segundos" % (end_time - start_time))
# busca la ruta mas optima, entonces, no maximiza los vehiculos
# que todos se maximicen, y solamente existiría un vehiculo (ultimos valores) que podría tener menos

Tiempo de ejecución del primer bloque de código: 0.00 segundos


In [8]:

start_time = time.time()

for name, group in true_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['destino']
        loc1 = geolocate(address1)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['destino']
                loc2 = geolocate(address2)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
    # Crea una matriz con las distancias
    kmeans = KMeans(n_clusters=1)
    kmeans.fit(X)
    group['label'] = kmeans.labels_
    
#CAMBIOS!!!!!
    # Que los autos se agrupen hasta llenar a los 4 pasajeros.
    # Para las van de 4 a 8, da lo mismo que tan llena vaya.
    # COMO LLENAR EL TIPO DE AUTO!! 
    
    while group.groupby('label').agg({'destino':'count'}).max().values[0] > 4 and kmeans.n_clusters < len(group):
        kmeans.n_clusters += 1
        kmeans.fit(X)
        group['label'] = kmeans.labels_
    true_df.loc[group.index, "label"] = group["label"]


end_time = time.time()
print("Tiempo de ejecución del segundo bloque de código: %.2f segundos" % (end_time - start_time))

Tiempo de ejecución del segundo bloque de código: 1025.07 segundos


In [9]:
df=pd.concat([false_df,true_df])

df=df[['hora_recogida','address','destino','label']]
df.sort_values(by=['hora_recogida'])

df

Unnamed: 0,hora_recogida,address,destino,label
0,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Av. Mapocho 4643, 8500093 Quinta Normal, Regió...",52.0
1,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Zapallar 2444, Conchalí, Región Metropolitana,...",365.0
2,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Valdivia 2347, 8520803 Quinta Normal, Región M...",164.0
3,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Dos Sur 3881, Renca, Región Metropolitana, Chile",305.0
4,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Alsino 4820, Quinta Normal, Región Metropolita...",460.0
...,...,...,...,...
605,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Miguel de Unamuno 2914, San Bernardo, Región M...",371.0
606,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Longitudinal Sur km 47, 9540000 Paine, Región ...",18.0
607,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","El Monte, Santiago Metropolitan Region, Chile",55.0
608,1:45,"Guanaco Nte. 4819, Huechuraba, Región Metropol...","Jorge Cornejo 619, 8071114 Maipo, San Bernardo...",143.0


In [10]:
print(max(df['label']))

df.groupby('label')['direccion'].size()

472.0


KeyError: 'Column not found: direccion'

In [None]:
df.to_excel('verificacion.xlsx')