## READ ME
Estos son los detalles de lo que hace el código:
1. importar librerías
2. importar data y realizar limpieza

    a. eliminar nulos (no afecta a las reservas)
    
    b. rellena los valores que tienen hora de reserva en blanco con el valor que se encuentra arriba
3. verificar las direcciones correctas. Las que no estén verificadas se proceden a dejar fuera para que posteriormente se modifiquen manualmente 
4. Se calcula la distancia entre cada par de direcciones usando coordenadas (origen y destino)

In [1]:
import pandas as pd
import numpy as np
from geopy.geocoders import Nominatim
from geopy.distance import great_circle
from scipy.spatial.distance import cdist
from sklearn.cluster import KMeans
import re
import requests
import pickle
import os

import warnings
warnings.filterwarnings("ignore")

In [2]:
data = pd.read_csv(r'C:\Users\martin.olivares\Desktop\projects\best-route\data\test_4.csv')

df=pd.DataFrame()
df['address']=data['Direccion de inicio']
df['hora_recogida']=data['Hora de recogida']
df['destino']=data['Dirección destino']

df["num_empty_cells"] = df.isna().sum(axis=1)
df["nulls"]=df['num_empty_cells']/max(df['num_empty_cells'])

df = df.drop(df[df['nulls']==1].index)
df.fillna(method='ffill', inplace=True)

df.drop(columns=['nulls','num_empty_cells'],inplace=True)


In [3]:
# Definir un diccionario con las abreviaturas de calles y sus correspondientes formas completas
street_abbreviations = {
    "cl": "calle",
    "av": "avenida",
    "pj": "pasaje",
    "cam": "camino",
    "nte": "norte",
    "hermnos":'hnos',
    'hmnos':'hermanos',
    'tte':'teniente',
    'concon':'con con'
    }


# Definir una función que corrija las abreviaturas de calles en una dirección
def correct_typos(address):
    for abbreviation, full_form in street_abbreviations.items():
        address = re.sub(r'\b{}\b'.format(abbreviation), full_form, address)
    return address

# Aplicar la función a cada dirección del DataFrame
df["address"] = df["address"].str.lower().apply(correct_typos)
df['destino'] = df["destino"].str.lower().apply(correct_typos)

df


Unnamed: 0,address,hora_recogida,destino
0,"doctor israel roizblatt 130, valparaiso",6:20,"8 norte. 1168, viña del mar, valparaíso"
1,"ramaditas 1626, valparaíso",6:20,"8 norte. 1168, viña del mar, valparaíso"
2,"septimo de linea 17, valparaíso",6:20,"8 norte. 1168, viña del mar, valparaíso"
3,"dionisio hernández 450,viña del mar",6:30,"8 norte. 1168, viña del mar, valparaíso"
4,"camila 109, valparaíso",6:50,"8 norte. 1168, viña del mar, valparaíso"
5,"ramaditas 1626, valparaíso",20:40,"8 norte. 1168, viña del mar, valparaíso"
6,"doctor israel roizblatt 130, valparaiso",20:40,"8 norte. 1168, viña del mar, valparaíso"
7,"navío san martín 70, valparaíso",20:40,"8 norte. 1168, viña del mar, valparaíso"
8,"camila 109, valparaíso",20:40,"8 norte. 1168, viña del mar, valparaíso"
9,"viana 1155, valparaíso, viña del mar, valparaíso",20:40,"8 norte. 1168, viña del mar, valparaíso"


In [4]:
#Función para verificar que las direcciones estén correctas. Posteriormente se dejan fuera las incorrectas (momentaneo)

def correct_address(address):
    geolocator = Nominatim(user_agent="test")
    location = geolocator.geocode(address)
    if location:
        return location.address
    else:
        return np.nan


df['address'] = df['address'].apply(correct_address)
df['destino'] = df['destino'].apply(correct_address)
df['aux'] = df.groupby(['address', 'hora_recogida'])['address'].transform(lambda x: x.duplicated(keep=False)).astype(bool)

print('Numero de valores erroneos:')
print(df.isna().sum())


df.dropna(inplace=True)

Numero de valores erroneos:
address          1
hora_recogida    0
destino          3
aux              0
dtype: int64


In [5]:
geolocator = Nominatim(user_agent="geoapiExercises")

# Comprobamos si el archivo existe y no está vacío antes de cargar la memoria caché
if os.path.exists("geocode_cache.pickle") and os.path.getsize("geocode_cache.pickle") > 0:
    with open("geocode_cache.pickle", "rb") as f:
        geocode_cache = pickle.load(f)
else:
    geocode_cache = {}

# Creamos una función para guardar la memoria caché en un archivo externo
def save_geocode_cache():
    with open("geocode_cache.pickle", "wb") as f:
        pickle.dump(geocode_cache, f)

# Creamos una función para geolocalizar una dirección y almacenar las coordenadas en la caché
def geolocate(address):
    if address in geocode_cache:
        return geocode_cache[address]
    else:
        location = geolocator.geocode(address)
        if location is not None:
            coordinates = (location.latitude, location.longitude)
            geocode_cache[address] = coordinates
            save_geocode_cache()  # Guardamos la memoria caché en un archivo externo
            return coordinates
        else:
            return None

In [6]:
false_df = df[df['aux']==False]
false_grouped = false_df.groupby("hora_recogida")

true_df = df[df['aux']==True]
true_grouped = true_df.groupby("hora_recogida")



for name, group in false_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['address']
        loc1 = geolocate(address1)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['address']
                loc2 = geolocate(address2)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
    # Crea una matriz con las distancias
    kmeans = KMeans(n_clusters=1)
    kmeans.fit(X)
    group['label'] = kmeans.labels_
    # Continúa agrupando hasta que cada clúster tenga 4 o menos direcciones
    while group.groupby('label').agg({'address':'count'}).max().values[0] > 4 and kmeans.n_clusters < len(group):
        kmeans.n_clusters += 1
        kmeans.fit(X)
        group['label'] = kmeans.labels_
    false_df.loc[group.index, "label"] = group["label"]

            
for name, group in true_grouped:
    # Calcula la distancia entre cada par de direcciones
    X = np.zeros((len(group), len(group)))
    for i in range(len(group)):
        address1 = group.iloc[i]['destino']
        loc1 = geolocate(address1)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
        if loc1 is not None:
            lat1, lon1 = loc1
            point1 = (lat1, lon1)
            for j in range(i+1, len(group)):
                address2 = group.iloc[j]['destino']
                loc2 = geolocate(address2)  # Utilizamos nuestra función personalizada para geolocalizar la dirección
                if loc2 is not None:
                    lat2, lon2 = loc2
                    point2 = (lat2, lon2)
                    X[i, j] = great_circle(point1, point2).m
                    X[j, i] = great_circle(point1, point2).m
    # Crea una matriz con las distancias
    kmeans = KMeans(n_clusters=1)
    kmeans.fit(X)
    group['label'] = kmeans.labels_
    # Continúa agrupando hasta que cada clúster tenga 4 o menos direcciones
    while group.groupby('label').agg({'destino':'count'}).max().values[0] > 4 and kmeans.n_clusters < len(group):
        kmeans.n_clusters += 1
        kmeans.fit(X)
        group['label'] = kmeans.labels_
    true_df.loc[group.index, "label"] = group["label"]


In [7]:
df=pd.concat([false_df,true_df])
df.sort_values(by=['hora_recogida','label'])


df

Unnamed: 0,address,hora_recogida,destino,aux,label
0,"Doctor Israel Roizblatt, Población Dr. Israel ...",6:20,"8 Norte, Conjunto Residencial Benidorm, Viña d...",False,0.0
1,"Ramaditas, Cerro Santa Elena, San Roque, Valpa...",6:20,"8 Norte, Conjunto Residencial Benidorm, Viña d...",False,0.0
2,"Séptimo de Línea, Villa El Totoral, San Felipe...",6:20,"8 Norte, Conjunto Residencial Benidorm, Viña d...",False,0.0
3,"Dionisio Hernández, Población Nuevo Horizonte,...",6:30,"8 Norte, Conjunto Residencial Benidorm, Viña d...",False,0.0
4,"109, Camila, Cerro San Juan de Dios, Almendral...",6:50,"8 Norte, Conjunto Residencial Benidorm, Viña d...",False,0.0
5,"Ramaditas, Cerro Santa Elena, San Roque, Valpa...",20:40,"8 Norte, Conjunto Residencial Benidorm, Viña d...",False,0.0
6,"Doctor Israel Roizblatt, Población Dr. Israel ...",20:40,"8 Norte, Conjunto Residencial Benidorm, Viña d...",False,1.0
7,"Navío San Martín, Bosque Inglés, San Roque, Va...",20:40,"8 Norte, Conjunto Residencial Benidorm, Viña d...",False,0.0
8,"109, Camila, Cerro San Juan de Dios, Almendral...",20:40,"8 Norte, Conjunto Residencial Benidorm, Viña d...",False,0.0
9,"Viana, Población Saenz, Forestal, Viña del Mar...",20:40,"8 Norte, Conjunto Residencial Benidorm, Viña d...",False,1.0
