In [1]:
import pandas as pd
import numpy as np
# metodos 1, 2, 3, 6
import pyproj
# metodo 4
import geopandas as gpd
from shapely.ops import nearest_points
from shapely.geometry import LineString
# metodo 5
from geopy.distance import geodesic

In [2]:
# dataset
nodes = pd.DataFrame({'id':range(1000), 'xcoord':-75-np.random.sample(1000), 'ycoord':6+np.random.sample(1000)})
data = pd.DataFrame({'id':range(10000), 'xcoord':-75-np.random.sample(10000), 'ycoord':6+np.random.sample(10000)})

## Metodo 1 

In [35]:
%%time
def idx_nearest_node(xcoord, ycoord, nodes_xcoord, nodes_ycoord):
    # crea un objeto pyproj.Geod para calcular la distancia entre dos puntos (en coordenadas geograficas) en un elipsoide tipo WGS84
    geod = pyproj.Geod(ellps="WGS84")

    nearest_node = np.argmin([geod.inv(lons1=xcoord, lats1=ycoord,
                                       lons2=x, lats2=y)[2] for x,y in zip(nodes_xcoord, nodes_ycoord)                             ])
    # devuelve el indice del nodo más cercano a cada coordenada del dataset
    return nearest_node

data.apply(lambda row: idx_nearest_node(row['xcoord'], row['ycoord'],
                                        nodes['xcoord'].values, nodes['ycoord'].values), axis=1)

Wall time: 1min 6s


0       689
1       192
2       663
3       424
4       714
       ... 
9995    884
9996    851
9997    149
9998    525
9999    270
Length: 10000, dtype: int64

## Metodo 2

In [40]:
%%time
def idx_nearest_node(xcoord, ycoord, nodes_xcoord, nodes_ycoord):
    # crea un objeto pyproj.Geod para calcular la distancia entre dos puntos (en coordenadas geograficas) en un elipsoide tipo WGS84
    geod = pyproj.Geod(ellps="WGS84")
    
    n = len(xcoord)
    nearest_node = np.argmin([geod.inv(lons1=xcoord, lats1=ycoord,
                                       lons2=np.repeat(x,n), lats2=np.repeat(y,n))[2] for x,y in zip(nodes_xcoord, nodes_ycoord)],
                             axis=0)
    # devuelve un array con los indices de los nodos más cercano a cada coordenada del dataset
    return nearest_node

data['id_nearest_node'] = idx_nearest_node(data['xcoord'].values, data['ycoord'].values, nodes['xcoord'].values, nodes['ycoord'].values)

Wall time: 11.1 s


In [55]:
data

Unnamed: 0,id,xcoord,ycoord,id_nearest_node
0,0,-75.827989,6.246695,689
1,1,-75.900218,6.949670,192
2,2,-75.065302,6.218261,663
3,3,-75.754222,6.967225,424
4,4,-75.870605,6.153457,714
...,...,...,...,...
9995,9995,-75.819093,6.138505,884
9996,9996,-75.708800,6.255350,851
9997,9997,-75.608055,6.485664,149
9998,9998,-75.608396,6.198498,525


## Metodo 3

In [60]:
%%time
def idx_nearest_node(data, nodes):
    # crea un objeto pyproj.Geod para calcular la distancia entre dos puntos (en coordenadas geograficas) en un elipsoide tipo WGS84
    geod = pyproj.Geod(ellps="WGS84")

    longitudes = np.array(data.iloc[:, 0])
    latitudes = np.array(data.iloc[:, 1])
    node_longitudes = np.array(nodes.iloc[:, 0])
    node_latitudes = np.array(nodes.iloc[:, 1])
    num_cords = len(longitudes)
    num_nodes = len(node_longitudes)

    distances_per_node=[]
    for i in range(num_nodes):
        distance = geod.inv(lons1=longitudes, 
                            lats1=latitudes,
                            lons2=np.repeat(node_longitudes[i],num_cords),
                            lats2=np.repeat(node_latitudes[i],num_cords))[2]
        distances_per_node.append(distance)
    # devuelve un array con los indices de los nodos más cercano a cada coordenada del dataset
    return np.argmin(distances_per_node, axis=0)

idx_nearest_node(data[['xcoord','ycoord']], nodes[['xcoord','ycoord']])

Wall time: 11.5 s


array([689, 192, 663, ..., 149, 525, 270], dtype=int64)

## Metodo 4

In [61]:
import geopandas as gpd
from shapely.ops import nearest_points
from shapely.geometry import LineString

In [62]:
%%time
# transforma un objeto pandas.dataframe en un geopandas.dataframe
def create_gdf(df, x="xcoord", y="ycoord"):
    return gpd.GeoDataFrame(df, geometry=gpd.points_from_xy(df[x], df[y]), crs='EPSG:4326')

# calcula el punto mas cercano entre una lista de puntos en 'destination' para cada punto en 'row'
# row es el dataset de eventos y destination el dataset de nodos
def calculate_nearest(row, destination, val, col="geometry"):
    dest_unary = destination["geometry"].unary_union
    nearest_geom = nearest_points(row[col], dest_unary)
    match_geom = destination.loc[destination.geometry == nearest_geom[1]]
    match_value = match_geom[val].to_numpy()[0]
    return match_value

nodes_gdf = create_gdf(nodes)
data_gdf = create_gdf(data)

data_gdf.apply(calculate_nearest, destination=nodes_gdf, val="id", axis=1)

Wall time: 5min 41s


0       689
1       192
2       663
3       424
4       714
       ... 
9995    884
9996    851
9997    149
9998    525
9999    270
Length: 10000, dtype: int64

## Metodo 5

In [None]:
%%time
def idx_nearest_node(yx_row, yx_nodes):
    
    nearest_node = np.argmin([geodesic(yx_row, yx_node).m for yx_node in yx_nodes])
    # devuelve el indice del nodo más cercano a cada coordenada del dataset
    return nearest_node

data.apply(lambda row: idx_nearest_node(row[['ycoord', 'xcoord']].values, nodes[['ycoord', 'xcoord']].values), axis=1)
# sobrepasa los 5 minutos

## Metodo 6

In [6]:
%%time
def idx_nearest_node(xcoord, ycoord, nodes_xcoord, nodes_ycoord):
    # crea un objeto pyproj.Geod para calcular la distancia entre dos puntos (en coordenadas geograficas) en un elipsoide tipo WGS84
    geod = pyproj.Geod(ellps="WGS84")
    
    n = len(nodes_xcoord)
    nearest_node = [np.argmin(geod.inv(lons1=nodes_xcoord, lats1=nodes_ycoord,
                                       lons2=np.repeat(x,n), lats2=np.repeat(y,n))[2]) for x,y in zip(xcoord, ycoord)]
    
    # devuelve un array con los indices de los nodos más cercano a cada coordenada del dataset
    return nearest_node

data['id_nearest_node'] = idx_nearest_node(data['xcoord'].values, data['ycoord'].values,
                                           nodes['xcoord'].values, nodes['ycoord'].values)

11.1 s ± 156 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


## Metodo 7

In [19]:
%%time
def haversine(lon1, lat1, lon2, lat2):
    KM = 6378.1370   # mean equatorial radius
    lon1, lat1, lon2, lat2 = map(np.deg2rad, [lon1, lat1, lon2, lat2])
    dlat = lat2 - lat1 
    dlon = lon2 - lon1 
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    c = 2 * np.arcsin(np.sqrt(a)) 
    return KM * c

def idx_nearest_node(xcoord, ycoord, nodes_xcoord, nodes_ycoord):
    return np.array([np.argmin(haversine(x, y, nodes_xcoord, nodes_ycoord)) for x,y in zip(xcoord, ycoord)])
    
idx_nearest_node(data['xcoord'].values, data['ycoord'].values, nodes['xcoord'].values, nodes['ycoord'].values)

Wall time: 760 ms


array([831, 386, 149, ..., 228, 976, 655], dtype=int64)

## Implementacion con un dia del dataset

In [20]:
from sqlalchemy import create_engine, text

engine = create_engine('postgresql://ds4a_user1:ds4a2020@ds4a-database.cnjtnqqpofwy.us-east-2.rds.amazonaws.com/ds4a_project')
def runQuery(sql):
    result = engine.connect().execute((text(sql)))
    return pd.DataFrame(result.fetchall(), columns=result.keys(), dtype=np.float64)

In [21]:
%%time
# cargando los datos
data = runQuery('''
    SELECT id AS id_data, longitud AS xcoord, latitud AS ycoord
    FROM source.passenger_route_vehicle
    WHERE TO_CHAR(fecharegistro, 'YYYYMMDD') = '20200316'
''')
nodes = runQuery('''
    SELECT id AS id_node, long AS xcoord, lat AS ycoord
    FROM source.nodes
''')
# tamaño de los datos
print(data.shape)
print(nodes.shape)

(407935, 3)
(5490, 3)
Wall time: 1min 12s


### Metodo 2: Vicentys formula (elipsoide WGS84)

In [43]:
%%time
def idx_nearest_node(xcoord, ycoord, nodes_xcoord, nodes_ycoord):
    # crea un objeto pyproj.Geod para calcular la distancia entre dos puntos (en coordenadas geograficas) en un elipsoide tipo WGS84
    geod = pyproj.Geod(ellps="WGS84")
    
    n = len(xcoord)
    nearest_node = np.argmin([geod.inv(lons1=xcoord, lats1=ycoord,
                                       lons2=np.repeat(x,n), lats2=np.repeat(y,n))[2] for x,y in zip(nodes_xcoord, nodes_ycoord)],
                             axis=0)
    # devuelve un array con los indices de los nodos más cercano a cada coordenada del dataset
    return nearest_node

data['id_nearest_node'] = idx_nearest_node(data['xcoord'].values, data['ycoord'].values, 
                                           nodes['xcoord'].values, nodes['ycoord'].values)

MemoryError: Unable to allocate 16.7 GiB for an array with shape (5490, 407935) and data type float64

### Metodo 6: Vicentys formula (elipsoide WGS84)

In [24]:
%%time
def idx_nearest_node(xcoord, ycoord, nodes_xcoord, nodes_ycoord):
    # crea un objeto pyproj.Geod para calcular la distancia entre dos puntos (en coordenadas geograficas) en un elipsoide tipo WGS84
    geod = pyproj.Geod(ellps="WGS84")
    
    n = len(nodes_xcoord)
    nearest_node = [np.argmin(geod.inv(lons1=nodes_xcoord, lats1=nodes_ycoord,
                                       lons2=np.repeat(x,n), lats2=np.repeat(y,n))[2]) for x,y in zip(xcoord, ycoord)]
    
    # devuelve un array con los indices de los nodos más cercano a cada coordenada del dataset
    return nearest_node

data['id_nearest_node'] = idx_nearest_node(data['xcoord'].values, data['ycoord'].values,
                                           nodes['xcoord'].values, nodes['ycoord'].values)

Wall time: 39min 56s


### Metodo 7: Haversine formula

In [25]:
%%time
def haversine(lon1, lat1, lon2, lat2):
    KM = 6378.1370   # mean equatorial radius
    lon1, lat1, lon2, lat2 = map(np.deg2rad, [lon1, lat1, lon2, lat2])
    dlat = lat2 - lat1 
    dlon = lon2 - lon1 
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    c = 2 * np.arcsin(np.sqrt(a)) 
    return KM * c

def idx_nearest_node(xcoord, ycoord, nodes_xcoord, nodes_ycoord):
    return np.array([np.argmin(haversine(x, y, nodes_xcoord, nodes_ycoord)) for x,y in zip(xcoord, ycoord)])
    
data['id_nearest_node1'] = idx_nearest_node(data['xcoord'].values, data['ycoord'].values,
                                            nodes['xcoord'].values, nodes['ycoord'].values)

Wall time: 1min 45s


In [30]:
# Vicenty vs Haversine formula: no coinciden en 435 eventos
(data['id_nearest_node'] == data['id_nearest_node1']).value_counts()

True     407500
False       435
dtype: int64

**Conclusion**: se prefiere el metodo 7 (Haversine formula) debido a que tarda mucho menos tiempo en ejecutarse y la operacion no colapsa por falta de memoria.