In [1]:
import numpy as np
import pandas as pd

In [2]:
# пишем функцию, которая вычисляет формулу гаверсинусов
def haversine(lat1, lon1, lat2, lon2):
    MILES = 3959
    lat1, lon1, lat2, lon2 = map(np.deg2rad, [lat1, lon1, lat2, lon2])
    dlat = lat2 - lat1
    dlon = lon2 - lon1
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    с = 2 * np.arcsin(np.sqrt(a))
    total_miles = MILES * с
    return total_miles

In [3]:
df = pd.read_csv('./new_york_hotels.csv', encoding = 'cp1252')
df.head(5)

Unnamed: 0,ean_hotel_id,name,address1,city,state_province,postal_code,latitude,longitude,star_rating,high_rate,low_rate
0,269955,Hilton Garden Inn Albany/SUNY Area,1389 Washington Ave,Albany,NY,12206,42.68751,-73.81643,3.0,154.0272,124.0216
1,113431,Courtyard by Marriott Albany Thruway,1455 Washington Avenue,Albany,NY,12206,42.68971,-73.82021,3.0,179.01,134.0
2,108151,Radisson Hotel Albany,205 Wolf Rd,Albany,NY,12205,42.7241,-73.79822,3.0,134.17,84.16
3,254756,Hilton Garden Inn Albany Medical Center,62 New Scotland Ave,Albany,NY,12208,42.65157,-73.77638,3.0,308.2807,228.4597
4,198232,CrestHill Suites SUNY University Albany,1415 Washington Avenue,Albany,NY,12206,42.68873,-73.81854,3.0,169.39,89.39


__БАЗОВОЕ ИТЕРИРОВАНИЕ__

In [11]:
# задаем функцию, которая просто перебирает все строки и возвращает серию с расстояниями, вычесленную по формуле гаверсинуса
def haversine_looping(df):
    distance_list = []
    for i in range(0, len(df)):
        d = haversine(40.671, -73.985, df.iloc[i]['latitude'], df.iloc[i]['longitude'])
        distance_list.append(d)
    return distance_list

In [17]:
%%timeit
df['distance'] = haversine_looping(df)

264 ms ± 7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


__ИТЕРИРОВАНИЕ С ПОМОЩЬЮ МЕТОДА .ITERROWS()__

In [18]:
%%timeit
# запускаем итерирование с помощью метода .iterrows()
haversine_series = []
for index, row in df.iterrows():
    haversine_series.append(haversine(40.671, -73.985, row['latitude'], row['longitude']))
df['distance'] = haversine_series

127 ms ± 1.15 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


__БОЛЕЕ ЛУЧШИЙ СПОСОБ ИТЕРИРОВАНИЯ С ПОМОЩЬЮ МЕТОДА .APPLY( )__

In [19]:
%%timeit
# применяем функцию haversine с помощью метода .apply()
df['distance'] = df.apply(lambda row: haversine(40.671, -73.985, row['latitude'], row['longitude']), axis = 1)

35.3 ms ± 319 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


__ВЕКТОРИЗАЦИЯ С ПОМОЩЬЮ ОБЪЕКТОВ SERIES__

In [20]:
%%timeit
# веторизированная реализация функции haversine, используем объекты Series целиком
df['distance'] = haversine(40.671, -73.985, df['latitude'], df['longitude'])

1.66 ms ± 16.4 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


__ВЕКТОРИЗАЦИЯ С ПОМОЩЬЮ МАССИВОВ NUMPY__

In [21]:
%%timeit
# веторизированная реализация функции haversine, используем вместо объектов Series массивы NumPy
df['distance'] = haversine(40.671, -73.985, df['latitude'].values, df['longitude'].values)

182 µs ± 8.59 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
