---
title: "loop speed"
author: "L G H"
date: "2023-05-26"
categories: [data_mining]
---

## For loop 속도 개선하기

강의자료 출처
- https://blog.fearcat.in/a?ID=00900-6997c6fb-2680-4531-af1d-73eeccce74ef
- https://aldente0630.github.io/data-science/2018/08/05/a-beginners-guide-to-optimizing-pandas-code-for-speed.html

In [None]:
import pandas as pd
import numpy as np
from math import *

### Read in the data

익스피디아 개발자 사이트에서 제공한 뉴욕 주 내 모든 호텔 좌표가 들어있는 데이터셋

In [None]:
df = pd.read_csv('/content/drive/MyDrive/데이터마이닝/new_york_hotels.csv', encoding='cp1252')

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
df.head()

Unnamed: 0,ean_hotel_id,name,address1,city,state_province,postal_code,latitude,longitude,star_rating,high_rate,low_rate
0,269955,Hilton Garden Inn Albany/SUNY Area,1389 Washington Ave,Albany,NY,12206,42.68751,-73.81643,3.0,154.0272,124.0216
1,113431,Courtyard by Marriott Albany Thruway,1455 Washington Avenue,Albany,NY,12206,42.68971,-73.82021,3.0,179.01,134.0
2,108151,Radisson Hotel Albany,205 Wolf Rd,Albany,NY,12205,42.7241,-73.79822,3.0,134.17,84.16
3,254756,Hilton Garden Inn Albany Medical Center,62 New Scotland Ave,Albany,NY,12208,42.65157,-73.77638,3.0,308.2807,228.4597
4,198232,CrestHill Suites SUNY University Albany,1415 Washington Avenue,Albany,NY,12206,42.68873,-73.81854,3.0,169.39,89.39


In [None]:
df.describe()

Unnamed: 0,ean_hotel_id,latitude,longitude,star_rating,high_rate,low_rate
count,1631.0,1631.0,1631.0,1630.0,1631.0,1631.0
mean,302845.515021,41.851026,-75.015019,2.894785,273.268624,169.408866
std,163497.21591,1.13196,1.774482,0.777486,504.19188,205.914287
min,6295.0,40.58399,-79.74201,1.0,0.0,0.0
25%,163765.5,40.75554,-76.14253,2.5,121.4,97.318
50%,252457.0,41.55842,-73.98871,3.0,170.0,134.37
75%,437138.0,42.949455,-73.90534,3.5,279.93,195.26
max,685047.0,44.96785,-71.93334,5.0,10888.5,5990.25


In [None]:
df.shape

(1631, 11)

## Haversine definition

두 위치 사이의 거리를 계산하는 함수
- https://stricky.tistory.com/284

In [None]:
def haversine(lat1, lon1, lat2, lon2):
    miles_constant = 3959
    lat1, lon1, lat2, lon2 = map(np.deg2rad, [lat1, lon1, lat2, lon2])
    dlat = lat2 - lat1 
    dlon = lon2 - lon1 
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    c = 2 * np.arcsin(np.sqrt(a)) 
    mi = miles_constant * c
    return mi

## Task 

어떤 위치, (40.671, -73.985)에서 `df`에 존재하는 모든 호텔까지의 거리를 구해봅시다

## Looping Haversine

In [None]:
def haversine_looping(df):
    distance_list = [] # 빈 리스트를 생성
    for i in range(0, len(df)):
        d = haversine(40.671, -73.985, df.iloc[i]['latitude'], df.iloc[i]['longitude'])
        distance_list.append(d)
    return distance_list

%%timeit은 Jupyter Notebook에서 사용되는 매직 명령어 중 하나로, 코드 실행 시간을 측정하는 도구입니다.

%%timeit 매직 명령어를 사용하면 해당 셀의 코드를 여러 번 실행하여 실행 시간을 평균적으로 계산합니다. 이를 통해 코드의 실행 성능을 쉽게 측정하고 비교할 수 있습니다.

In [None]:
%%timeit

# Haversine 반복 함수 실행하기
df['distance'] = haversine_looping(df)

The slowest run took 4.33 times longer than the fastest. This could mean that an intermediate result is being cached.
750 ms ± 445 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
df['distance'].describe()

count    1631.000000
mean      111.318922
std       107.476086
min         0.163480
25%         6.305530
50%        71.070425
75%       199.395866
max       314.936306
Name: distance, dtype: float64

## Iterrows Haversine

반복문을 돌려야 할 때 iterrows() 메서드를 사용하는 건 행을 반복하기 위한 더 좋은 방법이다. iterrows()는 데이터 프레임의 행을 반복하며 행 자체를 포함하는 객체에 덧붙여 각 행의 색인을 반환하는 제너레이터다. iterrows()는 판다스 데이터 프레임과 함께 작동하게끔 최적화되어 있으며 표준 함수 대부분을 실행하는 데 가장 효율적인 방법은 아니지만(나중에 자세히 설명) 단순 반복보다는 상당히 개선되었다. 예제의 경우 iterrows()는 행을 수동으로 반복하는 것보다 거의 똑같은 문제를 약 4배 빠르게 해결한다.

In [None]:
# Haversine applied on rows via iteration
haversine_series = []
for index, row in df.iloc[0:10].iterrows():
    print(row['latitude'])

42.68751
42.68971
42.7241
42.65157
42.68873
42.72874
42.68031
42.65334
42.72111
42.67807


In [None]:
%%timeit
# Haversine applied on rows via iteration
haversine_series = []
for index, row in df.iterrows():
    haversine_series.append(haversine(40.671, -73.985, row['latitude'], row['longitude']))
df['distance'] = haversine_series

112 ms ± 18.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


itertuples와 iterrows는 모두 Pandas 데이터프레임의 행을 순회(iterate)하는 메서드입니다. 그러나 itertuples는 iterrows보다 더욱 빠른 속도를 보이므로, 대체로 itertuples를 사용하는 것이 좋습니다.

이유는 iterrows는 각 행(row)을 Series 객체로 반환하는 반면, itertuples는 각 행을 NamedTuple로 반환합니다. NamedTuple은 각 속성(attribute)에 이름이 지정되어 있기 때문에, Series보다 빠르게 데이터에 접근할 수 있습니다. 따라서 대용량의 데이터프레임을 다룰 때는 itertuples를 사용하는 것이 더욱 효율적입니다.

In [None]:
%%timeit
haversine_series = []
for idx, lat, lon in df[['latitude','longitude']].itertuples():
    haversine_series.append(haversine(40.671, -73.985, lat, lon))
    
df['distance'] = haversine_series

27.1 ms ± 663 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
import pandas as pd

df2 = pd.DataFrame({'A': [1, 2, 3, 4, 5, 6, 7, 8], 'B': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']})

for row in df2.itertuples():
    print(row)

Pandas(Index=0, A=1, B='a')
Pandas(Index=1, A=2, B='b')
Pandas(Index=2, A=3, B='c')
Pandas(Index=3, A=4, B='d')
Pandas(Index=4, A=5, B='e')
Pandas(Index=5, A=6, B='f')
Pandas(Index=6, A=7, B='g')
Pandas(Index=7, A=8, B='h')


## Apply Haversine on rows

`iterrows()`보다 더 좋은 옵션은 데이터 프레임의 특정 축(행 또는 열을 의미)을 따라 함수를 적용하는 `apply()` 메서드를 사용하는 것이다. `apply()`는 본질적으로 행을 반복하지만 Cython에서 이터레이터를 사용하는 것 같이 내부 최적화를 다양하게 활용하므로 `iterrows()`보다 훨씬 효율적이다.

익명의 람다 함수를 사용하여 Haversine 함수를 각 행에 적용하며 각 행의 특정 셀을 함수 입력값으로 지정할 수 있다. 람다 함수는 판다스가 행(축 = 1)과 열(축 = 0) 중 어디에 함수를 적용할지 정할 수 있게 축 매개 변수를 마지막에 포함한다.

### Timing "apply"

In [None]:
%%timeit 

df['distance'] =\
df.apply(lambda row: haversine(40.671, -73.985,\
                               row['latitude'], row['longitude']), axis=1)

51.4 ms ± 2.01 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


## Vectorized implementation of Haversine applied on Pandas series

#### Timing vectorized implementation

함수 수행의 반복량 줄이는 방법을 이해하기 위해 판다스의 기본 단위, 데이터 프레임과 시리즈가 모두 배열 기반임을 알아두자. 기본 단위의 내부 구조는 개별 값(스칼라라고 함)마다 순차적으로 작동하는 대신 전체 배열 위로 작동하도록 설계된 내장 판다스 함수를 위해 변환된다. 벡터화는 전체 배열 위로 작업을 실행하는 프로세스다.

판다스는 수학 연산에서 집계 및 문자열 함수(사용 가능한 함수의 광범위한 목록은 판다스 문서에서 확인해라)에 이르기까지 다양한 벡터화 함수를 포함하고 있다. 내장 함수는 판다스 시리즈와 데이터 프레임에서 작동하게끔 최적화되어있다. 결과적으로 벡터화 판다스 함수를 사용하는 건 비슷한 목적을 위해 손수 반복시키는 방법보다 거의 항상 바람직하다.

지금까지는 Haversine 함수에 스칼라를 전달했다. 그러나 Haversine 함수 내에서 사용하는 모든 함수를 배열 위로 작동시킬 수 있다. 이렇게 하면 거리 함수를 매우 간단하게 벡터화할 수 있다. 스칼라 값으로 각 위도, 경도를 전달하는 대신 전체 시리즈(열)를 전달한다. 이를 통해 판다스는 벡터화 함수에 적용 가능한 모든 최적화 옵션을 활용할 수 있고 특히 전체 배열에 대한 모든 계산을 동시에 수행하게 된다.

In [None]:
%%timeit
# Vectorized implementation of Haversine applied on Pandas series
df['distance'] = haversine(40.671, -73.985,\
                                   df['latitude'], df['longitude'])

1.78 ms ± 288 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


함수 벡터화를 통해 apply() 메서드 대비 50배 이상 개선시켰고 iterrows() 대비 100배 이상 개선시켰다. 입력 유형 변경하는 것 외에 아무것도 하지 않아도 됐다!

## Vectorized implementation of Haversine applied on NumPy arrays

이 지점에서 그만두어도 괜찮다. 판다스 시리즈를 사용해 벡터화하면 상시 계산을 위한 최적화 요구 사항의 거의 대부분을 만족시킬 수 있다. 그러나 속도가 최우선이라면 넘파이 파이썬 라이브러리 형식에 도움을 요청해볼 수 있다.

넘파이 라이브러리는 “과학 계산을 위한 파이썬 기본 패키지”를 표방하며 내부가 최적화된, 사전 컴파일된 C 코드로 작업을 수행한다. 판다스와 마찬가지로 넘파이는 배열 객체(ndarrays라고 함) 상에서 작동한다. 그러나 색인, 데이터 유형 확인 등과 같이 판다스 시리즈 작업으로 인한 오버헤드가 많이 발생하지 않는다. 결과적으로 넘파이 배열에 대한 작업은 판다스 시리즈에 대한 작업보다 훨씬 빠르다.

판다스 시리즈가 제공하는 추가 기능이 중요하지 않을 때 넘파이 배열을 판다스 시리즈 대신 사용할 수 있다. 예를 들어 Haversine 함수의 벡터화 구현은 실제로 위도 또는 경도 시리즈의 색인을 사용하지 않으므로 사용할 수 있는 색인이 없어도 함수가 중단되지 않는다. 이에 비해 색인으로 값을 참조해야 하는 데이터 프레임의 조인 같은 작업을 수행한다면 판다스 개체를 계속 사용하는 편이 낫다.

위도와 경도 배열을 시리즈의 values 메서드를 단순 사용해서 판다스 시리즈에서 넘파이 배열로 변환한다. 시리즈의 벡터화와 마찬가지로 넘파이 배열을 함수에 직접 전달하면 판다스가 전체 벡터에 함수를 적용시킨다.

#### Timing vectorized implementation

In [None]:
# Vectorized implementation of Haversine applied on NumPy arrays
%timeit df['distance'] = haversine(40.671, -73.985,\
                         df['latitude'].values, df['longitude'].values)

226 µs ± 48.9 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [None]:
%%timeit
# Convert pandas arrays to NumPy ndarrays
np_lat = df['latitude'].values
np_lon = df['longitude'].values

6.48 µs ± 100 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## Summary

판다스 코드 최적화에 관해 몇 가지 기본적인 결론을 내릴 수 있다.

1 . 반복을 피해라. 사용 사례 대부분의 경우 반복은 느리고 불필요하다.  
2 . 반복해야 하는 경우 반복 함수가 아닌 itertuples()를 사용해라.  
3 . 보통은 벡터화가 스칼라 연산보다 낫다. 대부분의 판다스 작업은 벡터화시킬 수 있다.  
4 . 넘파이 배열에서의 벡터 연산은 판다스 시리즈에서 수행하는 것보다 효율적이다.  

### 실습

아래의 조건을 만족하는 호텔의 List를 출력해 봅시다.


1.  현재 나는 ("latitude", "longitude") = (40.671, -73.985) 위치에 있고, 숙박할 호텔을 찾고 있습니다.
2. 직선거리 기준으로 200mile 안쪽에 있었으면 좋겠습니다.
3.  star_rating이 4 이상인 호텔을 찾고 있습니다. 

해당 조건을 만족하는 호텔들을 출력해봅시다

In [None]:
df.head()

Unnamed: 0,ean_hotel_id,name,address1,city,state_province,postal_code,latitude,longitude,star_rating,high_rate,low_rate,distance
0,269955,Hilton Garden Inn Albany/SUNY Area,1389 Washington Ave,Albany,NY,12206,42.68751,-73.81643,3.0,154.0272,124.0216,139.60719
1,113431,Courtyard by Marriott Albany Thruway,1455 Washington Avenue,Albany,NY,12206,42.68971,-73.82021,3.0,179.01,134.0,139.746898
2,108151,Radisson Hotel Albany,205 Wolf Rd,Albany,NY,12205,42.7241,-73.79822,3.0,134.17,84.16,142.19105
3,254756,Hilton Garden Inn Albany Medical Center,62 New Scotland Ave,Albany,NY,12208,42.65157,-73.77638,3.0,308.2807,228.4597,137.275546
4,198232,CrestHill Suites SUNY University Albany,1415 Washington Avenue,Albany,NY,12206,42.68873,-73.81854,3.0,169.39,89.39,139.684583


In [None]:
def haversine(lat1, lon1, lat2, lon2):
    miles_constant = 3959
    lat1, lon1, lat2, lon2 = map(np.deg2rad, [lat1, lon1, lat2, lon2])
    dlat = lat2 - lat1 
    dlon = lon2 - lon1 
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    c = 2 * np.arcsin(np.sqrt(a)) 
    mi = miles_constant * c
    return mi

In [None]:
df_corr = haversine(40.671, -73.985, )