Q21) 시간 간의 차이 계산(분), 필터링

In [4]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

In [6]:
# datetime으로 자료형 변경
df['실제도착시간']=pd.to_datetime(df['실제도착시간'])
df['예상도착시간']=pd.to_datetime(df['예상도착시간'])

In [8]:
# 지연 시간 계산(분)
df['지연시간']=(df['실제도착시간']-df['예상도착시간']).dt.total_seconds()/60

In [10]:
# 조건1 - 예상 도착 시간보다 늦게 도착한 건
cond1 = df['지연시간']>0

# 조건2 - 거리가 7 이상인 건
cond2 = df['거리']>=7

In [14]:
# 조건에 맞는 데이터(행) 수 출력
print(len(df[cond1 & cond2]))

311


Q22) 시간 간의 차이 계산(분), 그룹핑

In [17]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

In [21]:
# datetime으로 자료형 변경
df['실제도착시간']=pd.to_datetime(df['실제도착시간'])
df['주문시간']=pd.to_datetime(df['주문시간'])

In [23]:
# 실제 도착 시간과 주문 시간 차이 계산(분)
df['diff'] = (df['실제도착시간'] - df['주문시간']).dt.total_seconds()/60

In [25]:
# 앱 종류별 도착 시간과 주문 시간 차이의 평균 계산
df = df.groupby('앱종류')['diff'].mean()

In [27]:
# 가장 적은 시간(분) 반올림 후 출력
print(round(df.min()))

62


Q23) 시간 간의 차이 계산(분), 비율

In [30]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

In [32]:
# datetime 자료형으로 변경
df['실제도착시간']=pd.to_datetime(df['실제도착시간'])
df['예상도착시간']=pd.to_datetime(df['예상도착시간'])

In [38]:
# 지연 시간 계산(분)
df['지연시간'] = (df['실제도착시간'] - df['예상도착시간']).dt.total_seconds() / 60  # 분 단위로 계산

In [40]:
# 실제 도착 시간이 예상 도착 시간보다 늦은 경우를 체크하는 컬럼 생성
df['지연여부'] = df['지연시간'] > 0

In [42]:
# 결제 종류별 지연된 주문 수의 비율 계산
result = df.groupby('결제종류')['지연여부'].mean()

In [46]:
result

결제종류
앱결제    0.556634
카드     0.489971
현금     0.488304
Name: 지연여부, dtype: float64

In [44]:
# 가장 비율이 높은 값
print(round(result.max(), 2))

0.56


Q24) 그룹핑, 값 찾기, 필터링

In [49]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

In [51]:
# 사용자별로 주문 거리의 합계와 평균 계산
df_distance = df.groupby('user')['거리'].sum()

In [53]:
# 주문 거리의 합계가 50km 이상인 사용자만 필터링
cond = df_distance >= 50
df_distance = df_distance[cond]

In [55]:
# 주문 거리의 합계가 50km 이상인 사용자들의 데이터 필터링
filtered_data = df[df['user'].isin(df_distance.index)]
filtered_data

Unnamed: 0,주문시간,실제도착시간,예상도착시간,앱종류,거리,결제종류,user
1,2022-11-07 10:21:54,2022-11-07 10:44:04,2022-11-07 10:50:15,배고팡,5.19,카드,user_360
4,2023-08-11 09:58:27,2023-08-11 11:27:57,2023-08-11 10:51:57,여기여,14.96,카드,user_176
5,2022-11-27 15:13:52,2022-11-27 16:47:32,2022-11-27 16:41:28,배달왕,14.85,앱결제,user_204
15,2022-12-23 01:48:35,2022-12-23 02:47:01,2022-12-23 02:52:36,배고팡,5.35,현금,user_497
17,2022-10-04 01:48:33,2022-10-04 02:54:07,2022-10-04 02:47:42,배고팡,8.99,카드,user_398
...,...,...,...,...,...,...,...
959,2023-01-25 02:39:41,2023-01-25 04:10:54,2023-01-25 03:27:17,배달왕,10.29,앱결제,user_157
974,2022-12-17 15:29:28,2022-12-17 16:21:01,2022-12-17 16:31:10,배달왕,15.52,현금,user_383
981,2023-03-08 10:51:00,2023-03-08 12:29:03,2023-03-08 11:54:56,배고팡,17.21,현금,user_311
984,2023-06-23 21:07:25,2023-06-23 22:21:26,2023-06-23 22:44:11,배달왕,10.30,카드,user_369


In [59]:
# 해당 사용자들의 선호 결제 방식 중 큰 값
payment_method = filtered_data['결제종류'].value_counts()
print(payment_method.iloc[0])

48


Q25) 시간 간의 차이 계산(일)

In [62]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

In [64]:
# 각 사용자별로 첫 주문과 마지막 주문 사이의 시간 간격(일 단위)을 계산
df['주문시간']=pd.to_datetime(df['주문시간'])
min_order_time = df.groupby('user')['주문시간'].min()
max_order_time = df.groupby('user')['주문시간'].max()
time_interval = (max_order_time - min_order_time).dt.days

In [70]:
# 1일 미만 주문 제외
cond1 = time_interval > 0
m = time_interval[cond1].mean()

In [72]:
# 평균보다 기간이 긴 유저 수
cond2 = time_interval > m
print(len(time_interval[cond2]))

146


Q26) 날짜와 시간 정보 변환, 비율

In [75]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

In [79]:
# 주문이 가장 많이 발생한 연-월 찾기
df['주문시간'] = pd.to_datetime(df['주문시간'])
df['주문월'] = df['주문시간'].dt.to_period('M')
year_month = df['주문월'].value_counts().idxmax()
year_month

Period('2022-09', 'M')

In [81]:
# 해당 연-월에 배고팡 앱을 통한 주문 중 '앱 결제'로 결제된 주문의 비율 계산
cond1 = df['주문월']==year_month
cond2 = df['앱종류']=='배고팡'
filtered_df = df[cond1 & cond2]
cond3 = filtered_df['결제종류']=='앱결제'
result = len(filtered_df[cond3])/len(filtered_df)
print(round(result, 2))

0.31


Q27) 시간 범위, 속도(km/h)

In [84]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# datetime 자료형으로 변경
df['주문시간'] = pd.to_datetime(df['주문시간'])
df['실제도착시간'] = pd.to_datetime(df['실제도착시간'])

In [86]:
# 점심시간 주문 선택
df['시간']=df['주문시간'].dt.hour
cond1 = df['시간']>=10
cond2 = df['시간']<13
df = df[cond1 & cond2]

# 속도 (km/h) = 거리(km) / 시간(h)
df['배달시간'] = df['실제도착시간'] - df['주문시간']
df['배달시간'] = df['배달시간'].dt.total_seconds()/60/60  # 시간 단위로 변경
df['속도'] = df['거리'] / df['배달시간']
sum(df['속도']>=50)

1

Q28) 날짜와 시간, 문자열

In [89]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

In [91]:
# 주문 연월 추출(연도-월)
df['주문시간']=pd.to_datetime(df['주문시간'])
df['주문월']=df['주문시간'].dt.to_period('M')

In [93]:
# 주문 월을 기준으로 빈도 수(주문 횟수) 계산
count_month = df.groupby('주문월').size()

In [95]:
# 주문 횟수가 가장 많은 월의 인덱스 추출
year_month = count_month.idxmax()

In [97]:
# 문자열로 변경 및 하이픈(-) 제거
year_month = str(year_month)
result = year_month.replace("-", "")
print(result)

202209


Q29) 함수, 월별 집계

In [108]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

In [110]:
# 배달료 계산 함수 정의
def delivery_fee(distance):
    if distance<5:
        return 2000
    elif distance<10:
        return 4000
    elif distance<15:
        return 6000
    elif distance<20:
        return 8000

In [112]:
# 각 주문에 대한 배달료 계산
df['배달료']=df['거리'].apply(delivery_fee)

In [118]:
# 월별로 배달료의 총집합 집계
df['주문시간']=pd.to_datetime(df['주문시간'])
period_M = df['주문시간'].dt.to_period('M')
monthly = df.groupby(period_M)['배달료'].sum()

In [120]:
# 가장 많은 배달료가 발생한 월과 그 월의 총 배달료 찾기
max_fee_month = monthly.idxmax()
max_fee_value = monthly[max_fee_month]
max_fee_value

448000

Q30) 주말, 평일 구분

In [123]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")
df['주문시간']=pd.to_datetime(df['주문시간'])

In [125]:
# 주말/평일 구분 0:월, 1:화 ~ 5:토, 6:일
df['dayofweek'] = df['주문시간'].dt.dayofweek
df['주말']=df['dayofweek']>=5

In [127]:
# 주말 개수, 평일 개수 계산
weekend = sum(df['주말'])
weekday = sum(~df['주말'])

In [129]:
# 차이 절댓값 출력
print(abs(weekend - weekday))

412
