[구글 코랩(Colab)에서 실행하기](https://colab.research.google.com/github/lovedlim/bigdata_analyst_cert_v2/blob/main/part1/ch3/ch3_ex_type1.ipynb)

- [안내] FutureWarning은 무시해도 됨

In [124]:
# 흔히 발생하는 FutureWarning
# df['views'].fillna(min, inplace=True)  # 변경 전 (경고 발생 가능)
# df['views'] = df['views'].fillna(min)  # 변경 후 (권장 방식)

### 🍊 Section1. 필터링, 최솟값, 중앙값
#### ☑️ <span style='background-color: #fff5b1'>.fillna() 사용 시 주의사항</span>
- inplace=True는 버전 충돌로 인한 경고 우려가 있으니, 변수에 직접 할당해주는 방식 활용하기!

In [13]:
import pandas as pd
df = pd.read_csv('type1_data1.csv')

# 1) 'f5' 컬럼이 0이 아닌 데이터(행) 구하기
cond = df['f5'] != 0
df = df[cond]

# 2) 'views' 컬럼 결측치를 'views' 컬럼의 최솟값으로 채우기
v_min = df['views'].min()
df['views'] = df['views'].fillna(v_min)

# 3) 'views' 컬럼의 중앙값을 계산해 정수로 구하기
print(int(df['views'].median()))

5924


### 🍊 Section2. 카테고리, 인덱스, 문자열 슬라이싱
#### ☑️ <span style='background-color: #fff5b1'>.index 개념 설명</span>
<img src="images/q1.png" width="550"/>

In [46]:
import pandas as pd
df = pd.read_csv('type1_data1.csv')

# SOL 1) .mode() 활용

# 1) 'subscribed' 컬럼에서 가장 빈도수가 많은 날짜 구하기
max_date = df['subscribed'].mode()[0]

# 2) 앞서 구한 날짜의 일(day) 값을 정수로 구하기
print(int(max_date.strip()[-2:]))

# ----------------------

# SOL 2) .value_counts() 활용
df = df['subscribed'].value_counts()
print(int(df.index[0][-2:]))

17
17


### 🥦 Section3. 파생변수, 정렬, 인덱싱

In [83]:
import pandas as pd
df = pd.read_csv("type1_data1.csv")

# SOL 1) .max()로 최댓값 구해서 조건 설정 -> .loc[]
df = df.dropna()
df['new'] = df['views']/df['f1']
cond = df['new'] == df['new'].max()
print(int(df[cond].loc[:, 'age'].values[0]))

# ----------------------

# SOL 2) .sort_values()로 내림차순 정렬 -> .iloc[]
df = df.sort_values('new', ascending=False)
print(int(df.iloc[0, 1]))

22
22


### 🍊 Section4. 값 변경, 정렬, 합계
#### ☑️ <span style='background-color: #fff5b1'>df['views'] vs df.loc[:,'views']</span>
<img src="images/q2.png" width="550"/>

- **loc[행, 열]** 사용 시 **조건 대입** 가능!

In [107]:
import pandas as pd

# SOL 1) sort_values()
df = pd.read_csv("type1_data1.csv")
df['views'] = df['views'].fillna(0)

df = df.sort_values('views', ascending=False)
value_10 = df.iloc[9]['views']
df.iloc[:10, -1] = value_10
print(int(df['views'].sum()))

# ----------------------

# SOL 2) nlargest()
df = pd.read_csv("type1_data1.csv")
df['views'] = df['views'].fillna(0)

value_10 = df['views'].nlargest(10).iloc[-1]
df.loc[df['views'] > value_10, 'views'] = value_10
print(int(df['views'].sum()))

652812
652812


### 🍊 Section5. 문자열 슬라이싱, 파생변수, 평균값
- 데이터프레임의 특정 값을 문자열 슬라이싱하기 위해서는 우선 문자열로 변경한다 => **df['f4'].str[범위]**

#### ☑️ <span style='background-color: #fff5b1'>str.contains()</span>
- str.contains()는 Pandas의 문자열 처리 함수
- **특정 문자열이 포함**되어 있는지 여부를 판별해 **True/False**로 반환

In [125]:
import pandas as pd

# SOL 1) 문자열 변경 후 슬라이싱
df = pd.read_csv("type1_data1.csv")
cond_FJ = df['f4'].str[2:] == 'FJ'
df = df[cond_FJ]
print(round(df['f2'].mean(), 2))

# ----------------------

# SOL 2) str.contains()로 특정 문자 찾기
df = pd.read_csv("type1_data1.csv")
cond = df['f4'].str.contains('FJ')
df = df[cond]
print(round(df['f2'].mean(), 2))

0.61
0.61


### 🥦 Section6. 필터링, 분산

In [133]:
import pandas as pd
df = pd.read_csv("type1_data1.csv")

cond = (df['f3'] == 'gold') & (df['f2'] == 2)
result = df[cond]['f1'].var()
print(round(result, 2))

235.43


### 🥦 Section7. 값 변경(연산), 필터링 절댓값

In [138]:
import pandas as pd
df = pd.read_csv("type1_data1.csv")

df['age'] = df['age']+1

cond_1 = (df['age'] >= 20) & (df['age'] < 30)
mean_1 = df[cond_1]['views'].mean()
cond_2 = (df['age'] >= 30) & (df['age'] < 40)
mean_2 = df[cond_2]['views'].mean()

print(round(abs(mean_1 - mean_2), 2))

263.13


### 🥦 Section8. 시계열 데이터, 필터링, 데이터 개수

In [152]:
import pandas as pd

# SOL 1) 문자열로 처리
df = pd.read_csv("type1_data1.csv")
cond = df['subscribed'].str.contains('2024-02')
df = df[cond]
print(sum(df['f3'] == 'gold'))

# ----------------------

# SOL 2) datetime으로 자료형 변환해서 처리
df = pd.read_csv("type1_data1.csv")
df['subscribed'] = pd.to_datetime(df['subscribed'], format = '%Y-%m-%d')

# 파생변수 생성 (년, 월)
df['year'] = df['subscribed'].dt.year
df['month'] = df['subscribed'].dt.month

# 2024년 2월이고, 'f3'이 gold인 데이터
cond1 = df['year'] == 2024
cond2 = df['month'] == 2
cond3 = df['f3'] == 'gold'

print(len(df[cond1 & cond2 & cond3]))

5
5


### 🍊 Section9. 필터링, 카테고리, 최빈값
- **df['f4'].value_counts()**: Series를 반환하며, f4 컬럼의 고유값(ex. ENTJ 등)이 인덱스로 설정된다.
- .value_counts()는 기본적으로 **내림차순** 정렬 => 첫 번째 행이 최빈값

In [166]:
import pandas as pd

# SOL 1) .mode() 활용
df = pd.read_csv("type1_data1.csv")
cond = df['views'] <= 1000
df = df[cond]
print(df['f4'].mode()[0])

# ----------------------

# SOL 2) .value_counts() 활용
df = pd.read_csv("type1_data1.csv")
cond = df['views'] <= 1000
df = df[cond]
df = df['f4'].value_counts()
print(df.index[0])

ISFJ
ISFJ


### 🥦 Section10. 그룹핑, 최댓값, 정렬

In [181]:
import pandas as pd

# SOL 1) sort_values()로 내림차순 정렬 후 인덱스 값(city) 출력
df = pd.read_csv("type1_data1.csv")
df = df.dropna()
df = df.groupby(['city']).mean(numeric_only=True)
print(df.sort_values('f2', ascending=False).index[0])

# ----------------------

# SOL 2) idxmax(): 최댓값의 인덱스 반환
df = pd.read_csv("type1_data1.csv")
df = df.dropna()
df = df.groupby('city').mean(numeric_only=True)
print(df['f2'].idxmax())

서울
서울


### 🥦 Section11. 슬라이싱, 사분위수, 결측치 제거

In [17]:
import pandas as pd
df = pd.read_csv('type1_data1.csv')

# 결측치 있는 데이터 행 제거
df = df.dropna()

# 70% 데이터 슬라이싱
end = int(len(df)*0.7)
df = df.iloc[:end]

# 'views' 컬럼의 3사분위수에서 1사분위수를 뺀 값을 정수로 구하기
q3 = df['views'].quantile(.75)
q1 = df['views'].quantile(.25)
print(int(q3-q1))

2771


### 🍊 Section12. 결측치 처리, 최빈값, 데이터 개수

#### ☑️ <span style='background-color: #fff5b1'>df.dropna()</span>
<img src="images/q3.png" width="500"/>

In [41]:
# SOL 1) 결측치가 가장 많은 컬럼 수동으로 확인

import pandas as pd
df = pd.read_csv("type1_data1.csv")

# 결측치가 가장 많은 두 컬럼 찾기 => f1, f3
df.isnull().sum()

# 첫번째로 결측치가 많은 컬럼에서 결측치가 있는 행 제거
df = df.dropna(subset=['f1'])

# 두번째로 결측치가 많은 컬럼을 최빈값으로 대체
freq = df['f3'].mode()[0]
df['f3'] = df['f3'].fillna(freq)

# 'f3'컬럼의 'gold'값을 가진 데이터의 수를 정수형으로 구하기
print(len(df[df['f3']=='gold']))
print(sum(df['f3']=='gold'))

63
63


In [94]:
# SOL 2) 결측치가 가장 많은 컬럼 idxmax()로 구하기

import pandas as pd
df = pd.read_csv("type1_data1.csv")

# 결측치가 가장 많은 컬럼
col = df.isnull().sum().idxmax()

# 결측치가 가장 많은 컬럼 제거
df = df.dropna(subset=[col])

# 두번째로 가장 결측치가 많은 컬럼 최빈값 대체
freq = df['f3'].mode()[0]
df['f3'] = df['f3'].fillna(freq)

# f3컬럼이 gold인 데이터의 수
print(len(df[df['f3'] == 'gold']))

63


### 🥦 Section13. 결측 데이터 찾기, 필터링, 평균값

In [49]:
import pandas as pd
df = pd.read_csv("type1_data1.csv")

cond = df['f1'].isnull()
df = df[cond]
print(round(df['age'].mean(), 1))

53.6


### 🍊 Section14. 중복 데이터 제거, 값 변경, 데이터 개수

#### ☑️ <span style='background-color: #fff5b1'>df.drop_duplicates() / df.duplicated()</span>
<img src="images/q4.png" width="550"/>

In [93]:
# SOL 1) replace()로 결측값 대체

import pandas as pd
import numpy as np
df = pd.read_csv("type1_data1.csv")

# 중복 데이터 제거
df = df.drop_duplicates()

# 결측값 대체
df['f3'] = df['f3'].replace(np.nan, 0).replace('silver', 1).replace('gold', 2).replace('vip', 3)

# 변환된 'f3' 컬럼의 총합을 정수형으로 구하기
print(int(df['f3'].sum()))

167


  df['f3'] = df['f3'].replace(np.nan, 0).replace('silver', 1).replace('gold', 2).replace('vip', 3)


In [67]:
import pandas as pd
df = pd.read_csv("type1_data1.csv")

# 중복된 열 확인
df[df.duplicated(keep=False)]

Unnamed: 0,id,age,city,f1,f2,f3,f4,f5,subscribed,views
10,id100,47.0,경기,53.0,0,vip,ESFP,33.308999,2024-02-21,15535.0
68,id68,35.0,경기,45.0,2,gold,ISFP,67.886373,2024-07-29,8599.0
100,id100,47.0,경기,53.0,0,vip,ESFP,33.308999,2024-02-21,15535.0
101,id68,35.0,경기,45.0,2,gold,ISFP,67.886373,2024-07-29,8599.0


In [79]:
# SOL 2) 등급별 개수 세서 조건에 제시된 값 곱하는 방식 

import pandas as pd
df = pd.read_csv("type1_data1.csv")

# 중복데이터 제거
df.drop_duplicates(inplace=True)

# 계산
r1 = sum(df['f3'] == 'silver') * 1
r2 = sum(df['f3'] == 'gold') * 2
r3 = sum(df['f3'] == 'vip') * 3
print(r1 + r2 + r3)

167


In [106]:
# SOL 3) replace() 대신 '딕셔너리 + map()' 활용 => BEST !!!

import pandas as pd
import numpy as np
df = pd.read_csv("type1_data1.csv")

# 중복 데이터 제거
df = df.drop_duplicates()

# 결측값 대체
dict_list = {np.nan: 0, 'silver': 1, 'gold': 2, 'vip': 3}
df['f3'] = df['f3'].map(dict_list)

# 변환된 'f3' 컬럼의 총합을 정수형으로 구하기
print(int(df['f3'].sum()))

167


In [113]:
# SOL 4) replace()에 딕셔너리 넣으면 FutureWarning (타입 변환 문제)

import pandas as pd
import numpy as np
df = pd.read_csv("type1_data1.csv")

# 중복 데이터 제거
df = df.drop_duplicates()

# 결측값 대체
dict_list = {np.nan: 0, 'silver': 1, 'gold': 2, 'vip': 3}
df['f3'] = df['f3'].replace(dict_list)

# 변환된 'f3' 컬럼의 총합을 정수형으로 구하기
print(int(df['f3'].sum()))

167


  df['f3'] = df['f3'].replace(dict_list)


### 🍊 Section15. 컬럼 삭제, 행 단위 합계, 필터링

#### ☑️ <span style='background-color: #fff5b1'>df.select_dtypes()</span>
<img src="images/q5.png" width="500"/>

In [132]:
# SOL 1) sum(axis=1): 행 기준으로 합 계산

import pandas as pd
df = pd.read_csv("type1_data1.csv")

# 문자 자료형 컬럼 삭제
cols = df.select_dtypes(exclude='object').columns
df = df[cols]

# 결측치 0으로 대체
df = df.fillna(0)

print(len(df[df.sum(axis=1) > 3000]))
print(sum(df.sum(axis=1) > 3000))

88
88


In [135]:
# SOL 2) 행과 열 transpose 후 sum() 계산

import pandas as pd
df = pd.read_csv("type1_data1.csv")

# 문자 자료형 컬럼 삭제
cols = df.select_dtypes(exclude='object').columns
df = df[cols]

# 결측치 0으로 대체
df = df.fillna(0)

df = df.T
print(sum(df.sum() > 3000))

88


### 🥦 Section16. 이상치, IQR

In [143]:
import pandas as pd
df = pd.read_csv("type1_data1.csv")

# 이상치 기준 구하기 (low, high)
q1 = df['views'].quantile(.25)
q3 = df['views'].quantile(.75)
IQR = q3-q1
low, high = q1-1.5*IQR, q3+1.5*IQR

# 이상치 조건에 맞는 데이터 찾기
cond1 = df['views']>high
cond2 = df['views']<low
df = df[cond1 | cond2]

# 이상치 데이터의 views 컬럼 합 정수로 구하기
print(int(df['views'].sum()))

77699


### 🥦 Section17. 이상치, 소수점 있는 데이터 찾기, 표준편차

In [156]:
import pandas as pd
df = pd.read_csv("type1_data1.csv")

# 이상치 제거 전 표준편차
std1 = df['views'].std()

# 이상치 제거 후 표준편차
cond1 = df['age'] <= 0
cond2 = df['age'] != df['age'].map(int) # 소수점 존재
df = df[~cond1 & ~cond2]
std2 = df['views'].std()

# 이상치 제거 전후 'views' 표준편차 더해서 소수 둘째자리까지 반올림
print(round(std1+std2, 2))

8297.31


### 🥦 Section18. 데이터(행) 기준 평균값, 인덱싱

In [167]:
# SOL 1) 인덱스(행) 기준 계산

import pandas as pd
df = pd.read_csv("type1_data2.csv", index_col="year")

# index '2001' 데이터에서 평균보다 큰 값의 개수
m1 = df.loc[2001].mean()
cnt1 = sum(df.loc[2001] > m1)

# index '2003' 데이터에서 평균보다 작은 값의 개수
m2 = df.loc[2003].mean()
cnt2 = sum(df.loc[2003] < m2)

# 두 개수의 합
print(cnt1+cnt2)

202


In [170]:
# SOL 2) transpose 후 열 기준 계산

import pandas as pd
df = pd.read_csv("type1_data2.csv", index_col="year")
df = df.T

# index '2001' 데이터에서 평균보다 큰 값의 개수
m1 = df[2001].mean()
r1 = sum(df[2001] > m1)

# index '2003' 데이터에서 평균보다 작은 값의 개수
m2 = df[2003].mean()
r2 = sum(df[2003] < m2)

print(r1+r2)

202


### 🍊 Section19. 결측치(뒤의 값으로 대체), 그룹합

#### ☑️ <span style='background-color: #fff5b1'>df.fillna() / df.bfill() / df.ffill()</span>
<img src="images/q6.png" width="550"/>

In [187]:
import pandas as pd
df = pd.read_csv("type1_data1.csv")

# 결측치 바로 뒤의 값으로 대체
df = df.bfill()

# 'city'와 'f2' 기준 그룹합 계산
df = df.groupby(['city', 'f2']).sum(numeric_only=True).reset_index()

# 'views' 값이 세 번째로 큰 city 출력
df = df.sort_values(by='views', ascending=False)
print(df.iloc[2]['city'])

경기


### 🍊 Section20. 시계열 데이터, 월별 집계, 인덱스

#### ☑️ <span style='background-color: #fff5b1'>pd.to_datetime()</span>
<img src="images/q7.png" width="570"/>

In [208]:
import pandas as pd
df = pd.read_csv("type1_data1.csv")

# 연도 구분 없이 월별로 숫자형 컬럼의 합 구하기
df['subscribed'] = pd.to_datetime(df['subscribed'])
df['month'] = df['subscribed'].dt.month
df = df.groupby(['month']).sum(numeric_only=True)

# 합계 중 'views'가 가장 작은 값을 가진 월을 정수로 구하기
df = df.sort_values(by='views')
print(int(df.index[0]))

11


### 🍊 Section21. 시간 간의 차이 계산(분), 필터링

#### ☑️ <span style='background-color: #fff5b1'>.dt.total_seconds() / .dt.days / .dt.seconds / .dt.components</span>
<img src="images/q8.png" width="575"/>

In [221]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# datetime으로 자료형 변경
df['실제도착시간'] = pd.to_datetime(df['실제도착시간'])
df['예상도착시간'] = pd.to_datetime(df['예상도착시간'])

# 지연시간 계산 (분)
df['지연시간'] = (df['실제도착시간']-df['예상도착시간']).dt.total_seconds()/60

# 조건 1: 예상 도착 시간보다 늦게 도착한 건
cond1 = df['지연시간'] > 0

# 조건 2: 이 중 거리가 7km 이상인 건
cond2 = df['거리'] >= 7

print(len(df[cond1 & cond2]))
df

311


Unnamed: 0,주문시간,실제도착시간,예상도착시간,앱종류,거리,결제종류,user,지연시간
0,2023-07-26 08:05:49,2023-07-26 09:14:06,2023-07-26 08:39:42,여기여,1.93,카드,user_275,34.400000
1,2022-11-07 10:21:54,2022-11-07 10:44:04,2022-11-07 10:50:15,배고팡,5.19,카드,user_360,-6.183333
2,2023-04-18 05:00:57,2023-04-18 06:12:46,2023-04-18 05:32:53,배고팡,13.85,카드,user_36,39.883333
3,2023-08-18 10:46:28,2023-08-18 11:16:25,2023-08-18 11:08:33,배고팡,10.90,앱결제,user_65,7.866667
4,2023-08-11 09:58:27,2023-08-11 11:27:57,2023-08-11 10:51:57,여기여,14.96,카드,user_176,36.000000
...,...,...,...,...,...,...,...,...
995,2022-10-10 03:13:30,2022-10-10 04:13:48,2022-10-10 04:15:37,배고팡,1.79,현금,user_186,-1.816667
996,2023-02-03 12:47:19,2023-02-03 13:11:46,2023-02-03 13:12:57,배고팡,15.55,카드,user_239,-1.183333
997,2023-01-05 21:28:58,2023-01-05 21:57:41,2023-01-05 21:57:44,배고팡,8.33,현금,user_264,-0.050000
998,2023-06-15 03:56:42,2023-06-15 04:14:24,2023-06-15 04:18:38,여기여,8.20,앱결제,user_229,-4.233333


### 🥦 Section22. 시간 간의 차이 계산(분), 그룹핑

In [243]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# 도착소요시간 분단위 계산: 실제도착시간 - 주문시간
df['실제도착시간'] = pd.to_datetime(df['실제도착시간'])
df['주문시간'] = pd.to_datetime(df['주문시간'])
df['도착소요시간'] = (df['실제도착시간']-df['주문시간']).dt.total_seconds()/60

# 앱 종류별 평균 도착소요시간 계산
df = df.groupby(['앱종류'])['도착소요시간'].mean()

# 평균적으로 가장 빠른 앱의 평균 도착 시간을 분으로 반올림하여 정수로 구하기
print(round(df.min()))

62


### 🍊 Section23. 시간 간의 차이 계산(분), 비율

In [257]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# 각 결제 종류별로 실제도착시간이 예상도착시간보다 늦은 주문의 비율 계산
df['실제도착시간'] = pd.to_datetime(df['실제도착시간'])
df['예상도착시간'] = pd.to_datetime(df['예상도착시간'])
df['지연시간'] = (df['실제도착시간'] - df['예상도착시간']).dt.total_seconds()/60
df['지연여부'] = df['지연시간'] > 0
result = df.groupby(['결제종류'])['지연여부'].mean()
result

# 비율 중 가장 큰 값을 반올림해서 소수 둘째 자리까지 구하기
print(round(result.max(), 2))

0.56


### 🍊 Section24. 그룹핑, 값 찾기, 필터링

#### ☑️ <span style='background-color: #fff5b1'>.isin()</span>
<img src="images/q9.png" width="430"/>

In [273]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# 사용자별 주문 거리의 합계가 50km 이상인 사람들의 결제 방식 구하기

## 주문 거리 합계 50km 이상인 user 정보만 담은 series 생성
df_distance = df.groupby(['user'])['거리'].sum()
cond = df_distance >= 50
df_distance = df_distance[cond]

# df에서 조건 충족하는 user만 필터링
filtered_data = df[df['user'].isin(df_distance.index)]

# 이 결제 방식 중 가장 빈도가 높은 수 구하기
payment = filtered_data['결제종류'].value_counts()
print(payment.iloc[0])

48


### 🍊 Section25. 시간 간의 차이 계산(일)

#### ☑️ <span style='background-color: #fff5b1'>.assign() / .transform() / .agg() / .apply()</span>
<img src="images/q10.png" width="575"/>

In [280]:
# SOL 1)

import pandas as pd
df = pd.read_csv("delivery_time.csv")

# 각 사용자별로 첫 주문과 마지막 주문 사이의 시간 간격을 일 단위로 계산
df['주문시간'] = pd.to_datetime(df['주문시간'])
min_order_time = df.groupby('user')['주문시간'].min()
max_order_time = df.groupby('user')['주문시간'].max()
time_interval = (max_order_time - min_order_time).dt.days

# 시간차가 0일인 사용자를 제외하고, 나머지 사용자들의 평균 시간 간격(일 단위) 계산
cond1 = time_interval > 0
m = time_interval[cond1].mean()

# 평균 시간 간격보다 긴 시간 간격을 가진 사용자의 수를 정수로 구하기
cond2 = time_interval > m
print(len(time_interval[cond2]))

146


In [287]:
# SOL 2)

import pandas as pd

df = pd.read_csv("delivery_time.csv")
df['주문시간'] = pd.to_datetime(df['주문시간'])

# 사용자별 최초, 최종 주문시간을 원본 df에 추가
df = df.assign(
    first_order=df.groupby('user')['주문시간'].transform('min'),
    last_order=df.groupby('user')['주문시간'].transform('max')
)

# 시간차 계산 (일 단위)
df['interval_days'] = (df['last_order'] - df['first_order']).dt.days

# 사용자별 시간차는 모두 동일하므로 drop_duplicates로 중복 제거
user_intervals = df[['user', 'interval_days']].drop_duplicates()

# 시간차가 0일 초과인 사용자들만 추려 평균 계산
valid_users = user_intervals[user_intervals['interval_days'] > 0]
avg_days = valid_users['interval_days'].mean()

# 평균보다 큰 사용자 수 계산
count = (valid_users['interval_days'] > avg_days).sum()
print(int(count))
df

146


Unnamed: 0,주문시간,실제도착시간,예상도착시간,앱종류,거리,결제종류,user,first_order,last_order,interval_days
0,2023-07-26 08:05:49,2023-07-26 09:14:06,2023-07-26 08:39:42,여기여,1.93,카드,user_275,2023-01-21 06:15:58,2023-07-26 08:05:49,186
1,2022-11-07 10:21:54,2022-11-07 10:44:04,2022-11-07 10:50:15,배고팡,5.19,카드,user_360,2022-09-11 20:57:37,2023-07-19 21:44:01,311
2,2023-04-18 05:00:57,2023-04-18 06:12:46,2023-04-18 05:32:53,배고팡,13.85,카드,user_36,2023-03-30 03:50:31,2023-06-03 00:40:53,64
3,2023-08-18 10:46:28,2023-08-18 11:16:25,2023-08-18 11:08:33,배고팡,10.90,앱결제,user_65,2023-08-18 10:46:28,2023-08-18 10:46:28,0
4,2023-08-11 09:58:27,2023-08-11 11:27:57,2023-08-11 10:51:57,여기여,14.96,카드,user_176,2022-09-10 03:10:01,2023-08-11 09:58:27,335
...,...,...,...,...,...,...,...,...,...,...
995,2022-10-10 03:13:30,2022-10-10 04:13:48,2022-10-10 04:15:37,배고팡,1.79,현금,user_186,2022-10-10 03:13:30,2023-07-02 08:17:08,265
996,2023-02-03 12:47:19,2023-02-03 13:11:46,2023-02-03 13:12:57,배고팡,15.55,카드,user_239,2023-02-03 12:47:19,2023-03-04 04:45:27,28
997,2023-01-05 21:28:58,2023-01-05 21:57:41,2023-01-05 21:57:44,배고팡,8.33,현금,user_264,2022-10-31 18:31:05,2023-04-27 05:55:39,177
998,2023-06-15 03:56:42,2023-06-15 04:14:24,2023-06-15 04:18:38,여기여,8.20,앱결제,user_229,2023-06-15 03:56:42,2023-06-15 03:56:42,0


### 🍊 Section26. 날짜와 시간 정보 변환, 비율

#### ☑️ <span style='background-color: #fff5b1'>.dt / .dt.to_period() / .idxmax()</span>
<img src="images/q11.png" width="575"/>

In [304]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# 주문이 가장 많이 발생한 연-월 찾기
df['주문시간'] = pd.to_datetime(df['주문시간'])
df['주문월'] = df['주문시간'].dt.to_period('M')
year_month = df['주문월'].value_counts().idxmax()
year_month

# 해당 연-월에 배고팡 앱을 통한 주문 중, '앱결제'로 결제된 주문의 비율 계산 (반올림, 소수 둘째자리까지)
cond1 = df['주문월'] == year_month
cond2 = df['앱종류'] == '배고팡'
filtered_df = df[cond1 & cond2]

cond3 = filtered_df['결제종류'] == '앱결제'
result = len(filtered_df[cond3])/len(filtered_df)
print(round(result, 2))

0.31


### 🥦 Section27. 시간 범위, 속도(km/h)

In [319]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# datetime 자료형으로 변경
df['주문시간'] = pd.to_datetime(df['주문시간'])
df['실제도착시간'] = pd.to_datetime(df['실제도착시간'])

# 점심시간 주문 선택 (10<=점심시간<13)
df['시간'] = df['주문시간'].dt.hour
cond1 = df['시간'] >= 10
cond2 = df['시간'] < 13
df = df[cond1 & cond2]

# 점심시간 주문 건 중 과속(평균 속도 50km/h 이상)하는 주문 수
df['배달시간'] = df['실제도착시간']-df['주문시간']
df['배달시간'] = df['배달시간'].dt.total_seconds()/60/60 # 초 -> 시간 단위 변경
df['속도'] = df['거리']/df['배달시간']
print(sum(df['속도']>=50))

1


### 🍊 Section28. 날짜와 시간, 문자열

#### ☑️ <span style='background-color: #fff5b1'>df.groupby('열이름').size() / Series.value_counts()</span>
<img src="images/q12.png" width="500"/>

In [330]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# 주문월을 기준으로 빈도 수(주문 횟수) 계산
df['주문시간'] = pd.to_datetime(df['주문시간'])
df['주문월'] = df['주문시간'].dt.to_period('M')
count_month = df.groupby('주문월').size()
count_month

# 주문 횟수가 가장 많은 월의 인덱스 추출
year_month = count_month.idxmax()

# 문자열로 변경 및 하이픈(-) 제거
year_month = str(year_month)
result = year_month.replace('-', '')
print(result)

202209


### 🥦 Section29. 함수, 월별 집계

In [343]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# 배달료 계산 함수 정의
def delivery_fee(distance):
    if distance < 5:
        return 2000
    elif distance < 10:
        return 4000
    elif distance < 15:
        return 6000
    elif distance < 20:
        return 8000

# 각 주문에 대한 배달료 계산
df['배달료'] = df['거리'].apply(delivery_fee)

# 월별 배달료 총합 집계
df['주문시간'] = pd.to_datetime(df['주문시간'])
df['연도월'] = df['주문시간'].dt.to_period('M')
monthly = df.groupby('연도월')['배달료'].sum()

# 배달료가 가장 많이 발생한 월 찾고, 그 월의 총 배달료 정수로 구하기
max_fee_month = monthly.idxmax()
max_fee_value = monthly[max_fee_month]
print(max_fee_value)

448000


### 🍊 Section30. 주말, 평일 구분

#### ☑️ <span style='background-color: #fff5b1'>자주 쓰이는 .dt 속성 모음</span>
<img src="images/q13.png" width="520"/>

In [355]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# 주말 주문 건수, 평일 주문 건수의 차이를 절댓값으로 구하기
# 주말/평일 구분 - 0:월, 1~4:화~금, 5:토, 6:일
df['주문시간'] = pd.to_datetime(df['주문시간'])
df['dayofweek'] = df['주문시간'].dt.dayofweek
df['주말'] = df['dayofweek'] >= 5

# 주말 개수, 평일 개수 계산
weekend = sum(df['주말'])
weekday = sum(~df['주말'])

# 차이 절대값
print(abs(weekend-weekday))

412


### 🍊 Section31. 문자열, 형 변환

#### ☑️ <span style='background-color: #fff5b1'>df.nlargest() / df.sort_values() / .quantile()</span>
<img src="images/q14.png" width="550"/>
<img src="images/q15.png" width="550"/>

In [359]:
import pandas as pd
df = pd.read_csv("delivery_time.csv")

# 문자 슬라이싱
df['user_int'] = df['user'].str[5:]

# 자료형 변환
df['user_int'] = df['user_int'].astype(int)

# 합계
print(df['user_int'].sum())

261387


### 🥦 Section32. 합계(열 방향), 상위 값 선택

In [371]:
import pandas as pd
df = pd.read_csv("school_data.csv")

df['total_score'] = df[['수학', '영어', '국어']].sum(axis=1)

# sort_values()로 내림차순 정렬 후 10개 추출
top10_1 = df.sort_values('total_score', ascending=False).head(10)
print(round(top10_1['수학'].mean()))

# nlargest()로 상위 10개 바로 추출
top10_2 = df.nlargest(10, 'total_score')
print(round(top10_2['수학'].mean()))

82
82


### 🍊 Section33. 데이터프레임 재구조화

#### ☑️ <span style='background-color: #fff5b1'>pd.melt(df) / df.melt()</span>
<img src="images/q16.png" width="570"/>

In [391]:
import pandas as pd
df = pd.read_csv("school_data.csv")

# 이름을 유지하면서 수학, 영어, 국어 형태 변경
melted_df = df.melt(id_vars=['이름'], value_vars=['수학', '영어', '국어'], var_name='과목', value_name='점수')

# 가장 작은 값 25개의 합
result = melted_df['점수'].nsmallest(25).sum()
print(result)
melted_df

420


Unnamed: 0,이름,과목,점수
0,강아지,수학,66
1,고양이,수학,92
2,토끼,수학,98
3,사자,수학,17
4,호랑이,수학,83
...,...,...,...
85,타조,국어,49
86,개구리,국어,86
87,펠리칸,국어,3
88,돌고래,국어,67


### 🍊 Section34. 데이터 합치기(concat) => 단순병합

#### ☑️ <span style='background-color: #fff5b1'>pd.concat()</span>
<img src="images/q17.png" width="570"/>

In [404]:
import pandas as pd
df = pd.read_csv("school_data.csv")
df_science = pd.read_csv("school_data_science.csv")

# 두 파일을 학생 순서를 기준으로 병합하기
df = pd.concat([df, df_science], axis=1)

# 학생별로 수학, 영어, 국어, 과학 점수의 평균 구하기
df['평균'] = df[['수학', '영어', '국어', '과학']].mean(axis=1)

# 평균 점수가 60점 이상인 인원 수 계산하기
result = sum(df['평균']>=60)
print(result)

9


### 🍊 Section35. 데이터 합치기(merge) => 기준병합

#### ☑️ <span style='background-color: #fff5b1'>pd.merge() vs pd.concat()</span>
<img src="images/q18.png" width="530"/>
<img src="images/q19.png" width="550"/>

In [410]:
import pandas as pd
df = pd.read_csv("school_data.csv")
df_social = pd.read_csv("school_data_social.csv")

# '이름'을 기준으로 두 데이터프레임 합치기
merged_df = pd.merge(df, df_social, on='이름')

# 교사 필터링
cond1 = merged_df['영어교사'] == '장선생'
cond2 = merged_df['사회교사'] == '오선생'

# 필터링된 데이터에서 수학점수 합
print(merged_df[cond1 & cond2]['수학'].sum())

602


### 🍊 Section36. 조건별 변환(transform)

#### ☑️ <span style='background-color: #fff5b1'>transform() vs apply()</span>
<img src="images/q20.png" width="590"/>

In [426]:
import pandas as pd
df = pd.read_csv("sales.csv")

# 지역별 평균 판매금액 계산 후, 결측값 대체 (transform 사용)
m = df.groupby('지역코드')['판매금액'].transform('mean')
df['판매금액'] = df['판매금액'].fillna(m)

# 각 거래별 해당 지역의 평균 판매금액 구하기
df['지역평균'] = df.groupby('지역코드')['판매금액'].transform('mean')

# 판매금액과 지역평균의 차이(절대값) 계산하여 새로운 컬럼 생성
df['차이'] = abs(df['판매금액']-df['지역평균'])

# 지역별 차이 평균 계산 후, 최대값을 가지는 지역코드 출력
print(df.groupby('지역코드')['차이'].mean().idxmax())

103


### 🍊 Section37. 재구조화(unstack), 맵핑

#### ☑️ <span style='background-color: #fff5b1'>map() / unstack()</span>
<img src="images/q21.png" width="500"/>
<img src="images/q22.png" width="470"/>

In [436]:
import pandas as pd
df = pd.read_csv('store_sales.csv')

# 매출액 계산
df['매출액'] = df['판매수량']*df['단가']
df

# 요일별 평일/주말 구분 딕셔너리
day_dic = {'월':'평일', '화':'평일', '수':'평일', '목':'평일', '금':'평일',
           '토':'주말', '일':'주말'}

# 매핑을 활용하여 새로운 열 추가
df['구분'] = df['요일'].map(day_dic)

# 매장코드 & 평일/주말별 매출액 합계
df1 = df.groupby(['매장코드', '구분'])['매출액'].sum().unstack()

# 평일과 주말 매출액 차이 계산
df1['차이'] = abs(df1['주말']-df1['평일'])

# 전체 매장 중 매출액 편차가 가장 큰 매장의 편차 값 찾기
print(int(df1['차이'].max()))

241975


### 🍊 Section38. 피벗테이블

#### ☑️ <span style='background-color: #fff5b1'>pd.pivot_table()</span>
<img src="images/q23.png" width="600"/>
<img src="images/q24.png" width="490"/>

In [466]:
import pandas as pd
df = pd.read_csv("region_sales.csv")

# 피벗 테이블 생성: Region, Channel별로 Product별 Sales 합계 계산
pivot_table = pd.pivot_table(df, index=['Region', 'Channel'], columns='Product',
                             values='Sales', aggfunc='sum')

# A비율 계산: 제품 A의 판매액 ÷ 총매출
pivot_table['총매출'] = pivot_table['A'] + pivot_table['B']
pivot_table['A비율'] = pivot_table['A']/pivot_table['총매출']

# 최대 A비율 값 출력
print(round(pivot_table['A비율'].max(), 2))

0.51


### 🍊 Section39. 재구조화(melt), 그룹핑

#### ☑️ <span style='background-color: #fff5b1'>pd.melt()</span>
<img src="images/q25.png" width="530"/>

In [495]:
import pandas as pd
df = pd.read_csv('monthly_sales.csv')

# melt로 Wide(가로) → Long(세로) 변환
melted_df = pd.melt(df, id_vars='Region', value_vars=['Jan', 'Feb', 'Mar'],
                    var_name='Month', value_name='Sales')

# Region, Month별 매출 합계 구하기
df1 = melted_df.groupby(['Region', 'Month'])['Sales'].sum().reset_index()

# 매출 합계가 1400을 초과하는 건수
print(sum(df1['Sales']>1400))

6


In [497]:
df.head()

Unnamed: 0,Region,Jan,Feb,Mar
0,Seoul,120,135,110
1,Seoul,95,108,145
2,Seoul,200,179,140
3,Seoul,150,155,170
4,Seoul,110,98,190


In [489]:
df.shape

(50, 4)

In [486]:
melted_df

Unnamed: 0,Region,Month,Sales
0,Seoul,Jan,120
1,Seoul,Jan,95
2,Seoul,Jan,200
3,Seoul,Jan,150
4,Seoul,Jan,110
...,...,...,...
145,Daejeon,Mar,170
146,Daejeon,Mar,115
147,Daejeon,Mar,140
148,Daejeon,Mar,105
