In [1]:
# 기본 파생변수 생성
# 기본 컬럼들을 활용해 간단한 산술 연산이나 논리 연산을 통해 새 컬럼을 생성할 때 사용.
# 대괄호 표기법 또는 'assign' method를 통해 파생변수 생성 가능.

# 파생변수(Derived Variable)
# 원본 데이터의 하나 이상의 컬럼을 조합하거나 변환해 생성한 새로운 변수.
# 원본 데이터만으로는 파악하기 어려운 insight를 발견하거나, ML 모델의 성능을 향상시키기 위해 사용.

# 기본 문법
# df['new_column'] = expression         # 새로운 컬럼을 생성하는 구문.
# df.assign(new_col = expression)       # assign method를 사용해 새 컬럼을 생성.

# parameter 01. 'new_column'
# 생성할 컬럼의 이름 (문자열)

# parameter 02. expression
# 계산식 또는 값

# parameter 03. new_col
# assign method에서 사용할 새 컬럼명

# 새 컬럼이 추가된 DataFrame을 반환.
# assign method 사용 시 새 DataFrame을 반환함.

In [2]:
# 파생 변수 생성 예제 코드를 위한 기본 데이터 생성.
import pandas as pd
import numpy as np

pd.set_option("display.expand_frame_repr", False)


sales_data = pd.DataFrame({
    'product': ['노트북', '마우스', '키보드', '모니터', '스피커'],
    'price': [1200000, 25000, 80000, 350000, 120000],
    'quantity': [10, 50, 30, 15, 25],
    'cost': [800000, 15000, 50000, 200000, 80000]
})

print(sales_data)

  product    price  quantity    cost
0     노트북  1200000        10  800000
1     마우스    25000        50   15000
2     키보드    80000        30   50000
3     모니터   350000        15  200000
4     스피커   120000        25   80000


In [3]:
# 새 컬럼 생성 예제 코드 01
# 새 컬럼 생성하기.

# 총 매출액을 계산하는 코드
sales_data['total_sales'] = sales_data['price'] * sales_data['quantity']            # sales_data의 'price'와 'quantity'의 값을 곱한 'total_sales'라는 컬럼 생성.
print(f"총 매출액을 계산하는 새 컬럼을 생성한 DF: \n{sales_data}")

# 총 이익을 계산하는 컬럼 생성.
sales_data['profit'] = (sales_data['price'] - sales_data['cost']) * sales_data['quantity']          # price에서 cost를 뺀 값에 quantity 값을 곱한 값을 포함한 새 컬럼 생성.
print(f"\n총 이익을 계산하는 profit 컬럼을 생성한 DF: \n{sales_data}")

# 이익률을 계산하는 컬럼 생성.
sales_data['profit_rate'] = (sales_data['profit'] / sales_data['total_sales']) * 100                # profit에서 total_sales를 나누고 100을 곱한 이익률을 나타내는 profit_rate 컬럼 생성.
print(f"\n총 이익률을 계산하는 profit_rate 컬럼을 생성한 DF: \n{sales_data}")

총 매출액을 계산하는 새 컬럼을 생성한 DF: 
  product    price  quantity    cost  total_sales
0     노트북  1200000        10  800000     12000000
1     마우스    25000        50   15000      1250000
2     키보드    80000        30   50000      2400000
3     모니터   350000        15  200000      5250000
4     스피커   120000        25   80000      3000000

총 이익을 계산하는 profit 컬럼을 생성한 DF: 
  product    price  quantity    cost  total_sales   profit
0     노트북  1200000        10  800000     12000000  4000000
1     마우스    25000        50   15000      1250000   500000
2     키보드    80000        30   50000      2400000   900000
3     모니터   350000        15  200000      5250000  2250000
4     스피커   120000        25   80000      3000000  1000000

총 이익률을 계산하는 profit_rate 컬럼을 생성한 DF: 
  product    price  quantity    cost  total_sales   profit  profit_rate
0     노트북  1200000        10  800000     12000000  4000000    33.333333
1     마우스    25000        50   15000      1250000   500000    40.000000
2     키보드    80000        30   50

In [4]:
# 새 컬럼 생성 예제 코드 02
# assign method를 사용해 새 컬럼 생성하기.
sales_with_rank = sales_data.assign(sales_rank = sales_data['total_sales'].rank(ascending=False))       # assign method는 새 DataFrame을 반환하기 때문에, 새 변수에 값을 할당해야 함.

print(f"판매 순위를 매긴 sales_rank 컬럼을 새로 만든 결과: \n{sales_with_rank}")

판매 순위를 매긴 sales_rank 컬럼을 새로 만든 결과: 
  product    price  quantity    cost  total_sales   profit  profit_rate  sales_rank
0     노트북  1200000        10  800000     12000000  4000000    33.333333         1.0
1     마우스    25000        50   15000      1250000   500000    40.000000         5.0
2     키보드    80000        30   50000      2400000   900000    37.500000         4.0
3     모니터   350000        15  200000      5250000  2250000    42.857143         2.0
4     스피커   120000        25   80000      3000000  1000000    33.333333         3.0


In [5]:
# apply 함수를 활용한 사용자 정의 함수 적용.
# 복잡한 계산 로직 또는 사용자 정의 함수를 DataFrame의 각 행이나 컬럼에 적용할 때 사용.
# 단순한 산술 연산으로 처리하기 어려운 조건부 logic이나 복합 계산에 유용.

# 기본 문법
# df.apply(func, axis=0)                            # DataFrame에 직접 함수를 적용하는 구문.
# df['column'].apply(func)                          # Series(선택한 컬럼)에 직접 함수를 적용. DataFrame 전체에 함수를 적용하는 것이 아님.
# df.apply(lambda x: expression, axis=1)            # lambda 함수도 사용 가능.

# parameter 01: func
# DataFrame 또는 Series에 적용할 함수.

# parameter 02: axis
# 함수를 적용할 방향(축)
# 0: 행, 1: 컬럼

# parameter 03: expression
# lambda 함수의 계산식

# 함수가 적용된 결과(DataFrame 또는 Series)를 반환.

In [6]:
# apply 함수 사용 예제 코드 생성을 위한 데이터 마련
# 제품 등급을 정의하는 함수 정의.
def classify_product_grade(row):
    if row['profit_rate'] >= 40:
        return 'A급'
    elif row['profit_rate'] >= 35:
        return 'B급'
    else:
        return 'C급'

In [7]:
# apply 함수 사용 예제 코드 01
# DataFrame에 직접 함수를 적용하기.
sales_data['grade'] = sales_data.apply(classify_product_grade, axis=1)          # sales_data DataFrame에 apply method로 미리 만든 함수를 사용하고 그 결과값을 컬럼 방향으로 사용해 컬럼 생성.

print(f"{sales_data}")

  product    price  quantity    cost  total_sales   profit  profit_rate grade
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급
1     마우스    25000        50   15000      1250000   500000    40.000000    A급
2     키보드    80000        30   50000      2400000   900000    37.500000    B급
3     모니터   350000        15  200000      5250000  2250000    42.857143    A급
4     스피커   120000        25   80000      3000000  1000000    33.333333    C급


In [8]:
# lambda 함수 사용 예제 코드 01
# 가격 구간 분류하기.
sales_data['price_category'] = sales_data['price'].apply(lambda x: '고가' if x >= 300000 else '중가' if x >= 100000 else '저가')       # lambda 함수를 만들어 '고가', '중가', '저가' 세 조건으로 분류하고, 이 함수를 sales_data DF의 'price'행에 적용시키고, 그 값을 DF에 'price_category'라는 새 컬럼으로 생성하기.

print(f"{sales_data}")

  product    price  quantity    cost  total_sales   profit  profit_rate grade price_category
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급             고가
1     마우스    25000        50   15000      1250000   500000    40.000000    A급             저가
2     키보드    80000        30   50000      2400000   900000    37.500000    B급             저가
3     모니터   350000        15  200000      5250000  2250000    42.857143    A급             고가
4     스피커   120000        25   80000      3000000  1000000    33.333333    C급             중가


In [9]:
# apply method 사용 예제 코드 02
# 'axis=0'을 이용해 컬럼별 통계를 계산하기.
column_stats = sales_data[['price', 'quantity', 'profit']].apply(np.mean)       # 각 컬럼별로 각각의 평균을 구하고, 그 평균값을 행으로 변환.

print(f"평균값: \n{column_stats}")

평균값: 
price        355000.0
quantity         26.0
profit      1730000.0
dtype: float64


In [10]:
# map을 활용한 데이터 변환
# 딕셔너리나 매핑 테이블을 사용해 값을 변환하거나 모든 요소에 동일한 함수를 적용할 때 사용.
# map()은 주로 카테고리형 데이터의 라벨 변환에 유용. 

# 기본 문법
# df['column'].map(mapping)         # Series에 mapping을 적용.
# df.map(func)                      # DataFrame 전체에 함수를 적용.

# parameter 01: mapping
# Dictionary, Series, 함수

# parameter 02: func
# 각 요소에 적용할 함수

# 변환된 Series 또는 DataFrame을 반환함.

In [11]:
# map을 활용한 데이터 변환 예제 코드 01
# dictionary를 사용하기.
category_mapping = {
    '노트북': '컴퓨터', 
    '마우스': '주변기기',
    '키보드': '주변기기',
    '모니터': '디스플레이',
    '스피커': '오디오'
}

sales_data['product_category'] = sales_data['product'].map(category_mapping)            # sales_data DF의 'product' 컬럼에 'category_mapping' dictionary를 map 함수로 적용해서 변환하고, 그 값을 새 컬럼인 'product_category'로 생성하여 원본 DF에 추가.

print(f"sales_data DF에 'product_category' 컬럼을 매핑을 이용해 새로 만든 결과: \n{sales_data}")

grade_points = {'A급': 100, 'B급': 80, 'C급': 60}
sales_data['grade_points'] = sales_data['grade'].map(grade_points)                      # sales_data DF의 'grade' 컬럼에 'grade_points' dictionary를 map 함수로 mapping 시킨 새 컬럼을 'grade_points'라고 이름 지어 원본 DF에 추가.

print(f"\nsales_data DF에 'grade_points'라는 새 컬럼을 mapping을 이용해 만든 결과: \n{sales_data}")

sales_data DF에 'product_category' 컬럼을 매핑을 이용해 새로 만든 결과: 
  product    price  quantity    cost  total_sales   profit  profit_rate grade price_category product_category
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급             고가              컴퓨터
1     마우스    25000        50   15000      1250000   500000    40.000000    A급             저가             주변기기
2     키보드    80000        30   50000      2400000   900000    37.500000    B급             저가             주변기기
3     모니터   350000        15  200000      5250000  2250000    42.857143    A급             고가            디스플레이
4     스피커   120000        25   80000      3000000  1000000    33.333333    C급             중가              오디오

sales_data DF에 'grade_points'라는 새 컬럼을 mapping을 이용해 만든 결과: 
  product    price  quantity    cost  total_sales   profit  profit_rate grade price_category product_category  grade_points
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급             고가       

In [12]:
# map을 활용한 데이터 변환 예제 코드 02
# map에 함수를 적용하기.
numeric_columns = ['profit_rate']
sales_data['profit_rate_rounded'] = sales_data['profit_rate'].map(lambda x: round(x, 1))        # lambda 함수로 모든 원소를 소수점 첫째 자리까지 반올림하는 코드를 만들고 그것을 map함수로 sales_data DF의 'profit_rate' 컬럼에 적용. 그 결과값을 DF에 'profit_rate_rounded'라는 이름의 새 컬럼으로 추가.

print(f"profit_rate 컬럼의 값을 소수점 첫째자리까지 반올림한 새 profit_rate_rounded 컬럼을 추가한 결과: \n{sales_data}")

profit_rate 컬럼의 값을 소수점 첫째자리까지 반올림한 새 profit_rate_rounded 컬럼을 추가한 결과: 
  product    price  quantity    cost  total_sales   profit  profit_rate grade price_category product_category  grade_points  profit_rate_rounded
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급             고가              컴퓨터            60                 33.3
1     마우스    25000        50   15000      1250000   500000    40.000000    A급             저가             주변기기           100                 40.0
2     키보드    80000        30   50000      2400000   900000    37.500000    B급             저가             주변기기            80                 37.5
3     모니터   350000        15  200000      5250000  2250000    42.857143    A급             고가            디스플레이           100                 42.9
4     스피커   120000        25   80000      3000000  1000000    33.333333    C급             중가              오디오            60                 33.3


In [13]:
# 'np.where'과 'np.select'를 이용해 조건부 파생변수 생성하기.
# 복잡한 조건문을 통해 파생변수를 생성할 때 사용.
# np.where는 간단한 이진 조건, np.select는 다중 분류 조건에 적합.

# 기본 문법
# np.where(condition, value_if_true, value_if_false)            # 이진 조건
# np.select(condlist, choicelist, defalut)                      # 다중 조건
# pd.cut(data, bins, labels)                                    # 구간 분할

# parameter 01. condition
# 조건식

# parameter 02. value_if_true
# 조건이 참일 때 반환할 값

# parameter 03. value_if_false
# 조건이 거짓일 때 반환할 값

# parameter 04. condlist
# 조건들의 리스트

# parameter 05. choicelist
# 각 조건에 대응하는 값들의 리스트

# parameter 06. bins
# 구간의 경계값들

# paramter 07. labels
# 각 구간의 라벨

# 조건에 따라 분류된 값들의 배열을 반환함.

In [14]:
# np.where을 사용한 이진 분류 예제 코드 01
sales_data['is_profitable'] = np.where(sales_data['profit'] > 1000000, '고수익', '일반수익')        # np.where을 사용해 'profit' 컬럼에 값이 1백만 초과면 '고수익', 아니면 '일반수익'을 반환하는 이진 조건을 사용하여 원본 DF에 'is_profitable'이라는 새 컬럼을 추가.

print(f"'is_profitable' 컬럼을 추가한 결과: \n{sales_data}")

'is_profitable' 컬럼을 추가한 결과: 
  product    price  quantity    cost  total_sales   profit  profit_rate grade price_category product_category  grade_points  profit_rate_rounded is_profitable
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급             고가              컴퓨터            60                 33.3           고수익
1     마우스    25000        50   15000      1250000   500000    40.000000    A급             저가             주변기기           100                 40.0          일반수익
2     키보드    80000        30   50000      2400000   900000    37.500000    B급             저가             주변기기            80                 37.5          일반수익
3     모니터   350000        15  200000      5250000  2250000    42.857143    A급             고가            디스플레이           100                 42.9           고수익
4     스피커   120000        25   80000      3000000  1000000    33.333333    C급             중가              오디오            60                 33.3          일반수익


In [16]:
# np.select를 사용한 다중 분류 예제 코드 01
conditions = [
    sales_data['total_sales'] >= 10000000,
    sales_data['total_sales'] >= 5000000,
    sales_data['total_sales'] >= 2000000
]

choices = ['대형거래', '중형거래', '소형거래']

sales_data['transaction_size'] = np.select(conditions, choices, default='미니거래')

print(sales_data)

  product    price  quantity    cost  total_sales   profit  profit_rate grade price_category product_category  grade_points  profit_rate_rounded is_profitable transaction_size
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급             고가              컴퓨터            60                 33.3           고수익             대형거래
1     마우스    25000        50   15000      1250000   500000    40.000000    A급             저가             주변기기           100                 40.0          일반수익             미니거래
2     키보드    80000        30   50000      2400000   900000    37.500000    B급             저가             주변기기            80                 37.5          일반수익             소형거래
3     모니터   350000        15  200000      5250000  2250000    42.857143    A급             고가            디스플레이           100                 42.9           고수익             중형거래
4     스피커   120000        25   80000      3000000  1000000    33.333333    C급             중가              오디오           

In [17]:
# pd.cut을 사용한 구간 분할 예제 코드
price_bins = [0, 50000, 200000, float('inf')]
price_labels = ['저가', '중가', '고가']
sales_data['price_segment'] = pd.cut(sales_data['price'], bins=price_bins, labels=price_labels)

print(sales_data)

  product    price  quantity    cost  total_sales   profit  profit_rate grade price_category product_category  grade_points  profit_rate_rounded is_profitable transaction_size price_segment
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급             고가              컴퓨터            60                 33.3           고수익             대형거래            고가
1     마우스    25000        50   15000      1250000   500000    40.000000    A급             저가             주변기기           100                 40.0          일반수익             미니거래            저가
2     키보드    80000        30   50000      2400000   900000    37.500000    B급             저가             주변기기            80                 37.5          일반수익             소형거래            중가
3     모니터   350000        15  200000      5250000  2250000    42.857143    A급             고가            디스플레이           100                 42.9           고수익             중형거래            고가
4     스피커   120000        25   80000      3000000 

In [18]:
# 집계 함수를 이용한 파생변수 생성하기
# 그룹별 통계나 이동 평균 등의 집계 함수를 사용해 파생변수를 생성할 때 사용.
# transform은 그룹별 계산 결과를 원본 데이터의 모든 행에 mapping함.

# 기본 문법
# df.groupby('column').transform(func)              # 그룹별 변환
# df['column'].rolling(window).func()               # 이동 평균/합계
# df['column'].expanding().func()                   # 누적 집계

# parameter 01. column
# 그룹화를 할 기준이 되는 컬럼

# parameter 02. func
# 적용할 집계 함수

# parameter 03. window
# 이동할 window의 크기

# 집계 결과가 원본 데이터와 같은 크기로 변환됨.

In [20]:
# 집계 함수 활용 예제 코드 01
# 제품 카테고리별 평균 수익률 계산하기.
sales_data['category_avg_profit_rate'] = sales_data.groupby('product_category')['profit_rate'].transform('mean')

print(sales_data)

# 1. sales_data DF의 'product_category' 컬럼을 기준으로 설정. 그래서 기준은 '컴퓨터', '주변기기', '디스플레이', '오디오'로 4가지가 됨.
# 2. 'profit_rate' 컬럼의 값들을 설정한 기준으로 묶어 '.transform('mean')'으로 평균을 계산함.
# 3. 2번의 결과값을 sales_data DF에 'category_avg_profit_rate'라는 새 컬럼을 만들고 거기에 대입.

  product    price  quantity    cost  total_sales   profit  profit_rate grade price_category product_category  grade_points  profit_rate_rounded is_profitable transaction_size price_segment  category_avg_profit_rate
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급             고가              컴퓨터            60                 33.3           고수익             대형거래            고가                 33.333333
1     마우스    25000        50   15000      1250000   500000    40.000000    A급             저가             주변기기           100                 40.0          일반수익             미니거래            저가                 38.750000
2     키보드    80000        30   50000      2400000   900000    37.500000    B급             저가             주변기기            80                 37.5          일반수익             소형거래            중가                 38.750000
3     모니터   350000        15  200000      5250000  2250000    42.857143    A급             고가            디스플레이           100             

In [None]:
# 집계 함수 활용 예제 코드 02
# 제품 카테고리별 총 매출 대비 비중 계산
sales_data['category_total_sales'] = sales_data.groupby('product_category')['total_sales'].transform('sum')
sales_data['sales_share_in_category'] = (sales_data['total_sales'] / sales_data['category_total_sales']) * 100

print(sales_data)

# 01. sales_data DF의 'product_category' 컬럼을 기준으로 기준화. 컴퓨터, 주변기기, 디스플레이, 오디오 총 4개의 기준 생성.
# 02. transform method를 이용해 4개의 기준 별로 total_sales 컬럼의 값을 sum 함수를 적용함. 그래서 합계를 구함.
# 03. 2번에서 반환된 결과값을 DF에 'category_total_sales'라는 새 컬럼을 만든 후 대입.
# 04. sales_data DF의 'total_sales' 컬럼의 값을 'category_total_sales' 컬럼의 값으로 나눈 후 100을 곱함.
# 05. 4번에서 반환된 결과값을 'sales_share_in_category'라는 새 컬럼을 만들어서 대입. 이는 품목이 카테고리 별 매출의 비중을 얼마나 차지하는지 알기 위한 코드.

  product    price  quantity    cost  total_sales   profit  profit_rate grade price_category product_category  grade_points  profit_rate_rounded is_profitable transaction_size price_segment  category_avg_profit_rate  category_total_sales  sales_share_in_category
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급             고가              컴퓨터            60                 33.3           고수익             대형거래            고가                 33.333333              12000000               100.000000
1     마우스    25000        50   15000      1250000   500000    40.000000    A급             저가             주변기기           100                 40.0          일반수익             미니거래            저가                 38.750000               3650000                34.246575
2     키보드    80000        30   50000      2400000   900000    37.500000    B급             저가             주변기기            80                 37.5          일반수익             소형거래            중가                 38.75

In [27]:
# 집계 함수 활용 예제 코드 03
# 정렬 후 누적 합계 계산 (= 매출 순위별 누적 매출)
sales_sorted = sales_data.sort_values('total_sales', ascending=False)       # 내림차순
sales_sorted['cumulative_sales'] = sales_sorted['total_sales'].cumsum()
sales_sorted['cumulative_sales_ratio'] = (sales_sorted['cumulative_sales'] / sales_sorted['total_sales'].sum()) * 100

print(sales_sorted)

# 01. sales_data DF를 'total_sales' 컬럼을 기준으로 내림차순 정렬하고, 그 결과를 'sales_sorted'라는 변수에 대입.
# 02. sales_sorted DF의 'total_sales' 컬럼 값의 누적합을 구하고, 그 결과를 'cumulative_sales'라는 새 컬럼을 만들어서 대입.
# 03. sales_sorted DF의 'cumulative_sales' 컬럼의 값을 'total_sales' 컬럼의 값을 모두 더한 값으로 나눈 후 100을 곱하고, 그 값을 'cumulative_sales_ratio'라는 새 컬럼을 만들어서 대입.

  product    price  quantity    cost  total_sales   profit  profit_rate grade price_category product_category  grade_points  profit_rate_rounded is_profitable transaction_size price_segment  category_avg_profit_rate  category_total_sales  sales_share_in_category  cumulative_sales  cumulative_sales_ratio
0     노트북  1200000        10  800000     12000000  4000000    33.333333    C급             고가              컴퓨터            60                 33.3           고수익             대형거래            고가                 33.333333              12000000               100.000000          12000000               50.209205
3     모니터   350000        15  200000      5250000  2250000    42.857143    A급             고가            디스플레이           100                 42.9           고수익             중형거래            고가                 42.857143               5250000               100.000000          17250000               72.175732
4     스피커   120000        25   80000      3000000  1000000    33.333333    C급        