# `pandas02.ipynb`

## Grouping

In [1]:
import pandas as pd
import numpy as np

data = {
    '주문번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010],
    '고객ID': ['A', 'B', 'A', 'C', 'B', 'A', 'D', 'C', 'B', 'D'],
    '상품카테고리': ['전자제품', '의류', '가구', '전자제품', '의류', '식품', '가구', '식품', '전자제품', '의류'],
    '구매액': [150000, 75000, 220000, 95000, 82000, 45000, 180000, 35000, 120000, 62000],
    '배송지역': ['서울', '부산', '서울', '인천', '서울', '부산', '인천', '서울', '부산', '인천'],
    '할인률': [0.05, 0.1, 0, 0.2, 0.1, 0, 0.05, 0.15, 0.2, 0]
}

df = pd.DataFrame(data)

In [2]:
# 기본 그룹화
df.groupby('고객ID')['구매액'].sum()

# 그룹 객체
id_group = df.groupby('고객ID')

# 그룹 확인(그룹핑 기준열의 원소들)
id_group.groups.keys()

# 특정 그룹 데이터 확인
id_group.get_group('A')

# 다중 컬럼 그룹핑
multi_group = df.groupby(['고객ID', '상품카테고리'])['구매액'].mean() # 참고로 이거 시리즈임. 그룹은 전부 index

# 데이터프레임 변환
multi_group.to_frame()

# 집계함수 여러개 적용
df.groupby('고객ID')['구매액'].agg([
    'sum', 'mean', 'count', 'min', 'max'
])

# n개 col에 m개 집계함수
df.groupby('고객ID').agg({
    '구매액': ['sum', 'mean', 'count'],
    '할인률': ['mean', 'max']
})

# 사용자 정의 집계함수
def discount_amount(price):
    return(price * df.loc[price.index, '할인률']).sum()

df.groupby('고객ID')['구매액'].agg([
    ('총구매액', 'sum'),
    ('평균구매액', 'mean'),
    ('할인총액', discount_amount),
])

Unnamed: 0_level_0,총구매액,평균구매액,할인총액
고객ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,415000,138333.333333,7500.0
B,277000,92333.333333,39700.0
C,130000,65000.0,24250.0
D,242000,121000.0,9000.0


In [3]:
# 집계 함수 응용
import pandas as pd
import numpy as np

# 샘플 데이터
df = pd.DataFrame({
    '상품ID': ['A001', 'A002', 'A001', 'A003', 'A002', 'A004', 'A003', 'A001', 'A002', 'A004'],
    '판매일자': pd.date_range('2023-01-01', periods=10),
    '판매수량': [5, 3, 7, 2, 4, 6, 3, 8, 5, 4],
    '판매금액': [50000, 30000, 70000, 25000, 40000, 65000, 30000, 80000, 50000, 45000],
    '반품수량': [0, 1, 0, 0, 0, 2, 1, 0, 0, 1],
    '고객평점': [4.5, 3.8, 4.2, 5.0, 4.0, 3.5, 4.2, 4.8, 3.9, 4.1]
})

In [4]:
df.groupby('상품ID').agg({
    '판매수량': ['sum', 'mean', 'count'], #alias 등록 가능
    '판매금액': ['sum', 'mean'],
    '반품수량': ['sum'],
    '고객평점': ['mean']
})

Unnamed: 0_level_0,판매수량,판매수량,판매수량,판매금액,판매금액,반품수량,고객평점
Unnamed: 0_level_1,sum,mean,count,sum,mean,sum,mean
상품ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
A001,20,6.666667,3,200000,66666.666667,0,4.5
A002,12,4.0,3,120000,40000.0,1,3.9
A003,5,2.5,2,55000,27500.0,1,4.6
A004,10,5.0,2,110000,55000.0,3,3.8


In [5]:
# 커스텀 함수
# 총 판매수량 대비 반품수량 비율 게산
def return_rate(x): # 그러게 x에 뭐가 들어가나
    total_sold = df.loc[x.index, '판매수량'].sum()
    total_returned = df.loc[x.index, '반품수량'].sum()
    return total_returned / total_sold if total_sold > 0 else 0
# python 더 많이 하면서, 입출력 구조에 대한 이해가 높아질 거임.

df.groupby('상품ID').agg({
    '판매수량': ['sum', 'count'],
    '반품수량': ['sum', return_rate],
})

Unnamed: 0_level_0,판매수량,판매수량,반품수량,반품수량
Unnamed: 0_level_1,sum,count,sum,return_rate
상품ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A001,20,3,0,0.0
A002,12,3,1,0.083333
A003,5,2,1,0.2
A004,10,2,3,0.3


In [6]:
# pandas는 SQL을 넘지 못했다.
# 다행이다!

# 그룹별 순위 및 누적 계산
import pandas as pd
import numpy as np

# 샘플 데이터: 부서별 직원 실적
data = {
    '직원ID': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112],
    '이름': ['김철수', '이영희', '박민수', '정지영', '최동민', '강준호', '윤서연', '임태혁', '한미래', '송지원', '오민지', '홍길동'],
    '부서': ['영업', '개발', '영업', '인사', '개발', '영업', '개발', '인사', '영업', '개발', '영업', '인사'],
    '월별실적': [120, 85, 95, 110, 75, 135, 95, 105, 115, 90, 125, 100],
    '고객평가': [4.5, 3.8, 4.2, 4.7, 3.9, 4.8, 4.1, 4.3, 4.5, 4.0, 4.6, 4.2]
}

df = pd.DataFrame(data)
print("부서별 직원 실적 데이터:")
print(df)

부서별 직원 실적 데이터:
    직원ID   이름  부서  월별실적  고객평가
0    101  김철수  영업   120   4.5
1    102  이영희  개발    85   3.8
2    103  박민수  영업    95   4.2
3    104  정지영  인사   110   4.7
4    105  최동민  개발    75   3.9
5    106  강준호  영업   135   4.8
6    107  윤서연  개발    95   4.1
7    108  임태혁  인사   105   4.3
8    109  한미래  영업   115   4.5
9    110  송지원  개발    90   4.0
10   111  오민지  영업   125   4.6
11   112  홍길동  인사   100   4.2


In [7]:
dept_group = df.groupby('부서')

# 부서별 월별 실적 랭킹 내림차순
df['부서랭킹'] = df.groupby('부서')['월별실적'].rank(method='dense', ascending=False)

In [8]:
# 누적 합계 및 누적 통계
# 부서별 누적 실적 합계

df['누적합계'] = df.groupby('부서')['월별실적'].cumsum() # 누적합 매서드
df['부서별누적최댓값'] = df.groupby('부서')['월별실적'].cummax()

# 그룹별 비율계산
# 부서별 총 실적 대비 개인 실적 비율
df['부서총실적'] = df.groupby('부서')['월별실적'].transform('sum')
# transform : 원본 데이터시리즈의 행수에 맞게d
# 위에 왜 sum() 안 썼지?

df['부서기여도'] = df['월별실적'] / df['부서총실적']

# 복합응용
df['성과점수'] = df['월별실적'] * 0.7 + df['고객평가'] * 0.3 * 20
df['부서순위_성과'] = df.groupby('부서')['성과점수'].rank(method='dense', ascending = False)

def cal_bonus(row):
    base_bonus = row['월별실적'] * 0.1
    rank = row['부서순위_성과']
    if rank == 1:
        return base_bonus * 1.5
    elif rank ==2:
        return base_bonus * 1.3
    elif rank ==3:
        return base_bonus * 1.1
    else:
        return base_bonus

df['성과급'] = df.apply(cal_bonus, axis = 1)
df

Unnamed: 0,직원ID,이름,부서,월별실적,고객평가,부서랭킹,누적합계,부서별누적최댓값,부서총실적,부서기여도,성과점수,부서순위_성과,성과급
0,101,김철수,영업,120,4.5,3.0,120,120,590,0.20339,111.0,3.0,13.2
1,102,이영희,개발,85,3.8,3.0,85,85,345,0.246377,82.3,3.0,9.35
2,103,박민수,영업,95,4.2,5.0,215,120,590,0.161017,91.7,5.0,9.5
3,104,정지영,인사,110,4.7,1.0,110,110,315,0.349206,105.2,1.0,16.5
4,105,최동민,개발,75,3.9,4.0,160,85,345,0.217391,75.9,4.0,7.5
5,106,강준호,영업,135,4.8,1.0,350,135,590,0.228814,123.3,1.0,20.25
6,107,윤서연,개발,95,4.1,1.0,255,95,345,0.275362,91.1,1.0,14.25
7,108,임태혁,인사,105,4.3,2.0,215,110,315,0.333333,99.3,2.0,13.65
8,109,한미래,영업,115,4.5,4.0,465,135,590,0.194915,107.5,4.0,11.5
9,110,송지원,개발,90,4.0,2.0,345,95,345,0.26087,87.0,2.0,11.7


## 실습 매출 데이터

In [9]:
# 실습: 매출 데이터 그룹별 분석
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 매출 데이터 생성
np.random.seed(42)

# 날짜 생성 (2023년 전체)
dates = pd.date_range('2023-01-01', '2023-12-31')
n_records = 500

data = {
    '주문ID': np.arange(1001, 1001 + n_records),
    '주문일자': np.random.choice(dates, n_records),
    '고객ID': np.random.choice([f'CUST{i:03d}' for i in range(1, 101)], n_records),
    '상품ID': np.random.choice([f'PROD{i:03d}' for i in range(1, 51)], n_records),
    '카테고리': np.random.choice(['전자제품', '의류', '가구', '식품', '화장품', '도서', '스포츠'], n_records),
    '매출액': np.random.randint(10000, 500000, n_records),
    '수량': np.random.randint(1, 10, n_records),
    '지역': np.random.choice(['서울', '부산', '인천', '대구', '광주', '대전', '울산', '경기', '강원'], n_records),
    '결제방법': np.random.choice(['신용카드', '현금', '체크카드', '휴대폰', '계좌이체'], n_records),
    '고객등급': np.random.choice(['일반', '실버', '골드', 'VIP'], n_records)
}

df = pd.DataFrame(data)

df

Unnamed: 0,주문ID,주문일자,고객ID,상품ID,카테고리,매출액,수량,지역,결제방법,고객등급
0,1001,2023-04-13,CUST002,PROD011,식품,384899,4,대구,현금,골드
1,1002,2023-12-15,CUST092,PROD004,도서,66985,7,대전,체크카드,VIP
2,1003,2023-09-28,CUST032,PROD015,가구,322213,9,강원,체크카드,일반
3,1004,2023-04-17,CUST091,PROD006,스포츠,324470,2,대전,체크카드,실버
4,1005,2023-03-13,CUST084,PROD049,화장품,118737,3,강원,현금,VIP
...,...,...,...,...,...,...,...,...,...,...
495,1496,2023-11-21,CUST095,PROD049,전자제품,44084,2,광주,체크카드,VIP
496,1497,2023-01-04,CUST006,PROD017,화장품,261459,3,경기,체크카드,실버
497,1498,2023-01-16,CUST066,PROD010,도서,120641,1,경기,계좌이체,실버
498,1499,2023-10-07,CUST084,PROD049,전자제품,115111,8,인천,현금,실버


In [None]:
# 검색 후 하기
# 날짜 정보 추출 -> 컬럼 추가[주문년월, 요일, 주]
df['주문년월'] = df['주문일자'].dt.strftime('%Y-%m')
df['요일'] = df['주문일자'].dt.day_name()
df['주'] = df['주문일자'].dt.isocalendar().week

# 1월 1일인 행만 확인하기
df[df['주문일자'] == '2023-01-01']  # 얘는 52주임.(iso 기준 맞추다보니 쩔수)

Unnamed: 0,주문ID,주문일자,고객ID,상품ID,카테고리,매출액,수량,지역,결제방법,고객등급,주문년월,요일,주,단가,상품랭킹
446,1447,2023-01-01,CUST090,PROD011,전자제품,267368,6,강원,체크카드,골드,2023-01,Sunday,52,44561.333333,7.0


In [39]:
# 단가 계산(총매출액 / 수량)
df['단가'] = df['매출액'] / df['수량']
# 단가 컬럼 추가
df

Unnamed: 0,주문ID,주문일자,고객ID,상품ID,카테고리,매출액,수량,지역,결제방법,고객등급,주문년월,요일,주,단가,상품랭킹
0,1001,2023-04-13,CUST002,PROD011,식품,384899,4,대구,현금,골드,2023-04,Thursday,15,96224.750000,2.0
1,1002,2023-12-15,CUST092,PROD004,도서,66985,7,대전,체크카드,VIP,2023-12,Friday,50,9569.285714,6.0
2,1003,2023-09-28,CUST032,PROD015,가구,322213,9,강원,체크카드,일반,2023-09,Thursday,39,35801.444444,2.0
3,1004,2023-04-17,CUST091,PROD006,스포츠,324470,2,대전,체크카드,실버,2023-04,Monday,16,162235.000000,5.0
4,1005,2023-03-13,CUST084,PROD049,화장품,118737,3,강원,현금,VIP,2023-03,Monday,11,39579.000000,8.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,1496,2023-11-21,CUST095,PROD049,전자제품,44084,2,광주,체크카드,VIP,2023-11,Tuesday,47,22042.000000,13.0
496,1497,2023-01-04,CUST006,PROD017,화장품,261459,3,경기,체크카드,실버,2023-01,Wednesday,1,87153.000000,8.0
497,1498,2023-01-16,CUST066,PROD010,도서,120641,1,경기,계좌이체,실버,2023-01,Monday,3,120641.000000,12.0
498,1499,2023-10-07,CUST084,PROD049,전자제품,115111,8,인천,현금,실버,2023-10,Saturday,40,14388.875000,9.0


In [40]:
# 카테고리별 매출 분석(매출의 총합, 평균, 개수), 수량, 총합
df.groupby('카테고리').agg({
    '매출액': [
        ('매출총합', 'sum'),
        ('평균', 'mean'),
        ('개수', 'count')
        ],
    '수량': ['sum']        # 여기가 무슨 말이지?
}).round(2)

Unnamed: 0_level_0,매출액,매출액,매출액,수량
Unnamed: 0_level_1,매출총합,평균,개수,sum
카테고리,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
가구,19263561,267549.46,72,348
도서,17826814,254668.77,70,374
스포츠,17729088,268622.55,66,332
식품,16816186,254790.7,66,299
의류,17971859,253124.77,71,359
전자제품,19526279,256924.72,76,358
화장품,20600588,260766.94,79,386


In [43]:
# 월별 매출 트렌드
# 주문년월 컬럼으로 매출액 sum, 주문ID count, 단가 mean
df.groupby('주문년월').agg({
    '매출액': ['sum', 'mean', 'count'],
    '주문ID': ['count'],      # what does mean ID???
    '단가': ['mean']
}).rename(columns={'주문ID': '주문건수'}).round(2)

Unnamed: 0_level_0,매출액,매출액,매출액,주문건수,단가
Unnamed: 0_level_1,sum,mean,count,count,mean
주문년월,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2023-01,7786750,251185.48,31,31,68573.32
2023-02,13558838,288485.91,47,47,83141.03
2023-03,4820044,209567.13,23,23,67224.54
2023-04,13329098,272022.41,49,49,97647.61
2023-05,12825903,251488.29,51,51,88883.44
2023-06,10302473,234147.11,44,44,64922.53
2023-07,11575996,312864.76,37,37,107918.45
2023-08,11604378,246901.66,47,47,69333.94
2023-09,11646019,258800.42,45,45,76389.96
2023-10,10932657,254247.84,43,43,72844.86


In [45]:
# 지역 & 카테고리별 매출 분석
df.groupby(['지역', '카테고리']).agg({
    '매출액': [
        ('매출총액', 'sum'),
        ('매출평균', 'mean'),
        ('매출건수', 'count')
    ]
}).round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,매출액,매출액,매출액
Unnamed: 0_level_1,Unnamed: 1_level_1,매출총액,매출평균,매출건수
지역,카테고리,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
강원,가구,2567149,233377.18,11
강원,도서,2229004,371500.67,6
강원,스포츠,3236879,269739.92,12
강원,식품,1546551,257758.50,6
강원,의류,1961318,280188.29,7
...,...,...,...,...
인천,스포츠,1677507,279584.50,6
인천,식품,2226374,202397.64,11
인천,의류,2061788,206178.80,10
인천,전자제품,2870028,287002.80,10


In [None]:
# Unstack과 히트맵 시각화
regional_df = df.groupby(['지역', '카테고리','결제방법', '주문년월'])['매출액'].sum().unstack()
# Unstack: 다중인덱스 구조를 column으로 펼처서 재구조화함.
# 맨 마지막 col을 위로 올리는 구조인 듯.
regional_df

Unnamed: 0_level_0,Unnamed: 1_level_0,주문년월,2023-01,2023-02,2023-03,2023-04,2023-05,2023-06,2023-07,2023-08,2023-09,2023-10,2023-11,2023-12
지역,카테고리,결제방법,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
강원,가구,계좌이체,,,,,326205.0,,,,,,,
강원,가구,신용카드,,,,,,152635.0,,,,,,
강원,가구,체크카드,,418529.0,,138803.0,,,,,322213.0,,,
강원,가구,현금,,,,111459.0,,,,,,361537.0,141691.0,
강원,가구,휴대폰,,,,,,176703.0,255014.0,,,,,162360.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
인천,전자제품,휴대폰,,,,,,,,,473183.0,,233131.0,
인천,화장품,계좌이체,,,81635.0,,,,,357022.0,,231097.0,,
인천,화장품,신용카드,,,,,,,,,404583.0,,409492.0,
인천,화장품,체크카드,,,,,,,,,130030.0,,,


In [50]:
# 요일 & 고객등급별 매출 패턴 분석
df.groupby(['요일', '고객등급']).agg({
    '매출액': ['sum', 'mean', 'count']
}).round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,매출액,매출액,매출액
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,count
요일,고객등급,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Friday,VIP,2998646,230665.08,13
Friday,골드,5563601,309088.94,18
Friday,실버,4584163,286510.19,16
Friday,일반,4059550,225530.56,18
Monday,VIP,6182434,281019.73,22
Monday,골드,3402384,226825.6,15
Monday,실버,4532290,238541.58,19
Monday,일반,7265467,269091.37,27
Saturday,VIP,4298206,252835.65,17
Saturday,골드,4124191,274946.07,15


In [59]:
day_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
df['요일'] = pd.Categorical(df['요일'], categories=day_order, ordered=True)
df.groupby(['고객등급', '요일'])['매출액'].sum().unstack()

  df.groupby(['고객등급', '요일'])['매출액'].sum().unstack()


요일,Monday,Tuesday,Wednesday,Thursday,Friday,Saturday,Sunday
고객등급,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
VIP,6182434,4955018,3323716,5066444,2998646,4298206,4838696
골드,3402384,5357448,4295608,5601373,5563601,4124191,3240409
실버,4532290,4777296,3749879,4273034,4584163,5460233,4501861
일반,7265467,4184996,3383430,6456148,4059550,4178794,5079060


In [None]:
# 결제방법별 분석 및 고객 행동(매출액의 sum, mean, count / 단가 mean)
# My 답
df.groupby('결제방법').agg({
    '매출액': ['sum', 'mean', 'count'],
    '단가': 'mean'
}).round(2)

Unnamed: 0_level_0,매출액,매출액,매출액,단가
Unnamed: 0_level_1,sum,mean,count,mean
결제방법,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
계좌이체,26376866,251208.25,105,81029.84
신용카드,25514730,260354.39,98,89773.78
체크카드,26536652,260163.25,102,66063.7
현금,25579043,272117.48,94,81782.44
휴대폰,25727084,254723.6,101,84024.98


In [67]:
# 비율 따는 법

total_sales = df['매출액'].sum()
# 이렇게 해야 계산이 좀 덜해지겠지???

def ratio(x):
    return x.sum() * 100 / total_sales

df.groupby('결제방법').agg({
    '매출액': ['sum', 'mean', 'count', 
            ('비율(%)', ratio)
            ],
    '단가': 'mean'
}).round(3)

Unnamed: 0_level_0,매출액,매출액,매출액,매출액,단가
Unnamed: 0_level_1,sum,mean,count,비율(%),mean
결제방법,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
계좌이체,26376866,251208.248,105,20.331,81029.835
신용카드,25514730,260354.388,98,19.667,89773.785
체크카드,26536652,260163.255,102,20.455,66063.698
현금,25579043,272117.479,94,19.716,81782.443
휴대폰,25727084,254723.604,101,19.831,84024.975


In [73]:
# 고객별 구매패턴(매출액 sum mena count, 상품 고유 수, 카테고리 고유 수)
df.groupby('고객ID').agg({
    '매출액': ['sum', 'mean', 'count'],
    '상품ID': lambda x: x.nunique(),
    '상품ID':  'nunique',
    '카테고리': 'nunique'
}).round(2).sort_values(('매출액', 'sum'), ascending=False).head(3)

# sort_values(['a', 'b']) => ORDER BY a, b(이중 기준)
# sort_values(('a', 'sum')) => col 'a'의 'sum' 값을 기준으로 정렬
# sort_values([('a', 'sum'), 'b']) => 이거 이해하면 됨 ㅇㅇ

Unnamed: 0_level_0,매출액,매출액,매출액,상품ID,카테고리
Unnamed: 0_level_1,sum,mean,count,nunique,nunique
고객ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
CUST092,2814587,255871.55,11,11,5
CUST017,2814138,281413.8,10,10,6
CUST005,2709222,338652.75,8,8,5


In [None]:
# 주별 매출 추이
weekly_sales = df.groupby('주').agg({
    '매출액': ['sum', 'mean', 'count'],
}).round(2)

Unnamed: 0_level_0,매출액,매출액,매출액
Unnamed: 0_level_1,sum,mean,count
주,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,1693663,211707.88,8
2,1796630,224578.75,8
3,1796731,224591.38,8
4,2232358,372059.67,6
5,2203467,314781.0,7
6,2250272,250030.22,9
7,3313923,301265.73,11
8,4689983,312665.53,15
9,2898753,241562.75,12
10,1507064,301412.8,5


In [80]:
# 매출 TOP 10 상품
df['상품랭킹'] = df.groupby('상품ID')['매출액'].rank(method='dense', ascending = False)
df

df.groupby('상품ID')['매출액'].sum().sort_values(ascending=False).head(10)

상품ID
PROD040    4878382
PROD029    4260616
PROD038    3825127
PROD047    3793126
PROD009    3737512
PROD033    3645223
PROD010    3625484
PROD017    3608202
PROD036    3543357
PROD026    3516412
Name: 매출액, dtype: int64

## 데이터 결합
1. 데이터 단순 결합`concat`
2. 데이터 병합`merge`
3. Index 기준 `Join`

In [86]:
# 데이터 결합 기초 (concat) - 행결합 (Col 똑같아야 함)

# 샘플 데이터 생성
# 첫 번째 데이터프레임: 1월 판매 데이터
df1 = pd.DataFrame({
    '상품ID': ['A001', 'A002', 'A003', 'A004', 'A005'],
    '상품명': ['노트북', '스마트폰', '태블릿', '헤드폰', '스피커'],
    '판매량_1월': [10, 20, 15, 30, 25]
})

# 두 번째 데이터프레임: 2월 판매 데이터
df2 = pd.DataFrame({
    '상품ID': ['A001', 'A003', 'A005', 'A006', 'A007'],
    '상품명': ['노트북', '태블릿', '스피커', '마우스', '키보드'],
    '판매량_2월': [12, 18, 23, 15, 19]
})

# 기본 concat - 행 결합 -> 안맞는 컬럼은 NaN
pd.concat([df1, df2])

# 인덱스 초기화 (겹치는 인덱스 없이 처음부터 다시)
pd.concat([df1, df2], ignore_index=True)

# 열 방향 결합
pd.concat([df1, df2], axis=1)

# join inner (공통 열만 유지)
pd.concat([df1, df2], join='inner')

Unnamed: 0,상품ID,상품명
0,A001,노트북
1,A002,스마트폰
2,A003,태블릿
3,A004,헤드폰
4,A005,스피커
0,A001,노트북
1,A003,태블릿
2,A005,스피커
3,A006,마우스
4,A007,키보드


In [None]:
# 데이터 병합 (merge)
import pandas as pd
import numpy as np

# 샘플 데이터 생성
# 상품 정보 데이터프레임
products = pd.DataFrame({
    '상품ID': ['P001', 'P002', 'P003', 'P004', 'P005'],
    '상품명': ['노트북', '스마트폰', '태블릿', '헤드폰', '스피커'],
    '가격': [1200000, 850000, 500000, 150000, 75000],
    '카테고리': ['컴퓨터', '모바일', '모바일', '음향기기', '음향기기']
})

# 주문 정보 데이터프레임
orders = pd.DataFrame({
    '주문번호': [1001, 1002, 1003, 1004, 1005, 1006],
    '고객ID': ['C001', 'C002', 'C003', 'C001', 'C004', 'C002'],
    '상품ID': ['P001', 'P002', 'P003', 'P002', 'P005', 'P006'],
    '수량': [1, 2, 1, 1, 3, 2],
    '주문일자': ['2023-01-05', '2023-01-10', '2023-01-15', '2023-01-20', '2023-01-25', '2023-01-30']
})

print("상품 정보:")
print(products)
print("\n주문 정보:")
print(orders)

# 기본병합(Inner Join)
pd.merge(orders, products, on='상품ID') # 상품ID 기준 Inner Join

# Outer Join
pd.merge(orders, products, on='상품ID', how='outer')

# Left Join
pd.merge(orders, products, on='상품ID', how='left')



상품 정보:
   상품ID   상품명       가격  카테고리
0  P001   노트북  1200000   컴퓨터
1  P002  스마트폰   850000   모바일
2  P003   태블릿   500000   모바일
3  P004   헤드폰   150000  음향기기
4  P005   스피커    75000  음향기기

주문 정보:
   주문번호  고객ID  상품ID  수량        주문일자
0  1001  C001  P001   1  2023-01-05
1  1002  C002  P002   2  2023-01-10
2  1003  C003  P003   1  2023-01-15
3  1004  C001  P002   1  2023-01-20
4  1005  C004  P005   3  2023-01-25
5  1006  C002  P006   2  2023-01-30


Unnamed: 0,주문번호,고객ID,상품ID,수량,주문일자,상품명,가격,카테고리
0,1001,C001,P001,1,2023-01-05,노트북,1200000.0,컴퓨터
1,1002,C002,P002,2,2023-01-10,스마트폰,850000.0,모바일
2,1003,C003,P003,1,2023-01-15,태블릿,500000.0,모바일
3,1004,C001,P002,1,2023-01-20,스마트폰,850000.0,모바일
4,1005,C004,P005,3,2023-01-25,스피커,75000.0,음향기기
5,1006,C002,P006,2,2023-01-30,,,


In [87]:
customers = pd.DataFrame({
    'ID': ['C001', 'C002', 'C003', 'C004', 'C005'],
    '이름': ['김철수', '이영희', '박민수', '정지영', '최동민'],
    '등급': ['VIP', '골드', '실버', '골드', '브론즈']
})

# 열 이름이 다르면?
pd.merge(
    orders, 
    customers, 
    left_on='고객ID',  # orders 데이터프레임의 열 이름
    right_on='ID',    # customers 데이터프레임의 열 이름
    how='inner'
)

Unnamed: 0,주문번호,고객ID,상품ID,수량,주문일자,ID,이름,등급
0,1001,C001,P001,1,2023-01-05,C001,김철수,VIP
1,1002,C002,P002,2,2023-01-10,C002,이영희,골드
2,1003,C003,P003,1,2023-01-15,C003,박민수,실버
3,1004,C001,P002,1,2023-01-20,C001,김철수,VIP
4,1005,C004,P005,3,2023-01-25,C004,정지영,골드
5,1006,C002,P006,2,2023-01-30,C002,이영희,골드


In [88]:
# 샘플 데이터셋 생성
# 1. 고객 정보 데이터
customers = pd.DataFrame({
    '고객ID': [f'CUST{i:03d}' for i in range(1, 11)],
    '이름': ['김철수', '이영희', '박민수', '정지영', '최동민', '강준호', '윤서연', '임태혁', '한미래', '송지원'],
    '성별': ['남', '여', '남', '여', '남', '남', '여', '남', '여', '여'],
    '연령대': ['30대', '20대', '40대', '30대', '50대', '20대', '40대', '30대', '20대', '50대'],
    '가입일자': pd.date_range('2023-01-01', periods=10, freq='3D'),
    '지역': ['서울', '부산', '서울', '인천', '대구', '서울', '부산', '인천', '서울', '대구']
})

# 2. 주문 정보 데이터
np.random.seed(42)
n_orders = 50

orders = pd.DataFrame({
    '주문번호': [f'ORD{i:04d}' for i in range(1, n_orders+1)],
    '고객ID': np.random.choice(customers['고객ID'], n_orders),
    '주문일자': pd.date_range('2023-01-05', periods=n_orders, freq='2D'),
    '결제방법': np.random.choice(['신용카드', '체크카드', '계좌이체', '간편결제'], n_orders),
    '배송상태': np.random.choice(['배송완료', '배송중', '주문확인', '배송지연'], n_orders, p=[0.7, 0.15, 0.1, 0.05])
})

# 3. 주문 상세 정보 데이터
n_details = 80
products = ['노트북', '스마트폰', '태블릿', '헤드폰', '스피커', '키보드', '마우스', '모니터']
categories = ['전자제품', '컴퓨터', '주변기기', '음향기기']

order_details = pd.DataFrame({
    '상세번호': [f'ITEM{i:04d}' for i in range(1, n_details+1)],
    '주문번호': np.random.choice(orders['주문번호'], n_details),
    '상품명': np.random.choice(products, n_details),
    '카테고리': np.random.choice(categories, n_details),
    '수량': np.random.randint(1, 5, n_details),
    '가격': np.random.choice([50000, 100000, 150000, 800000, 1200000, 1500000], n_details),
    '할인율': np.random.choice([0, 0.1, 0.2, 0.3], n_details)
})

# 4. 배송 정보 데이터
shipping = pd.DataFrame({
    '주문번호': orders['주문번호'].unique(),
    '배송사': np.random.choice(['A택배', 'B물류', 'C익스프레스'], len(orders['주문번호'].unique())),
    '배송비': np.random.choice([0, 2500, 5000], len(orders['주문번호'].unique())),
    '출고일자': pd.date_range('2023-01-06', periods=len(orders['주문번호'].unique()), freq='2D')
})

# 5. 고객 만족도 데이터 (일부 주문에 대해서만)
satisfaction_orders = np.random.choice(orders['주문번호'], size=30, replace=False)
satisfaction = pd.DataFrame({
    '주문번호': satisfaction_orders,
    '만족도': np.random.randint(1, 6, 30),
    '리뷰': np.random.choice(['긍정', '중립', '부정'], 30, p=[0.6, 0.3, 0.1]),
    '리뷰일자': pd.date_range('2023-01-15', periods=30, freq='3D')
})