## 1. df_temp = df.set_index('InvoiceDate')
이 코드는 InvoiceDate 컬럼을 데이터프레임의 **인덱스(Index)**로 설정하는 역할을 합니다.

set_index('InvoiceDate'): "InvoiceDate 컬럼을 기준으로 데이터를 재정렬하고, 이 컬럼을 행(row)을 대표하는 이름표로 사용하겠다"는 의미입니다.

왜 필요한가? 🗓️: Pandas에서 resample처럼 강력한 시계열 함수를 사용하려면, 데이터가 시간 순서에 따라 정렬되어 있다는 것을 알려줘야 합니다. 날짜/시간 컬럼을 인덱스로 지정하면, Pandas는 이 데이터프레임을 '시계열 데이터'로 인식하고 관련 기능들을 활성화합니다.

비유: 일반적인 목록을 날짜가 적힌 달력으로 바꾸는 것과 같습니다. 일단 달력으로 바뀌면 "1월 데이터만 모아줘" 또는 "매주 금요일 데이터만 뽑아줘" 같은 시간 기반의 작업이 매우 쉬워집니다.

## 2. monthly_sales = df_temp['TotalPrice'].resample('M').sum()
이 코드는 시간 인덱스를 바탕으로 데이터를 월별로 그룹화하고, 각 그룹의 합계를 계산합니다.

df_temp['TotalPrice']: 먼저 우리가 집계하고 싶은 대상인 TotalPrice 컬럼만 선택합니다.

.resample('M') 📥: **리샘플(Resample)**은 시계열 데이터의 시간 간격을 변경하는 기능입니다. 쉽게 말해 시간을 기준으로 데이터를 다시 그룹화하는 것입니다.

'M': 'Month End frequency'의 약자로, "월말"을 기준으로 데이터를 그룹화하라는 의미입니다. 즉, 같은 달에 속한 모든 데이터를 하나의 그룹으로 묶어줍니다.

(참고) 'D'는 일(Day), 'W'는 주(Week), 'Q'는 분기(Quarter) 단위로 그룹화할 수 있습니다.

.sum() ➕: 그룹화된 데이터에 적용할 집계 함수입니다. resample('M')으로 묶인 월별 그룹 내의 모든 TotalPrice 값을 전부 더해서 '월별 총매출액'을 계산합니다. 만약 .mean()을 썼다면 '월별 평균 거래액'이 계산됩니다.

## Pandas 주요 집계 함수 요약

| 함수 (Function) | 설명 | 예시 코드 |
| :--- | :--- | :--- |
| **`nunique()`** | **고유한 값의 개수**를 셉니다. (NaN은 제외) | `df.groupby('ID').agg(Transaction='nunique')` |
| **`count()`** | **값이 있는(non-null) 데이터의 개수**를 셉니다. | `df.groupby('ID').agg(Visits='count')` |
| **`size()`** | **전체 데이터의 개수**를 셉니다. (NaN 포함) | `df.groupby('ID').size()` |
| **`sum()`** | 그룹 내 모든 값의 **합계**를 계산합니다. | `df.groupby('ID').agg(TotalPrice='sum')` |
| **`mean()`** | 그룹 내 모든 값의 **평균**을 계산합니다. | `df.groupby('ID').agg(AvgPrice='mean')` |
| **`median()`** | 그룹 내 모든 값의 **중앙값**을 계산합니다. | `df.groupby('ID').agg(MedianPrice='median')` |
| **`max()`** | 그룹 내에서 **최대값**을 찾습니다. | `df.groupby('ID').agg(MaxPurchase='max')` |
| **`min()`** | 그룹 내에서 **최소값**을 찾습니다. | `df.groupby('ID').agg(MinPurchase='min')` |
| **`std()`** | 그룹 내 값들의 **표준편차**를 계산합니다. | `df.groupby('ID').agg(PriceStd='std')` |
| **`first()`** | 그룹 내에서 **첫 번째 값**을 가져옵니다. | `df.groupby('ID').agg(FirstVisit='first')` |
| **`last()`** | 그룹 내에서 **마지막 값**을 가져옵니다. | `df.groupby('ID').agg(LastVisit='last')` |
| **`agg(lambda ...)`** | **사용자가 직접 함수를 정의**하여 사용합니다. | `df.groupby('ID').agg(Recency=lambda date: (snapshot_date - date.max()).days)` |