# MultiIndex

### 여러 인덱스를 사용하는 방식
- 계층적 인덱싱이라고도 함.
- 고차 데이터를 분석하고 연산할 때 사용
- 판다스에서 기존에 사용하는 표준 인덱스를 계층적으로 처리하는 것.
- 이 때, 튜플 배열 형태를 사용함.

- 이를 생성하려면 헬퍼 메소드인 MultiIndex.from_arrays(), MultiIndex.from_product(), MultiIndex.from_tuples() 중 하나를 사용.

In [None]:
# 예시 코드: array 꼴을 사용하여 생성
import pandas as pd
arr = [[1,1,2,2], ['red', 'blue', 'red', 'blue']]
pd.MultiIndex.from_arrays(arr, names = ('number', 'color'))


In [None]:
# 예시코드: 튜플형태로 생성
arr = [[1,1,2,2], ['red', 'blue', 'red', 'blue']]
tuples = list(zip(*arr))
ind = pd.MultiIndex.from_tuples(tuples, names = ['first', 'second'])
print(ind)

## This Module's Dataset

### 나라별 빅맥 가격: 국가별 inflation측정에서 많이 사용되는 데이터임

In [None]:
# 그냥 불러오자.
bigmac_init = pd.read_csv("bigmac.csv")
bigmac_init.head()

In [None]:
# info
bigmac_init.info()

##  데이터를 좀 정돈해서 불러오자. parse_dates, date_format 사용
- parse_dates=["Date"]는 Pandas의 read_csv() 함수에서 자주 사용되는 옵션 중 하나로, 문자열로 되어 있는 날짜 데이터를 datetime 객체로 자동 변환해주는 기능
- CSV 파일에 날짜 정보는 보통 문자열(string)로 저장 ->  Pandas에서는 날짜형 데이터를 datetime64[ns] 타입으로 다루는 것이 좋음.
- 날짜 형식을 명확히 알고 있으면 date_format="%Y-%m-%d"처럼 함께 지정하면 속도가 더 빨라짐 (i.e., date_format 옵션 사용)

In [None]:
# 데이터를 좀 정돈해서 불러오자. parse_dates, date_format 사용
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], date_format="%Y-%m-%d")
bigmac.head()

## 각 열의 데이터 타입 확인

In [None]:
bigmac.dtypes # 데이터 타입 확인 : Date 열이 datetime 형태인가?

In [None]:
bigmac.info() # info 확인: 메모리 효율성

## Create a MultiIndex
- A **MultiIndex** is an index with multiple levels or layers.
- Pass the `set_index` method a list of colum names to create a multi-index **DataFrame**.
- The order of the list's values will determine the order of the levels.
- Alternatively, we can pass the `read_csv` function's `index_col` parameter a list of columns.

## 멀티인덱스 생성하기
- **멀티인덱스(MultiIndex)**는 여러 계층 또는 레벨을 가진 인덱스입니다.
- `set_index` 메서드에 열 이름들의 리스트를 전달하여 멀티인덱스 **데이터프레임**을 생성할 수 있습니다.
- 리스트 안 값들의 순서는 인덱스 계층의 순서를 결정합니다.
- 또는 `read_csv` 함수의 `index_col` 인자에 열 리스트를 넘겨주는 방법도 있습니다.


## 인덱스를 날짜로 지정해보자: 중복된 날짜가 보이는가? 인덱스로 기능할 수 있을까?

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], date_format="%Y-%m-%d", index_col=["Date"]).sort_index()
bigmac.head()

## 인덱스를 국가로 지정해보자. 인덱스로 기능할 수 있을까?

- 데이터 프레임을 합치거나 할 때, 인덱스가 겹치면 곤란하다.

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], date_format="%Y-%m-%d", index_col=["Country"]).sort_index()
bigmac.head()

## 나라와 날짜를 모두 인덱스로 써야, 고유한 값을 추출하는데에 쓸 수 있는 인덱스로써의 기능을 할 수 있다.

In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], date_format="%Y-%m-%d")
# 어떻게 하면 될까? 둘다 인덱스로 하려면? (위의 예제 참조)
# 인덱스 설정 후 sort_index() 를 써서 정렬하여 잘 정리되었는지 보자.

* 이제 모든 값이 고유한 멀티인덱스를 갖게 되었다.

* Country, Date 를 순서로 멀티 인덱스를 생성해보자.

In [None]:
# 여기에

* 제일 outer 에 있는 인덱스가 가장 적은 수를 갖는 순서로 정렬하는 것 추천. nunique() 를 통해 고유값들을 미리 확인. -> 하지만, 물론 목적에 맞게 쓰는게 우선임.

In [None]:
bigmac.nunique() #Data > Country

* 데이터를 불러올 때부터 멀티 인덱스로 정해도 됨.

In [None]:
# 여기에 - 해보자.

* 인덱스 확인

In [None]:
bigmac.index # 인덱스 확인 가능.

* 튜플 형태이기 때문에 인덱싱으로 접근 가능
- 튜플은 이뮤터블이기 때문에 고유한 인덱스 보존에 용이함.

In [None]:
bigmac.index[0] # 이 형태로 특정 값에 접근 가능.

* 인덱스로 쓰는 열의 이름 확인

In [None]:
bigmac.index.____ #

## Extract Index Level Values
- The `get_level_values` method extracts an **Index** with the values from one level in the **MultiIndex**.
- Invoke the `get_level_values` on the **MultiIndex**, not the **DataFrame** itself.
- The method expects either the level's index position or its name.

## 인덱스 레벨 값 추출하기
- `get_level_values` 메서드는 **멀티인덱스** 중 하나의 레벨에서 값을 추출한 **인덱스**를 반환합니다.
- 이 메서드는 **데이터프레임**이 아니라 **멀티인덱스** 객체에서 호출해야 합니다.
- 레벨의 인덱스 위치나 이름 중 하나를 인자로 전달하면 됩니다.


In [None]:
# 일단 데이터를 불러오고.
# 이 때, 인덱스 포지션 0 은 Date, Country 는 인덱스 포지션 1 이됨.
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], date_format="%Y-%m-%d", index_col=["Date", "Country"]).sort_index()
bigmac.head()

* get_level_values 를 사용해서 인덱스에 이름으로 접근해보자.

In [None]:
bigmac.index.____("Date") #


* 인덱스 0 으로 Date 에 접근해보자.

In [None]:
bigmac.index.get_level_values(__) #


* 같은 방식으로 Country 인덱스에 이름과 포지션 인덱스를 사용하여 접근해보자.

In [None]:
# 여기에 - 해보기

## Rename Index Levels
- Invoke the `set_names` method on the **MultiIndex** to change one or more level names.
- Use the `names` and `level` parameter to target a nested index at a given level.
- Alternatively, pass `names` a list of strings to overwrite *all* level names.
- The `set_names` method returns a copy, so replace the original index to alter the **DataFrame**.

## 인덱스 레벨 이름 변경하기
- 하나 이상의 인덱스 레벨 이름을 변경하려면 **멀티인덱스**에서 `set_names` 메서드를 사용하세요.
- 특정 레벨의 인덱스를 지정하려면 `names`와 `level` 매개변수를 함께 사용합니다.
- 모든 레벨의 이름을 한 번에 변경하려면 문자열 리스트를 `names`에 전달하면 됩니다.
- `set_names`는 복사본을 반환하므로, 원래 인덱스를 교체해야 **데이터프레임**에 반영됩니다.


In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], date_format="%Y-%m-%d", index_col=["Date", "Country"]).sort_index()
bigmac.head() # 항상 잘 불려왔는지 (의도대로) 확인해야함.

* set_names() 를 사용해서 이름을 재정비할 수 있음. (shift + tab 을 사용해서 함수 기본 형태 확인)

* 이 때, 이름과 레벨을 사용하여 레벨 몇의 이름을 무엇으로 바꿀지 옵션을 줄 수 있음.
* level 0 의 인덱스 이름을 Time 으로 바꿔보자.

In [None]:
bigmac.index.set_names(names = ___, level = __) # 이건 multiindex 의 카피임.

* level 1 의 이름을 Countries 로 바꿔보자.

In [None]:
# 여기에

* 이름을 한번에 바꿔보자.

In [None]:
bigmac.index.set_names(names=[__, ___]) # Time, Location 으로 이름 바꾸기
bigmac.index = bigmac.index.set_names(names=[__, ___]) # 그 카피본을 원본에 반영 후
bigmac.index # 확인

In [None]:
bigmac.head()

In [None]:
bigmac.index

## The sort_index Method on a MultiIndex DataFrame
- Using the `sort_index` method, we can target all levels or specific levels of the **MultiIndex**.
- To apply a different sort order to different levels, pass a list of Booleans.

## 멀티인덱스 데이터프레임에서 sort_index 메서드 사용하기
- `sort_index` 메서드를 사용하면 **멀티인덱스**의 모든 레벨 또는 특정 레벨을 정렬할 수 있습니다.
- 서로 다른 정렬 순서를 레벨별로 적용하려면 불리언 값의 리스트를 전달하면 됩니다.


In [None]:
# sort_index 안하고 진행해서 어떻게 다르게 정렬할 수 있는지 보자.
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], date_format="%Y-%m-%d", index_col=["Date", "Country"])
bigmac.head()

* 이 상태에서 sort_index 를 적용하면 outer 를 작은것-> 큰 것 순으로 정렬하고, 그 다음 단계 레벨을 ascending 으로 정렬함.

In [None]:
# 여기에

* ascending = False 로 하면 어떻게 되는지 보자.

In [None]:
# 여기에

* 그러면, level = 0 과 level= 1 을 다른 순서로 정렬하고 싶으면 어떻게 해야할까?

In [None]:
# level = 0 은 오름차순, level = 1 은 내림 차순 ?
bigmac.sort_index(ascending=[True, __])

* 반대로, level 0 은 내림차순, level 1 은 오름차순?

In [None]:
# 여기에



---





---



## Extract Rows from a MultiIndex DataFrame
- A **tuple** is an immutable list. It cannot be modified after creation.
- Create a tuple with a comma between elements. The community convention is to wrap the elements in parentheses.
- The `iloc` and `loc` accessors are available to extract rows by index position or label.
- For the `loc` accessor, pass a tuple to hold the labels from the index levels.

## 멀티인덱스 데이터프레임에서 행 추출하기
- **튜플(tuple)**은 수정이 불가능한 리스트로, 한 번 생성되면 변경할 수 없습니다.
- 요소 사이에 쉼표를 두고 괄호로 묶어 튜플을 생성합니다. 이는 일반적인 관례입니다.
- `iloc`과 `loc` 접근자를 사용하면 인덱스 위치나 라벨로 행을 추출할 수 있습니다.
- `loc` 접근자 사용 시, 튜플을 전달하여 각 인덱스 레벨의 라벨을 지정해야 합니다.


In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], date_format="%Y-%m-%d", index_col=["Date", "Country"]).sort_index()
bigmac.head() # 다시 sort_index 적용한 데이터프레임 확인.

* 다시 iloc 을 사용하여 접근해보자. 멀티 인덱스는 어떻게 적용되는지 살펴보자.

In [None]:
bigmac.iloc[__] # 파이썬 인덱스가 2인 행에 접근 (각 row 에 해당하는 인덱스가 생성됨)

* loc 을 사용하여 2000-04-01 에 해당하는 정보에 접근해보자. 멀티인덱스는 어떻게 적용되는가?

In [None]:
# 여기에

* 2000-04-01 의 Canada 데이터에 loc 을 사용하여 접근해보자.

In [None]:
# 여기에

* 인덱스가 아닌 열이름에도 같이 접근이 가능하다.

In [None]:
bigmac.loc["2000-04-01", "Price in US Dollars"]
# 어떤 값들에 접근이 되고 있는가?

* 다음 단계 인덱스가 올 수도 있고, 열이름이 올 수도 있기 때문에, 이 방법은 가능하나 권장되지 않음. 대신 튜플 형태를 사용하여 인덱스 부분과 열이름을 구분하는 것이 좋음.

In [None]:
bigmac.loc[("2000-04-01", "Canada")] # 멀티인덱스 튜플

In [None]:
bigmac.loc[("2000-04-01", "Canada"), "Price in US Dollars"] # 인덱스와 열이름

* 멀티 인덱스에서도 슬라이싱이 가능함.

In [None]:
start = ("2000-04-01", "Hungary")
end = ("2000-04-01", "Poland")
bigmac.loc[start:end] # 슬라이싱

In [None]:
bigmac.loc[("2012-01-01", __): ("2013-07-01", __)] # 브라질부터 터키까지 슬라이싱


## The transpose Method
- The `transpose` method inverts/flips the horizontal and vertical axes of the **DataFrame**.

## transpose 메서드
- `transpose` 메서드는 **데이터프레임**의 가로축과 세로축을 뒤바꿉니다.


In [None]:
bigmac = pd.read_csv("bigmac.csv", parse_dates=["Date"], date_format="%Y-%m-%d", index_col=["Date", "Country"]).sort_index()
bigmac.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2000-04-01,Argentina,2.5
2000-04-01,Australia,1.541667
2000-04-01,Brazil,1.648045
2000-04-01,Britain,3.002
2000-04-01,Canada,1.938776


* 2018-01-01, China 에서의 가격부터 2018-01-01 Denmark 의 가격까지 갖고와보자.

In [None]:
# 여기에

* 위에서 추출한 데이터프레임의 행과 열을 바꿔보자 (transpose)

* 열 이름 형태가 어떻게 바뀌었는가? 주석으로 간단히 설명해보자.

In [None]:
# 여기에
______. transpose()

## The stack Method
- The `stack` method moves the column index to the row index.
- Pandas will return a **MultiIndex Series**.
- Think of it like "stacking" index levels for a **MultiIndex**.

## stack 메서드
- `stack` 메서드는 열 인덱스를 행 인덱스로 이동시킵니다.
- 이 메서드를 사용하면 Pandas는 **멀티인덱스 시리즈**를 반환합니다.
- 인덱스 레벨을 아래로 "쌓는" 방식이라고 생각할 수 있습니다.


In [None]:
world = pd.read_csv("worldstats.csv")

* 더 적은 수의 고유한 값이 있는 부분을 outer index 로 쓴다면 무엇을 먼저 인덱스 레벨로 쓰는게 좋을까?

In [None]:
# 여기에

* 해당 열을 확인해서, 2단계 멀티인덱스를 만들어보자.

In [None]:
world = pd.read_csv("worldstats.csv", index_col = ["year", "country"]).sort_index()

In [None]:
world.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Population,GDP
year,country,Unnamed: 2_level_1,Unnamed: 3_level_1
1960,Afghanistan,8994793.0,537777800.0
1960,Algeria,11124892.0,2723638000.0
1960,Australia,10276477.0,18567590000.0
1960,Austria,7047539.0,6592694000.0
1960,"Bahamas, The",109526.0,169802300.0


* 이 world 에 stack()을 적용하면 어떻게되는지 실행해보고, 어떤 변화가 생겼는지 주석으로 설명해보라.

In [None]:
world.stack() # 설명!?

* 데이터 형태가 어떻게 되었나 확인해보자.

In [None]:
type(world.stack()) # 무엇이 되었는가?

* 물론 다시 데이터프레임으로 만들 수도 있다. (to_frame()사용)

In [None]:
world.stack().____ #

## The unstack Method
- The `unstack` method moves a row index to the column index (the inverse of the `stack` method).
- By default, the `unstack` method will move the innermost index.
- We can customize the moved index with the `level` parameter.
- The `level` parameter accepts the level's index position or its name. It can also accept a list of positions/names.

## unstack 메서드
- `unstack` 메서드는 행 인덱스를 열 인덱스로 이동시킵니다 (`stack` 메서드의 반대 동작).
- 기본적으로 가장 안쪽의 인덱스가 열 인덱스로 이동됩니다.
- `level` 파라미터를 사용하여 이동시킬 인덱스를 지정할 수 있습니다.
- `level`에는 인덱스의 위치나 이름을 지정할 수 있으며, 위치나 이름의 리스트도 사용할 수 있습니다.


In [None]:
world = pd.read_csv("worldstats.csv", index_col=["year", "country"]).sort_index().stack()
world.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
year,country,Unnamed: 2_level_1,Unnamed: 3_level_1
1960,Afghanistan,Population,8994793.0
1960,Afghanistan,GDP,537777800.0
1960,Algeria,Population,11124890.0
1960,Algeria,GDP,2723638000.0
1960,Australia,Population,10276480.0


* 가장 안쪽에 있는 레벨의 인덱스를 컬럼으로 바꿔줌.

In [None]:
# 여기에
world.unstack() # -> 어떻게 되는지 주석으로 설명하라.

* 한번더 하면 어떻게 될까?

In [None]:
world.unstack().___ # 한번더 unstack() 적용


* 열로 바꿔줄 행의 인덱스 레벨을 설정할 수 있음

In [None]:
world.unstack(level=___) # 제일 바깥 쪽을 unstack 하려면?

* 같은 기능을 해당 레벨 멀티인덱스의 이름으로 옵션을 줘서 설정할 수도 있다.

In [None]:
world.unstack(level=___) # 이름으로 레벨 옵션 설정

* 기본적으로 인덱싱 방식을 적용하기 때문에 음의 인덱스를 적용할 수도 있음.

In [None]:
world.unstack(level=__) # level = 0 을 옮기는 것과 같은 기능하려면 어떤 음수 인덱스 필요?

* country 레벨을 unstack 한기위해 1) 양의 인덱스, 2) 레벨 이름, 3) 음의 인덱스 쓰는 세가지 방식을 적용해보라.

In [None]:
# 여기에

* unstack 하고 싶은 여러개 열 이름을 리스트 꼴로 설정할 수도 있음.

In [None]:
# country 와 year 를 한번에 unstack 해보자.
# (1) 인덱스로
world.unstack([1, 0]) # 열의 멀티인덱스

In [None]:
# (2) 레벨의 이름으로
world.unstack([____, ____])

In [None]:
# (2-1) 레벨 이름으로 unstack 한 후, 열 이름을 정렬할 수 있음.
world.unstack(["country", "year"]).sort_index(axis = __) # 열 이름을 중심으로 정렬하려면?

## The pivot Method
- The `pivot` method reshapes data from a tall format to a wide format.
- Ask yourself which direction the data will expand in if you add more entries.
- A tall/long format expands down. A wide format expands out.
- The `index` parameter sets the horizontal index of the pivoted **DataFrame**.
- The `columns` parameter sets the column whose values will be the columns in the pivoted **DataFrame**.
- The `values` parameter set the values of the pivoted **DataFrame**. Pandas will populate the correct values based on the index and column intersections.

## pivot 메서드
- `pivot` 메서드는 데이터를 세로 형태에서 가로 형태로 재구조화합니다.
- 데이터를 더 추가할 때 어느 방향으로 확장되는지를 생각해보세요.
- 세로 형식(tall/long format)은 아래로 확장되고, 가로 형식(wide format)은 옆으로 확장됩니다.
- `index` 파라미터는 피벗된 **데이터프레임**의 행 인덱스를 설정합니다.
- `columns` 파라미터는 피벗된 **데이터프레임**의 열 이름이 될 값을 가진 열을 지정합니다.
- `values` 파라미터는 피벗된 **데이터프레임**의 실제 값을 설정하며, Pandas는 인덱스와 열 조합에 따라 올바른 값을 채워 넣습니다.


In [None]:
sales = pd.read_csv("salesmen.csv")
sales

* 회사 대표는 각 세일즈맨을 각 열로 보고자 한다. 그렇다면, 어떻게 데이터프레임을 재조직해야할까?
```
#           Sharon   Oscar  Salesman 1  Salesman 2   New Salesman
# Date
# 1/1/2025	 7172	 1864
# 1/2/2025	 7543	 7105
# 1/3/2025	 1053	 6851
```

In [None]:
# wide format 으로 확장되어야한다.
# pivot 이 이런 변형을 하게 도와준다.
# 원본 데이터에서 index 로 쓰고 싶은 열의 이름을 index 옵션에 넣음: 여기서는 Date
# 각 열이름으로 만들고 싶은 값이 들어있는 열이름을 columns 에 넣어줌: 여기서는 Salesman
# 어떤 열을 values 로 쓸 것인가: 여기서는 Revenue

sales.pivot(index = ___, columns = ___, values = __ ) # values 옵션이 없으면 모든 값을 사용

* 원본대비 사이즈가 어떻게 줄어들었는지 확인해보라.

In [None]:
# 여기에 간단히 설명하라.

## The melt Method
- The `melt` method is the inverse of the `pivot` method.
- It takes a 'wide' dataset and converts it to a 'tall' dataset.
- The `melt` method is ideal when you have multiple columns storing the *same* data point.
- Ask yourself whether the column's values are a *type* of the column header. If they're not, the data is likely stored in a wide format.
- The `id_vars` parameters accepts the column whose values will be repeated for every column.
- The `var_name` parameter sets the name of the new column for the varying values (the former column names).
- The `value_name` parameter set the new name of the values column (holding the values from the original **DataFrame**).

## melt 메서드
- melt 메서드는 pivot 메서드의 반대 동작을 수행합니다.

- 가로 형태(wide format)의 데이터를 세로 형태(tall format)로 변환합니다.

- 여러 열이 동일한 종류의 데이터를 담고 있을 때 melt는 가장 적절한 도구입니다.

- **각 열의 값이 열 이름의 유형인지 스스로에게 물어보세요. 그렇지 않다면, 데이터는 wide format으로 저장되었을 가능성이 높습니다.**

- id_vars 파라미터는 반복될 식별자 역할을 하는 열을 지정합니다.

- var_name 파라미터는 열 이름들이 모여 새로운 열로 전환될 때, 그 열의 이름을 설정합니다.

- value_name 파라미터는 기존 값들이 들어갈 새로운 열의 이름을 설정합니다 (DataFrame에서 가져온 원래 값들을 담습니다).



In [None]:
quarters = pd.read_csv("quarters.csv")
quarters

Unnamed: 0,Salesman,Q1,Q2,Q3,Q4
0,Boris,602908,233879,354479,32704
1,Piers,43790,514863,297151,544493
2,Tommy,392668,113579,430882,247231
3,Travis,834663,266785,749238,570524
4,Cindy,580935,411379,110390,651572
5,Rob,656644,70803,375948,321388
6,Mike,486141,600753,742716,404995
7,Stacy,479662,742806,770712,2501
8,Alexandra,992673,879183,37945,293710


* melt() 를 적용해보자. 이 때 id_vars, var_name, value_name 옵션을 적용할 것이다.

In [None]:
# id_vars 는 무엇이 반복될 것인가를 결정한다. 즉, 더 넓은 의미의 카테고리.
# 일단 Salesman 을 반복시켜서 해보자.
quarters.melt(id_vars = ____)

* 원본 데이터가 어떤 형태로 바뀌었는지 확인하고 정리해보자. melt 가 하는 일은 무엇인 것으로 생각되는가?

In [None]:
# 여기에

* var_name 은 변하는 변수의 이름을 주는 것이다. 여기서는 Q1, Q2, Q3, Q4 가 변하고 있는 변수여서 이에 맞는 이름을 하나 줄 수 있다.

In [None]:
# var_name = Quarter 로 줘보자.

quarters.melt(id_vars="Salesman", var_name=___ )

* 마찬가지로, value 의 이름을 value_name 으로 설정할 수 있다.

In [None]:
quarters.melt(id_vars="Salesman", var_name="Quarter", value_name=___)

## The pivot_table Method
- The `pivot_table` method operates similarly to the Pivot Table feature in Excel.
- A pivot table is a table whose values are aggregations of groups of values from another table.
- The `values` parameter accepts the numeric column whose values will be aggregated.
- The `aggfunc` parameter declares the aggregation function (the default is mean/average).
- The `index` parameter sets the index labels of the pivot table. MultiIndexes are permitted.
- The `columns` parameter sets the column labels of the pivot table. MultiIndexes are permitted.

## pivot_table 메서드
- `pivot_table` 메서드는 Excel의 피벗 테이블 기능과 유사하게 작동합니다.
- 피벗 테이블은 다른 테이블의 값 집합을 집계하여 만든 테이블입니다.
- `values` 파라미터는 집계할 숫자형 열을 지정합니다.
- **`aggfunc` 파라미터는 집계 함수(기본값은 평균)를 지정합니다.**
- `index` 파라미터는 피벗 테이블의 인덱스 라벨을 설정하며, 멀티인덱스를 사용할 수 있습니다.
- `columns` 파라미터는 피벗 테이블의 열 라벨을 설정하며, 멀티인덱스를 사용할 수 있습니다.


In [None]:
foods = pd.read_csv("foods.csv")
foods.head()

Unnamed: 0,First Name,Gender,City,Frequency,Item,Spend
0,Wanda,Female,Stamford,Weekly,Burger,15.66
1,Eric,Male,Stamford,Daily,Chalupa,10.56
2,Charles,Male,New York,Never,Sushi,42.14
3,Anna,Female,Philadelphia,Once,Ice Cream,11.01
4,Deborah,Female,Philadelphia,Daily,Chalupa,23.49


* 이 데이터를 요약하기 위해 pivot_table 을 사용해보자.

In [None]:
foods.pivot_table(values="Spend", index="Gender")
# 결과값을 보고 values 와 index 옵션의 기능을 설명해보라.
# numeric 값들에 대해 대표값이 default 로 무엇으로 설정되어있는가?

Unnamed: 0_level_0,Spend
Gender,Unnamed: 1_level_1
Female,50.709629
Male,49.397623


In [None]:
# 여기에

* 구체적으로 적용하고싶은 aggregation function (i.e., aggfunc) 옵션을 설정할 수도 있다.

In [None]:
foods.pivot_table(values="Spend", index="Gender", aggfunc="sum")# 평균이 아니라 총합이 궁금.

* Spend 한 값을 Item 별로 총 사용한 가격을 보고 싶다면?

In [None]:
# 여기에

* Index 를 여러 항목의 리스트로 줄 수도 있음.

In [None]:
# gender 와 item 별로 총 사용 금액을 확인하고 싶다면.
foods.pivot_table(values="Spend", index=[___, ____], aggfunc=___)


* 성별과 아이템별로 사용된 spend 한 총 액을 columns 옵션을 써서 각 도시별로 보고자 한다면!

In [None]:
foods.pivot_table(values="Spend", index=[__, ___], columns=__, aggfunc="sum")


* columns 에 여러 열을 사용해서 묶어서 볼 수도 있음.

In [None]:
# gender 와 city 별로 묶어서 보고 싶다면?
foods.pivot_table(values="Spend", index="Item", columns=[__, __], aggfunc="sum")


* columns 를 gender, city 로 한 상태에서 각 item 별로 구매 횟수를 세고 싶다면?

In [None]:
#

foods.pivot_table(values="Spend", index="Item", columns=["Gender", "City"], aggfunc=___)

 * 그 외에 aggfunc 로 max, min 도 적용가능함. 이를 활용하여, Spend 한 값을 각 항목과 성별 (Gender, Item) 별로 최대 최소 값을 확인하는 코드를 작성해보라.

In [None]:
# max


In [None]:
# min

* 편리한 옵션이 여러개 있음. 이 중 missing data 를 다루는데에 대한 옵션을 설정해서 처리할 수도 있음.

In [None]:


# 예시 데이터
df = pd.DataFrame({
    "Region": ["East", "East", "West", "West", "East"],
    "Product": ["Apple", "Banana", "Apple", "Banana", "Apple"],
    "Sales": [100, 80, 90, 70, None]
})

# 피벗 테이블 생성 (Product가 열이 됨)
pivot = pd.pivot_table(
    df,
    index="Region",
    columns="Product",
    values="Sales",
    aggfunc="mean",         # 평균으로 집계
    fill_value=0,           # 결측값을 0으로 채움
    dropna=False            # 인덱스에 NaN 포함 행도 유지 (기본은 True)
)

print(pivot)
