# 2023 - 01 - 20

# DataFrame apply() 메서드

DataFrame에 대해 Function을 적용하고 싶다면 apply()를 활용하면 좋다  
이 메서드는 첫 인자로 함수를 필수 값으로 받는다  
경우에 따라 두번째 인자로 axis를 사용 가능  
axis 인자는 0이 default  

- axis= 0 or index 인 경우 column에 대해 함수 적용  
- axis= 1 or columns 인 경우 row에 대해 함수 적용

```python
Pandas.DataFrame.apply  
DataFrame.apply(func, axis = 0, raw = false, result_type = None, args = (), **kwargs)
```

>Numpy의 np.sqrt를 사용하여 적용해보기  
>np.sqrt는 각 요소마다 적용되는 함수(universal function, ufunc로 이 경우에는 np.sqrt(df)와 동일한 결과

In [16]:
import pandas as pd
import numpy as np
df = pd.DataFrame([[4, 9]] * 3, columns = ['A', 'B'])

In [17]:
df.apply(np.sqrt)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [18]:
np.sqrt(df)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


>차원 축소 함수인 sum 을 활용하기  
>이때는 axis의 값에 따라 값의 축소되는 방향이 서로 달라 서로 결과가 다름

In [20]:
# axis가 0일 때 각 column별 집계
df.apply(np.sum, axis =0)

A    12
B    27
dtype: int64

In [21]:
df.apply(np.sum, axis=1)

0    13
1    13
2    13
dtype: int64

>함수의 return이 column마다 리스트를 반환하면 DataFrame의 결과를 얻을 수 있다  
>함수의 returrn이 row마다 리스트를 반환하면 각 row마다 리스트를 하나의 값으로 취급하는 Series 타입의 결과가 나옴

In [23]:
df.apply(lambda x : [1, 2], axis = 0)

Unnamed: 0,A,B
0,1,1
1,2,2


In [24]:
df.apply(lambda x : [1, 2], axis = 1)

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

>앞의 asix = 1에 동시에 result_type = 'expand'를 인수로 전달  
>그러면 이번에는 리스트를 하나의 값으로 보지 X 리스트 요소마다 column으로 인식하도록 확장  
>그래서 DataFrame 값을 얻을 수 있음  

In [26]:
df.apply(lambda x: [1, 2], axis = 1)

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

In [28]:
df.apply(lambda x: [1, 2], axis = 1, result_type='expand')

Unnamed: 0,0,1
0,1,2
1,1,2
2,1,2


>result_type = 'broadcast'를 인수로 전달하면 동일한 shape의 결과를 보장    
>함수로부터 반환되는 게 리스트인지 스칼라인지에 상관없이 axis 방향으로 브로드캐스트  
>결과의 column label은 본래의 column label 유지

In [35]:
df.apply(lambda x : [1, 2], axis=1, result_type = 'broadcast')
# 기존의 shape와 함수 return된 값의 shape의 크기가 동일 -> 브로드캐스팅 가능
# 기존의 shape :     3 X 2
# 함수 return shape :    2  # 함수 return shaped의 크가기 다르고 둘 중 하나가 1이 아니다 --> 브로드캐스팅 가능

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2


> column마다의 최대값과 최소값의 차이를 구하고 싶으면 다음과 같은 lambda함수를 넣으면 됨

In [33]:
df3 = pd.DataFrame({
    'A' : [1, 3, 4, 3, 4],
    'B' : [2, 3, 1, 2, 3],
    'C' : [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [34]:
df3.apply(lambda x : x.max() - x.min())

A    3
B    2
C    4
dtype: int64

> row에 대해 적용하고 싶으면 axis = 1인수를 사용 

In [37]:
df3.apply(lambda x : x.max() - x.min(), axis = 1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

> 각 column에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 value_counts 함수 넣기

In [40]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [39]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [123]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(10) # 데이터 중 앞의 5개를 봄

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


> 타이타닉호의 승객 중 나이 20살을 기준으로 성인과 미성년자 구별하는 label column 만들기

In [124]:
titanic["adult/child"] = titanic.apply(lambda x : "adult" if x.age >= 20 else "child", axis = 1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


# 연습문제

### 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 column인 category1 열을 만들어보기
1) 20살이 넘으면 성별 그대로 사용
2) 20살 미만이면 성별에 관계없이 "child" 라고 함

In [125]:
titanic["category1"] = titanic.apply(lambda x : x["sex"] if x.age >= 20 else "child", axis = 1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult,male
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult,male


# DataFrame fillna() 메서드

**** 여기서 부터 수정필요!!!!!!!!!!!!!!!!!!!!!!!!!!!!! **********

>fillna()메서드를 사용하여 NaN 값을 원하는 값으로 바꿀 수 있다  
>첫 인자로 NaN을 변경하고자 하는 값을 전달하면 됨

In [126]:
DataFrame.fillna(value=None, *, method=None, axis=None,
                 inplace = False, limit = Norr, downcast = None)

SyntaxError: iterable argument unpacking follows keyword argument unpacking (1927946162.py, line 1)

> fillna()메서드를 활용하여 NaN값을 0으로 변경하기

In [127]:
df = pd.DataFrame([[np.nan, 2, np]])

>fillna()메서드 value값으로 column label을 key로 갖는 딕셔너리를 전달 가능  
>column마다 NaN을 대치하는 값을 각각 다르게 지정 가능

In [128]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                 [3, 4, np.nan, 1],
                 [np.nan, np.nan, np.nan, np.nan],
                 [np.nan, 3, np.nan, 4]],
                  columns = list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


----------------------------

# 연습문제 

In [129]:
titanic[titanic['age'].isna()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,child
17,1,2,male,,0,0,13.0000,S,Second,man,True,,Southampton,yes,True,child,child
19,1,3,female,,0,0,7.2250,C,Third,woman,False,,Cherbourg,yes,True,child,child
26,0,3,male,,0,0,7.2250,C,Third,man,True,,Cherbourg,no,True,child,child
28,1,3,female,,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True,child,child
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True,child,child
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False,child,child
868,0,3,male,,0,0,9.5000,S,Third,man,True,,Southampton,no,True,child,child
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True,child,child


In [130]:
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,adult,male
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,child
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,adult,male
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False,child,child
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,adult,female
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,child,child


In [131]:
titanic.fillna({'age' : round(titanic['age'].mean(), 1)}, inplace=True)
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,adult,male
5,0,3,male,29.7,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,child
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,adult,male
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False,child,child
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,adult,female
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,child,child


-----------------------

# DataFrame astype() 메서드

***************정리 필요 ********

astype() 메서드로 column의 자료형을 바꾸는 것도 가능


dtype이 모두 int64인 DataFrame에 대해 astype('int32')를 호출해서 모든 col의 dtype 형 변환

In [135]:
d = {'coll':[1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data = d)
df.dtypes

coll    int64
col2    int64
dtype: object

In [136]:
df.astype('int32').dtypes

coll    int32
col2    int32
dtype: object

In [None]:
dtype을 dictionary로 전달해서 해당

In [138]:
df.astype({'coll': 'int32'}).dtypes

coll    int32
col2    int64
dtype: object

-------------------------

# 연습문제

In [159]:
titanic['category2'] = titanic['sex'].astype('str') + titanic['age'].astype('str') 
titanic[['age', 'category2']]

Unnamed: 0,age,category2
0,22.0,male22.0
1,38.0,female38.0
2,26.0,female26.0
3,35.0,female35.0
4,35.0,male35.0
...,...,...
886,27.0,male27.0
887,19.0,female19.0
888,29.7,female29.7
889,26.0,male26.0


In [163]:
titanic['category2'] = titanic.astype({'sex':'str'})['sex'] + titanic.astype({'age':'str'})['age']
titanic[['age', 'category2']]

Unnamed: 0,age,category2
0,22.0,male22.0
1,38.0,female38.0
2,26.0,female26.0
3,35.0,female35.0
4,35.0,male35.0
...,...,...
886,27.0,male27.0
887,19.0,female19.0
888,29.7,female29.7
889,26.0,male26.0


-----------------------------------

-------------------------------

### DataFrame 실수 값을 카테고리 값으로 변환

>실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용함

- cut : 실수 값의 경계선을 지정하는 경우  
    - x = 1차원 형태의 배열 형태가 옴  
    - bins = int, 스칼라를 요소로 갖는 시퀀스가 옴  

- qcut : 개수가 똑같은 구간으로 나누는 경우 (분위수)
    - x = 1d ndarray 혹은 Series
    - q = int 혹은 분위수를 나타내는 1.이하의 실수를 요소를 실수로 갖는 list( e.g. [0, .25, .5, .75, 1.])

cut() 명령이 반환하는

In [175]:
type(cats)

NameError: name 'cats' is not defined

In [176]:
df4.dtypes

NameError: name 'df4' is not defined

In [177]:
df4["age_cat"].astype(str) + df4["ages"].astype(str)

NameError: name 'df4' is not defined

In [178]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels = ["Q1", "Q2", "Q3", "Q4"])
cats

['Q2', 'Q4', 'Q3', 'Q2', 'Q1', ..., 'Q1', 'Q2', 'Q4', 'Q4', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [179]:
pd.value_counts

<function pandas.core.algorithms.value_counts(values, sort: 'bool' = True, ascending: 'bool' = False, normalize: 'bool' = False, bins=None, dropna: 'bool' = True) -> 'Series'>

# 연습문제

타이타닉호 승객을 '미성년자', '청년', '장년', '중년', '노년' 나이 그룹으로 나눕니다.  
그리고 각 나이 그룹의 승객 비율을 구합니다. 비율의 전체 합은 1이 되어야 합니다.

In [224]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]

In [226]:
cats = pd.cut(titanic.age, bins, labels = labels)
cats.value_counts() / cats.value_counts().sum()

청년      0.464082
장년      0.274800
미성년자    0.188141
중년      0.067275
노년      0.005701
Name: age, dtype: float64

In [230]:
titanic_age = pd.cut(titanic.age, bins, labels = labels).value_counts()
titanic_age_rate = titanic_age / titanic_age.sum()
# ***이어서 쓰기 핸드폰 사진

# 연습 문제 2

In [240]:
bins = [20, 30, 50, 70, 100]
labels = ["청년", "장년", "중년", "노년"]
titanic_age = pd.cut(titanic.age, bins, labels = labels)
titanic["category3"] 
titanic["category3"] = titanic.apply(lambda x :  if x.age > 20 else float(x)  x : titanic[] + "여성" if x.sex == "female" else  titanic_age + "남성" , axis = 1)
titanic.head(10)

TypeError: unsupported operand type(s) for +: 'Categorical' and 'str'

In [233]:
titanic_age

0       청년
1       장년
2       청년
3       장년
4       장년
      ... 
886     청년
887    NaN
888     청년
889     청년
890     장년
Name: age, Length: 891, dtype: category
Categories (4, object): ['청년' < '장년' < '중년' < '노년']

## DataFrame 인덱스 설정 및 제거

In [244]:
때로는 DataFrame에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 column에 들어가 있거나

SyntaxError: invalid syntax (3575506450.py, line 1)

In [253]:
import pandas as pd
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'),
                             np.round(np.random.rand(3, 5), 2)]).T,
                  columns = ["C1", "C2", "C3", "c4"])
df1

Unnamed: 0,C1,C2,C3,c4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [254]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,c4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [255]:
df2.set_index("C2")

Unnamed: 0_level_0,C3,c4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


In [256]:
df2.reset_index(drop=True)

Unnamed: 0,C2,C3,c4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


# 연습 문제

#### 5명의 학생의 국어, 영어, 수학 점수를 나타내는 DataFrame을 다음과 같이 만든다.

1) "이름"column을 인덱스로 만들어보세요
2) (1)에거 인덱스로 만든 '이름'을 다시 column으로 복원하세요

In [259]:
score = {
    "이름":["일식", "이식", "삼식", "사식", "오식"],
    "국어":[60, 70, 90, 80, 100],
    "영어":[70, 86, 82, 88, 100],
    "수학":[65, 82, 85, 90, 100]
}

In [260]:
df = pd

## DataFrame 다중 인덱스

index 인수에 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중(row) 인덱스를 가짐  
row 인덱스들의 이름 지정은 index 객체의 names 속성에 리스트를 넣어서 지정

In [268]:
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                   columns = [["A", "A", "B", "B"],
                             ["C", "D", "C", "D"]],
                   index = [["M", "M", "M", "F", "F", "F"],
                           ["id_" + str(i + 1) for i in range(3)] * 2])
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


## DataFrame row 인덱스와 column 인덱스 교환

stack() 메서드나 unstack() 메서드를 쓰면 column 인덱스를 row 인덱스로 바꾸거나   
반대로 row 인덱스를 column 인덱스로 바꿀 수 있다  
  
- stack()메서드 : column 인덱스 --> row 인덱스로 변환
- unstack()메서드 : row 인덱스 --> column 인덱스로 변환

> stack 메서드를 실행하면 column 인덱스가 반시계 방향으로 90도 회전한 것과 비슷한 모양이 됨

In [267]:
df4.stack("Cidx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridxl,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


>unstack 메서드를 실행하면 row 인덱스가 시계 방향으로 90도 회전한 것과 비슷

In [269]:
df4.unstack("Ridx2")

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.76,1.49,-2.55,0.12,-0.21,0.65,0.44,0.31,0.86,0.33,-0.85,-0.74
M,1.76,1.87,-0.1,0.4,-0.98,0.41,0.98,0.95,0.14,2.24,-0.15,1.45


인덱스를 지정할 때는 문자열 이름과 순서를 표시하는 숫자 인덱스를 모두 사용 가능

In [271]:
df4.stack("Cidx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [272]:
df4.stack(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


## DataFrame 다중 인덱스가 있는 경우의 인덱싱

> DataFrame이 다중 인덱스를 가지는 경우에는 인덱스 값이 하나의 label이나 숫자가 아니라 ()로 둘러싸인 튜플이 되야함  
> 앞에서 만든 df3 DataFrame의 경우 다음 코드와 같이 인덱싱 가능

In [273]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [275]:
df3[("B", "C1")]

KeyError: ('B', 'C1')

> loc 인덱서를 사용하는 경우에도 마찬가지로 튜플을 사용해서 인덱싱 해야함

In [277]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [278]:
df3.loc[0, ("B", "C1")] = 100
df3

Unnamed: 0,A,B,C,C1
0,1,100,1,100.0
1,3,3,5,
2,4,1,2,
3,3,2,4,
4,4,3,4,


> iloc 인덱서를 사용하는 경우에는 튜플 형태의 다중인덱스 사용 불가능

In [280]:
df3.iloc[0, 2]

1

> 하나의 레벨 값만 넣으면 다중 인덱스 중에서 가장 상위의 값을 지정한 것으로 반환

In [283]:
df3['A']

0    1
1    3
2    4
3    3
4    4
Name: A, dtype: int64

> df4 DataFrame은 다음과 같이 인덱싱 가능

In [284]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [285]:
df4.loc[("M", "id_1"), ("A", "C")]

1.76

In [286]:
df4.loc [: , ("A", "C")]

Ridx1  Ridx2
M      id_1     1.76
       id_2     1.87
       id_3    -0.10
F      id_1     0.76
       id_2     1.49
       id_3    -2.55
Name: (A, C), dtype: float64

>loc를 사용하는 경우에도 튜플이 아닌 하나의 값만 쓰면 가장 상위의 인덱스를 지정한 것과 동일

In [288]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [289]:
df4.loc["M"]

Cidx1,A,A,B,B
Cidx2,C,D,C,D
Ridx2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
id_1,1.76,0.4,0.98,2.24
id_2,1.87,-0.98,0.95,-0.15
id_3,-0.1,0.41,0.14,1.45


In [None]:
특정 레벨의 모든 인덱스 값을 인덱싱할 때는 슬라이스를 