# DataFrame apply() 메서드
- DataFrame에 대해 Function을 적용
> 첫 번째 인자: 함수 <br>
> 두 번째 인자: axis
- aixs가 0 또는 index인 경우 각 column에 대해 함수 적용
- axis가 1 또는 column인 경우 각 row에 대해 함수를 적용

In [1]:
import pandas as pd
import numpy as np

In [4]:
df=pd.DataFrame([[4,9]]*3,columns=['A','B'])
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [5]:
# np.sqrt는 제곱근 구함
df.apply(np.sqrt)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [6]:
np.sqrt(df)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


- 차원 축소 함수를 apply()에 넣을 때 

In [7]:
df.apply(np.sum,axis=0)

A    12
B    27
dtype: int64

In [8]:
df.apply(np.sum,axis=1)

0    13
1    13
2    13
dtype: int64

- 함수의 return이 column마다 리스트를 반환하면 DataFrame의 결과를 얻을 수 있다.
- 함수의 return이 row마다 리스트를 반환하면 각 row마다 리스트를 하나의 값으로 취급하는 Series 타입의 결과가 나온다

In [9]:
df.apply(lambda x:[1,2],axis=0)

Unnamed: 0,A,B
0,1,1
1,2,2


In [10]:
df.apply(lambda x: [1,2], axis =1)

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

- result_type='expand'인수로 전달하면 리스트를 하나의 값으로 보지 않고 리스트 요소마다 column으로 인식하도록 확장하여 DataFrame의 결과를 얻을수 있음

In [14]:
df.apply(lambda x: [1,2], axis =1, result_type='expand')

Unnamed: 0,0,1
0,1,2
1,1,2
2,1,2


- Series를 return하는 함수를 사용하면 result_type='expand'와 비슷한 결과를 얻음

In [18]:
df.apply(lambda x: pd.Series([1,2], index=['foo','bar']), axis =1)

Unnamed: 0,foo,bar
0,1,2
1,1,2
2,1,2


- result_type='broadcast'를 인수로 전달하면 동일한 shape의 결과를 보장한다.
- 함수로부터 반환되는 게 리스트인지 스칼라인지 상관없이 axis 방향으로 브로드캐스트합니다.(단, 기존의 shape와 함수 return 된 값의 shape의 크기가 동일해야 함)
- 결과의 column label은 본래의 column label을 유지

In [25]:
df.apply(lambda x:[1,2], axis=1, result_type='broadcast')
# 기존의 shape: 3 X 2
# 함수 return shape: 2

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2


In [28]:
df.apply(lambda x:[1,2,3],axis=1,result_type='broadcast')
# 기존의 shape: 3 X 2
# 함수 return shape: 3

ValueError: cannot broadcast result

- column 마다 최댓값과 최솟값의 차이를 구하고 싶을때

In [29]:
df3=pd.DataFrame({'A':[1,3,4,3,4],
                 'B':[2,3,1,2,3],
                 'C':[1,5,2,4,4]})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [30]:
df3.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

- 만약 row에 대해 적용하고 싶으면 axis=1 

In [31]:
df3.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

- 각 column에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 value_counts()함수 적용

In [34]:
df3.apply(pd.value_counts)
# NaN은 float형에서 표현되기 때문에 float형으로 바뀜

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [20]:
titanic=pd.read_csv('train.csv')

```
타이타닉호의 승객 중 나이 20살을 기준으로 성인(adult)과 미성년자(child)를 구별하는 label column을 만들 수 있습니다
```

In [21]:
titanic['adult/child']=titanic.apply(lambda x: "adult" if x.age >= 20 else 'child', axis =1)
titanic.tail()

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone,adult/child
622,0,male,28.0,0,0,10.5,Second,unknown,Southampton,y,adult
623,0,male,25.0,0,0,7.05,Third,unknown,Southampton,y,adult
624,1,female,19.0,0,0,30.0,First,B,Southampton,y,child
625,0,female,28.0,1,2,23.45,Third,unknown,Southampton,n,adult
626,0,male,32.0,0,0,7.75,Third,unknown,Queenstown,y,adult


### 연습문제

```
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 column인 category1열을 만들어보세요.
(1) 20살이 넘으면 성별을 그대로 사용합니다.
(2) 20살 미만이면 성별에 관계없이 'child'라고 합니다.
```

In [23]:
titanic

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone,adult/child
0,0,male,22.0,1,0,7.2500,Third,unknown,Southampton,n,adult
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n,adult
2,1,female,26.0,0,0,7.9250,Third,unknown,Southampton,y,adult
3,1,female,35.0,1,0,53.1000,First,C,Southampton,n,adult
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y,adult
...,...,...,...,...,...,...,...,...,...,...,...
622,0,male,28.0,0,0,10.5000,Second,unknown,Southampton,y,adult
623,0,male,25.0,0,0,7.0500,Third,unknown,Southampton,y,adult
624,1,female,19.0,0,0,30.0000,First,B,Southampton,y,child
625,0,female,28.0,1,2,23.4500,Third,unknown,Southampton,n,adult


In [24]:
titanic['category1']=titanic.apply(lambda x: x.sex if x.age >= 20 else 'child', axis = 1)

In [25]:
titanic.tail(20)

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone,adult/child,category1
607,0,male,24.0,0,0,13.0,Second,unknown,Southampton,y,adult,male
608,1,female,42.0,0,0,13.0,Second,unknown,Southampton,y,adult,female
609,1,female,27.0,1,0,13.8583,Second,unknown,Cherbourg,n,adult,female
610,0,male,31.0,0,0,50.4958,First,A,Southampton,y,adult,male
611,1,male,4.0,1,1,11.1333,Third,unknown,Southampton,n,child,child
612,0,male,26.0,0,0,7.8958,Third,unknown,Southampton,y,adult,male
613,1,female,47.0,1,1,52.5542,First,D,Southampton,n,adult,female
614,0,male,33.0,0,0,5.0,First,B,Southampton,y,adult,male
615,0,male,47.0,0,0,9.0,Third,unknown,Southampton,y,adult,male
616,1,female,28.0,1,0,24.0,Second,unknown,Cherbourg,n,adult,female


# DataFrame fillna() 메서드
- NaN값을 원하는 값으로 바꿈
> 첫 번째 인자: NaN을 변경하고자 하는 값

In [27]:
df=pd.DataFrame([[np.nan, 2, np.nan, 0],
                [3, 4, np.nan, 1],
                [np.nan, np.nan, np.nan, np.nan],
                [np.nan, 3, np.nan, 4]],
                columns=list('ABCD'))
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,0.0,3.0,0.0,4.0


- **딕셔너리 형태 값**으로 밸류를 전달하여 **column마다** NaN값을 대치하는 값을 다르게 설정 가능

In [28]:
values={'A':0, 'B':1, 'C':2, 'D':3}
df.fillna(values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,2.0,1.0
2,0.0,1.0,2.0,3.0
3,0.0,3.0,2.0,4.0


- **limit 키워드 인자에 숫자를 전달**하여 그 숫자만큼 column마다 **변경횟수를 제한**할 수 있음

In [29]:
df=pd.DataFrame([[np.nan, 2, np.nan, 0],
                [3, 4, np.nan, 1],
                [np.nan, np.nan, np.nan, np.nan],
                [np.nan, 3, np.nan, 4]],
                columns=list('ABCD'))
values={'A':0, 'B':1, 'C':2, 'D':3}
df.fillna(value=values,limit=1)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,,1.0
2,,1.0,,3.0
3,,3.0,,4.0


- fillna() 메서드에 DataFrame을 value로 전달하여 NaN값을 대체할 수 있음
- 다만, column label과 row index가 일치하지 않으면 적용되지 않음

In [64]:
df=pd.DataFrame([[np.nan, 2, np.nan, 0],
                [3, 4, np.nan, 1],
                [np.nan, np.nan, np.nan, np.nan],
                [np.nan, 3, np.nan, 4]],
                columns=list('ABCD'))
print(df)

df2=pd.DataFrame(np.zeros((3,4)),columns=list('ABCE'))
df.fillna(df2)

     A    B   C    D
0  NaN  2.0 NaN  0.0
1  3.0  4.0 NaN  1.0
2  NaN  NaN NaN  NaN
3  NaN  3.0 NaN  4.0


Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,
3,,3.0,,4.0


### 연습문제
```
타이타닉호 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이값이 되도록 titanic DataFrame을 고쳐라
```

In [120]:
titanic=pd.read_csv('train.csv')
import seaborn as sns
titanic=sns.load_dataset('titanic')
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [121]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [128]:
age_mean={'age':round(titanic['age'].mean(),1)}
titanic=titanic.fillna(age_mean)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [32]:
# 답안 - 값이 변경되었는지 확인하는 과정
titanic=pd.read_csv('train.csv')
import seaborn as sns
titanic=sns.load_dataset('titanic')

index_age_is_nan=titanic[titanic.age.isna()].index
print(index_age_is_nan)

Int64Index([  5,  17,  19,  26,  28,  29,  31,  32,  36,  42,
            ...
            832, 837, 839, 846, 849, 859, 863, 868, 878, 888],
           dtype='int64', length=177)


In [33]:
# fillna 함수는 inplace 키워드를 받아서 원본데이터에 결과값을 덮어씌울 수 있음 
titanic.fillna({'age':round(titanic.age.mean(),1)},inplace=True)

In [34]:
titanic.iloc[index_age_is_nan]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
5,0,3,male,29.7,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
17,1,2,male,29.7,0,0,13.0000,S,Second,man,True,,Southampton,yes,True
19,1,3,female,29.7,0,0,7.2250,C,Third,woman,False,,Cherbourg,yes,True
26,0,3,male,29.7,0,0,7.2250,C,Third,man,True,,Cherbourg,no,True
28,1,3,female,29.7,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,29.7,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
863,0,3,female,29.7,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
868,0,3,male,29.7,0,0,9.5000,S,Third,man,True,,Southampton,no,True
878,0,3,male,29.7,0,0,7.8958,S,Third,man,True,,Southampton,no,True


# DataFrame astype() 메서드
- column의 자료형 바꾸기

In [144]:
d={'col1':[1,2],'col2':[3,4]}
df=pd.DataFrame(d)
df.dtypes

col1    int64
col2    int64
dtype: object

In [148]:
df.astype('int32').dtypes

col1    int32
col2    int32
dtype: object

- 딕셔너리로 인자 전달하면 특정 column의 자료형만 바꿀 수 있음

In [146]:
df.astype({'col1':'int32'}).dtypes

col1    int32
col2    int64
dtype: object

### 연습문제
```
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 column인 category2 column을 만들어보세요.
category2 카테고리는 다음과 같이 정의됩니다.
(1) 성별을 나타내는 문자열 male 도는 female로 시작합니다.
(2) 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 옵니다.
(3) 예를 들어 27살 남성은 male27.0 값이 됩니다.
```


In [44]:
titanic=sns.load_dataset('titanic')
titanic.fillna({'age':round(titanic.age.mean(),1)},inplace=True) # fillna()는 inplace사용 가능

# 내가 푼 것 
titanic=titanic.astype({'age':'str'}) # astype()은 inplace 사용 불가능, 원본에 덮어 씌워야 함 
titanic['category2']=titanic['sex']+titanic['age']

# 답안
titanic['category2']=titanic.sex + titanic.astype('str').age # series 타입 + series 타입
titanic[['sex','age','category2']].tail(20)

Unnamed: 0,sex,age,category2
871,female,47.0,female47.0
872,male,33.0,male33.0
873,male,47.0,male47.0
874,female,28.0,female28.0
875,female,15.0,female15.0
876,male,20.0,male20.0
877,male,19.0,male19.0
878,male,29.7,male29.7
879,female,56.0,female56.0
880,female,25.0,female25.0


# DataFrame 실수 값을 카테고리 값으로 변환
- 실수 값을 **크기 기준**으로 하여 **카테고리 값으로 변환**하고 싶을 때는 다음과 같은 명령을 사용
- **cut()**: 실수 값의 경계선을 지정하는 경우
> x = 1차원 형태의 배열 형태가 옵니다. <br>
> bins =  int 혹은 스칼라를 요소로 갖는 시퀀스가 옵니다. <br>
> labels =[] 구간 레이블명
- **qcut()**: 개수가 똑같은 구간으로 나누는 경우(분위수)
> x = 1d ndarray 혹은 Series <br>
> q = int 혹은 분위수를 나타내는 1 이하의 실수를 요소로 갖는 list ex) [0, .25, .5, .75, 1.]

## cut()

In [195]:
ages=[0,2,10,21,23,37,31,61,20,41,32,101]

In [196]:
bins=[1,20,30,50,70,100]
labels=['미성년자','청년','장년','중년','노년']
cats=pd.cut(ages,bins,labels=labels)
cats
# 20살은 미성년자로 나오는 것을 보면 경계선은 경계값을 포함하고 있음 

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '중년', '미성년자', '장년', '장년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']


- cut() 명령이 반환하는 값은 Categorical 클래스 객체임 

In [199]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [200]:
cats.categories

Index(['미성년자', '청년', '장년', '중년', '노년'], dtype='object')

In [201]:
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [202]:
df4=pd.DataFrame(ages,columns=['ages'])
df4['age_cat']=pd.cut(df4.ages,bins,labels=labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,장년
7,61,중년
8,20,미성년자
9,41,장년


In [204]:
df4.dtypes
# 타입이 문자열이 아님!! 문자열로 바꾸기 위해서 astype(str) 사용

ages          int64
age_cat    category
dtype: object

## qcut()
- 구간 경계선을 정하지 않고 분위수와 같이 **데이터 개수**가 같도록 구간을 나눔 

In [205]:
data=np.random.randn(1000)
cats=pd.qcut(data,4,labels=['Q1','Q2','Q3','Q4'])
cats

['Q4', 'Q3', 'Q3', 'Q4', 'Q3', ..., 'Q3', 'Q3', 'Q4', 'Q2', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [207]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
dtype: int64

### 연습문제
```
타이타닉호 승객을 '미성년자','청년','장년','중년','노년' 나이 그룹으로 나눕니다.
그리고 각 나이 그룹의 승객 비율을 구합니다. 비율의 전체 합은 1이 되어야 합니다. 
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]
```

In [53]:
titanic=sns.load_dataset('titanic')
titanic.fillna({'age':round(titanic.age.mean(),1)},inplace=True)
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]

titanic['age_group']=pd.cut(titanic.age,bins,labels=labels)
age_group_percent=pd.Series(titanic.value_counts('age_group')/titanic['age_group'].count())
# age_group_percent=pd.Series(titanic['age_group'].value_counts(True)) - value_counts(True)는 정규분포도 시리즈를 반환
df_titanic_age=pd.DataFrame({'연령층':titanic.value_counts('age_group'),'연령비율':titanic.value_counts('age_group',normalize=True)})
df_titanic_age.sort_index()

Unnamed: 0_level_0,연령층,연령비율
age_group,Unnamed: 1_level_1,Unnamed: 2_level_1
미성년자,165,0.188141
청년,407,0.464082
장년,241,0.2748
중년,59,0.067275
노년,5,0.005701


In [54]:
titanic[titanic['age_group'].isna()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_group
78,1,2,male,0.83,0,2,29.0,S,Second,child,False,,Southampton,yes,False,
164,0,3,male,1.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False,
172,1,3,female,1.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False,
183,1,2,male,1.0,2,1,39.0,S,Second,child,False,F,Southampton,yes,False,
305,1,1,male,0.92,1,2,151.55,S,First,child,False,C,Southampton,yes,False,
381,1,3,female,1.0,0,2,15.7417,C,Third,child,False,,Cherbourg,yes,False,
386,0,3,male,1.0,5,2,46.9,S,Third,child,False,,Southampton,no,False,
469,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False,
644,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False,
755,1,2,male,0.67,1,1,14.5,S,Second,child,False,,Southampton,yes,False,


```
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 column인 category3을 만들어라.
category3 카테고리는 다음과 같이 정의된다.
(1) 20살 미만이면 성별에 관계없이 '미성년자'라고 한다
(2) 20살 이상이면 나이에 따라 '청년','장년','중년','노년'을 구분하고 그 뒤에 성별을 나타내는 '남성','여성'을 붙인다.
```

In [69]:
bins=[0,19,30,50,70,100]
labels=['미성년자','청년','장년','중년','노년']
titanic['연령층']=pd.cut(titanic.age,bins=bins,labels=labels)
titanic['category3']=titanic.apply(lambda x: x['연령층'] if x.age < 20 else
                                   x['연령층'] + ('남성' if x.sex == "male" else'여성'), axis=1 )

titanic[['age','sex','연령층','category3']]

Unnamed: 0,age,sex,연령층,category3
0,22.0,male,청년,청년남성
1,38.0,female,장년,장년여성
2,26.0,female,청년,청년여성
3,35.0,female,장년,장년여성
4,35.0,male,장년,장년남성
...,...,...,...,...
886,27.0,male,청년,청년남성
887,19.0,female,미성년자,미성년자
888,29.7,female,청년,청년여성
889,26.0,male,청년,청년남성


In [71]:
bins=[0,19,30, 50, 70, 100]
labels=['미성년자','청년','장년','중년','노년']
titanic['연령층']=pd.cut(titanic['age'],bins,labels=labels)
titanic['category3']=titanic.apply(lambda x : "미성년자" if x.age < 20 else x['연령층'] + 
                                   ("남성" if x['sex']=='male' else "여성"),axis=1)
titanic[titanic.age < 1][['sex','age','연령층','category3']]

Unnamed: 0,sex,age,연령층,category3
78,male,0.83,미성년자,미성년자
305,male,0.92,미성년자,미성년자
469,female,0.75,미성년자,미성년자
644,female,0.75,미성년자,미성년자
755,male,0.67,미성년자,미성년자
803,male,0.42,미성년자,미성년자
831,male,0.83,미성년자,미성년자


# DataFrame 인덱스 설정 및 제거 
- DataFrame에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 column에 들어가 있거나, 
- 일반 데이터 colum이어야 할 것이 인덱스로 되어 있을 경우에
- set_index(): 기존의 row 인덱스를 제거하고 데이터 column 중 하나를 인덱스로 설정
- reset_index(): 기존의 row 인덱스를 제거하고 인덱스를 데이터 열로 추가 

## set_index()
- 기존의 row 인덱스를 제거하고 데이터 column 중 하나를 인덱스로 설정

In [74]:
np.random.seed(0)
df1=pd.DataFrame(np.vstack([list('ABCDE'),
                             np.round(np.random.rand(3,5),2)]).T,
                            columns=['c1','c2','c3','c4'])
df1

Unnamed: 0,c1,c2,c3,c4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [75]:
df2=df1.set_index('c1')
df2

Unnamed: 0_level_0,c2,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


## reset_index()
- 인덱스를 보통의 자료열로 바꿀 수도 있습니다. 
- 이때 인덱스 column은 자료열의 가장 선두로 삽입됩니다. 
- DataFrame의 인덱스는 정수로 된 디폴트 인덱스로 바뀝니다.

In [76]:
df2

Unnamed: 0_level_0,c2,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [77]:
df2.reset_index()

Unnamed: 0,c1,c2,c3,c4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


- 인수 drop=True로 인수로 전달하면 인덱스 column을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 됩니다.

In [78]:
df2

Unnamed: 0_level_0,c2,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [79]:
df2.reset_index(drop=True)

Unnamed: 0,c2,c3,c4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


### 연습문제

In [84]:
df=pd.DataFrame({'이름':['일식','이식','삼식','사식','오식'],
                '국어':[60,70,90,80,100],
                '영어':[70,86,82,88,100],
                '수학':[65,82,85,90,100]})
df

Unnamed: 0,이름,국어,영어,수학
0,일식,60,70,65
1,이식,70,86,82
2,삼식,90,82,85
3,사식,80,88,90
4,오식,100,100,100


In [85]:
# '이름' column을 인덱스로 만들어보세요.
df=df.set_index('이름')
df

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
일식,60,70,65
이식,70,86,82
삼식,90,82,85
사식,80,88,90
오식,100,100,100


In [86]:
# (1)에서 인덱스로 만든 '이름'을 다시 column으로 복원하세요.
df.reset_index()

Unnamed: 0,이름,국어,영어,수학
0,일식,60,70,65
1,이식,70,86,82
2,삼식,90,82,85
3,사식,80,88,90
4,오식,100,100,100


# DataFrame 다중 인덱스
- row이나 column에 여러 계층을 가지는 인덱스 즉, 다중 인덱스(multi-index)를 설정할 수도 있습니다. 
- DataFrame을 생성할 때 columns 인수에 다음 예제처럼 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 열 인덱스를 가지게 됩니다.

In [88]:
np.random.seed(0)
df3=pd.DataFrame(np.round(np.random.randn(5,4),2),
                 columns=[['A','A','B','B'],
                         ['c1','c2','c1','c2']])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,c1,c2,c1,c2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [89]:
df3.columns.names=['Cidx1','Cidx2']
df3

Cidx1,A,A,B,B
Cidx2,c1,c2,c1,c2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


- 마찬가지로 DataFrame을 생성할 때 index 인수에 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 (row) 인덱스를 가집니다. 
- row 인덱스들의 이름 지정은 index 객체의 names 속성에 리스트를 넣어서 지정합니다.

In [116]:
np.random.seed(0)
df4=pd.DataFrame(np.round(np.random.randn(6,4),2),
                 columns=[['A','A','B','B'],
                         ['C','D','C','D']],
                 index=[['M','M','M','F','F','F'],
                       ["id_" + str(i+1) for i in range(3)]*2])
df4.columns.names=['Cidx1','Cidx2']
df4.index.names=['Ridx1','Ridx2']
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


## DataFrame row 인덱스와 column 인덱스 교환
- stack(): column 인덱스 -> row 인덱스
- unstack(): row 인덱스 -> column 인덱스

In [92]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [91]:
df4.stack('Cidx1') # df4.stack(0)과 같음

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [98]:
df4.unstack('Ridx2') # df4.unstack(1)과 같음

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.76,1.49,-2.55,0.12,-0.21,0.65,0.44,0.31,0.86,0.33,-0.85,-0.74
M,1.76,1.87,-0.1,0.4,-0.98,0.41,0.98,0.95,0.14,2.24,-0.15,1.45


## DataFrame 다중 인덱스가 있는 경우의 인덱싱
- DataFrame이 다중 인덱스를 가지는 경우에는 인덱스 값이 하나의 label이나 숫자가 아니라 **()로 둘러싸인 튜플**이 되어야 합니다. 
- 예를 들어 앞에서 만든 df3 DataFrame의 경우 다음 코드와 같이 인덱싱할 수 있습니다.

In [99]:
df3

Cidx1,A,A,B,B
Cidx2,c1,c2,c1,c2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [101]:
df3[('B','c1')]

0    0.98
1    0.95
2    0.14
3    0.44
4    0.31
Name: (B, c1), dtype: float64

- loc 인덱서를 사용하는 경우에도 마찬가지로 튜플을 사용해서 인덱싱해야 합니다.

In [102]:
df3

Cidx1,A,A,B,B
Cidx2,c1,c2,c1,c2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [103]:
df3.loc[0,('B','c1')]

0.98

- 단, iloc 인덱서를 사용하는 경우에는 튜플 형태의 다중인덱스를 사용할 수 없습니다

In [104]:
df3.iloc[0,2]

0.98

In [117]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [106]:
df4.loc[('M','id_1'),('A','D')]

0.4

In [107]:
df4.loc[:,('A','C')]

Ridx1  Ridx2
M      id_1     1.76
       id_2     1.87
       id_3    -0.10
F      id_1     0.76
       id_2     1.49
       id_3    -2.55
Name: (A, C), dtype: float64

In [118]:
df4.loc[('ALL','ALL'),:]=df4.sum()
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
ALL,ALL,3.23,0.39,3.68,2.28


- 다중 인덱스의 튜플 내에서는 콜론(:), 즉 슬라이스 기호를 사용할 수 없고 대신 slice(None) 값을 사용해야 합니다.

In [119]:
df4.loc[('M',slice(None)),:]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45


# DataFrame 합성
## merge()
- 두 프레임의 **공통 column**을 기준으로 두개의 테이블을 합친다.
- 이 때 기준이 되는 column 데이터를 키(key)라고 한다.

In [121]:
df1= pd.DataFrame({'고객번호': [1001,1002,1003,1004,1005,1006,1007],
                   '이름': ['둘리','도우너','또치','길동','희동','마이콜','영희']},
                   columns=['고객번호','이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [122]:
df2= pd.DataFrame({'고객번호': [1001,1001,1005,1006,1008,1001],
                   '금액': [10000,20000,15000,5000,100000,30000]},
                   columns=['고객번호','금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


- 기본적으로는 양쪽 df에 모두 키가 존재하는 데이터만 보여주는 **inner join** 방식을 사용 merge(df1,df2)

In [123]:
pd.merge(df1,df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


- **outer join** 방식은 키 값이 한쪽에만 있어도 데이터를 보여줌 merge(df1,df2,how='outer')

In [124]:
pd.merge(df1,df2,how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


- left는 첫 번째 인수 기준으로, right는 두 번째 인수 기준으로 키 값을 **모두** 보여줌 merge(df1,df2,how='left') / merge(df1,df2,how='right')

In [125]:
pd.merge(df1,df2,how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [126]:
pd.merge(df1,df2,how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000
