# 패키지 설치

In [None]:
!pip install mySUNI

## 모듈 import

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
#from mySUNI import cds
from IPython.display import Image

## 데이터셋 로드

In [2]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


**컬럼(columns) 설명**

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 성별과 동일
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

## apply() - 함수를 적용

`apply()`는 데이터 전처리시 굉장히 많이 활용하는 기능입니다.

좀 더 복잡한 **logic을 컬럼 혹은 DataFrame에 적용**하고자 할 때 사용합니다.

- Series/Series => 연산 (expression)
- Series/Series => 연산 이상의 제어(분기, 반복, 대입)가 필요한 경우 (statement)

In [5]:
df.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


**who** 컬럼에 대하여 man은 남자, woman은 여자, child는 아이로 변경하고자 한다면 apply를 활용하여 해결할 수 있습니다.

In [None]:
# df의 'who' 컬럼에 대해 값 별 개수를 표시합니다 
df['who'].value_counts()

man      537
woman    271
child     83
Name: who, dtype: int64

**함수(function) 정의**

In [11]:
# x가 'man'인 경우 '남자', 'woman'인 경우 '여자', 
# 그 외의 경우는 '아이'를 반환하는 함수를 작성합니다.
import numpy as np
# x = {'man', 'woman', 'child'}
def transform_who(x):
    #print(type(x))
    who_dict = {'man': '남자', 'woman': '여자', 'child': '아이'}
    return who_dict.get(x, np.nan)

transform_who('child_')

nan

In [13]:
# df의 'who' 컬럼에 transform_who 함수를 적용합니다
df['who'].apply(transform_who).head(2)

0    남자
1    여자
Name: who, dtype: object

In [None]:
# statement : simple statement, compound statement
# simple statement - 콜론(:)을 사용한 블럭을 생성 할 수 없는 것
### break, continue, return, raise, ...
### = (assignment), +=, -=, ..(augmented assignment), expression
# compound statement - 콜론(:)을 사용한 블럭을 생성 할 수 있는 것
###  if, for, while, def, class, try, with 

# expression : 1개의 type을 가지고 있음, object 임
###   [1,2,3], (1,2,3), {1,2,3}, {'A':123},'Soyoung', 123, 3.14, True/False
###   abs(), sum(), ... list.append(), str.join() ... => 함수호출
###   A+B, A-B, A**2, A>B, ...  => 각종 연산자
###   'A' if a > 10 else 'B' => conditional expression
###   lambda x : x**2  => labmda expression
###   [x **2 for x in range(5) if x%2==0] => comprehension 
###   A := 10  => assignment expression

In [14]:
import numpy as np
who_dict = {'man': '남자', 'woman': '여자', 'child': '아이'}

df['who'].apply(lambda x : who_dict.get(x, np.nan)).head(2)

0    남자
1    여자
Name: who, dtype: object

#### Series.replace()
- Series.replace(before, after) : before를 찾아 after로 변경
- before, after : 스칼라이거나 목록일 수 있다
- Series.replace(dict) : key-before, value-after인 item을 갖는 dict 사용

In [15]:
who_dict = {'man': '남자', 'woman': '여자', 'child': '아이'}
df['who'].replace(who_dict).head(2)

0    남자
1    여자
Name: who, dtype: object

In [16]:
before = ['man', 'woman', 'child']
after = ['남자', '여자', '아이']
df['who'].replace(before, after).head(2)

0    남자
1    여자
Name: who, dtype: object

In [17]:
s = pd.Series(['man-child', 'woman-child'])
before = ['man', 'woman', 'child']
after = ['남자', '여자', '아이']
s.replace(before, after).head(2)

0      man-child
1    woman-child
dtype: object

In [24]:
s = pd.Series(['man-child', 'woman-child'])
before = ['^man', 'woman', 'child']
after = ['남자', '여자','아이']
s.replace(before, after, regex=True).head(2)

0    남자-아이
1    여자-아이
dtype: object

분포를 확인하면 다음과 같습니다.

In [25]:
df['who'].apply(transform_who).value_counts()

남자    537
여자    271
아이     83
Name: who, dtype: int64

## apply() - lambda 함수

간단한 logic은 함수를 굳이 정의하지 않고, lambda 함수로 쉽게 해결할 수 있습니다.

In [26]:
df['survived'].value_counts()

0    549
1    342
Name: survived, dtype: int64

**0: 사망, 1: 생존** 으로 변경하도록 하겠습니다.

In [None]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [32]:
# lambda 함수를 사용하여 df의 'survived' 컬럼에 대해 
# x가 1 이면 '생존' 0이면 '사망' 으로 변경해 봅니다.
#df['survived'].apply(lambda x: '생존' if x == 1 else '사망')
#df['survived'].apply(lambda x : ['사망', '생존'][x])
surv_dict = {1: '생존', 0: '사망'}
df['survived'].apply(lambda x : surv_dict.get(x, np.nan)).head(2)

0    사망
1    생존
Name: survived, dtype: object

In [33]:
# lambda 함수를 사용하여 df의 'survived' 컬럼에 대해 
# x가 1 이면 '생존' 0이면 '사망' 으로 변경한 것에 대해 분포를 확인합니다.
surv_dict = {1: '생존', 0: '사망'}
df['survived'].apply(lambda x : surv_dict.get(x, np.nan)).value_counts()

사망    549
생존    342
Name: survived, dtype: int64

## groupby() - 그룹

데이터를 특정 기준으로 그룹핑할 때 활용합니다. 엑셀의 피봇테이블과 유사합니다.
- DataFrame.groupby('who').mean()
- 1) split - ('man', DataFrame)
- 2) apply('mean') - 각 컬럼 별로 mean 구하기
- 3) combine  (index - 범주의 종류, columns - apply('mean')의 결과

In [None]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


타이타닉 호의 생존자와 사망자를 **성별** 기준으로 그룹핑하여 **평균**을 살펴보겠습니다.

In [12]:
# df의 'sex' 그룹별로 평균을 구합니다

A = df.groupby('sex')
#type(A)
#print(dir(A))  - __iter__
for x, y in A:
    display(x, y.head(3))

'female'

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False


'male'

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True


In [19]:
# DataFrame.groupby().mean() 설명
A = df.groupby('sex')
B = pd.DataFrame()
for colname, temp_df in A:
    B[colname] = temp_df.apply('mean', numeric_only=True)
B = B.T
B.index.name = 'sex'
B

Unnamed: 0_level_0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
female,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818,0.0,0.401274
male,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893,0.930676,0.712305


In [13]:
df.groupby('sex').mean()

Unnamed: 0_level_0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
female,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818,0.0,0.401274
male,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893,0.930676,0.712305


In [20]:
# DataFrame.groupby()[['age', 'fare']].mean() 설명
A = df.groupby('sex')
B = pd.DataFrame()
for colname, temp_df in A:
    B[colname] = temp_df[['age', 'fare']].apply('mean', numeric_only=True)
B = B.T
B.index.name = 'sex'    
B

Unnamed: 0_level_0,age,fare
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,27.915709,44.479818
male,30.726645,25.523893


In [18]:
df.groupby('sex')[['age', 'fare']].mean()

Unnamed: 0_level_0,age,fare
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,27.915709,44.479818
male,30.726645,25.523893


`groupby()`를 사용할 때는 반드시 aggregate 하는 **통계함수와 일반적으로 같이 적용**합니다.

### 2개 이상의 컬럼으로 그룹

2개 이상의 컬럼으로 그룹핑할 때도 list로 묶어서 지정하면 됩니다.

In [None]:
# df의 'sex', 'pclass' (성별, 좌석등급) 별 평균을 구합니다
df.groupby(['sex', 'pclass']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,age,sibsp,parch,fare,adult_male,alone
sex,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
female,1,0.968085,34.611765,0.553191,0.457447,106.125798,0.0,0.361702
female,2,0.921053,28.722973,0.486842,0.605263,21.970121,0.0,0.421053
female,3,0.5,21.75,0.895833,0.798611,16.11881,0.0,0.416667
male,1,0.368852,41.281386,0.311475,0.278689,67.226127,0.97541,0.614754
male,2,0.157407,30.740707,0.342593,0.222222,19.741782,0.916667,0.666667
male,3,0.135447,26.507589,0.498559,0.224784,12.661633,0.919308,0.760807


### 1개의 특정 컬럼에 대한 결과 도출

우리의 주요 관심사는 `survived` 컬럼입니다. 만약 `survived`컬럼에 대한 결과만 도출하고 싶다면 컬럼을 맨 끝에 지정합니다.

In [25]:
# df의 'sex', 'pclass' (성별, 좌석등급) 별 'survived' 컬럼에 대한 평균 구하기 - 결과 Series
df.groupby(['sex', 'pclass'])['survived'].mean()

sex     pclass
female  1         0.968085
        2         0.921053
        3         0.500000
male    1         0.368852
        2         0.157407
        3         0.135447
Name: survived, dtype: float64

예쁘게 출력하려면 `pd.DataFrame()`으로 감싸주면 됩니다.
- [['survived']], to_frame() 사용할 수도 있다

In [26]:
# df의 'sex', 'pclass' (성별, 좌석등급) 별 'survived' 컬럼에 대한 평균 구하기 - 결과 DataFrame
#df.groupby(['sex', 'pclass'])[['survived']].mean()
df.groupby(['sex', 'pclass'])['survived'].mean().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.968085
female,2,0.921053
female,3,0.5
male,1,0.368852
male,2,0.157407
male,3,0.135447


인덱스 초기화 `reset_index()`: 그룹핑된 데이터프레임의 **index를 초기화**하여 새로운 데이터프레임을 생성합니다.
- DataFrame.set_index(columns의 label/label목록) : columns를 index쪽으로 이동
- DataFrame.reset_index(index의 name/name목록) : index를 columns쪽으로 이동
  - DataFrame.reset_index() : 모든 index를 columns쪽으로 이동, RangeIndex가 생성됨

In [29]:
# df의 'sex', 'pclass' (성별, 좌석등급) 별 'survived' 컬럼에 대한 평균을 구한 뒤,
# index 초기화 (index를 column으로 사용되도록 함)
df.groupby(['sex', 'pclass'])[['survived']].mean().reset_index()

Unnamed: 0,sex,pclass,survived
0,female,1,0.968085
1,female,2,0.921053
2,female,3,0.5
3,male,1,0.368852
4,male,2,0.157407
5,male,3,0.135447


### 다중 컬럼에 대한 결과 도출

끝에 단일 컬럼이 아닌 여러 개의 컬럼을 지정합니다.

In [30]:
# df의 'sex', 'pclass' (성별, 좌석등급) 별 'survived', 'age' 컬럼에 대한 평균

df.groupby(['sex', 'pclass'])[['survived', 'age']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,age
sex,pclass,Unnamed: 2_level_1,Unnamed: 3_level_1
female,1,0.968085,34.611765
female,2,0.921053,28.722973
female,3,0.5,21.75
male,1,0.368852,41.281386
male,2,0.157407,30.740707
male,3,0.135447,26.507589


### 다중 통계 함수 적용

여러 가지의 통계 값을 적용할 때는 `agg()`를 사용합니다.

In [31]:
# df의 'sex', 'pclass' (성별, 좌석등급) 별 'survived', 'age' 컬럼에 대한 평균과 합계 
# ('mean', 'sum') 사용

df.groupby(['sex', 'pclass'])[['survived', 'age']].agg(['mean', 'sum'])

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,survived,age,age
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,sum,mean,sum
sex,pclass,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
female,1,0.968085,91,34.611765,2942.0
female,2,0.921053,70,28.722973,2125.5
female,3,0.5,72,21.75,2218.5
male,1,0.368852,45,41.281386,4169.42
male,2,0.157407,17,30.740707,3043.33
male,3,0.135447,47,26.507589,6706.42


**numpy 의 통계 함수도 적용 가능**합니다. (결과는 동일합니다)

In [32]:
# df의 'sex', 'pclass' (성별, 좌석등급) 별 'survived', 'age' 컬럼에 대한 평균과 합계 
# np.mean, np.sum 사용

df.groupby(['sex', 'pclass'])[['survived', 'age']].agg([np.mean, np.sum])

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,survived,age,age
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,sum,mean,sum
sex,pclass,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
female,1,0.968085,91,34.611765,2942.0
female,2,0.921053,70,28.722973,2125.5
female,3,0.5,72,21.75,2218.5
male,1,0.368852,45,41.281386,4169.42
male,2,0.157407,17,30.740707,3043.33
male,3,0.135447,47,26.507589,6706.42


## pivot_table()

피벗테이블은 엑셀의 피벗과 동작이 유사하며, `groupby()`와도 동작이 유사합니다.

기본 동작 원리는 `index`, `columns`, `values`, `aggfunc` 를 지정하여 피벗합니다.

### 1개 그룹에 대한 단일 컬럼 결과

In [39]:
# index로 'who', values로 'survived' 사용한 피벗테이블 생성
#df.groupby('who')[['survived']].mean()
#           index    values      aggfunc

df.pivot_table(index='who', values='survived', aggfunc='mean')

Unnamed: 0_level_0,survived
who,Unnamed: 1_level_1
child,0.590361
man,0.163873
woman,0.756458


In [59]:
# values를 지정하지 않은 경우 - mean을 구할 수 있는 모든 컬럼
df.pivot_table(index='who')  

Unnamed: 0_level_0,adult_male,age,alone,fare,parch,pclass,sibsp,survived
who,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
child,0.0,6.369518,0.072289,32.785795,1.26506,2.626506,1.73494,0.590361
man,1.0,33.173123,0.763501,24.864182,0.1527,2.372439,0.296089,0.163873
woman,0.0,32.0,0.446494,46.570711,0.564576,2.084871,0.601476,0.756458


In [42]:
# columns에 'who', values로 'survived' 사용한 피벗테이블 생성
#df.groupby('who')[['survived']].mean().T
#         columns    values      aggfunc

df.pivot_table(columns='who', values='survived', aggfunc='mean')

who,child,man,woman
survived,0.590361,0.163873,0.756458


### 다중 그룹에 대한 단일 컬럼 결과

In [45]:
# index로 'who', 'pclass', values로 'survived' 사용한 피벗테이블 생성
# 다중 그룹 지정 시에는 리스트를 사용합니다
#df.groupby(by=['who', 'pclass'])[['survived']].mean()

df.pivot_table(index=['who', 'pclass'], values='survived', aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
who,pclass,Unnamed: 2_level_1
child,1,0.833333
child,2,1.0
child,3,0.431034
man,1,0.352941
man,2,0.080808
man,3,0.119122
woman,1,0.978022
woman,2,0.909091
woman,3,0.491228


### index에 컬럼을 중첩하지 않고 행과 열로 펼친 결과

In [55]:
# index, columns, values를 모두 지정한 피벗 테이블 지정
# index로 'who', columns로 'pclass', values로 'survived' 사용

#df.groupby(by=['who', 'pclass'])['survived'].mean().unstack()
df.pivot_table(index='who', columns='pclass', values='survived', aggfunc='mean')         

pclass,1,2,3
who,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
child,0.833333,1.0,0.431034
man,0.352941,0.080808,0.119122
woman,0.978022,0.909091,0.491228


### 다중 통계함수 적용

In [56]:
# index, columns, values를 모두 지정한 피벗 테이블 지정
# index로 'who', columns로 'pclass', values로 'survived' 사용
# 적용함수로 합계와 평균('sum', 'mean') 을 지정합니다.  (목록은 리스트 사용)

df.pivot_table(index='who', 
               columns='pclass', 
               values='survived', 
               aggfunc=['sum','mean'])

Unnamed: 0_level_0,sum,sum,sum,mean,mean,mean
pclass,1,2,3,1,2,3
who,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
child,5,19,25,0.833333,1.0,0.431034
man,42,8,38,0.352941,0.080808,0.119122
woman,89,60,56,0.978022,0.909091,0.491228


In [57]:
df.groupby(by=['who', 'pclass'])['survived'].agg(['sum', 'mean']).unstack()

Unnamed: 0_level_0,sum,sum,sum,mean,mean,mean
pclass,1,2,3,1,2,3
who,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
child,5,19,25,0.833333,1.0,0.431034
man,42,8,38,0.352941,0.080808,0.119122
woman,89,60,56,0.978022,0.909091,0.491228
