# Python_Machine Learning_Pandas_Data Analysis - part 6

##### 데이터 분석 관련 내용을 정리 하였으며, 파이썬 머신러닝 판다스 데이터분석(오승환 지음)을 참고하여 작성하였습니다.
##### 해당 자료는 python 3.7 기반으로 작성되었습니다.

## 6. 데이터프레임의 다양한 응용
### 6.1 함수 매핑
#### 6.1.1 개별 원소에 함수 매핑

In [3]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
df['ten'] = 10
print(df.head())
print("---------------------------------------")

def add_10(n):
    return n+10

def add_two_obj(a,b):
    return a+b

# apply() - seires 객체에 apply 메서드를 적용하면 인자로 전달하는 매핑 함수에 시리즈의 모든 원소를 하나씩 입력하고 함수 결과값을 반환
sr1 = df['age'].apply(add_10)
print(sr1.head())
print("---------------------------------------")

sr2 = df['age'].apply(add_two_obj, b = 10)
print(sr2.head())
print("---------------------------------------")

sr3 = df['age'].apply(lambda x : add_10(x)) # x = df['age']
print(sr3.head())
print("---------------------------------------")

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10
---------------------------------------
0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64
---------------------------------------
0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64
---------------------------------------
0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64
---------------------------------------


In [5]:
# applymap() - 데이터프레임의 개별 원소에 특정 함수를 매핑 / 원소의 원래 위치에 매핑 함수의 리턴값을 입력하여 동일한 형태의 데이터프레임 생성
print(df.head())
print("---------------------------------------")

df_map = df.applymap(add_10)
print(df_map.head())
print("---------------------------------------")

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10
---------------------------------------
    age     fare  ten
0  32.0  17.2500   20
1  48.0  81.2833   20
2  36.0  17.9250   20
3  45.0  63.1000   20
4  45.0  18.0500   20
---------------------------------------


#### 6.1.2 시리즈 객체에 함수 매핑

In [8]:
# apply(fun, axis=0) - 데이터프레임의 모든 열을 하나씩 분리하여 fun 적용
print(df.head())
print("---------------------------------------")

def missing_value(series):
    return series.isnull()

result = df.apply(missing_value, axis = 0)
print(result.head())
print("---------------------------------------")
print(type(result))
print("---------------------------------------")

def min_max(x):
    return x.max() - x.min()

result = df.apply(min_max)
print(result)
print("---------------------------------------")
print(type(result))
print("---------------------------------------")

# apply(fun, axis = 1) - 데이터프레임의 행을 함수의 인자로 전달
print(df.head())
print("---------------------------------------")

def add_two_obj(a,b):
    return a+b

df['add'] = df.apply(lambda x: add_two_obj(x['age'], x['ten']), axis = 1)
print(df.head())
print("---------------------------------------")

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10
---------------------------------------
     age   fare    ten
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False  False
4  False  False  False
---------------------------------------
<class 'pandas.core.frame.DataFrame'>
---------------------------------------
age      79.5800
fare    512.3292
ten       0.0000
dtype: float64
---------------------------------------
<class 'pandas.core.series.Series'>
---------------------------------------
    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10
---------------------------------------
    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0
---------------------------------------


#### 6.1.3 데이터프레임 객체에 함수 매핑

In [9]:
# pipe() - 데이터프레임 객체를 함수에 매핑
print(df.head())
print("---------------------------------------")

def missing_value(x):
    return x.isnull()

def missing_count(x):
    return missing_value(x).sum()

def total_number_missing(x):
    return missing_count(x).sum()

result_df = df.pipe(missing_value)
print(result_df.head())
print("---------------------------------------")
print(type(result_df))
print("---------------------------------------")

result_seires = df.pipe(missing_count)
print(result_seires)
print("---------------------------------------")
print(type(result_seires))
print("---------------------------------------")

result_value = df.pipe(total_number_missing)
print(result_value)
print("---------------------------------------")
print(type(result_value))
print("---------------------------------------")

    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0
---------------------------------------
     age   fare    ten    add
0  False  False  False  False
1  False  False  False  False
2  False  False  False  False
3  False  False  False  False
4  False  False  False  False
---------------------------------------
<class 'pandas.core.frame.DataFrame'>
---------------------------------------
age     177
fare      0
ten       0
add     177
dtype: int64
---------------------------------------
<class 'pandas.core.series.Series'>
---------------------------------------
354
---------------------------------------
<class 'numpy.int64'>
---------------------------------------


### 6.2 열 재구성
#### 6.2.1 열 순서 변경

In [14]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[0:4, 'survived':'age']
print(df)
print("---------------------------------------")

columns = list(df.columns.values)
print(columns)
print("---------------------------------------")

columns_sorted = sorted(columns)
df_sorted = df[columns_sorted]
print(df_sorted)
print("---------------------------------------")

columns_reversed = list(reversed(columns))
df_reversed = df[columns_reversed]
print(df_reversed)
print("---------------------------------------")

columns_customed = ['pclass', 'sex', 'age', 'survived']
df_customed = df[columns_customed]
print(df_customed)
print("---------------------------------------")

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0
---------------------------------------
['survived', 'pclass', 'sex', 'age']
---------------------------------------
    age  pclass     sex  survived
0  22.0       3    male         0
1  38.0       1  female         1
2  26.0       3  female         1
3  35.0       1  female         1
4  35.0       3    male         0
---------------------------------------
    age     sex  pclass  survived
0  22.0    male       3         0
1  38.0  female       1         1
2  26.0  female       3         1
3  35.0  female       1         1
4  35.0    male       3         0
---------------------------------------
   pclass     sex   age  survived
0       3    male  22.0         0
1       1  female  38.0         1
2       3  female  26.0         1
3       1  female  35.0         1
4       3    male  35

#### 6.2.2 열 분리

In [20]:
import pandas as pd

df = pd.read_excel('주가데이터.xlsx')
print(df.head())
print("---------------------------------------")
print(df.dtypes)
print("---------------------------------------")

df['연월일'] = df['연월일'].astype('str')
dates = df['연월일'].str.split('-')
print(dates.head())
print("---------------------------------------")

# get() - 문자열 리스트의 원소를 인덱스를 지정하여 선택
df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)
print(df.head())
print("---------------------------------------")

         연월일   당일종가  전일종가     시가     고가     저가     거래량
0 2018-07-02  10100   600  10850  10900  10000  137977
1 2018-06-29  10700   300  10550  10900   9990  170253
2 2018-06-28  10400   500  10900  10950  10150  155769
3 2018-06-27  10900   100  10800  11050  10500  133548
4 2018-06-26  10800   350  10900  11000  10700   63039
---------------------------------------
연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object
---------------------------------------
0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object
---------------------------------------
          연월일   당일종가  전일종가     시가     고가     저가     거래량     연   월   일
0  2018-07-02  10100   600  10850  10900  10000  137977  2018  07  02
1  2018-06-29  10700   300  10550  10900   9990  170253  2018  06  29
2  2018-06-28  10400   500  10900  10950

### 6.3 필터링
#### 6.3.1 불린 인덱싱

In [28]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
mask1 = (titanic['age'] >= 10) & (titanic['age'] < 20) # 나이가 10대인 조건
df_teenage = titanic.loc[mask1, :]
print(df_teenage.head())
print("---------------------------------------")

mask2 = (titanic['age'] < 10) & (titanic['sex'] == 'female') # 나이가 10세 미만이고 성별이 여성
df_female_under10 = titanic.loc[mask2,:]
print(df_female_under10.head())
print("---------------------------------------")

mask3 = (titanic['age'] < 10) | (titanic['age'] >= 60) # 나이가 10세미만 또는 60세 이상
df_under10_morethan60 = titanic.loc[mask3, ['age', 'sex', 'alone']] # 조건을 만족하는 값들 중 age, sex, alone만 추출
print(df_under10_morethan60.head())
print("---------------------------------------")

    survived  pclass     sex   age  sibsp  parch      fare embarked   class    who  adult_male deck  embark_town alive  alone
9          1       2  female  14.0      1      0   30.0708        C  Second  child       False  NaN    Cherbourg   yes  False
14         0       3  female  14.0      0      0    7.8542        S   Third  child       False  NaN  Southampton    no   True
22         1       3  female  15.0      0      0    8.0292        Q   Third  child       False  NaN   Queenstown   yes   True
27         0       1    male  19.0      3      2  263.0000        S   First    man        True    C  Southampton    no  False
38         0       3  female  18.0      2      0   18.0000        S   Third  woman       False  NaN  Southampton    no  False
---------------------------------------
     survived  pclass     sex  age  sibsp  parch     fare embarked   class    who  adult_male deck  embark_town alive  alone
10          1       3  female  4.0      1      1  16.7000        S   Third  chi

#### 6.3.2 isin() 메서드 활용

In [31]:
import seaborn as sns
import pandas as pd

titanic = sns.load_dataset('titanic')

# ipython 디스플레이 설정 변경 - 출력할 최대 열의 개수 
pd.set_option('display.max_columns', 10)

mask3 = titanic['sibsp'] == 3
mask4 = titanic['sibsp'] == 4
mask5 = titanic['sibsp'] == 5
df_boolean = titanic[mask3 | mask4 | mask5]
print(df_boolean.head())
print("---------------------------------------")

isin_filter = titanic['sibsp'].isin([3,4,5])
df_isin = titanic[isin_filter]
print(df_isin.head())
print("---------------------------------------")

    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        True     C  Southampton   
50         0       3    male   7.0      4  ...       False   NaN  Southampton   

   alive  alone  
7     no  False  
16    no  False  
24    no  False  
27    no  False  
50    no  False  

[5 rows x 15 columns]
---------------------------------------
    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0      

### 6.4 데이터프레임 
#### 6.4.1 데이터프레임 연결

In [41]:
# concat(데이터프레임 리스트) - 기존 데이터프레임의 형태를 유지하면서 이어 붙이는 경우
# join = outer (default) - 열 이름의 배열을 합집합으로 합친다 / join = inner - 열 이름의 배열을 교집합으로 합친다.

import pandas as pd

df1 = pd.DataFrame({'a' : ['a0', 'a1', 'a2', 'a3'],
                   'b' : ['bo', 'b1', 'b2', 'b3'],
                   'c' : ['c0', 'c1', 'c2', 'c3']}, 
                  index = [0,1,2,3])

df2 = pd.DataFrame({'a' : ['a2', 'a3', 'a4', 'a5'],
                   'b' : ['b2', 'b3', 'b4', 'b5'],
                   'c' : ['c2', 'c3', 'c4', 'c5'],
                   'd' : ['d2', 'd3', 'd4', 'd5']}, 
                  index = [2,3, 4,5])

print(df1)
print("---------------------------------------")
print(df2)
print("---------------------------------------")

# axis = 0 (default) - 행 기준으로 붙인다 (= 위 아래로 붙인다)
result = pd.concat([df1, df2])
print(result)
print("---------------------------------------")

# ignore_index = True - 기존 행 인덱스를 무시하고 새로운 행 인덱스를 설정
result2 = pd.concat([df1,df2], ignore_index=True)
print(result2)
print("---------------------------------------")

# axis = 1 - 열 기준으로 붙인다 (= 옆으로 붙인다)
result3 = pd.concat([df1,df2], axis = 1)
print(result3)
print("---------------------------------------")

# join = 'inner' - 연결할 데이터프레임들의 행 인덱스(열 이름) 교집합을 기준으로 사용
result3_in = pd.concat([df1,df2], axis = 1, join = 'inner')
print(result3_in)
print("---------------------------------------")

result_in = pd.concat([df1, df2], join = 'inner')
print(result_in)
print("---------------------------------------")

sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name = 'e')
sr2 = pd.Series(['f0', 'f1', 'f2'], name = 'f')
sr3 = pd.Series(['g0', 'g1' ,'g2', 'g3'], name = 'g')

result4 = pd.concat([df1, sr1], axis = 1)
print(result4)
print("---------------------------------------")

result5 = pd.concat([df2,sr2], axis = 1, sort = True)
print(result5)
print("---------------------------------------")

result6 = pd.concat([sr1, sr3], axis = 1)
print(result6)
print("---------------------------------------")

result7 = pd.concat([sr1, sr3], axis = 0)
print(result7)
print("---------------------------------------")

    a   b   c
0  a0  bo  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3
---------------------------------------
    a   b   c   d
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  a4  b4  c4  d4
5  a5  b5  c5  d5
---------------------------------------
    a   b   c    d
0  a0  bo  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
2  a2  b2  c2   d2
3  a3  b3  c3   d3
4  a4  b4  c4   d4
5  a5  b5  c5   d5
---------------------------------------
    a   b   c    d
0  a0  bo  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
4  a2  b2  c2   d2
5  a3  b3  c3   d3
6  a4  b4  c4   d4
7  a5  b5  c5   d5
---------------------------------------
     a    b    c    a    b    c    d
0   a0   bo   c0  NaN  NaN  NaN  NaN
1   a1   b1   c1  NaN  NaN  NaN  NaN
2   a2   b2   c2   a2   b2   c2   d2
3   a3   b3   c3   a3   b3   c3   d3
4  NaN  NaN  NaN   a4   b4   c4   d4
5  NaN  NaN  NaN   a5   b5   c5   d5
---------------------------------------
    a   b   c   a   b   c   d
2  a2  b2

#### 6.4.2 데이터프레임 병합

In [47]:
# join() - sql의 join 명령과 비슷한 방식, 기준에 의해 두 데이터프레임을 병합, 기준이 되는 열이나 인덱스를 키(key)라고 
import pandas as pd

pd.set_option('display.max_columns', 10)   # 출력할 최대 열의 개수
pd.set_option('display.max_colwidth', 20)  # 출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True)  # 유니코드 사용 너비 조정

df1 = pd.read_excel('stock price.xlsx')
df2 = pd.read_excel('stock valuation.xlsx')

print(df1)
print("---------------------------------------")
print(df2)
print("---------------------------------------")

# on = None (default) - 공통으로 속하는 모든 열을 기준(키)으로 병합
# how = 'inner' (default) - 기준이 되는 열의 데이터가 양쪽 데이터프레임에 공통으로 존재하는 교집합일때만 추출
merge_inner = pd.merge(df1, df2)
print(merge_inner)
print("---------------------------------------")

# on = 'id' - 두 데이터프레임의 공통 열 중에서 id 열을 키로 병합
# how = 'outer' - 기준이 되는 열의 데이터가 데이터프레임 중 어느 한쪽에만 속하더라도 포함 / id 열 기준으로 모든 종목의 데이터가 포함
merge_outer = pd.merge(df1, df2, how = 'outer', on = 'id')
print(merge_outer)
print("---------------------------------------")

# how = 'left' - 왼쪽 데이터프레임의 키 열에 속하는 데이터 값을 기준으로 병합
# left_on / right_on - 좌우 데이터프레임에 각각 다르게 키를 지정
merge_left = pd.merge(df1, df2, how = 'left', left_on = 'stock_name', right_on = 'name')
print(merge_left)
print("---------------------------------------")

# how = 'right' - 오른쪽 데이터프레임의 키 열을 기준으로 추출
merge_right = pd.merge(df1, df2, how = 'right', left_on = 'stock_name', right_on = 'name')
print(merge_right)
print("---------------------------------------")

# boolean 인덱싱과 결합하여 원하는 데이터 찾기 - 주가 50000원 미만인 종목 중 밸류에이션 지표가 존재하는 값만 출력
price = df1[df1['price'] < 50000]
print(price.head())
print("---------------------------------------")

value = pd.merge(price, df2)
print(value)
print("---------------------------------------")

       id    stock_name          value   price
0  128940      한미약품   59385.666667  421000
1  130960        CJ E&M   58540.666667   98900
2  138250    엔에스쇼핑   14558.666667   13200
3  139480        이마트  239230.833333  254500
4  142280  녹십자엠에스     468.833333   10200
5  145990        삼양사   82750.000000   82000
6  185750        종근당   40293.666667  100500
7  192400    쿠쿠홀딩스  179204.666667  177500
8  199800          툴젠   -2514.333333  115400
9  204210  모두투어리츠    3093.333333    3475
---------------------------------------
       id              name           eps     bps        per       pbr
0  130960            CJ E&M   6301.333333   54068  15.695091  1.829178
1  136480              하림    274.166667    3551  11.489362  0.887074
2  138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
3  139480            이마트  18268.166667  295780  13.931338  0.860437
4  145990            삼양사   5741.000000  108090  14.283226  0.758627
5  161390        한국타이어   5648.500000   51341   7.453306  0.820007
6  

#### 6.4.3 데이터프레임 결합

In [50]:
# join() - merge 함수를 기반으로 만들어져 작동 방식은 비슷 / join은 행 인덱스를 기준으로 결합 / on = keys 옵션으로 열을 기준으로 병합 가능
# how = 'left' (default) - 왼쪽 행 인덱스에 해당하는 값을 기준으로 join

df1 = pd.read_excel('stock price.xlsx', index_col='id')
df2 = pd.read_excel('stock valuation.xlsx', index_col = 'id')

df3 = df1.join(df2)
print(df3)
print("---------------------------------------")

# how = 'inner' - 두 데이터프레임에 공통으로 존재하는 행 인덱스를 기준으로 추출
df4 = df1.join(df2, how = 'inner')
print(df4)
print("---------------------------------------")

          stock_name          value   price          name           eps  \
id                                                                        
128940      한미약품   59385.666667  421000           NaN           NaN   
130960        CJ E&M   58540.666667   98900        CJ E&M   6301.333333   
138250    엔에스쇼핑   14558.666667   13200           NaN           NaN   
139480        이마트  239230.833333  254500        이마트  18268.166667   
142280  녹십자엠에스     468.833333   10200           NaN           NaN   
145990        삼양사   82750.000000   82000        삼양사   5741.000000   
185750        종근당   40293.666667  100500        종근당   3990.333333   
192400    쿠쿠홀딩스  179204.666667  177500           NaN           NaN   
199800          툴젠   -2514.333333  115400           NaN           NaN   
204210  모두투어리츠    3093.333333    3475  모두투어리츠     85.166667   

             bps        per       pbr  
id                                     
128940       NaN        NaN       NaN  
130960   54068.0  15.695091  1.

### 6.5 그룹 연산
#### - 그룹 연산은 데이터를 집계, 변환, 필터링하는데 효율적이다. 그룹 연산은 3단계의 과정으로 이루어진다.
#### - 1단계 : 분할 (데이터를 특정 조건에 의해 분할) -> groupby() 메서드 사용
#### - 2단계 : 적용 (데이터를 집계, 변환, 필터링하는데 필요한 메서드 적용)
#### - 3단계 : 결합 (2단계의 처리 결과를 하나로 결합)
#### 6.5.1 그룹 객체 만들기(분할 단계)

In [11]:
# groupby() - 데이터프레임의 특정 열을 기준으로 데이터프레임을 분할하여 그룹 객체를 반환
import pandas as pd 
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','sex','class','fare', 'survived']]

print('승객 수 : ', len(df))
print("------------------------------------------------")
print(df.head())
print("------------------------------------------------")

grouped = df.groupby(['class'])
print(grouped)
print("------------------------------------------------")

for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())
    print("------------------------------------------------")
    
average = grouped.mean()
print(average)
print("------------------------------------------------")

group3 = grouped.get_group('Third')
print(group3.head())
print("------------------------------------------------")

grouped_two = df.groupby(['class', 'sex'])

for key, group in grouped_two:
    print('* key : ', key)
    print('* number: ', len(group))
    print(group.head())
    print("------------------------------------------------")

average_two = grouped_two.mean()
print(average_two)
print("------------------------------------------------")
print(type(average_two))
print("------------------------------------------------")

group3f = grouped_two.get_group(('Third', 'female'))
print(group3f)
print("------------------------------------------------")

승객 수 :  891
------------------------------------------------
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0
------------------------------------------------
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fe3a8e12a20>
------------------------------------------------
* key : First
* number : 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1
------------------------------------------------
* key : Second
* number : 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  S

#### 6.5.2 그룹 연산 메소드(적용 - 결합 단계)

In [28]:
std_all = grouped.std()
print(std_all)
print("------------------------------------------------")
print(type(std_all))
print("------------------------------------------------")

std_fare = grouped.fare.std()
print(std_fare)
print("------------------------------------------------")
print(type(std_fare))
print("------------------------------------------------")

# agg() - 집계 연산을 처리하는 사용자 정의 함수를 그룹 객체에 적용
def min_max(x):
    return x.max() - x.min()
agg_minmax = grouped.agg(min_max)
print(agg_minmax.head())
print("------------------------------------------------")

agg_all = grouped.agg(['min', 'max'])
print(agg_all.head())
print("------------------------------------------------")

agg_sep = grouped.agg({'fare' : ['min', 'max'], 'age' : 'mean'})
print(agg_sep.head())
print("------------------------------------------------")

age_mean = grouped.age.mean()
print(age_mean)
print("------------------------------------------------")

age_std = grouped.age.std()
print(age_std)
print("------------------------------------------------")

for key, group in grouped.age:
    group_zscore = (group - age_mean.loc[key]) / age_std.loc[key]
    print('* origin :', key)
    print(group_zscore.head(3))
    print("------------------------------------------------")

# transform() - 그룹별로 구분하여 각 원소에 함수를 적용하지만 그룹별 집계 대신 원소의 본래 행 인덱스와 열 이름을 기준으로 연산 결과를 반환
def z_score(x):
    return (x - x.mean()) / x.std()

age_zscore = grouped.age.transform(z_score)
print(age_zscore.loc[[1,9,0]])
print("------------------------------------------------")
print(len(age_zscore))
print("------------------------------------------------")
print(age_zscore.loc[0:9])
print("------------------------------------------------")
print(type(age_zscore))
print("------------------------------------------------")

# filter() - 조건이 참인 그룹만을 남김
grouped_filter = grouped.filter(lambda x : len(x) >= 200)
print(grouped_filter.head())
print("------------------------------------------------")
print(type(grouped_filter))
print("------------------------------------------------")

age_filter = grouped.filter(lambda x : x.age.mean() < 30)
print(age_filter.head())
print("------------------------------------------------")
print(type(age_filter))
print("------------------------------------------------")

# apply() - 판다스 객체의 개별 원소를 특정 함수에 일대일로 매핑
agg_grouped = grouped.apply(lambda x : x.describe())
print(agg_grouped)
print("------------------------------------------------")

def z_score(x):
    return (x - x.mean()) / x.std()

age_zscore = grouped.age.apply(z_score)
print(age_zscore.head())
print("------------------------------------------------")

              age       fare  survived
class                                 
First   14.802856  78.380373  0.484026
Second  14.001077  13.417399  0.500623
Third   12.495398  11.778142  0.428949
------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
------------------------------------------------
class
First     78.380373
Second    13.417399
Third     11.778142
Name: fare, dtype: float64
------------------------------------------------
<class 'pandas.core.series.Series'>
------------------------------------------------
          age      fare  survived
class                            
First   79.08  512.3292         1
Second  69.33   73.5000         1
Third   73.58   69.5500         1
------------------------------------------------
         age           sex       fare           survived    
         min   max     min   max  min       max      min max
class                                                       
First   0.92  80.0  female  male  0.0  5

### 6.6 멀티 인덱스

In [33]:
grouped = df.groupby(['class', 'sex'])

gdf = grouped.mean()
print(gdf)
print("------------------------------------------------")
print(type(gdf))
print("------------------------------------------------")
print(gdf.loc['First'])
print("------------------------------------------------")
print(gdf.loc[('First', 'female')]) # 멀티인덱스는 tuple로 묶음
print("------------------------------------------------")
print(gdf.xs('male', level = 'sex'))
print("------------------------------------------------")

                     age        fare  survived
class  sex                                    
First  female  34.611765  106.125798  0.968085
       male    41.281386   67.226127  0.368852
Second female  28.722973   21.970121  0.921053
       male    30.740707   19.741782  0.157407
Third  female  21.750000   16.118810  0.500000
       male    26.507589   12.661633  0.135447
------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
------------------------------------------------
              age        fare  survived
sex                                    
female  34.611765  106.125798  0.968085
male    41.281386   67.226127  0.368852
------------------------------------------------
age          34.611765
fare        106.125798
survived      0.968085
Name: (First, female), dtype: float64
------------------------------------------------
              age       fare  survived
class                                 
First   41.281386  67.226127  0.368852
Second

### 6.7 피벗 
#### - 피벗테이블은 4가지 요소로 구성된다 : 행 인덱스, 열 인덱스, 데이터 값, 데이터 집계 함수

In [49]:
# pivot_table() 메서드로 피벗테이블을 만든다
pdf1 = pd.pivot_table(df, index = 'class', columns = 'sex', values = 'age', aggfunc = 'mean')
print(pdf1.head())
print("------------------------------------------------")

pdf2 = pd.pivot_table(df, index = 'class', columns= 'sex', values = 'survived', aggfunc=['mean', 'sum'])
print(pdf2.head())
print("------------------------------------------------")

pdf3 = pd.pivot_table(df, index = ['class', 'sex'], columns = 'survived', 
                      values = ['age', 'fare'], aggfunc = ['mean', 'max'])
print(pdf3.head())
print("------------------------------------------------")
print(pdf3.index)
print("------------------------------------------------")
print(pdf3.columns)
print("------------------------------------------------")
print(pdf3.xs('First'))
print("------------------------------------------------")
print(pdf3.xs(('First', 'female')))
print("------------------------------------------------")
print(pdf3.xs(('Second', 'male'), level = [0, 'sex']))
print("------------------------------------------------")
print(pdf3.xs('mean', axis = 1))
print("------------------------------------------------")
print(pdf3.xs(('mean', 'age'), axis = 1))
print("------------------------------------------------")
print(pdf3.xs(1, level='survived', axis = 1))
print("------------------------------------------------")
print(pdf3.xs(('max', 'fare', 0), level = [0,1,2], axis = 1))
print("------------------------------------------------")

sex        female       male
class                       
First   34.611765  41.281386
Second  28.722973  30.740707
Third   21.750000  26.507589
------------------------------------------------
            mean              sum     
sex       female      male female male
class                                 
First   0.968085  0.368852     91   45
Second  0.921053  0.157407     70   17
Third   0.500000  0.135447     72   47
------------------------------------------------
                    mean                                      max        \
                     age                   fare               age         
survived               0          1           0           1     0     1   
class  sex                                                                
First  female  25.666667  34.939024  110.604167  105.978159  50.0  63.0   
       male    44.581967  36.248000   62.894910   74.637320  71.0  80.0   
Second female  36.000000  28.080882   18.250000   22.288989  57.0  55.0  