# 1. 함수 매핑

## 1-1 ) 개별 원소에 함수 매핑

In [1]:
# 시리즈 원소에 함수 매핑하기
# Series객체.apply(매핑 함수)

import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']]
df['ten'] = 10
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [2]:
# 사용자 함수를 정의한다.
def add_10(n):
    return n+10

def add_two_obj(a,b):
    return a+b

# apply()를 활용하여 df['age'] 열에 add_10()를 매핑하면 모든 원소에 숫자10을 더한다.

# 시리즈 객체에 적용
sr1 = df['age'].apply(add_10)
print(sr1.head())
print('\n')

# 시리즈 객체와 숫자에 적용 : 2개의 인수(시리즈+숫자)
sr2 = df['age'].apply(add_two_obj, b=10)   # a=df['age']의 모든 원소, b=10
print(sr2.head())
print('\n')

# lambda함수, 시리즈 객체에 적용
sr3 = df['age'].apply(lambda x: add_10(x))  # x=df['age']
print(sr3.head())

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


In [3]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']]

def add_10(n):
    return n+10

# 데이터 프레임에 applymap()로 add_10함수를 매핑하여 적용한다.
df_map = df.applymap(add_10)
print(df_map)

      age     fare
0    32.0  17.2500
1    48.0  81.2833
2    36.0  17.9250
3    45.0  63.1000
4    45.0  18.0500
..    ...      ...
886  37.0  23.0000
887  29.0  40.0000
888   NaN  33.4500
889  36.0  40.0000
890  42.0  17.7500

[891 rows x 2 columns]


## 1-2 ) Series 객체에 함수 매핑

* 데이터프레임의 각 열에 함수 매핑  
: *DataFrame객체.apply(매핑 함수, axis=0)*

In [4]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']]
print(df.head())
print('\n')

# 사용자 함수 정의
def missing_value(series):
    return series.isnull()

# 데이터프레임의 각 열을 인자로 전달하면 데이터프레임을 반환
result = df.apply(missing_value, axis=0)
print(result.head())
print('\n')
print(type(result))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False


<class 'pandas.core.frame.DataFrame'>


In [5]:
# 시리즈의 max와 min의 차이를 계산하여 값을 반환하는 min_max(x)를 정의하여 사용한다.
# 데이터프레임의 각 열을 매핑함수에 전달하면 각 열의 리턴값은 하나의 값으로 반환된다.
# 마지막으로 이들 값을 하나의 시리즈로 통합하는 과정을 거친다.

# 각 열의 이름이 시리즈의 인덱스가 되고, 함수가 반환하는 값이 각 인덱스에 매칭되는 데이터 값이 된다.
# axis=0 옵션의 경우 따로 설정하지 않아도 apply()에서 기본 적용된다.

# 사용자 함수 정의
def min_max(x):
    return x.max() - x.min()

# 데이터프레임의 각 열을 인자로 전달하면 시리즈를 반환한다.
result = df.apply(min_max)  # default : axis=0
print(result)
print('\n')
print(type(result))

age      79.5800
fare    512.3292
dtype: float64


<class 'pandas.core.series.Series'>


* DataFrame의 각 '행'에 함수 매핑  
: DataFrame.apply(매핑함수, axis=1)

In [6]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','fare']]
df['ten'] = 10
print(df.head())
print('\n')
# 사용자 함수 정의
def add_two_obj(a, b):
    return a+b

# dataframe의 2개 열을 선택하여 적용
# x=df, a=df['age'], b=df['ten']
df['add'] = df.apply(lambda x: add_two_obj(x['age'], x['ten']),axis=1)
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0


## 1-3 ) DataFrame 객체에 함수 매핑

DataFrame 객체.pipe(매핑 함수)

In [7]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]

# 각 열의 NaN 찾기 - 데이터프레임을 전달하면 데이터프레임 반환
def missing_value(x): 
    return x.isnull()

# 각 열의 NaN 개수 반환
def missing_count(x):   # df를 입력받으면 각 열의 누락 데이터개수를 시리즈로 반환
    return missing_value(x).sum()

# 데이터프레임의 총 NaN 개수
def total_number_missing(x):  # df를 입력받으면 
    return missing_count(x).sum()

# df 에 pipe()로 함수 매핑
result_df = df.pipe(missing_value)
print(result_df.head())
print(type(result_df))

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


In [8]:
result_series = df.pipe(missing_count)
print(result_series)
print(type(result_series))

age     177
fare      0
dtype: int64
<class 'pandas.core.series.Series'>


In [9]:
result_value = df.pipe(total_number_missing)
print(result_value)
print(type(result_value))

177
<class 'numpy.int64'>


# 2. 열 재구성

## 2-1 ) 열 순서 변경

In [10]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[0:4,'survived':'age']
df

Unnamed: 0,survived,pclass,sex,age
0,0,3,male,22.0
1,1,1,female,38.0
2,1,3,female,26.0
3,1,1,female,35.0
4,0,3,male,35.0


In [11]:
# df.columns.values(df의 열 이름 배열)를 선택하여 list()로 전달한다.
columns = list(df.columns.values)
columns

['survived', 'pclass', 'sex', 'age']

In [12]:
# 열 이름을 알파벳 순으로 정렬하기
columns_sorted = sorted(columns)
df_sorted = df[columns_sorted]
df_sorted

Unnamed: 0,age,pclass,sex,survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0


In [13]:
# 열 이름을 알파벳 역순으로 정렬하기
columns_reversed = list(reversed(columns))
df_reversed = df[columns_reversed]
df_reversed

Unnamed: 0,age,sex,pclass,survived
0,22.0,male,3,0
1,38.0,female,1,1
2,26.0,female,3,1
3,35.0,female,1,1
4,35.0,male,3,0


In [14]:
# 열 이름을 사용자가 정의한 임의의 순서대로 재배치하기
columns_customed = ['pclass','sex','age','survived']
df_customed = df[columns_customed]
df_customed

Unnamed: 0,pclass,sex,age,survived
0,3,male,22.0,0
1,1,female,38.0,1
2,3,female,26.0,1
3,1,female,35.0,1
4,3,male,35.0,0


## 2-2 ) 열 분리

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   연월일     20 non-null     datetime64[ns]
 1   당일종가    20 non-null     int64         
 2   전일종가    20 non-null     int64         
 3   시가      20 non-null     int64         
 4   고가      20 non-null     int64         
 5   저가      20 non-null     int64         
 6   거래량     20 non-null     int64         
dtypes: datetime64[ns](1), int64(6)
memory usage: 1.2 KB


In [18]:
# 연월일 열을 분리한다.
df['연월일'] = df['연월일'].astype('str')
dates = df['연월일'].str.split('-')
dates.head()

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object

* Series 객체.str.get(인덱스)  
: dates변수에 저장된 문자열 리스트의 원소를 선택하기 위해 get()를 활용한다.  
각 원소 리스트의 인덱스 0,1,2를 전달하여 '연','월','일' 데이터를 따로 선택할 수 있다.

In [19]:
# 분리된 정보를 각각 새로운 열에 담에 df에 추가하기
df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


# 3. 필터링
> Series 또는 DataFrame 데이터 중 특정 조건식을 만족하는 원소만 따로 추출한다.

## 3-1 ) boolean 필터링

In [20]:
import seaborn as sns

titanic = sns.load_dataset('titanic')

# agerk 10대 (10~19세)인 승객만 따로 선택
mask1 = (titanic.age >= 10) & (titanic.age <20)
df_teenage = titanic.loc[mask1,:]
df_teenage.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0,S,Third,woman,False,,Southampton,no,False


In [21]:
# age가 (0~9세) 이고 (여성) 인 승객만 따로 선택
mask2 = (titanic.age<10) & (titanic.sex=='female')
df_female_under10 = titanic.loc[mask2,:]
df_female_under10.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False


In [22]:
# or연산자로 결합하여 조건 중 하나라도 만족하는 값을 추출할 수 있다.

# 나이가 10세 미만 또는 60세 이상인 승객의 age, sex, alone 열만 선택.
mask3 = (titanic.age < 10) | (titanic.age >= 60)
df_under10_morethan60 = titanic.loc[mask3,['age','sex','alone']]
df_under10_morethan60

Unnamed: 0,age,sex,alone
7,2.00,male,False
10,4.00,female,False
16,2.00,male,False
24,8.00,female,False
33,66.00,male,True
...,...,...,...
831,0.83,male,False
850,4.00,male,False
851,74.00,male,True
852,9.00,female,False


## 3-2 ) isin() 활용
* DataFrame의 열 객체.isin(추출 값의 리스트)

sibsp 열(함께 탑승한 형제 혹은 배우자의 수)의 값이 3,4,5 중 하나인 행들을 추출

In [23]:
# boolean indexing으로 추출

import seaborn as sns
import pandas as pd

titanic = sns.load_dataset('titanic')

mask3 = titanic['sibsp'] == 3
mask4 = titanic['sibsp'] == 4
mask5 = titanic['sibsp'] == 5

df_boolean = titanic[mask3 | mask4 | mask5]
df_boolean.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False


In [24]:
# isin() 로 추출

# isin()의 인자로 [3,4,5]형태의 리스트를 전달하면 해당 값이 존재하는 행은 참을 반환, 값이 없으면 거짓을 반환한다.
# 조건을 만족하는 행들만 선택하여 df_isin에 저장한다.
isin_filter = titanic['sibsp'].isin([3,4,5])
df_isin = titanic[isin_filter]
df_isin.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False


# 4. DataFrame 합치기
> concat(), merge(), join()

## 4-1 ) DataFrame 연결 (.concat())
> * axis = 0 이 기본
> * join='outer' 합집합 기본 적용, join='inner'옵션으로 교집합 적용 가능

In [25]:
import pandas as pd

df1 = pd.DataFrame({
    'a': ['a0','a1','a2','a3'],
    'b': ['b0','b1','b2','b3'],
    'c': ['c0','c1','c2','c3']
}, index = [0,1,2,3])

df2 = pd.DataFrame({
    'a': ['a2','a3','a4','a5'],
    'b': ['b2','b3','b4','b5'],
    'c': ['c2','c3','c4','c5'],
    'd': ['d2','c3','d4','d5']
}, index = [2,3,4,5])

print(df1)
print('\n')
print(df2)
print('\n')
result1 = pd.concat([df1, df2])
print(result1, '\n')

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3


    a   b   c   d
2  a2  b2  c2  d2
3  a3  b3  c3  c3
4  a4  b4  c4  d4
5  a5  b5  c5  d5


    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
2  a2  b2  c2   d2
3  a3  b3  c3   c3
4  a4  b4  c4   d4
5  a5  b5  c5   d5 



In [29]:
# ignore_index = True는 기존 행 index를 무시하고 새로운 행 index를 설정한다.
# 예제와 같이 정수형 위치 인덱스가 새롭게 설정된다.

# ignore_index = True 적용
result2 = pd.concat([df1, df2], ignore_index=True)
result2

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
4,a2,b2,c2,d2
5,a3,b3,c3,c3
6,a4,b4,c4,d4
7,a5,b5,c5,d5


axis = 1 옵션을 사용하면 df를 좌우 열 방향으로 연결한다.  
따라서, 기존 열 이름 배열이 그대로 유지된다.  
df의 행 index는 join='outer' 옵션이 기본값으로 적용되어 각 DataFrame의 행 index들의 합집합으로 구성된다.

#### join = 'outer'  
기본값으로 설정된다.  
어느 한쪽에만 데이터가 존재하는 경우에는 유효한 데이터가 없다는 의미로 NaN이 설정된다.

In [27]:
# 2개의 df를 좌우 열 방향으로 이어붙이듯 연결하기
result3 = pd.concat([df1, df2], axis=1)
result3

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
0,a0,b0,c0,,,,
1,a1,b1,c1,,,,
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,c3
4,,,,a4,b4,c4,d4
5,,,,a5,b5,c5,d5


#### join = 'inner'  
연결할 df의 행 index의 교집합을 기준으로 사용한다.

In [30]:
# join='inner' (교집합)
result3_in = pd.concat([df1, df2], axis=1, join='inner')
result3_in

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,c3


데이터 프레임과 시리즈를 좌우 열 방향으로 연결할 수도 있다. (= 데이터프레임에 열 추가)  
이때, 시리즈의 이름이 데이터프레임의 열 이름으로 변환된다. (단, 데이터프레임의 행 인덱스 == 시리즈의 인덱스가 같아야한다.)  
* 공통 index가 없을 경우 NaN으로 처리한다.

In [31]:
# 시리즈 만들기
sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name='e')  # 정수형 인덱스(기본값)
sr2 = pd.Series(['f0', 'f1', 'f2'], name='f', index=[3, 4, 5])
sr3 = pd.Series(['g0', 'g1', 'g2', 'g3'], name='g')

# df1과 sr1을 좌우 열 방향으로 연결하기
result4 = pd.concat([df1, sr1], axis=1)
print(result4, '\n')

# df2과 sr2을 좌우 열 방향으로 연결하기
result5 = pd.concat([df2, sr2], axis=1, sort=True)
print(result5, '\n')

    a   b   c   e
0  a0  b0  c0  e0
1  a1  b1  c1  e1
2  a2  b2  c2  e2
3  a3  b3  c3  e3 

    a   b   c   d    f
2  a2  b2  c2  d2  NaN
3  a3  b3  c3  c3   f0
4  a4  b4  c4  d4   f1
5  a5  b5  c5  d5   f2 



시리즈로 만든 리스트를 concat()에 전달하면 시리즈가 서로 연결된다.  
* axis=1 옵션을 적용하면 좌우 열 방향으로 연결하여 DataFrame이 된다.  
* axis=0 옵션을 적용하면 위아래 행 방향으로 길게 연결되어 하나의 시리즈가 된다.

In [32]:
# sr1과 sr3을 좌우 열 방향으로 연결하기
result6 = pd.concat([sr1, sr3], axis=1)
print(result6, '\n')

result7 = pd.concat([sr1, sr3], axis=0)
print(result7, '\n')

    e   g
0  e0  g0
1  e1  g1
2  e2  g2
3  e3  g3 

0    e0
1    e1
2    e2
3    e3
0    g0
1    g1
2    g2
3    g3
dtype: object 



## 4-2 ) DataFrame 병합 (.merge())
> **pandas.merge( df_left, df_right, how='inner', on=None )**  
> ~= SQL의 join명령어와 비슷한 방식으로 어떤 기준에 의해 두 DataFrame을 병합하는 개념이다.
> * 기준이 되는 열이나 인덱스 == key 라고 부른다.
> * key가 되는 열이나 인덱스는 반드시 양쪽 DataFrame에 모두 존재해야한다.

In [33]:
import pandas as pd

# 주식 데이터를 가져와서 데이터프레임 만들기
df1 = pd.read_excel('./stock price.xlsx', engine= 'openpyxl')
df2 = pd.read_excel('./stock valuation.xlsx', engine= 'openpyxl')

print(df1)
print('\n')
print(df2)
print('\n')

       id stock_name          value   price
0  128940       한미약품   59385.666667  421000
1  130960     CJ E&M   58540.666667   98900
2  138250      엔에스쇼핑   14558.666667   13200
3  139480        이마트  239230.833333  254500
4  142280     녹십자엠에스     468.833333   10200
5  145990        삼양사   82750.000000   82000
6  185750        종근당   40293.666667  100500
7  192400      쿠쿠홀딩스  179204.666667  177500
8  199800         툴젠   -2514.333333  115400
9  204210     모두투어리츠    3093.333333    3475


       id       name           eps     bps        per       pbr
0  130960     CJ E&M   6301.333333   54068  15.695091  1.829178
1  136480         하림    274.166667    3551  11.489362  0.887074
2  138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
3  139480        이마트  18268.166667  295780  13.931338  0.860437
4  145990        삼양사   5741.000000  108090  14.283226  0.758627
5  161390      한국타이어   5648.500000   51341   7.453306  0.820007
6  181710  NHN엔터테인먼트   2110.166667   78434  30.755864  0.827447
7 

병합하려는 두 DataFrame을 merge()에 전달한다.
* on=None , how='inner' 이 기본값으로 적용된다.
* on=None : 두 DataFrame에 공통으로 속하는 모든 열을 기준으로 병합한다는 뜻이다.
* how='inner' : 기준이 되는 열의 데이터가 양쪽 DataFrame에 공통으로 존재하는 교집합일 경우에만 추출한다는 뜻이다.
* 예제에서는 'id'열을 기준으로 공통으로 존재하는 5개 종목에 대해 병합되어 출력된다.

In [37]:
# 데이터프레임 합치기 - 교집합
merge_inner = pd.merge(df1, df2)
print(merge_inner)
print('\n')

       id stock_name          value   price    name           eps     bps   
0  130960     CJ E&M   58540.666667   98900  CJ E&M   6301.333333   54068  \
1  139480        이마트  239230.833333  254500     이마트  18268.166667  295780   
2  145990        삼양사   82750.000000   82000     삼양사   5741.000000  108090   
3  185750        종근당   40293.666667  100500     종근당   3990.333333   40684   
4  204210     모두투어리츠    3093.333333    3475  모두투어리츠     85.166667    5335   

         per       pbr  
0  15.695091  1.829178  
1  13.931338  0.860437  
2  14.283226  0.758627  
3  25.185866  2.470259  
4  40.802348  0.651359  




on='id'와 how='outer'옵션을 설정한다.
* on='id'  :  두 DataFrame의 공통 열 중 'id'열을 키로 병합한다.
* how='outer'  :  기준이 되는 'id'열의 데이터가 DataFrame 중 어느 한쪽에만 속하더라도 포함한다는 뜻이다.
* 따라서 'id'열 기준으로 모든 종목의 데이터가 포함된다.
* 어느 한쪽이라도 데이터가 없는 열에는 NaN값이 지정된다.

In [38]:
# 데이터프레임 합치기 - 합집합
merge_outer = pd.merge(df1, df2, how='outer', on='id')
print(merge_outer)
print('\n')

        id stock_name          value     price       name           eps   
0   128940       한미약품   59385.666667  421000.0        NaN           NaN  \
1   130960     CJ E&M   58540.666667   98900.0     CJ E&M   6301.333333   
2   138250      엔에스쇼핑   14558.666667   13200.0        NaN           NaN   
3   139480        이마트  239230.833333  254500.0        이마트  18268.166667   
4   142280     녹십자엠에스     468.833333   10200.0        NaN           NaN   
5   145990        삼양사   82750.000000   82000.0        삼양사   5741.000000   
6   185750        종근당   40293.666667  100500.0        종근당   3990.333333   
7   192400      쿠쿠홀딩스  179204.666667  177500.0        NaN           NaN   
8   199800         툴젠   -2514.333333  115400.0        NaN           NaN   
9   204210     모두투어리츠    3093.333333    3475.0     모두투어리츠     85.166667   
10  136480        NaN            NaN       NaN         하림    274.166667   
11  138040        NaN            NaN       NaN    메리츠금융지주   2122.333333   
12  161390        NaN    

In [40]:
# 데이터프레임 합치기 - 왼쪽 데이터프레임 기준, 키 값 분리
merge_left = pd.merge(df1, df2, how='left', left_on='stock_name', right_on='name')  # 좌우 데이터프레임에 각각 다르게 키를 지정할 수 있다.
print(merge_left)
print('\n')

     id_x stock_name          value   price      id_y    name           eps   
0  128940       한미약품   59385.666667  421000       NaN     NaN           NaN  \
1  130960     CJ E&M   58540.666667   98900  130960.0  CJ E&M   6301.333333   
2  138250      엔에스쇼핑   14558.666667   13200       NaN     NaN           NaN   
3  139480        이마트  239230.833333  254500  139480.0     이마트  18268.166667   
4  142280     녹십자엠에스     468.833333   10200       NaN     NaN           NaN   
5  145990        삼양사   82750.000000   82000  145990.0     삼양사   5741.000000   
6  185750        종근당   40293.666667  100500  185750.0     종근당   3990.333333   
7  192400      쿠쿠홀딩스  179204.666667  177500       NaN     NaN           NaN   
8  199800         툴젠   -2514.333333  115400       NaN     NaN           NaN   
9  204210     모두투어리츠    3093.333333    3475  204210.0  모두투어리츠     85.166667   

        bps        per       pbr  
0       NaN        NaN       NaN  
1   54068.0  15.695091  1.829178  
2       NaN        NaN   

In [39]:
# 데이터프레임 합치기 - 오른쪽 데이터프레임 기준, 키 값 분리
merge_right = pd.merge(df1, df2, how='right', left_on='stock_name', right_on='name')
print(merge_right)
print('\n')

       id_x stock_name          value     price    id_y       name   
0  130960.0     CJ E&M   58540.666667   98900.0  130960     CJ E&M  \
1       NaN        NaN            NaN       NaN  136480         하림   
2       NaN        NaN            NaN       NaN  138040    메리츠금융지주   
3  139480.0        이마트  239230.833333  254500.0  139480        이마트   
4  145990.0        삼양사   82750.000000   82000.0  145990        삼양사   
5       NaN        NaN            NaN       NaN  161390      한국타이어   
6       NaN        NaN            NaN       NaN  181710  NHN엔터테인먼트   
7  185750.0        종근당   40293.666667  100500.0  185750        종근당   
8  204210.0     모두투어리츠    3093.333333    3475.0  204210     모두투어리츠   
9       NaN        NaN            NaN       NaN  207940   삼성바이오로직스   

            eps     bps        per       pbr  
0   6301.333333   54068  15.695091  1.829178  
1    274.166667    3551  11.489362  0.887074  
2   2122.333333   14894   6.313806  0.899691  
3  18268.166667  295780  13.931338  0.860

* merge()를 boolean indexing과 함께 사용하면 원하는 데이터를 추출할 수 있다.  
1. 주가가 50,000원 미만인 종목을 찾고,
2. 해당 종목의 밸류에이션 지표를 확인한다.
3. 주가 데이터와 밸류에이션 지표가 다른 데이터프레임에 있기 때문에 merge()를 사용한다.
4. on=None 옵션과 how='inner'이 기본값으로 적용된다.
5. 두 데이터프레임에 공통으로 존재하는 id를 기준으로 기준 열들의 값이 양쪽에 공통으로 존재하는 데이터가 추출된다.

In [41]:
# 불린 인덱싱과 결합하여 원하는 데이터 찾기
price = df1[df1['price'] < 50000]
print(price.head())
print('\n')

value = pd.merge(price, df2)
print(value) 

# 50,000원 미만인 종목은 모두 3개
# df2에 밸류에이션 데이터를 가진 회사는 '모두투어리츠' 한 종목으로 확인된다.'

       id stock_name         value  price
2  138250      엔에스쇼핑  14558.666667  13200
4  142280     녹십자엠에스    468.833333  10200
9  204210     모두투어리츠   3093.333333   3475


       id stock_name        value  price    name        eps   bps        per   
0  204210     모두투어리츠  3093.333333   3475  모두투어리츠  85.166667  5335  40.802348  \

        pbr  
0  0.651359  


## 4-3 ) DataFrame 결합 (.join())
> **DataFrame.join(DataFrame2, how='left')**  
> * join()은 merge()를 기반으로 만들어졌기 때문에 기본 작동 방식이 서로 비슷하다.
> * 다만, join()은 두 DataFrame의 행 index를 기준으로 결합하는 점에서 merge()와 차이가 있다.
> * join()에 대해서도 on=keys 를 설정하면 행 인덱스 대신 다른 열을 기준으로 결합하는 것이 가능하다.

In [48]:
# 라이브러리 불러오기
import pandas as pd

# 주식 데이터를 가져와서 데이터프레임 만들기
df1 = pd.read_excel('./stock price.xlsx', index_col='id', engine= 'openpyxl') # id열을 df1, df2의 행 인덱스로 설정한다.
df2 = pd.read_excel('./stock valuation.xlsx', index_col='id', engine= 'openpyxl')

print(df1)
print('\n')
print(df2)

       stock_name          value   price
id                                      
128940       한미약품   59385.666667  421000
130960     CJ E&M   58540.666667   98900
138250      엔에스쇼핑   14558.666667   13200
139480        이마트  239230.833333  254500
142280     녹십자엠에스     468.833333   10200
145990        삼양사   82750.000000   82000
185750        종근당   40293.666667  100500
192400      쿠쿠홀딩스  179204.666667  177500
199800         툴젠   -2514.333333  115400
204210     모두투어리츠    3093.333333    3475


             name           eps     bps        per       pbr
id                                                          
130960     CJ E&M   6301.333333   54068  15.695091  1.829178
136480         하림    274.166667    3551  11.489362  0.887074
138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
139480        이마트  18268.166667  295780  13.931338  0.860437
145990        삼양사   5741.000000  108090  14.283226  0.758627
161390      한국타이어   5648.500000   51341   7.453306  0.820007
181710  NHN엔터테인먼트 

* how='left' 옵션이 기본 적용된다.  
    * df1에 df2를 인자로 전달하면 왼쪽에 위치한 df1의 행 인덱스를 기준으로 결합한다는 의미이다.

In [49]:
# 데이터프레임 결합(join)
df3 = df1.join(df2)  
df3

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
128940,한미약품,59385.666667,421000,,,,,
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
138250,엔에스쇼핑,14558.666667,13200,,,,,
139480,이마트,239230.833333,254500,이마트,18268.166667,295780.0,13.931338,0.860437
142280,녹십자엠에스,468.833333,10200,,,,,
145990,삼양사,82750.0,82000,삼양사,5741.0,108090.0,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684.0,25.185866,2.470259
192400,쿠쿠홀딩스,179204.666667,177500,,,,,
199800,툴젠,-2514.333333,115400,,,,,
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [46]:
# 데이터프레임 결합(join) - 교집합
df4 = df1.join(df2, how='inner')
df4

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


# 5. 그룹 연산
> 그룹 연산은 데이터를 집계, 변환, 필터링하는데 효율적이다.  
데이터 -> 그룹으로 분할하는 1단계 과정은 **groupby()** 를 사용한다.
> 1. 분할(split) : 데이터를 특정 조건에 의해 분할
> 2. 적용(apply) : 데이터를 집계, 변환, 필터링하는데 필요한 메소드 적용
> 3. 결합(combine) : 2단계의 처리 결과를 하나로 결합

## 5-1 ) 그룹 객체 만들기 (분할 단계)

#### 1열을 기준으로 그룹화
> **DataFrame 객체.groupby(기준이 되는 열)**

In [53]:
# 라이브러리 불러오기
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]

print('승객 수:', len(df))
print(df.head())
print('\n')

# class 열을 기준으로 분할
grouped = df.groupby(['class']) 
print(grouped)

승객 수: 891
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x1680022e0>


In [54]:
# class열에는 'First', 'Second', 'Third'라는 3개의 값이 있다.
# 3개의 값을 기준으로 891명의 승객 데이터가 3개의 그룹으로 나누어진다.
# 반복문을 이용하여 그룹객체의 내용을 출력한다.

# 그룹 객체를 iteration으로 출력: head() 메소드로 첫 5행만을 출력
for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))    
    print(group.head())
    print('\n')

* key : ('First',)
* number : 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1


* key : ('Second',)
* number : 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1


* key : ('Third',)
* number : 491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0




* 생성한 그룹 객체 (groupd)에 연산메소드 적용할 수 있다.
    * grouped 객체에 들어있는 3개 그룹에 대하여 그룹별 평균값을 구하기 위해 mean()를 적용한다.
    * 이때 계산이 가능한 열에 대해서만 선택적으로 연산을 수행한다.
    * 따라서 str 데이터를 갖는 'sex','class' 열은 제외하고 숫자형 데이터를 가진 열에 대해서는 평균값을 계산한다.

* get_group()  
> grouped객체의 3개 그룹 중 키 값이 'Third'인 3등석 승객 데이터를 가진 그룹을 따로 선택하여 추출한다.

In [55]:
# 개별 그룹 선택하기
group3 = grouped.get_group('Third')
print(group3.head())

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0


#### 여러 열을 기준으로 그룹화
> **DataFrame 객체.groupby(기준이 되는 열의 리스트)**  
> 여러개의 기준값을 사용하기 때문에 반환되는 그룹 객체의 index는 다중 구조를 갖는다.

1. groupby() 메소드에 두 열('class', 'sex')를 인자로 전달하면 두 열이 갖는 원소 값들로 만들 수 있는 모든 조합으로 키를 생성한다.
2. 조합된 키를 기준으로 그룹 객체를 만든다.
3. 'class' 열에는 'First','Second','Third' 라는 3개의 값이 들어있고,
4. 'sex' 열에는 'male','female' 2개의 값이 들어있다.
5. 가능한 조합은 ('class','sex') 형식의 튜플로 지정된다.

In [58]:
# class 열, sex 열을 기준으로 분할
grouped_two = df.groupby(['class', 'sex']) 

# grouped_two 그룹 객체를 iteration으로 출력
for key, group in grouped_two:
    print('* key :', key)
    print('* number :', len(group))    
    print(group.head())
    print('\n')

* key : ('First', 'female')
* number : 94
     age     sex  class      fare  survived
1   38.0  female  First   71.2833         1
3   35.0  female  First   53.1000         1
11  58.0  female  First   26.5500         1
31   NaN  female  First  146.5208         1
52  49.0  female  First   76.7292         1


* key : ('First', 'male')
* number : 122
     age   sex  class      fare  survived
6   54.0  male  First   51.8625         0
23  28.0  male  First   35.5000         1
27  19.0  male  First  263.0000         0
30  40.0  male  First   27.7208         0
34  28.0  male  First   82.1708         0


* key : ('Second', 'female')
* number : 76
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
41  27.0  female  Second  21.0000         0
43   3.0  female  Second  41.5792         1
53  29.0  female  Second  26.0000         1


* key : ('Second', 'male')
* number : 108
     age   sex   class  fare  survived
17   Na

* grouped.two 객체 그룹에 .mean()를 적용한다.  
==> 데이터프레임이 반환되는데, key가 되는 2개의 열('class', 'sex')의 값으로부터 2중 멀티 인덱스가 지정된다.

In [61]:
# grouped_two 그룹 객체에 연산 메소드 적용
average_two = grouped_two.mean()
print(average_two)
print('\n')
print(type(average_two))

# 여성의 생존률이 남성성에 비해 월등히 높다.
# 다만, 3등석 여성 승객의 생존율은 50%에 불과, 1~2등석 여성 승객의 90% 대비 상대적으로 낮다.

                     age        fare  survived
class  sex                                    
First  female  34.611765  106.125798  0.968085
       male    41.281386   67.226127  0.368852
Second female  28.722973   21.970121  0.921053
       male    30.740707   19.741782  0.157407
Third  female  21.750000   16.118810  0.500000
       male    26.507589   12.661633  0.135447


<class 'pandas.core.frame.DataFrame'>


* get_group()  
    * 멀티 인덱스를 이용하여 특정 그룹만을 골라 추출한다. <- 인자로 전달하는 키는 튜플로 입력

In [62]:
# grouped_two 그룹 객체에서 개별 그룹 선택하기
# groped_two 객체의 6개 그룹 중 키가 ('Third','female')인 그룹을 추출한다.
# 'class'열의 데이터가 'Third'이고, 'sex'열의 데이터가 'female'인 행 데이터만 추출되어 데이터프레임으로 반환된다.
group3f = grouped_two.get_group(('Third','female'))
print(group3f.head())

     age     sex  class     fare  survived
2   26.0  female  Third   7.9250         1
8   27.0  female  Third  11.1333         1
10   4.0  female  Third  16.7000         1
14  14.0  female  Third   7.8542         0
18  31.0  female  Third  18.0000         0


## 5-2 ) 그룹 연산 메소드 (적용-결합 단계)

#### 데이터 집계(aggreagation)
> 그룹 객체에 다양한 연산을 적용할 수 있다.
> 집계 기능 내장 판다스 기본 함수  
    * mean(), max(), min(), sum(), count(), size(), var(), std(), describe(), info(), first(), last()

In [67]:
# 라이브러리 불러오기
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]

# class 열을 기준으로 분할
grouped = df.groupby(['class']) 

# 각 그룹에 대한 모든 열의 표준편차를 집계하여 데이터프레임으로 반환
std_all = grouped.std()  
print(std_all)
print('\n')
print(type(std_all))
print('\n')

# 각 그룹에 대한 fare 열의 표준편차를 집계하여 시리즈로 반환 
std_fare = grouped.fare.std()  
print(std_fare)
print('\n')
print(type(std_fare))

ValueError: could not convert string to float: 'male'

* group 객체.agg(매핑 함수)  
> 집계 연산을 처리하는 사용자 정의 함수를 그룹 객체에 적용하려면 agg()를 사용한다.

In [68]:
# 그룹 객체에 agg() 메소드 적용 - 사용자 정의 함수를 인수로 전달
def min_max(x):    # 최대값 - 최소값
    return x.max() - x.min()
    
# 각 그룹의 최대값과 최소값의 차이를 계산하여 그룹별로 집계
agg_minmax = grouped.agg(min_max)  
print(agg_minmax.head())

TypeError: unsupported operand type(s) for -: 'str' and 'str'

> 각 그룹별로 연산이 가능한 열에 대한 (max - min)을 구하면 데이터의 분포 범위를 알 수 있다.  
표준 편차를 구하는 것과 비슷한 해석이 가능하다.

* 동시에 여러개의 함수를 사용하여 각 그룹별 데이터에 대한 집계 연산을 처리할 수 있다.
    * 각각의 열에 여러개의 함수를 일괄 적용할 때는 list 형태로 인수를 전달하고,
    * 열마다 다른 종류의 함수를 적용하려면 {열 : 함수} 형태의 dict를 전달한다.
    > * 모든 열에 여러 함수를 매핑  
    : group 객체.agg([함수1, 함수2, 함수3, ...])
    > * 각 열마다 다른 함수를 매핑  
    : group 객체.agg({'열1' : 함수1, '열2': 함수2, ...})

In [70]:
# agg_all 변수는 grouped 객체의 각 열에 2개의 함수('min','max')를 일괄 적용하여 그룹별로 집계한 결과이다.
# agg_sep 변수는 'fare'열에는 2개 함수('min','max')를 적용하고, 'agg'열에는 다른 종류의 함수 'mean'을 적용하여 집계한 결과이다.
# 2개 함수를 list형태로 입력하면 각 열에 대하여 2개 함수의 연산결과를 각각 집계하여 다른 열로 구분하여 표시한다.
# 함수명을 열 이름에 추가하여 2중 열구조를 만든다.

# 여러 함수를 각 열에 동일하게 적용하여 집계
agg_all = grouped.agg(['min', 'max'])  
print(agg_all.head())
print('\n')

# 각 열마다 다른 함수를 적용하여 집계
agg_sep = grouped.agg({'fare':['min', 'max'], 'age':'mean'})  
print(agg_sep.head())

         age           sex       fare           survived    
         min   max     min   max  min       max      min max
class                                                       
First   0.92  80.0  female  male  0.0  512.3292        0   1
Second  0.67  70.0  female  male  0.0   73.5000        0   1
Third   0.42  74.0  female  male  0.0   69.5500        0   1


       fare                  age
        min       max       mean
class                           
First   0.0  512.3292  38.233441
Second  0.0   73.5000  29.877630
Third   0.0   69.5500  25.140620


#### 그룹 연산 데이터 변환
> * agg()는 각 그룹별 데이터에 연산을 위한 함수를 구분 적용하고, 그룹별로 연산 결과를 집계하여 반환한다.
> * 반면, transform()는 그룹별로 구분하여 각 원소에 함수를 적용하지만 그룹별 집계 대신 각 원소의 본래 행 index와 열 이름을 기준으로 연산 결과를 반환한다.
> * 즉, 그룹 연산의 결과를 원본 DataFrame과 같은 형태로 변형하여 정리하는 것이다.  
    > * 데이터 변환 연산 : **group 객체.transform(매핑 함수)**

1. 'age'열에 포함된 개별 데이터의 z-score를 구하는 과정을 살펴보자.
2. 개별 그룹의 평균과 표준편차를 계산한다.
3. 각 그룹에 대해 반복문을 사용하여 z-score를 계산하고, 첫 3행의 결과를 출력한다.

In [71]:
# 그룹별 age 열의 평균 집계 연산
age_mean = grouped.age.mean()
print(age_mean)
print('\n')

# 그룹별 age 열의 표준편차 집계 연산
age_std = grouped.age.std()
print(age_std)
print('\n') 

# 그룹 객체의 age 열을 iteration으로 z-score를 계산하여 출력
for key, group in grouped.age:
    group_zscore = (group - age_mean.loc[key]) / age_std.loc[key]         
    print('* origin :', key)
    print(group_zscore.head(3))  # 각 그룹의 첫 3개의 행을 출력
    print('\n')

class
First     38.233441
Second    29.877630
Third     25.140620
Name: age, dtype: float64


class
First     14.802856
Second    14.001077
Third     12.495398
Name: age, dtype: float64


* origin : First
1   -0.015770
3   -0.218434
6    1.065103
Name: age, dtype: float64


* origin : Second
9    -1.134029
15    1.794317
17         NaN
Name: age, dtype: float64


* origin : Third
0   -0.251342
2    0.068776
4    0.789041
Name: age, dtype: float64




* **transform()** 를 사용하여 'age'열의 데이터를 z-score로 직접 변환한다.
1. z-score를 계산하는 사용자 함수를 정의하고, transform()의 인자로 전달한다.
2. 각 그룹별 평균과 표준편차를 이용하여 각 원소의 z-score를 계산하지만, 반환되는 객체는 그룹별로 나누지 않고 원래 행 인덱스 순서로 정렬된다.
3. 이 경우 891명 승객의 데이터가 본래 행 인덱스 순서대로 정렬된다.  
4. 위의 계산 결과와 비교하기 위해 각 그룹의 첫 행에 해당하는 1, 9, 0행을 출력한다.

In [72]:
# z-score를 계산하는 사용자 함수 정의
def z_score(x): 
    return (x - x.mean()) / x.std()
   
# transform() 메소드를 이용하여 age 열의 데이터를 z-score로 변환
age_zscore = grouped.age.transform(z_score)  
print(age_zscore.loc[[1, 9, 0]])     # 1, 2, 3 그룹의 첫 데이터 확인 (변환 결과)
print('\n')
print(len(age_zscore))              # transform 메소드 반환 값의 길이
print('\n')
print(age_zscore.loc[0:9])          # transform 메소드 반환 값 출력 (첫 10개)
print('\n')
print(type(age_zscore))             # transform 메소드 반환 객체의 자료형

1   -0.015770
9   -1.134029
0   -0.251342
Name: age, dtype: float64


891


0   -0.251342
1   -0.015770
2    0.068776
3   -0.218434
4    0.789041
5         NaN
6    1.065103
7   -1.851931
8    0.148805
9   -1.134029
Name: age, dtype: float64


<class 'pandas.core.series.Series'>


#### 그룹 객체 필터링
> group 객체.filter(조건식 함수)

In [73]:
# 데이터 개수가 200개 이상인 그룹만을 필터링하여 데이터프레임으로 반환
grouped_filter = grouped.filter(lambda x: len(x) >= 200)  
print(grouped_filter.head())   
print('\n')
print(type(grouped_filter))

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


<class 'pandas.core.frame.DataFrame'>


In [74]:
# age 열의 평균이 30보다 작은 그룹만을 필터링하여 데이터프레임으로 반환

age_filter = grouped.filter(lambda x: x.age.mean() < 30)  
print(age_filter.tail())   
print('\n')
print(type(age_filter))

      age     sex   class    fare  survived
884  25.0    male   Third   7.050         0
885  39.0  female   Third  29.125         0
886  27.0    male  Second  13.000         0
888   NaN  female   Third  23.450         0
890  32.0    male   Third   7.750         0


<class 'pandas.core.frame.DataFrame'>


#### 그룹 객체에 함수 매핑
> apply()는 판다스 객체의 개별 원소를 특정 함수에 1:1로 매핑한다.  
사용자가 원하는 대분의 연산을 그룹 객체에도 적용할 수 있다.
> * **group 객체.apply(매핑 함수)**

In [75]:
# 집계 : 각 그룹별 요약 통계정보를 집계
agg_grouped = grouped.apply(lambda x: x.describe())   
print(agg_grouped)

                     age        fare    survived
class                                           
First  count  186.000000  216.000000  216.000000
       mean    38.233441   84.154687    0.629630
       std     14.802856   78.380373    0.484026
       min      0.920000    0.000000    0.000000
       25%     27.000000   30.923950    0.000000
       50%     37.000000   60.287500    1.000000
       75%     49.000000   93.500000    1.000000
       max     80.000000  512.329200    1.000000
Second count  173.000000  184.000000  184.000000
       mean    29.877630   20.662183    0.472826
       std     14.001077   13.417399    0.500623
       min      0.670000    0.000000    0.000000
       25%     23.000000   13.000000    0.000000
       50%     29.000000   14.250000    0.000000
       75%     36.000000   26.000000    1.000000
       max     70.000000   73.500000    1.000000
Third  count  355.000000  491.000000  491.000000
       mean    25.140620   13.675550    0.242363
       std     12.49

In [76]:
# z-score를 계산하는 사용자 함수 정의
def z_score(x):                          
    return (x - x.mean()) / x.std()

age_zscore = grouped.age.apply(z_score)   #기본값 axis=0 
print(age_zscore.head())

class    
First  1    -0.015770
       3    -0.218434
       6     1.065103
       11    1.335321
       23   -0.691315
Name: age, dtype: float64


'age'열의 평균값이 30보다 작은(=평균 나이가 30세 미만인) 그룹을 판별한다.

In [77]:
# 필터링 : age 열의 데이터 평균이 30보다 작은 그룹만을 필터링하여 출력
age_filter = grouped.apply(lambda x: x.age.mean() < 30)  
print(age_filter)   
print('\n')
for x in age_filter.index:
    if age_filter[x]==True:
        age_filter_df = grouped.get_group(x)
        print(age_filter_df.head())
        print('\n')

class
First     False
Second     True
Third      True
dtype: bool


     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1


    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0




# 6. 멀티 인덱스
> groupby()에 여러 열을 list형태로 전달하면 각 열들이 다중으로 행 인덱스를 구성하는 것을 보았다.  
이처럼 판다스는 행 인덱스를 여러 레벨로 구현할 수 있도록 멀티 인덱스 (Multiindex) 클래스를 지원한다.

1. 'class'열과 'sex'열에 들어있는 객실 등급과 남녀 성별을 기준으로 그룹화한다.  
2. 그룹 객체에 .mean() 메소드를 적용하면 그룹별로 각 열의 평균값을 정리하여 반환한다.
3. 이때 반환되는 객체는 멀티 인덱스를 가진 데이터프레임이고 gdf 변수에 저장한다.

In [63]:
# class 열, sex 열을 기준으로 분할
grouped = df.groupby(['class', 'sex'])  

# 그룹 객체에 연산 메서드 적용
gdf = grouped.mean()
print(gdf)
print('\n')
print(type(gdf))

                     age        fare  survived
class  sex                                    
First  female  34.611765  106.125798  0.968085
       male    41.281386   67.226127  0.368852
Second female  28.722973   21.970121  0.921053
       male    30.740707   19.741782  0.157407
Third  female  21.750000   16.118810  0.500000
       male    26.507589   12.661633  0.135447


<class 'pandas.core.frame.DataFrame'>


In [64]:
# gdf의 멀티인덱스에서 하나의 인덱스만 사용하는 방법
# class 값이 First인 행을 선택하여 출력
print(gdf.loc['First'])  # 'class'인덱스에서 'First'행 선택

              age        fare  survived
sex                                    
female  34.611765  106.125798  0.968085
male    41.281386   67.226127  0.368852


In [65]:
# 멀티 인덱스에서 두개 인덱스를 사용하는 방법
# 튜플 형태로 각 인덱스에서 찾는 값을 전달한다.

# class 값이 First이고, sex 값이 female인 행을 선택하여 출력
print(gdf.loc[('First', 'female')])

age          34.611765
fare        106.125798
survived      0.968085
Name: (First, female), dtype: float64


In [None]:
# loc 인덱서 대신 xs 인덱서를 사용한다.
# sex 값이 male인 행을 선택하여 출력
print(gdf.xs('male', level='sex'))

# 7. 피벗
> **pivot_table()**
> * 피벗 테이블을 구성하는 4가지 요소 (각각 2개 이상의 열을 입력할 수 있다.)
    > 1. 행 인덱스
    > 2. 열 인덱스
    > 3. 데이터 값
    > 4. 데이터 집계 함수

In [78]:
import pandas as pd
import seaborn as sns

# IPyhton 디스플레이 설정 변경 
pd.set_option('display.max_columns', 10)    # 출력할 최대 열의 개수
pd.set_option('display.max_colwidth', 20)    # 출력할 열의 너비

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]
print(df.head())
print('\n')

# 행, 열, 값, 집계에 사용할 열을 1개씩 지정 - 평균 집계
pdf1 = pd.pivot_table(df,              # 피벗할 데이터프레임
                     index='class',    # 행 위치에 들어갈 열
                     columns='sex',    # 열 위치에 들어갈 열
                     values='age',     # 데이터로 사용할 열
                     aggfunc='mean')   # 데이터 집계 함수

print(pdf1.head())

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


sex        female       male
class                       
First   34.611765  41.281386
Second  28.722973  30.740707
Third   21.750000  26.507589


In [84]:
# 값에 적용하는 집계 함수를 2개 이상 지정 가능 - 생존율, 생존자 수 집계
pdf2 = pd.pivot_table(df,                       # 피벗할 데이터프레임
                     index='class',             # 행 위치에 들어갈 열
                     columns='sex',             # 열 위치에 들어갈 열
                     values='survived',         # 데이터로 사용할 열
                     aggfunc=['mean', 'sum'])   # 데이터 집계 함수

pdf2.head()

Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


다르게 적용해보기!

In [83]:
# 행, 열, 값에 사용할 열을 2개 이상 지정 가능 - 평균 나이, 최대 요금 집계
pdf3 = pd.pivot_table(df,                       # 피벗할 데이터프레임
                     index=['class', 'sex'],    # 행 위치에 들어갈 열
                     columns='survived',        # 열 위치에 들어갈 열
                     values=['age', 'fare'],    # 데이터로 사용할 열
                     aggfunc=['mean', 'max'])   # 데이터 집계 함수
pdf3.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875


In [85]:
# 행, 열 구조 살펴보기
print(pdf3.index)
print(pdf3.columns)
print('\n')

MultiIndex([( 'First', 'female'),
            ( 'First',   'male'),
            ('Second', 'female'),
            ('Second',   'male'),
            ( 'Third', 'female'),
            ( 'Third',   'male')],
           names=['class', 'sex'])
MultiIndex([('mean',  'age', 0),
            ('mean',  'age', 1),
            ('mean', 'fare', 0),
            ('mean', 'fare', 1),
            ( 'max',  'age', 0),
            ( 'max',  'age', 1),
            ( 'max', 'fare', 0),
            ( 'max', 'fare', 1)],
           names=[None, None, 'survived'])




* pdf3의 행을 선택하기 위해 xs 인덱서를 사용하는 방법
    * xs 인덱서는 기본값으로 행 인덱스에 접근하고,
    * axis = 0 으로 자동 설정된다.

#### xs 인덱서 사용 - 행 선택(default: axis=0)

In [92]:
print(pdf3.xs('First'))              # 행 인덱스가 First인 행을 선택 

               mean                                      max                 
                age                   fare               age          fare   
survived          0          1           0           1     0     1       0   
sex                                                                          
female    25.666667  34.939024  110.604167  105.978159  50.0  63.0  151.55  \
male      44.581967  36.248000   62.894910   74.637320  71.0  80.0  263.00   

                    
                    
survived         1  
sex                 
female    512.3292  
male      512.3292  


* 두개 인덱스 값을 '튜플'로 전달하면 1등석 승객 중에서 여성의 데이터만을 선택할 수 있다.

In [88]:
pdf3.xs(('First', 'female'))   # 행 인덱스가 ('First', 'female')인 행을 선택

            survived
mean  age   0            25.666667
            1            34.939024
      fare  0           110.604167
            1           105.978159
max   age   0            50.000000
            1            63.000000
      fare  0           151.550000
            1           512.329200
Name: (First, female), dtype: float64

* 행 인덱스의 레벨을 직접 지정

In [90]:
print(pdf3.xs('male', level='sex'))  # 행 인덱스의 sex 레벨이 male인 행을 선택

               mean                                    max                 
                age                  fare              age          fare   
survived          0          1          0          1     0     1       0   
class                                                                      
First     44.581967  36.248000  62.894910  74.637320  71.0  80.0  263.00  \
Second    33.369048  16.022000  19.488965  21.095100  70.0  62.0   73.50   
Third     27.255814  22.274211  12.204469  15.579696  74.0  45.0   69.55   

                    
                    
survived         1  
class               
First     512.3292  
Second     39.0000  
Third      56.4958  


* 행인덱스 레벨0에서 'second'를 가져오고, 행 인덱스레벨 'sex'에서 'male'을 가져온다.
    * 레벨 이름 'sex' 대신 숫자형 레벨 1을 사용해도 결과는 동일하다.

In [91]:
print(pdf3.xs(('Second', 'male'), level=[0, 'sex']))  # Second, male인 행을 선택

                  mean                               max                  
                   age               fare            age        fare      
survived             0       1          0        1     0     1     0     1
class  sex                                                                
Second male  33.369048  16.022  19.488965  21.0951  70.0  62.0  73.5  39.0


##### xs 인덱서 사용 - 열 선택(axis=1 설정)

In [93]:
print(pdf3.xs('mean', axis=1))        # 열 인덱스가 mean인 데이터를 선택 

                     age                   fare            
survived               0          1           0           1
class  sex                                                 
First  female  25.666667  34.939024  110.604167  105.978159
       male    44.581967  36.248000   62.894910   74.637320
Second female  36.000000  28.080882   18.250000   22.288989
       male    33.369048  16.022000   19.488965   21.095100
Third  female  23.818182  19.329787   19.773093   12.464526
       male    27.255814  22.274211   12.204469   15.579696


* 열 인덱스 레벨 0에서 평균을 나타내는 'mean' 지정
* 열 인덱스 레벨 1에서 나이를 나타내는 'age' 지정
* ==> 그룹별 나이 집계 결과만을 추출하여 반환한다.

In [94]:
print(pdf3.xs(('mean', 'age'), axis=1))   # 열 인덱스가 ('mean', 'age')인 데이터 선택

survived               0          1
class  sex                         
First  female  25.666667  34.939024
       male    44.581967  36.248000
Second female  36.000000  28.080882
       male    33.369048  16.022000
Third  female  23.818182  19.329787
       male    27.255814  22.274211


* 열 인덱스 레벨 직접 지정
    * 'survived' 레벨의 값이 1에 해당하는 데이터만을 추출한다.
    * 생존자 데이터만을 구분하여 추출한다.

In [95]:
print(pdf3.xs(1, level='survived', axis=1))  # survived 레벨이 1인 데이터 선택

                    mean               max          
                     age        fare   age      fare
class  sex                                          
First  female  34.939024  105.978159  63.0  512.3292
       male    36.248000   74.637320  80.0  512.3292
Second female  28.080882   22.288989  55.0   65.0000
       male    16.022000   21.095100  62.0   39.0000
Third  female  19.329787   12.464526  63.0   31.3875
       male    22.274211   15.579696  45.0   56.4958


* 열 인덱스 레벨 0에서 최대값을 나타내는 'max'를 가져오고, 레벨1에서 객실 요금을 나타내는 'fare'를 가져온다.
* 'survived' 열을 나타내는 레벨2에서 구조받지 못한 승객을 나타내는 0을 가져온다.
    * 반환 값 : 구조받지 못한 승객들 객실 요금의 최대값

In [96]:
print(pdf3.xs(('max', 'fare', 0), 
              level=[0, 1, 2], axis=1))  # max, fare, survived=0인 데이터 선택

                  max
                 fare
survived            0
class  sex           
First  female  151.55
       male    263.00
Second female   26.00
       male     73.50
Third  female   69.55
       male     69.55
