### 1-1 개별 원소 함수 맵핑

###### 시리즈 원소에 함수 맵핑

In [65]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df['ten'] = 10
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [17]:
def add_10(n):
    return n+10

def add_two_obj(a, b, c):
    return a+b+c

In [18]:
# 시리즈 객체에 적용
sr1 = df['age'].apply(add_10)
sr1.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [23]:
# 시리즈 객체와 숫자에 적용 : 2개의 인수 (시리즈 + 숫자)
sr2 = df['age'].apply(add_two_obj, args=(10,10)) 
sr2_2 = df['age'].apply(add_two_obj, b=10, c=10)
sr2.head()
sr2_2.head()

0    42.0
1    58.0
2    46.0
3    55.0
4    55.0
Name: age, dtype: float64

In [9]:
# lamda 함수 사용 : 시리즈 객체에 적용
sr3 = df['age'].apply(lambda x: add_10(x))
sr3.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

Series.apply 메소드는 시리즈의 개별 원소에 대해 정의한 함수를 수행하고자 할 때 사용한다.  
1. **func**: python function or numpy function to apply
2. **convert_type(True)**: 요소별 함수 결과에 대한 더 나은 타입 캐스팅을 수행한다. (if  False, leave at Object type)
3. **args**: Tuple, 계열값 뒤에 전달되는 위치 인수
4. **\*\*kwds**: func 에 전달 될 addtional parmas , 키워드 언팩킹

###### 데이터프레임 원소에 함수 맵핑

In [29]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]


def add_10(n):
    return n+10
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [26]:
# 데이터프레임 전체 원소에 add_10 함수 맵핑
df_map = df.applymap(add_10)
df_map.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


### 1-2 시리즈 객체에 함수 맵핑

###### 데이터프레임의 각 열에 함수 맵핑

In [31]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [32]:
def missing_value(series):
    return series.isnull()

In [36]:
result = df.apply(missing_value, axis=0) # 0 열 단위 집계, 1 행 단위 집계
result.head()

Unnamed: 0,age,fare
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False


이부분 중요하다.  
정의한 missing_value 함수는 인자로 받은 시리즈 객체에 대해 null 인지를 검사한 진위값 시리즈 (크기 동일)를 리턴하게 된다.  
따라서 df.apply() 메소드에 의해 반환된 각 열에 대해 해당 함수를 적용한 시리즈들이  
다시 합쳐져 결과값 result 는 데이터프레임이 되는 것이다.  

In [37]:
# apply(axis=0) 을 적용해 집계값 구하기
def min_max(series):
    return series.max() - series.min()

In [39]:
result = df.apply(min_max, axis=0)
print(result.head())
print('\n')
print(type(result))

age      79.5800
fare    512.3292
dtype: float64


<class 'pandas.core.series.Series'>


여기서는 정의한 함수의 리턴타입이 시리즈가 아닌 원소이기 때문에,  
apply 메소드의 결과가 데이터프레임이 아닌 시리즈가 되었음을 알 수 있다.  
즉, 이렇게 열/행 의 집계결과 등을 알 고자 할 때 유용하다.  

###### 데이터프레임의 각 행에 함수 맵핑

In [41]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df['ten'] = 10
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [43]:
def add_two_obj(a, b):
    return a+b

In [47]:
df['add'] = df.apply(lambda x: add_two_obj(x['age'], x['ten']), axis=1)
df.head()

Unnamed: 0,age,fare,ten,add
0,22.0,7.25,10,32.0
1,38.0,71.2833,10,48.0
2,26.0,7.925,10,36.0
3,35.0,53.1,10,45.0
4,35.0,8.05,10,45.0


결론적으로 그냥 기억하면 되는것은 , axis 에 따라 apply 메소드에 들어가는 인자가 달라진다.  
한 행씩 들어갈지, 한 열씩 들어갈지를 정하게 되고,  
그에 따라 apply 함수는 각 시리즈에 대해 동일하게 작동한다.

###### 데이터프레임 객체에 함수 맵핑

In [49]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [58]:
# df to df - 각 열의 NaN 진위값 데이터프레임 반환
def missing_value(x):
    return x.isnull()

# df to series - 각 열의 NaN 개수 시리즈 반환
def missing_count(x):
    return missing_value(x).sum()

# series to value - 데이터 프레임의 총 NaN 개수 값 반환
def total_number_missing(x):
    return missing_count(x).sum()

In [59]:
# pipe() 메소드 - 1
result_df = df.pipe(missing_value)
print(result_df.head())
print(type(result_df.head()))

age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


In [60]:
# pipe() 메소드 - 2
result_series = df.pipe(missing_count)
print(result_series.head())
print(type(result_series.head()))

age     177
fare      0
dtype: int64
<class 'pandas.core.series.Series'>


In [64]:
# pipe() 메소드 - 3
result_value = df.pipe(total_number_missing)
print(result_value)
print(type(result_value))

177
<class 'numpy.int64'>


### 2-1 열 순서 변경

In [67]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[0:4, 'survived':'age']
df.head()

Unnamed: 0,survived,pclass,sex,age
0,0,3,male,22.0
1,1,1,female,38.0
2,1,3,female,26.0
3,1,1,female,35.0
4,0,3,male,35.0


In [73]:
# df.columns -> Index(array) , 여기서 values 로 값 추출
columns = list(df.columns.values)
print(columns)

['survived', 'pclass', 'sex', 'age']


In [75]:
# 열 이름 알파벳 순으로 정렬
columns_sorted = sorted(columns)
print(columns_sorted)

['age', 'pclass', 'sex', 'survived']


In [77]:
# 정렬된 열 이름 리스트를 통해 df 에서 해당 열 선택
df_sorted = df[columns_sorted]
df_sorted.head()

Unnamed: 0,age,pclass,sex,survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0


In [78]:
# 역순으로 정렬하기
df_reversed = df[reversed(columns_sorted)]
df_reversed.head()

Unnamed: 0,survived,sex,pclass,age
0,0,male,3,22.0
1,1,female,1,38.0
2,1,female,3,26.0
3,1,female,1,35.0
4,0,male,3,35.0


In [82]:
# 임의의 순서로 정렬하기
df_customed = df[['sex', 'pclass', 'survived', 'age']]
df_customed.head()

Unnamed: 0,sex,pclass,survived,age
0,male,3,0,22.0
1,female,1,1,38.0
2,female,3,1,26.0
3,female,1,1,35.0
4,male,3,0,35.0


중요한것은 열 순서를 바꾸기 위해서는 당연한 말이지만 해당 인덱스가 존재 해야 한다는 점.

### 2-2 열 분리

In [83]:
import pandas as pd

df = pd.read_excel('../../data/part6/주가데이터.xlsx')
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
0,2018-07-02,10100,600,10850,10900,10000,137977
1,2018-06-29,10700,300,10550,10900,9990,170253
2,2018-06-28,10400,500,10900,10950,10150,155769
3,2018-06-27,10900,100,10800,11050,10500,133548
4,2018-06-26,10800,350,10900,11000,10700,63039


In [84]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   연월일     20 non-null     datetime64[ns]
 1   당일종가    20 non-null     int64         
 2   전일종가    20 non-null     int64         
 3   시가      20 non-null     int64         
 4   고가      20 non-null     int64         
 5   저가      20 non-null     int64         
 6   거래량     20 non-null     int64         
dtypes: datetime64[ns](1), int64(6)
memory usage: 1.2 KB


In [89]:
# 연-월-일 을 연, 월 , 일로 쪼개기
df['연월일'] = df['연월일'].astype(str)
dates = df['연월일'].apply(lambda x: x.split('-'))
# dates = df['연월일'].str.split('-')
print(dates.head(), '\n', type(dates))

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object 
 <class 'pandas.core.series.Series'>


In [90]:
# [연,월,일] 시리즈 객체에서 각 원소 별로 추출하기
df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)

df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


여기서 df.str , series.str 이런게 나오는데  
Python Pandas ```String Accessor``` 라고 한다.  
dtype 이 string 인 시리즈에 대해 수행 하는 문자열 메소드들의 사용이 가능하다.   
https://pandas.pydata.org/pandas-docs/stable/reference/series.html#api-series-str

### 3-1 Bool 인덱싱

In [95]:
import seaborn as sns

titanic = sns.load_dataset('titanic')

mask1 = (titanic.age >= 10) & (titanic.age < 20)
df_teenage = titanic.loc[mask1, :]
df_teenage.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0,S,Third,woman,False,,Southampton,no,False


이게 왜 **불린 인덱싱**인가?  
mask1 을 보면, titanic 데이터프레임의 age 열 (시리즈) 를 선택하여 조건문을 걺으로써  
mask1 에는 해당 조건을 만족하는 행 만 남게된다.(시리즈)  
따라서 dataframe[**불린 시리즈**] 를 통해 해당 조건을 만족하는(mask1 의 조건) 행들을 선택 할 수 있다.  

In [None]:
print(mask1)
print(type(mask1))

In [96]:
# 나이가 10세 미만이고 여성인 승객만 포함
mask2 = (titanic.age < 10) & (titanic.sex == 'female')
df_female_under10 = titanic[mask2]
df_female_under10.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False


In [97]:
print(mask2)
print(type(mask2))

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Length: 891, dtype: bool
<class 'pandas.core.series.Series'>


### 3-2 isin() 메소드의 활용

In [98]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
pd.set_option('display.max_columns', 10)

In [99]:
# 불린 인덱싱을 통해 특정 값을 만족하는 행만 추출하기
mask3 = titanic['sibsp'] == 3
mask4 = titanic['sibsp'] == 4
mask5 = titanic['sibsp'] == 5

df_boolean = titanic[mask3 | mask4 | mask5]
df_boolean.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,...,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,...,False,,Southampton,no,False
16,0,3,male,2.0,4,...,False,,Queenstown,no,False
24,0,3,female,8.0,3,...,False,,Southampton,no,False
27,0,1,male,19.0,3,...,True,C,Southampton,no,False
50,0,3,male,7.0,4,...,False,,Southampton,no,False


In [101]:
# isin 메소드를 통해 위의 작업 동일하게 수행하기
isin_filter = titanic['sibsp'].isin([3, 4, 5])
df_isin = titanic[isin_filter]
df_isin.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,...,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,...,False,,Southampton,no,False
16,0,3,male,2.0,4,...,False,,Queenstown,no,False
24,0,3,female,8.0,3,...,False,,Southampton,no,False
27,0,1,male,19.0,3,...,True,C,Southampton,no,False
50,0,3,male,7.0,4,...,False,,Southampton,no,False


In [103]:
print(isin_filter)
print(type(isin_filter))

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: sibsp, Length: 891, dtype: bool
<class 'pandas.core.series.Series'>


### 4-1 데이터프레임 연결

In [128]:
import pandas as pd

df1 = pd.DataFrame({
    'a': ['a1', 'a2', 'a3', 'a4'],
    'b': ['b1', 'b2', 'b3', 'b4'],
    'c': ['c1', 'c2', 'c3', 'c4'],
    'd': ['d1', 'd2', 'd3', 'd4'],
}, index=[1,2,3,4])

df2 = pd.DataFrame({
    'a': ['aa1', 'aa2', 'aa3', 'aa4'],
    'b': ['bb1', 'bb2', 'bb3', 'bb4'],
}, index=[3,4,5,6])

print(df1.head(), '\n', df2.head())

a   b   c   d
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  a4  b4  c4  d4 
      a    b
3  aa1  bb1
4  aa2  bb2
5  aa3  bb3
6  aa4  bb4


In [126]:
result1 = pd.concat([df1, df2], axis=0, join='outer', ignore_index=True)
result1.head(10)

Unnamed: 0,a,b,c,d
0,a1,b1,c1,d1
1,a2,b2,c2,d2
2,a3,b3,c3,d3
3,a4,b4,c4,d4
4,aa1,bb1,,
5,aa2,bb2,,
6,aa3,bb3,,
7,aa4,bb4,,


1. axis = 0 (default) : 열 방향 (아래위)로 합친다.
2. join = 'outer' : 합칠 행/열 인덱스에 대해 합집합을 수행한다.
3. ignore_index = False (default) : 기존 행 인덱스에 대한 무시 여부 (무시 할 경우 새로 정수형 생성) 

In [None]:
result2 = pd.concat([df1, df2], axis=1, join='inner', ignore_index=False)
result2.head(10)

Unnamed: 0,a,b,c,d,a.1,b.1
3,a3,b3,c3,d3,aa1,bb1
4,a4,b4,c4,d4,aa2,bb2


행 방향 (좌우) 로 합칠경우, join 옵션은 행인덱스에 대해 적용되는 것을 알 수 있다.

### 4-2 데이터프레임 병합

In [136]:
import pandas as pd

pd.set_option('display.max_columns', 10)                    # 출력할 최대 열 개수
pd.set_option('display.max_colwidth', 20)                   # 출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True)     # 유니코드 사용 너비 조정

df1 = pd.read_excel('../../data/part6/stock price.xlsx')
df2 = pd.read_excel('../../data/part6/stock valuation.xlsx')

df1.head(20)

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000
1,130960,CJ E&M,58540.666667,98900
2,138250,엔에스쇼핑,14558.666667,13200
3,139480,이마트,239230.833333,254500
4,142280,녹십자엠에스,468.833333,10200
5,145990,삼양사,82750.0,82000
6,185750,종근당,40293.666667,100500
7,192400,쿠쿠홀딩스,179204.666667,177500
8,199800,툴젠,-2514.333333,115400
9,204210,모두투어리츠,3093.333333,3475


In [137]:
df2.head(20)

Unnamed: 0,id,name,eps,bps,per,pbr
0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,하림,274.166667,3551,11.489362,0.887074
2,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,5741.0,108090,14.283226,0.758627
5,161390,한국타이어,5648.5,51341,7.453306,0.820007
6,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750,종근당,3990.333333,40684,25.185866,2.470259
8,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
9,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


merge() 함수는 SQL 의 join 문과 비슷한 원리로 동작하는데, 어떤 기준에 의해 두 데이터프레임을 병합한다.  
이때 기준이 되는 열 혹은 인덱스를 ```key``` 라고 부르고, 키가 되는 열 혹은 인덱스는 반드시 양쪽 데이터프레임에 존재해야한다.

In [135]:
# 데이터프레임 합치기 - 교집합
merge_inner = pd.merge(df1, df2, on=None, how='inner')
merge_inner

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
2,145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
3,185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
4,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


위의 코드에서 merge 의 인자로,
1. how (default = 'inner')  병합할 방법
2. on (default = 'None')    병합을 할 기준 열/인덱스 선택  
on 인자가 None 이므로, df1 과 df2 의 공통열인 id 를 자동으로 기준하여 병합한다.  

In [138]:
# 데이터프레임 합치기 - 합집합
merge_outer = pd.merge(df1, df2, how='outer', on='id')
merge_outer

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
3,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200.0,,,,,
5,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,
8,199800,툴젠,-2514.333333,115400.0,,,,,
9,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


id 열을 기준으로 합집합 병합을 하게되어 존재하지 않는 원소에 NaN 값이 자동으로 채워진다.(어느 한쪽이라도 데이터가 없을 경우)

In [139]:
# 데이터프레임 합치기 - 왼쪽 데이터프레임 기준, 키 값 분리
merge_left = pd.merge(df1, df2, how='left', left_on='stock_name', right_on='name')
merge_left

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,,
1,130960,CJ E&M,58540.666667,98900,130960.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,,
3,139480,이마트,239230.833333,254500,139480.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,,
5,145990,삼양사,82750.0,82000,145990.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,185750.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,,
9,204210,모두투어리츠,3093.333333,3475,204210.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [142]:
# 데이터프레임 합치기 - 불린 인덱싱을 통한 데이터 추출
price = df1[df1['price'] < 50000]
value = pd.merge(price, df2)
value

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


### 4-3 데이터프레임 결합 (join)

In [143]:
import pandas as pd

pd.set_option('display.max_columns', 10)                    # 출력할 최대 열 개수
pd.set_option('display.max_colwidth', 20)                   # 출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True)     # 유니코드 사용 너비 조정

df1 = pd.read_excel('../../data/part6/stock price.xlsx', index_col='id')
df2 = pd.read_excel('../../data/part6/stock valuation.xlsx', index_col='id')

df1.head(20)

Unnamed: 0_level_0,stock_name,value,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
128940,한미약품,59385.666667,421000
130960,CJ E&M,58540.666667,98900
138250,엔에스쇼핑,14558.666667,13200
139480,이마트,239230.833333,254500
142280,녹십자엠에스,468.833333,10200
145990,삼양사,82750.0,82000
185750,종근당,40293.666667,100500
192400,쿠쿠홀딩스,179204.666667,177500
199800,툴젠,-2514.333333,115400
204210,모두투어리츠,3093.333333,3475


In [144]:
df2.head(20)

Unnamed: 0_level_0,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
130960,CJ E&M,6301.333333,54068,15.695091,1.829178
136480,하림,274.166667,3551,11.489362,0.887074
138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
139480,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,5741.0,108090,14.283226,0.758627
161390,한국타이어,5648.5,51341,7.453306,0.820007
181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
185750,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,85.166667,5335,40.802348,0.651359
207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


join 함수는 내부적으로 merge 함수로 구성되어있어 작동 방식은 매우 유사하다.  
하지만, join 은 ```행 인덱스를``` 기준으로 병합한다는 점에서 차이가 있다.  
(on=keys 옵션으로 열 기준도 가능)

In [146]:
# 데이터프레임 결합 - join
df3 = df1.join(df2, how='left')
df3

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
128940,한미약품,59385.666667,421000,,,,,
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
138250,엔에스쇼핑,14558.666667,13200,,,,,
139480,이마트,239230.833333,254500,이마트,18268.166667,295780.0,13.931338,0.860437
142280,녹십자엠에스,468.833333,10200,,,,,
145990,삼양사,82750.0,82000,삼양사,5741.0,108090.0,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684.0,25.185866,2.470259
192400,쿠쿠홀딩스,179204.666667,177500,,,,,
199800,툴젠,-2514.333333,115400,,,,,
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335.0,40.802348,0.651359


기본적으로 how 는 왼쪽 데이터프레임 기준이다.  

In [147]:
df4 = df1.join(df2, how='inner')
df4

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


### 5-1 그룹 객체 만들기 (분할 단계)

복잡한 데이터를 어떤 기준에 따라 여러 그룹으로 분할하여 관찰하는 거은 매우 좋다.  
특정 기준을 적용해 하나의 데이터를 여러 그룹으로 분할하여 처리하는 것을 ```그룹 연산``` 이라고 한다.  
1. ```분할 (split)```     : 데이터를 특정 조건에 의해 분할
2. ```적용 (apply)```     : 데이터를 집계, 변환, 필터링하는 메소드 적용
3. ```결합 (combine)```   : 2단계의 처리 결과를 하나로 병합

###### 1개 열을 기준으로 그룹화

In [151]:
import seaborn as sns
import pandas as pd

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]

print('승객 수 : ', len(df))
print(df.head())

승객 수 :  891
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


In [155]:
# class 열을 기준으로 분할
grouped = df.groupby(['class'])
print(grouped)
print(type(grouped))

# 그룹 분할된 객체를 iteration 으로 출력
for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())
    print('\n')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f8adb4b8250>
<class 'pandas.core.groupby.generic.DataFrameGroupBy'>
* key : First
* number : 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1


* key : Second
* number : 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1


* key : Third
* number : 491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0




열 class 와 같은 카테고리형 열을 기준으로 그룹화 한 결과이다.  
grouped (pandas.core.groupby.generic.DataFrameGroupBy) 는 그룹화 한 key 와 해당 데이터인 group 이 포함되어 있다.  
중요한점은, 그룹화 된 이후에도 ```각 행 인덱스가 그대로 유지된다는 점``` 이다 

In [156]:
# 연산 메소드 적용
avg = grouped.mean()
avg

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


각각의 그룹 first, second, third 에 대해 각각 산술연산이 가능한 열들에 대해 (age, fare ..) 평균값을 구한  
데이터프레임을 반환한다.

In [158]:
print(type(avg))
print(avg.columns)

<class 'pandas.core.frame.DataFrame'>
Index(['age', 'fare', 'survived'], dtype='object')


In [160]:
# 특정 그룹 선택하기
group3 = grouped.get_group('Third')
group3.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
2,26.0,female,Third,7.925,1
4,35.0,male,Third,8.05,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.075,0


###### 여러 열을 기준으로 그룹화

In [162]:
# class 열, sex 열을 기준으로 분할
grouped_two = df.groupby(['class', 'sex'])

# group_two 그룹 객체를 iteration 으로 출력
for key, group in grouped_two:
    print(key)
    print(group.head())
    print('\n')

('First', 'female')
     age     sex  class      fare  survived
1   38.0  female  First   71.2833         1
3   35.0  female  First   53.1000         1
11  58.0  female  First   26.5500         1
31   NaN  female  First  146.5208         1
52  49.0  female  First   76.7292         1


('First', 'male')
     age   sex  class      fare  survived
6   54.0  male  First   51.8625         0
23  28.0  male  First   35.5000         1
27  19.0  male  First  263.0000         0
30  40.0  male  First   27.7208         0
34  28.0  male  First   82.1708         0


('Second', 'female')
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
41  27.0  female  Second  21.0000         0
43   3.0  female  Second  41.5792         1
53  29.0  female  Second  26.0000         1


('Second', 'male')
     age   sex   class  fare  survived
17   NaN  male  Second  13.0         1
20  35.0  male  Second  26.0         0
21  34.0  male  Sec

여기서 재밌는건 내가 그룹화 할 기준 열을 2개로 지정했기 때문에,  
class 에서 3개, sex 에서 2개의 열을 조합한 튜플  
즉, 총 6개의 경우에 대해 모두 그룹화 한 것을 알 수 있다.  


In [174]:
# 그룹 객체에 대해 산술 연산 적용
avg_two = grouped_two.mean()
avg_two

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


주의할 점은, 당연하지만 내가 2개의 열을 기준으로 그룹화 했기 떄문에  
인덱스 또한 멀티 인덱스 (2개) 를 가진다는 점이다.

### 5-2 그룹 연산 메소드 (적용-결합 단계)

###### 데이터 집계

In [176]:
import seaborn as sns
import pandas as pd

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]

print('승객 수 : ', len(df))
print(df.head())

# class 열 기준 분할
group = df.groupby(['class'])

승객 수 :  891
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


In [177]:
# 각 그룹에 대한 모든 열의 표준편차를 집계하여 데이터프레임으로 반환
std_all = grouped.std()
std_all

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,14.802856,78.380373,0.484026
Second,14.001077,13.417399,0.500623
Third,12.495398,11.778142,0.428949


In [179]:
# 각 그룹에 대한 fare 열에 대한 표준편차를 집계하여 시리즈로 반환
std_fare = grouped.fare.std()
std_fare

class
First     78.380373
Second    13.417399
Third     11.778142
Name: fare, dtype: float64

In [181]:
# 집계 연산을 처리하는 사용자 정의 함수를 그룹 객체에 적용하기 - agg() 메소드
def min_max(x):
    return x.max() - x.min()

# 각 그룹의 최대값과 최소값의 차이를 계산하여 그룹별로 집계
agg_minmax = grouped.agg(min_max)
agg_minmax

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,79.08,512.3292,1
Second,69.33,73.5,1
Third,73.58,69.55,1


apply 와 비슷하다.  
apply 는 하나의 데이터프레임에 대해 사욪자 정의 함수를 적용하고자 했던것이고  
agg 는 ```분할된 각각의 데이터프레임```에 대해 사용자 정의 함수를 적용하는 것이다.  
  
결과를 확인해 보면, 각각의 데이터프레임에 대해 산술연산이 가능한 열 age, fare, survived 에 대해 사용자 정의 함수를 집계하고  
그것을 3개의 그룹 first, second, third 에 각각 적용하여 총 3x3 의 데이터프레임이 반환된 것을 알 수 있다.  


In [182]:
# 여러 함수를 각 열에 동일하게 적용하여 집계
agg_all = grouped.agg(['min', 'max'])
agg_all

Unnamed: 0_level_0,age,age,sex,sex,fare,fare,survived,survived
Unnamed: 0_level_1,min,max,min,max,min,max,min,max
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
First,0.92,80.0,female,male,0.0,512.3292,0,1
Second,0.67,70.0,female,male,0.0,73.5,0,1
Third,0.42,74.0,female,male,0.0,69.55,0,1


In [183]:
# 서로 다른 함수를 각 열에 적용하여 집계
agg_sep = grouped.agg({
    'fare': ['min', 'max'],
    'age': 'mean'
})
agg_sep

Unnamed: 0_level_0,fare,fare,age
Unnamed: 0_level_1,min,max,mean
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
First,0.0,512.3292,38.233441
Second,0.0,73.5,29.87763
Third,0.0,69.55,25.14062


재밋는 점은, 여기서 내가 특정열인 survived 는 지정하지 않았기 때문에,  
당연하지만 결과에서 제거된다는 점이다.  
  
또한, 내가 fare 열에는 함수 min, max 2개를 지정했기 때문에 결과도 2개로 나온것을 알 수 있다.  
여기서 2개의 함수가 적용된 2개의 결과는 ```Series``` 로 반환된다.  

In [187]:
type(agg_sep.loc['First','fare'])
print(agg_sep.loc['First','fare'])

min      0.0000
max    512.3292
Name: First, dtype: float64


###### 그룹 연산 데이터 변환

In [192]:
# 그룹별 age 집계 연산
age_mean = grouped.age.mean()
age_std = grouped.age.std()

# 그룹 객체의 age 열을 iteration 으로 z-score 를 계산하여 출력
for key, group in grouped.age:
    group_zscore = (group - age_mean.loc[key])/age_std.loc[key]
    print('* origin :', key)
    print(group_zscore.head(3))
    print('\n')

* origin : First
1   -0.015770
3   -0.218434
6    1.065103
Name: age, dtype: float64


* origin : Second
9    -1.134029
15    1.794317
17         NaN
Name: age, dtype: float64


* origin : Third
0   -0.251342
2    0.068776
4    0.789041
Name: age, dtype: float64




In [193]:
age_mean

class
First     38.233441
Second    29.877630
Third     25.140620
Name: age, dtype: float64

In [194]:
age_std

class
First     14.802856
Second    14.001077
Third     12.495398
Name: age, dtype: float64

In [196]:
# z-score 사용자 정의 함수
def z_score(x):
    return (x-x.mean())/x.std()

# transform 메소드를 통해 age 열의 데이터를 z-score 로 변환
age_zscore = grouped.age.transform(z_score)
age_zscore

0     -0.251342
1     -0.015770
2      0.068776
3     -0.218434
4      0.789041
         ...   
886   -0.205529
887   -1.299306
888         NaN
889   -0.826424
890    0.548953
Name: age, Length: 891, dtype: float64

이전 group 연산 메소드 적용시에는 각 그룹별로 연산을 적용하고 ```집계 결과를 분할된채로``` 반환하였다.  
하지만 transform() 메소드 사용시, 각 그룹별로 연산을 적용하고 ```집계 결과를 원본 형태로``` 반환한다.

###### 그룹 객체 필터링

In [197]:
# 데이터 개수가 200 개 이상인 그룹만 필터링 후 데이터프레임으로 변환
grouped_filter = grouped.filter(lambda x: len(x) > 200)
grouped_filter.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [198]:
# 필터링 결과
grouped_filter['class'].unique()

['Third', 'First']
Categories (2, object): ['Third', 'First']

분할된 각 그룹에 대해 사용자 정의 필터링 함수를 적용한다.  
(인자는 그룹(데이터프레임) 자체)  
필터링된 결과가 합쳐져 데이터프레임으로 반환된다.

###### 그룹 객체에 함수 맵핑

In [199]:
# 집계: 각 그룹별 요약 통계 정보 집계
agg_grouped = grouped.apply(lambda x: x.describe())
agg_grouped

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,count,186.0,216.0,216.0
First,mean,38.233441,84.154687,0.62963
First,std,14.802856,78.380373,0.484026
First,min,0.92,0.0,0.0
First,25%,27.0,30.92395,0.0
First,50%,37.0,60.2875,1.0
First,75%,49.0,93.5,1.0
First,max,80.0,512.3292,1.0
Second,count,173.0,184.0,184.0
Second,mean,29.87763,20.662183,0.472826


위의 코드는 인상깊다.  
데이터프레임 메소드인 describe, info 등의 메소드를 agg 메소드를 통해 분할된 각 그룹에 적용한 정보를  
집계하여 한눈에 볼 수 있다.

In [201]:
# z-score 계산 함수 정의
def z_score(x):
    return (x-x.mean())/x.std()

age_zscore = grouped.age.apply(z_score)     # axis = 0 (default)
age_zscore

0     -0.251342
1     -0.015770
2      0.068776
3     -0.218434
4      0.789041
         ...   
886   -0.205529
887   -1.299306
888         NaN
889   -0.826424
890    0.548953
Name: age, Length: 891, dtype: float64

In [203]:
# 필터링: age 열의 데이터평균이 30 보다 작은 그룹만을 필터링하여 출력
age_filter = grouped.apply(lambda x: x.age.mean() < 30)
age_filter

class
First     False
Second     True
Third      True
dtype: bool

이부분도 당연하지만 재밌다.  
grouped 라는 그룹 객체에 apply 메소드를 각 그룹의 age 열에 적용한 결과가 각 그룹의 key 와   
사용자 정의 함수의 결과인 진위값이 쌍으로 되어 저장되는점.

In [205]:
for x in age_filter.index:
    if age_filter[x] == True:
        age_filter_df = grouped.get_group(x)
        print(age_filter_df.head())
        print('\n')
        

age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1


    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0




In [207]:
age_filter['First']

False

### 6-1 멀티 인덱스

In [208]:
import seaborn as sns
import pandas as pd

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]

grouped = df.groupby(['class', 'sex'])

In [210]:
gdf = grouped.mean()
gdf

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


In [211]:
print(type(gdf))

<class 'pandas.core.frame.DataFrame'>


위에서 해봤던것처럼 그룹 객체가 총 6개의 경우에 대해 (멀티 인덱스) 모두 산술 연산 mean() 이 적용된 데이터프레임이 반환되었다.

In [212]:
# 특정 class 인덱스 행 출력
gdf.loc['First']

Unnamed: 0_level_0,age,fare,survived
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,34.611765,106.125798,0.968085
male,41.281386,67.226127,0.368852


In [214]:
type(gdf.loc['First'])

pandas.core.frame.DataFrame

여기서 멀티인덱스 이기 때문에, 멀티 인덱서중 하나로 선택한 결과는 시리즈가 아닌 데이터프레임이다.  

In [213]:
# 멀티 인덱서로 선택
gdf.loc[('First', 'female')]

age          34.611765
fare        106.125798
survived      0.968085
Name: (First, female), dtype: float64

In [215]:
type(gdf.loc[('First', 'female')])

pandas.core.series.Series

여기서 멀티 인덱서를 통해 특정 행을 특정햇기 떄문에 결과는 시리즈가 반환된다.

In [216]:
# xs 인덱서를 통해 행 추출
gdf.xs('male', level='sex')

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,41.281386,67.226127,0.368852
Second,30.740707,19.741782,0.157407
Third,26.507589,12.661633,0.135447


In [217]:
type(gdf.xs('male', level='sex'))

pandas.core.frame.DataFrame

### 7-1 피벗

In [None]:
import seaborn as sns
import pandas as pd

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]