# 6장 데이터프레임의 다양한 응용
- 데이터프레임에 함수를 매핑하는 방법, 데이터를 집계하는 그룹연산, 데이터프레임을 합치거나 다양한 구조로 변경하는 방법

1 함수 매핑 
- 데이터 프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정
- 사용자 지정 함수를 적용할 수 있기 때문에 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 데이터프레임 등 판다스 객체에 적용한는 가능

In [13]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']] # ['age','fare'] 열을 가져왔다

df['ten'] = 10
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [15]:
# 사용자 함수 정의

def add_10(n) : # 10을 더하는 함수 # def는 Python에서 함수를 정의할 때 사용
    return n+ 10

In [27]:
def add_two_obj(a, b):
    return a + b

In [29]:
add_10(10)

20

In [35]:
add_two_obj(10,10)

20

In [37]:
# 시리즈 객체에 적용
sr1 = df['age'].apply(add_10) # df['age']를 통해 DataFrame df의 'age' 열을 선택하여 시리즈 형태의 데이터를 가져옵니다.
sr1.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [39]:
# 시리즈 객체와 숫자에 적용 : 2개의 인수(시리즈 + 숫자)
sr2 = df['age'].apply(add_two_obj, b = 10) # a=df['age'] 의 모든 원소 는 10
sr2.head()
#add_two_obj 함수는 두 개의 매개변수 a와 b를 받습니다. 여기서 a는 DataFrame의 'age' 열 값이 되고, b는 10이 전달

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [41]:
# 람다 함수 활용 : 시리즈 객체에 적용
sr3 = df['age'].apply(lambda x:add_10(x))
sr3.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

3가지 케이스 모두 age 열의 각 원소에 10을 더한 값을 가진 같은 크기의 시리즈가 된다. 또한 age열의 이름이 시리즈 객체의 이름으로 
유지 되는 것을 확인할 수 있음

데이터프레임 원소에 함수 매핑



In [46]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']] # 행은 비어있으면 행을 다 가져온는 것이다
df.tail() #df.tail()은 DataFrame df의 마지막 5개 행을 출력하는 명령어입니다.

Unnamed: 0,age,fare
886,27.0,13.0
887,19.0,30.0
888,,23.45
889,26.0,30.0
890,32.0,7.75


In [48]:
df_map = df.applymap(add_10)
display(df_map.tail())
df_map1 = df.applymap(add_two_obj, b = 4)
display(df_map1.tail())
df_map2 = df.applymap(lambda x : add_10(x))
display(df_map1.tail())

  df_map = df.applymap(add_10)


Unnamed: 0,age,fare
886,37.0,23.0
887,29.0,40.0
888,,33.45
889,36.0,40.0
890,42.0,17.75


  df_map1 = df.applymap(add_two_obj, b = 4)


Unnamed: 0,age,fare
886,31.0,17.0
887,23.0,34.0
888,,27.45
889,30.0,34.0
890,36.0,11.75


  df_map2 = df.applymap(lambda x : add_10(x))


Unnamed: 0,age,fare
886,37.0,23.0
887,29.0,40.0
888,,33.45
889,36.0,40.0
890,42.0,17.75


1-2 시리즈 객체에 함수 매핑

In [386]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연
0,2018-07-02,10100,600,10850,10900,10000,137977,2
1,2018-06-29,10700,300,10550,10900,9990,170253,29
2,2018-06-28,10400,500,10900,10950,10150,155769,28
3,2018-06-27,10900,100,10800,11050,10500,133548,27
4,2018-06-26,10800,350,10900,11000,10700,63039,26


In [382]:
# 사용자 함수 정의
def missing_value(series) : # 시리즈로 인수를 전달
    return series.isnull() # 불린시리즈를 반환 # NaN 값이 없으면 False # False인 경우는 해당 위치의 값이 누락되지 않았음을 의미

In [384]:
# 데이터프레임의 각 열(시리즈)을 이수로 전달하면 데이터프레임을 반환
result = df.apply(missing_value, axis=0)
result.head() 

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False


In [100]:
# 사용자 함수 정의
def min_max(x) : # 최대값 - 최소값 
    return x.max() - x.min()

In [102]:
result = df.apply(min_max, axis=0) # age에서 최대 - 최소 fare 에서 최대 - 최소
result

age      79.5800
fare    512.3292
ten       0.0000
add      79.5800
dtype: float64

In [138]:
df = titanic.loc[:,['age','fare']]
df['ten'] = 10
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [140]:
add_two_obj(1,2)

3

In [142]:
# 데이터프레임의 2개 열을 선택하여 적용
# x=df, a=df['age'], b=df['ten']
df['add'] = df.apply(lambda x:add_two_obj(x['age'],x['ten']), axis=1)
df.head()

Unnamed: 0,age,fare,ten,add
0,22.0,7.25,10,32.0
1,38.0,71.2833,10,48.0
2,26.0,7.925,10,36.0
3,35.0,53.1,10,45.0
4,35.0,8.05,10,45.0


1-3 데이터프레임 객체에 함수 매핑 


In [110]:
# 각 열의 NaN 찾기 - 데이터프레임 전달하면 데이터프레임을 반환
#함수를 매핑(mapping)한다는 것은 데이터 구조(예: DataFrame, Series) 전체에 특정 함수를 적용하는 것을 의미

In [122]:
# 각 열의 NaN 개수 반환 - 데이터프레임 전달하면 데이터프레임을 반환
def missing_value(x):
    return x.isnull()

In [124]:
# 데이터 프레임 전달하면 시리즈 반환 
def missing_count(x):
    return missing_value(x).sum() # t1 f 0 해서 다 더한 값을 낸다
#result에는 DataFrame df의 각 열에 대한 누락된 값의 개수가 저장

In [126]:
# 데이터프레임 전달하면 값을 반환
def total_number_missing(x):
    return missing_count(x).sum() # 

In [128]:
result_df = df.pipe(missing_value)
result_df.head()

Unnamed: 0,age,fare,ten,add
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False


In [132]:
result_series = df.pipe(missing_count)
result_series


age     177
fare      0
ten       0
add     177
dtype: int64

In [136]:
result_value = df.pipe(total_number_missing)
print(type(result_value))
result_value


<class 'numpy.int64'>


354

# 2 열 재구성

##2-1 열 순서 변경

- 데이터프레임의 열 순서를 변경하는 방법은 열 이름을 원하는 순서대로 정리해서 리스트를 만들고 데이터프레임에서 열을 다시 선택하는 방식으로 열 순서를 바꿀 수 있음

In [227]:
df = titanic.loc[0:4,'survived':'age']
df

Unnamed: 0,survived,pclass,sex,age
0,0,3,male,22.0
1,1,1,female,38.0
2,1,3,female,26.0
3,1,1,female,35.0
4,0,3,male,35.0


In [229]:
columns = list(df.columns)
columns

['survived', 'pclass', 'sex', 'age']

In [231]:
 # 열이름의 리스트 만들기
columns_sorted = sorted(columns) # 알파벳 순으로 정렬
print(columns_sorted)
df_sorted = df[columns_sorted] # df_sorted = df[['age','pclass','sex','survived']]
df_sorted 

['age', 'pclass', 'sex', 'survived']


Unnamed: 0,age,pclass,sex,survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0


In [239]:
print(columns)
columns_reversed = list(reversed(columns)) # 리스트의 순서를 역순으로 만듭니다
print(columns_reversed)

df_reversed = df[columns_reversed]
df_reversed

['survived', 'pclass', 'sex', 'age']
['age', 'sex', 'pclass', 'survived']


Unnamed: 0,age,sex,pclass,survived
0,22.0,male,3,0
1,38.0,female,1,1
2,26.0,female,3,1
3,35.0,female,1,1
4,35.0,male,3,0


In [245]:
columns_customed=['sex', 'pclass', 'age', 'survived']
df_customed = df[columns_customed]
df_customed

Unnamed: 0,sex,pclass,age,survived
0,male,3,22.0,0
1,female,1,38.0,1
2,female,3,26.0,1
3,female,1,35.0,1
4,male,3,35.0,0


# 2 열 분리

In [209]:
df = titanic.loc[0:4,'survived':'age']
X = df[['pclass','sex','age']]
y = df['survived']
display(X)
display(y)

Unnamed: 0,pclass,sex,age
0,3,male,22.0
1,1,female,38.0
2,3,female,26.0
3,1,female,35.0
4,3,male,35.0


0    0
1    1
2    1
3    1
4    0
Name: survived, dtype: int64

In [211]:
df = titanic.loc[0:4,'survived':'age']
y = df['survived']
del df['survived'] # 삭제하고 남은 3개를 넣는다
x = df
display(X)
display(y)

Unnamed: 0,pclass,sex,age
0,3,male,22.0
1,1,female,38.0
2,3,female,26.0
3,1,female,35.0
4,3,male,35.0


0    0
1    1
2    1
3    1
4    0
Name: survived, dtype: int64

In [249]:
import pandas as pd 

df = pd.read_excel('c:/sample_data/주가데이터.xlsx')
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
0,2018-07-02,10100,600,10850,10900,10000,137977
1,2018-06-29,10700,300,10550,10900,9990,170253
2,2018-06-28,10400,500,10900,10950,10150,155769
3,2018-06-27,10900,100,10800,11050,10500,133548
4,2018-06-26,10800,350,10900,11000,10700,63039


In [251]:
df.dtypes

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object

In [253]:
df.iloc[0]['연월일']

Timestamp('2018-07-02 00:00:00')

In [257]:
# 연 월 일 데이터 분리하기 
df['연월일'] = df['연월일'].astype('str')
dates = df['연월일'].str.split('-')
dates.head() # 리스트 형태로 반환된다

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object

In [275]:
dates.str.get(0).head() # 시리즈의 문자열 리스트 인덱싱 series 객체. str.get(인덱스)

0    2018
1    2018
2    2018
3    2018
4    2018
Name: 연월일, dtype: object

In [388]:
# 분리된 정보를 각각 새로운열에 담아서 df에 추가하기
df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)
df.head() 

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


# 3 필터링
- 시리즈 또는 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출하는 개념

# 3-1 불린 인덱싱 

-시리즈 객체에 어떤 조건식을 적용하면 각 원소에 참 거짓을 판별해 불린 값으로 구성된 시리즈를 반환

In [286]:
titanic = sns.load_dataset('titanic')

# 나이가 10-19세 10대인 승객만 따로 선택
mask1 = (titanic['age'] >= 10) & (titanic['age'] < 20)
mask1[:10]
# 조건식을 이용하면 데이터 만족하는 값에는 True 그렇지 않은 값엔 False 
# 9번 인덱스가 True

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9     True
Name: age, dtype: bool

In [300]:
df_teenage = titanic.loc[mask1, :] # 마스크1의 0 false 가 다 들어감
df_teenage.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0,S,Third,woman,False,,Southampton,no,False


In [306]:
mask2 = (titanic['age'] < 10) & (titanic['sex'] == 'female')
mask1[:11]

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9      True
10    False
Name: age, dtype: bool

In [310]:
df_female_under10 = titanic.loc[mask2, :] # mask2 에서 전체를 다 가져와 주세요
df_female_under10.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False


In [327]:
# 나이가 10세 미만(0~9세) 또는 60세 이상인 승객의 age, sex, alone 열만 선택
mask3 = (titanic['age'] < 10) | (titanic['age'] >= 60)
df_female_under10_morethan60 = titanic.loc[mask3, ['age', 'sex', 'alone']]
df_female_under10_morethan60.head()

Unnamed: 0,age,sex,alone
7,2.0,male,False
10,4.0,female,False
16,2.0,male,False
24,8.0,female,False
33,66.0,male,True


## 3-2 isin() 메소드 활용

In [335]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [339]:
#IPython 디스플레이 설정 변경 - 출력할 최대 열의 개수
pd.set_option('display.max_columns',10)

In [343]:
# sibsp - 함께 탑승한 형제 또는 배우자의 수가 3, 4, 5 인 승객만 따로 추출 -불린 인덱싱
mask3 = titanic['sibsp'] == 3
mask4 = titanic['sibsp'] == 4
mask5 = titanic['sibsp'] == 5
df_boolean = titanic[mask3 | mask4 | mask5]
df_boolean.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,...,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,...,False,,Southampton,no,False
16,0,3,male,2.0,4,...,False,,Queenstown,no,False
24,0,3,female,8.0,3,...,False,,Southampton,no,False
27,0,1,male,19.0,3,...,True,C,Southampton,no,False
50,0,3,male,7.0,4,...,False,,Southampton,no,False


In [349]:
# isin() 메서드 활용하여 동일한 조건으로 추출 #sibsp 에 345 들어있는 값들의 인덱스만 True로 해준다
isin_filter = titanic['sibsp'].isin([3, 4, 5])
df.isin = titanic[isin_filter]
df.isin.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,...,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,...,False,,Southampton,no,False
16,0,3,male,2.0,4,...,False,,Queenstown,no,False
24,0,3,female,8.0,3,...,False,,Southampton,no,False
27,0,1,male,19.0,3,...,True,C,Southampton,no,False
50,0,3,male,7.0,4,...,False,,Southampton,no,False


# 4 데이터프레임 합치기

### 데이터가 여러 군데 나누어져 있을 때 하나로 합치거나 데이터를 연결해야 하는 경우 사용

## 4-1 데이터 프레임 연결 
- concat

In [1]:
# 데이터프레임 만들기 
import pandas as pd
df1 = pd.DataFrame({'a': ['a0', 'a1', 'a2', 'a3'],
                    'b': ['b0', 'b1', 'b2', 'b3'],
                    'c': ['c0', 'c1', 'c2', 'c3']},
                    index = [0, 1, 2, 3])

df2 = pd.DataFrame({'a': ['a2', 'a3', 'a4', 'a5'],
                    'b': ['b2', 'b3', 'b4', 'b5'],
                    'c': ['c2', 'c3', 'c4', 'c5'],
                    'd': ['d2', 'd3', 'd4', 'd5']},
                    index = [2, 3, 4, 5])
df1

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3


In [3]:
df2

Unnamed: 0,a,b,c,d
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


In [5]:
result1 = pd.concat([df1, df2])
result1

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


In [370]:
result1.loc[2] # 하나만 선택되어야 정상인데 인덱스가 2인게 2개라서 2개 선택됨, 이렇게 되면 오류가 생길 수 도 있음

Unnamed: 0,a,b,c,d
2,a2,b2,c2,
2,a2,b2,c2,d2


In [374]:
result1.reset_index()

Unnamed: 0,index,a,b,c,d
0,0,a0,b0,c0,
1,1,a1,b1,c1,
2,2,a2,b2,c2,
3,3,a3,b3,c3,
4,2,a2,b2,c2,d2
5,3,a3,b3,c3,d3
6,4,a4,b4,c4,d4
7,5,a5,b5,c5,d5


In [376]:
# ignore_index = True 옵션 설정하기
# 인덱스 재설정
result2 = pd.concat([df1, df2], ignore_index = True)
result2

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
4,a2,b2,c2,d2
5,a3,b3,c3,d3
6,a4,b4,c4,d4
7,a5,b5,c5,d5


In [7]:
# 2개의 데이터프레임을 좌우 열 방향으로 이러 붙이듯 연결하기
result3 = pd.concat([df1, df2], axis=1)
result3

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
0,a0,b0,c0,,,,
1,a1,b1,c1,,,,
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4
5,,,,a5,b5,c5,d5


In [9]:
# ignore_index = True 옵션 설정하기 자기가 알아서 숫자값으로 배열됨
result3 = pd.concat([df1, df2], axis=1, ignore_index = True)
result3

Unnamed: 0,0,1,2,3,4,5,6
0,a0,b0,c0,,,,
1,a1,b1,c1,,,,
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4
5,,,,a5,b5,c5,d5


In [17]:
# join ='inner' 옵션 적용하기(교집합), 인덱스를 기준으로
result3_in = pd.concat([df1, df2], axis=1, join ='inner')
result3_in

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3


In [31]:
# 시리즈 만들기

sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name='e')
sr2 = pd.Series(['f0', 'f1', 'f2'], name='f', index = [3, 4, 5])
sr3 = pd.Series(['g0', 'g1', 'g2', 'g3'], name='g')
sr1

0    e0
1    e1
2    e2
3    e3
Name: e, dtype: object

In [33]:
sr2

3    f0
4    f1
5    f2
Name: f, dtype: object

In [35]:
sr3

0    g0
1    g1
2    g2
3    g3
Name: g, dtype: object

In [40]:
#df1 과 sr1을 좌우 열 방향으로 연결하기
result4= pd.concat([df1, sr1], axis =1)
result4

Unnamed: 0,a,b,c,e
0,a0,b0,c0,e0
1,a1,b1,c1,e1
2,a2,b2,c2,e2
3,a3,b3,c3,e3


In [42]:
# df2 과 sr2을 좌우 열 방향으로 연결하기
result5 = pd.concat([df2, sr2], axis =1, sort=True)
result5

Unnamed: 0,a,b,c,d,f
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,f0
4,a4,b4,c4,d4,f1
5,a5,b5,c5,d5,f2


In [44]:
result6 = pd.concat([sr1, sr3], axis =1)
result6

Unnamed: 0,e,g
0,e0,g0
1,e1,g1
2,e2,g2
3,e3,g3


In [46]:
result7= pd.concat([sr1, sr3], axis =0) # 좌우로 합쳤을때는 컬럼이 많아져서 데이터 프레임 # 근데 시리즈가 위아래로 붙을때는 시리즈로
result7

0    e0
1    e1
2    e2
3    e3
0    g0
1    g1
2    g2
3    g3
dtype: object

# 4-2 데이터프레임 병함
- merge() 함수 어떤 기준에 의해 두 데이터프레임을 병합하는 개념
- 기준이 되는 열이나 인덱스를 key 라고 부르고 키는  양쪽의 데이터프레임이 반드시 존재

In [54]:
# Ipython 디스플레이 설정 변경
pd.set_option('display.max_columns', 10) # 출력할 열의 최대 개수
pd.set_option('display.max_colwidth', 20) # 출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True) # 유니코드 사용 너비 조정
 
# 주식 데이터를 가져와서 데이터프레임 만들기
df1 = pd.read_excel('C:/sample_data/stock price.xlsx')
df2 = pd.read_excel('C:/sample_data/stock valuation.xlsx')

df1

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000
1,130960,CJ E&M,58540.666667,98900
2,138250,엔에스쇼핑,14558.666667,13200
3,139480,이마트,239230.833333,254500
4,142280,녹십자엠에스,468.833333,10200
5,145990,삼양사,82750.0,82000
6,185750,종근당,40293.666667,100500
7,192400,쿠쿠홀딩스,179204.666667,177500
8,199800,툴젠,-2514.333333,115400
9,204210,모두투어리츠,3093.333333,3475


In [64]:
df2

Unnamed: 0,id,name,eps,bps,per,pbr
0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,하림,274.166667,3551,11.489362,0.887074
2,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,5741.0,108090,14.283226,0.758627
5,161390,한국타이어,5648.5,51341,7.453306,0.820007
6,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750,종근당,3990.333333,40684,25.185866,2.470259
8,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
9,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


In [60]:
merge_inner = pd.merge(df1, df2)
merge_inner

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
2,145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
3,185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
4,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [62]:
merge_outer = pd.merge(df1, df2, how ='outer', on ='id')
merge_outer

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,136480,,,,하림,274.166667,3551.0,11.489362,0.887074
3,138040,,,,메리츠금융지주,2122.333333,14894.0,6.313806,0.899691
4,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
5,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
6,142280,녹십자엠에스,468.833333,10200.0,,,,,
7,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
8,161390,,,,한국타이어,5648.5,51341.0,7.453306,0.820007
9,181710,,,,NHN엔터테인먼트,2110.166667,78434.0,30.755864,0.827447


In [66]:
# 데이터프레임 합치기 - 왼쪽 데이터프레임 기준, 키 값 분리
# left 의 이름을 기준으로 배열이 된다

merge_left = pd.merge(df1, df2, how ='left', left_on ='stock_name', right_on ='name')
merge_left

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,,
1,130960,CJ E&M,58540.666667,98900,130960.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,,
3,139480,이마트,239230.833333,254500,139480.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,,
5,145990,삼양사,82750.0,82000,145990.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,185750.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,,
9,204210,모두투어리츠,3093.333333,3475,204210.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [70]:
merge_right = pd.merge(df1, df2, how ='right', left_on ='stock_name', right_on ='name')
merge_right

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,130960.0,CJ E&M,58540.666667,98900.0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,,,,,136480,하림,274.166667,3551,11.489362,0.887074
2,,,,,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480.0,이마트,239230.833333,254500.0,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990.0,삼양사,82750.0,82000.0,145990,삼양사,5741.0,108090,14.283226,0.758627
5,,,,,161390,한국타이어,5648.5,51341,7.453306,0.820007
6,,,,,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750.0,종근당,40293.666667,100500.0,185750,종근당,3990.333333,40684,25.185866,2.470259
8,204210.0,모두투어리츠,3093.333333,3475.0,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
9,,,,,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


In [72]:
# 불린 인덱싱과 결합하여 원하는 데이터 찾기
price = df1[df1['price'] < 50000]
price

Unnamed: 0,id,stock_name,value,price
2,138250,엔에스쇼핑,14558.666667,13200
4,142280,녹십자엠에스,468.833333,10200
9,204210,모두투어리츠,3093.333333,3475


In [74]:
value = pd.merge(price, df2)
value

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


# 4-3 데이터프레임 결합
- join() 메소드는 merge()메소드 기반으로 만들어졌기 때문에 동작방식이 비슷하지만 join() 메소드는 두 데이터프레임의 행 인덱스를 기준으로 결합하는 점에서 merge()와 차이가 있음
- on-keyts 옵션을 설정하면 행 인덱스 대신 다른 열을 기준으로 결합

In [81]:
df1 = pd.read_excel('C:/sample_data/stock price.xlsx', index_col='id')
df2 = pd.read_excel('C:/sample_data/stock valuation.xlsx', index_col='id')
display(df1.head())
display(df1.head())

Unnamed: 0_level_0,stock_name,value,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
128940,한미약품,59385.666667,421000
130960,CJ E&M,58540.666667,98900
138250,엔에스쇼핑,14558.666667,13200
139480,이마트,239230.833333,254500
142280,녹십자엠에스,468.833333,10200


Unnamed: 0_level_0,stock_name,value,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
128940,한미약품,59385.666667,421000
130960,CJ E&M,58540.666667,98900
138250,엔에스쇼핑,14558.666667,13200
139480,이마트,239230.833333,254500
142280,녹십자엠에스,468.833333,10200


In [83]:
df3=df1.join(df2) # 외부조인
df3

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
128940,한미약품,59385.666667,421000,,,,,
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
138250,엔에스쇼핑,14558.666667,13200,,,,,
139480,이마트,239230.833333,254500,이마트,18268.166667,295780.0,13.931338,0.860437
142280,녹십자엠에스,468.833333,10200,,,,,
145990,삼양사,82750.0,82000,삼양사,5741.0,108090.0,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684.0,25.185866,2.470259
192400,쿠쿠홀딩스,179204.666667,177500,,,,,
199800,툴젠,-2514.333333,115400,,,,,
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [85]:
df4=df1.join(df2, how = 'inner') # 외부조인
df4

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


# 5 그룹연산 

- 복잡한 데이터를 어떤 기준에 따라 여러 그룹으로 나눠서 관찰하는 것도 데이터 분석에 필요할 수 있음
- 특정 기준을 적용하여 몇 개으 ㅣ그룹을 ㅗ분할하여 처리하는 것을 그룹 연산이라고 함
-그룹 연산은 데이터를 집계 변환 필터링을 하는데 효율적

In [100]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class','fare','survived']] 
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [108]:
print('승객 수:', len(df))

승객 수: 891


In [112]:
# class 열을 기준으로 분할 , class를 기준으로 각각 묶은 그룹
grouped = df.groupby(['class'])
print(grouped)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001BCCD3E1B80>


  grouped = df.groupby(['class'])


In [122]:
# 그룹 객체를 iteration 으로 출력: head() 메소드로 첫 5행만을 출력
for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group)) # en(group)은 현재 그룹의 크기, 즉 행의 개수를
    display(group.head())
    print('\n')

* key : ('First',)
* number : 216


Unnamed: 0,age,sex,class,fare,survived
1,38.0,female,First,71.2833,1
3,35.0,female,First,53.1,1
6,54.0,male,First,51.8625,0
11,58.0,female,First,26.55,1
23,28.0,male,First,35.5,1




* key : ('Second',)
* number : 184


Unnamed: 0,age,sex,class,fare,survived
9,14.0,female,Second,30.0708,1
15,55.0,female,Second,16.0,1
17,,male,Second,13.0,1
20,35.0,male,Second,26.0,0
21,34.0,male,Second,13.0,1




* key : ('Third',)
* number : 491


Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
2,26.0,female,Third,7.925,1
4,35.0,male,Third,8.05,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.075,0






In [118]:
average = grouped.mean(numeric_only = True)
average # 1등석에 있는 사람들이 좀 많이 살아남은 것을 알 수 있다

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


In [116]:
# 연산 메소드 적용
cnt = grouped.count()
cnt

Unnamed: 0_level_0,age,sex,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,186,216,216,216
Second,173,184,184,184
Third,355,491,491,491


In [126]:
group3 = grouped.get_group('Third')
group3.head()

  group3 = grouped.get_group('Third')


Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
2,26.0,female,Third,7.925,1
4,35.0,male,Third,8.05,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.075,0


In [129]:
# 위에는 튜플 형태였따

여러 열을 기준으로 그룹화
- 여러개의 기준값을 사용

In [136]:
# class 열, sex 열을 기준으로 분할
grouped_two = df.groupby(['class', 'sex'])
grouped_two

  grouped_two = df.groupby(['class', 'sex'])


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001BCCD40D7C0>

In [138]:
for key, group in grouped_two:
    print('* key :', key)
    print('* number :', len(group)) # en(group)은 현재 그룹의 크기, 즉 행의 개수를
    display(group.head())
    print('\n')

* key : ('First', 'female')
* number : 94


Unnamed: 0,age,sex,class,fare,survived
1,38.0,female,First,71.2833,1
3,35.0,female,First,53.1,1
11,58.0,female,First,26.55,1
31,,female,First,146.5208,1
52,49.0,female,First,76.7292,1




* key : ('First', 'male')
* number : 122


Unnamed: 0,age,sex,class,fare,survived
6,54.0,male,First,51.8625,0
23,28.0,male,First,35.5,1
27,19.0,male,First,263.0,0
30,40.0,male,First,27.7208,0
34,28.0,male,First,82.1708,0




* key : ('Second', 'female')
* number : 76


Unnamed: 0,age,sex,class,fare,survived
9,14.0,female,Second,30.0708,1
15,55.0,female,Second,16.0,1
41,27.0,female,Second,21.0,0
43,3.0,female,Second,41.5792,1
53,29.0,female,Second,26.0,1




* key : ('Second', 'male')
* number : 108


Unnamed: 0,age,sex,class,fare,survived
17,,male,Second,13.0,1
20,35.0,male,Second,26.0,0
21,34.0,male,Second,13.0,1
33,66.0,male,Second,10.5,0
70,32.0,male,Second,10.5,0




* key : ('Third', 'female')
* number : 144


Unnamed: 0,age,sex,class,fare,survived
2,26.0,female,Third,7.925,1
8,27.0,female,Third,11.1333,1
10,4.0,female,Third,16.7,1
14,14.0,female,Third,7.8542,0
18,31.0,female,Third,18.0,0




* key : ('Third', 'male')
* number : 347


Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
4,35.0,male,Third,8.05,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.075,0
12,20.0,male,Third,8.05,0






In [142]:
average_two = grouped_two.mean(numeric_only=True)
display(average_two)
print('\n')
print(type(average_two))


Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447




<class 'pandas.core.frame.DataFrame'>


In [148]:
# grouped_two 그룹 객체에서 개별 그룹 선택하기
group3f = grouped_two.get_group(('Third', 'female'))
group3f.head()

Unnamed: 0,age,sex,class,fare,survived
2,26.0,female,Third,7.925,1
8,27.0,female,Third,11.1333,1
10,4.0,female,Third,16.7,1
14,14.0,female,Third,7.8542,0
18,31.0,female,Third,18.0,0


5-2 그룹 연산 메소드 (적용 - 결합 단계)



In [151]:
grouped = df.groupby(['class'])

  grouped = df.groupby(['class'])


In [157]:
# 각 그룹에 대한 모든 열의 표준 편차를 집계하여 데이터프레임으로 변환
std_all = grouped.std
std_all

<bound method GroupBy.std of <pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001BCCD27DEE0>>

In [165]:
std_fare= grouped['fare'].std(numeric_only=True) 
# umeric_only=True는 연산 대상을 숫자형 데이터로 제한하여 의미 있는 결과를 얻거나 성능 향상을 위해 사용되는 옵션
std_fare                   

class
First     78.380373
Second    13.417399
Third     11.778142
Name: fare, dtype: float64

- 집계 연산을 처리하는 사용자 정의 함수를 객체에 적용하려면 agg()메소드를 사용

In [182]:
# 그룹 객체에 agg() 메소드를 적용 - 사용자 정의 함수를 인수로 전달
def min_max(x):   # 최대값 - 최소값 
    return x.max() - x.min()

In [184]:
agg_minmax = grouped[['fare','age']].agg(min_max)
agg_minmax

Unnamed: 0_level_0,fare,age
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,512.3292,79.08
Second,73.5,69.33
Third,69.55,73.58


In [186]:
# 여러 함수를 각 열에 동일하게 적용하여 집계
agg_all = grouped.agg(['min','max'])
agg_all

Unnamed: 0_level_0,age,age,sex,sex,fare,fare,survived,survived
Unnamed: 0_level_1,min,max,min,max,min,max,min,max
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
First,0.92,80.0,female,male,0.0,512.3292,0,1
Second,0.67,70.0,female,male,0.0,73.5,0,1
Third,0.42,74.0,female,male,0.0,69.55,0,1


In [188]:
agg_sep = grouped.agg({'fare':['min','max'], 'age': 'mean'})
agg_sep

Unnamed: 0_level_0,fare,fare,age
Unnamed: 0_level_1,min,max,mean
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
First,0.0,512.3292,38.233441
Second,0.0,73.5,29.87763
Third,0.0,69.55,25.14062


In [190]:
df = titanic.loc[:, ['age','sex', 'class','fare','survived']] 
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [252]:
# class 열을 기준으로 분할
grouped = df.groupby(['class'])

  grouped = df.groupby(['class'])


In [254]:
age_mean = grouped['age'].mean()
age_mean

class
First     38.233441
Second    29.877630
Third     25.140620
Name: age, dtype: float64

In [198]:
age_std = grouped['age'].std()
age_std 

class
First     14.802856
Second    14.001077
Third     12.495398
Name: age, dtype: float64

In [200]:
for key, group in grouped['age']:
    group_zscore = (group - age_mean.loc[key]) / age_std.loc[key]
    print('* origin :', key)
    display(group.head(3))
    display(group_zscore.head(3))
    print('\n')

* origin : ('First',)


1    38.0
3    35.0
6    54.0
Name: age, dtype: float64

1   -0.015770
3   -0.218434
6    1.065103
Name: age, dtype: float64



* origin : ('Second',)


9     14.0
15    55.0
17     NaN
Name: age, dtype: float64

9    -1.134029
15    1.794317
17         NaN
Name: age, dtype: float64



* origin : ('Third',)


0    22.0
2    26.0
4    35.0
Name: age, dtype: float64

0   -0.251342
2    0.068776
4    0.789041
Name: age, dtype: float64





- transform() 메소드를 사용 'age' 열의 데이터를 z-score로 직접 변환

In [235]:
# z-score를 계산하는 사용자 함수 정의
def z_score(x):
    return (x - x.mean()) / x.std()

In [237]:
# transform() 메소드를 이용하여 age열의 데이터를 z-score로 변환

age_zscore = grouped['age'].transform(z_score)
age_zscore

0     -0.251342
1     -0.015770
2      0.068776
3     -0.218434
4      0.789041
         ...   
886   -0.205529
887   -1.299306
888         NaN
889   -0.826424
890    0.548953
Name: age, Length: 891, dtype: float64

In [247]:
age_zscore.loc[[1 , 9 , 0]] # 1,2,3 그룹의 첫 데이터 확인

1   -0.015770
9   -1.134029
0   -0.251342
Name: age, dtype: float64

In [241]:
len(age_zscore)

891

In [243]:
age_zscore.loc[0:9]

0   -0.251342
1   -0.015770
2    0.068776
3   -0.218434
4    0.789041
5         NaN
6    1.065103
7   -1.851931
8    0.148805
9   -1.134029
Name: age, dtype: float64

In [245]:
type(age_zscore)

pandas.core.series.Series

그룹 객체 필터링

In [250]:
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [288]:
# class 열을 기준으로 분할
grouped = df.groupby(['class'])

# 데이터 개수가 200개 이상인 그룹만을 필터링하여 데이터프레임으로 변환
grouped_filter = grouped.filter(lambda x : len(x) >= 200)
grouped_filter.head(100)

  grouped = df.groupby(['class'])


Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.2500,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.9250,1
3,35.0,female,First,53.1000,1
4,35.0,male,Third,8.0500,0
...,...,...,...,...,...
113,20.0,female,Third,9.8250,0
114,17.0,female,Third,14.4583,0
115,21.0,male,Third,7.9250,0
116,70.5,male,Third,7.7500,0


In [272]:
len(df)

891

In [278]:
grouped_filter['class'].value_counts()

class
Third     491
First     216
Second      0
Name: count, dtype: int64

In [282]:
grouped.mean(numeric_only =True)

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


In [286]:
age_filter = grouped.filter(lambda x : x['age'].mean() < 30)
age_filter.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
2,26.0,female,Third,7.925,1
4,35.0,male,Third,8.05,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.075,0


In [292]:
# 집계 : 각 그룹별 요약 통계정보를 집계
age_grouped = grouped.apply(lambda x : x.describe())
age_grouped

  age_grouped = grouped.apply(lambda x : x.describe())


Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,count,186.0,216.0,216.0
First,mean,38.233441,84.154687,0.62963
First,std,14.802856,78.380373,0.484026
First,min,0.92,0.0,0.0
First,25%,27.0,30.92395,0.0
First,50%,37.0,60.2875,1.0
First,75%,49.0,93.5,1.0
First,max,80.0,512.3292,1.0
Second,count,173.0,184.0,184.0
Second,mean,29.87763,20.662183,0.472826


In [296]:
age_zscore = grouped['age'].apply(z_score) # 기본값 axis = 0
age_zscore.head()

class    
First  1    -0.015770
       3    -0.218434
       6     1.065103
       11    1.335321
       23   -0.691315
Name: age, dtype: float64

In [298]:
# class 열, sex 열을 기준으로 분할
grouped = df.groupby(['class' ,'sex'])


  grouped = df.groupby(['class' ,'sex'])


In [300]:
# 그룹 객체에 연산 메서드 적용
gdf = grouped.mean()
gdf

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


In [306]:
gdf.index

MultiIndex([( 'First', 'female'),
            ( 'First',   'male'),
            ('Second', 'female'),
            ('Second',   'male'),
            ( 'Third', 'female'),
            ( 'Third',   'male')],
           names=['class', 'sex'])

In [304]:
# class 값이 First 인 행을 선택하여 출력 
gdf.loc['First']

Unnamed: 0_level_0,age,fare,survived
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,34.611765,106.125798,0.968085
male,41.281386,67.226127,0.368852


In [314]:
# # class 값이 First이고, sex 값이 female인 행을 선택하여 출력
gdf.loc[('First','female')]

age          34.611765
fare        106.125798
survived      0.968085
Name: (First, female), dtype: float64

# 7 피벗

- 판다스 피봇테이블 함수는 엑셀의 피벗테이블과 비슷한 기능을 처리
- 피벗테이블을 구성하는 4가지 요소(행 인덱스, 열 인덱스 데이터 값 데이터 집계함수) 에 적용할 데이터프레임을 각각 지정하여 함수 인자로 전달

In [321]:
# 행 열 값 집계에 사용할 열을 1개씩 지정 - 평균합계
pdf1 = pd.pivot_table(df,
                      index = 'class',
                      columns = 'sex',
                      values = 'age',
                      aggfunc = 'mean')

pdf1


  pdf1 = pd.pivot_table(df,


sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,34.611765,41.281386
Second,28.722973,30.740707
Third,21.75,26.507589


In [327]:
# 값에 적용하는 집계 함수를 2개 이상 지정 가능 - 생존율, 생존자 수 집계
# 행 열 값 집계에 사용할 열을 1개씩 지정 - 평균합계
pdf2 = pd.pivot_table(df,
                      index = 'class',
                      columns = 'sex',
                      values = 'age',
                      aggfunc = ['mean','sum'])

pdf2


  pdf2 = pd.pivot_table(df,
  pdf2 = pd.pivot_table(df,


Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,34.611765,41.281386,2942.0,4169.42
Second,28.722973,30.740707,2125.5,3043.33
Third,21.75,26.507589,2218.5,6706.42


In [329]:
pdf2.columns

MultiIndex([('mean', 'female'),
            ('mean',   'male'),
            ( 'sum', 'female'),
            ( 'sum',   'male')],
           names=[None, 'sex'])

In [339]:
pdf3 = pd.pivot_table(df,
                      index = ['class','sex'],
                      columns = 'survived',
                      values = ['age', 'fare'],
                      aggfunc = ['mean','max'])

pdf3

  pdf3 = pd.pivot_table(df,
  pdf3 = pd.pivot_table(df,


Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [341]:
# 여기까지 ,,