In [11]:
# titanic data load
import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [12]:
# age와 fare 컬럼만 추출
df = df.loc[:, ['age', 'fare']]
df.head()

# ten 컬럼을 추가
df['ten'] = 10

df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [13]:
def add_10(n):
    return n+10
def add_two_obj(a,b):
    return a+b

print(add_10(20))
print(add_two_obj(10,20))

30
30


In [16]:
# 시리즈 객체의 각 원소에 함수를 맵핑 .apply(맵핑함수)
sr1 = df['age'].apply(add_10)

print(df['age'].head(3)); print()
print(sr1.head(3)); print()

# 시리즈 객체와 숫자를 적용한 함수 add_two_obj(a, b)
sr2 = df['age'].apply(add_two_obj, b=10)  #  a <- df['age']
print(sr2.head(3)); print()

# 맵핑함수를 lamda 함수로 정의해서 사용
sr3 = df['age'].apply(lambda x: add_10(x)) # x <- df['age'] 각각의 원소가 들어감
print(sr2.head(3)); print()

0    22.0
1    38.0
2    26.0
Name: age, dtype: float64

0    32.0
1    48.0
2    36.0
Name: age, dtype: float64

0    32.0
1    48.0
2    36.0
Name: age, dtype: float64
0    32.0
1    48.0
2    36.0
Name: age, dtype: float64


In [27]:
# 데이터프레임의 각 원소에 함수 맵핑 applymap( 맵핑함수)
df = sns.load_dataset('titanic').loc[ :, ['age', 'fare']]

df_map = df.applymap(add_10) # 각각 age, fare 각각에 add_10 함수 적용
df_map.head(3)

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925


In [31]:
# apply 함수를 데이터 프레임에 적용 
# .apply(맵핑함수, axis=0) -> 컬럼을 series로 사용한다. default로  axis=0으로 되어있다.
def missing_value(series):
    return series.isnull()

result = df.apply(missing_value, axis=0)
print(result)


       age   fare
0    False  False
1    False  False
2    False  False
3    False  False
4    False  False
..     ...    ...
886  False  False
887  False  False
888   True  False
889  False  False
890  False  False

[891 rows x 2 columns]


In [33]:
# 최대값 - 최소값
def max_min(x):
    return x.max() - x.min()

result = df.apply(max_min)
print(result)

age      79.5800
fare    512.3292
dtype: float64


In [35]:
# 데이터프레임의 행단위로 원소에 함수를 적용
df['ten'] = 10
df.head(3)

df['result'] = df.apply(lambda x: add_two_obj(x['age'], x['ten']),
                       axis=1)  # rows 별로 age와 ten을  더한다.

df.head(3)

Unnamed: 0,age,fare,ten,result
0,22.0,7.25,10,32.0
1,38.0,71.2833,10,48.0
2,26.0,7.925,10,36.0


In [37]:
# fare 컬럼에 10을 더해서 fare_add 컬럼으로 추가하세요.

df['ten'] = 10
df.head(3)

df['fare_add'] = df.apply(lambda x: x['fare'] + x['ten'],
                          axis=1)

df.head(3)

Unnamed: 0,age,fare,ten,result,fare_add
0,22.0,7.25,10,32.0,17.25
1,38.0,71.2833,10,48.0,81.2833
2,26.0,7.925,10,36.0,17.925


In [43]:
# .pipe() : 데이터프레임 객체를 함수에 매핑
df = df.loc[:, ['age', 'fare']]
df.head(3)

def missing_value(x):
    return x.isnull()

def missing_count(x):
    return missing_value(x).sum()

def total_missing_number(x):
    return missing_count(x).sum()

result_df = df.pipe(missing_value)
print(result_df.head(3))
print(type(result_df))

result_sr = df.pipe(missing_count)
print(result_sr.head)
print(type(result_sr))

result_total = df.pipe(total_missing_number)
print(result_total)
print(type(result_total))


     age   fare
0  False  False
1  False  False
2  False  False
<class 'pandas.core.frame.DataFrame'>
<bound method NDFrame.head of age     177
fare      0
dtype: int64>
<class 'pandas.core.series.Series'>
177
<class 'numpy.int64'>


In [47]:
# 0:4행을 가져오고 survived ~ age 컬럼을 가져온다.
df = sns.load_dataset('titanic').loc[ 0:4, 'survived': 'age']

print(df)

   survived  pclass     sex   age
0         0       3    male  22.0
1         1       1  female  38.0
2         1       3  female  26.0
3         1       1  female  35.0
4         0       3    male  35.0


In [53]:
# 열의 순서를 정렬해서 변경
columns = list(df.columns.values)
print(columns)
columns_sroted = sorted(columns)
df_s = df[columns_sroted]
df_s

['survived', 'pclass', 'sex', 'age']


Unnamed: 0,age,pclass,sex,survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0


In [61]:
# # 열의 순서를 정렬해서 변경하는 방법 2.
df = sns.load_dataset('titanic').loc[ 0:4, 'survived': 'age']
df = df[sorted(list(df.columns.values))]
print(df)

    age  pclass     sex  survived
0  22.0       3    male         0
1  38.0       1  female         1
2  26.0       3  female         1
3  35.0       1  female         1
4  35.0       3    male         0


In [62]:
# # 열의 순서를 역을 정렬 방법1
df = df[reversed(list(df.columns.values))]
print(df)

   survived     sex  pclass   age
0         0    male       3  22.0
1         1  female       1  38.0
2         1  female       3  26.0
3         1  female       1  35.0
4         0    male       3  35.0


In [64]:
# # 열의 순서를 역을 정렬 방법2
df = df[sorted(df.columns.values, reverse=True)]
print(df)

   survived     sex  pclass   age
0         0    male       3  22.0
1         1  female       1  38.0
2         1  female       3  26.0
3         1  female       1  35.0
4         0    male       3  35.0


In [66]:
# 열 분리
df = pd.read_excel('./dataset/주가데이터.xlsx')
print(df.dtypes)
df.head()

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object


Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
0,2018-07-02,10100,600,10850,10900,10000,137977
1,2018-06-29,10700,300,10550,10900,9990,170253
2,2018-06-28,10400,500,10900,10950,10150,155769
3,2018-06-27,10900,100,10800,11050,10500,133548
4,2018-06-26,10800,350,10900,11000,10700,63039
5,2018-06-25,11150,150,11400,11450,11000,55519
6,2018-06-22,11300,100,11250,11450,10750,134805
7,2018-06-21,11200,350,11350,11750,11200,133002
8,2018-06-20,11550,250,11200,11600,10900,308596
9,2018-06-19,11300,700,11850,11950,11300,180656


In [73]:
# 년 월일 컬럼의 데이터타입이 datetime -> 문자로 변경
# 2018-09-01 -> '-' 기준으로 분리, 년 월 일로 분리
df['연월일'] = df['연월일'].astype('str') # '연월일' -> 분자형으로 변경
df.dtypes
dates = df['연월일'].str.split('-') # 문자열을 '-' 기준으로 분리 : 리스트
dates

# 시리즈의 문자열 리스트 인덱싱 : 시리즈.str.get(인덱스)
df['연'] = dates.str.get(0)
df['월'] = dates.str.get(1)
df['일'] = dates.str.get(2)
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


In [78]:
# isin() 메소드 활용
# 데이터프레임 열 객체.isin(추출 값의 리스트)
# 타이타닉 함께 탑승한 형제 자매의 수가 3, 4, 5인 승객만 추출
titanic = sns.load_dataset('titanic')

mask1 = titanic['sibsp'] == 3
mask2 = titanic['sibsp'] == 4
mask3 = titanic['sibsp'] == 5
df_sib = titanic[mask1 | mask2 | mask3]
df_sib.info()

# => isin() 메소드를 활용하여 변경
# 방법 1
isin_filter = titanic['sibsp'].isin([3,4,5])
df_sib = titanic[isin_filter]
print(df_sib.count())
# 방법 2
df_isin  = titanic[titanic['sibsp'].isin([3,4,5])]
print(df_isin.count())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 39 entries, 7 to 850
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     39 non-null     int64   
 1   pclass       39 non-null     int64   
 2   sex          39 non-null     object  
 3   age          35 non-null     float64 
 4   sibsp        39 non-null     int64   
 5   parch        39 non-null     int64   
 6   fare         39 non-null     float64 
 7   embarked     39 non-null     object  
 8   class        39 non-null     category
 9   who          39 non-null     object  
 10  adult_male   39 non-null     bool    
 11  deck         3 non-null      category
 12  embark_town  39 non-null     object  
 13  alive        39 non-null     object  
 14  alone        39 non-null     bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 4.3+ KB
survived       39
pclass         39
sex            39
age            35
sibsp    

In [83]:
# 승객의 나이가 가장 적거나, 많은 나이와 같은 승객만 추출, age 컬럼먼
df_age  = titanic.loc[titanic['age'].isin([titanic.age.min(), titanic.age.max()]), ['age', 'alive']]
print(df_age)

       age alive
630  80.00   yes
803   0.42   yes


In [84]:
# 승객의 나이가 20대에서 60대 사이, 함께 탑승한 형제가 3,4,5 인 승객중
# 여성 승객의 나이, 성별, 형제 수(sibls), 요금(fare)을 출력


mask_age = (titanic['age'] >= 20) & (titanic['age'] < 60)
mask_sib = titanic.sibsp.isin([3,4,5])
mask_female = titanic.sex == 'female'
df_result  = titanic.loc[mask_age & mask_sib & mask_female, ['age', 'sex', 'sibsp', 'fare']]
print(df_result)

      age     sex  sibsp    fare
85   33.0  female      3   15.85
88   23.0  female      3  263.00
341  24.0  female      3  263.00
726  30.0  female      3   21.00


In [85]:
# 데이터 프레임 합치기

# 데이터 프레임 만들기
df1 = pd.DataFrame({'a': ['a0', 'a1', 'a2', 'a3'],
                    'b': ['b0', 'b1', 'b2', 'b3'],
                    'c': ['c0', 'c1', 'c2', 'c3']},
                    index=[0, 1, 2, 3])
 
df2 = pd.DataFrame({'a': ['a2', 'a3', 'a4', 'a5'],
                    'b': ['b2', 'b3', 'b4', 'b5'],
                    'c': ['c2', 'c3', 'c4', 'c5'],
                    'd': ['d2', 'd3', 'd4', 'd5']},
                    index=[2, 3, 4, 5])

In [91]:
# 두 데이터프레임을 합치기 pd.concat(데이터프레임 리스트)
df3 = pd.concat([df1, df2]) # df1 행으로 df2 붙이기
print(df3)

# 기존의 인덱스를 무시하고 새로 인덱스 정리 ignore_index = True
print(pd.concat([df1,df2], ignore_index = True))

# 데이터프레임을 컬럼으로 붙이기
print(pd.concat([df1, df2], axis=1))

# 데이터프레임을 컬럼으로 붙이기, join = 'inner'
print(pd.concat([df1, df2], axis=1, join='inner'))

    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
2  a2  b2  c2   d2
3  a3  b3  c3   d3
4  a4  b4  c4   d4
5  a5  b5  c5   d5
    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
4  a2  b2  c2   d2
5  a3  b3  c3   d3
6  a4  b4  c4   d4
7  a5  b5  c5   d5
     a    b    c    a    b    c    d
0   a0   b0   c0  NaN  NaN  NaN  NaN
1   a1   b1   c1  NaN  NaN  NaN  NaN
2   a2   b2   c2   a2   b2   c2   d2
3   a3   b3   c3   a3   b3   c3   d3
4  NaN  NaN  NaN   a4   b4   c4   d4
5  NaN  NaN  NaN   a5   b5   c5   d5
    a   b   c   a   b   c   d
2  a2  b2  c2  a2  b2  c2  d2
3  a3  b3  c3  a3  b3  c3  d3


In [92]:
# 시리즈 만들기
sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name='e')
sr2 = pd.Series(['f0', 'f1', 'f2'], name='f', index=[3, 4, 5])
sr3 = pd.Series(['g0', 'g1', 'g2', 'g3'], name='g')

In [98]:
# df1과 sr1을 컬럼으로 연결하기
print(pd.concat([df1, sr1], axis=1))

# df2과 sr2을 컬럼으로 연결하기
print(pd.concat([df2, sr2], axis=1, sort=True))

# sr1과 sr2를 컬럼으로 연결
print(pd.concat([sr1, sr2], axis=1)); print()

# sr1과 sr2를 행으로 연결
print(pd.concat([sr1, sr2], axis=0, ignore_index=True)); print()

    a   b   c   e
0  a0  b0  c0  e0
1  a1  b1  c1  e1
2  a2  b2  c2  e2
3  a3  b3  c3  e3
    a   b   c   d    f
2  a2  b2  c2  d2  NaN
3  a3  b3  c3  d3   f0
4  a4  b4  c4  d4   f1
5  a5  b5  c5  d5   f2
     e    f
0   e0  NaN
1   e1  NaN
2   e2  NaN
3   e3   f0
4  NaN   f1
5  NaN   f2

0    e0
1    e1
2    e2
3    e3
4    f0
5    f1
6    f2
dtype: object



In [99]:
# merge를 활용하여 데이터프레임 합치기
df1 = pd.read_excel('./dataset/stock_price.xlsx') # 주식, 가격, 수량
df2 = pd.read_excel('./dataset/stock_valuation.xlsx') # 주식비율등

print(df1.columns) # <- id, stock_name
print(df2.columns) # <-id, name

Index(['id', 'stock_name', 'value', 'price'], dtype='object')
Index(['id', 'name', 'eps', 'bps', 'per', 'pbr'], dtype='object')


In [113]:
# 양쪽의 데이터프레이믜 'id'값이 같은 자료만 병합, default 설정은 how = 'inner'
pd.merge(df1, df2) 

# df1 기준으로 df1은 모두 출력, df2 없으면 NaN
pd.merge(df1, df2, how='left') 

# df2 기준으로 df2은 모두 출력, df1 없으면 NaN
pd.merge(df1, df2, how='right') 

# outer join과 같이 df1, df2 모두 출력, 없으면 Nan
pd.merge(df1, df2, how='outer', on='id') # on='key' 양쪽에 있는 컬럼명 

# df1의 'name', df2의 'stock_name' 컬럼의 값이 같은 자료를 병합
result = pd.merge(df1, df2, how='left',
                  left_on = 'stock_name', right_on='name') # on='key' 양쪽에 있는 컬럼명 
r_data = result.loc[:, ['id_x', 'name', 'value', 'price', 'eps']]

r_data

# df1의 50000 미만인 자료와 df2를 결합
pd.merge(df1[df1.price < 50000], df2)
s_name = df1[df1.price<50000].stock_name

df2[df2.name.isin(s_name)]

Unnamed: 0,id,name,eps,bps,per,pbr
8,204210,모두투어리츠,85.166667,5335,40.802348,0.651359


In [115]:
pd.merge(df1, df2, how='left',left_on = 'stock_name', right_on='name') # on='key' 양쪽에 있는 컬럼명 


Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,,
1,130960,CJ E&M,58540.666667,98900,130960.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,,
3,139480,이마트,239230.833333,254500,139480.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,,
5,145990,삼양사,82750.0,82000,145990.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,185750.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,,
9,204210,모두투어리츠,3093.333333,3475,204210.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [116]:
pd.merge(df1, df2, how='left', on='id') # inner, outer, left, right

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,
1,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,
3,139480,이마트,239230.833333,254500,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,
5,145990,삼양사,82750.0,82000,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,
9,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [117]:
# pd.merge(df1, df2, how='inner', on='key', left_on='df1의 컬럼',
#            right_on='df2의 컬럼') on : 양쪽의 컬럼명이 같은 경우
#            left_on='df1의 컬럼', right_on='df2의 컬럼') on : 양쪽의 컬럼명이 다른 경우
# how = 'inner' : 교집합, 'left:df1 + 교집합', 'right':df2 + 교집합
# 'outer' : 합집합
# 데이터프레임.join(데이터프레임)
# 데이터프레임에 index가 설정되어 있어야 함
df1 = pd.read_excel('./dataset/stock_price.xlsx', index_col='id')
df2 = pd.read_excel('./dataset/stock_valuation.xlsx', index_col='id')

df3 = df1.join(df2, how='inner') # how = 'inner'
df3

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [123]:
# 그룹 연산
titanic = sns.load_dataset('titanic')

In [134]:
# 1. 그룹만들기
# 2. 그룹별 함수 적용
# 3. 통합한 자료 출력

# 그룹 만들기 : df.groupby(기준이 되는 컬럼명) : 그룹이 여러개면 [,..]
print("승객수: ", len(titanic))
# 선실의 레벨(class)별로 승객수를 산출
grouped = titanic.groupby('class')
grouped.head()

# 각 그룹별 자료를 출력
for key, group in grouped:
    print('key : ', key); print()
    print('group의 승객 수 : ', len(group)); print()
    print(group.head(3));print()

승객수:  891
key :  First

group의 승객 수 :  216

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
1         1       1  female  38.0      1      0  71.2833        C  First   
3         1       1  female  35.0      1      0  53.1000        S  First   
6         0       1    male  54.0      0      0  51.8625        S  First   

     who  adult_male deck  embark_town alive  alone  
1  woman       False    C    Cherbourg   yes  False  
3  woman       False    C  Southampton   yes  False  
6    man        True    E  Southampton    no   True  

key :  Second

group의 승객 수 :  184

    survived  pclass     sex   age  sibsp  parch     fare embarked   class  \
9          1       2  female  14.0      1      0  30.0708        C  Second   
15         1       2  female  55.0      0      0  16.0000        S  Second   
17         1       2    male   NaN      0      0  13.0000        S  Second   

      who  adult_male deck  embark_town alive  alone  
9   child       False  NaN    C

In [140]:
# ['survivied', 'age', 'sex', 'class', 'fare'] : 컬럼만 분리
df = titanic.loc[:, ['age',  'sex', 'class', 'fare', 'survived']]

# class를 기준으로 분할
grouped = df.groupby('class')

for key, group in grouped:
    print("key : {}, 승객수: {}".format(key, len(group)))
    print(group.head()); print()

key : First, 승객수: 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1

key : Second, 승객수: 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1

key : Third, 승객수: 491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0



In [144]:
# 그룹별로 매서드 적용
avg = grouped.mean()
print(avg)

# 그룹 중 한 그룹을 선택하기 : groupped.get_group('키')
group1 = grouped.get_group('First')
group2 = grouped.get_group('Second')
group3 = grouped.get_group('Third')
print(group1, group2, group3)

              age       fare  survived
class                                 
First   38.233441  84.154687  0.629630
Second  29.877630  20.662183  0.472826
Third   25.140620  13.675550  0.242363
      age     sex  class     fare  survived
1    38.0  female  First  71.2833         1
3    35.0  female  First  53.1000         1
6    54.0    male  First  51.8625         0
11   58.0  female  First  26.5500         1
23   28.0    male  First  35.5000         1
..    ...     ...    ...      ...       ...
871  47.0  female  First  52.5542         1
872  33.0    male  First   5.0000         0
879  56.0  female  First  83.1583         1
887  19.0  female  First  30.0000         1
889  26.0    male  First  30.0000         1

[216 rows x 5 columns]       age     sex   class     fare  survived
9    14.0  female  Second  30.0708         1
15   55.0  female  Second  16.0000         1
17    NaN    male  Second  13.0000         1
20   35.0    male  Second  26.0000         0
21   34.0    male  Second  1

In [149]:

df = titanic.loc[:, ['age',  'sex', 'class', 'fare', 'survived']]
# 그룹을 class, sex로 그룹을 지어
group1 = df.groupby(['class', 'sex'])

# 각 그룹의 키와 그룹의 인원수, 그룹의 자료를 출력
for key, group in group1:
    print("key : {}, {}명".format(key, len(group)))
    print(group.head()); print()
    
# First, male의 그룹 자료만 추울
group_fm = group1.get_group(('First', 'male'))
print(group_fm)
# 각 그룹별 가장 큰 값을 출력 -> age가 가장 큰 값
max_values = group1.max()
print(max_values)
group1.max().age

key : ('First', 'female'), 94명
     age     sex  class      fare  survived
1   38.0  female  First   71.2833         1
3   35.0  female  First   53.1000         1
11  58.0  female  First   26.5500         1
31   NaN  female  First  146.5208         1
52  49.0  female  First   76.7292         1

key : ('First', 'male'), 122명
     age   sex  class      fare  survived
6   54.0  male  First   51.8625         0
23  28.0  male  First   35.5000         1
27  19.0  male  First  263.0000         0
30  40.0  male  First   27.7208         0
34  28.0  male  First   82.1708         0

key : ('Second', 'female'), 76명
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
41  27.0  female  Second  21.0000         0
43   3.0  female  Second  41.5792         1
53  29.0  female  Second  26.0000         1

key : ('Second', 'male'), 108명
     age   sex   class  fare  survived
17   NaN  male  Second  13.0         1
20  35.0  male 

class   sex   
First   female    63.0
        male      80.0
Second  female    57.0
        male      70.0
Third   female    63.0
        male      74.0
Name: age, dtype: float64

In [157]:
# class로 그룹을 지어 fare 컬럼만 std() 표준변차 구함
grouped = df.groupby('class')
print(grouped.fare.std())

# 모든 그룹에 함수 적용 후(3회 실행) 후, 1건 추출이기 때문에 효율은 안 좋은 방법
grouped.std().fare



class
First     78.380373
Second    13.417399
Third     11.778142
Name: fare, dtype: float64


class
First     78.380373
Second    13.417399
Third     11.778142
Name: fare, dtype: float64

In [166]:
# 집계연산을 처리 -> 사용자 함수를 그룹 객체에 적용
# group 객체.agg(매핑 함수)
df = titanic.loc[:, ['age', 'class', 'fare', 'survived']]
grouped = df.groupby(['class'])
def max_min(x):
    return x.max() - x.min()
# grouped 객체에 max_min 함수를 적용
print(grouped.agg(max_min))

# 모든 열에 여러 함수를 매핑 : 그룹객체.agg([함수1, 함수2, ...])
# 각 열에 다른 함수를 매핑 : 그룹객체.agg({열1:함수1, 열2:함수2, ...})
agg_all = grouped.agg(['max', 'min'])
print(agg_all)

agg_sep = grouped.agg({'age':'mean', 'fare':['min', 'max']})
print(agg_sep)

          age      fare  survived
class                            
First   79.08  512.3292         1
Second  69.33   73.5000         1
Third   73.58   69.5500         1
         age            fare      survived    
         max   min       max  min      max min
class                                         
First   80.0  0.92  512.3292  0.0        1   0
Second  70.0  0.67   73.5000  0.0        1   0
Third   74.0  0.42   69.5500  0.0        1   0
              age fare          
             mean  min       max
class                           
First   38.233441  0.0  512.3292
Second  29.877630  0.0   73.5000
Third   25.140620  0.0   69.5500


In [179]:
# 그룹객체 transform(맵핑함수): 각 그룹의 행에 대한 연산
age_mean = grouped.age.mean() # age 컬럼의 평균
print(age_mean.loc['First']) # 그룹의 key가 인덱스로 설정되어 있다.
print(age_mean); print() # 그룹의 전체 평균

# 표준편차
age_std = grouped.age.std() # 그룹별 'age'컬럼의 표준편차
print(age_std); print()

# 그룹 객체의 age 컬럼에 대해 z=score 계산하여 출력
# z-점수는 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 보여줍니다.
# 양의 z-점수는 측정값이 평균보다 높음을 의미하고.
# 음의 z-점수는 측정값이 평균보다 낮음을 의미합니다.
# 0에 가까운 z-점수는 측정값이 평균과 비슷함을 의미합니다.
# 사용 사례에서는 http://tableauwiki.com/tableau_chart_using_z-score/ 를 참조
for key, group in grouped.age:
    group_zscore = (group - age_mean.loc[key]) / age_std.loc[key]
    print(' origin: ', key)
    print(group.head(3)); print()
    print(group_zscore.head(3)); print()
    
def z_score(x):
    return ((x- x.mean()) / x.std())

age_zscore = grouped.age.transform(z_score)
age_zscore.loc[0:9]

38.233440860215055
class
First     38.233441
Second    29.877630
Third     25.140620
Name: age, dtype: float64

class
First     14.802856
Second    14.001077
Third     12.495398
Name: age, dtype: float64

 origin:  First
1    38.0
3    35.0
6    54.0
Name: age, dtype: float64

1   -0.015770
3   -0.218434
6    1.065103
Name: age, dtype: float64

 origin:  Second
9     14.0
15    55.0
17     NaN
Name: age, dtype: float64

9    -1.134029
15    1.794317
17         NaN
Name: age, dtype: float64

 origin:  Third
0    22.0
2    26.0
4    35.0
Name: age, dtype: float64

0   -0.251342
2    0.068776
4    0.789041
Name: age, dtype: float64



0   -0.251342
1   -0.015770
2    0.068776
3   -0.218434
4    0.789041
5         NaN
6    1.065103
7   -1.851931
8    0.148805
9   -1.134029
Name: age, dtype: float64

In [181]:
# 그룹 객체 필터링 : 그룹객체.fillter(조건식 함수)
# class로 그룹을 지은 후, 그룹별 데이터의 개수가 200 이상인 그룹만 추출
grouped_filter = grouped.filter(lambda x: len(x) >= 200)
print(grouped_filter)

grouped_filter['class'].unique()

      age  class     fare  survived
0    22.0  Third   7.2500         0
1    38.0  First  71.2833         1
2    26.0  Third   7.9250         1
3    35.0  First  53.1000         1
4    35.0  Third   8.0500         0
..    ...    ...      ...       ...
885  39.0  Third  29.1250         0
887  19.0  First  30.0000         1
888   NaN  Third  23.4500         0
889  26.0  First  30.0000         1
890  32.0  Third   7.7500         0

[707 rows x 4 columns]


['Third', 'First']
Categories (3, object): ['First', 'Second', 'Third']

In [183]:
# 'age' 컬럼의 평균값이 30ㅔ보다 적은 그룹만 선택
age_filter = grouped.filter(lambda x: x.age.mean() < 30)
age_filter['class'].unique()

['Third', 'Second']
Categories (3, object): ['First', 'Second', 'Third']

In [184]:
# 그룹 객체에 함수 매핑 : 그룹객체.apply(매핑함수)
agg_grouped = grouped.apply(lambda x: x.describe())
agg_grouped

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,count,186.0,216.0,216.0
First,mean,38.233441,84.154687,0.62963
First,std,14.802856,78.380373,0.484026
First,min,0.92,0.0,0.0
First,25%,27.0,30.92395,0.0
First,50%,37.0,60.2875,1.0
First,75%,49.0,93.5,1.0
First,max,80.0,512.3292,1.0
Second,count,173.0,184.0,184.0
Second,mean,29.87763,20.662183,0.472826


In [185]:
# 그룹함수, min(), max(), std(), var(), mean(), describe()
# grouped = df.groupby(컬럼명)
# grouped.그룹함수()
# grouped.컬럼.그룹함수()
# grouped.agg([함수1, ...])
# grouped.agg( {컬럼:함수, ...})
# grouped.컬럼명.transform(매핑함수)
# grouped.filter(조건식 함수)
# grouped.apply(함수 매핑)

In [189]:
# 복습
# class와 sex 컬럼으로 그룹을 지어 데이터를 가져옴
df = titanic.loc[:, ['age', 'class', 'sex', 'fare', 'survived']]
grouped = df.groupby(['class', 'sex'])
gdf = grouped.mean()
gdf

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


In [199]:
# 멀티 인덱스로 자료를 선택
print(type(gdf), gdf.index)

# First, male의 자료만 검색
print(gdf.loc[('First', 'male')])

# df.xs() 함수를 활용하여 데이터 선택 (xs는 aixs가 어원으로 나온 함수명)
# 처음 인덱스가 아닌, 다른 인덱스를 활용하여 데이터 검색
print(gdf.xs('male', level='sex'))

<class 'pandas.core.frame.DataFrame'> MultiIndex([( 'First', 'female'),
            ( 'First',   'male'),
            ('Second', 'female'),
            ('Second',   'male'),
            ( 'Third', 'female'),
            ( 'Third',   'male')],
           names=['class', 'sex'])
age         41.281386
fare        67.226127
survived     0.368852
Name: (First, male), dtype: float64
              age       fare  survived
class                                 
First   41.281386  67.226127  0.368852
Second  30.740707  19.741782  0.157407
Third   26.507589  12.661633  0.135447


In [205]:
pdf1 = pd.pivot_table(df,
                     index='class',  # 행 위치에 들어갈 컬럼
                     columns ='sex', # 열 위치에
                     values='age',   # 데이터로 사용할 컬럼
                     aggfunc='mean'  # 값에 사용할 함수
                     )
pdf1


Unnamed: 0_level_0,mean,mean,mean,mean,sum,sum,sum,sum
Unnamed: 0_level_1,age,age,fare,fare,age,age,fare,fare
sex,female,male,female,male,female,male,female,male
class,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
First,34.611765,41.281386,106.125798,67.226127,2942.0,4169.42,9975.825,8201.5875
Second,28.722973,30.740707,21.970121,19.741782,2125.5,3043.33,1669.7292,2132.1125
Third,21.75,26.507589,16.11881,12.661633,2218.5,6706.42,2321.1086,4393.5865


In [206]:
# columns : 'age', 'fare'
# aggfunc : mean, sum

pdf2= pd.pivot_table(df,
                    index='class',
                    columns='sex',
                    values=['age', 'fare'],
                    aggfunc=['mean', 'sum']
                    )
pdf2

Unnamed: 0_level_0,mean,mean,mean,mean,sum,sum,sum,sum
Unnamed: 0_level_1,age,age,fare,fare,age,age,fare,fare
sex,female,male,female,male,female,male,female,male
class,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
First,34.611765,41.281386,106.125798,67.226127,2942.0,4169.42,9975.825,8201.5875
Second,28.722973,30.740707,21.970121,19.741782,2125.5,3043.33,1669.7292,2132.1125
Third,21.75,26.507589,16.11881,12.661633,2218.5,6706.42,2321.1086,4393.5865


In [210]:
pdf3= pd.pivot_table(df,
                    index=['class', 'sex'],
                    columns='survived',
                    values=['age', 'fare'],
                    aggfunc=['mean', 'sum']
                    )
print(pdf3)
print(pdf3.xs('mean', axis=1)) # mean 부분만 가져오기

                    mean                                        sum           \
                     age                   fare                 age            
survived               0          1           0           1       0        1   
class  sex                                                                     
First  female  25.666667  34.939024  110.604167  105.978159    77.0  2865.00   
       male    44.581967  36.248000   62.894910   74.637320  2719.5  1449.92   
Second female  36.000000  28.080882   18.250000   22.288989   216.0  1909.50   
       male    33.369048  16.022000   19.488965   21.095100  2803.0   240.33   
Third  female  23.818182  19.329787   19.773093   12.464526  1310.0   908.50   
       male    27.255814  22.274211   12.204469   15.579696  5860.0   846.42   

                                     
                    fare             
survived               0          1  
class  sex                           
First  female   331.8125  9644.0125  
       ma

In [212]:
print(pdf3.xs(('Second', 'male'), level=[0,'sex'])) 
print(pdf3.xs(('mean', 'age'), axis=1)) 

                  mean                                 sum                     \
                   age               fare              age               fare   
survived             0       1          0        1       0       1          0   
class  sex                                                                      
Second male  33.369048  16.022  19.488965  21.0951  2803.0  240.33  1773.4958   

                       
                       
survived            1  
class  sex             
Second male  358.6167  
survived               0          1
class  sex                         
First  female  25.666667  34.939024
       male    44.581967  36.248000
Second female  36.000000  28.080882
       male    33.369048  16.022000
Third  female  23.818182  19.329787
       male    27.255814  22.274211
