### Pandas
    - 데이터 분석을 위한 사용이 쉽고 성능이 좋은 오픈소스 python 라이브러리
    - R과 Pandas의 특징
        - R보다 Pandas가 학습이 쉽다.
        - R보다 Pandas가 성능이 좋다.
        - R보다 python은 활용할 수 있는 분야가 많다.
    - 크게 두가지 데이터 타입을 사용
        - Series : index와 value로 이루어진 데이터 타입
        - DataFrame : index, column, value로 이루어진 데이터 타입

### 1. Series
   - 동일한 데이터 타입의 값을 갖는다.

In [14]:
# Series : value만 설정하면 index는 0부터 자동으로 설정됨
data = pd.Series(np.random.randint(10, size=5))
data

0    9
1    3
2    1
3    1
4    4
dtype: int32

In [16]:
# index 설정
data = pd.Series(np.random.randint(10, size=5),
                index = list('ABCDE'))

data

A    0
B    2
C    2
D    4
E    0
dtype: int32

In [17]:
# index, value 확인

data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([0, 2, 2, 4, 0]))

In [18]:
# 인덱싱

data['B']

2

In [19]:
data['C'] = 999
data

A      0
B      2
C    999
D      4
E      0
dtype: int32

In [20]:
# 브로드캐스팅

data * 10

A       0
B      20
C    9990
D      40
E       0
dtype: int32

In [21]:
# offset index

data[2::2]

C    999
E      0
dtype: int32

In [22]:
data[::-1]

E      0
D      4
C    999
B      2
A      0
dtype: int32

In [23]:
data2 = pd.Series({'D':3, 'E':5, 'F':7})
data2

D    3
E    5
F    7
dtype: int64

In [25]:
# index가 맞지 않는 value는 Null 반환

result = data + data2
result

A    NaN
B    NaN
C    NaN
D    7.0
E    5.0
F    NaN
dtype: float64

In [26]:
result[result.isnull()] = data
result

A      0.0
B      2.0
C    999.0
D      7.0
E      5.0
F      NaN
dtype: float64

In [27]:
result[result.isnull()]

F   NaN
dtype: float64

In [28]:
result[result.isnull()] = data2
result

A      0.0
B      2.0
C    999.0
D      7.0
E      5.0
F      7.0
dtype: float64

### 2. DataFrame
   - 데이터 프레임은 복수의 Series로 구성
   - 같은 컬럼에 있는 value 값은 같은 데이터 타입을 갖는다.

In [30]:
# 데이터 프레임 생성1 : 딕셔너리의 리스트

datas = {
    'name':['kim', 'john', 'james'],
    'email':['kim@gmail.com', 'john@.yahoo.co.kr', 'james@naver.com']
}

pd.DataFrame(datas)

Unnamed: 0,name,email
0,kim,kim@gmail.com
1,john,john@.yahoo.co.kr
2,james,james@naver.com


In [32]:
# 데이터 프레임 생성2 : 리스트의 딕셔너리

datas = [
    {'name':'kim', 'email':'kim@gmail.com'},
    {'name':'john', 'email' :'john@.yahoo.co.kr'},
    {'name':'james', 'email' :'james@naver.com'},
]

pd.DataFrame(datas)

Unnamed: 0,name,email
0,kim,kim@gmail.com
1,john,john@.yahoo.co.kr
2,james,james@naver.com


In [36]:
# 인덱스를 추가하는 방법

df = pd.DataFrame(datas, index=['one', 'two', 'three'])
df

Unnamed: 0,name,email
one,kim,kim@gmail.com
two,john,john@.yahoo.co.kr
three,james,james@naver.com


In [38]:
# DF의 index, columns, values

df.index, df.columns, df.values

(Index(['one', 'two', 'three'], dtype='object'),
 Index(['name', 'email'], dtype='object'),
 array([['kim', 'kim@gmail.com'],
        ['john', 'john@.yahoo.co.kr'],
        ['james', 'james@naver.com']], dtype=object))

In [39]:
# 데이터 프레임에서 데이터의 선택 : row, column, (row, column)

In [82]:
# row 선택

datas = {
    'name':['kim', 'john', 'james'],
    'email':['kim@gmail.com', 'john@yahoo.co.kr', 'james@naver.com']
}

df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,kim,kim@gmail.com
1,john,john@yahoo.co.kr
2,james,james@naver.com


In [44]:
# loc

df.loc[1]['email']

'john@.yahoo.co.kr'

In [46]:
# index가 있으면 수정, 없으면 추가
# loc를 이용한 row 추가

df.loc[3] = {'name':'andy', 'email':'andy@daum.net'}
df

Unnamed: 0,name,email
0,kim,kim@gmail.com
1,john,john@.yahoo.co.kr
2,james,james@naver.com
3,andy,andy@daum.net


In [47]:
df['name']

0      kim
1     john
2    james
3     andy
Name: name, dtype: object

In [48]:
df['id'] = ''
df

Unnamed: 0,name,email,id
0,kim,kim@gmail.com,
1,john,john@.yahoo.co.kr,
2,james,james@naver.com,
3,andy,andy@daum.net,


In [50]:
df['id'] = range(1, 5)
df

Unnamed: 0,name,email,id
0,kim,kim@gmail.com,1
1,john,john@.yahoo.co.kr,2
2,james,james@naver.com,3
3,andy,andy@daum.net,4


In [51]:
df.dtypes

name     object
email    object
id        int32
dtype: object

In [58]:
# row, column 선택

df.loc[[0, 2],['email', 'id']]

Unnamed: 0,email,id
0,kim@gmail.com,1
2,james@naver.com,3


In [62]:
# 동일한 결과

df.loc[[0, 2]][['id', 'email']]

Unnamed: 0,id,email
0,1,kim@gmail.com
2,3,james@naver.com


In [64]:
# 컬럼 데이터 순서 설정

df[['id', 'email', 'name']]

Unnamed: 0,id,email,name
0,1,kim@gmail.com,kim
1,2,john@.yahoo.co.kr,john
2,3,james@naver.com,james
3,4,andy@daum.net,andy


In [65]:
# 일부 데이터 확인

df.head()

Unnamed: 0,name,email,id
0,kim,kim@gmail.com,1
1,john,john@.yahoo.co.kr,2
2,james,james@naver.com,3
3,andy,andy@daum.net,4


In [66]:
df.tail()

Unnamed: 0,name,email,id
0,kim,kim@gmail.com,1
1,john,john@.yahoo.co.kr,2
2,james,james@naver.com,3
3,andy,andy@daum.net,4


### 3.apply 함수
- map 함수와 비슷

In [83]:
df

Unnamed: 0,name,email
0,kim,kim@gmail.com
1,john,john@yahoo.co.kr
2,james,james@naver.com


In [84]:
# email 컬럼에서 메일의 도메인만 가져와서 새로운 domain 컬럼을 생성

def domain(email):
    return email.split('@')[1].split('.')[0]

domain(df.loc[0]['email'])

'gmail'

In [85]:
df['email'].apply(domain)

0    gmail
1    yahoo
2    naver
Name: email, dtype: object

In [86]:
df['domain'] = df['email'].apply(domain)
df

Unnamed: 0,name,email,domain
0,kim,kim@gmail.com,gmail
1,john,john@yahoo.co.kr,yahoo
2,james,james@naver.com,naver


In [88]:
# lambda 사용 예시

df['domain'] = df['email'].apply(lambda email:email.split('@')[1].split('.')[0])
df

Unnamed: 0,name,email,domain
0,kim,kim@gmail.com,gmail
1,john,john@yahoo.co.kr,yahoo
2,james,james@naver.com,naver


In [90]:
# 예제용 makedata.py 메소드 사용

from makedata import *

In [92]:
get_name()

'Billy'

In [93]:
get_age()

22

In [94]:
make_data()

[{'Age': 25, 'Name': 'Jin'},
 {'Age': 27, 'Name': 'Arnold'},
 {'Age': 33, 'Name': 'Alex'},
 {'Age': 40, 'Name': 'Anchal'},
 {'Age': 30, 'Name': 'Billy'},
 {'Age': 30, 'Name': 'Alvin'},
 {'Age': 37, 'Name': 'Arnold'},
 {'Age': 40, 'Name': 'Alex'},
 {'Age': 36, 'Name': 'Arnold'},
 {'Age': 32, 'Name': 'Jin'}]

In [96]:
df1 = pd.DataFrame(make_data(5))
df2 = pd.DataFrame(make_data(5))

In [102]:
# append 데이터 프레임 합치기

df3 = df1.append(df2)
df3

Unnamed: 0,Age,Name
0,37,Adam
1,22,Arnold
2,27,Billy
3,32,Alvin
4,28,Alan
0,31,Adam
1,36,Alvin
2,39,Alvin
3,26,Jin
4,38,Jin


In [105]:
# reset_index 인덱스 재정렬
# drop=True를 지정해 index가 컬럼으로 추가되는 것을 방지

df3.reset_index(drop=True, inplace=True)
df3

Unnamed: 0,Age,Name
0,37,Adam
1,22,Arnold
2,27,Billy
3,32,Alvin
4,28,Alan
5,31,Adam
6,36,Alvin
7,39,Alvin
8,26,Jin
9,38,Jin


In [107]:
# append시 ignore_index를 지정하면 된다.

df1.append(df2, ignore_index=True)

Unnamed: 0,Age,Name
0,37,Adam
1,22,Arnold
2,27,Billy
3,32,Alvin
4,28,Alan
5,31,Adam
6,36,Alvin
7,39,Alvin
8,26,Jin
9,38,Jin


### 5. concat
- row나 column으로 데이터 프레임을 합칠 때 사용


In [108]:
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,Age,Name
0,37,Adam
1,22,Arnold
2,27,Billy
3,32,Alvin
4,28,Alan
0,31,Adam
1,36,Alvin
2,39,Alvin
3,26,Jin
4,38,Jin


In [109]:
# reset_index

df3 = pd.concat([df1, df2]).reset_index(drop=True)
df3

Unnamed: 0,Age,Name
0,37,Adam
1,22,Arnold
2,27,Billy
3,32,Alvin
4,28,Alan
5,31,Adam
6,36,Alvin
7,39,Alvin
8,26,Jin
9,38,Jin


In [110]:
# 가로로 합치기
# 디폴트로 outer join 수행

pd.concat([df3, df1], axis=1)

Unnamed: 0,Age,Name,Age.1,Name.1
0,37,Adam,37.0,Adam
1,22,Arnold,22.0,Arnold
2,27,Billy,27.0,Billy
3,32,Alvin,32.0,Alvin
4,28,Alan,28.0,Alan
5,31,Adam,,
6,36,Alvin,,
7,39,Alvin,,
8,26,Jin,,
9,38,Jin,,


In [111]:
# join을 교집합으로 지정
# df3, df1에서 공통으로 가진 index에 대해서만 데이터 병합을 수행

pd.concat([df3, df1], axis=1, join = 'inner')

Unnamed: 0,Age,Name,Age.1,Name.1
0,37,Adam,37,Adam
1,22,Arnold,22,Arnold
2,27,Billy,27,Billy
3,32,Alvin,32,Alvin
4,28,Alan,28,Alan


### 6. group by
   - 특정 컬럼의 중복되는 데이터를 합쳐 새로운 데이터 프레임을 만드는 방법

In [112]:
df = pd.DataFrame(make_data())

In [113]:
df

Unnamed: 0,Age,Name
0,35,Arnold
1,35,Alan
2,29,Anchal
3,37,Adam
4,36,Jin
5,40,Alan
6,28,Alvin
7,20,Jin
8,34,Jin
9,20,Alvin


In [119]:
# size

df.groupby('Name').size()

Name
Adam      1
Alan      2
Alvin     2
Anchal    1
Arnold    1
Jin       3
dtype: int64

In [120]:
# reset_index를 이용해 count라는 컬럼 생성

df.groupby('Name').size().reset_index(name='count')

Unnamed: 0,Name,count
0,Adam,1
1,Alan,2
2,Alvin,2
3,Anchal,1
4,Arnold,1
5,Jin,3


In [149]:
# sort_values : 설정한 컬럼으로 데이터프레임을 정렬

result = df.groupby('Name').size().reset_index(name='count')

# 오름차순 정렬

result.sort_values(['count'])

Unnamed: 0,Name,count
0,Adam,1
3,Anchal,1
4,Arnold,1
1,Alan,2
2,Alvin,2
5,Jin,3


In [122]:
# 내림차순 정렬

result.sort_values(['count'], ascending=False)

Unnamed: 0,Name,count
5,Jin,3
1,Alan,2
2,Alvin,2
0,Adam,1
3,Anchal,1
4,Arnold,1


In [125]:
# agg
# size(), min(), max(), mean()

df.groupby('Name').min().reset_index()

Unnamed: 0,Name,Age
0,Adam,37
1,Alan,35
2,Alvin,20
3,Anchal,29
4,Arnold,35
5,Jin,20


In [126]:
# 데이터 요약 함수

df.describe()

Unnamed: 0,Age
count,10.0
mean,31.4
std,6.963396
min,20.0
25%,28.25
50%,34.5
75%,35.75
max,40.0


### 7. Merge = sql join
- 두개 이상의 데이터프레임을 합쳐 결과를 출력하는 방법

In [131]:
df1 = pd.DataFrame({'key' : list('bbacaab'),
                   'data1':range(7)})
df2 = pd.DataFrame({'key' : list('abd'),
                   'data1':range(3)})

In [132]:
# on 파라미터
# 공통되는 key값을 가진 데이터를 join
# c, d 키값은 공통되지 않아 생략된

pd.merge(df1, df2, on='key')

Unnamed: 0,key,data1_x,data1_y
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


In [133]:
# how 파라미터
# 위의 경우 inner join으로 c, d 키값이 생략
# outer 조인 진행 시 c, d 키값도 출력

pd.merge(df1, df2, on='key', how='outer')

Unnamed: 0,key,data1_x,data1_y
0,b,0.0,1.0
1,b,1.0,1.0
2,b,6.0,1.0
3,a,2.0,0.0
4,a,4.0,0.0
5,a,5.0,0.0
6,c,3.0,
7,d,,2.0


In [134]:
df1 = pd.DataFrame({'lkey' : list('bbacaab'),
                   'data1':range(7)})
df2 = pd.DataFrame({'rkey' : list('abd'),
                   'data1':range(3)})

In [136]:
# df1의 lkey와 df2의 rkey를 기준으로 값이 같은 것들끼리 카테시안 곱 조합으로 join

pd.merge(df1, df2, left_on='lkey', right_on='rkey')

Unnamed: 0,lkey,data1_x,rkey,data1_y
0,b,0,b,1
1,b,1,b,1
2,b,6,b,1
3,a,2,a,0
4,a,4,a,0
5,a,5,a,0


### quiz
   - makedata 모듈을 이용해 데이터 프레임 생성
   - user_df
       - 8명의 데이터가 있는 데이터프레임을 생성
       - UserID : 1 ~ 8
       - Name : makedata.get_name()
       - Age : makedata.get_age()
       - 중복되는 Name 값이 없도록

In [260]:
# 딕셔너리의 리스트 : UserID, NAME, Age

datas = {}
datas['UserID'] = list(range(1, 9))
datas['Age'] = [makedata.get_age() for _ in range(8)]

names = []
while True:
    name = makedata.get_name()
    names.append(name)
    if len(names) >= 8:
        break
datas['Name'] = names


user_df = pd.DataFrame(datas)
user_df

Unnamed: 0,UserID,Age,Name
0,1,25,Arnold
1,2,31,Alan
2,3,34,Adam
3,4,35,Adam
4,5,33,Adam
5,6,30,Anthony
6,7,32,Anthony
7,8,30,Alan


In [286]:
# 리스트의 딕셔너리 : UserID, Name, Age
user_df = pd.DataFrame(columns=['UserID', 'Name', 'Age'])

for idx in range(1, 9):
    name = makedata.get_name()
    
    while name in list(user_df['Name']):
        name = makedata.get_name()
        
    data = {'Name':name, 'UserID':idx, 'Age':makedata.get_age()}
    user_df.loc[len(user_df)] = data
    
user_df

Unnamed: 0,UserID,Name,Age
0,1,Andrew,21
1,2,Jin,39
2,3,Arnold,21
3,4,Adam,28
4,5,Alan,25
5,6,Alvin,37
6,7,Billy,37
7,8,Anchal,33


### quiz
- money_df 만들기
    - 15개 데이터
    - ID : 1 ~ 8 랜덤한 숫자 데이터
    - Money : 1000원 단위로 1000원 ~ 20000원까지의 숫자가 저장
        

In [269]:
# 딕셔너리 데이터를 데이터 프레임에 하나씩 추가하기
money_df = pd.DataFrame(columns = ['ID', 'Money'])

for i in range(15):
    money_df.loc[len(money_df)] = {
        'ID':np.random.randint(1, 9),
        'Money': np.random.randint(1, 21) * 1000,
    }
ids = money_df['ID'].unique()
ids.sort()
ids

array([1, 3, 4, 5, 7, 8], dtype=object)

In [271]:
money_df.head()

Unnamed: 0,ID,Money
0,7,18000
1,8,20000
2,1,1000
3,8,3000
4,3,1000


In [272]:
user_df.head()

Unnamed: 0,UserID,Name,Age
0,1,Jin,22
1,2,Andrew,28
2,3,Alvin,24
3,4,Alex,24
4,5,Anchal,37


### 1. merge

In [287]:
merged = user_df.merge(money_df, left_on = 'UserID', right_on = 'ID')
merged

Unnamed: 0,UserID,Name,Age,ID,Money
0,1,Andrew,21,1,1000
1,1,Andrew,21,1,8000
2,3,Arnold,21,3,1000
3,3,Arnold,21,3,5000
4,4,Adam,28,4,4000
5,4,Adam,28,4,4000
6,5,Alan,25,5,18000
7,7,Billy,37,7,18000
8,7,Billy,37,7,20000
9,7,Billy,37,7,17000


In [288]:
# 컬럼명 변경

user_df.rename(columns={'UserID':'ID'}, inplace=True)
user_df.tail()

Unnamed: 0,ID,Name,Age
3,4,Adam,28
4,5,Alan,25
5,6,Alvin,37
6,7,Billy,37
7,8,Anchal,33


In [291]:
# 데이터프레임 객체의 merge 함수

user_df.merge(money_df).tail(2)

Unnamed: 0,ID,Name,Age,Money
13,8,Anchal,33,3000
14,8,Anchal,33,9000


In [292]:
# 판다스 모듈의 merge 함수

result_df = pd.merge(money_df, user_df)
result_df.tail()

Unnamed: 0,ID,Money,Name,Age
10,3,1000,Arnold,21
11,3,5000,Arnold,21
12,4,4000,Adam,28
13,4,4000,Adam,28
14,5,18000,Alan,25


In [296]:
# grouby : sum, size, min ... : 결과 데이터는 Series
money_list = result_df.groupby('Name').sum()['Money'].reset_index()
money_list

Unnamed: 0,Name,Money
0,Adam,8000
1,Alan,18000
2,Anchal,32000
3,Andrew,9000
4,Arnold,6000
5,Billy,86000


In [299]:
# groupby : agg('sum'), agg('mean') ... : DataFrame
money_list = result_df.groupby('Name').agg('sum').reset_index()[['Name', 'Money']]
money_list

Unnamed: 0,Name,Money
0,Adam,8000
1,Alan,18000
2,Anchal,32000
3,Andrew,9000
4,Arnold,6000
5,Billy,86000


In [300]:
# merge : money_list, user_df : outer

result_df = pd.merge(user_df, money_list, how='outer')
result_df

Unnamed: 0,ID,Name,Age,Money
0,1,Andrew,21,9000.0
1,2,Jin,39,
2,3,Arnold,21,6000.0
3,4,Adam,28,8000.0
4,5,Alan,25,18000.0
5,6,Alvin,37,
6,7,Billy,37,86000.0
7,8,Anchal,33,32000.0


In [302]:
# Nan 값을 0으로 채워주기

result_df.fillna(0, inplace=True)
result_df

Unnamed: 0,ID,Name,Age,Money
0,1,Andrew,21,9000.0
1,2,Jin,39,0.0
2,3,Arnold,21,6000.0
3,4,Adam,28,8000.0
4,5,Alan,25,18000.0
5,6,Alvin,37,0.0
6,7,Billy,37,86000.0
7,8,Anchal,33,32000.0


In [307]:
# money 컬럼을 정수 데이터 타입으로 변경

result_df.dtypes

ID         int64
Name      object
Age        int64
Money    float64
dtype: object

In [309]:
result_df['Money'] = result_df['Money'].astype('int')
result_df.dtypes

ID        int64
Name     object
Age       int64
Money     int32
dtype: object

In [310]:
result_df

Unnamed: 0,ID,Name,Age,Money
0,1,Andrew,21,9000
1,2,Jin,39,0
2,3,Arnold,21,6000
3,4,Adam,28,8000
4,5,Alan,25,18000
5,6,Alvin,37,0
6,7,Billy,37,86000
7,8,Anchal,33,32000


In [312]:
# sorting

result_df.sort_values('Money', ascending=False)

Unnamed: 0,ID,Name,Age,Money
6,7,Billy,37,86000
7,8,Anchal,33,32000
4,5,Alan,25,18000
0,1,Andrew,21,9000
3,4,Adam,28,8000
2,3,Arnold,21,6000
1,2,Jin,39,0
5,6,Alvin,37,0


### Pandas Pivot
- 데이터 프레임의 컬럼 데이터에서 index, column, value를 선택해서 데이터 프레임을 만드는 방법
- `df.pivot(index, columns, values)`
    - groupby를 하고 pivot
- `df.pivot_table(values, index, columns, aggfunc)`

### pandas io
- 데이터 프레임을 저장, 로드

In [317]:
# load

titanic = pd.read_csv('./datas/train.csv')
titanic.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [None]:
# sace

titanic.to_csv('datas/titanic.tsv', sep='\t', index=False)

In [321]:
# load : encoding
df = pd.read_csv('datas/2014_p.csv', encoding='euc-kr')
df.head()

Unnamed: 0,ID,RCTRCK,RACE_DE,RACE_NO,PARTCPT_NO,RANK,RCHOSE_NM,HRSMN,RCORD,ARVL_DFFRNC,EACH_SCTN_PASAGE_RANK,A_WIN_SYTM_EXPECT_ALOT,WIN_STA_EXPECT_ALOT
0,1,부경,2014-01-03,12,6,8.0,프리마돈,설동복,0:02:07.5,머리,8 - 7 - 4 - 5 - 5 - 4 - 4,16.9,4.7
1,2,부경,2014-01-03,8,2,8.0,중앙최강,이성재,0:01:39.1,½,11 - - 11 - 11 - 12 - 10 - 8,30.2,5.1
2,3,부경,2014-01-03,8,1,11.0,맹호소리,김태경,0:01:42.3,5,10 - - 10 - 10 - 11 - 11 - 11,99.8,9.1
3,4,부경,2014-01-03,5,9,1.0,스마트에너지,후지이,0:01:02.0,,8 - - - - 8 - 7 - 2,3.3,1.3
4,5,부경,2014-01-03,4,3,3.0,금포스카이,유현명,0:01:25.5,4,4 - - 3 - 7 - 7 - 4 - 4,3.4,1.2


In [324]:
# 1. 성별, 좌석등급에 따른 데이터의 수

df1 = titanic.groupby(['Sex', 'Pclass']).size().reset_index(name='count')
df1

Unnamed: 0,Sex,Pclass,count
0,female,1,94
1,female,2,76
2,female,3,144
3,male,1,122
4,male,2,108
5,male,3,347


In [326]:
# pivot
result = df1.pivot('Sex', 'Pclass', 'count')
result

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,94,76,144
male,122,108,347


In [328]:
# pivot table 이용

titanic['counts'] = 1
titanic.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,counts
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C,1
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q,1


In [338]:
# pivot_table 함수

result = titanic.pivot_table('counts', 'Pclass', 'Survived', aggfunc = np.sum)
result

Survived,0,1
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80,136
2,97,87
3,372,119


In [339]:
result['total'] = result[0] + result[1]
result

Survived,0,1,total
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80,136,216
2,97,87,184
3,372,119,491


In [340]:
result.loc['total'] = result.loc[1] + result.loc[2] + result.loc[3]
result

Survived,0,1,total
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80,136,216
2,97,87,184
3,372,119,491
total,549,342,891
