# 데이터프레임의 데이터 조작
판다스는 넘파이 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.

## 데이터 갯수 세기

In [1]:
import pandas as pd
import numpy as np

In [2]:
s = pd.Series(range(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [3]:
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [4]:
s.count() # NaN 값은 세지 않음

9

In [5]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [6]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

### titanic data
다음 명령으로 타이타닉호의 승객 데이터를 데이터프레임으로 읽어올 수 있다. 이 명령을 실행하려면 seaborn 패키지가 설치되어 있어야 한다.

In [7]:
import seaborn as sns

In [8]:
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [9]:
print(len(titanic))
titanic.count()

891


survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## 카테고리 값 세기
value_counts: 각각의 값이 나온 횟수를 센다. 시리즈에서만 사용 가능

In [10]:
import numpy as np
import pandas as pd
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [11]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
Name: count, dtype: int64

데이터프레임에는 value_counts 메서드가 없으므로 각 열마다 별도로 적용해야 한다.

In [12]:
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


## 정렬
sort_index 메서드는 인덱스 값을 기준으로, sort_values 메서드는 데이터 값을 기준으로 정렬한다.

In [13]:
s2.value_counts().sort_index() 

0    18
1    22
2    13
3    14
4    17
5    16
Name: count, dtype: int64

In [14]:
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [15]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [16]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

- 데이터프레임에서 sort_values 메서드를 사용하려면 by 인수로 정렬 기준이 되는 열을 지정해 주어야 한다.

In [17]:
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [18]:
df.sort_values(by=2)

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [19]:
df.sort_values(by=[1, 2]) # 정렬 기준의 우선 순위

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


### Quiz. sort_values 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [20]:
titanic[['sex', 'age', 'class', 'alive']]

Unnamed: 0,sex,age,class,alive
0,male,22.0,Third,no
1,female,38.0,First,yes
2,female,26.0,Third,yes
3,female,35.0,First,yes
4,male,35.0,Third,no
...,...,...,...,...
886,male,27.0,Second,no
887,female,19.0,First,yes
888,female,,Third,no
889,male,26.0,First,yes


In [21]:
titanic['sex'].sort_values()

383    female
218    female
609    female
216    female
215    female
        ...  
371      male
372      male
373      male
360      male
890      male
Name: sex, Length: 891, dtype: object

In [22]:
titanic['sex'].sort_values().value_counts()

sex
male      577
female    314
Name: count, dtype: int64

In [23]:
list1 = ['sex', 'age', 'class', 'alive']
for l in list1:
    print(titanic[l].sort_values().value_counts())
    print('='*10)

sex
male      577
female    314
Name: count, dtype: int64
age
24.00    30
22.00    27
18.00    26
30.00    25
28.00    25
         ..
20.50     1
14.50     1
12.00     1
0.92      1
80.00     1
Name: count, Length: 88, dtype: int64
class
Third     491
First     216
Second    184
Name: count, dtype: int64
alive
no     549
yes    342
Name: count, dtype: int64


## 행/열 합계

In [24]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


열 방향 합계를 구할 때는 sum(axis=1) 메서드를 사용한다.

In [25]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [26]:
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


열 합계를 구할 때는 sum(axis=0) 메서드를 사용하는데 axis인수의 디폴트 값이 0이므로 axis인수를 생략할 수 있다.

In [27]:
df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    152
dtype: int64

In [28]:
df2.loc["ColTotal", :] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


### Quiz. 타이타닉호 승객의 평균 나이를 구하라.
타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [29]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [30]:
titanic['age'].mean()

29.69911764705882

In [31]:
titanic[titanic['sex'] == 'female']['age'].mean()

27.915708812260537

In [32]:
titanic[(titanic['class']=='First') & (titanic['sex']=='female')]['age'].mean()

34.61176470588235

## apply 변환
- 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다.
- 인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다.

In [33]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [34]:
df3.apply(lambda x: x.max() - x.min()) # Default ais=0

A    3
B    2
C    4
dtype: int64

In [35]:
df3.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [36]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 value_counts 함수를 넣으면 된다.

df3.apply(pd.value_counts)

### Quiz. 타이타닉호의 승객 중 나이 20살을 기준으로 성인(adult)과 미성년자(child)를 구별하는 라벨 열을 만들어 보자

In [37]:
titanic["adult/child"] = titanic.apply(lambda x: "adult" if x['age'] >= 20 else "child", axis=1)
# titanic["adult/child"] = titanic.apply(lambda r: "adult" if r.age >= 20 else "child", axis=1)

In [38]:
titanic[["age", "adult/child"]].head()

Unnamed: 0,age,adult/child
0,22.0,adult
1,38.0,adult
2,26.0,adult
3,35.0,adult
4,35.0,adult


### Quiz. 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라.
category1 카테고리는 다음과 같이 정의된다.

20살이 넘으면 성별을 그대로 사용한다.
20살 미만이면 성별에 관계없이 "child"라고 한다.

In [39]:
titanic["category1"] = titanic.apply(lambda x: x["sex"] if x["age"] >= 20 else "child", axis=1)
# titanic["category1"] = titanic.apply(lambda r: r.sex if r.age >= 20 else "child", axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


## fillna 메서드
NaN 값은 fillna 메서드를 사용하여 원하는 값으로 바꿀 수 있다.

In [40]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [41]:
df3['A']

0    1
1    3
2    4
3    3
4    4
Name: A, dtype: int64

In [42]:
df3['A'].value_counts()

A
3    2
4    2
1    1
Name: count, dtype: int64

In [43]:
# 각 열의 고유한 값 수를 파악하는 방법
df3.apply(pd.value_counts) # axis=0 열기준

  df3.apply(pd.value_counts) # axis=0 열기준


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [44]:
df3.apply(pd.value_counts).fillna(0.0)

  df3.apply(pd.value_counts).fillna(0.0)


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


### Quiz. 타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [45]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


In [46]:
mean_age = round(titanic["age"].mean())
mean_age

30

In [47]:
titanic["age"] = titanic["age"].fillna(mean_age)
# titanic['age'].fillna(mean_age, inplace=True) #-> 원본에 적용

In [48]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


## astype 메서드

In [49]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [50]:
df3.apply(pd.value_counts).fillna(0)

  df3.apply(pd.value_counts).fillna(0)


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [51]:
df3.apply(pd.value_counts).fillna(0).astype(int)

  df3.apply(pd.value_counts).fillna(0).astype(int)


Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


### Quiz. 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category2 열을 만들어라.
category2 카테고리는 다음과 같이 정의된다.

1. 성별을 나타내는 문자열 male 또는 female로 시작한다.
2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
3. 예를 들어 27살 남성은 male27 값이 된다.

In [52]:
titanic.age = titanic.age.astype(int)
titanic["category2"] = titanic.sex + titanic.age.astype(str)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2
0,0,3,male,22,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22
1,1,1,female,38,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38
2,1,3,female,26,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26
3,1,1,female,35,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35
4,0,3,male,35,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27
887,1,1,female,19,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19
888,0,3,female,30,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female30
889,1,1,male,26,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26


## 실수 값을 카테고리 값으로 변환
실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때
- cut : 실수 값의 경계선을 지정하는 경우
- qcut : 갯수가 똑같은 구간으로 나누는 경우

In [53]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

- cut 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꿀 수 있다.
- bins 인수는 카테고리를 나누는 기준값이 된다. 영역을 넘는 값은 NaN으로 처리된다.

In [54]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [55]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [56]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [57]:
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [58]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [59]:
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)
print(bins)
print(labels)
df4

[1, 20, 30, 50, 70, 100]
['미성년자', '청년', '중년', '장년', '노년']


Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


따라서 위 데이터프레임의 age_cat 열값은 문자열이 아니다. 이를 문자열로 만들려면 astype 메서드를 사용해야 한다.

In [60]:
df4['age_cat']

0      NaN
1     미성년자
2     미성년자
3       청년
4       청년
5       중년
6       중년
7       장년
8     미성년자
9       중년
10      중년
11     NaN
Name: age_cat, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

qcut 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다.    
예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

In [61]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])

In [62]:
pd.value_counts(cats)

  pd.value_counts(cats)


Q1    250
Q2    250
Q3    250
Q4    250
Name: count, dtype: int64

### Quiz. 타이타닉호 승객을 '미성년자', '청년', '중년', '장년', '노년' 나이 그룹으로 나눈다.
```
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.
```

In [63]:
bins = [1, 20, 40, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [64]:
titanic_age_cat = pd.cut(titanic.age, bins, labels=labels)
titanic_age_cat

0        청년
1        청년
2        청년
3        청년
4        청년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      청년
Name: age, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [65]:
titanic_age_perc = titanic_age_cat.value_counts() / len(titanic_age_cat) * 100
titanic_age_perc

age
청년      63.187430
미성년자    18.630752
중년       9.427609
장년       6.734007
노년       0.448934
Name: count, dtype: float64

### Quiz. 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category3 열을 만들어라. category3 카테고리는 다음과 같이 정의된다.
```
1. 20살 미만이면 성별에 관계없이 "미성년자"라고 한다.
2. 20살 이상이면 나이에 따라 "청년", "중년", "장년", "노년"을 구분하고 그 뒤에 성별을 나타내는 "남성", "여성"을 붙인다.
```

In [66]:
bins = [1, 20, 40, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

titanic_cat = pd.cut(titanic.age, bins, labels=labels)

In [75]:
titanic_sex = titanic.apply(lambda x: "여성" if (x.sex == 'female') and (x.age >=20) else ("남성" if x.sex =='male' and x.age >=20 else ""), axis=1)
titanic_sex

0      남성
1      여성
2      여성
3      여성
4      남성
       ..
886    남성
887      
888    여성
889    남성
890    남성
Length: 891, dtype: object

In [76]:
titanic["category3"] = titanic_cat.astype(str) + ' ' +titanic_sex
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2,category3
0,0,3,male,22,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22,청년 남성
1,1,1,female,38,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38,청년 여성
2,1,3,female,26,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26,청년 여성
3,1,1,female,35,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35,청년 여성
4,0,3,male,35,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35,청년 남성
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27,청년 남성
887,1,1,female,19,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19,미성년자
888,0,3,female,30,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female30,청년 여성
889,1,1,male,26,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26,청년 남성
