# 데이터프레임의 데이터 조작

In [166]:
import numpy as np
import pandas as pd

## 데이터 갯수 세기
* 가장 간단한 분석은 데이터갯수 세기로 `count()`함수
* NaN값은 연산대상에서 빠짐

In [2]:
s = pd.Series(range(10))
print(s)

In [5]:
s[3] = np.NaN
print(s)

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64


In [7]:
s.count()

9

데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 데이터에서 값이 누락된 부분을 찾을 때 유용하다.

In [9]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size = (4,4)), dtype=float)
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,4.0
3,4.0,3.0,4.0,2.0


In [10]:
df.iloc[2, 3] = np.nan

In [11]:
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [13]:
df.count()   # nan값은 연산에서 제외되므로 nan값을 찾을 수 있다.

0    4
1    4
2    4
3    3
dtype: int64

타이타닉호의 승객 데이터를 불러오기 

In [14]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


연습 문제 4.4.1
* 타이타닉호의 승객데이터의 데이터 갯수를 열마다 구해본다.

In [18]:
titanic.count(axis = 0)

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [21]:
titanic.loc[titanic['deck'].isna()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
884,0,3,male,25.0,0,0,7.0500,S,Third,man,True,,Southampton,no,True
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False


## 카테고리 값 세기
* 시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다

In [24]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size = 100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [26]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

* 데이터프레임에는 `value_counts()` 메소드가 없으므로 각 열마다 별도 적용

In [28]:
df[0].value_counts()

3.0    2
4.0    1
0.0    1
Name: 0, dtype: int64

## 정렬
데이터 정렬 방법은 두가지가 있다.
* `sort_index()` - 인덱스를 기준으로 정렬
* `sort_value()` - 데이터 값을 기준으로 정렬

In [29]:
s2

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

In [31]:
s2.value_counts(), type(s2.value_counts())

(1    22
 0    18
 4    17
 5    16
 3    14
 2    13
 dtype: int64,
 pandas.core.series.Series)

In [32]:
s2.value_counts().sort_index()  # 기본은 올림차순 정렬

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

* NaN값이 있는 경우에 정렬하는 경우는, NaN값이 맨 나중에 위치

In [36]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [38]:
s.sort_values(ascending = False) # 내림차순 정렬

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

데이터프레임에서 sort_values메소드를 사용하려면 by옵션사용

In [40]:
df.sort_values(by = 1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [43]:
df.sort_values(by = [1, 2]) # 정렬 우선순위는 1이고, 1컬럼의 값이 같으면 2로 정렬

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


**연습 문제 4.4.2**<br>
sort_values 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [44]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.6+ KB


In [51]:
titanic.sort_values(by = ['sex', 'age', 'pclass', 'alive']).count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## 행/열 합계
행/열의 합계를 구할때는 sum(axis) 메소드를 사용
* 방향축(0 => 행, 1 => 열)

In [52]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size = (4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


* 행방향 합계를 구할때는 `sum(axis = 1)` 메소드 사용

In [54]:
df2.sum(axis = 1)

0    35
1    34
2    41
3    42
dtype: int64

In [57]:
# 행 합계
df2['RowSum'] = df2.sum(axis = 1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,105
1,6,9,2,4,5,2,4,2,102
2,4,7,7,9,1,7,0,6,123
3,9,9,7,6,9,1,0,1,126


In [59]:
# 열합계 - sum(axis = 0)
# 디폴트가 axis = 0이르므로 생략 가능
df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    456
dtype: int64

In [62]:
df2.loc["ColTotal", :] = df2.sum()

In [64]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,105.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,102.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,123.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,126.0
ColTotal,48.0,66.0,50.0,48.0,30.0,20.0,10.0,32.0,912.0


**연습 문제 4.4.3**<br>
* 타이타닉호 승객의 평균 나이를 구하라.<br>
* 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.<br>
* 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [66]:
titanic.head(n = 5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


1) 승객의 평균 나이

In [68]:
titanic['age'].mean()

29.69911764705882

2) 승객중 여성 승객의 평균나이

In [70]:
titanic.loc[titanic.sex == 'female', 'age'].mean()

27.915708812260537

3) 승객중 1등실 선실의 여성승객의 평균나이

In [72]:
titanic.loc[(titanic['pclass']== 1) & (titanic['sex']=='female'), 'age'].mean()

34.61176470588235

## apply 변환
* 열 또는 행에 특정함수를 일괄 적용할 수 있다.

In [73]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [74]:
# 행에 대하여 최대값과 최소값의 차이
df3.apply(lambda x:x.max() - x.min(), axis = 1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

### 각 열에 대해서 값의 분포도를 알고싶다면?

In [76]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


** 파생변수** - 성인/아이 구분 여부 컬럼 생성 후 값의 일괄 변경

In [84]:
titanic['adult/child'] = titanic.apply(lambda r:"adult" if r['age'] > 20 else "child", axis = 1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


**연습 문제 4.4.4**

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라. category1 카테고리는 다음과 같이 정의된다.<br>
20살이 넘으면 성별을 그대로 사용한다.<br>
20살 미만이면 성별에 관계없이 “child”라고 한다.

In [88]:
titanic['category1'] = titanic.apply(lambda x: x['sex'] if x.age > 20 else "child", axis = 1)

In [92]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult,male
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult,male


## fillna 메서드
* NaN값은 원하는 값으로 변경이 가능

In [95]:
df3.apply(pd.value_counts).fillna(0.0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


연습 문제 4.4.5<br>
타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [133]:
titanic['age'] = titanic.apply(lambda x : titanic['age'].fillna(np.trunc(titanic['age'].mean())))
titanic.tail(20)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False,adult,female
872,0,1,male,33.0,0,0,5.0,S,First,man,True,B,Southampton,no,True,adult,male
873,0,3,male,47.0,0,0,9.0,S,Third,man,True,,Southampton,no,True,adult,male
874,1,2,female,28.0,1,0,24.0,C,Second,woman,False,,Cherbourg,yes,False,adult,female
875,1,3,female,15.0,0,0,7.225,C,Third,child,False,,Cherbourg,yes,True,child,child
876,0,3,male,20.0,0,0,9.8458,S,Third,man,True,,Southampton,no,True,child,child
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True,child,child
878,0,3,male,29.699118,0,0,7.8958,S,Third,man,True,,Southampton,no,True,child,child
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False,adult,female
880,1,2,female,25.0,0,1,26.0,S,Second,woman,False,,Southampton,yes,False,adult,female


## astype 메서드
* astype 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능하다.

In [134]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [135]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


In [None]:
연습 문제 4.4.6

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category2 열을 만들어라. category2 카테고리는 다음과 같이 정의된다.

성별을 나타내는 문자열 male 또는 female로 시작한다.

성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.

예를 들어 27살 남성은 male27 값이 된다.

In [140]:
titanic['category2'] = titanic['sex'] + titanic['age'].astype(str)
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,adult,male,male22.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38.0
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,adult,female,female26.0
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,adult,female,female35.0
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,adult,male,male35.0


## 실수 값을 카테고리 값으로 변환¶
실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.
* cut: 실수 값의 경계선을 지정하는 경우<br>
* qcut: 갯수가 똑같은 구간으로 나누는 경우

In [150]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

In [151]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 장년, 미성년자, 중년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

* cut 명령이 반환하는 값은 Categorical 클래스 객체이다. 이 객체는 categories 속성으로 라벨 문자열을, codes 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [152]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [153]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [154]:
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [157]:
df4 = pd.DataFrame(ages, columns = ["ages"])
df4

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [159]:
df4["age_cat"] = pd.cut(df4.ages, bins, labels = labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


In [161]:
df4.dtypes

ages          int64
age_cat    category
dtype: object

In [164]:
df4.age_cat.astype(str) + df4.ages.astype(str)

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       중년37
6       중년31
7       장년61
8     미성년자20
9       중년41
10      중년32
11    nan101
dtype: object

qcut 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다. 예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

In [170]:
data = np.random.randn(1000)
#len(data)
cats = pd.qcut(data, 4, labels = ["q1", "q2", "q3", "q4"])
cats

[q3, q3, q4, q4, q2, ..., q4, q3, q4, q1, q4]
Length: 1000
Categories (4, object): [q1 < q2 < q3 < q4]

In [172]:
pd.value_counts(cats)

q4    250
q3    250
q2    250
q1    250
dtype: int64

**연습 문제 4.4.7**<br>
타이타닉호 승객을 ‘미성년자’, ‘청년’, ‘중년’, ‘장년’, ‘노년’ 나이 그룹으로 나눈다.

In [187]:
titanic['age'] = titanic['age'].astype(int)

In [194]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
titanic['age_cat'] = pd.cut(titanic.age,bins,labels = labels)

In [195]:
titanic[titanic['age_cat'].isna()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2,age_cat
78,1,2,male,0,0,2,29.0,S,Second,child,False,,Southampton,yes,False,child,child,male0.83,
164,0,3,male,1,4,1,39.6875,S,Third,child,False,,Southampton,no,False,child,child,male1.0,
172,1,3,female,1,1,1,11.1333,S,Third,child,False,,Southampton,yes,False,child,child,female1.0,
183,1,2,male,1,2,1,39.0,S,Second,child,False,F,Southampton,yes,False,child,child,male1.0,
305,1,1,male,0,1,2,151.55,S,First,child,False,C,Southampton,yes,False,child,child,male0.92,
381,1,3,female,1,0,2,15.7417,C,Third,child,False,,Cherbourg,yes,False,child,child,female1.0,
386,0,3,male,1,5,2,46.9,S,Third,child,False,,Southampton,no,False,child,child,male1.0,
469,1,3,female,0,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False,child,child,female0.75,
644,1,3,female,0,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False,child,child,female0.75,
755,1,2,male,0,1,1,14.5,S,Second,child,False,,Southampton,yes,False,child,child,male0.67,


In [196]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 19 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          891 non-null    int32   
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
 15  adult/child  891 non-null    object  
 16  category1    891 non-null    object  
 17  category2    891 non-null    object  
 18  age_cat      877 non-null    c

In [200]:
titanic['age_cat'].value_counts()

청년      408
중년      239
미성년자    166
장년       60
노년        4
Name: age_cat, dtype: int64

In [210]:
titanic['age_cat'] = titanic['age_cat'].astype(str)
titanic['age_cat'] = titanic.apply(lambda x : titanic['age_cat'].fillna('미분류'))
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2,age_cat
0,0,3,male,22,1,0,7.25,S,Third,man,True,,Southampton,no,False,adult,male,male22.0,청년
1,1,1,female,38,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38.0,중년
2,1,3,female,26,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,adult,female,female26.0,청년
3,1,1,female,35,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,adult,female,female35.0,중년
4,0,3,male,35,0,0,8.05,S,Third,man,True,,Southampton,no,True,adult,male,male35.0,중년


In [213]:
titanic['age_cat'].value_counts() / len(titanic)

청년      0.457912
중년      0.268238
미성년자    0.186308
장년      0.067340
nan     0.015713
노년      0.004489
Name: age_cat, dtype: float64

**연습 문제 4.4.8**<br>
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category3 열을 만들어라. category3 카테고리는 다음과 같이 정의된다.
20살 미만이면 성별에 관계없이 “미성년자”라고 한다.
20살 이상이면 나이에 따라 “청년”, “중년”, “장년”, “노년”을 구분하고 그 뒤에 성별을 나타내는 “남성”, “여성”을 붙인다.