# 4.4 데이터프레임의 데이터 조작

판다스는 넘파이 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.

## 데이터 갯수 세기

가장 간단한 데이터 분석은 데이터의 갯수를 세는 것이다. `count` 메서드를 사용한다. NaN 값은 세지 않는다.

In [70]:
import numpy as np
import pandas as pd

In [4]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [5]:
s.count()

9

데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 데이터에서 값이 누락된 부분을 찾을 때 유용하다.

In [10]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.NaN
df.count()

0    4
1    4
2    4
3    3
dtype: int64

다음 명령으로 타이타닉호의 승객 데이터를 데이터프레임으로 읽어올 수 있다. 이 명령을 실행하려면 seaborn 패키지가 설치되어 있어야 한다.

In [11]:
!pip install seaborn

Collecting seaborn
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting matplotlib!=3.6.1,>=3.4 (from seaborn)
  Downloading matplotlib-3.9.0-cp310-cp310-macosx_11_0_arm64.whl.metadata (11 kB)
Collecting contourpy>=1.0.1 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Downloading contourpy-1.2.1-cp310-cp310-macosx_11_0_arm64.whl.metadata (5.8 kB)
Collecting cycler>=0.10 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Using cached cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting fonttools>=4.22.0 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Downloading fonttools-4.53.0-cp310-cp310-macosx_11_0_arm64.whl.metadata (162 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m162.2/162.2 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting kiwisolver>=1.3.1 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Using cached kiwisolver-1.4.5-cp310-cp310-macosx_11_0_arm64.whl.metadata (6.4 kB)
Collecting pillow>=8 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Downloading 

In [1]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### 연습 문제 4.4.1

타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다.
```

In [27]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## 카테고리 값 세기

시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 `value_counts` 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

In [18]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [20]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
Name: count, dtype: int64

데이터프레임에는 `value_counts` 메서드가 없으므로 각 열마다 별도로 적용해야 한다.

In [29]:
titanic['pclass'].value_counts()

pclass
3    491
1    216
2    184
Name: count, dtype: int64

In [30]:
titanic.value_counts()

survived  pclass  sex     age   sibsp  parch  fare      embarked  class  who    adult_male  deck  embark_town  alive  alone
1         1       female  24.0  0      0      69.3000   C         First  woman  False       B     Cherbourg    yes    True     2
                          58.0  0      0      26.5500   S         First  woman  False       C     Southampton  yes    True     1
                          49.0  0      0      25.9292   S         First  woman  False       D     Southampton  yes    True     1
                                1      0      76.7292   C         First  woman  False       D     Cherbourg    yes    False    1
                          50.0  0      1      247.5208  C         First  woman  False       B     Cherbourg    yes    False    1
                                                                                                                              ..
                          16.0  0      0      86.5000   S         First  woman  False       B     Sout

## 정렬

데이터를 정렬하려면 `sort_index` 메서드 `sort_values` 메서드를 사용한다. `sort_index` 메서드는 인덱스 값을 기준으로, `sort_values` 메서드는 데이터 값을 기준으로 정렬한다.

앞에서 `s2` 시리즈의 각 데이터 값에 따른 데이터 갯수를 인덱스에 따라 정렬하려면 다음처럼 `sort_index`를 적용한다.

In [32]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
Name: count, dtype: int64

NaN값이 있는 경우에는 정렬하면 NaN값이 가장 나중으로 간다.

In [33]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [34]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

큰 수에서 작은 수로 반대 방향 정렬하려면 `ascending=False` 인수를 지정한다.

In [35]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

데이터프레임에서 `sort_values` 메서드를 사용하려면 `by` 인수로 정렬 기준이 되는 열을 지정해 주어야 한다.

In [36]:
titanic.sort_values(by='pclass')

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
445,1,1,male,4.0,0,2,81.8583,S,First,child,False,A,Southampton,yes,False
310,1,1,female,24.0,0,0,83.1583,C,First,woman,False,C,Cherbourg,yes,True
309,1,1,female,30.0,0,0,56.9292,C,First,woman,False,E,Cherbourg,yes,True
307,1,1,female,17.0,1,0,108.9000,C,First,woman,False,C,Cherbourg,yes,False
306,1,1,female,,0,0,110.8833,C,First,woman,False,,Cherbourg,yes,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
379,0,3,male,19.0,0,0,7.7750,S,Third,man,True,,Southampton,no,True
381,1,3,female,1.0,0,2,15.7417,C,Third,child,False,,Cherbourg,yes,False
382,0,3,male,32.0,0,0,7.9250,S,Third,man,True,,Southampton,no,True
371,0,3,male,18.0,1,0,6.4958,S,Third,man,True,,Southampton,no,False


`by` 인수에 리스트 값을 넣으면 이 순서대로 정렬 기준의 우선 순위가 된다. 즉, 리스트의 첫번째 열을 기준으로 정렬한 후 동일한 값이 나오면 그 다음 열로 순서를 따지게 된다.

In [37]:
titanic.sort_values(by=['age','pclass'])

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
803,1,3,male,0.42,0,1,8.5167,C,Third,child,False,,Cherbourg,yes,False
755,1,2,male,0.67,1,1,14.5000,S,Second,child,False,,Southampton,yes,False
469,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
644,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
78,1,2,male,0.83,0,2,29.0000,S,Second,child,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
868,0,3,male,,0,0,9.5000,S,Third,man,True,,Southampton,no,True
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True


### 연습 문제 4.4.2

`sort_values` 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.
```

In [2]:
titanic['sex'].value_counts().sort_values()

sex
female    314
male      577
Name: count, dtype: int64

In [3]:
titanic['age'].value_counts().sort_values()

age
74.00     1
34.50     1
0.42      1
0.67      1
66.00     1
         ..
28.00    25
19.00    25
18.00    26
22.00    27
24.00    30
Name: count, Length: 88, dtype: int64

In [4]:
titanic['class'].value_counts().sort_values()

class
Second    184
First     216
Third     491
Name: count, dtype: int64

In [5]:
titanic['alive'].value_counts().sort_values()

alive
yes    342
no     549
Name: count, dtype: int64

## 행/열 합계

행과 열의 합계를 구할 때는 `sum(axis)` 메서드를 사용한다. `axis` 인수에는 합계로 인해 없어지는 방향축(0=행, 1=열)을 지정한다.

행방향 합계를 구할 때는 `sum(axis=1)` 메서드를 사용한다.

열 합계를 구할 때는 `sum(axis=0)` 메서드를 사용하는데 `axis`인수의 디폴트 값이 0이므로 `axis`인수를 생략할 수 있다.

`mean` 메서드는 평균을 구하며 `sum` 메서드와 사용법이 같다.

### 연습 문제 4.4.3

1. 타이타닉호 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
1. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.
```

In [6]:
titanic['age'].mean()

29.69911764705882

In [7]:
titanic.loc[titanic['sex'] =='female',['age']].mean()

age    27.915709
dtype: float64

In [14]:
titanic.loc[titanic['sex'] =='female']['age'].mean()

27.915708812260537

In [13]:
titanic.loc[(titanic['sex'] =='female') & (titanic['class'] == 'First'), ['age']].mean()

age    34.611765
dtype: float64

## `apply` 변환

행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 `apply` 메서드를 사용한다. 인수로 행 또는 열을 받는 함수를 `apply` 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다. 

In [16]:
import pandas as pd

In [17]:
df3 = pd.DataFrame({
	'A': [1, 3, 4, 3, 4],
	'B': [2, 3, 1, 2, 3],
	'C': [1, 5, 2, 4, 4]
})

예를 들어 각 열의 최대값과 최소값의 차이를 구하고 싶으면 다음과 같은 람다 함수를 넣는다.

In [20]:
df3.apply(lambda x: x.max()-x.min())

A    3
B    2
C    4
dtype: int64

만약 행에 대해 적용하고 싶으면 `axis=1` 인수를 쓴다.

각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 `value_counts` 함수를 넣으면 된다.

In [24]:
df3.apply(pd.value_counts)

  df3.apply(pd.value_counts)


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


다음과 같이 타이타닉호의 승객 중 나이 20살을 기준으로 성인(adult)과 미성년자(child)를 구별하는 라벨 열을 만들 수 있다.

### 연습 문제 4.4.4

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category1` 열을 만들어라. `category1` 카테고리는 다음과 같이 정의된다.

1. 20살이 넘으면 성별을 그대로 사용한다.
2. 20살 미만이면 성별에 관계없이 "child"라고 한다.

```

In [29]:
titanic['category1'] = titanic.apply(lambda x: x['sex'] if x['age'] >= 20 else 'child', axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male


## `fillna` 메서드

NaN 값은 `fillna` 메서드를 사용하여 원하는 값으로 바꿀 수 있다.

In [30]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


### 연습 문제 4.4.5

타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

```

In [35]:
titanic['age'].isnull().value_counts()

age
False    714
True     177
Name: count, dtype: int64

In [40]:
titanic['age'] = titanic['age'].fillna(round(titanic['age'].mean(), 1))

In [45]:
titanic['age'].isnull().value_counts()

age
False    891
Name: count, dtype: int64

In [42]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male


## `astype` 메서드

`astype` 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능하다.

In [50]:
df3.apply(pd.value_counts).fillna(0).astype(int)

  df3.apply(pd.value_counts).fillna(0).astype(int)


Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


In [52]:
df3.dtypes

A    int64
B    int64
C    int64
dtype: object

### 연습 문제 4.4.6

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category2` 열을 만들어라. `category2` 카테고리는 다음과 같이 정의된다.

1. 성별을 나타내는 문자열 `male` 또는 `female`로 시작한다.
2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
3. 예를 들어 27살 남성은 `male27` 값이 된다.

```

In [53]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male


In [67]:
titanic['category2'] = titanic['sex'] + titanic['age'].astype(int).astype(str)

In [68]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male,male22
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female,female38
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female,female26
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female,female35
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male,male35
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male,male27
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,female19
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,female29
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male,male26


## 실수 값을 카테고리 값으로 변환

실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.

* `cut`: 실수 값의 경계선을 지정하는 경우
* `qcut`: 갯수가 똑같은 구간으로 나누는 경우

예를 들어 다음과 같은 나이 데이터가 있다고 하자.

In [71]:
ages = np.random.randint(0, 100, 20)
ages

array([10, 48, 58, 37, 60, 29, 34, 89, 29,  1, 54, 45, 83, 79, 95, 40, 23,
        6, 76, 37])

In [81]:
bins = [0, 20, 30, 50, 70, 100]
labels = ['미성년자', '청년', '중년', '장년', '노년']
cats = pd.cut(ages, bins, labels=labels)
cats

['미성년자', '중년', '장년', '중년', '장년', ..., '중년', '청년', '미성년자', '노년', '중년']
Length: 20
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

`cut` 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꿀 수 있다. `bins` 인수는 카테고리를 나누는 기준값이 된다. 영역을 넘는 값은 NaN으로 처리된다.

`cut` 명령이 반환하는 값은 `Categorical` 클래스 객체이다. 이 객체는 `categories` 속성으로 라벨 문자열을,  `codes` 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [74]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [75]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [78]:
cats.codes

array([0, 2, 3, 2, 3, 1, 2, 4, 1, 0, 3, 2, 4, 4, 4, 2, 1, 0, 4, 2],
      dtype=int8)

In [79]:
df4 = pd.DataFrame(ages, columns=['ages'])
df4['age_cat'] = pd.cut(df4.ages, bins, labels=labels)
df4

Unnamed: 0,ages,age_cat
0,10,미성년자
1,48,중년
2,58,장년
3,37,중년
4,60,장년
5,29,청년
6,34,중년
7,89,노년
8,29,청년
9,1,미성년자


따라서 위 데이터프레임의 age_cat 열값은 문자열이 아니다. 이를 문자열로 만들려면 `astype` 메서드를 사용해야 한다.

`qcut` 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다. 예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

### 연습 문제 4.4.7

타이타닉호 승객을 '미성년자', '청년', '중년', '장년', '노년' 나이 그룹으로 나눈다.

```
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
```

그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.
```

In [82]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [101]:
titanic['age_cat'] = pd.cut(titanic['age'], bins, labels=labels)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1,category2,age_cat
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male,male22,청년
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female,female38,중년
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female,female26,청년
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female,female35,중년
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male,male35,중년
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male,male27,청년
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,female19,미성년자
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,female29,청년
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male,male26,청년


In [108]:
titanic['age_cat'].value_counts() / len(titanic)


age_cat
청년      0.456790
중년      0.270483
미성년자    0.185185
장년      0.066218
노년      0.005612
Name: count, dtype: float64

### 연습 문제 4.4.8

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category3` 열을 만들어라. `category3` 카테고리는 다음과 같이 정의된다.

1. 20살 미만이면 성별에 관계없이 "미성년자"라고 한다.
2. 20살 이상이면 나이에 따라 "청년", "중년", "장년", "노년"을 구분하고 그 뒤에 성별을 나타내는 "남성", "여성"을 붙인다.

```

In [114]:
titanic['category3'] = titanic.apply(lambda x: '여성' if x['sex'] == 'female' else '남성', axis=1)
# titanic['category3'] = titanic.apply(lambda x: '미성년자' if x['age'] < 20 else x['category3'] + x['age_cats'], axis=1)

titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1,category2,age_cat,category3
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male,male22,청년,남성
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female,female38,중년,여성
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female,female26,청년,여성
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female,female35,중년,여성
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male,male35,중년,남성
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male,male27,청년,남성
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,female19,미성년자,여성
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,female29,청년,여성
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male,male26,청년,남성
