In [2]:
import numpy as np
import pandas as pd

## 5. Index 객체

- 생성 방법 : DataFrame.index
- Series, DataFrame의 레코드를 고유하게 식별하는 객체
- Index 객체는 식별성 데이터를 1차원 array로 가진다.
- **단일 값 반환** 및 **슬라이싱**이 **가능**하나, 한 번 만들어진 Index 객체는 **함부로 변경할 수 없다**.

In [3]:
titanic_df= pd.read_csv('titanic_train.csv')

In [4]:
# Index 객체 추출
indexes = titanic_df.index
print(indexes)

# Index 객체를 실제 값 array로 반환
print('Index 객체 array 값:\n',indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array 값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 23

In [5]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


### Series의 Index 객체

- Series 객체는 Index 객체를 포함하지만, Series 객체에 연산 함수를 적용할 때 Index는 연산에서 제외된다.
- Index는 오직 식별용으로만 사용된다.

In [6]:
series_fair = titanic_df['Fare'] # Series 생성
print('Fair Series max 값:',series_fair.max())
print('Fair Series sum 값:',series_fair.sum())
print('Sum() Fair Series 값:',sum(series_fair))
print('Fair Series + 3:\n',(series_fair+3).head(3))

Fair Series max 값: 512.3292
Fair Series sum 값: 28693.9493
Sum() Fair Series 값: 28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


### reset_index() : 인덱스를 연속 숫자 형으로 새롭게 할당

- 기존 인덱스는 'index'라는 새로운 칼럼 명으로 추가
- 인덱스를 연속된 int 숫자형 데이터로 만들 때 주로 사용
- Series에 reset_index()를 적용하면 DataFrame 반환

In [7]:
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [8]:
# reset_index() 실사용 예시

print("### befor reset_index ###")
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('values_counts 객체 변수 타입:',type(value_counts))

new_value_counts = value_counts.reset_index()
print("### after reset_index ###")
print(new_value_counts)
print('new_value_counts 객체 변수 타입:',type(new_value_counts))

### befor reset_index ###
3    491
1    216
2    184
Name: Pclass, dtype: int64
values_counts 객체 변수 타입: <class 'pandas.core.series.Series'>
### after reset_index ###
   index  Pclass
0      3     491
1      1     216
2      2     184
new_value_counts 객체 변수 타입: <class 'pandas.core.frame.DataFrame'>


In [9]:
# 기존 인덱스 삭제하는 경우 -> Series로 유지
new_value_counts_drop = value_counts.reset_index(drop = True)
print('기존 인덱스 삭제:\n',new_value_counts_drop)
print('드롭한 결과 데이터 타입 : ',type(new_value_counts_drop)) # 시리즈

기존 인덱스 삭제:
 0    491
1    216
2    184
Name: Pclass, dtype: int64
드롭한 결과 데이터 타입 :  <class 'pandas.core.series.Series'>


In [10]:
# 칼럼 명 교체
rename_reset_index = new_value_counts.rename({'index':'value'},axis=1)
print('칼럼 명 교체:\n',rename_reset_index)

칼럼 명 교체:
    value  Pclass
0      3     491
1      1     216
2      2     184


## 6. 데이터 셀렉션 및 필터링

### DataFrame  [] 연산자 

- 넘파이의 []나 Series의 []와는 다르다.
- DataFrame 바로 뒤의 **[] 내 입력 값**은 **칼럼명(또는 칼럼의 리스트)**을 지정해 **칼럼 지정 연산**에 사용하거나 **불린 인덱스** 용도로만 사용
- 슬라이싱 연산으로 데이터를 추출하는 방법은 사용하지 않는 게 좋다.

In [16]:
print('단일 칼럼 데이터 추출:\n',titanic_df['Pclass'].head(3))
print('\n여러 칼럼의 데이터 추출:\n',titanic_df[['Survived','Pclass']].head(3))
# print('[] 안에 숫자 index는 keyError 오류 발생:\n',titanic_df[0]) -> 오류 발생

단일 칼럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

여러 칼럼의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


In [12]:
titanic_df[0:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [15]:
# 불린 인덱싱
titanic_df[titanic_df['Pclass']==3].head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S


### DataFrame ix[] 연산자

- 행과 열 위치 지정하여 원하는 위치의 데이터 추출
- 단일 지정, 슬라이싱, 불린 인덱싱, 팬시 인덱싱 모두 가능
- **행 위치 지정** : **인덱스 값** 입력
- **열 위치 지정** : **칼럼 명(칼럼 명칭 기반 인덱싱)** 뿐만 아니라 **칼럼의 위치 값(위치 기반 인덱싱)** 지정도 가능
- 사용 권장 X

### DataFrame iloc[] 연산자

- **위치 기반 인덱싱**
- 행과 열 값으로 **integer** 또는 **integer형의 슬라이싱, 팬시 리스트 값**을 입력해줘야한다.
- 불린 인덱싱은 제공하지 않는다.

In [25]:
data = {'Name':['Chulmin','Eunkyung','Jinwoong','Soobeom'], 'Year':[2011,2016,2015,2015],'Gender':['Male','Female','Male','Male']}
data_df = pd.DataFrame(data,index = ['one','two','three','four'])
data_df

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


In [28]:
data_df_reset = data_df.reset_index()
data_df_reset = data_df_reset.rename(columns={'index':'old_index'})

data_df_reset.index = data_df_reset.index + 1
data_df_reset

Unnamed: 0,old_index,Name,Year,Gender
1,one,Chulmin,2011,Male
2,two,Eunkyung,2016,Female
3,three,Jinwoong,2015,Male
4,four,Soobeom,2015,Male


In [29]:
data_df.iloc[0,0]
# data_df.iloc[0,'Name'] -> 오류 발생
# data_df.iloc['one',0] -> 오류 발생

'Chulmin'

In [30]:
data_df_reset.iloc[0,1]

'Chulmin'

### DataFrame loc[] 연산자

- **명칭 기반 인덱싱**
- **슬라이싱**에서 범위를 **'시작점:종료점'**으로 지정할 때, 시작점에서 **종료점을 포함**한 위치에 있는 데이터 반환

In [31]:
data_df.loc['one','Name']

'Chulmin'

In [34]:
data_df_reset.loc[1,'Name']

'Chulmin'

In [38]:
# 슬라이싱 주의 #1

print('위치 기반 인덱싱 iloc \n:',data_df.iloc[0:1, 0],'\n')
print('명칭 기반 인덱싱 loc \n:' ,data_df.loc['one':'two','Name'])

위치 기반 인덱싱 iloc 
: one    Chulmin
Name: Name, dtype: object 

명칭 기반 인덱싱 loc 
: one     Chulmin
two    Eunkyung
Name: Name, dtype: object


In [39]:
# 슬라이싱 주의 #2

print(data_df_reset.loc[1:2,'Name'])

1     Chulmin
2    Eunkyung
Name: Name, dtype: object


In [42]:
print(data_df_reset.iloc[1:2,1])

2    Eunkyung
Name: Name, dtype: object


### 불린 인덱싱

- **[], ix[], loc[]**에서 공통으로 지원

In [45]:
# 타이타닉 탑승객 중 나이가 60세 이상인 데이터 추출
titanic_boolean = titanic_df[titanic_df['Age']>60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


#### [] 사용

In [49]:
titanic_df[titanic_df['Age']>60][['Name','Age']].head(5)

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0
116,"Connors, Mr. Patrick",70.5
170,"Van der hoef, Mr. Wyckoff",61.0


#### loc[] 사용

In [50]:
titanic_df.loc[titanic_df['Age']>60 , ['Name','Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0


#### 복합조건

- and : &
- or : |
- Not : ~

In [53]:
# 나이가 60세 이상, 선실 등급 1등급, 성별은 여성

titanic_df[(titanic_df['Age']>60) & (titanic_df['Pclass']== 1) & (titanic_df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


In [54]:
cond1 = titanic_df['Age']>60
cond2 = titanic_df['Pclass']== 1
cond3 = titanic_df['Sex'] == 'female'
titanic_df[cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


## 7. 정렬, Aggregation 함수, GroupBy 적용

### DataFrame, Series의 정렬 - sort_values()

- **주요 파라미터**
    - **by** : 특정 칼럼을 입력하면 **해당 칼럼으로 정렬 수행**
    - **ascending**(디폴트 : True) : **True**로 설정하면 **오름차순** 정렬, **False**로 설정하면 **내림차순** 정렬
    - **inplace**(디폴트 : False) : True로 설정하면 호출한 DataFrame에 **정렬 결과를 그대로 적용**. 

In [57]:
# Name 기준 오름차순 정렬 
titanic_sorted = titanic_df.sort_values(by = ['Name'])
titanic_sorted.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.25,,S
308,309,0,2,"Abelson, Mr. Samuel",male,30.0,1,0,P/PP 3381,24.0,,C
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0,,C


In [62]:
# Pclass, Name 기준 내림차순 정렬
titanic_sorted2 = titanic_df.sort_values(by=['Pclass','Name'],ascending = False)
titanic_sorted2.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5,,S


### Aggregation 함수 적용

- min(), max(), sum(), count()

In [64]:
titanic_df.count() # 모든 칼럼에 count() 결과를 반환
# count : 누락 값 제외한 데이터 수 출력

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [66]:
titanic_df[['Age','Fare']].mean() # 특정 칼럼에 적용

Age     29.699118
Fare    32.204208
dtype: float64

### groupby() 적용

In [74]:
titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [75]:
titanic_groupby = titanic_df.groupby('Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [76]:
titanic_groupby2 = titanic_df.groupby('Pclass')[['PassengerId','Survived']].count()
titanic_groupby2

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


In [79]:
titanic_groupby3 = titanic_df.groupby('Pclass')[['Age','Survived']].mean()
titanic_groupby3

Unnamed: 0_level_0,Age,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,38.233441,0.62963
2,29.87763,0.472826
3,25.14062,0.242363


In [92]:
titanic_df.groupby('Pclass')['Age'].agg([max,min,np.mean,np.count_nonzero])
# agg 메서드 : 다중집계작업 가능

Unnamed: 0_level_0,max,min,mean,count_nonzero
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,80.0,0.92,38.233441,216.0
2,70.0,0.67,29.87763,184.0
3,74.0,0.42,25.14062,491.0


In [94]:
agg_format = {'Age':'max', 'SibSp':'sum','Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


## 8. 결손 데이터 처리하기

### isna() - 결손 데이터 여부 확인

In [95]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [96]:
# 결손 데이터 개수 확인 
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### fillna() - 결손 데이터 대체하기

- fillna()를 이용하여 반환 값을 다시 받거나, inplace = True 파라미터를 filna()에 추가해야 실제 데이터 세트값이 변경된다.

In [98]:
# 'Cabin'의 NaN 값을 'C000'으로 대체
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C000,S


In [100]:
# 'Age' 칼럼의 NaN 값을 평균 나이고, 'Embarked' 칼럼의 NaN 값을 'S'로 대체
titanic_df['Age']=titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

## 9. apply lambda 식으로 데이터 가공

### lambda 식

- lambda x : x**2
- x : 입력 인자
- x ** 2 : 입력 인자를 기반으로 한 계산식. 호출 시 계산 결과가 반환

In [101]:
def get_square(a): # 일반
    return a**2

print(get_square(3))

9


In [102]:
lambda_square = lambda x : x**2 # 람다식
print(lambda_square(3))

9


#### map() 함수 :  lambda 식을 이용하여 여러 개의 값을 입력인자로 사용하는 경우 

In [104]:
a = [1,2,3]
squares = map(lambda x : x**2, a)
list(squares)

[1, 4, 9]

### DataFrame의 lambda 식

- if 절의 경우 반환 값을 먼저 기술함 (ex. lambda x : 'Child' if x<= 15 else ~)
- if, else만 지원

In [105]:
# 'Name' 칼럼의 문자열 개수를 별도의 칼럼인 'Name_len'에 생성
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x : len(x))
titanic_df[['Name', 'Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22


In [109]:
# 나이가 15세 미만이면 Child, 그렇지 않으면 Adult로 구분
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 15 else 'Adult')
titanic_df[['Age','Child_Adult']].head(10)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child
8,27.0,Adult
9,14.0,Child


In [112]:
# 15세 이하 : Child, 15 ~ 60 : Adult, 나머지 Elderly
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x: 'Child' if x<= 15 else ('Adult' if x<= 60 else 'Elderly'))
titanic_df['Age_cat'].value_counts()

Adult      786
Child       83
Elderly     22
Name: Age_cat, dtype: int64

In [115]:
# 나이에 따른 세분화
# ~ 5 : Baby / ~12 : Child / ~ 18 : Teenage / ~25 : Student / ~ 35 : Young Adult / ~60 : Adult / ~ : Elderly
                            
def get_category(age):
    cat = ''
    if age<= 5 : cat = 'Baby'
    elif age<= 12 : cat = 'Child'
    elif age<= 18 : cat = 'Teenage'
    elif age<= 25 : cat = 'Student'
    elif age<= 35 : cat = 'Young Adult'
    elif age<= 60 : cat = 'Adult'   
    else : cat = 'Elderly'
        
    return cat

In [116]:
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age','Age_cat']].head()

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult
