# 판다스
## 다양한 포멧의 파일을 DataFrame으로 로딩할 수 있는 api 목록
- read_table(): 탭으로 구분
- read_csv(): ,로 구분하는게 기본이나 sep='{구분인자}'식으로 입력해주면 탭으로 구별하는 것도 가능
    - 별다른 파라미터지정이 없으면 파일의 맨 처음 로우를 컬럼명으로 인지하고 컬럼으로 변환

In [1]:
import pandas as pd

In [2]:
titanic_df = pd.read_csv("titanic_train.csv")
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


## 데이터프레임의 형태를 알아보는 방법
- .shape: 열, 크기를 튜플로 반환
- .info(): 총 데이터 건수와 데이터 타입, null 건수를 알 수 있음
- .describe(): 컬럼별 숫자형 데이터값의 분포도, 평균값, 최댓값, 최솟값을 알려줌

In [3]:
print(f"shape: {titanic_df.shape}")
print(f"info: {titanic_df.info()}")
print(f"describe: {titanic_df.describe()}")

shape: (891, 12)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
info: None
describe:        PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008

## Series
- index와 단 하나의 컬럼만으로 구성된 데이터 세트
- dataframe의 특정 컬럼값만 가져오면 Series의 형태로 특정 컬럼 데이터세트가 반환됨
- value_counts(): 해당 컬럼값의 유형과 건수 확인 가능

In [4]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

print(type(titanic_df['Pclass']))

3    491
1    216
2    184
Name: Pclass, dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# 모든 Dataframe과 Series는 인덱스를 반드시! 가진다

## 넘파이 ndarray, 리스트, 딕셔너리를 Dataframe으로 변환하기
- dataframe과 넘파이의 ndarray 상호간의 변환은 매우 빈번하게 발생
- Dataframe: 행과 열을 가지는 2차원 데이터로 2차원 이하 데이터만 df로 변환이 가능하다.

In [6]:
# ndarray -> df
import numpy as np

col_name = ['col1']
list1 = [1, 2, 3]
arr = np.array(list1)
print(f"arr shape: {arr.shape}")
df1 = pd.DataFrame(list1, columns=col_name)
print(df1) # 리스트이용
df2 = pd.DataFrame(arr, columns=col_name)
print(df2)

arr shape: (3,)
   col1
0     1
1     2
2     3
   col1
0     1
1     2
2     3


In [7]:
# dict -> df
dict = {'col1': [1, 11], 'col2':[2, 22], 'col3': [3, 33]}
df_dict = pd.DataFrame(dict)
print(df_dict)

   col1  col2  col3
0     1     2     3
1    11    22    33


## Dataframe을 ndarray, list, dict로 변환하기
- df -> ndarray는 values를 사용해서 손쉽게 변환이 가능하다 (중요)
- dict로 변환시 인자에 list를 입력하면 딕셔너리의 값이 리스트형으로 변환됨

In [8]:
# df -> ndarray
arr3 = df_dict.values
print(arr3, type(arr3), arr3.shape)

# df -> list
list3 = arr3.tolist()
print(list3, type(list3))

# df -> dict
dict3 = df_dict.to_dict('list')
print(dict3, type(dict3))

[[ 1  2  3]
 [11 22 33]] <class 'numpy.ndarray'> (2, 3)
[[1, 2, 3], [11, 22, 33]] <class 'list'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]} <class 'dict'>


In [9]:
# 컬럼 데이터 수정
titanic_df['Age_0']=0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [10]:
# 기존 컬럼 Series를 활용해 새 컬럼 Series 만들기
# 만들고 나서 데이터프레임에 새 컬럼 series가 추가됨을 확인할 수 있음
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch']+1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


## DF 데이터 삭제
### drop() 매서드
- DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
- axis=0은 로우, axis=1은 컬럼 방향. 즉 axis=1은 컬럼 드랍이므로 labels에 원하는 컬럼명을 입력하고 axis=0일 경우엔 labels에 인덱스가 들어간다.
- inplace: False가 디폴트. 만약 True로 지정해주면 df 자신의 데이터값에서도 drop하게 됨

In [11]:
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1


In [12]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [13]:
# inplace 지정
titanic_drop_df = titanic_df.drop('Age_0', axis=1, inplace=True)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1


In [14]:
# row 삭제
titanic_df.drop([0, 1, 2], axis=0, inplace=True)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,350.0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,350.0,1
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,,1


## Index 객체
- rdbms의 프라이머리키와 유사한 기능을 가진 df의 레코드를 고유하게 식별하는 객체
- 식별성 데이터를 1차원 array로 가지고 있으며 ndarray처럼 단일값 변환 및 슬라이싱 가능
- 함부로 변경이 불가함
- reset_index(): 새롭게 인덱스를 할당하며 기존 인덱스는 index라는 새 컬럼명으로 추가한다. seriese에 적용하면 df가 할당되니 주의 필요

In [15]:
titanic_df = pd.read_csv("titanic_train.csv")
indexes = titanic_df.index
print(indexes)
print(indexes.values)

RangeIndex(start=0, stop=891, step=1)
[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233
 234 235 236 

In [16]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print(type(value_counts))
new_value_counts = value_counts.reset_index(inplace=False)
print(type(new_value_counts))
print(new_value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64
<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>
   index  Pclass
0      3     491
1      1     216
2      2     184


## 데이터 셀렉션 및 필터링
### DF의 [] 연산자
- df의 바로 뒤에 있는 []는 컬럼만 지정할 수 있는 컬럼 지정 연산자
- 판다스의 인덱스 형태로 변환 가능한 표현식은 입력 가능
- 불린 인덱싱 표현도 가능

#### guide for []
- df 뒤의 바로 뒤 [] 연산자는 넘파이의 []나 시리즈의 []랑 다름
- df 바로 뒤 [] 내의 입력값은 컬럼명르 지정해 컬럼 지정 연산에 쓰거나 불린 인덱스로만 써야함
- 슬라이싱연산은 권장하지 않음

In [21]:
print(titanic_df['Pclass'].head(3)) # 가능
# titanic_df[0] -> 불가능
titanic_df[0:2] # 가능은 하지만 권장하지 않음

0    3
1    1
2    3
Name: Pclass, dtype: int64


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [22]:
titanic_df[titanic_df['Pclass'] == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 명칭 기반 인덱싱과 위치 기반 인덱싱의 구분
- 명칭 기반: 컬럼 명칭을 기반으로 위치를 지정하는 방식 -> 판다스는 이쪽에 가까움
- 위치 기반: 0을 출발점으로 가로, 세로축 좌표 기반

### iloc 연산자
- 위치기반 인덱싱으로 정수만 입력해야한다

### loc 연산자
- 명칭 기반으로 추출
- 행 위치에는 df index, 열 위치에는 컬럼명 지정인데 인덱스가 숫자일수도 있으므로 명칭기반이지만 무조건 문자열을 입력하는 건 아니다.
- 일반적인 슬라이싱의 경우엔 마지막 값을 포함하지 않지만 명칭 기반에선 마지막 값을 포함함을 뜻한다.

### 불린 인덱싱
- 데이터 필터링 방식. 자주 사용된다.

In [23]:
titanic_df = pd.read_csv("titanic_train.csv")
titanic_boolean = titanic_df[titanic_df['Age'] > 60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


### 정렬, Aggregation,  GroupBy 적용
#### sort_values()
- df와 시리즈의 정렬에 사용
- SQL의 order by 키워드와 매우 유사함
- 파라미터
    - ascending: True는 오름차, False는 내림차. 기본은 True
    - by: 특정 칼럼을 기준으로 정렬함
    - inplace: True로 설정시 df의 정렬결과를 그대로 적용하며 디폴트는 false

In [24]:
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.25,,S


In [25]:
# 여러개의 컬럼으로 정렬하기
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
730,731,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
305,306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
297,298,0,1,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S


### Aggregation
- min(), max(), sum(), count()등으로 sql에서 동작하는것과 유사하게 동작함
- 다만 기본적으론 모든 컬럼에 적용되므로 특정 컬럼에만 사용하고 싶을땐 df[[column1, col2...]].aggre_method() 식으로 쓰면 된다

In [27]:
titanic_df[['Age', 'Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64

In [28]:
# groupby()
'''
df의 groupby() 사용시 입력 파라미터 by에 컬럼을 입력하면 대상 컬럼으로 groupby됨
groupby()를 df에 입력하면 dataframegroupby라는 또 다른 df를 반환함
'''

titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [29]:
# groupby()를 호출해 반환된 결과에 aggregation 함수를 호출하면 groupby() 대상 컬럼을 제외한 모든 컬럼에 해당 aggregation 함수 적용
titanic_groupby_count = titanic_df.groupby(by='Pclass').count()
titanic_groupby_count

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [30]:
'''
- sql에선 적용하고 싶은 대상 컬럼을 select에 나열
- df의 groupby는 groupby()로 반환된 dfgb객체에 해당 컬럼을 필터링 후 aggregation
'''
titanic_groupby = titanic_df.groupby(by='Pclass')[['PassengerId', 'Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


### 서로 다른 집계 함수를 적용할 경우
- sql: 그냥 select 절에 나열하기만 하면 됨
- df: dfgb 객체의 agg()내에 인자로 입력

####  좀 더 복잡한 예제
- select min(age), sum(SibSp), avg(Fare)
- groupby는 agg() 내에 입력 값으로 딕셔너리형태로 aggregation이 적용된 컬럼들과 aggregation 함수를 입력

In [32]:
titanic_df.groupby('Pclass')['Age'].agg([max, min])

Unnamed: 0_level_0,max,min
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,80.0,0.92
2,70.0,0.67
3,74.0,0.42


In [34]:
agg_format = {'Age': 'max', 'SibSp': 'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


### 결손 데이터 처리하기
- 결손데이터란 컬럼에 값이 없는 경우(null, NaN)를 의미
- isna(): NaN 여부를 확인
- fillna(): NaN을 다른 값으로 대체
     - fillna()를 활용해서 반환값을 다시 받거니 inplace=True 파라미터를 추가해야 실제 데이터세트 값이 변경됨

In [35]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [36]:
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [37]:
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C000,S


### apply lambda
- apply 함수에 lambda식을 결합해 df나 시리즈의 레코드별로 데이터를 가공하는 것이 가능하도록 함

In [38]:
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x: len(x))
titanic_df[['Name', 'Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22


In [40]:
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x: 'Child' if x <= 15 else ('Adult' if x <= 60 else 'Elderly'))
titanic_df['Age_cat'].value_counts()

Adult      609
Elderly    199
Child       83
Name: Age_cat, dtype: int64