In [10]:
import pandas as pd
import numpy as np

#### <span style='background-color:rgba(205, 100, 150, 0.6);'>데이터 갯수 세기</span>  
판다스 패키지의 `Series` , `DataFrame` 객체의 `count()` 메서드로 데이터의 갯수를 셀 수 있음  
단, `NaN` 값은 포함하지 않음

In [11]:
s = pd.Series(np.arange(10))
s[3] = np.nan  # 3번 위치에 nan을 넣는다
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [12]:
s.count() # 3번 NaN은 세지 않는다

9

In [13]:
df = pd.DataFrame(np.random.randint(5,size=(4,4)),dtype=float)
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,1.0
1,4.0,1.0,4.0,1.0
2,1.0,0.0,3.0,
3,1.0,2.0,0.0,2.0


In [14]:
# 열 기준으로 그룹화하여 카운트
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [15]:
import seaborn

In [16]:
titanic = seaborn.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [17]:
# 예제 문제] 타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다.

titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [18]:
len(titanic) # 총 레코드의 값

891

#### <span style='background-color:rgba(205, 100, 150, 0.6);'>카테고리 값 세기</span> 
`Series` 객체의 값이 정수, 문자열, 카테고리 값인 경우에 `value_counts()` 메서드로 각 값의 갯수를 셀 수 있음  
`DataFrame` 객체에는 `value_counts()` 메서드가 존재하지 않아 각 열마다 따로 갯수를 세야함

In [19]:
s2 = pd.Series(np.random.randint(6, size=250))
s2.tail()

245    2
246    2
247    3
248    4
249    5
dtype: int32

In [20]:
s2.value_counts()

1    53
3    52
5    42
2    37
4    34
0    32
Name: count, dtype: int64

In [21]:
df.value_counts() # 조합을 나타낸다

0    1    2    3  
1.0  2.0  0.0  2.0    1
2.0  0.0  2.0  1.0    1
4.0  1.0  4.0  1.0    1
Name: count, dtype: int64

#### <span style='background-color:rgba(205, 100, 150, 0.6);'>정렬</span> 
`sort_index()` , `sort_values()` 메서드로 정렬 가능  
- `sort_index()`: 인덱스 기준으로 정렬(기본적으로 오름차순 정렬, 만약 내림차순 정렬을 하고 싶으면 `ascending=False`를 지정)
- `sort_values()`: 값 기준으로 정렬, 만약 NaN 값이 있다면 무조건 맨뒤로 지정됨

In [22]:
s2.value_counts()

1    53
3    52
5    42
2    37
4    34
0    32
Name: count, dtype: int64

In [23]:
s2.value_counts().sort_index()

0    32
1    53
2    37
3    52
4    34
5    42
Name: count, dtype: int64

In [24]:
s.sort_values() # nan 값이 맨뒤에 지정

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [25]:
s.sort_values(ascending=False) # 내림차순 정렬

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

데이터 프레임에서 `sort_values()` 메서드를 사용할 땐 `by` 인수로 정렬 기준이 될 열을 지정  
`by` 인수에 리스트를 전달하면 복수 정렬을 하게 됨

In [26]:
df

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,1.0
1,4.0,1.0,4.0,1.0
2,1.0,0.0,3.0,
3,1.0,2.0,0.0,2.0


In [27]:
# 2번을 정렬 해보자
df.sort_values(by=2)

Unnamed: 0,0,1,2,3
3,1.0,2.0,0.0,2.0
0,2.0,0.0,2.0,1.0
2,1.0,0.0,3.0,
1,4.0,1.0,4.0,1.0


In [28]:
# 2번값을 정렬하고, 다음으로 0번값을 정렬해라
df.sort_values(by=[2,0])

Unnamed: 0,0,1,2,3
3,1.0,2.0,0.0,2.0
0,2.0,0.0,2.0,1.0
2,1.0,0.0,3.0,
1,4.0,1.0,4.0,1.0


<span style='color:yellow;'>예제 문제)</span>  

1. `sort_values` 메서드를 사용하여 타이타닉호 승객에 대해   
성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [29]:
# titanic.sort_values(['sex','age','class','alive']) # 이 식이 왜 안 되는지를 생각해보자

titanic['sex'].value_counts().sort_values() # 성별 인원 수

sex
female    314
male      577
Name: count, dtype: int64

In [30]:
titanic['age'].value_counts().sort_values() # 나이별 인원 수

age
74.00     1
34.50     1
0.42      1
0.67      1
66.00     1
         ..
28.00    25
19.00    25
18.00    26
22.00    27
24.00    30
Name: count, Length: 88, dtype: int64

In [31]:
titanic['class'].value_counts().sort_values() # 성별 인원 수

class
Second    184
First     216
Third     491
Name: count, dtype: int64

In [32]:
titanic['alive'].value_counts().sort_values() # 성별 인원 수

alive
yes    342
no     549
Name: count, dtype: int64

#### <span style='background-color:rgba(205, 100, 150, 0.6);'>행/열 합계</span> 
`sum()` 메서드로 행 또는 열의 합계를 구할 수 있음  
`axis` 인수로 1을 지정하면 행의 합, 0(default)을 지정하면 열의 합

In [33]:
df2 = pd.DataFrame(np.random.randint(10,size=(4,6)))
df2

Unnamed: 0,0,1,2,3,4,5
0,5,7,8,2,2,2
1,6,4,5,7,6,7
2,7,0,5,6,1,3
3,4,5,9,1,0,0


In [34]:
df2.sum(axis=1) # 행의 합

0    26
1    35
2    22
3    19
dtype: int64

In [35]:
df2["RowSum"] = df2.sum(axis=1) # 추가
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,5,7,8,2,2,2,26
1,6,4,5,7,6,7,35
2,7,0,5,6,1,3,22
3,4,5,9,1,0,0,19


In [36]:
df2.sum() # 열의 합

0          22
1          16
2          27
3          16
4           9
5          12
RowSum    102
dtype: int64

In [37]:
# ??
df2.loc['ColTotal',:] = df2.sum() # loc[컬럼명] 적고, 시리즈로 전달하면 세로 -> 가로 입력
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,5.0,7.0,8.0,2.0,2.0,2.0,26.0
1,6.0,4.0,5.0,7.0,6.0,7.0,35.0
2,7.0,0.0,5.0,6.0,1.0,3.0,22.0
3,4.0,5.0,9.0,1.0,0.0,0.0,19.0
ColTotal,22.0,16.0,27.0,16.0,9.0,12.0,102.0


In [38]:
df2.mean(axis=1) # 행에 대한 평균

0            7.428571
1           10.000000
2            6.285714
3            5.428571
ColTotal    29.142857
dtype: float64

In [39]:
df2.mean() # 열에 대한 평균 (기본)

0          8.8
1          6.4
2         10.8
3          6.4
4          3.6
5          4.8
RowSum    40.8
dtype: float64

<span style='color:YELLOW;'>예제 문제)</span>  
1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [40]:
# 1.
titanic['age'].mean() 

29.69911764705882

In [41]:
# 2.
titanic.loc[titanic.sex == 'female','age'].mean()

27.915708812260537

In [42]:
# 3.             1등실 선실      AND             여성        나이  평균
titanic.loc[(titanic.pclass == 1)&(titanic.sex == 'female'),'age'].mean()

34.61176470588235

#### <span style='background-color:rgba(205, 100, 150, 0.6);'>`apply` 변환</span> 

행 또는 열 단위로 복잡한 처리를 하고자 할 때 사용하는 메서드  
`apply` 는 인수로 행 또는 열을 받는 함수를 전달받음

In [43]:
df3 = pd.DataFrame(
    {
        'A':[1,3,4,3,4],
        'B':[2,3,1,2,3],
        'C':[1,5,2,4,4]
    }
)
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [44]:
# apply() -> ()에 넣을 함수 만들기
# 각 열의 평균을 구하는 식
def getColMean(col):
    return col.mean()

df3.apply(getColMean)

# *** `apply` 를 이해하기보다 방식에 대해 이해하라!
# - 함수를 하나의 변수로 취급한다

A    3.0
B    2.2
C    3.2
dtype: float64

In [45]:
# 각 열의 최댓값과 최솟값의 차이를 구하는 식
def getColMean(col):
    return col.max() - col.min()

df3.apply(getColMean)

A    3
B    2
C    4
dtype: int64

In [46]:
# 행에 적용
df3.apply(getColMean, axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [47]:
df3.apply(pd.value_counts)

  df3.apply(pd.value_counts)


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [48]:
# 타이타닉호의 승객 중 나이 20살을 기준으로 성인(adult)과 미성년자(child)를 구별하는 라벨 열을 만들 수 있다.
def checkAge(row):
    result = None
    if row.age >= 20:
        result = 'adult'
    else:
        result = 'child'
    return result

titanic['adult/child']= titanic.apply(checkAge, axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult


<span style='color:YELLOW;'>예제 문제)</span>   
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category1` 열을 만들어라.  
`category1` 카테고리는 다음과 같이 정의된다.

1. 20살이 넘으면 성별을 그대로 사용한다.
2. 20살 미만이면 성별에 관계없이 “child”라고 한다.

In [49]:
titanic.iloc[1] #성별 - sex / 0-890

survived               1
pclass                 1
sex               female
age                 38.0
sibsp                  1
parch                  0
fare             71.2833
embarked               C
class              First
who                woman
adult_male         False
deck                   C
embark_town    Cherbourg
alive                yes
alone              False
adult/child        adult
Name: 1, dtype: object

In [50]:
def getCategory1(row):
    result = None
    if row.age >= 20:
        result = row.sex
    else:
        result = 'child'
    return result

titanic['category1'] = titanic.apply (getCategory1, axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


#### <span style='background-color:rgba(205, 100, 150, 0.6);'>`fillna` 메서드</span> 
판다스의 객체에서 `NaN` 값을 특정한 값으로 변경하고자 할 때 `fillna()` 메서드로 변경 할 수 있음

In [51]:
df.fillna('ZERO')  # NaN -> ZERO 으로 변경 되었다

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,1.0
1,4.0,1.0,4.0,1.0
2,1.0,0.0,3.0,ZERO
3,1.0,2.0,0.0,2.0


<span style='color:YELLOW;'>예제 문제)</span>  
타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [52]:
titanic[titanic.age.isna()]  # age - NaN 값만 출력

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,child
17,1,2,male,,0,0,13.0000,S,Second,man,True,,Southampton,yes,True,child,child
19,1,3,female,,0,0,7.2250,C,Third,woman,False,,Cherbourg,yes,True,child,child
26,0,3,male,,0,0,7.2250,C,Third,man,True,,Cherbourg,no,True,child,child
28,1,3,female,,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True,child,child
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True,child,child
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False,child,child
868,0,3,male,,0,0,9.5000,S,Third,man,True,,Southampton,no,True,child,child
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True,child,child


In [53]:
# age 평균 구하기 -> fillna 사용해서 구한 평균으로 바꾸기 -> age 셀에 넣기 -> titanic 출력!
titanic.age = titanic.age.fillna(titanic.age.mean()).round(2)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


#### <span style='background-color:rgba(205, 100, 150, 0.6);'>`astype` 메서드</span> 

판다스 객체의 데이터 타입을 변경하고자 할 때 `astype()` 메서드를 사용 

In [54]:
df3.astype(float) # 정수 타입을 실수로 표현

Unnamed: 0,A,B,C
0,1.0,2.0,1.0
1,3.0,3.0,5.0
2,4.0,1.0,2.0
3,3.0,2.0,4.0
4,4.0,3.0,4.0


In [55]:
df3  #반환(변경)한게 아니라 표현한 것! 원래 식은 변동 X

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


<span style='color:YELLOW;'>예제 문제)</span>   
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category2` 열을 만들어라.  
`category2` 카테고리는 다음과 같이 정의된다.

1. 성별을 나타내는 문자열 `male` 또는 `female`로 시작한다.
2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
3. 예를 들어 27살 남성은 `male27` 값이 된다.

In [56]:
#1.2.3.                 성별        +    나이           문자열로 변경
titanic['category2'] = titanic.sex + titanic.age.astype(str)        # (str) -> dtype: object 인걸 확인할 수 있다
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38.0
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26.0
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35.0
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27.0
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19.0
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female29.7
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26.0


#### <span style='background-color:rgba(205, 100, 150, 0.6);'>실수값의 카테고리 지정</span> 
`cut()` 메서드와 `qcut()` 메서드로 실수 범위에 따라 카테고리를 지정할 수 있음  
`cut()`: 직접 경계선을 지정하여 카테고리 하는 메서드
`qcut()`: 갯수를 동일하게 하여 카테고리 하는 메서드

In [57]:
age = [0,2,10,21,23,37,31,61,20,41,32,101]

`cut()` 메서드에 카테고리할 리스트와 경계 리스트, 라벨 리스트를 전달하여 카테고리된  
`Categorical` 인스턴스를 반환 받음  
`Categorical` 인스턴스는 `categories` 속성으로 카테고리 라벨을, `codes` 속성으로 카테고리된 인덱스 리스트를 반환

In [58]:
bins = [1,20,30,50,70,100]
labels = ['미성년자','청년','중년','장년','노년']
    # 1-19 : 미성년자
    # 20-29 : 청년
    # ...
cats = pd.cut(age,bins, labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [59]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [60]:
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [61]:
df4 = pd.DataFrame(age, columns=['age'])
df4['age_cat'] = pd.cut(age, bins, labels=labels).astype(str)
df4['age_cat']

0      nan
1     미성년자
2     미성년자
3       청년
4       청년
5       중년
6       중년
7       장년
8     미성년자
9       중년
10      중년
11     nan
Name: age_cat, dtype: object

==========================================================================

In [62]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=['Q1','Q2','Q3','Q4'])
cats

['Q2', 'Q2', 'Q4', 'Q2', 'Q2', ..., 'Q4', 'Q3', 'Q1', 'Q4', 'Q3']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [63]:
cats.value_counts()

Q1    250
Q2    250
Q3    250
Q4    250
Name: count, dtype: int64

<span style='color:YELLOW;'>예제 문제)</span>   
타이타닉호 승객을 ‘미성년자’, ‘청년’, ‘중년’, ‘장년’, ‘노년’ 나이 그룹으로 나눈다.  

```python
bins = [1, 20, 30, 50, 70, 100]`  
labels = ["미성년자", "청년", "중년", "장년", "노년"]
```

그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.

In [64]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [65]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

cats = pd.cut(titanic.age, bins, labels=labels)
ratio = cats.value_counts() / cats.count()
ratio

age
청년      0.464082
중년      0.274800
미성년자    0.188141
장년      0.067275
노년      0.005701
Name: count, dtype: float64

<span style='color:YELLOW;'>예제 문제)</span>   

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category3 열을 만들어라. category3 카테고리는 다음과 같이 정의된다.
1. 20살 미만이면 성별에 관계없이 “미성년자”라고 한다.
2. 20살 이상이면 나이에 따라 “청년”, “중년”, “장년”, “노년”을 구분하고 그 뒤에 성별을 나타내는 “남성”, “여성”을 붙인다.

In [66]:
def checkAge(row):
    result = None

    sex = '남성' if row.sex == 'male'else '여성'

    if row.age >= 20:
        result = row.category3 + sex
    else:
        result = row.category3
    return result

titanic['category3'] = cats.astype(str) # category3 을 문자열로 추가
titanic['category3'] = titanic.apply(checkAge, axis=1) # 변경
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2,category3
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22.0,청년남성
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38.0,중년여성
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26.0,청년여성
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35.0,중년여성
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35.0,중년남성
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27.0,청년남성
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19.0,미성년자
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female29.7,청년여성
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26.0,청년남성


#### <span style='background-color:rgba(205, 100, 150, 0.6);'>데이터프레임 인덱스 설정 및 제거</span>

`set_index()` , `reset_index()` 메서드로 기존에 존재하던 인덱스를 변경할 수 있음  
- `set_index()`메서드 : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 선택하여 인덱스를 변경함  
- `reset_index()`메서드 : 기존의 행 인덱스를 일반 데이터 열로 변경하고 인덱스를 정수 인덱스로 변경함

In [67]:
df1 = pd.DataFrame((np.arange(16).reshape(4,4)),columns=['C1','C2','C3','C4'])
df1

Unnamed: 0,C1,C2,C3,C4
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [68]:
df2 = df1.set_index('C1')
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15


In [69]:
df2.set_index('C2')

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,3
5,6,7
9,10,11
13,14,15


In [70]:
df2.reset_index()  # 일반열로 변경시켜버린다

Unnamed: 0,C1,C2,C3,C4
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [71]:
df2.reset_index(drop=True) #'C1' 인덱스를 drop 해버린다. / 인덱스 열을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 된다.

Unnamed: 0,C2,C3,C4
0,1,2,3
1,5,6,7
2,9,10,11
3,13,14,15
