- pandas는 numpy 2차원 배열에서 가능한 대부분의 데이터 처리 가능  
- 데이터 처리 및 변환을 위한 다양한 function과 method 제공

# 데이터 개수 세기 - count

`count` : NaN 값 제외

## Series count

In [2]:
import pandas as pd
import numpy as np

In [4]:
s = pd.Series(range(10))

In [5]:
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [6]:
s[3]

3

In [9]:
s.loc[5:9]

5    5
6    6
7    7
8    8
9    9
dtype: int64

In [10]:
s.loc[5,9]

IndexingError: Too many indexers

In [11]:
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [13]:
s.count()

9

## dataframe count

In [14]:
np.random.seed(2)

In [16]:
df = pd.DataFrame(np.random.randint(5, size=(4,4)), dtype=float)

In [17]:
df

Unnamed: 0,0,1,2,3
0,3.0,3.0,2.0,1.0
1,2.0,4.0,3.0,0.0
2,4.0,3.0,1.0,2.0
3,0.0,4.0,4.0,2.0


In [34]:
df.loc[2,3] = np.nan

In [35]:
df

Unnamed: 0,0,1,2,3
0,3.0,3.0,2.0,1.0
1,2.0,4.0,3.0,0.0
2,4.0,3.0,1.0,
3,0.0,4.0,4.0,2.0


In [36]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

# titanic dataset

## titanic dataset 불러오기

In [17]:
import seaborn as sns

In [18]:
titanic = sns.load_dataset('titanic')

In [43]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


## 데이터 길이 확인

In [44]:
len(titanic)

891

## 데이터 개수 구하기

dataframe 각 열마다 개수 구하기

In [46]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## 카테고리 값 세기

`value_counts` : 시리즈의 값이 **정수, 문자열, 카테고리**인 경우 각각의 값이 나온 횟수를 셀 수 있다

### Series value_counts

In [47]:
import pandas as pd
np.random.seed(1)

s2 = pd.Series(np.random.randint(6, size=100))
s2

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

In [48]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
Name: count, dtype: int64

In [51]:
s2.count()

100

### Dataframe은 value_counts method 없음

각 열마다 별도 적용

In [52]:
df

Unnamed: 0,0,1,2,3
0,3.0,3.0,2.0,1.0
1,2.0,4.0,3.0,0.0
2,4.0,3.0,1.0,
3,0.0,4.0,4.0,2.0


In [55]:
df.value_counts()

0    1    2    3  
0.0  4.0  4.0  2.0    1
2.0  4.0  3.0  0.0    1
3.0  3.0  2.0  1.0    1
Name: count, dtype: int64

In [57]:
df[0].value_counts()

0
3.0    1
2.0    1
4.0    1
0.0    1
Name: count, dtype: int64

In [64]:
for i in range(len(df)):
    print(df[i].value_counts())
    print('--------'*5)

0
3.0    1
2.0    1
4.0    1
0.0    1
Name: count, dtype: int64
----------------------------------------
1
3.0    2
4.0    2
Name: count, dtype: int64
----------------------------------------
2
2.0    1
3.0    1
1.0    1
4.0    1
Name: count, dtype: int64
----------------------------------------
3
1.0    1
0.0    1
2.0    1
Name: count, dtype: int64
----------------------------------------


## 정렬

`sort_index` : 인덱스 값 기준  
`sort_values` : 데이터 값 기준

### Series 정렬

In [66]:
s2

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

In [68]:
s2.sort_index()

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

In [69]:
s2.sort_index(ascending=False)

99    3
98    4
97    2
96    5
95    4
     ..
4     1
3     0
2     4
1     3
0     5
Length: 100, dtype: int32

In [70]:
s2.sort_values()

57    0
38    0
39    0
85    0
28    0
     ..
71    5
40    5
46    5
11    5
0     5
Length: 100, dtype: int32

In [71]:
s2.sort_values(ascending=False)

0     5
74    5
23    5
32    5
40    5
     ..
68    0
57    0
77    0
38    0
78    0
Length: 100, dtype: int32

In [76]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
Name: count, dtype: int64

In [73]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
Name: count, dtype: int64

In [74]:
s2.value_counts().sort_index(ascending=False)

5    16
4    17
3    14
2    13
1    22
0    18
Name: count, dtype: int64

In [75]:
s2.value_counts().sort_values()

2    13
3    14
5    16
4    17
0    18
1    22
Name: count, dtype: int64

In [77]:
s2.value_counts().sort_values(ascending=False)

1    22
0    18
4    17
5    16
3    14
2    13
Name: count, dtype: int64

In [78]:
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [79]:
s.sort_index()

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [80]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [81]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

### DataFrame 정렬

`by` 인수로 정렬 기준이 되는 열을 지정해줘야 한다.

In [82]:
df

Unnamed: 0,0,1,2,3
0,3.0,3.0,2.0,1.0
1,2.0,4.0,3.0,0.0
2,4.0,3.0,1.0,
3,0.0,4.0,4.0,2.0


In [84]:
df.sort_values(by=0)

Unnamed: 0,0,1,2,3
3,0.0,4.0,4.0,2.0
1,2.0,4.0,3.0,0.0
0,3.0,3.0,2.0,1.0
2,4.0,3.0,1.0,


`by` 인수에 리스트를 넣으면 리스트 값 순서대로 정렬 기준의 우선 순위가 된다.  
리스트의 첫번째 값을 열의 기준으로 정렬한 후, 동일한 값이 나오면 그 다음 값을 열의 기준으로 정렬한다.

In [88]:
df.sort_values(by=1)

Unnamed: 0,0,1,2,3
0,3.0,3.0,2.0,1.0
2,4.0,3.0,1.0,
1,2.0,4.0,3.0,0.0
3,0.0,4.0,4.0,2.0


In [87]:
df.sort_values(by=[1,2])

Unnamed: 0,0,1,2,3
2,4.0,3.0,1.0,
0,3.0,3.0,2.0,1.0
1,2.0,4.0,3.0,0.0
3,0.0,4.0,4.0,2.0


## 연습문제 1

`sort_values` 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [89]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [95]:
titanic[['sex', 'age', 'class', 'alive']].count()

sex      891
age      714
class    891
alive    891
dtype: int64

In [96]:
label = ['sex', 'age', 'class', 'alive']

In [103]:
for i in label:
    print(titanic[i].value_counts())
    print('--------'*5)

sex
male      577
female    314
Name: count, dtype: int64
----------------------------------------
age
24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
36.50     1
55.50     1
0.92      1
23.50     1
74.00     1
Name: count, Length: 88, dtype: int64
----------------------------------------
class
Third     491
First     216
Second    184
Name: count, dtype: int64
----------------------------------------
alive
no     549
yes    342
Name: count, dtype: int64
----------------------------------------


## 행/열 합계

`sum(axis)` : `axis` 인수에는 합할 방향축 지정 (0 = 행, 1 = 열)

In [104]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [110]:
df2.sum(axis=1) # 열방향 합계 = 행합계

0    35
1    34
2    41
3    42
dtype: int64

In [112]:
df2.sum(axis=0) # 행방향 합계 = 열합계

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

In [114]:
df2['rowsum'] = df2.sum(axis=1)

In [115]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,rowsum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [117]:
df2.loc['colsum'] = df2.sum(axis=0) # 행에 인덱스와 값을 넣으려면 loc

In [118]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,rowsum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
colsum,24,33,25,24,15,10,5,16,152


## 행/열 평균

`mean(axis)`

In [120]:
df

Unnamed: 0,0,1,2,3
0,3.0,3.0,2.0,1.0
1,2.0,4.0,3.0,0.0
2,4.0,3.0,1.0,
3,0.0,4.0,4.0,2.0


In [122]:
df.mean(axis=0) # 행방향 = 열계산

0    2.25
1    3.50
2    2.50
3    1.00
dtype: float64

In [123]:
df.mean(axis=1) # 열방향 = 행계산

0    2.250000
1    2.250000
2    2.666667
3    2.500000
dtype: float64

## 연습문제 2

1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [124]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [127]:
# 1
titanic['age'].mean(axis=0)

29.69911764705882

In [132]:
# 2
titanic[titanic['sex'] == 'female']['age'].mean(axis=0)

27.915708812260537

In [139]:
# 3
titanic[(titanic['class'] == 'First') & (titanic['sex'] == 'female')]['age'].mean(axis=0)

34.61176470588235

## apply 변환

인수로 행 또는 열을 받는 함수를 `apply` 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다.

In [3]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [6]:
df3.max()-df3.min()

A    3
B    2
C    4
dtype: int64

In [7]:
df3.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [8]:
df3.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [9]:
df3.value_counts()

A  B  C
1  2  1    1
3  2  4    1
   3  5    1
4  1  2    1
   3  4    1
Name: count, dtype: int64

In [15]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


## 연습문제 3

타이타닉호의 승객 중 나이 20살을 기준으로 성인(adult)과 미성년자(child)를 구별하는 라벨 열을 만들어 보자.

In [22]:
titanic['adult/child'] = titanic.apply(lambda x: 'adult' if x.age >= 20 else 'child', axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult


## 연습문제 4

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category1` 열을 만들어라.   
`category1` 카테고리는 다음과 같이 정의된다.

1. 20살이 넘으면 성별을 그대로 사용한다.
2. 20살 미만이면 성별에 관계없이 "child"라고 한다.

In [25]:
titanic['category1'] = titanic.apply(lambda x: x.sex if x.age >= 20 else 'child', axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


## fillna method

NaN 값은 `fillna` 메서드를 사용하여 원하는 값으로 바꿀 수 있다.

In [26]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [27]:
df3['A']

0    1
1    3
2    4
3    3
4    4
Name: A, dtype: int64

In [28]:
df3['A'].value_counts()

A
3    2
4    2
1    1
Name: count, dtype: int64

In [29]:
df3.value_counts()

A  B  C
1  2  1    1
3  2  4    1
   3  5    1
4  1  2    1
   3  4    1
Name: count, dtype: int64

In [30]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [31]:
df3.apply(pd.value_counts).fillna(0.0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## 연습문제 5

타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [34]:
titanic.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
adult/child      0
category1        0
dtype: int64

In [40]:
titanic['age'].isnull().sum() # age null 개수

177

In [41]:
round(titanic['age'].mean(), 2) # 고객 평균 나이

29.7

In [45]:
titanic['age'] = titanic['age'].fillna(round(titanic['age'].mean(), 2))

In [46]:
titanic['age'].isnull().sum()

0

In [48]:
titanic['age'].mean()

29.69929292929293

In [49]:
titanic['age'].value_counts()

age
29.70    177
24.00     30
22.00     27
18.00     26
28.00     25
        ... 
36.50      1
55.50      1
0.92       1
23.50      1
74.00      1
Name: count, Length: 89, dtype: int64

## astype method

`astype` 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능하다.

In [50]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [53]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


## 연습문제 6

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category2` 열을 만들어라.   
`category2` 카테고리는 다음과 같이 정의된다.

1. 성별을 나타내는 문자열 `male` 또는 `female`로 시작한다.
2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
3. 예를 들어 27살 남성은 `male27` 값이 된다.

In [62]:
titanic['category2'] = titanic['sex'] + titanic['age'].astype(int).astype(str)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female29
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26


## 실수 값을 카테고리 값으로 변환

실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.

- `cut`: 실수 값의 경계선을 지정하는 경우
- `qcut`: 갯수가 똑같은 구간으로 나누는 경우

In [63]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

`cut` 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꿀 수 있다.  
`bins` 인수는 카테고리를 나누는 기준값이 된다. 영역을 넘는 값은 NaN으로 처리된다.

In [65]:
bins = [1, 20, 40, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [68]:
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '청년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

`cut` 명령이 반환하는 값은 Categorical 클래스 객체이다. 이 객체는 `categories` 속성으로 라벨 문자열을, `codes` 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [69]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [71]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [72]:
cats.codes

array([-1,  0,  0,  1,  1,  1,  1,  3,  0,  2,  1, -1], dtype=int8)

In [74]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [76]:
df4['age_cat'] = pd.cut(df4.ages, bins, labels=labels)
print(bins)
print(labels)
df4

[1, 20, 40, 50, 70, 100]
['미성년자', '청년', '중년', '장년', '노년']


Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,청년
6,31,청년
7,61,장년
8,20,미성년자
9,41,중년


따라서 위 데이터프레임의 age_cat 열값은 문자열이 아니다. 이를 문자열로 만들려면 `astype` 메서드를 사용해야 한다.

In [77]:
df4['age_cat']

0      NaN
1     미성년자
2     미성년자
3       청년
4       청년
5       청년
6       청년
7       장년
8     미성년자
9       중년
10      청년
11     NaN
Name: age_cat, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [79]:
df4.age_cat.astype(str) + df4.ages.astype(str)

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       청년37
6       청년31
7       장년61
8     미성년자20
9       중년41
10      청년32
11    nan101
dtype: object

`qcut` 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다.
예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

In [81]:
data = np.random.randn(1000)
data

array([-2.07408573e-01,  2.34041686e-01, -1.20376383e+00, -5.03335292e-01,
        1.14530748e+00,  6.01613172e-01, -1.67226126e+00, -2.34291376e+00,
        3.30691277e-01,  6.76664497e-01,  1.00235998e+00, -1.09882141e+00,
       -7.72171272e-04,  2.34685965e-01,  1.10992307e+00,  1.47925491e+00,
        7.95047155e-01,  1.62532529e+00, -7.23012709e-02,  1.65004781e+00,
        1.00336405e+00, -6.46131670e-01, -3.60768670e-01, -5.46780368e-01,
        1.23833846e+00, -6.93988214e-01, -1.00200741e+00, -9.71394311e-01,
        4.87162514e-01,  7.27931715e-01,  1.27855358e+00,  7.77205562e-02,
       -8.60115416e-01,  9.11161765e-01,  2.50899485e+00,  8.83104260e-01,
        7.93650445e-01,  2.24497026e+00,  4.05603666e-01, -7.29913456e-01,
       -1.16754432e+00, -2.24904517e+00,  1.49361773e+00,  1.18442466e-01,
        2.96126835e+00,  1.57644622e+00, -2.04586152e+00,  5.36725590e-01,
       -5.67447504e-01, -5.89874396e-01, -1.28105541e+00, -1.19556264e+00,
        8.40090425e-01,  

In [84]:
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

['Q2', 'Q3', 'Q1', 'Q2', 'Q4', ..., 'Q1', 'Q2', 'Q4', 'Q2', 'Q1']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [85]:
cats.value_counts()

Q1    250
Q2    250
Q3    250
Q4    250
Name: count, dtype: int64

## 연습문제 7

타이타닉호 승객을 '미성년자', '청년', '중년', '장년', '노년' 나이 그룹으로 나눈다.

bins = [1, 20, 40, 50, 70, 100]  
labels = ["미성년자", "청년", "중년", "장년", "노년"]

그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.

In [86]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female29
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26


In [87]:
bins = [1, 20, 40, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [93]:
df5 = pd.cut(titanic['age'], bins, labels=labels)
df5

0        청년
1        청년
2        청년
3        청년
4        청년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      청년
Name: age, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [99]:
df5.value_counts(normalize=True) * 100

age
청년      64.082098
미성년자    18.814139
중년       9.806157
장년       6.727480
노년       0.570125
Name: proportion, dtype: float64

## 연습문제 8

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category3` 열을 만들어라. `category3` 카테고리는 다음과 같이 정의된다.

1. 20살 미만이면 성별에 관계없이 "미성년자"라고 한다.
2. 20살 이상이면 나이에 따라 "청년", "중년", "장년", "노년"을 구분하고 그 뒤에 성별을 나타내는 "남성", "여성"을 붙인다.

In [100]:
bins = [1, 20, 40, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [103]:
titanic['category3'] = pd.cut(titanic['age'], bins, labels=labels)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2,category3
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22,청년
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38,청년
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26,청년
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35,청년
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35,청년
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27,청년
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19,미성년자
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female29,청년
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26,청년


In [106]:
titanic['category3'] = titanic.apply(lambda x: '미성년자' if x.age < 20 else 
             (x.category3 + '남성' if x.sex == 'male' else 
             x.category3 + '여성'), axis=1)

In [107]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2,category3
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22,청년남성
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38,청년여성
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26,청년여성
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35,청년여성
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35,청년남성
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27,청년남성
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19,미성년자
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female29,청년여성
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26,청년남성
