In [6]:
import pandas as pd

In [2]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample1.csv


# CSV 파일 입력
- CSV 파일로부터 데이터를 읽어 데이터프레임을 만들 때는 pandas.read_csv 함수를 사용한다. 함수의 입력값으로 파일 이름을 넣는다.

In [3]:
pd.read_csv('sample1.csv')  #칼럼명이 없는 데이터

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


- 위에서 읽은 데이터에는 열 인덱스는 있지만 행 인덱스 정보가 없으므로 0부터 시작하는 정수 인덱스가 자동으로 추가되었다.

- 만약 데이터 파일에 열 인덱스 정보가 없는 경우에는 read_csv 명령의 names 인수로 설정할 수 있다.

In [4]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample2.csv


In [5]:
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


- 만약 테이블 내의 특정한 열을 행 인덱스로 지정하고 싶으면 index_col 인수를 사용한다.

In [6]:
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


- 확장자가 CSV가 아닌 파일 즉, 데이터를 구분하는 구분자(separator)가 쉼표(comma)가 아니면 sep 인수를 써서 구분자를 사용자가 지정해준다.
- 만약 길이가 정해지지 않은 공백이 구분자인 경우에는 \s+ 정규식(regular expression) 문자열을 사용한다.

In [7]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [8]:
pd.read_table('sample3.txt', sep='\s+')  #  sep='\s+'  공백인지 뭔지 알수 없을때

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


- 만약 자료 파일 중에 건너 뛰어야 할 행이 있으면 skiprows 인수를 사용한다.

In [10]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [11]:
pd.read_csv('sample4.txt', skiprows=[0, 1]) # 데이터 상단 설명하는 머릿글 제외

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


- 특정한 값을 NaN으로 취급하고 싶으면 na_values 인수에 NaN 값으로 취급할 값을 넣는다.

In [13]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [14]:
df = pd.read_csv('sample5.csv', na_values=['누락'])  # NaN 값 '누락'으로 지정
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## CSV 파일 출력
- 지금까지와 반대로 파이썬의 데이터프레임 값을 CSV 파일로 출력하고 싶으면 to_csv 메서드를 사용한다.

In [16]:
df.to_csv('sample6.csv')

- 파일을 읽을 때와 마찬가지로 출력할 때도 sep 인수로 구분자를 바꿀 수 있다.

In [18]:
df.to_csv('sample7.txt', sep='|')

In [19]:
!type sample7.txt

Active code page: 65001
|c1| c2| c3
0|1.0| 1.11| one
1|2.0| | two
2|| 3.33| three


- 또 na_rep 인수로 NaN 표시값을 바꿀 수도 있다.

In [20]:
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [21]:
df.to_csv('sample8.csv', na_rep='누락') # unicode encoding 처리 필요

In [22]:
!type sample8.csv

Active code page: 65001
,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,누락, 3.33, three


- index, header 인수를 지정하여 인덱스 및 헤더 출력 여부를 지정하는 것도 가능하다.

In [23]:
df.index = ["a", "b", "c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [24]:
df.to_csv('sample9.csv', index=False, header=False) # 헤더 숨김처리

In [25]:
!type sample9.csv

Active code page: 65001
1.0, 1.11, one
2.0, , two
, 3.33, three


## 인터넷 상의 CSV 파일 입력
- 웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다.
- read_csv 명령 사용시 파일 path 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다.
- 다음은 저자의 github 웹사이트에 저장되어 있는 데이터 파일을 원격으로 읽는 명령이다.

In [20]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [21]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [29]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


## 인터넷 상의 데이터 베이스 자료 입력
- pandas_datareader 패키지의 DataReader 을 사용하면 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있다. (일부는 유료이니 참고)

- 날짜는 datetime 패키지를 사용하여 지정해도 되고 문자열을 바로 사용해도 된다. (이때는 내부적으로 dateutil 패키지를 사용한다.

In [30]:
import datetime
dt_start = datetime.datetime(2015, 1, 1)
dt_end = "2016, 6, 30"

In [31]:
pip install pandas_datareader

Active code page: 65001
Note: you may need to restart the kernel to use updated packages.


In [32]:
import pandas_datareader as pdr

In [33]:
gdp = pdr.get_data_fred('GDP', dt_start, dt_end)
gdp.tail()

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-04-01,18279.784
2015-07-01,18401.626
2015-10-01,18435.137
2016-01-01,18525.933
2016-04-01,18711.702


- 데이터 코드에 리스트를 넣으면 여러개의 데이터를 동시에 가져온다.

In [34]:
inflation = pdr.get_data_fred(["CPIAUCSL", "CPILFESL"], dt_start, dt_end)
inflation.tail()

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2016-02-01,237.336,245.51
2016-03-01,238.08,245.913
2016-04-01,238.992,246.551
2016-05-01,239.557,247.137
2016-06-01,240.222,247.54


---

# 데이터프레임 고급 인덱싱

- loc : 라벨값 기반의 2차원 인덱싱 # 사람관점의 라벨인덱스 기준
- iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱 # 컴퓨터관점의 인덱스 기준

## loc 인덱서
- df.loc[행 인덱싱값]
- df.loc[행 인덱싱값, 열 인덱싱값]

In [145]:
import pandas as pd
import numpy as np

In [148]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


### 인덱싱값을 하나만 받는 경우
- 만약 loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택한다.

- 인덱스데이터가 "a"인 행을 고르면 해당하는 행이 시리즈로 출력된다.
- 시리즈라서 상하로 길게 출력되기는 했지만 행을 가져오고 있다.

In [38]:
df['A']

a    10
b    14
c    18
Name: A, dtype: int32

In [39]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [147]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [40]:
df.loc["b":"c"] # 인덱스데이터의 슬라이스도 가능하다.
# 이 때는 사실 loc를 쓰지 않는 경우과 같다.

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [46]:
df.loc[ ["a", "c"] ] # 인덱스데이터의 리스트도 된다.

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [43]:
df[["b", "c"]] # KeyError = 칼럼명이 없으니까
# 이 때는 loc를 쓰지 않으면 KeyError 오류가 발생한다..

KeyError: "None of [Index(['b', 'c'], dtype='object')] are in the [columns]"

- 데이터베이스와 같은 인덱스를 가지는 불리언 시리즈도 행을 선택하는 인덱싱값으로 쓸 수 있다.

In [44]:
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [45]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


- 인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있다.
- 다음 함수는 A열의 값이 12보다 큰 행만 선택한다.

In [47]:
def select_rows(df):
    return df.A > 15

In [48]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [49]:
df.loc[select_rows(df)]
# loc 인덱서가 없는 경우에 사용했던 라벨(칼럼) 인덱싱이나 라벨 리스트 인덱싱은 불가능하다.

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [151]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [50]:
df['A']  # 이건 '칼럼'이 기준

a    10
b    14
c    18
Name: A, dtype: int32

In [51]:
df.loc["A"]  # KeyError
# loc의 기준은 '행'

KeyError: 'A'

In [52]:
df[["A", "B"]] 

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [53]:
#원래 (행) 인덱스값이 정수인 경우에는 슬라이싱도 라벨 슬라이싱 방식을 따르게 된다.
#즉, 슬라이스의 마지막 값이 포함된다.

df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [55]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


### 인덱싱값을 행과 열 모두 받는 경우
- 인덱싱값을 행과 열 모두 받으려면 df.loc[행 인덱스, 열 인덱스]와 같은 형태로 사용한다.
- 행 인덱스 라벨값이 a, 열 인덱스 라벨값이 A인 위치의 값을 구하는 것은 다음과 같다.

In [56]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [57]:
df.loc["a", "A"]

10

In [58]:
#인덱싱값으로 라벨 데이터의 슬라이싱 또는 리스트를 사용할 수도 있다.
df.loc["b": , "A"]

b    14
c    18
Name: A, dtype: int32

In [59]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [60]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [61]:
# 행 인덱스가 같은 불리언 시리즈나 이러한 불리언 시리즈를 반환하는 함수도 행의 인덱싱값이 될 수 있다.
df.loc[df.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


## iloc 인덱서
- iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받는다. 다른 사항은 loc 인덱서와 같다.

In [63]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [64]:
df.iloc[0, 1]

11

In [65]:
df.iloc[:2, 2] # 0,1 , 2.. 2번째 칼럼

a    12
b    16
Name: C, dtype: int32

In [66]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [67]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [68]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [69]:
# loc 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택한다.
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [70]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


---

# 데이터프레임의 데이터 조작

In [71]:
s = pd.Series(range(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [72]:
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [73]:
s.count()

9

- 데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 데이터에서 값이 누락된 부분을 찾을 때 유용하다.

In [152]:
np.random.seed?

In [153]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [154]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [155]:
df.iloc[2,3] = np.nan

In [156]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

- 다음 명령으로 타이타닉호의 승객 데이터를 데이터프레임으로 읽어올 수 있다. 이 명령을 실행하려면 seaborn 패키지가 설치되어 있어야 한다.

In [22]:
import seaborn as sns

In [23]:
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [24]:
len(titanic)

891

In [83]:
# 타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## 카테고리 값 세기
- *시리즈*의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

In [85]:
import pandas as pd
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [86]:
s2.value_counts() # 시리즈에서만 쓸 수 있음

1    22
0    18
4    17
5    16
3    14
2    13
Name: count, dtype: int64

In [157]:
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [160]:
# 데이터프레임에서 쓰려면... 시리즈에서 '열' 한 개씩 추출한 다음에 사용
# 데이터프레임에는 value_counts 메서드가 없으므로 각 열마다 별도로 적용해야 한다.

df[1].value_counts()

1
0.0    2
2.0    1
3.0    1
Name: count, dtype: int64

## 정렬 
- 데이터를 정렬하려면 sort_index 메서드 sort_values 메서드를 사용한다.
- sort_index 메서드는 인덱스 값을 기준으로, sort_values 메서드는 데이터 값을 기준으로 정렬한다.

- 앞에서 s2 시리즈의 각 데이터 값에 따른 데이터 갯수를 인덱스에 따라 정렬하려면 다음처럼 sort_index를 적용한다.

In [90]:
s2.value_counts().sort_index() 

0    18
1    22
2    13
3    14
4    17
5    16
Name: count, dtype: int64

In [92]:
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [94]:
# NaN값이 있는 경우에는 정렬하면 NaN값을 가장 마지막으로 이동
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

- 큰 수에서 작은 수로 반대 방향 정렬하려면 ascending=False 인수를 지정한다.

In [95]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

- 데이터프레임에서 sort_values 메서드를 사용하려면 by 인수로 정렬 기준이 되는 열을 지정해 주어야 한다.

In [96]:
df.sort_values(by=1) # 방향을 두번째(0, 1) 열로 지정

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [98]:
# by 인수에 리스트 값을 넣으면 이 순서대로 정렬 기준의 우선 순위가 된다.
# 리스트의 첫번째 열을 기준으로 정렬한 후 동일한 값이 나오면 그 다음 열로 순서를 따지게 된다.

df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


- 연습 문제
- sort_values 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라

In [99]:
titanic[['sex', 'age', 'class', 'alive']]

Unnamed: 0,sex,age,class,alive
0,male,22.0,Third,no
1,female,38.0,First,yes
2,female,26.0,Third,yes
3,female,35.0,First,yes
4,male,35.0,Third,no
...,...,...,...,...
886,male,27.0,Second,no
887,female,19.0,First,yes
888,female,,Third,no
889,male,26.0,First,yes


In [100]:
titanic['sex'].sort_values()

383    female
218    female
609    female
216    female
215    female
        ...  
371      male
372      male
373      male
360      male
890      male
Name: sex, Length: 891, dtype: object

In [103]:
titanic['sex'].value_counts()

sex
male      577
female    314
Name: count, dtype: int64

In [104]:
list1 = ['sex', 'age', 'class', 'alive']
for l in list1:
    print(titanic[l].value_counts())
    print('='*10)

sex
male      577
female    314
Name: count, dtype: int64
age
24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
36.50     1
55.50     1
0.92      1
23.50     1
74.00     1
Name: count, Length: 88, dtype: int64
class
Third     491
First     216
Second    184
Name: count, dtype: int64
alive
no     549
yes    342
Name: count, dtype: int64


## 행/열 합계
- 행과 열의 합계를 구할 때는 sum(axis) 메서드를 사용한다. axis 인수에는 합계로 인해 없어지는 방향축(0=행, 1=열)을 지정한다.

In [166]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


- 행합계(열 방향) 합계를 구할 때는 sum(axis=1) 메서드를 사용한다.

In [167]:
# 행합계(열 방향) 합계를 구할 때는 sum(axis=1) 메서드를 사용한다.
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

- 열 합계(행 방향)를 구할 때는 sum(axis=0) 메서드를 사용하는데 axis인수의 디폴트 값이 0이므로 axis인수를 생략할 수 있다.

In [168]:
# 열 합계(행 방향)를 구할 때는 sum(axis=0) 메서드를 사용하는데 
# axis인수의 디폴트 값이 0이므로 axis인수를 생략할 수 있다.
df2["RowValSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowValSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [169]:
df2.sum()

0             24
1             33
2             25
3             24
4             15
5             10
6              5
7             16
RowValSum    152
dtype: int64

In [170]:
df2.loc["ColTotal", :] = df2.sum()   # df2.loc["ColTotal", :] 동일한 결과
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowValSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


- mean 메서드는 평균을 구하며 sum 메서드와 사용법이 같다.

- 연습 문제

- 타이타닉호 승객의 평균 나이를 구하라.
- 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
- 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라

In [112]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [116]:
# 전체 탑승객 평균나이

titanic['age'].mean()

29.69911764705882

In [117]:
# 여성 탑승객 평균나이
# 여성 승객만 먼저 불린 인덱싱 + 뒤에 [age].mean() 붙여주면 끝

titanic[titanic['sex'] == 'female']['age'].mean()

27.915708812260537

In [121]:
# 1등실 + 여성 + 평균 나이
# "여성 승객 & 1등실 승객" 먼저 불린 인덱싱 + 뒤에 [age].mean() 붙여주면 끝

titanic[(titanic['pclass'] == 1) & (titanic['sex']=='female')]['age'].mean()

34.61176470588235

## apply 변환
- 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다.
- 인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다.

In [7]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [8]:
# 각 열의 최대값과 최소값의 차이를 구하고 싶으면 다음과 같은 람다 함수를 넣는다
df3.apply(lambda x: x.max() - x.min()) # default axis=0  (행방향 = 열합계)

A    3
B    2
C    4
dtype: int64

In [9]:
# 만약 행에 대해 적용하고 싶으면 axis=1 인수를 쓴다.
df3.apply(lambda x: x.max() - x.min(), axis=1)   #(열방향 = 행 합계)

0    1
1    2
2    3
3    2
4    1
dtype: int64

- 각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 value_counts 함수를 넣으면 된다.


In [10]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [11]:
df3.apply(pd.value_counts)  # 자주 쓰지는 않는다;;;;

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


- 연습문제
- 타이타닉호의 승객 중 나이 20살을 기준으로 성인(adult)과 미성년자(child)를 구별하는 라벨 열을 만들 수 있다.

In [44]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,30.0,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [134]:
titanic['ad_ch'] = titanic.apply(lambda x: 'ad' if x.age >=20 
                                 else 'ch', axis=1)

In [135]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,ad_ch
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,ad
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,ch
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,ch
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,ad
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,ad


- 연습 문제

- 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라.
- category1 카테고리는 다음과 같이 정의된다.
- 20살이 넘으면 성별을 그대로 사용한다.
- 20살 미만이면 성별에 관계없이 "child"라고 한다.

In [45]:
titanic['category1'] = titanic.apply(lambda x: x.sex if 'CH' x.age < 20 else x.sex, axis=1)

SyntaxError: invalid syntax (3176131649.py, line 1)

In [46]:
titanic["category1"] =titanic.apply(lambda x: x.sex if x.age >=20 else 'CH', axis=1)

In [47]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,CH
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male


## fillna 메서드
- NaN 값은 fillna 메서드를 사용하여 원하는 값으로 바꿀 수 있다.

In [12]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [13]:
df3['A']

0    1
1    3
2    4
3    3
4    4
Name: A, dtype: int64

In [14]:
df3['A'].value_counts()

A
3    2
4    2
1    1
Name: count, dtype: int64

In [15]:
# 각 열의 고유한 값 수를 파악하는 방법
df3.apply(pd.value_counts) # axis=0 열기준

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [16]:
df3.apply(pd.value_counts).fillna(0.0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


- 연습 문제 

- 타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [48]:
import seaborn as sns

titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [49]:
titanic['age'].tail()

886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, dtype: float64

In [50]:
titanic['age'].isnull() # null값이면 알려줘

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888     True
889    False
890    False
Name: age, Length: 891, dtype: bool

In [51]:
titanic['age'].isnull().sum()  # null값이 몇개인지 보자

177

In [52]:
a_m = round(titanic['age'].mean())
a_m

30

In [54]:
titanic['age'].fillna((a_m), inplace=True)
titanic['age'].tail(10)

881    33.0
882    22.0
883    28.0
884    25.0
885    39.0
886    27.0
887    19.0
888    30.0
889    26.0
890    32.0
Name: age, dtype: float64

In [42]:
# 답안
titanic['age'] = titanic['age'].fillna( round(titanic['age'].mean() ))
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,30.0,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [53]:
titanic['age'].fillna( round(titanic['age'].mean()) )

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    30.0
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [43]:
titanic['age'].isnull().sum()

0

## astype 메서드
- 
astype 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능하다.

In [55]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


- 연습 문제

- 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category2 열을 만들어라.
category2 카테고리는 다음과 같이 정의된다.

- 성별을 나타내는 문자열 male 또는 female로 시작한다.
- 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
- 예를 들어 27살 남성은 male27 값이 된다.

In [57]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [71]:
titanic['category2'] = titanic.sex + titanic.age.astype(str)
                            # .0이 안 사라짐 ㅠㅠ
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38.0
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26.0
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35.0
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27.0
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19.0
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female30.0
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26.0


In [73]:
titanic['category2'] = titanic.sex + titanic.age.astype(int).astype(str) 
                                    # 앞에 astype(int)를 한번 더 추가하면 된다
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female30
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26


In [70]:
# 답안
titanic["category2"] = titanic.apply(lambda x: x.sex + str(int(x.age)), axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female30
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26


## 실수 값을 카테고리 값으로 변환
- 실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.

- cut: 실수 값의 경계선을 지정하는 경우
- qcut: 갯수가 똑같은 구간으로 나누는 경우
---
- cut : 사람이 구간 기준을 나눈다.
- qcut:  구간 갯수만 정해주면 자동으로 구간 기준을 잡아준다.

In [74]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

- cut 명령을 사용하면 '실수값'을 다음처럼 '카테고리 값'으로 바꿀 수 있다.
- bins 인수는 카테고리를 나누는 기준값이 된다. 영역을 넘는 값은 NaN으로 처리된다.

In [89]:
bins = [1, 20, 30, 50, 70, 100]  
# 데이터를 나누는 기준점 = 이 구간으로 쪼개줘

labels = ["미성년자", "청년", "중년", "장년", "노년"]  
# 구분된 데이터의 각 이름(값이름)

cats = pd.cut(ages, bins, labels=labels) 
# 레이블 이름은 "labels" 리스트에 작성한 대로 달아주고

cats
# 0은 해당값이 아니므로 NaN 처리
# 카테고리 범주형은 이렇게 순서를 갖는다

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

- cut 명령이 반환하는 값은 Categorical 클래스 객체이다. 
- 이 객체는 categories 속성으로 라벨 문자열을, codes 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [78]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [79]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [80]:
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [81]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [82]:
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)
print(bins)
print(labels)
df4

[1, 20, 30, 50, 70, 100]
['미성년자', '청년', '중년', '장년', '노년']


Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


- 따라서 위 데이터프레임의 age_cat 열값은 문자열이 아니다. 이를 문자열로 만들려면 astype 메서드를 사용해야 한다.

In [91]:
df4['age_cat']  # 현재 속성이 문자열이 아닌 카테고리!

0      NaN
1     미성년자
2     미성년자
3       청년
4       청년
5       중년
6       중년
7       장년
8     미성년자
9       중년
10      중년
11     NaN
Name: age_cat, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [92]:
df4.age_cat.astype(str) + df4.ages.astype(str)  
# str 변환하려면 astype() 꼭!

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       중년37
6       중년31
7       장년61
8     미성년자20
9       중년41
10      중년32
11    nan101
dtype: object

- qcut 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다.
- 예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

In [86]:
import numpy as np

In [99]:
data = np.random.randn(1000) # 1000개의 데이터를 랜덤으로 뽑아줘
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

['Q1', 'Q1', 'Q3', 'Q4', 'Q3', ..., 'Q3', 'Q2', 'Q1', 'Q2', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [100]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
Name: count, dtype: int64

- 연습 문제 

- 타이타닉호 승객을 '미성년자', '청년', '중년', '장년', '노년' 나이 그룹으로 나눈다.

- bins = [1, 20, 40, 50, 70, 100]
- labels = ["미성년자", "청년", "중년", "장년", "노년"]
- 그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.

In [101]:
bins = [1, 20, 40, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [105]:
a_g = pd.cut(titanic.age, bins, labels=labels)
a_g.head(10)

0      청년
1      청년
2      청년
3      청년
4      청년
5      청년
6      장년
7    미성년자
8      청년
9    미성년자
Name: age, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [106]:
a_g.value_counts()

age
청년      562
미성년자    165
중년       86
장년       59
노년        5
Name: count, dtype: int64

In [107]:
a_g.value_counts()/ len(a_g) * 100

age
청년      63.075196
미성년자    18.518519
중년       9.652076
장년       6.621773
노년       0.561167
Name: count, dtype: float64

- 연습 문제

- 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category3 열을 만들어라. category3 카테고리는 다음과 같이 정의된다.

- 20살 미만이면 성별에 관계없이 "미성년자"라고 한다.
- 20살 이상이면 나이에 따라 "청년", "중년", "장년", "노년"을 구분하고 그 뒤에 성별을 나타내는 "남성", "여성"을 붙인다.

In [109]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,male22
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,female26
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,female35
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,male35


In [110]:
bins = [1, 20, 40, 50, 70, 100]
a_labels = ["미성년자", "청년", "중년", "장년", "노년"]
s_labels = ["남성", "여성"]

In [116]:
titanic['category3'] = pd.cut(titanic.age, bins, labels=a_labels)
titanic['category3'].tail()

886      청년
887    미성년자
888      청년
889      청년
890      청년
Name: category3, dtype: category
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [127]:
titanic["category3"] = titanic.apply(lambda x : '미성년자' if x.age <= 20 else x.category3 + x.sex, axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2,category3
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22,청년male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38,청년female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26,청년female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35,청년female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35,청년male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27,청년male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19,미성년자
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female30,청년female
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26,청년male


In [129]:
titanic["category3"] = pd.cut(titanic.age, bins, labels=labels)
titanic["category3"] = titanic.apply(lambda x : '미성년자' if x.age <= 20 else 
                                     (x.category3 + '남성' if x.sex == 'male' else x.category3 + '여성'), axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2,category3
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22,청년남성
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38,청년여성
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26,청년여성
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35,청년여성
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35,청년남성
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27,청년남성
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19,미성년자
888,0,3,female,30.0,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female30,청년여성
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26,청년남성
