판다스의 데이터 조작(Data Manipulations) 함수를 알아보겠습니다. 

In [1]:
import pandas as pd

http_url = "https://raw.githubusercontent.com/developer-sdk/kaggle-python-beginner/master/datas/kaggle-titanic/train.csv"
train = pd.read_csv(http_url)
train.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


# crosstab: 교차도표
두 가지 이상의 데이터로 구성된 교차 도표를 표현합니다.
+ 기본적으로 빈도를 계산 
+ `margins=True`로 설정하면 전체 데이터를 추가 
+ `values`, `aggfunc`를 함께 전달하여 사용자가 원하는 함수 처리 

In [2]:
pd.crosstab(train['Sex'], train['Survived']) 

Survived,0,1
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,81,233
male,468,109


In [3]:
# 전체 건수 추가 
pd.crosstab(train['Sex'], train['Survived'], margins=True) 

Survived,0,1,All
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,81,233,314
male,468,109,577
All,549,342,891


In [4]:
# sum() 함수로 값을 반환 
pd.crosstab(train['Sex'], train['Survived'], values=train['Survived'], aggfunc=sum)

Survived,0,1
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0,233
male,0,109


# cut: 구간 분류
데이터를 구간으로 분류하고 정렬할 때 사용합니다. 연속형 데이터에서 범주형 데이터로 변경할 때도 유용합니다. 예를 들어 나이를 연령별 그룹으로 변환할 수 있습니다. 

In [5]:
# Age를 3 구간의 데이터로 분리 ([(-1.081, 26.0] < (26.0, 53.0] < (53.0, 80.0]])
pd.cut(train['Age'], 3)

0        (0.34, 26.947]
1      (26.947, 53.473]
2        (0.34, 26.947]
3      (26.947, 53.473]
4      (26.947, 53.473]
             ...       
886    (26.947, 53.473]
887      (0.34, 26.947]
888                 NaN
889      (0.34, 26.947]
890    (26.947, 53.473]
Name: Age, Length: 891, dtype: category
Categories (3, interval[float64]): [(0.34, 26.947] < (26.947, 53.473] < (53.473, 80.0]]

In [6]:
# 정의한 구간(bins)로 반환 
pd.cut(train['Age'], bins=[-1, 0, 40, 100])

0      (0.0, 40.0]
1      (0.0, 40.0]
2      (0.0, 40.0]
3      (0.0, 40.0]
4      (0.0, 40.0]
          ...     
886    (0.0, 40.0]
887    (0.0, 40.0]
888            NaN
889    (0.0, 40.0]
890    (0.0, 40.0]
Name: Age, Length: 891, dtype: category
Categories (3, interval[int64]): [(-1, 0] < (0, 40] < (40, 100]]

In [7]:
# 3구간으로 구분하고, 구간의 레이블 전달
pd.cut(train['Age'], 3, labels=["Young","Middle","Old"])

0       Young
1      Middle
2       Young
3      Middle
4      Middle
        ...  
886    Middle
887     Young
888       NaN
889     Young
890    Middle
Name: Age, Length: 891, dtype: category
Categories (3, object): [Young < Middle < Old]

In [8]:
# 구간과 레이블을 모두 전달 
pd.cut(train['Fare'], bins=[-1, 0, 8, 15, 32, 100, 600], labels=[1, 2, 3, 4, 5, 6])

0      2
1      5
2      2
3      5
4      3
      ..
886    3
887    4
888    4
889    4
890    2
Name: Fare, Length: 891, dtype: category
Categories (6, int64): [1 < 2 < 3 < 4 < 5 < 6]

# qcut: 분위수 구간 분류 
분위수(quantile)를 기준으로 변수를 동일한 크기의 버켓으로 분리합니다. 사용자가 정의한 구간으로 비율을 나누어서 설정합니다. 

In [9]:
# 4구간으로 분할
pd.qcut(train['Age'], 4)

0       (20.125, 28.0]
1         (28.0, 38.0]
2       (20.125, 28.0]
3         (28.0, 38.0]
4         (28.0, 38.0]
            ...       
886     (20.125, 28.0]
887    (0.419, 20.125]
888                NaN
889     (20.125, 28.0]
890       (28.0, 38.0]
Name: Age, Length: 891, dtype: category
Categories (4, interval[float64]): [(0.419, 20.125] < (20.125, 28.0] < (28.0, 38.0] < (38.0, 80.0]]

In [10]:
# 4구간을 지정한 레이블로 분할([Baby < Young < Middle < Old])
pd.qcut(train['Age'], 4, labels=['Baby','Young',"Middle","Old"])

0       Young
1      Middle
2       Young
3      Middle
4      Middle
        ...  
886     Young
887      Baby
888       NaN
889     Young
890    Middle
Name: Age, Length: 891, dtype: category
Categories (4, object): [Baby < Young < Middle < Old]