# 4.4 데이터프레임의 데이터 조작

In [9]:
import numpy as np
import pandas as pd

## 데이터 갯수 세기

In [4]:
s = pd.Series(range(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [5]:
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [7]:
s.count()

9

In [8]:
np.random.seed(2020)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,3.0
1,3.0,3.0,0.0,0.0
2,0.0,0.0,2.0,1.0
3,3.0,3.0,2.0,3.0


In [9]:
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,3.0
1,3.0,3.0,0.0,0.0
2,0.0,0.0,2.0,
3,3.0,3.0,2.0,3.0


### seabord: 그래픽 라이브러리

다음 명령으로 타이타닉호의 승객 데이터를 데이터프레임으로 읽어올 수 있다. 이 명령을 실행하려면 seaborn 패키지가 설치되어 있어야 한다.

In [12]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### 연습 문제 4.4.1

타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다.

In [14]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

### 카테고리 값 세기

시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

In [17]:
np.random.seed(2020)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    5
96    5
97    5
98    2
99    2
dtype: int32

데이터프레임에는 value_counts 메서드가 없으므로 각 열마다 별도로 적용해야 한다.

In [18]:
s2.value_counts()

0    20
3    18
2    17
1    17
5    16
4    12
dtype: int64

### 정렬

데이터를 정렬하려면 sort_index 메서드 sort_values 메서드를 사용한다. sort_index 메서드는 인덱스 값을 기준으로, sort_values 메서드는 데이터 값을 기준으로 정렬한다.

In [19]:
s2.value_counts().sort_index()

0    20
1    17
2    17
3    18
4    12
5    16
dtype: int64

In [20]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [21]:
# numpy 에서는 오름차순 밖에 없기때문에 s.sort()[::-1] 로 내림차순 정렬을 할 수 있다.
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

데이터프레임에서 sort_values 메서드를 사용하려면 by 인수로 정렬 기준이 되는 열을 지정해 주어야 한다.

In [22]:
df.sort_values(by=1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,3.0
2,0.0,0.0,2.0,
1,3.0,3.0,0.0,0.0
3,3.0,3.0,2.0,3.0


by 인수에 리스트 값을 넣으면 이 순서대로 정렬 기준의 우선 순위가 된다. 즉, 리스트의 첫번째 열을 기준으로 정렬한 후 동일한 값이 나오면 그 다음 열로 순서를 따지게 된다.

In [24]:
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
2,0.0,0.0,2.0,
0,0.0,0.0,3.0,3.0
1,3.0,3.0,0.0,0.0
3,3.0,3.0,2.0,3.0


### 연습 문제 4.4.2

value_counts 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [26]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [32]:
titanic["sex"].value_counts()

male      577
female    314
Name: sex, dtype: int64

In [33]:
titanic["age"].value_counts()

24.00    30
22.00    27
18.00    26
19.00    25
30.00    25
         ..
55.50     1
70.50     1
66.00     1
23.50     1
0.42      1
Name: age, Length: 88, dtype: int64

In [34]:
titanic["class"].value_counts()

Third     491
First     216
Second    184
Name: class, dtype: int64

In [35]:
titanic["alive"].value_counts()

no     549
yes    342
Name: alive, dtype: int64

### 행/열 합계

행과 열의 합계를 구할 때는 sum(axis) 메서드를 사용한다. axis 인수에는 합계로 인해 없어지는 방향축(0=행, 1=열)을 지정한다.

In [37]:
np.random.seed(2020)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,0,8,3,6,3,3,7,8
1,0,0,8,9,3,7,2,3
2,6,5,0,4,8,6,4,1
3,1,5,9,5,6,6,6,5


행방향 합계를 구할 때는 sum(axis=1) 메서드를 사용한다.

In [38]:
df2.sum(axis=1)

0    38
1    32
2    34
3    43
dtype: int64

열 합계를 구할 때는 sum(axis=0) 메서드를 사용하는데 axis인수의 디폴트 값이 0이므로 axis인수를 생략할 수 있다.

In [39]:
df2.sum()

0     7
1    18
2    20
3    24
4    20
5    22
6    19
7    17
dtype: int64

행방향 합계를 구할 때는 sum(axis=1) 메서드를 사용한다.

In [40]:
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,0,8,3,6,3,3,7,8,38
1,0,0,8,9,3,7,2,3,32
2,6,5,0,4,8,6,4,1,34
3,1,5,9,5,6,6,6,5,43


열 합계를 구할 때는 sum(axis=0) 메서드를 사용하는데 axis인수의 디폴트 값이 0이므로 axis인수를 생략할 수 있다.

In [43]:
df2.loc["ColTotal", :] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,0.0,8.0,3.0,6.0,3.0,3.0,7.0,8.0,38.0
1,0.0,0.0,8.0,9.0,3.0,7.0,2.0,3.0,32.0
2,6.0,5.0,0.0,4.0,8.0,6.0,4.0,1.0,34.0
3,1.0,5.0,9.0,5.0,6.0,6.0,6.0,5.0,43.0
ColTotal,21.0,54.0,60.0,72.0,60.0,66.0,57.0,51.0,441.0


### 연습 문제 4.4.3

In [46]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


1. 타이타닉호 승객의 평균 나이를 구하라.

In [86]:
meanAge = titanic["age"].mean()
round(meanAge, 2)

29.7

2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.

In [89]:
row = (titanic["sex"] == 'female')
meanAge = titanic.loc[row, :]["age"].mean()
round(meanAge, 2)

27.92

In [90]:
t2 = titanic[titanic["sex"] == 'female']
round(t2['age'].mean(), 2)

27.92

In [94]:
round(titanic[titanic['sex'] == 'female']['age'].mean(), 2)

27.92

3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [88]:
row = (titanic["sex"] == 'female') & (titanic["class"] == 'First')
meanAge = titanic.loc[row, :]["age"].mean()
round(meanAge, 2)

34.61

In [99]:
t3 = (titanic['class'] == 'First') & (titanic['sex'] == 'female')
round(titanic[t3]['age'].mean(), 2)

34.61

In [100]:
round(titanic[(titanic['class'] == 'First') & (titanic['sex'] == 'female')]['age'].mean(), 2)

34.61

### Groupby

In [101]:
titanic['age'].groupby(titanic['sex']).mean()

sex
female    27.915709
male      30.726645
Name: age, dtype: float64

In [103]:
titanic['age'].groupby([titanic['sex'], titanic['class']]).mean()

sex     class 
female  First     34.611765
        Second    28.722973
        Third     21.750000
male    First     41.281386
        Second    30.740707
        Third     26.507589
Name: age, dtype: float64

## apply 변환

행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다. 인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다.

In [106]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4],
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


예를 들어 각 열의 최대값과 최소값의 차이를 구하고 싶으면 다음과 같은 람다 함수를 넣는다.

In [107]:
df3.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

만약 행에 대해 적용하고 싶으면 axis=1 인수를 쓴다.

In [108]:
df3.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 value_counts 함수를 넣으면 된다.

In [109]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [110]:
titanic["adult/child"] = titanic.apply(lambda r: "adult" if r.age >= 20 else "child", axis=1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


### 연습 문제 4.4.4

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라. category1 카테고리는 다음과 같이 정의된다.

In [113]:
# 1. 20살이 넘으면 성별을 그대로 사용한다.
# 2. 20살 미만이면 성별에 관계없이 “child”라고 한다.
titanic['category1'] = titanic.apply(lambda r: r.sex if r.age >= 20 else 'child', axis=1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult,male
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult,male


## fillna 메서드

NaN 값은 fillna 메서드를 사용하여 원하는 값으로 바꿀 수 있다.

In [115]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [116]:
df3.apply(pd.value_counts).fillna(0.0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


### 연습 문제 4.4.5

타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [120]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [130]:
titanic['age'] = titanic['age'].fillna(titanic['age'].mean())
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,30.0,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


## astype 메서드

astype 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능하다.

In [131]:
titanic['age'] = titanic['age'].fillna(titanic['age'].mean()).astype(int)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,30,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [129]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


### 연습 문제 4.4.6

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category2 열을 만들어라. category2 카테고리는 다음과 같이 정의된다.

In [139]:
# 1. 성별을 나타내는 문자열 male 또는 female로 시작한다.
titanic['category2'] = titanic['sex']
titanic[['sex', 'age', 'category2']].tail()

Unnamed: 0,sex,age,category2
886,male,27,male
887,female,19,female
888,female,30,female
889,male,26,male
890,male,32,male


In [None]:
# 2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
# 3. 예를 들어 27살 남성은 male27 값이 된다.

In [162]:
titanic['category2'] = titanic['sex'] + titanic['age'].astype(int).astype(str)
titanic[['sex', 'age', 'category2']].tail()

Unnamed: 0,sex,age,category2
886,male,27,male27
887,female,19,female19
888,female,30,female30
889,male,26,male26
890,male,32,male32


## 실수 값을 카테고리 값으로 변환

실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.

- cut: 실수 값의 경계선을 지정하는 경우
- qcut: 갯수가 똑같은 구간으로 나누는 경우

In [163]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

In [165]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 장년, 미성년자, 중년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [167]:
ages = [0, 1, 10, 20, 23, 37, 31, 61, 20, 41, 32, 100]

In [168]:
# < <=
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, NaN, 미성년자, 미성년자, 청년, ..., 장년, 미성년자, 중년, 중년, 노년]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [169]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [170]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [171]:
cats.codes

array([-1, -1,  0,  0,  1,  2,  2,  3,  0,  2,  2,  4], dtype=int8)

In [173]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4

Unnamed: 0,ages
0,0
1,1
2,10
3,20
4,23
5,37
6,31
7,61
8,20
9,41


In [174]:
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,1,
2,10,미성년자
3,20,미성년자
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


In [175]:
df4.age_cat.astype(str) + df4.ages.astype(str)

0       nan0
1       nan1
2     미성년자10
3     미성년자20
4       청년23
5       중년37
6       중년31
7       장년61
8     미성년자20
9       중년41
10      중년32
11     노년100
dtype: object

qcut 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다. 예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

In [178]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

[Q2, Q2, Q4, Q4, Q3, ..., Q3, Q2, Q1, Q3, Q2]
Length: 1000
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [179]:
pd.value_counts(cats)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64