# 4.4 데이터프레임의 데이터 조작

# 데이터 갯수 세기

In [1]:
import numpy as np
import pandas as pd

In [2]:
# 시리즈 생성
ps = pd.Series(range(10))
ps[5] = np.nan
ps

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    NaN
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [3]:
# NaN 값은 제외하고 카운트
print(ps.count())

# len은 NaN 값을 포함
print(len(ps))

9
10


In [4]:
# 데이터 프레임 생성
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)),
                  index = ["a","b","c","d"],
                  columns = ["A","B","C","D"],
                  dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,A,B,C,D
a,0.0,0.0,3.0,2.0
b,3.0,0.0,2.0,1.0
c,3.0,2.0,4.0,
d,4.0,3.0,4.0,2.0


In [5]:
# 열 단위로 계산
df.count()

A    4
B    4
C    4
D    3
dtype: int64

In [6]:
# seaborn 패키지 타이타닉 데이터 불러오기
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


# 연습 문제 4.4.1

타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다.

In [7]:
# 총 891행 중 age, embarked, deck, embark_town에 결측이 포함되어 있다.
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

# 카테고리 값 세기

In [8]:
# 시리즈 생성
ps2 = pd.Series(["a","b","b","c","e","a","b"],
                 index = range(10,17))
ps2

10    a
11    b
12    b
13    c
14    e
15    a
16    b
dtype: object

In [9]:
# 시리즈 각 값의 개수 확인
# numpy에서 np.unique( [], return_counts= True), np.bincount()같은 기능
ps2.value_counts()

b    3
a    2
e    1
c    1
dtype: int64

In [10]:
# 데이터 프레임은 value_counts가 없어서 각 열별로 추출(시리즈로 변환)해서 확인
# df["A"].value_counts()
# df.A.value_counts()
df.loc[:,"A"].value_counts()

3.0    2
4.0    1
0.0    1
Name: A, dtype: int64

# 정렬

In [11]:
# value_counts()를 통해 기존 값이 인덱스로, 갯수가 값으로 변형된 새로운 시리즈가 생성
# 인덱스를 기준으로 정렬
ps2.value_counts().sort_index()

a    2
b    3
c    1
e    1
dtype: int64

In [12]:
# 값을 기준으로 정렬 - NaN이 마지막에 출력
ps.sort_values()

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
6    6.0
7    7.0
8    8.0
9    9.0
5    NaN
dtype: float64

In [13]:
# 내림차순 정렬
ps.sort_values(ascending = False)

9    9.0
8    8.0
7    7.0
6    6.0
4    4.0
3    3.0
2    2.0
1    1.0
0    0.0
5    NaN
dtype: float64

In [14]:
# 데이터 프레임 정렬 - 기준이 되는 열을 지정해야함
df.sort_values(by="A")

Unnamed: 0,A,B,C,D
a,0.0,0.0,3.0,2.0
b,3.0,0.0,2.0,1.0
c,3.0,2.0,4.0,
d,4.0,3.0,4.0,2.0


In [15]:
# 데이터 프레임 정렬 - 2순위 정렬 선택
df.sort_values(by=["A","B"], ascending = [True,False])

Unnamed: 0,A,B,C,D
a,0.0,0.0,3.0,2.0
c,3.0,2.0,4.0,
b,3.0,0.0,2.0,1.0
d,4.0,3.0,4.0,2.0


# 연습 문제 4.4.2

`sort_values` 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [16]:
# 성별 인원수
titanic.sex.value_counts().sort_values()

female    314
male      577
Name: sex, dtype: int64

In [17]:
# 나이별 인원수
titanic["age"].value_counts().sort_values()

0.42      1
20.50     1
24.50     1
0.67      1
14.50     1
         ..
30.00    25
19.00    25
18.00    26
22.00    27
24.00    30
Name: age, Length: 88, dtype: int64

In [18]:
# 선실별 인원수
titanic.loc[:,"class"].value_counts().sort_values()

Second    184
First     216
Third     491
Name: class, dtype: int64

In [19]:
# 사망/생존 인원수
titanic["alive"].value_counts().sort_values()

yes    342
no     549
Name: alive, dtype: int64

# 행/열 합계

In [20]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)),
                   index = ["a","b","c","d"],
                   columns = ["A","B","C","D","E","F","G","H"])
df2

Unnamed: 0,A,B,C,D,E,F,G,H
a,5,8,9,5,0,0,1,7
b,6,9,2,4,5,2,4,2
c,4,7,7,9,1,7,0,6
d,9,9,7,6,9,1,0,1


In [21]:
# 행 합계
df2.sum(axis = 1)

a    35
b    34
c    41
d    42
dtype: int64

In [22]:
# 열 추가
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,A,B,C,D,E,F,G,H,RowSum
a,5,8,9,5,0,0,1,7,35
b,6,9,2,4,5,2,4,2,34
c,4,7,7,9,1,7,0,6,41
d,9,9,7,6,9,1,0,1,42


In [23]:
# 열 합계 (디폴트 axis = 0)
df2.sum()

A          24
B          33
C          25
D          24
E          15
F          10
G           5
H          16
RowSum    152
dtype: int64

In [24]:
# 행 추가
df2.loc["colTotal",:] = df2.sum()
df2

Unnamed: 0,A,B,C,D,E,F,G,H,RowSum
a,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
b,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
c,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
d,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
colTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


# 연습 문제 4.4.3

1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [25]:
# 1. 타이타닉호 승객의 평균 나이
# titanic.mean()
a1 = round( titanic.age.mean(), 0)

print(f"평균 나이: {a1}세")

평균 나이: 30.0세


In [26]:
# 2. 타이타닉호 승객 중 여성 승객의 평균 나이
titanic_female = titanic[titanic["sex"] == "female"]

a2 = round(titanic_female["age"].mean(), 0)
print(f"평균 나이: {a2}세")

평균 나이: 28.0세


In [27]:
# 3. 타이타닉호 승객 중 1등신 선실의 여성 승객의 평균 나이
titanic_first_female = titanic[(titanic["class"] == "First") & (titanic["sex"] == "female")]

a3 = round(titanic_first_female["age"].mean(), 0)
print(f"평균 나이: {a3}세")

평균 나이: 35.0세


# apply 변환

In [28]:
# 데이터 프레임 생성
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [29]:
# 열 단위 연산
# x는 데이터 프레임을 받으며 각 열별로 뒤 함수를 적용
df3.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [30]:
# 행 단위 연산
# x는 데이터 프레임을 받으며 각 행별로 뒤 함수를 적용
df3.apply(lambda x: x.max() - x.min(), axis = 1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [31]:
# 각 열마다 사용된 값의 갯수
temp = pd.DataFrame({
      'A': [1, 3, 4, 3, "a"],
      'B': ["a", "b", "c", "d", "f"],
      'C': [1, 5, 2, 4, 4]
})


# 실제 데이터라면 열별로 보는 것이 좋아 보임
temp.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,,1.0
2,,,1.0
3,2.0,,
4,1.0,,2.0
5,,,1.0
a,1.0,1.0,
b,,1.0,
c,,1.0,
d,,1.0,
f,,1.0,


In [32]:
# 20살을 기준으로 성인/아이 구분
# .apply(lambda x: 값1 if 조건1 else 나머지 값, axis =1)
titanic["adult/child"] = titanic.apply(lambda x: "adult" if x.age >= 20 else "child", axis = 1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


# 연습 문제 4.4.4

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category1` 열을 만들어라. `category1` 카테고리는 다음과 같이 정의된다.

1. 20살이 넘으면 성별을 그대로 사용한다.
2. 20살 미만이면 성별에 관계없이 "child"라고 한다.

In [33]:
titanic["category1"] = titanic.apply(lambda x: x.sex if x.age >= 20 else "child", axis=1)
titanic.tail(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
881,0,3,male,33.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True,adult,male
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True,adult,female
883,0,2,male,28.0,0,0,10.5,S,Second,man,True,,Southampton,no,True,adult,male
884,0,3,male,25.0,0,0,7.05,S,Third,man,True,,Southampton,no,True,adult,male
885,0,3,female,39.0,0,5,29.125,Q,Third,woman,False,,Queenstown,no,False,adult,female
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult,male
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult,male


# fillna 메서드

In [34]:
# NaN 값을 원하는 값으로 변환

In [35]:
# 데이터 프레임 생성
temp = pd.DataFrame({
      'A': [1, 3, 4, 3, "a"],
      'B': ["a", "b", "c", "d", "f"],
      'C': [1, 5, 2, 4, 4]
})

# 각 열별 데이터 갯수
temp2 = temp.apply(pd.value_counts)
temp2

Unnamed: 0,A,B,C
1,1.0,,1.0
2,,,1.0
3,2.0,,
4,1.0,,2.0
5,,,1.0
a,1.0,1.0,
b,,1.0,
c,,1.0,
d,,1.0,
f,,1.0,


In [36]:
temp2.fillna("결측")

Unnamed: 0,A,B,C
1,1,결측,1
2,결측,결측,1
3,2,결측,결측
4,1,결측,2
5,결측,결측,1
a,1,1,결측
b,결측,1,결측
c,결측,1,결측
d,결측,1,결측
f,결측,1,결측


# 연습 문제 4.4.5

타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [37]:
# 현재 고객의 평균나이
mean_age = titanic["age"].mean()

# 시리즈에서도 fillna는 적용 되므로 다음과 같이 작성
titanic["age"] = titanic["age"].fillna(mean_age)

In [38]:
# age의 행 갯수가 891로 되었음
titanic.count()

survived       891
pclass         891
sex            891
age            891
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
adult/child    891
category1      891
dtype: int64

# astype 메서드

In [39]:
temp2.fillna(0)

Unnamed: 0,A,B,C
1,1.0,0.0,1.0
2,0.0,0.0,1.0
3,2.0,0.0,0.0
4,1.0,0.0,2.0
5,0.0,0.0,1.0
a,1.0,1.0,0.0
b,0.0,1.0,0.0
c,0.0,1.0,0.0
d,0.0,1.0,0.0
f,0.0,1.0,0.0


In [40]:
# astype을 이용해 자료형 변경
temp2.fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,0,1
2,0,0,1
3,2,0,0
4,1,0,2
5,0,0,1
a,1,1,0
b,0,1,0
c,0,1,0
d,0,1,0
f,0,1,0


# 연습 문제 4.4.6

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category2` 열을 만들어라. `category2` 카테고리는 다음과 같이 정의된다.

1. 성별을 나타내는 문자열 `male` 또는 `female`로 시작한다.
2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
3. 예를 들어 27살 남성은 `male27` 값이 된다.

In [41]:
titanic["category2"] = titanic["sex"] + titanic["age"].astype(int).astype(str)
titanic

# 아래와 같은 방법으로도 category2를 생성할 수 있다.
# 다만 여기선 행 단위로 적용 되므로 age의 타입을 변경할 때 astype을 사용할 수 없다.
# titanic["category2"] = titanic.apply(lambda x: x.sex + str(int(x.age)), axis = 1)
# titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2
0,0,3,male,22.000000,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22
1,1,1,female,38.000000,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38
2,1,3,female,26.000000,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26
3,1,1,female,35.000000,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35
4,0,3,male,35.000000,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.000000,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27
887,1,1,female,19.000000,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19
888,0,3,female,29.699118,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female29
889,1,1,male,26.000000,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26


# 실수 값을 카테고리 값으로 변환

In [42]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [43]:
# bins의 구간별로 ages값을 labes값으로 변환
# bins값을 초과하면 NaN으로 바뀜
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [44]:
# Categorical 클래스
type(cats)

pandas.core.arrays.categorical.Categorical

In [45]:
# 라벨 문자열 확인
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [46]:
# 데이터가 몇 번째 라벨의 값인지 확인
# ["미성년자", "청년", "중년", "장년", "노년", NaN]
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [47]:
# 데이터 프레임 생성
df4 = pd.DataFrame(ages, columns=["ages"])
df4

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [48]:
# 카테고리 값 추가 - type은 문자열이 아닌 pandas.core.arrays.categorical.Categorical
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


In [49]:
# 문자열로 사용하기 위해선 astype 사용
df4.age_cat.astype(str) + "-" + df4.ages.astype(str)

0       nan-0
1      미성년자-2
2     미성년자-10
3       청년-21
4       청년-23
5       중년-37
6       중년-31
7       장년-61
8     미성년자-20
9       중년-41
10      중년-32
11    nan-101
dtype: object

In [50]:
data = np.random.randn(1000)

# qcut은 데이터 갯수가 동일하게 끔 N개의 구간으로 나눔
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

['Q2', 'Q1', 'Q2', 'Q3', 'Q1', ..., 'Q1', 'Q1', 'Q4', 'Q4', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [51]:
# 데이터 갯수가 동일한 것 확인
pd.value_counts(cats)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

# 연습 문제 4.4.7

타이타닉호 승객을 '미성년자', '청년', '중년', '장년', '노년' 나이 그룹으로 나눈다.

```
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
```

그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.

In [52]:
# 구간, 라벨 설정
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

# 그룹 추가
titanic["age_g"] = pd.cut(titanic.age, bins, labels = labels).astype(str)
titanic[ ["age", "age_g"] ]

Unnamed: 0,age,age_g
0,22.000000,청년
1,38.000000,중년
2,26.000000,청년
3,35.000000,중년
4,35.000000,중년
...,...,...
886,27.000000,청년
887,19.000000,미성년자
888,29.699118,청년
889,26.000000,청년


In [53]:
# 시리즈로 분리 - 그룹별 갯수
temp4 = titanic["age_g"].value_counts()

# 비율 생성
temp5 = temp4 / temp4.sum()
temp5

청년      0.456790
중년      0.270483
미성년자    0.185185
장년      0.066218
nan     0.015713
노년      0.005612
Name: age_g, dtype: float64

In [54]:
# 비율 합계
print("비율 합계:", temp5.sum())

비율 합계: 1.0


# 연습 문제 4.4.8

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category3` 열을 만들어라. `category3` 카테고리는 다음과 같이 정의된다.

1. 20살 미만이면 성별에 관계없이 "미성년자"라고 한다.
2. 20살 이상이면 나이에 따라 "청년", "중년", "장년", "노년"을 구분하고 그 뒤에 성별을 나타내는 "남성", "여성"을 붙인다.

In [55]:
# 구간, 라벨 설정
bins = [20, 30, 50, 70, 100]
labels = ["청년", "중년", "장년", "노년"]

In [56]:
# age_g는 연습문제 4.4.7에서 생성
titanic["category3"] = titanic.apply(lambda x: "미성년자" if x.age < 20 
                                                          else x.age_g + ": " + "남성" if x.sex == "male"
                                                          else x.age_g + ": " + "여성", axis=1)

In [57]:
titanic[["age","age_g","category3"]].tail()

Unnamed: 0,age,age_g,category3
886,27.0,청년,청년: 남성
887,19.0,미성년자,미성년자
888,29.699118,청년,청년: 여성
889,26.0,청년,청년: 남성
890,32.0,중년,중년: 남성
