## **데이터프레임의 데이터 조작**

Pandas는 NumPy의 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.

### **1. 데이터 갯수 세기**

가장 간단한 데이터 분석은 데이터의 갯수를 세는 것이다. `count` 메서드를 사용한다. `NaN` 값은 세지 않는다.

#### **1.1 시리즈의 데이터 갯수 세기**

In [68]:
import numpy as np
import pandas as pd

s = pd.Series(range(10))
s[3] = np.nan  # 3번 인덱스에 NaN 할당 
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [69]:
s.count()  # 시리즈의 갯수

9

#### **1.2 데이터프레임의 데이터 갯수 세기**

데이터프레임에서는 **각 열마다 별도로 데이터 갯수를 센다.** 데이터에서 값이 누락된 부분을 찾을 때 유용하다.

In [4]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [70]:
df.count() # 데이터프레임의 경우 각 열의 데이터 개수를 센다.

0    4
1    4
2    4
3    3
dtype: int64

#### **연습 문제 1**

다음 명령으로 타이타닉호 승객 데이터를 데이터 프레임으로 읽어온다. 이 명령을 실행하려면 `seaborn`패키지가 설치되어 있어야 한다.  

타이타닉호 승객 데이터의 데이터 값을 각 열마다 구하라.

In [8]:
import seaborn as sns
titanic = sns.load_dataset('titanic')

titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

### **2. 카테고리 값 세기**


시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

#### **2.1 시리즈의 카테고리 값 세기**

In [71]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(1, 7, size=100)) # 눈이 6인 주사위 100번 던지기 
s2.tail()

95    5
96    6
97    3
98    5
99    4
dtype: int32

In [72]:
s2.value_counts()  # 주사위의 눈이 많이 나온 수 부터 내림차순 정렬 

2    22
1    18
5    17
6    16
4    14
3    13
dtype: int64

#### **2.2 데이터프레임의 카테고리 값 세기**

데이터프레임에는 value_counts 메서드가 없으므로 각 열마다 별도로 적용해야 한다.

In [73]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [17]:
df[0].value_counts()  # 첫번째 열에서 각 숫자의 갯수

3.0    2
4.0    1
0.0    1
Name: 0, dtype: int64

### **3. 정렬** 

데이터를 정렬하려면 `sort_index`와 `sort_values` 메서드를 사용한다.   
- `sort_index`는 인덱스 값을 기준으로  정렬한다. (디폴트는 오름차순)
- `sort_values`는 데이터 값을 기준으로 정렬한다. (디폴트는 오름차순)

앞에서 `s2` 많이 나온 주사위 눈을 보기좋게 정렬하려면 다음처럼 `sort_index`를 적용한다.

#### **3.1 시리즈의 정렬**

In [76]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(1, 7, size=100)) # 눈이 6인 주사위 100번 던지기 
s2.tail()

95    5
96    6
97    3
98    5
99    4
dtype: int32

In [24]:
s2.value_counts().sort_index()  # 인덱스 값을 기준으로 오름차순 정렬 

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

NaN값이 있는 경우에는 정렬하면 NaN값이 가장 나중으로 간다.

In [74]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

내림차순 정렬하려면 `ascending=False` 인수를 지정한다.

In [25]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

#### **3.2 데이터프레임의 정렬**

데이터프레임에서 `sort_values` 메서드를 사용하려면 `by` 인수로 정렬 기준이 되는 열을 지정해 주어야 한다.

In [75]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [26]:
df.sort_values(by=1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


`by` 인수에 리스트 값을 넣으면 이 순서대로 정렬 기준의 우선 순위가 된다. 즉, 리스트의 첫번째 열을 기준으로 정렬한 후 동일한 값이 나오면 그 다음 열로 순서를 따지게 된다.

In [28]:
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


#### **연습 문제 2**

타이타닉호 승객 중 성별(sex)인원수 , 나이별(age)인원수, 선실별(class)인원수, 사망/생존 인원수를 구하라.

In [79]:
import seaborn as sns
titanic = sns.load_dataset('titanic')

titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [89]:
# 1. 성별 인원 수 
titanic.loc[:,'sex'].value_counts()

male      577
female    314
Name: sex, dtype: int64

In [95]:
# 2. 나이별 인원 수 
print(titanic.loc[:,'age'].value_counts().sort_index().head())
print(titanic.loc[:,'age'].value_counts().sort_index().tail())

0.42    1
0.67    1
0.75    2
0.83    2
0.92    1
Name: age, dtype: int64
70.0    2
70.5    1
71.0    2
74.0    1
80.0    1
Name: age, dtype: int64


In [96]:
# 3. 선실별 인원수
titanic.loc[:,'class'].value_counts()

Third     491
First     216
Second    184
Name: class, dtype: int64

In [97]:
# 4. 사망/생존 인원수
titanic.loc[:,'alive'].value_counts()

no     549
yes    342
Name: alive, dtype: int64

### **4. 행/열 합계 : 데이터프레임**

행과 열의 합계를 구할 때는 `sum(axis)` 메서드를 사용한다.

- axis = 1 : 행(→) 방향
- axis = 0 : 열(↓) 방향 

In [29]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


#### **4.1 행 합계**

**행 합계**를 구할 때는 `sum(axis=1)` 메서드를 사용한다.

In [32]:
df2.sum(axis=1)  # 행 합계

0    35
1    34
2    41
3    42
dtype: int64

In [34]:
df2['RowSum'] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,70
1,6,9,2,4,5,2,4,2,68
2,4,7,7,9,1,7,0,6,82
3,9,9,7,6,9,1,0,1,84


#### **4.2 열 합계** 

열 합계를 구할 때는 `sum(axis=0)` 메서드를 사용하는데 **`axis`인수의 디폴트 값이 0**이므로 `axis`인수를 생략할 수 있다.

In [37]:
df2.sum()  # 열 합계

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    304
dtype: int64

In [78]:
df2.loc['ColTotal', :] = df2.sum(axis=0)  # 열 방향 합계
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,70.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,68.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,82.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,84.0
ColTotal,96.0,132.0,100.0,96.0,60.0,40.0,20.0,64.0,1216.0


### **5. `apply` 변환¶**

행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다. 인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다.

In [40]:
df3 = pd.DataFrame({'A' : [1, 3, 4, 3, 4],
                    'B' : [2, 3, 1, 2 ,3], 
                    'C' : [1, 5, 2, 4, 4]
                   })
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


예를 들어 **각 열의 최대값과 최소값의 차이**를 구하고 싶으면 다음과 같은 람다 함수를 넣는다.

In [41]:
df3.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64


만약 행에 대해 적용하고 싶으면 axis=1 인수를 쓴다.

In [44]:

df3.apply(lambda x: x.max() - x.min(), axis = 1)  # axis = 1, 행

0    1
1    2
2    3
3    2
4    1
dtype: int64

각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 value_counts 함수를 넣을 수도 있다. 

In [49]:
df3.apply(pd.value_counts)  # A열의 1이 1개, 3이 2개, 4가 2개 

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


NaN 값은 fillna 메서드를 사용하여 원하는 값으로 바꿀 수 있다. astype 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능하다.

In [50]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


### **6. 실수 값을 카테고리 값으로 변환** 

실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.

- `cut` : 실수 값의 경계선을 지정하는 경우
- `qcut` : 갯수가 똑같은 구간으로 나누는 경우 


#### **6.1 cut**

예를 들어 다음과 같은 나이 데이터가 있다고 하자.

In [56]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100, 25, 35]

`cut` 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꿀 수 있다. `bins` 인수는 카테고리를 나누는 기준값이 된다. 영역을 넘는 값은 NaN으로 처리된다.

In [58]:
bins = [1, 15, 25, 35, 60, 99]  # (1, 15] = 1 < age <= 15, 15 < age <= 25 ... 
labels = ['미성년자', '청년', '중년', '장년', '노년']
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 장년, 중년, NaN, 청년, 중년]
Length: 14
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

`cut` 명령이 반환하는 값은 `Categorical` 클래스 객체이다. 이 객체는 `categories` 속성으로 라벨 문자열을, `codes` 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [59]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [60]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [61]:
cats.codes

array([-1,  0,  0,  1,  1,  3,  2,  4,  1,  3,  2, -1,  1,  2], dtype=int8)

In [63]:
df4 = pd.DataFrame(ages, columns=['ages'])
df4['age_cat'] = pd.cut(df4.ages, bins, labels=labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


#### **6.5 qcut**

`qcut` 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다. 예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

In [65]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
cats

[Q3, Q1, Q1, Q1, Q2, ..., Q3, Q4, Q3, Q3, Q2]
Length: 1000
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [67]:
pd.value_counts(cats)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

#### **연습 문제 3**

타이타닉호 승객을 사망자와 생존자 그룹으로 나누고, 각 그룹에 대해 '미성년자','청년','중년','장년','노년'승객의 비율을 구한다. 각 그룹 별로 비율의 전체 합은 1이 되어야 한다.

bins = [1, 15, 25, 35, 60, 99]  
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [99]:
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

In [100]:
import seaborn as sns
titanic = sns.load_dataset('titanic')

titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


##### **1. 사망자 그룹**

In [114]:
aliveNo_titanic = titanic.loc[titanic['alive'] == 'no', ['age','alive']]
aliveNo_titanic

Unnamed: 0,age,alive
0,22.0,no
4,35.0,no
5,,no
6,54.0,no
7,2.0,no
12,20.0,no
13,39.0,no
14,14.0,no
16,2.0,no
18,31.0,no


In [115]:
aliveNo_titanic['age_cut'] = pd.cut(aliveNo_titanic.age, bins, labels = labels)
aliveNo_titanic

Unnamed: 0,age,alive,age_cut
0,22.0,no,청년
4,35.0,no,중년
5,,no,
6,54.0,no,장년
7,2.0,no,미성년자
12,20.0,no,청년
13,39.0,no,장년
14,14.0,no,미성년자
16,2.0,no,미성년자
18,31.0,no,중년


In [132]:
aliveNo = aliveNo_titanic['age_cut'].value_counts() / aliveNo_titanic['age_cut'].value_counts().sum()
print(aliveNo)
print(sum(aliveNo.values))

청년      0.338863
장년      0.277251
중년      0.267773
미성년자    0.075829
노년      0.040284
Name: age_cut, dtype: float64
0.9999999999999999


##### **2. 생존자 그룹**

In [130]:
aliveYes_titanic = titanic.loc[titanic['alive'] == 'yes', ['age','alive']]
aliveYes_titanic

Unnamed: 0,age,alive
1,38.00,yes
2,26.00,yes
3,35.00,yes
8,27.00,yes
9,14.00,yes
10,4.00,yes
11,58.00,yes
15,55.00,yes
17,,yes
19,,yes


In [131]:
aliveYes_titanic['age_cut'] = pd.cut(aliveYes_titanic.age, bins, labels = labels)
aliveYes_titanic

Unnamed: 0,age,alive,age_cut
1,38.00,yes,장년
2,26.00,yes,중년
3,35.00,yes,중년
8,27.00,yes,중년
9,14.00,yes,미성년자
10,4.00,yes,미성년자
11,58.00,yes,장년
15,55.00,yes,장년
17,,yes,
19,,yes,


In [133]:
aliveYes = aliveYes_titanic['age_cut'].value_counts() / aliveYes_titanic['age_cut'].value_counts().sum()
print(aliveYes)
print(sum(aliveYes.values))

중년      0.298561
장년      0.280576
청년      0.269784
미성년자    0.133094
노년      0.017986
Name: age_cut, dtype: float64
0.9999999999999999


##### **생존/사망 그룹간 나이별 생존비율**

In [135]:
print(aliveNo.sort_index())  # 사망자 그룹 
print(aliveYes.sort_index()) # 생존자 그룹 

미성년자    0.075829
청년      0.338863
중년      0.267773
장년      0.277251
노년      0.040284
Name: age_cut, dtype: float64
미성년자    0.133094
청년      0.269784
중년      0.298561
장년      0.280576
노년      0.017986
Name: age_cut, dtype: float64
