#### 데이터프레임의 데이터 조작¶
Pandas는 NumPy의 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다. 여기에서는 그 중 몇가지를 예로 보인다. 전체 기능은 다음 웹사이트를 참조한다

https://pandas.pydata.org/pandas-docs/stable/api.html

In [1]:
# 데이터 개수 : NaN데이터는 세지 않는다
s = pd.Series(range(10))
s[3] = np.nan
s, s.count()

(0    0.0
 1    1.0
 2    2.0
 3    NaN
 4    4.0
 5    5.0
 6    6.0
 7    7.0
 8    8.0
 9    9.0
 dtype: float64, 9)

In [2]:
df = pd.DataFrame(np.random.randint(1, 10, (3, 4)))
df[2][1] = np.NaN
df

Unnamed: 0,0,1,2,3
0,9,6,6.0,5
1,2,6,,2
2,1,8,7.0,7


In [3]:
df.count()

0    3
1    3
2    2
3    3
dtype: int64

#### 연습 문제 1¶
다음 명령으로 타이타닉호 승객 데이터를 데이터프레임으로 읽어온다. 이 명령을 실행하려면 seaborn 패키지가 설치되어 있어야 한다.
```
import seaborn as sns
titanic = sns.load_dataset("titanic")
```
타이타닉호 승객 데이터의 데이터 값을 각 열마다 구해본다

In [4]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [5]:
result = {}
for i in titanic.columns:
    result[i] = titanic[i].count()
result

{'adult_male': 891,
 'age': 714,
 'alive': 891,
 'alone': 891,
 'class': 891,
 'deck': 203,
 'embark_town': 889,
 'embarked': 889,
 'fare': 891,
 'parch': 891,
 'pclass': 891,
 'sex': 891,
 'sibsp': 891,
 'survived': 891,
 'who': 891}

In [6]:
pd.DataFrame(result, columns=titanic.columns, index=["count"])

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
count,891,891,891,714,891,891,891,889,891,891,891,203,889,891,891


In [7]:
# Series에서 빈도
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    3
96    3
97    4
98    3
99    0
dtype: int32

In [8]:
s2.value_counts()

3    22
2    19
0    19
4    18
5    17
1     5
dtype: int64

In [9]:
titanic["sex"].value_counts()

male      577
female    314
Name: sex, dtype: int64

#### 정렬¶
데이터를 정렬하려면 sort_index와 sort_values 메서드를 사용한다. sort_index는 인덱스 값을 기준으로, sort_values는 데이터 값을 기준으로 정렬한다.

앞에서 s2 시리즈의 각 데이터 값에 따른 데이터 갯수를 보기좋게 정렬하려면 다음처럼 sort_index를 적용한다.

In [10]:
s2.value_counts().sort_index()

0    19
1     5
2    19
3    22
4    18
5    17
dtype: int64

In [11]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

In [12]:
df

Unnamed: 0,0,1,2,3
0,9,6,6.0,5
1,2,6,,2
2,1,8,7.0,7


In [13]:
df.sort_values(by=1)

Unnamed: 0,0,1,2,3
0,9,6,6.0,5
1,2,6,,2
2,1,8,7.0,7


In [14]:
df.sort_values(by=[1,2])

Unnamed: 0,0,1,2,3
0,9,6,6.0,5
1,2,6,,2
2,1,8,7.0,7


#### 연습 문제 2¶
타이타닉호 승객중 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [15]:
titanic[["sex", "age", "class", "alive"]].tail()

Unnamed: 0,sex,age,class,alive
886,male,27.0,Second,no
887,female,19.0,First,yes
888,female,,Third,no
889,male,26.0,First,yes
890,male,32.0,Third,no


In [16]:
titanic["sex"].value_counts().sort_index()

female    314
male      577
Name: sex, dtype: int64

In [17]:
titanic["class"].value_counts().sort_index()

First     216
Second    184
Third     491
Name: class, dtype: int64

In [18]:
for i in titanic[["sex", "age", "class", "alive"]]:
    titanic[i].value_counts().sort_index()

#### 행, 열 합계

In [19]:
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,9,9,1,5,7,1,0,3
1,7,6,5,6,8,3,6,9
2,8,7,6,5,0,3,8,4
3,4,8,0,4,4,0,3,1


In [20]:
df2.sum(axis=1), df2.sum(axis=0)

(0    35
 1    50
 2    41
 3    24
 dtype: int64, 0    28
 1    30
 2    12
 3    20
 4    19
 5     7
 6    17
 7    17
 dtype: int64)

In [21]:
df2["rowsum"] = df2.sum(axis=1)

In [22]:
df2.loc["colsum"] = df2.sum(axis=0)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,rowsum
0,9,9,1,5,7,1,0,3,35
1,7,6,5,6,8,3,6,9,50
2,8,7,6,5,0,3,8,4,41
3,4,8,0,4,4,0,3,1,24
colsum,28,30,12,20,19,7,17,17,150


#### apply 변환¶
행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다. 인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다.

In [23]:
df3 = pd.DataFrame({
        'A': [1, 3, 4, 3, 4],
        'B': [2, 3, 1, 2, 3],
        'C': [1, 5, 2, 4, 4]
    })
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [24]:
df3.apply(lambda x: x.max()-x.min())

A    3
B    2
C    4
dtype: int64

In [25]:
df3[["C"]].apply(lambda x: x.max()-x.min())

C    4
dtype: int64

In [26]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


#### 실수 값을 카테고리 값으로 변환¶
실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.
```
cut: 실수 값의 경계선을 지정하는 경우
qcut: 갯수가 똑같은 구간으로 나누는 경우
```
cut 명령이 반환하는 값은 Categorical 클래스 객체이다. 이 객체는 categories 속성으로 라벨 문자열을, codes 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [27]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
c = pd.cut(ages, bins, labels=labels)
c

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [28]:
type(c), c.categories, c.codes

(pandas.core.categorical.Categorical,
 Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object'),
 array([-1,  0,  0,  1,  1,  3,  2,  4,  1,  3,  2, -1], dtype=int8))

In [29]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4["ages_c"] = pd.cut(ages, bins, labels=labels)
df4

Unnamed: 0,ages,ages_c
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


In [30]:
# qcut
data = np.random.randn(100)
data

array([ 0.38335312, -1.41474951, -1.3818086 , -0.86756995, -2.95720446,
       -0.34348368, -0.38639817,  0.5871249 ,  0.49226273,  1.01225657,
       -0.55273146,  0.78972819, -0.35453593, -1.6303136 ,  1.44547292,
       -0.93496501,  0.92896462,  0.27701241, -0.62597278, -0.04509637,
       -1.27221495,  1.51543312, -2.20450007,  0.79629732,  0.06654595,
       -0.92150361, -0.46981317, -0.39806096, -1.03534991,  0.69012265,
        1.05455897,  0.30765066,  1.36751072, -0.02025404,  2.30046698,
       -2.08824336, -1.25376187,  0.21316567, -0.57793884, -0.07214982,
       -1.04989278,  0.54822371, -0.09938439, -1.13491862, -1.24056852,
        0.420949  , -0.54580516,  0.75619282, -0.32358529,  2.15953959,
       -2.22280971, -0.55856149, -1.59843146,  0.25714707,  1.52441279,
        0.41026322,  0.91595654,  0.95500002, -2.35555446, -0.2115062 ,
       -1.62726471,  0.08469511,  0.04452864, -0.3784791 , -0.68490392,
        0.63813702,  0.45447701,  0.04424776, -0.19304981, -0.96

In [31]:
qc = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
qc

[Q3, Q1, Q1, Q2, Q1, ..., Q4, Q2, Q1, Q1, Q3]
Length: 100
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [32]:
pd.value_counts(qc)

Q4    25
Q3    25
Q2    25
Q1    25
dtype: int64

#### 연습 문제 3¶
타이타닉호 승객을 사망자와 생존자 그룹으로 나누고 각 그룹에 대해 '미성년자', '청년', '중년', '장년', '노년' 승객의 비율을 구한다. 각 그룹 별로 비율의 전체 합은 1이 되어야 한다.

In [33]:
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
a = titanic["age"][titanic["survived"].values == 0]
b = titanic["age"][titanic["survived"].values == 1]
c = pd.DataFrame(pd.cut(a, bins, labels=labels).value_counts())

In [34]:
c["rate"] = c.index.apply(lambda x: x/c.sum())   
c

AttributeError: 'CategoricalIndex' object has no attribute 'apply'

In [None]:
raw_cat = pd.Categorical(["a","b","c","a"], categories=["b","c","d"],
                         ordered=False)
raw_cat