In [2]:
#-*- coding: utf-8 -*-
import numpy as np
print('Numpy Version : {:s}'.format(np.__version__))
import matplotlib
print('MatPlotLib Version : {:s}'.format(matplotlib.__version__))
import matplotlib.pyplot as plt
import pandas as pd
print('Pandas Version : {:s}'.format(pd.__version__))

Numpy Version : 1.14.3
MatPlotLib Version : 2.2.2
Pandas Version : 0.22.0


# 데이터프레임의 데이터 조작
* Pandas는 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.
    * https://pandas.pydata.org/pandas-docs/stable/api.

### 데이터 갯수 세기
* `count` : 데이터 갯수를 카운트한다. (NaN 값은 카운트 하지 않는다.)

In [3]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [4]:
s.count()

9

* 데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 데이터에서 값이 누락된 부분을 찾을 때 유용하다.

In [5]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [6]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

### 카테고리 값 세기
* `value_counts` : 시리즈의 정수, 문자열, 카테고리 값들이 나온 횟수를 세준다.

In [7]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [9]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

* 데이터프레임에는 `value_counts` 메서드가 없으므로 각 열마다 별도로 적용해야 한다.

In [11]:
df[0].value_counts()

3.0    2
4.0    1
0.0    1
Name: 0, dtype: int64

### 정렬
* `sort_index`  : 인덱스 값을 기준으로 데이터를 정렬해준다.
* `sort_values` : 데이터 값으 기준으로 데이터를 정렬해준다.

In [12]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

* NaN 값이 있는 경우에는 정렬하면 NaN값이 가장 나중으로 간다.

In [13]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

* `ascending=False` : 큰 수에서 작은 수로 반대 방향 정렬해준다.

In [14]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

* 데이터프레임에서 `sort_values` 메서드를 사용하려면 `by` 인수로 정렬 기준이 되는 열을 지정해 주어야 한다.

In [17]:
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [15]:
df.sort_values(by=1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


* `by` 인수에 리스트 값을 넣으면 이 순서대로 정렬 기준의 우선 순위가 된다. 즉, 리스트의 첫번째 열을 기준으로 정렬한 후 동일한 값이 나오면 그 다음 열로 순서를 따지게 된다.

In [16]:
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


### 행/열 합계
* `sum(axis)` : 행과 열의 합계를 구해준다.

In [18]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


* `sum(axis=1)` : 행 합계를 구해준다.

In [19]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [20]:
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


* `sum(axis=0)` : 열 합계를 구해준다 (기본은 0으로 되어있어 axis인수 생략가능)

In [21]:
df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    152
dtype: int64

In [22]:
df2.loc["ColTotal", :] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


### `apply` 변환
* 행이나 열단위로 더 복잡한 처리를 할 수 있다.
* 인수로 행 또는 열을 받는 함수를 `apply` 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다. 

In [23]:
df3 = pd.DataFrame({
        'A': [1, 3, 4, 3, 4],
        'B': [2, 3, 1, 2, 3],
        'C': [1, 5, 2, 4, 4]
    })
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [25]:
df3.apply(lambda x: x.max() - x.min()) # 각 열의 최대값과 최소값의 차이

A    3
B    2
C    4
dtype: int64

* `axis=1` : 행에 대해 적용한다.

In [26]:
df3.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

* 각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 `value_counts` 함수를 넣을 수도 있다.

In [27]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


* `fillna` : NaN 값을 원하는 값으로 바꾼다.
* `astype` : 전체 데이터의 자료형을 바꾼다.

In [29]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


### 실수 값을 카테고리 값으로 변환
* 실수 값을 크기 기준으로 하여 카테고리 값으로 변환할 수 있다.
    * `cut`: 실수 값의 경계선을 지정하는 경우
    * `qcut`: 갯수가 똑같은 구간으로 나누는 경우

In [30]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

* `cut` : 실수값을 다음처럼 카테고리 값으로 바꿀 수 있다.
* `bins`인수는 카테고리를 나누는 기준값이 된다.
* 영역을 넘는 값은 NaN으로 처리된다.

In [31]:
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

* `cut` 명령이 반환하는 값은 `Categorical` 클래스 객체이다. 
* `categories` :  속성으로 라벨 문자열을,  `codes` 속성으로 정수로 인코딩한 카테고리 값을 가진다. 

In [32]:
type(cats)

pandas.core.categorical.Categorical

In [33]:
cats.categories

Index([u'미성년자', u'청년', u'중년', u'장년', u'노년'], dtype='object')

In [34]:
cats.codes

array([-1,  0,  0,  1,  1,  3,  2,  4,  1,  3,  2, -1], dtype=int8)

In [35]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


* `qcut` : 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다.

In [36]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

[Q2, Q1, Q2, Q3, Q1, ..., Q1, Q1, Q4, Q4, Q2]
Length: 1000
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [37]:
pd.value_counts(cats)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64