## Pandas 데이터 처리
- 참고) https://pandas.pydata.org/pandas-docs/stable/api.html

In [1]:
import pandas as pd
import numpy as np

### count()
데이터의 갯수를 세는 메소드로 NaN 데이터는 포함하지 않는다.

In [2]:
sr = pd.Series(range(10))
sr[3] = np.nan
sr

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [3]:
sr.count()

9

#### DataFrame에서는 기본적으로 col 방향으로 갯수를 센다.

In [4]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)))
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


In [5]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

### value_counts
값이 정수, 문자열, 카테고리 값인 경우에 사용할 수 있고, 각각의 값이 나온 횟수를 구한다.

In [6]:
np.random.seed(1)
s = pd.Series(np.random.randint(6, size=100))
s.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [7]:
s.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

### Sum
데이터의 합을 구하는데 사용한다.

In [8]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [9]:
df["sum"] = df.sum(axis=1)
df

Unnamed: 0,0,1,2,3,4,5,6,7,sum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [10]:
df.loc[4, :] = df.sum()
df

Unnamed: 0,0,1,2,3,4,5,6,7,sum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
4,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


### apply
row 또는 col 단위로 복잡한 처리를 할 때 사용한다.

In [11]:
df = pd.DataFrame({
        'A': [1, 3, 4, 3, 4],
        'B': [2, 3, 1, 2, 3],
        'C': [1, 5, 2, 4, 4]
    })
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [12]:
df.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [13]:
df.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [14]:
df.apply(pd.value_counts).fillna(0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


### 구간 나누기
- cut : 실수 값의 경계선을 지정하는 경우
- qcut : 갯수가 같은 구간으로 나누는 경우

In [15]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32]

In [16]:
bins = [1, 15, 25, 35, 60, 190]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 중년, 노년, 청년, 장년, 중년]
Length: 11
Categories (5, object): [노년 < 미성년자 < 장년 < 중년 < 청년]

In [17]:
cats.categories

Index(['노년', '미성년자', '장년', '중년', '청년'], dtype='object')

In [18]:
cats.codes

array([-1,  1,  1,  4,  4,  2,  3,  0,  4,  2,  3], dtype=int8)

In [19]:
df = pd.DataFrame(ages, columns=["ages"])
df["age_cat"] = pd.cut(df.ages, bins, labels=labels)
df

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


In [20]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

[Q2, Q1, Q2, Q3, Q1, ..., Q1, Q1, Q4, Q4, Q2]
Length: 1000
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [21]:
pd.value_counts(cats)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64