In [53]:
"""
Pandas 데이터 처리
Pandas는 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.
여기에서는 그 중 몇가지를 예로 보인다. 전체 기능은 다음 웹사이트를 참조한다

https://pandas.pydata.org/pandas-docs/stable/api.html
"""

'\nPandas 데이터 처리\nPandas는 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.\n여기에서는 그 중 몇가지를 예로 보인다. 전체 기능은 다음 웹사이트를 참조한다\n\nhttps://pandas.pydata.org/pandas-docs/stable/api.html\n'

In [54]:
import numpy as np
import pandas as pd

In [55]:
# 갯수 세기
# count() : NaN값은 세지 않는다.
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [56]:
s.count()

9

In [57]:
# 난수 고정 : seed()
np.random.seed(1)
# 0~4 난수로 4행 4열 
df = pd.DataFrame(np.random.randint(5, size=(4,4)))
# 2행 3열 결측값처리
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


In [58]:
# 각 컬럼명의 data 수를 세기
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [59]:
# 카테고리 값 세기
# 빈도수 세기 : value_counts()
np.random.seed(1)
s = pd.Series(np.random.randint(6, size=100))
s.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [60]:
# 각 값의 빈도수를 출력
# sort_index() : index순으로 정렬
s.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [61]:
# 행/열 합계
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [62]:
# 열 합계
df.sum()

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

In [63]:
# 열 합계
df.sum(axis=0)

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

In [64]:
# 행 합계
df.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [65]:
df["row sum"] = df.sum(axis=1)
df.loc["col sun"] = df.sum(axis=0)
df

Unnamed: 0,0,1,2,3,4,5,6,7,row sum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
col sun,24,33,25,24,15,10,5,16,152


In [69]:
df1 = df.T
df1 = df1.T
df1

Unnamed: 0,0,1,2,3,4,5,6,7,row sum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
col sun,24,33,25,24,15,10,5,16,152


In [None]:
"""
apply 변환

행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다. 
인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 
각 열(또는 행)을 반복하여 그 함수에 적용시킨다.
"""

In [70]:
df = pd.DataFrame({
    "A": [1, 3, 4, 3, 4],
    "B": [2, 3, 1, 2, 3],
    "C": [1, 5, 2, 4, 4]
})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [74]:
# 에를 들어 각 열의 최대값과 최소값의 차이를 구하고 싶으면
# 다음과 같은 lambda를 넣는다.
# 열
df.apply(lambda x: x.max()-x.min(), axis=0)

A    3
B    2
C    4
dtype: int64

In [75]:
# 행
df.apply(lambda x: x.max()-x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [80]:
# 각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면
# value_counts 함수를 넣을 수도 있다.
df.apply(pd.value_counts, axis=0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [83]:
# 행
df.apply(pd.value_counts, axis=1)

Unnamed: 0,1,2,3,4,5
0,2.0,1.0,,,
1,,,2.0,,1.0
2,1.0,1.0,,1.0,
3,,1.0,1.0,1.0,
4,,,1.0,2.0,


In [84]:
# fillna() : NaN값을 원하는 함수로 바꿀 수 있음.
df.apply(pd.value_counts).fillna(0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [None]:
"""
실수 값을 카테고리 값으로 변환

실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 
다음과 같은 명령을 사용한다.

cut: 실수 값의 경계선을 지정하는 경우
qcut: 갯수가 똑같은 구간으로 나누는 경우
"""

In [90]:
# 예를 들어 다음과 같은 나이 데이터가 있다고 하자.
age = [0, 2, 5, 15, 20, 25, 30, 35, 40, 60, 65, 27, 70, 10, 32]
# 구간 정하기
bins = [1, 15, 25, 35, 60, 190]
# 구간별 label
labels = ["청소년", "청년", "중년", "장년", "노년"]
ctgs = pd.cut(age, bins, labels=labels)
ctgs

[NaN, 청소년, 청소년, 청소년, 청년, ..., 노년, 중년, 노년, 청소년, 중년]
Length: 15
Categories (5, object): [청소년 < 청년 < 중년 < 장년 < 노년]

In [91]:
type(ctgs)

pandas.core.categorical.Categorical

In [94]:
ctgs.categories

Index(['청소년', '청년', '중년', '장년', '노년'], dtype='object')

In [96]:
ctgs.codes

array([-1,  0,  0,  0,  1,  1,  2,  2,  3,  3,  4,  2,  4,  0,  2], dtype=int8)

In [99]:
df = pd.DataFrame(age, columns=["age"])
df["age class"] = pd.cut(df.age, bins, labels=labels)
df

Unnamed: 0,age,age class
0,0,
1,2,청소년
2,5,청소년
3,15,청소년
4,20,청년
5,25,청년
6,30,중년
7,35,중년
8,40,장년
9,60,장년


In [105]:
# qcnt() : 같은 데이터를 가진 구간으로 나눈다.
# 예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 
# 각 구간은 250개씩의 데이터를 가진다.
data = np.random.randn(1000)
ctgs = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
ctgs

[Q1, Q3, Q2, Q1, Q2, ..., Q3, Q1, Q3, Q4, Q4]
Length: 1000
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [106]:
pd.value_counts(ctgs)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64