## Pandas 데이터처리

pandas 는 데이터 처리 및 변환을 위한 다양함 함소와 메소드를 제시한다
- 갯수세기 (count)
- 카테고리 세기 (value_counts().sort_index())
- 행/열 합계
- apply 변환
- 실수 값을 카테고리값으로 변환

In [1]:
import pandas as pd
import numpy as np

In [2]:
s = pd.Series(range(10))
s[3]=np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [4]:
s.count()

9

In [5]:
s.count

<bound method Series.count of 0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64>

In [8]:
np.random.seed(1)
df=pd.DataFrame(np.random.randint(5, size=(4,4)))
df.iloc[2,3]=np.nan
df

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


np.random.seed는 난수를 생성해준다

In [18]:
np.random.seed(1)
s=pd.Series(np.random.randint(6, size=100))
s.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [19]:
s.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [20]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10, size=(4,8)))
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [28]:
df.sum(axis=1)

0        105.0
1        102.0
2        123.0
3        126.0
Total    456.0
dtype: float64

In [30]:
df["Sum"]=df.sum(axis=1)
df

Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,140.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,136.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,164.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,168.0
Total,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,608.0


In [31]:
df.sum()

0        48.0
1        66.0
2        50.0
3        48.0
4        30.0
5        20.0
6        10.0
7        32.0
Sum    1216.0
dtype: float64

In [32]:
df.loc["Total",:] =df.sum()
df

Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,140.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,136.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,164.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,168.0
Total,48.0,66.0,50.0,48.0,30.0,20.0,10.0,32.0,1216.0


In [33]:
df = pd.DataFrame({
    'A': [1,2,3,4,3],
    'B': [2,3,1,2,3],
    'C': [1,5,2,4,4]
    })
df

Unnamed: 0,A,B,C
0,1,2,1
1,2,3,5
2,3,1,2
3,4,2,4
4,3,3,4


In [34]:
df.apply(lambda x: x.max()-x.min())

A    3
B    2
C    4
dtype: int64

In [35]:
df.apply(lambda x: x.max()-x.min(), axis=1)

0    1
1    3
2    2
3    2
4    1
dtype: int64

In [36]:
df.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,1.0,2.0,1.0
3,2.0,2.0,
4,1.0,,2.0
5,,,1.0


In [37]:
df.apply(pd.value_counts).fillna(0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,1.0,2.0,1.0
3,2.0,2.0,0.0
4,1.0,0.0,2.0
5,0.0,0.0,1.0


## 실수값을 카테고리값으로 변환

실수 값을 기준으로 하여 카테고리 값으로 변환하고 싶을떄는 다음과 같은 명령을 사용합니다
- cut : 실수 값의 경계선을 지정하는 경우
- qcut : 갯수가 똑같은 구간으로 나누는 경우

In [38]:
ages = [0,2,1,10,21,39,21,20,19]

In [43]:
bins = [1, 15, 25, 35, 60, 190]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, NaN, 미성년자, 청년, 장년, 청년, 청년, 청년]
Categories (5, object): [노년 < 미성년자 < 장년 < 중년 < 청년]

결과로 반환되는 값은 Categorical 클래스 객체이다. 이 객체는 categories 속성에 라벨 문자열을 codes 속성에 정수로 인코딩한 카테고리 값을 가진다.

In [46]:
cats.categories

Index(['노년', '미성년자', '장년', '중년', '청년'], dtype='object')

In [47]:
cats.codes

array([-1,  1, -1,  1,  4,  2,  4,  4,  4], dtype=int8)

In [49]:
df =pd.DataFrame(ages, columns=['ages'])
df["age_cat"]=pd.cut(df.ages, bins, labels=labels)
df

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,1,
3,10,미성년자
4,21,청년
5,39,장년
6,21,청년
7,20,청년
8,19,청년


In [52]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=["Q1","Q2","Q3","Q4"])
cats

[Q3, Q1, Q1, Q1, Q2, ..., Q3, Q4, Q3, Q3, Q2]
Length: 1000
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [54]:
pd.value_counts(cats)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64