# Pandas 데이터 변환
--------------------------------------

- applymap 변환
- apply 변환

In [1]:
import numpy as np
import pandas as pd

### applymap : 단일 원소 변환

In [5]:
np.random.seed(0)
df = pd.DataFrame(np.random.randn(4,3), columns = list('bde'), index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
df
# col이 쪼개져서 들어가고, 난수 생성(시드)으로 4*3 데이터테이블 생성.

Unnamed: 0,b,d,e
Utah,1.764052,0.400157,0.978738
Ohio,2.240893,1.867558,-0.977278
Texas,0.950088,-0.151357,-0.103219
Oregon,0.410599,0.144044,1.454274


In [9]:
format = lambda x: '%.2f' % x
df2 = df.applymap(format)
df2

# 소수점 둘째자리까지 표기하는 포맷을 만듦.

Unnamed: 0,b,d,e
Utah,1.76,0.4,0.98
Ohio,2.24,1.87,-0.98
Texas,0.95,-0.15,-0.1
Oregon,0.41,0.14,1.45


In [11]:
df.values.dtype, df2.values.dtype

# df values : float
## df2 values : '0' ; means a python object.applymap 으로 인해 변환되었기 때문에 플로트로 인식하지 않는다.

(dtype('float64'), dtype('O'))

## apply 변환 : row/column을 변환

In [13]:
df = pd.DataFrame({
    'Qu1': [1,3,4,3,4],
    'Qu2': [2,3,1,2,3],
    'Qu3' : [1,5,2,4,4]
})
df

# row name은 기본 zero-based, col name만 qu1~ 으로 설정되어 있는 데이터프레임 생성

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [16]:
f = lambda x: 2*x
df.apply(f)

# 각 열에 모두 2를 곱하는 데이터프레임으로 변환

Unnamed: 0,Qu1,Qu2,Qu3
0,2,4,2
1,6,6,10
2,8,2,4
3,6,4,8
4,8,6,8


In [19]:
f = lambda x: x.max()-x.min()
df.apply(f)

# 각 열에서 max-min의 값을 리턴한다

Qu1    3
Qu2    2
Qu3    4
dtype: int64

In [20]:
df.apply(f, axis=1)

# 기본 데이터프레임에서 max-min의 값을 리턴하여 하나의 col으로 표현한다

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [23]:
df.apply(pd.value_counts)

# pd.values_counts : Returns object containing counts of unique values.


Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [25]:
df.apply(pd.value_counts).fillna(0)
# nan을 0으로 채움

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


# 데이터프레임과 시리즈의 연산

데이터프레임의 각 행을 같은 크기의 시리즈와 연산하면
반복 연산(브로드캐스팅)을 한다.
열은 연산이 되지 않아 전치연산 해야 한다.

In [30]:
df

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [33]:
df/df.ix[0]

# 2열만 /2가 되었다.

Unnamed: 0,Qu1,Qu2,Qu3
0,1.0,1.0,1.0
1,3.0,1.5,5.0
2,4.0,0.5,2.0
3,3.0,1.0,4.0
4,4.0,1.5,4.0


- iloc : integer position을 통해 값을 찾을 수 있다.
- loc : label을 통해 값을 찾을 수 있다.
- ix : integer position, label 둘 다 가능하다.

In [34]:
(df.T/df.ix[:,0]).T

# 

Unnamed: 0,Qu1,Qu2,Qu3
0,1.0,2.0,1.0
1,1.0,1.0,1.666667
2,1.0,0.25,0.5
3,1.0,0.666667,1.333333
4,1.0,0.75,1.0


# cut / qcut
- 실수 자료를 카테고리 자료로 변환한다.
- **cut** : bins를 사용자 지정한다
- **qcut** : quantile 기준으로 한다.

In [35]:
ages = [20,22,25,27,21,23,37,31,61,45,41,32]
bins = [18,25,35,60,100]
cats = pd.cut(ages,bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, object): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [36]:
cats.categories

Index([u'(18, 25]', u'(25, 35]', u'(35, 60]', u'(60, 100]'], dtype='object')

In [37]:
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [47]:
pd.cut(ages, [18, 26, 36, 61, 100], right=False)

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, object): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

### pandas.cut

- right : boo, optional.

right True -> including the rightmost edge

In [41]:
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, bins, labels=group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

In [42]:
df = pd.DataFrame(ages, columns=["ages"])
df.tail()

Unnamed: 0,ages
7,31
8,61
9,45
10,41
11,32


In [43]:
df["age_cat"] = pd.cut(df.ages, bins, labels=group_names)
df

Unnamed: 0,ages,age_cat
0,20,Youth
1,22,Youth
2,25,Youth
3,27,YoungAdult
4,21,Youth
5,23,Youth
6,37,MiddleAged
7,31,YoungAdult
8,61,Senior
9,45,MiddleAged


In [44]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4)
cats

[(0.584, 2.759], (-0.058, 0.584], (-0.058, 0.584], (-0.058, 0.584], (0.584, 2.759], ..., [-3.0461, -0.705], (-0.058, 0.584], (-0.058, 0.584], [-3.0461, -0.705], (0.584, 2.759]]
Length: 1000
Categories (4, object): [[-3.0461, -0.705] < (-0.705, -0.058] < (-0.058, 0.584] < (0.584, 2.759]]

In [48]:
pd.value_counts(cats)

(0.584, 2.759]       250
(-0.058, 0.584]      250
(-0.705, -0.058]     250
[-3.0461, -0.705]    250
dtype: int64

In [46]:
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.])

[(-0.058, 1.212], (-0.058, 1.212], (-0.058, 1.212], (-0.058, 1.212], (1.212, 2.759], ..., [-3.0461, -1.304], (-0.058, 1.212], (-0.058, 1.212], (-1.304, -0.058], (1.212, 2.759]]
Length: 1000
Categories (4, object): [[-3.0461, -1.304] < (-1.304, -0.058] < (-0.058, 1.212] < (1.212, 2.759]]