In [None]:
# Clean, Transform, Merge, Reshape

In [3]:
from __future__ import division
from numpy.random import randn
import numpy as np
import os
import matplotlib.pyplot as plt
np.random.seed(12345)
plt.rc('figure', figsize=(10, 6))
from pandas import Series, DataFrame
import pandas
import pandas as pd
np.set_printoptions(precision=4, threshold=500)
pd.options.display.max_rows = 100

## 데이터 합치기

#### 1. merge
- 수평(횡) 결합
- merge의 how 옵션에 따라 inner, outer, left, right join을 발생시킴
- key가 다르지만 같이 넣고 싶다면 left on = key1, right on = key2
- inner join : 교집합, full join : 합집합, left join : left + inner, right join : right + inner
- key와 value 중에 기준을 하고 싶다? on = 'key' / 여러 개의 key를 list로 줘도 됨
- suffix : left = x, right = y 이므로 선택하고 싶은 value에따라 고를 것.

In [3]:
df1 = DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data1': range(7)})
df2 = DataFrame({'key': ['a', 'b', 'd'],
                 'data2': range(3)})
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [5]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [9]:
pd.merge(df1, df2) # 살아남은 교집합만 

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


In [27]:
# left on, right on
df3 = DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data1': range(7)})
df4 = DataFrame({'rkey': ['a', 'b', 'd'],
                 'data2': range(3)})
print(df3)
print(df4)
pd.merge(df3, df4, left_on='lkey', right_on='rkey')

  lkey  data1
0    b      0
1    b      1
2    a      2
3    c      3
4    a      4
5    a      5
6    b      6
  rkey  data2
0    a      0
1    b      1
2    d      2


Unnamed: 0,lkey,data1,rkey,data2
0,b,0,b,1
1,b,1,b,1
2,b,6,b,1
3,a,2,a,0
4,a,4,a,0
5,a,5,a,0


In [11]:
# how
df1 = DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
                 'data1': range(6)})
df2 = DataFrame({'key': ['a', 'b', 'a', 'b', 'd'],
                 'data2': range(5)})

pd.merge(df1, df2, on='key', how='left')
# 같은 값의 key값이 있다면 catesian production된다. left key : 2, right key : 2라면 2 x 2개의 key가 생성.
# 고로 key 'a'가 4개임.
# inner에서만 발생한다. why? inner에서만 중복처리할 일이 있기 때문이다.

Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,0,3.0
2,b,1,1.0
3,b,1,3.0
4,a,2,0.0
5,a,2,2.0
6,c,3,
7,a,4,0.0
8,a,4,2.0
9,b,5,1.0


In [14]:
# 두 개의 key
left = DataFrame({'key1': ['foo', 'foo', 'bar'],
                  'key2': ['one', 'two', 'one'],
                  'lval': [1, 2, 3]})
right = DataFrame({'key1': ['foo', 'foo', 'bar', 'bar'],
                   'key2': ['one', 'one', 'one', 'two'],
                   'rval': [4, 5, 6, 7]})
print(left)
print(right)
pd.merge(left, right, on=['key1', 'key2'], how='outer')

  key1 key2  lval
0  foo  one     1
1  foo  two     2
2  bar  one     3
  key1 key2  rval
0  foo  one     4
1  foo  one     5
2  bar  one     6
3  bar  two     7


Unnamed: 0,key1,key2,lval,rval
0,foo,one,1.0,4.0
1,foo,one,1.0,5.0
2,foo,two,2.0,
3,bar,one,3.0,6.0
4,bar,two,,7.0


In [15]:
# suffix
pd.merge(left, right, on='key1') # suffix = default

Unnamed: 0,key1,key2_x,lval,key2_y,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [12]:
pd.merge(left, right, on='key1', suffixes=('_left', '_right')) 

Unnamed: 0,key1,key2_left,lval,key2_right,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [16]:
# left : on = key, right : index = True
left1 = DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'],
                  'value': range(6)})
right1 = DataFrame({'group_val': [3.5, 7]}, index=['a', 'b'])

pd.merge(left1, right1, left_on='key', right_index=True)

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0


In [20]:
# 계층적 색인 (multi-index)
lefth = DataFrame({'key1': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
                   'key2': [2000, 2001, 2002, 2001, 2002],
                   'data': np.arange(5.)})
righth = DataFrame(np.arange(12).reshape((6, 2)),
                   index=[['Nevada', 'Nevada', 'Ohio', 'Ohio', 'Ohio', 'Ohio'],
                          [2001, 2000, 2000, 2000, 2001, 2002]],
                   columns=['event1', 'event2'])
lefth

Unnamed: 0,key1,key2,data
0,Ohio,2000,0.0
1,Ohio,2001,1.0
2,Ohio,2002,2.0
3,Nevada,2001,3.0
4,Nevada,2002,4.0


In [21]:
righth

Unnamed: 0,Unnamed: 1,event1,event2
Nevada,2001,0,1
Nevada,2000,2,3
Ohio,2000,4,5
Ohio,2000,6,7
Ohio,2001,8,9
Ohio,2002,10,11


In [19]:
pd.merge(lefth, righth, left_on=['key1', 'key2'], right_index=True)

Unnamed: 0,key1,key2,data,event1,event2
0,Ohio,2000,0.0,4,5
0,Ohio,2000,0.0,6,7
1,Ohio,2001,1.0,8,9
2,Ohio,2002,2.0,10,11
3,Nevada,2001,3.0,0,1


In [22]:
# 두 개의 계층적 색인 (multi index)
left2 = DataFrame([[1., 2.], [3., 4.], [5., 6.]], index=['a', 'c', 'e'],
                 columns=['Ohio', 'Nevada'])
right2 = DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],
                   index=['b', 'c', 'd', 'e'], columns=['Missouri', 'Alabama'])
print(left2)
print(right2)

   Ohio  Nevada
a   1.0     2.0
c   3.0     4.0
e   5.0     6.0
   Missouri  Alabama
b       7.0      8.0
c       9.0     10.0
d      11.0     12.0
e      13.0     14.0


In [23]:
pd.merge(left2, right2, how='outer', left_index=True, right_index=True)

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


#### 2. join
- catesian production 시 에러 why? index를 기준으로 합치기 때문이다. 이를 좀만 생각하면 왜 join은 sort = False인지 알 수 있음
- index로 merge할 때, df.join 메소드 사용
- col이 겹치지 않으며 색인구조가 유사한 여러 df 병합 시 사용
- 데이터를 얼마나 살리고 죽이느냐에 따라 join의 how를 결정함. ex) 결측치 많아도 합친다 = outer
- left.join(other)  // how의 default는 left 이므로 df : 중요한 data, other : 합쳐올 data

#### 연산의 과정을 생각하면 join이 저렴하고 효율적, merge는 비싸고 오래 걸리는 연산이다. why? catesian production

In [30]:
left2 = DataFrame([[1., 2.], [3., 4.], [5., 6.]], index=['a', 'c', 'e'],
                 columns=['Ohio', 'Nevada'])
right2 = DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],
                   index=['b', 'c', 'd', 'e'], columns=['Missouri', 'Alabama'])

left2

Unnamed: 0,Ohio,Nevada
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


In [31]:
right2

Unnamed: 0,Missouri,Alabama
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [36]:
left2.join(right2)

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


In [32]:
left2.join(right2, how='outer')

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [39]:
another = DataFrame([[7., 8.], [9., 10.], [11., 12.], [16., 17.]],
                    index=['a', 'c', 'e', 'f'], columns=['New York', 'Oregon'])

another

Unnamed: 0,New York,Oregon
a,7.0,8.0
c,9.0,10.0
e,11.0,12.0
f,16.0,17.0


In [41]:
left2 # left2가 기준이므로 얘가 가진 index를 기준으로 생각할 것.

Unnamed: 0,Ohio,Nevada
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


In [40]:
# 예를 들어 3개의 부서가 각각 2개씩 도시를 모아오면 합쳐주는 것.
left2.join([right2, another])

Unnamed: 0,Ohio,Nevada,Missouri,Alabama,New York,Oregon
a,1.0,2.0,,,7.0,8.0
c,3.0,4.0,9.0,10.0,9.0,10.0
e,5.0,6.0,13.0,14.0,11.0,12.0


In [42]:
# 그냥 다 합쳐
left2.join([right2, another], how='outer') 

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  verify_integrity=True)


Unnamed: 0,Ohio,Nevada,Missouri,Alabama,New York,Oregon
a,1.0,2.0,,,7.0,8.0
b,,,7.0,8.0,,
c,3.0,4.0,9.0,10.0,9.0,10.0
d,,,11.0,12.0,,
e,5.0,6.0,13.0,14.0,11.0,12.0
f,,,,,16.0,17.0


In [38]:
# look up table 
left1.join(right1, on='key') # right : look up table, 유일한 값들이 표 형식으로 존재하여 다른 객체들이 참조함.

Unnamed: 0,key,value,group_val
0,a,0,3.5
1,b,1,7.0
2,a,2,3.5
3,a,3,3.5
4,b,4,7.0
5,c,5,


___

#### concatenating along an axis
- 수직(종) 결합(concatenating)
- 이어 붙이기(binding)
- 적층(stacking)
- 동일한 열이름을 갖는 df들의 수직연결(행연결)을 위해 사용
- pandas.concat(objs, ignore_index, keys, levels, names, verify_integrity) # 결합할 축에 관련된 옵션
- pandas.concat(join, axis, join_axes, copy) # 결합할 형식에 대한 옵션
- keys
    - 어느 부서가 조사했는지 행결합 시 표시하기.
    - multi indexing이 필요하다. how? keys = '어느 부서', names = '고객 ID'
- verify_index
    - 중복된 행들이 발생하면 error를 발생시킴 / 뭐가 더 최신 내용인지 확인할 수 있도록 해줌.
- ignore index
    - index 무시하고 합침.
- join
    - default : 'outer' 
    - col은 전부 다 합쳐주지만 없는 df에서는 전부 NaN이 나올 것.
    - why? 고객의 segment를 나누고 조사하는 항목이 다를 수 있으므로

#### pd.concat의 작동 원리
1. 결합축(axis=0)으로 이어붙인다.
2. 결합축이 아닌(axis=1) index로 join이 이뤄진다.
   - 동일한 index label(col_name)을 key로 하는 join이 생성
   - 암묵적으로 join=outer이므로, NaN이 발생할 수 있다.
   - 특정 df 내에서 join key가 중복된 경우 error 발생. (행 결합 시 row_name이 중복되면 error 난다.)
   - 즉, cartesian production을 피한다.
3. igore_index = True인 경우:
   - 입력 df의 결합축 index를 무시하고, 
   - 출력 df에서는 순서 index가 생성된다.
4. keys= [ex) 부서이름]가 제공된 경우:
   - 출력 df에서 결합축 최외곽의 계층적 색인 label이 지정된다.
   - 이때, names=[]가 제시된 경우 계층적 색인들의 level이 지정된다.
5. verify_integrity = True인 경우: 
   - 출력 df에서 index의 중복여부를 검사하여
   - 중복된 경우, ValueError: Indexes have overlapping values: ['a', 'b']


In [43]:
arr = np.arange(12).reshape((3, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [44]:
np.concatenate([arr, arr])

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [45]:
np.concatenate([arr, arr], axis = 1) # axis에 따라 join, merge처럼 수평 결합도 지원함.

array([[ 0,  1,  2,  3,  0,  1,  2,  3],
       [ 4,  5,  6,  7,  4,  5,  6,  7],
       [ 8,  9, 10, 11,  8,  9, 10, 11]])

In [49]:
s1 = Series([0, 1], index=['a', 'b'])
s2 = Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = Series([5, 6], index=['f', 'g'])

print(s1)
print(s2)
print(s3)

a    0
b    1
dtype: int64
c    2
d    3
e    4
dtype: int64
f    5
g    6
dtype: int64


In [50]:
pd.concat([s1, s2, s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [51]:
pd.concat([s1, s2, s3], axis = 1) # outer join

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [53]:
s4 = pd.concat([s1 * 5, s3])
s4

a    0
b    5
f    5
g    6
dtype: int64

In [56]:
# Series 2개 열방향 결합
pd.concat([s1, s4])

a    0
b    1
a    0
b    5
f    5
g    6
dtype: int64

In [62]:
# multi indexing 
result = pd.concat([s1, s1, s3], keys=['one', 'two', 'three']) # keys = '부서 이름'
result

one    a    0
       b    1
two    a    0
       b    1
three  f    5
       g    6
dtype: int64

### 이 밑으로는 몰라도 됨. 그냥 join이랑 merge 쓰셈
___

In [55]:
# Series 2개 수평 결합
pd.concat([s1, s4], axis=1)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,0,1
a,0.0,0
b,1.0,5
f,,5
g,,6


In [61]:
# a, c, b, e에 대해 수평 결합
pd.concat([s1, s4], axis=1, join_axes=[['a', 'c', 'b', 'e']])

Unnamed: 0,0,1
a,0.0,0.0
c,,
b,1.0,5.0
e,,


In [75]:
# 2개의 df 수평 결합
df1 = DataFrame(np.arange(6).reshape(3, 2), index=['a', 'b', 'c'],
                columns=['one', 'two'])
df2 = DataFrame(5 + np.arange(4).reshape(2, 2), index=['a', 'c'],
                columns=['three', 'four'])
print(df1)
print(df2)

   one  two
a    0    1
b    2    3
c    4    5
   three  four
a      5     6
c      7     8


In [78]:
pd.concat([df1, df2], axis=1, keys=['level1', 'level2']
         , names=['upper', 'lower']) # 이름 지정해주기

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


upper,level1,level1,level2,level2
lower,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [77]:
# dict로 넣어도 똑같은 결과
pd.concat({'level1': df1, 'level2': df2}, axis=1)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,level1,level1,level2,level2
Unnamed: 0_level_1,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [94]:
# 2개의 df 수직 결합
df1 = DataFrame(np.random.randn(3, 4), columns=['a', 'b', 'c', 'd'])
df2 = DataFrame(np.random.randn(2, 3), columns=['b', 'd', 'a'])

df1

Unnamed: 0,a,b,c,d
0,-1.265934,0.119827,-1.063512,0.332883
1,-2.359419,-0.199543,-1.541996,-0.970736
2,-1.30703,0.28635,0.377984,-0.753887


In [95]:
df2

Unnamed: 0,b,d,a
0,0.331286,1.349742,0.069877
1,0.246674,-0.011862,1.004812


In [82]:
pd.concat([df1, df2], ignore_index=True) # index 이름 무시하고 새로 재편성

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,a,b,c,d
0,-0.204708,0.478943,-0.519439,-0.55573
1,1.965781,1.393406,0.092908,0.281746
2,0.769023,1.246435,1.007189,-1.296221
3,1.352917,0.274992,,0.228913
4,-0.371843,0.886429,,-2.001637


In [96]:
pd.concat([df1, df2], axis = 1) # 열이 중복되면 에러가 나야하는데 왜 되나요?

Unnamed: 0,a,b,c,d,b.1,d.1,a.1
0,-1.265934,0.119827,-1.063512,0.332883,0.331286,1.349742,0.069877
1,-2.359419,-0.199543,-1.541996,-0.970736,0.246674,-0.011862,1.004812
2,-1.30703,0.28635,0.377984,-0.753887,,,


___

- 헷갈리지 않으려면 수직은 concat, 수평은 merge, join만 사용할 것. 

### 수평과 수직 구분하는 예시
- concat : 고객들을 여러 개로 나눠서 조사함. 조사하는 항목은 전부 같음
- merge, join : 고객에게 여러 가지 항목을 조사함. 고객은 전부 같지만 조사할 내용이 다름.

___

#### combining and data overlab
- 결측값을 갖고 있는 경우, 다른 성분으로 대체하기

In [1]:
a = Series([np.nan, 2.5, np.nan, 3.5, 4.5, np.nan],
           index=['f', 'e', 'd', 'c', 'b', 'a'])
b = Series(np.arange(len(a), dtype=np.float64),
           index=['f', 'e', 'd', 'c', 'b', 'a'])
b[-1] = np.nan

NameError: name 'Series' is not defined

In [103]:
a

f    NaN
e    2.5
d    NaN
c    3.5
b    4.5
a    NaN
dtype: float64

In [104]:
b

f    0.0
e    1.0
d    2.0
c    3.0
b    4.0
a    NaN
dtype: float64

- np.where(condition, b, a):
    - condition[i]= True면 k[i] = b[i]
    - condition[i]= False면 k[i] = a[i]

In [105]:
np.where(pd.isnull(a), b, a) # np.array 비교니까 index는 무시함. why? Series = index + array

array([0. , 2.5, 2. , 3.5, 4.5, nan])

- pandas 객체 메소드 combine_first
- s = s1.combine_first(s2):
    - s1['label'] = NaN이면 s['label'] = s2['label']
    - s1['label'] = NaN이 아니면 s['label'] = s1['label']
    - np.where와 달리 index의 label로 비교한다는 차이가 있다.

In [109]:
b[:-2]

f    0.0
e    1.0
d    2.0
c    3.0
dtype: float64

In [110]:
a[2:]

d    NaN
c    3.5
b    4.5
a    NaN
dtype: float64

In [108]:
S = b[:-2].combine_first(a[2:]) # 합집합인데 s1이 NaN일 때 s2로 대체, 아니면 s1의 값 그대로 적용
S

a    NaN
b    4.5
c    3.0
d    2.0
e    1.0
f    0.0
dtype: float64

In [112]:
# df에서는 어떻게 적용되는가?
df1 = DataFrame({'a': [1., np.nan, 5., np.nan],
                 'b': [np.nan, 2., np.nan, 6.],
                 'c': range(2, 18, 4)})
df2 = DataFrame({'a': [5., 4., np.nan, 3., 7.],
                 'b': [np.nan, 3., 4., 6., 8.]})
print(df1)
print(df2)

     a    b   c
0  1.0  NaN   2
1  NaN  2.0   6
2  5.0  NaN  10
3  NaN  6.0  14
     a    b
0  5.0  NaN
1  4.0  3.0
2  NaN  4.0
3  3.0  6.0
4  7.0  8.0


In [111]:
df1.combine_first(df2)

Unnamed: 0,a,b,c
0,1.0,,2.0
1,4.0,2.0,6.0
2,5.0,4.0,10.0
3,3.0,6.0,14.0
4,7.0,8.0,


___
## stack, unstack
- index와 column을 row 사이에 왔다갔다하게 만드려고 사용함.
- index -> col : unstack
- col -> index : stack

In [63]:
result

one    a    0
       b    1
two    a    0
       b    1
three  f    5
       g    6
dtype: int64

In [64]:
result.unstack()

Unnamed: 0,a,b,f,g
one,0.0,1.0,,
two,0.0,1.0,,
three,,,5.0,6.0


In [65]:
result.unstack(0) # level을 고르는 것이므로 level = 0이면 최외각

Unnamed: 0,one,two,three
a,0.0,0.0,
b,1.0,1.0,
f,,,5.0
g,,,6.0


In [66]:
# 예시
df = DataFrame(np.arange(16).reshape((4,4)), index = [['one', 'one', 'two', 'two'], [1, 2, 3, 4]], 
               columns=[['k','l','m', 'n'], ['a', 'a', 'b',' b']])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,k,l,m,n
Unnamed: 0_level_1,Unnamed: 1_level_1,a,a,b,b
one,1,0,1,2,3
one,2,4,5,6,7
two,3,8,9,10,11
two,4,12,13,14,15


In [74]:
df.unstack()

Unnamed: 0_level_0,k,k,k,k,l,l,l,l,m,m,m,m,n,n,n,n
Unnamed: 0_level_1,a,a,a,a,a,a,a,a,b,b,b,b,b,b,b,b
Unnamed: 0_level_2,1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4
one,0.0,4.0,,,1.0,5.0,,,2.0,6.0,,,3.0,7.0,,
two,,,8.0,12.0,,,9.0,13.0,,,10.0,14.0,,,11.0,15.0


#### Reshaping with hierarchical indexing
- stack, unstack과 동일하며 적용 시 발생하는 NaN을 없애는 기능도 있음.
- df는 reshape가 안된다. why? dtype이 다름
___

In [5]:
# stack예시 1
data = DataFrame(np.arange(6).reshape((2, 3)),
                 index=pd.Index(['Ohio', 'Colorado'], name='state'),
                 columns=pd.Index(['one', 'two', 'three'], name='number'))
data

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [6]:
result = data.stack()
result

state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int32

In [7]:
result.shape

(6,)

In [12]:
result.unstack(0).stack()

number  state   
one     Ohio        0
        Colorado    3
two     Ohio        1
        Colorado    4
three   Ohio        2
        Colorado    5
dtype: int32

In [27]:
result.unstack('state')

state,Ohio,Colorado
number,Unnamed: 1_level_1,Unnamed: 2_level_1
one,0,3
two,1,4
three,2,5


In [15]:
# stack 예시 2
s1 = Series([0, 1, 2, 3], index=['a', 'b', 'c', 'd'])
s2 = Series([4, 5, 6], index=['c', 'd', 'e'])
data2 = pd.concat([s1, s2], keys=['one', 'two'])
data2

one  a    0
     b    1
     c    2
     d    3
two  c    4
     d    5
     e    6
dtype: int64

In [23]:
data2.unstack().stack(dropna=False) # stack의 dropna 옵션 사용

one  a    0.0
     b    1.0
     c    2.0
     d    3.0
     e    NaN
two  a    NaN
     b    NaN
     c    4.0
     d    5.0
     e    6.0
dtype: float64

___
## 데이터 pivot
- DB나 csv 파일 등에 기록된 시계열 데이터는 일반적으로 시간순으로 기록된다.
     - 이때 시간순으로 각 항목을 모두 레코드로 나열한 방식을 long data라 한다. 
     - row index : datetime이 찍힘
     - long data 형식이 분석에 적절하지 않을때, 각 항목을 열로 변경한 것을 wide data라 한다.

- wide data 를 long data
    - df.stack()
    - df.reset_index()

- long data를 wide data
    - df.pivot
    - 이때 지정한 index-columns 값의 조합은 unique 해야 한다.

In [None]:
# pivot 예시1

In [44]:
data = pd.read_csv('C:/Users/tmznq/workspace/ml_scratch/seoul_coding_academy/pydata-book-1st-edition/ch07/macrodata.csv')

In [45]:
data.head()

Unnamed: 0,year,quarter,realgdp,realcons,realinv,realgovt,realdpi,cpi,m1,tbilrate,unemp,pop,infl,realint
0,1959.0,1.0,2710.349,1707.4,286.898,470.045,1886.9,28.98,139.7,2.82,5.8,177.146,0.0,0.0
1,1959.0,2.0,2778.801,1733.7,310.859,481.301,1919.7,29.15,141.7,3.08,5.1,177.83,2.34,0.74
2,1959.0,3.0,2775.488,1751.8,289.226,491.26,1916.4,29.35,140.5,3.82,5.3,178.657,2.74,1.09
3,1959.0,4.0,2785.204,1753.7,299.356,484.052,1931.3,29.37,140.0,4.33,5.6,179.386,0.27,4.06
4,1960.0,1.0,2847.699,1770.5,331.722,462.199,1955.5,29.54,139.6,3.5,5.2,180.007,2.31,1.19


In [37]:
periods = pd.PeriodIndex(year=data.year, quarter=data.quarter, name='date')
periods # 연도와 1개의 분기 주기를 가지고 있는 period

PeriodIndex(['1959Q1', '1959Q2', '1959Q3', '1959Q4', '1960Q1', '1960Q2',
             '1960Q3', '1960Q4', '1961Q1', '1961Q2',
             ...
             '2007Q2', '2007Q3', '2007Q4', '2008Q1', '2008Q2', '2008Q3',
             '2008Q4', '2009Q1', '2009Q2', '2009Q3'],
            dtype='period[Q-DEC]', name='date', length=203, freq='Q-DEC')

In [46]:
data.to_records()[:3] # 1개의 row를 각각의 record로 만듦.
# But 열 기준 데이터인데 이를 행 기준으로 만든 데이터이므로 기존의 데이터를 copy해옴. 
# 이는 데이터를 비 효율적으로 쓰는 것이다.

rec.array([(0, 1959., 1., 2710.349, 1707.4, 286.898, 470.045, 1886.9, 28.98, 139.7, 2.82, 5.8, 177.146, 0.  , 0.  ),
           (1, 1959., 2., 2778.801, 1733.7, 310.859, 481.301, 1919.7, 29.15, 141.7, 3.08, 5.1, 177.83 , 2.34, 0.74),
           (2, 1959., 3., 2775.488, 1751.8, 289.226, 491.26 , 1916.4, 29.35, 140.5, 3.82, 5.3, 178.657, 2.74, 1.09)],
          dtype=[('index', '<i8'), ('year', '<f8'), ('quarter', '<f8'), ('realgdp', '<f8'), ('realcons', '<f8'), ('realinv', '<f8'), ('realgovt', '<f8'), ('realdpi', '<f8'), ('cpi', '<f8'), ('m1', '<f8'), ('tbilrate', '<f8'), ('unemp', '<f8'), ('pop', '<f8'), ('infl', '<f8'), ('realint', '<f8')])

In [51]:
data = DataFrame(data.to_records(),
                 columns=pd.Index(['realgdp', 'infl', 'unemp'], name='item'),
                 index=periods.to_timestamp('D', 'end')) # 단위 'Day', 분기의 마지막 날인 'end'로 표기

In [40]:
data.head()

item,realgdp,infl,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-03-31 23:59:59.999999999,2710.349,0.0,5.8
1959-06-30 23:59:59.999999999,2778.801,2.34,5.1
1959-09-30 23:59:59.999999999,2775.488,2.74,5.3
1959-12-31 23:59:59.999999999,2785.204,0.27,5.6
1960-03-31 23:59:59.999999999,2847.699,2.31,5.2


In [58]:
ldata = data.stack().reset_index().rename(columns={0: 'value'})
wdata = ldata.pivot('date', 'item', 'value')
ldata[:5]

Unnamed: 0,date,item,value
0,1959-03-31 23:59:59.999999999,realgdp,2710.349
1,1959-03-31 23:59:59.999999999,infl,0.0
2,1959-03-31 23:59:59.999999999,unemp,5.8
3,1959-06-30 23:59:59.999999999,realgdp,2778.801
4,1959-06-30 23:59:59.999999999,infl,2.34


In [56]:
pivoted = ldata.pivot('date', 'item', 'value')
pivoted.head()

item,infl,realgdp,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-03-31 23:59:59.999999999,0.0,2710.349,5.8
1959-06-30 23:59:59.999999999,2.34,2778.801,5.1
1959-09-30 23:59:59.999999999,2.74,2775.488,5.3
1959-12-31 23:59:59.999999999,0.27,2785.204,5.6
1960-03-31 23:59:59.999999999,2.31,2847.699,5.2


In [None]:
# statistics : ggg

## 데이터 변형

#### 1. removing duplicates
- 중복된 row를 식별하고 이를 제거하는 방법을 학습한다.
- df.duplicated() : df.drop_duplicates()의 하위 개념으로 함수 적용 시, 중복인지 아닌지 여부를 boolean Series로 반환.
- subset : column label 혹은 sequence of labels. 중복을 식별할 열을 지정.
- keep
- inplace

In [None]:
df.drop_duplicates = df[~df.duplicated()] : 같은 의미. why? boolean Series에 의한 indexing

In [None]:
df.drop_duplicates(['k1']) # 1개의 열을 고르더라도 subset으로 다루기 때문에 여러 열을 사용하듯이 지정해야함.

#### 2. transforming, mapping

#### mapping
- 'A' 열의 설명을 위한 새로운 column을 추가하려고 할 때.
- 'A'의 각 열의 key을 값으로하는 열을 추가하고 싶을 때. map 함수 사용
- map : vector(Series)의 각 성분별 함수 결과 또는 각 성분을 key로하는 value를 리턴한다. df에서는 사용불가

ex) data['col1'] = data['A'].map(str, lower).map(dict) # dict의 key는 'A'의 각 열과 동일하다.

#### 3. replace value
- 결측치 대체
- 

In [1]:
data = Series([1, -999, 3, -999, 5])
data

NameError: name 'Series' is not defined

In [None]:
data.replace(-999, np.nan)
data.replace([-999, 5], [np.nan, 0])

#### 4. renaming axis indexes

#### 5.Discretization and binning(개별화와 양자화)
연속된 data는 종종:
- 개별로 분할하거나
- 분석을 위한 그룹(bin)으로 나눈다.

pd.cut()
- bin으로 나눌 구간은 ( , ]으로 정의되므로 첫 항은 빠진다. 따라서 일반적으로 +- 5% 정도 범위를 늘려서 계산한다.
- label을 지정하면 각 구간에 이름도 넣어줄 수 있다.
- 주로 설문조사를 컴퓨터에 입력할 때 사용. ex) 이를 coding이라고 함. 
- 구간을 나눈 요소들을 들어오는 데이터에 적용해서 code로 나타냄.

pd.qcut()
- 그룹별로 속한 개체 수가 다르지만, 동일한 크기의 그룹수를 지정하고자 할 때 사용.
- 백분율기반의 bin을 생산하므로, 항상 동일한 크기의 그룹을 보장한다.

#### 6. filtering outliers
- df.describe()

In [None]:
# 통계량 boolean indexing 적용해보기
ex) data[['col1', 'col2']][:5][True, True, False, False, False] 

In [None]:
# Series 적용해보기
col = data[3]
col[np.abs(col) > 3] 

- df.any

In [4]:
arr = np.array([0, -5, 2, 7])
arr > 0

array([False, False,  True,  True])

In [None]:
l = [0, -5, 2, 7]

b = list(map(lambda x: x>0, l)) # list boolean은 이런식으로...?
any(b) # 1개라도 True면 True

In [12]:
all(b) # 전부 True가 아니라면 False

False

In [None]:
(np.abs(data) > 3).any(axis = 0) # np.abs(data) > 3는 df으로 boolean indexing 되서 반환된다.

In [None]:
data[(np.abs(data) > 3).any(axis = 0)] # boolean indexing으로 True인 데이터만 df으로 반환.

In [None]:
data[np.abs(data) > 3] = np.sign(data) * 3 # 왼쪽의 data는 data size가 유지됨.
data.describe()

#### 7. Permutation and random sampling(치환과 임의 샘플링)
비복원 추출  
np.permutation()
- 중복된 row는 없음.
- 주머니에서 'a'구슬을 뽑으면 그 구슬은 다시 집어넣지 않는다.
- row를 임의의 순서로 재배열하거나, 임의 샘플링하는 방법을 알아본다.
- 순서를 바꾸고 싶은 만큼의 길이를 np.permutation 함수에 넘기면 임의 순서의 정수배열을 얻을 수 있다.

In [16]:
df = DataFrame(np.arange(5 * 4).reshape((5,4)))
sampler = np.random.permutation(5)
sampler

array([4, 0, 3, 1, 2])

In [20]:
# 여기서 반만 train data 나머지는 test data로 쓰려고 한다.
# 주로 사용하는 예시
# titanic data 다 합친거를 다시 7대3으로 나눠보자.
i = sampler.size * 0.5
i = round(i)
train_idx = sampler[:i]
val_idx = sampler[i:]
print(train_idx)
print(val_idx)

[4 0]
[3 1 2]


In [None]:
train_df = df.iloc[train_idx]
val_df = df.iloc[val_idx]

In [23]:
df.take(sampler) # sampler에 의해 섞인 df 

Unnamed: 0,0,1,2,3
4,16,17,18,19
0,0,1,2,3
3,12,13,14,15
1,4,5,6,7
2,8,9,10,11


In [25]:
df.iloc[sampler] # 위와 동일한 연산

Unnamed: 0,0,1,2,3
4,16,17,18,19
0,0,1,2,3
3,12,13,14,15
1,4,5,6,7
2,8,9,10,11


복원추출
- 중복된 row도 포함.
- np.random.randint 사용.
- 주머니에서 구슬뽑고 다시 구슬 넣음

np.random.randint()
- [low, high] 사이의 임의의 정수 size만큼 리턴

#### 8. Computing indicator and dummy variables(표시자와 범주형 변수)
- 예측 model에는 전부 숫자만 들어갈 수 있음.
- 이항 : 남녀, P/N, 동전 앞/뒤
- 다항 : 서열(범주+순서에 의미가 있는 것), Categorical

one-hot encode
- sparse하다? 대부분이 0이고 1이 드물다.
- sparse matrix : df를 조작하여 만들고, one-hot encoding하여 숫자로 풀어서 다시 만든 것.
- 예측 model에는 pandas로 조작한 df가 아니라 one-hot encoding하여 전부 숫자로 변환한 것을 넣는다.
- 정보가 유실되지 않는다.

서열범주
- one-hot encoding : data가 유실되지 않음. but, data가 무거워짐.
- 등간 숫자 : 의미 있는 순서를 1,2,3으로 만듬(숫자의 weight를 조절할 수 있음. ex) 10, 30, 50. / but, data가 유실될 수도 있음

Categorical
- ex) 고기의 육류별 종류를 육해공으로 압축.
- 분석 목적에 따라 압축시키는 방법은 전부 다름.

#### pd.get_dummies()
- 범수형 변수(지시자)를 one-hot encoding(더미변수)형식으로 변경하는 것이다.
- drop_first : 한 차원을 더 축소시키는 방법. 주로 R에서 사용
- add_prefix('name_') : 더미 이름 붙여주기

In [None]:
# df + dummies 
pd.get_dummie(df, key = ['key'])

#### movielens 영화 데이터의 더미변수 생성
- 구분자가 2글자 이상이거나, 정규 표현식인 경우. c parsing engine이 동작하지 않아 경고메세지 나옴. engine=python으로 해주셈

In [None]:
# 장르를 통해 one-hot encoding을 실시해보자.

genre_iter = (set(x.split('|')) for x in movies.genres) # 장르 데이터를 집합으로 만듦. 
# 이는 generator로써 값을 가진게 아니라 iterator를 동작하게 하는 역할
genre_iter # 데이터를 담고 있지 않음.

In [27]:
# 범주를 나눌 때 효과적인 code
genre = sorted(set.union(*genre_iter))

- set.union 함수는 genre_iter을 매 반복마다 합집합 시킴. 즉, data를 늘리지않고 unique한 요소들만 계속 추가시킴.
- sorted 내장함수는 iterable의 각 속성을 정렬해서 list로 반환한다.

___
- generator, iterator, iterable에 대해 알아보자.

f(v) for v in container : iterator. 값을 가진게 아니라 일정하게 찍어내기만함. 불변(immutable)
- list comprehension : [f(v) for v in container]
- generator : (f(v) for v in container), tuple처럼 보이지만 generator ^ ^
- set : {f(v) for v in container}
- dict : {}

___

In [None]:
dummies = DataFrame(np.zeros((len(movies), len(genres))), columns=genres)

In [None]:
for i, gen in enumerate(movies, genres):
    dummies.loc[i, gen.split('|')] = 1

- df에서 genre 열을 삭제하고, dummies로 만든 새로운 column을 결합하자.

## 문자열 다루기
- python이 대중적 인기를 끈게 된 것은 이거때문임. ㅎㅎ

In [None]:
# 정규표현식
# 자주 까먹음