Note: 데이터 로딩, 랭글링에 관한 자료정리 <br/> 
Major References:
- python for Data Analysis, O'Reilly, WesMckinney
- Getting and Cleaning Data, Coursera, John's Hopkins
---

** Table of Contents **  
[1. Data Loading, Storage, and File Formats](#1.0)  
[1.1 Indexing](#1.1)  
[1.2 retreiving/returning](#1.2)  
[1.3 Data-Loading](#1.3)  


[2. Combining and Merging](#2.0)  
[2.1 DB style Dataframe Merge](#2.1)  
[2.2 Merging on Index](#2.2)  
[2.3 Concatenating Along an Axis](#2.3)  
[2.4 Combining Data with Overlaping](#2.4)


[3. Reshaping & Pivoting](#3.0)  
[3.1 Reshaping with Hierarchical Indexing](#3.1)  
[3.2 Pivoting](#3.2)  

[4. Data Transformation](#4.0)

# <a name="1.0"></a> 1. Data Loading, Storage, and File Formats

In [107]:
import pandas as pd
from pandas import DataFrame, Series
import numpy as np

## <a name="1.1"></a> 1.1 Indexing

COLUMNS & INDEX 파라미터를 이용하여 행/열 인덱싱을 한다
> 
```css
df_test = pd.DataFrame(np.random.randn(4,2), columns = [ ... ], index = [ ... ] )
```
>


In [108]:
#ThinkStats ===========
df_test = pd.DataFrame(np.random.randn(4,2), columns = ['A','B'], index = ['a','b','c','d'] )
df_test

Unnamed: 0,A,B
a,-0.463541,-1.555422
b,0.367058,-0.997723
c,-0.780722,-2.151163
d,-0.879776,-1.806902


In [109]:
df_test['A']

a   -0.463541
b    0.367058
c   -0.780722
d   -0.879776
Name: A, dtype: float64

** # row와 column의 인덱스 네임 지정** 

In [110]:
df_test.index.name = 'row name'
df_test.columns.name = 'column name'
df_test

column name,A,B
row name,Unnamed: 1_level_1,Unnamed: 2_level_1
a,-0.463541,-1.555422
b,0.367058,-0.997723
c,-0.780722,-2.151163
d,-0.879776,-1.806902


## <a name="1.2"></a> 1.2 retreiving/returning

**  # column 선택 & 리턴 ** 

In [111]:
df_test['A']

row name
a   -0.463541
b    0.367058
c   -0.780722
d   -0.879776
Name: A, dtype: float64

** # row 선택 & 리턴**  
>   
```css
df.ix ['...']
df.loc['...']
```
>  


In [112]:
df_test.ix['a']

column name
A   -0.463541
B   -1.555422
Name: a, dtype: float64

In [113]:
df_test.loc['a']

column name
A   -0.463541
B   -1.555422
Name: a, dtype: float64

 아래와 같이 df['a'] 는 column을 부르는 방식이라 애러가 생김


```css 
df_test['a'] # Error ```

## <a name="1.3"></a> 1.3 Data Loading

In [114]:
#!cat for printing
!cat ex-pydatabook/ch06/ex1.csv 

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [115]:
#Read .CSV file into a DataFrame
df = pd.read_csv('ex-pydatabook/ch06/ex1.csv')

#names: 아래와 같이 헤더(인덱스)를 지정해 줄 수 있음
df = pd.read_csv('ex-pydatabook/ch06/ex1.csv', names= ['a','b','c','d','message'])

#index_col: 컬럼 하나를 인덱싱으로 지정할 수 있음
nm = ['a','b','c','d','message']
df = pd.read_csv('ex-pydatabook/ch06/ex1.csv', names = nm , index_col='message')

#계층적 색인 (hierarchical index)
!cat ex-pydatabook/ch06/csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [116]:
parsed = pd.read_csv('ex-pydatabook/ch06/csv_mindex.csv', index_col = ['key1','key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [117]:
#csv가 아니고 txt 같은 fixed delimiter가 없는 파일 및 데이터 형식에서는 공백,',',파이선 정규표현식을 이용
#sep
list(open('ex-pydatabook/ch06/ex3.txt')) #txt는 open 으로?
#!cat ex-pydatabook/ch06/ex3.txt 와 비교했을때, 구분자를 확인하기 힘듬
result = pd.read_table('ex-pydatabook/ch06/ex3.txt',sep='\s+') # \s+ --> 공백문자 처리


####  # read_table과 read_csv의 차이점:
- read_csv: 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어옴. 데이터 구분자는 쉼표(,)가 기본
- read_table: 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어옴. 데이터 구분자는 탭('\t')가 기본
- 즉, 둘 다 사용을 해도 되지만 가급적 read_csv 같은 경우는 csv 파일만 사용을 하고 나머지 특별한 경우를 read_table로 활용

#### # read_table/read_csv function arguments 
파서 함수는 파일 형식에서 발생할 수 있는 매우 다양한 예외를 잘 처리할 수 있도록 많은 추가 인자를 가지고 있음 (책 참조)

**주요 function arguments:**
- skiprows
- na_values: 누락된 값이나 특정한 값들을 NaN으로 처리
- nrows: 처음 몇줄만 읽음


#### # Manually working with Delimited Formats

malformed 데이터를 다뤄야 하는 상황이 적지 않기 때문에, 매뉴얼하게 데이터를 로딩해야 하는 경우들이 생김. 'read_table' 로 다루기 힘들 데이터들

In [118]:
!cat ex-pydatabook/ch06/ex7.csv

"a","b","c"
"1","2","3"
"1","2","3","4"


(나 솔직히 이 파트 요지를 모르겠음)

In [119]:
import csv
f = open('ex-pydatabook/ch06/ex7.csv')

#csv.reader()
#이를 통해 line iterating을 할 수 있음. 아래 두줄은 한 set와 같음
reader = csv.reader(f) 
for line in reader:
    print line

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3', '4']


In [120]:
#위에 과정을 아래처럼 한번에 요약가능
lines = list(csv.reader(open('ex-pydatabook/ch06/ex7.csv')))
lines

[['a', 'b', 'c'], ['1', '2', '3'], ['1', '2', '3', '4']]

In [121]:
header,values = lines[0],lines[1:] # decomposition
data_dict = {h:v for h, v in zip(header, zip(*values))}
print data_dict

{'a': ('1', '1'), 'c': ('3', '3'), 'b': ('2', '2')}


#### #CSV Note
- 좀 더 복잡하거나 구분자가 한 글자를 초과하는 고정 길이를 가진다면 csv 모듈을 사용불가
- 이경우 줄을 나누고 문자열의 split 메서드나 정규표현식 메서드인 re.split 등을 이용해서 가공하는 작업을 해야 함

** # json 타입 처리 ** <br/>
** # XML, HTML Web Scraping (웹 내용 긁어오기) **<br/>
** # Interacting with HTML & Web APIs **<br/>
** # Interacting with Database **<br/>
상기 두 토픽관련내용은 책 참조






# <a name="2.0"></a> 2. Combining and Merging

** # 내장함수를 이용해 데이터 합치기 **  
- pandas.merge는 하나 이상의 키를 기준으로 DataFrame의 로우를 합침  
- SQL이나 다른 관계형 데이터 베이스의 join 연산과 유사  
- pandas.concat은 하나의 축을 따라 객체를 이어붙임  
- combine_first 인스턴스 메서드는 두 객체를 포개서 한 객체에서 누락된 데이터를 다른 객체에 있는 값으로 채우게 할 수 있음  

## <a name="2.1"></a> 2.1 DB style Dataframe Merges 

[Key를 이용해 row 병합]  
키를 사용해서 dataframe의 row를 합침  
> 
```css
pd.merge(dfX,dfY,on='키값')
```
>

In [122]:
df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'], 'data1':range(7)})
df2 = pd.DataFrame({'key':['a','b','d'],'data2':range(3)})

In [123]:
pd.merge(df1,df2) # 특정 column을 지정하지 않으면, 겹치는 값을 column을 key로 사용

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


In [124]:
pd.merge(df1,df2,on='key') # 알아서 키를 선택한다고 해도, 지정하는것이 좋은 습관

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


df1에서 c와 df2에서 d는 교차 *intersection* 하지 않으므로 값 누락(교차를 기본 전제로함)

** # key 값이 겹치지 않을때: 별도 지정 ** (left_on, right_on)  
>```css
>pd.merge(dfX,dfY,left_on='~~~',right_on='~~~')
>```  

앞선 예처럼, 교차하지 않는 'c'와 'd'에 해당하는 값 누락  
merge 함수는 기본적으로 내부조인(inner join)을 수행하여 교집합인 결과를 반환


In [125]:
df3= pd.DataFrame({'lkey':['b','b','a','c','a','a','b'],'data1':range(7)})
df4= pd.DataFrame({'rkey':['a','b','d'], 'data2':range(3)})

#pd.merge(df3,df4) # 이렇게 merge하면 ERROR 발생!

pd.merge(df3,df4,left_on = 'lkey',right_on= 'rkey')

Unnamed: 0,data1,lkey,data2,rkey
0,0,b,1,b
1,1,b,1,b
2,6,b,1,b
3,2,a,0,a
4,4,a,0,a
5,5,a,0,a


** # 외부 Join **  

>```css 
> pd.merge(df1,df2, how = 'outer/right/left/inner')
>```  

** function arguemnts: **
- 'left': 왼쪽 key 기준 외부 join. 
- 'right': 오른쪽 key 기준 외부 join. 
- 'outer': union of the keys. 합집합 결과 keys from both dataframes
- 'inner': 내부조인. use intersections

In [126]:
#example
df1 = pd.DataFrame({'key':['b','b','a','c','a','b'],'data1':range(6)})
df2 = pd.DataFrame({'key':['a','b','a','b','d'],'data2':range(5)})
print df1
print df2
#merge by outer joining
pd.merge(df1,df2,on='key',how='left')

   data1 key
0      0   b
1      1   b
2      2   a
3      3   c
4      4   a
5      5   b
   data2 key
0      0   a
1      1   b
2      2   a
3      3   b
4      4   d


Unnamed: 0,data1,key,data2
0,0,b,1.0
1,0,b,3.0
2,1,b,1.0
3,1,b,3.0
4,2,a,0.0
5,2,a,2.0
6,3,c,
7,4,a,0.0
8,4,a,2.0
9,5,b,1.0


위 예시에서 볼수 있듯이, df1과 df2가 서로 가지고 있지 않은 key값은 NaN으로 처리되어 테이블이 
join함  
위와 달리, `how ='inner' `로 설정하면 앞선 예시처럼 교차하지 않는 key값은 날아감 (아래예시참조)

In [127]:
pd.merge(df1,df2,how='inner') # pd.merge(df1,df2)와 동일한 효과

Unnamed: 0,data1,key,data2
0,0,b,1
1,0,b,3
2,1,b,1
3,1,b,3
4,5,b,1
5,5,b,3
6,2,a,0
7,2,a,2
8,4,a,0
9,4,a,2


** # Merge with multiple keys 복수의 키로 병합**  
column 리스트를 전달.



In [128]:
left = pd.DataFrame({'key1':['foo','foo','bar'],
                     'key2':['one','two','one'],
                     'l_val':[1,2,3]})
right = pd.DataFrame({'key1':['foo','foo','bar','bar'],
                      'key2':['one','one','one','two'],
                      'r_val':[4,5,6,7]})

pd.merge(left,right,on=['key1','key2'],how='outer')

Unnamed: 0,key1,key2,l_val,r_val
0,foo,one,1.0,4.0
1,foo,one,1.0,5.0
2,foo,two,2.0,
3,bar,one,3.0,6.0
4,bar,two,,7.0


key를 하나만 지정했을때의 예제. 지정한 키 기준으로 join하고 (없는건 짤림), 겹치는 칼럼 이름처리(suffixes 파라미터 설정으로 변경가능)

In [129]:
pd.merge(left, right, on='key1', suffixes=('_left', '_right'))

Unnamed: 0,key1,key2_left,l_val,key2_right,r_val
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


## <a name="2.2"></a> 2.2 Merging on Index 

[Index을 이용해 column을 병합]  
기본 원리는 비슷하니 자세한 내용은 [여기](http://nbviewer.ipython.org/github/re4lfl0w/ipython/blob/master/books/python_data_analysis/ch07_Data_prepare_fixing_transform_merge.ipynb#7.1.2-색인-머지하기) 활용. 문서화하다 시간 다감!

** # Merging on Index **  
>  
```css
pd.merge(leftdf1, rightdf1, left_on='키이름', right_index=True)
```
>  

** # Join method **  
index로 합치는 경우, 색인구조가 유사 & 컬럼이 겹치지 않는 경우, 여러게 dataframe를 합칠때 Join 메소드를 쓰는게 깔끔하고 편리  
>  
```css
left2.join(right2, how='outer')
```
>  



In [130]:
left2 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]], index=['a', 'c', 'e'],columns=['Ohio', 'Nevada'])
right2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.],[13,14]], index=['b', 'c','d', 'e'],columns=['Missouri', 'Alabama'])
print left2
print right2

   Ohio  Nevada
a     1       2
c     3       4
e     5       6
   Missouri  Alabama
b         7        8
c         9       10
d        11       12
e        13       14


In [131]:
#기존 Merge를 이용했을때 사용예
pd.merge(left2,right2,how='outer',left_index=True,right_index=True) 

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [132]:
# in other hands, join을 이용했을때. 간편함
left2.join(right2, how='outer')

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


다만 join은 왼쪽 우선 join한다.(performs a left join on the join keys)  
index-on-index 색인 대 색인 병합은 join으로 가능하나(앞선 링크 참조), 일반적으로 `concat` 메소드를 이용함

## <a name="2.3"></a> 2.3 Concatenating Along an Axis

axis = 0 : row 합침 (기본)  
axis = 1 : column 합침

** # 기본 명령어 ** 
>  
```css
pd.concat([s1,s2,s3], axis = 0 or axis =1)
```
>  

In [133]:
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])

# axis에 따라 row/column 병합 방향 달라짐
pd.concat([s1,s2,s3], axis = 0)

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

** # join 파라미터 설정으로 교집합 설정가능 **  
>  
```css
pd.concat([s1, s4], axis=1, join='inner')
```
>  

In [134]:
s1

a    0
b    1
dtype: int64

In [135]:
s4 = pd.concat([s1 * 5, s3])
s4

a    0
b    5
f    5
g    6
dtype: int64

In [136]:
pd.concat([s1, s4], axis=1)

Unnamed: 0,0,1
a,0.0,0
b,1.0,5
f,,5
g,,6


** # Merge하려는 축을 개별로 지정 가능 **  
>  
```css
pd.concat([s1, s4],axis=1,join_axes=[['a','c','b','e']])
```
>  

In [137]:
pd.concat([s1, s4],axis=1,join_axes=[['a','c','b','e']])

Unnamed: 0,0,1
a,0.0,0.0
c,,
b,1.0,5.0
e,,


** # 계층적 인덱싱  **  

위 결과에서는 이어붙이기 전의 Series/df를 알수 없으므로, 계층적 인덱싱을 *keys*를 통해 할 수 있음. 즉, 언제 누가 붙여진지 구분가능

>  
```css
pd.concat([s1,s2, s4],keys=['one','two','three'])
pd.concat([s1,s2,s3], axis=1, keys = ['one','two','three']) //컬럼명 지정의 역할 
```
>  


In [138]:
result = pd.concat([s1,s4],keys = ['one','two'])
result

one  a    0
     b    1
two  a    0
     b    5
     f    5
     g    6
dtype: int64

unstack 활용 가능 (다음에 다룸)

In [139]:
result.unstack()

Unnamed: 0,a,b,f,g
one,0,1,,
two,0,5,5.0,6.0


axis=1로 병합할시에는, *keys* 는 dataframe column의 header가 됨: 

In [140]:
pd.concat([s1,s2,s3], axis=1, keys = ['one','two','three'])

Unnamed: 0,one,two,three
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


** # Dataframe도 앞서 설명한 Series처럼 적용 가능 **  
<span style="color:orange; font-weight:bold; font-size:12pt"> @@ 개인적으로 제일 빈도 높게 사용할 것 같은 명령문 @@ </span>

>  
```css
pd.concat([df1,df2],axis=1,keys=['level_1','level_2'])
```
>  


In [141]:
df1 = pd.DataFrame(np.arange(6).reshape(3,2), 
                   index = ['a','b','c'],columns= ['one','two'])
df2 = pd.DataFrame(5+np.arange(4).reshape(2,2),
                  index = ['a','c'],columns = ['three','four'])
pd.concat([df1,df2],axis=1,keys=['level_1','level_2'])

Unnamed: 0_level_0,level_1,level_1,level_2,level_2
Unnamed: 0_level_1,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


** 위 작업을 요로코럼 할 수도 있음 **  
(객체의 사전을 넘긴다면 사전의 키가 keys 옵션으로 사용)

In [142]:
pd.concat({'level 1':df1, 'level 2':df2},axis=1)

Unnamed: 0_level_0,level 1,level 1,level 2,level 2
Unnamed: 0_level_1,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [143]:
#계층적 index에 네이밍 가능
pd.concat([df1,df2], axis=1, keys=['level 1','level 2'], names= ['upper','lower'])

upper,level 1,level 1,level 2,level 2
lower,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


** # row index가 중요하지 않을때 **  
즉, concat할때 row는 그냥 들어오는대로 알아서 인덱싱하면 충분한 경우.

>  
```css
pd.concat([df1,df2],ignore_index=True)
```
>  

In [144]:
df1= pd.DataFrame(np.random.randn(3,4),columns = ['a','b','c','d'])
df2= pd.DataFrame(np.random.randn(2,3),columns = ['b','d','a'])
print "df1= \n",df1,"\n" , "df2= \n",df2

df1= 
          a         b         c         d
0  1.159901 -0.548186 -0.910701  1.455306
1 -2.124707 -0.139764 -0.636381 -0.037366
2  0.550250 -0.834038  1.825518  0.072391 
df2= 
          b         d         a
0  0.296870 -1.111923 -0.798104
1 -0.352512 -0.220206 -1.292547


In [145]:
pd.concat([df1,df2],ignore_index=True)

Unnamed: 0,a,b,c,d
0,1.159901,-0.548186,-0.910701,1.455306
1,-2.124707,-0.139764,-0.636381,-0.037366
2,0.55025,-0.834038,1.825518,0.072391
3,-0.798104,0.29687,,-1.111923
4,-1.292547,-0.352512,,-0.220206


** # concat 함수 인자 **

|인자 | 설명|
|:----|:---|
|objs | 이어붙일 pandas 객체의 사전이나 리스트. 필수 인자|
|axis|이어붙일 축 방향. 기본값은 0|
|join|조인 방식. 'inner'(내부조인, 교집합)와 'outer'(외부조인, 합집합)가 있으며 기본값은 'outer'|
|join_axes|합집합/교집합을 수행하는 대신 다른 n-1 축으로 사용할 색인을 지정|
|keys|이어붙일 객체나 이어붙인 축에 대한 계층 색인을 생성하는 데 연관된 값이다. 리스트나 임의의 값이 들어있는 배열, 튜플의 배열 또는 배열의 리스트(levels 옵션에 다차원 배열이 넘어온 경우)가 될 수 있음|
|levels	|계층 색인 레벨로 사용할 색인을 지정한다. keys가 넘어온 경우 여러 개의 색인을 지정|
|names|keys나 levels 혹은 둘 다 있을 경우, 생성된 계층 레벨을 위한 이름|
|verify_integrity|이어붙인 객체에 중복되는 축이 있는지 검사하고 있다면 예외를 발생시킨다. 기본값은 False로, 중복을 허용|
|ignore_index|이어붙인 축의 색인을 유지하지 않고 range(total_length)로 새로운 색인을 생성|

## <a name="2.4"></a> 2.4 Combining Data with Overlaping 
- 인덱스가 오버랩되는 데이터 셋을 다뤄야 할때, (merge 나 concatenate 으로 불가능한 상황) 
- Numpy의 where 함수를 통해 가능  (벡터화된 if-else 구문)

>  
```css
np.where(pd.isnull(a), b, a)
```
>  

- 또는 combine_first() 이용 

>  
```css
b[:-2].combine_first(a[2:])
```
>  


In [146]:
a= pd.Series([np.nan, 2.5, np.nan,3.5,4.5,np.nan ], index = ['f','e','d','c','b','a'])
b= pd.Series(np.arange(len(a), dtype=np.float64), index= ['f','e','d','c','b','a'])
b[-1] = np.nan
print " @a= \n",a 
print " @b= \n",b

 @a= 
f    NaN
e    2.5
d    NaN
c    3.5
b    4.5
a    NaN
dtype: float64
 @b= 
f     0
e     1
d     2
c     3
b     4
a   NaN
dtype: float64


In [147]:
# np.where: True가 있으면(null) b값을 대입하고 False면 a값을 대입
np.where(pd.isnull(a), b, a)

array([ 0. ,  2.5,  2. ,  3.5,  4.5,  nan])

In [148]:
#b.combine(a) 면, b를 우선순위로 데이터 합침
#데이터 정렬도 수행 (data alignment).
b[:-2].combine_first(a[2:])

a    NaN
b    4.5
c    3.0
d    2.0
e    1.0
f    0.0
dtype: float64

In [149]:
#참고
print "b[:-2] = \n", b[:-2]
print "a[2:] =  \n", a[2:]

b[:-2] = 
f    0
e    1
d    2
c    3
dtype: float64
a[2:] =  
d    NaN
c    3.5
b    4.5
a    NaN
dtype: float64


# <a name="3.0"></a> 3. Reshaping & Pivoting 

## <a name="3.1"></a> 3.1 Reshaping with Hierarchical Indexing  
- stack: rotate/pivots columns --> row
- unstack: pivots row --> columns

##  <a name="3.2"></a> 3.2 Pivoting

In [150]:
data = pd.read_csv('ex-pydatabook/ch07/macrodata.csv')
data.head()

Unnamed: 0,year,quarter,realgdp,realcons,realinv,realgovt,realdpi,cpi,m1,tbilrate,unemp,pop,infl,realint
0,1959,1,2710.349,1707.4,286.898,470.045,1886.9,28.98,139.7,2.82,5.8,177.146,0.0,0.0
1,1959,2,2778.801,1733.7,310.859,481.301,1919.7,29.15,141.7,3.08,5.1,177.83,2.34,0.74
2,1959,3,2775.488,1751.8,289.226,491.26,1916.4,29.35,140.5,3.82,5.3,178.657,2.74,1.09
3,1959,4,2785.204,1753.7,299.356,484.052,1931.3,29.37,140.0,4.33,5.6,179.386,0.27,4.06
4,1960,1,2847.699,1770.5,331.722,462.199,1955.5,29.54,139.6,3.5,5.2,180.007,2.31,1.19


In [151]:
periods = pd.PeriodIndex(year = data.year, quarter=data.quarter, name='date')
periods

PeriodIndex(['1959Q1', '1959Q2', '1959Q3', '1959Q4', '1960Q1', '1960Q2',
             '1960Q3', '1960Q4', '1961Q1', '1961Q2',
             ...
             '2007Q2', '2007Q3', '2007Q4', '2008Q1', '2008Q2', '2008Q3',
             '2008Q4', '2009Q1', '2009Q2', '2009Q3'],
            dtype='int64', name=u'date', length=203, freq='Q-DEC')

In [152]:
data = pd.DataFrame(data.to_records(), 
                    columns = pd.Index(['realgdp','infl','unemp'],name = 'item'),
                    index=periods.to_timestamp('D','end'))
data.head()

item,realgdp,infl,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-03-31,2710.349,0.0,5.8
1959-06-30,2778.801,2.34,5.1
1959-09-30,2775.488,2.74,5.3
1959-12-31,2785.204,0.27,5.6
1960-03-31,2847.699,2.31,5.2


In [153]:
ldata = data.stack().reset_index().rename(columns={0:'value'})
ldata[:5]

Unnamed: 0,date,item,value
0,1959-03-31,realgdp,2710.349
1,1959-03-31,infl,0.0
2,1959-03-31,unemp,5.8
3,1959-06-30,realgdp,2778.801
4,1959-06-30,infl,2.34


In [154]:
pivoted = ldata.pivot('date','item','value')
pivoted.head()

item,infl,realgdp,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-03-31,0.0,2710.349,5.8
1959-06-30,2.34,2778.801,5.1
1959-09-30,2.74,2775.488,5.3
1959-12-31,0.27,2785.204,5.6
1960-03-31,2.31,2847.699,5.2


In [155]:
ldata['value2'] = np.random.randn(len(ldata))
ldata[:5]

Unnamed: 0,date,item,value,value2
0,1959-03-31,realgdp,2710.349,0.73723
1,1959-03-31,infl,0.0,0.115803
2,1959-03-31,unemp,5.8,-0.370994
3,1959-06-30,realgdp,2778.801,-0.341367
4,1959-06-30,infl,2.34,0.902489


In [156]:
pivoted = ldata.pivot('date','item')
pivoted[:5]

Unnamed: 0_level_0,value,value,value,value2,value2,value2
item,infl,realgdp,unemp,infl,realgdp,unemp
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1959-03-31,0.0,2710.349,5.8,0.115803,0.73723,-0.370994
1959-06-30,2.34,2778.801,5.1,0.902489,-0.341367,-0.999096
1959-09-30,2.74,2775.488,5.3,-0.437443,0.854062,-0.298869
1959-12-31,0.27,2785.204,5.6,0.875982,-0.731729,0.824003
1960-03-31,2.31,2847.699,5.2,1.30391,-1.037545,-0.604713


# <a name="4.0"></a> 4. Data Transformation

##  <a name= "4.1" ></a> 4.1 Removing Duplicates
##  <a name= "4.2" ></a> 4.2 Transforming using Function or Mapping


In [157]:
data = pd.DataFrame({'food':['bacon', 'pulled pork', 'bacon', 'Pastrami',
                           'corned beef', 'Bacon', 'pastrami',
                           'honey ham', 'nova lox'] , 
                     'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


해당 음식의 고기 종류를 알려주는 column을 하나 추가한다면,

In [158]:
meat_to_animal = {
                  'bacon': 'pig',
                  'pulled pork': 'pig',
                  'pastrami': 'cow',
                  'corned beef': 'cow',
                  'honey ham': 'pig',
                  'nova lox': 'salmon'
                  }

map 메서드를 활용해서 값을 소문자로 변경  
>  
```css
data['food'].map(str.lower).map(meat_to_animal)
```
>  

In [159]:
# index를 지정함으로써 간단히 column 추가
data['animal'] = data['food'].map(str.lower).map(meat_to_animal)

In [160]:
#또는 위의 명령어를 lambda 함수로 수행할 수 있음
data['animal'] = data['food'].map(lambda x: meat_to_animal[x.lower()])

##  <a name= "4.3" ></a>  4.3 Replacing Values

* `fillna`
* `replace`

>  
```css
data.replace(치환대상, 치환값)
```
**값, 리스트, 딕셔너리 모두 가능*
> 


In [161]:
# -999로 표기된 누락 데이터를 NAN으로 치환
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data.replace(-999,np.nan)

0       1
1     NaN
2       2
3     NaN
4   -1000
5       3
dtype: float64

In [162]:
#1개 이상의 치환대상, 치환값의 치환
data.replace([-999,-1000],np.nan)
data.replace([-999,-1000],[999,1000])
data.replace({-999:np.nan,-1000:0})

0     1
1   NaN
2     2
3   NaN
4     0
5     3
dtype: float64

##  <a name= "4.4" ></a>  4.4 Renaming Axis Indexes

(앞절에서 다뤘던 내용)
* dataframe의 색인 이름을 바꾸고 싶으면 index와 column인자를 활용하면됨
>  
```css
pd.DataFrame(array, index = [A,B,C...], columns=[a,b,c,...])
```
>

* ** 또는, map함수 이용 **

>  
```css
data.index = data.index.map(str.upper)
```
>



In [163]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                 index = ['Ohio', 'Colorado', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [164]:
#요로코롬 data.index 로 색인 수정 가능
data.index = data.index.map(str.upper)

* ** rename 메서드 이용: 원래 객체 변경 X, 새로운 객체 생성 ** 
>  
```css
data.rename(index = str.title, columns=str.upper)
```
>


In [165]:
data.rename(index = str.title, columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [166]:
data #원본이 바뀌진 않음

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLORADO,4,5,6,7
NEW YORK,8,9,10,11


rename 메서드를 이용해 딕셔너리를 통해 부분적 인덱싱도 가능

In [167]:
data.rename(index={'OHIO':'INDIANA'},columns = {'three':'peekaboo'} )

Unnamed: 0,one,two,peekaboo,four
INDIANA,0,1,2,3
COLORADO,4,5,6,7
NEW YORK,8,9,10,11


inplace 인자를 통해 원본데이터 변경도 가능 (True로 설정)(예제 생략)

##  <a name= "4.5" ></a>  4.5 Discretization and Binning

** # pandas cut: **  
연속적 데이터를 bin을 통해 이산화 시킬수 있음.
>  
```css
binning_data = pd.cut([given data], [나누는 기준, bins])
```
> 

In [168]:
ages = [20, 22, 25, 27, 21, 23, 27, 31, 61, 45, 41, 32]

# 18-25, 26-35, 36- 60, 60+ 그룹으로 나누기
bins = [18,25,35,60,100]
cats = pd.cut(ages, bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, object): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

* pandas에서 반환하는 객체는 `Categorical` 객체 -->그룹 이름이 담긴 배열
* `Categorical`은 `labels`라는 속성에 있는 ages를 구분하는 카테고리 데이터인  `levels`라는 array를 가지고 있음

In [169]:
pd.value_counts(cats)

(18, 25]     5
(25, 35]     4
(35, 60]     2
(60, 100]    1
dtype: int64

right=False를 넘겨서 (와 ] 변경가능(i.e. 포함/불포함 관계 변경)

In [170]:
pd.cut(ages,[18,26,36,61,100], right = False)

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, object): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

cut 함수에 명시적으로 그룹의 경계 값을 넘기지 않고 그룹의 개수를 넘겨주면 데이터 내에서 최소값과 최대값을 기준으로 균등한 길이의 그룹을 자동으로 계산

In [171]:
data = np.random.randn(20)
pd.cut(data,4)

[(-1.273, -0.475], (-1.273, -0.475], (-2.0741, -1.273], (-1.273, -0.475], (-0.475, 0.323], ..., (0.323, 1.121], (-1.273, -0.475], (-0.475, 0.323], (-1.273, -0.475], (0.323, 1.121]]
Length: 20
Categories (4, object): [(-2.0741, -1.273] < (-1.273, -0.475] < (-0.475, 0.323] < (0.323, 1.121]]

### [... 중략 ...]

** # `qcut`:  **
quantile (변위치)를 기반으로 데이터 나눠줌. 데이터 분산에 따라 그룹에 속하는 데이터 개수가 다른데, `qcut`을 이용하면 그룹을 비슷한 크기로 등분 할 수 있음

>  
```css
binning_data = pd.qcut(data,number of quantiles)
```
> 

In [172]:
data = np.random.randn(100)
cats = pd.qcut(data,4) # cut into quantiles
pd.value_counts(cats)

(0.732, 2.0606]      25
(-0.0116, 0.732]     25
(-0.742, -0.0116]    25
[-3.737, -0.742]     25
dtype: int64

In [173]:
#비교
cats_cut = pd.cut(data,4,precision =2 )
pd.value_counts(cats_cut)

(-0.84, 0.61]     49
(0.61, 2.061]     29
(-2.29, -0.84]    21
(-3.74, -2.29]     1
dtype: int64

* quantile을 직접 정해줄 수 있음. 0~1 사이 값중에서.

In [174]:
pd.qcut(data,[0,0.1,0.5,0.9,1.])

[[-3.737, -1.106], (-0.0116, 1.443], (-1.106, -0.0116], (-1.106, -0.0116], (1.443, 2.0606], ..., (-1.106, -0.0116], (-1.106, -0.0116], (-1.106, -0.0116], (-0.0116, 1.443], (-1.106, -0.0116]]
Length: 100
Categories (4, object): [[-3.737, -1.106] < (-1.106, -0.0116] < (-0.0116, 1.443] < (1.443, 2.0606]]

##  <a name= "4.6" ></a>  4.6 Detecting and Filtering Outliers


** # ~.describe() 메서드로 NaN값을 제외한 summary statistics를 알아냄**
>  
```css
data.describe()
```
>

In [176]:
np.random.seed(12345)
data = DataFrame(np.random.randn(1000,4))
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.067684,0.067924,0.025598,-0.002298
std,0.998035,0.992106,1.006835,0.996794
min,-3.428254,-3.548824,-3.184377,-3.745356
25%,-0.77489,-0.591841,-0.641675,-0.644144
50%,-0.116401,0.101143,0.002073,-0.013611
75%,0.616366,0.780282,0.680391,0.654328
max,3.366626,2.653656,3.260383,3.927528


** # 특정 column 인덱스안에 조건을 통해서 필터링 ** 

>  
```css
col[조건식]
```
>

ex) given column, 절대값 3이 넘는 찾기:

In [180]:
target_col = data[3]
targe_col[np.abs(col) > 3]

97     3.927528
305   -3.399312
400   -3.745356
Name: 3, dtype: float64

** # 모든 column을 대상으로 적용할때 :  **

>  
```css
df[조건식.any]
```
>



In [181]:
data[(np.abs(data) > 3).any(1)]

Unnamed: 0,0,1,2,3
5,-0.539741,0.476985,3.248944,-1.021228
97,-0.774363,0.552936,0.106061,3.927528
102,-0.655054,-0.56523,3.176873,0.959533
305,-2.315555,0.457246,-0.025907,-3.399312
324,0.050188,1.951312,3.260383,0.963301
400,0.146326,0.508391,-0.196713,-3.745356
499,-0.293333,-0.242459,-3.05699,1.918403
523,-3.428254,-0.296336,-0.439938,-0.867165
586,0.275144,1.179227,-3.184377,1.369891
808,-0.362528,-3.548824,1.553205,-2.186301


In [182]:
np.any([[True, False], [True, True]])

True

In [183]:
np.any([[True, False], [True, True]], axis=0)

array([ True,  True], dtype=bool)

In [184]:
np.any([[True, False], [False, False]], axis=0)

array([ True, False], dtype=bool)

##  <a name= "4.7" ></a>  4.7 Permutation and Random Sampling

** # `numpy.random.permuation` ** :  
* Sereis나 Dataframe의 row를 랜덤하게 재배치 할 수 있다(Permutin; randomly reordering).
* permuation에 axis의 길이를 넘기면 바뀐 순서를 알려주는 배열을 리턴
(아래 sampler 예시)
* numpy.random.permutaion에서 반환된 값을 아래 명령어를 활용해서 최종적으로 섞어줌

>  
```css
df.take(np.random.permutation(axislength))
```
> 


In [187]:
df = DataFrame(np.arange(5 * 4).reshape(5, 4))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [186]:
sampler = np.random.permutation(5)
sampler

array([1, 3, 4, 0, 2])

In [188]:
df.take(sampler)

Unnamed: 0,0,1,2,3
1,4,5,6,7
3,12,13,14,15
4,16,17,18,19
0,0,1,2,3
2,8,9,10,11


** # permutation 이용해서 샘플링하기: **

>  
```css
df.take(np.random.permutation(axislength)[:n]) 
# n = 보고싶은 데이터 row 길이
```
> 




In [190]:
df.take(np.random.permutation(len(df))[:3])

Unnamed: 0,0,1,2,3
1,4,5,6,7
3,12,13,14,15
0,0,1,2,3


** # 치환을 통해 표본을 생성하기 위한 가장 빠른 방법:**  
--> np.random.randint를 사용

그러나 기본적으로 랜덤샘플링은 여러 효율적 방법이 있으니, 지금 적는 방법을 고수 할 필요 없음

In [195]:
bag = np.array([5, 7, -1, 6, 4])
sampler = np.random.randint(0,len(bag),size = 10)
print "bag=" ,bag , "\n", "Sampler= ", sampler

bag= [ 5  7 -1  6  4] 
Sampler=  [1 4 1 4 4 3 2 2 1 1]


In [196]:
#Sampler 순서에 따라 bag에 있는 원소들 배열
#sampling_array[0]: Sampler[0] = 1(위경우) --> bag[1] =7
#sampling_array[1]: Sampler[1] = 4(위경우) -->  bag[4] = 4
draws = bag.take(sampler)
draws

array([ 7,  4,  7,  4,  4,  6, -1, -1,  7,  7])