# COMPUSTAT 전처리

### 1. currency 확인
- 문제: compustat global의 경우 currency 지멋대로
- 각 회사별 currency code 필요 => wrds에서 받은 data와 merge (gvkey가 있어서 다행)
- compustat US도 currency code = 'USD' 붙이고
- compustat global + US 해서 완성본 만들기

### 2. currency 통일
- 그럼 이제 USD로 통일하자
- 그러려면 currency마다 매년 exchange rate 알아야 함
- globla과 US에 **동시에 등장하는 기업**들 개꿀!
    - compustat에서 USD로 이미 바꿔줌 & 바꾸면서 exchange rate도 적어놓음
    - 동시에 등장하는 기업은 global 삭제, US만 남김 (gvkey로 구분 가능)
    - exchange rate 활용해서 다른 기업들도 USD로 바꾸자
    
### 3. net income 통일
- global: nicon, ninc (연결, 별도)
- us: ninoc
- 연결, 별도 재무정보가 모두 존재하면 연결 사용  
=> new_assignee, year, patent_id가 같은 상태에서 consol=C 살리고 consol=N 죽이면 됨  
=> 정렬했기 때문에 C가 항상 N보다 위에 있음  
=> __keep first__

### 1. compustat global+US

In [1]:
#-*- coding: utf-8 -*-
import pandas as pd
import os

os.chdir('E:/apps/compustat')

glb = pd.read_csv('compustat_08-12_glb.csv')
us = pd.read_csv('compustat_08-12_us.csv')
curcd = pd.read_csv('08-12_curcd.csv')

glb = glb.merge(curcd, how='left', on=['gvkey','fyear'])
us['curcd'] = 'USD'

glb = pd.concat([glb,us],ignore_index=True)
glb.sort_values(by='gvkey',inplace=True)

### 2. currecy 통일
** 2.1 global, US 동시 등장 기업 정리 **
- global 출신 data는 모두 ninoc == na 인 걸 활용해서 정리하자
- gvkey, fyear, ninoc 기준으로 오름차순 정렬 후 keep first 하면 끝 (na가 밑에 있으니까)

In [2]:
a=len(glb)
glb.sort_values(by=['gvkey','fyear','ninoc'],inplace=True)
glb = glb.drop_duplicates(subset=['gvkey','fyear'],keep='first')
glb.to_csv('compustat_08-12_glbus.csv',index=False)

print a, len(glb), a-len(glb)

225916 215716 10200


__2.2 exchange rate 파악__

In [3]:
# 동시 등장 기업 활용
currtr = pd.read_csv('08-12_currtr.csv')
currtr = currtr.drop_duplicates()
len(currtr)

46647

In [4]:
curr = curcd.merge(currtr, how='left', on=['gvkey','fyear'])
del curr['gvkey']
curr = curr.drop_duplicates()
len(curr)

664

In [5]:
curr=curr.groupby(['curcd','fyear']).mean()
curr.to_csv('exchange_rate_08-12.csv')

__2.3 USD로 통일__
- 데이터를 재무정보+curcd & 나머지로 나누기
- 재무정보에 환율 곱하기
- 다시 합치기

In [1]:
#-*- coding: utf-8 -*-
import pandas as pd
import os, math

os.chdir('E:/apps/compustat')

glb = pd.read_csv('compustat_08-12_glbus.csv')
glb = glb.loc[pd.isnull(glb['curcd'])==False]

In [2]:
cols = glb.columns.tolist()
split = ['conm','consol','datadate','fic','gvkey']
for i in split:
    cols.remove(i)

split += ['curcd','fyear']
tmp_num = glb[cols]
tmp = glb[split]

curr = pd.read_csv('exchange_rate_08-12.csv')

tmp_num = tmp_num.merge(curr, how='left', on=['curcd','fyear'])
tmp_num.drop(['curcd', 'fyear'], axis=1, inplace=True)

In [5]:
def usd(row):
    rate = row[-1]
    if not math.isnan(rate):
        row = map(lambda x: x*rate, row)
        
    return row

tmp_num = tmp_num.apply(usd, axis=1,reduce = False)
del tmp_num['currtr']

glb = pd.concat([tmp,tmp_num], axis=1)
glb.to_csv('compustat_08-12_usd.csv',index=False)

### 3. net income 통일
연결과 별도 동시 존재할 때, 연결 기준으로 통합  
__ =>  NINC < NICON__ for non-US company
사전에 excel로 __consol, ninoc__ 기준으로 정렬,  
36035: ninoc -> nicon  
208643: nicon -> ninc

In [1]:
#-*- coding: utf-8 -*-
import pandas as pd
import os
import numpy as np

os.chdir('E:/apps/compustat')

In [2]:
df = pd.read_csv('compustat_08-12_usd.csv')
print list(df).index('consol'), list(df).index('nicon')

1 22


nicon = 22, ninc = 23, ninoc = 24

In [3]:
print df.iloc[208643,1], df.iloc[208644,1]

C N


In [4]:
print df.iloc[36035,24], df.iloc[36036,24]

104821.0 nan


In [5]:
df['ni']=np.nan
list(df).index('ni')

32

In [6]:
for i in range(0,len(df)):
    if i<36036:
        df.iloc[i,32] = df.iloc[i,24]
    
    elif i>36035 and i<208644:
        df.iloc[i,32] = df.iloc[i,22]
        
    else:
        df.iloc[i,32] = df.iloc[i,23]

In [7]:
df.drop(['nicon','ninc','ninoc'], axis=1, inplace=True)
df.sort_values(by=['gvkey','fyear'],inplace=True)
df.to_csv('compustat_08-12.csv',index=False)